3 - Approccio Statistico

Approccio statistico
alla classificazione
Approccio parametrico e non
parametrico
Finestra di Parzen
Classificatori K-NN 1-NN
Limitazioni dell’approccio
bayesiano
z Con l’approccio bayesiano, sarebbe possibile
costruire un classificatore ottimo se si
conoscessero:
z le probabilità a priori P(ωi)
z le densità condizionate alla classe P(x|ωi)
z Informazioni che raramente sono disponibili
z Alternativa: costruire una classificatore da un

insieme di esempi (training set)
z Pro: stima delle P(ωi) semplicemente realizzabile
z Contro: training set troppo limitato per una stima affidabile
delle distribuzioni condizionate
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 1 di Cassino
1
Approccio parametrico e
non parametrico
z Due sono le soluzioni più diffuse
z Approccio parametrico
z Si assume una forma particolare per le pdf (es.
Gaussiane)
z Approccio non parametrico

z Non si assume alcuna conoscenza sulla forma
analitica delle pdf.
Approccio parametrico
z In questo tipo di approccio si assume nota la forma
delle densità condizionali; tipicamente si assume
una gaussiana P(x | ωi) ~ N( µi, Σi).
z Ci sono quindi due parametri da stimare per ogni
classe.
z Le tecniche più usate per la stima sono:
z Maximum-Likelihood (ML)
z Stima Bayesiana
z Sebbene differenti nella logica, le due tecniche
portano a risultati quasi identici.
2
Stima Maximum Likelihood
z I parametri sono fissati, ma non noti.
z I valori ottimali dei parametri sono ottenuti
attraverso la massimizzazione della
probabilità di ottenere i campioni osservati.
z La stima ha buone proprietà di convergenza
al crescere dell’insieme di campioni.
z E’ più semplice di altre tecniche.

z Principi generali
z assumiamo di avere c classi, con
P(x | ωj) ~ N( µj, Σj)
P(x | ωj) ≡ P (x | ωj, θj) dove:
θ j = (µ j ,Σ j ) = (µ1j,µ2j ,..., σ11 22 m n
j , σ j , cov(x j , x j )...)
z per ogni classe ωi abbiamo un insieme di

campioni Di
z supponiamo, inoltre, che i campioni in Di non
diano informazioni su θj
3
z In queste ipotesi si può lavorare indipendentemente su
ogni classe.
z Consideriamo una classe generica cui corrisponde un

insieme D contenente n campioni, x1, x2,…, xn estratti
indipendentemente.
z La probabilità di ottenere l’insieme D dato θ è quindi:
n
P(D | θ) = ∏ P(x k | θ)
k =1
z Per definizione la stima ML di θ è il valore che

massimizza P(D | θ).
E’ il valore di θ che meglio si accorda con i campioni di
training effettivamente osservati

z Per valutare più agevolmente l’insieme di parametri
θ, è opportuno osservare che:
θˆ = arg max[ p(D θ )] = arg max[log p(D θ )]
θ θ
e quindi considerare il problema equivalente:
  n   n 
θˆ = arg max log ∏ p(xk θ ) = arg max ∑ log( p (xk θ ))
θ   k =1  θ  k =1 
z In questo modo, l’espressione è più facile da
analizzare (derivate di somme invece che di
prodotti; semplificazioni per p() esponenziali)
4
Esempio: caso gaussiano, media non nota
z Supponiamo che D contenga n campioni

provenienti da una pdf gaussiana p( x) = N ( µ , σ )
con σ nota.
z Qual è la stima ML di µ ?
n  1 n  (x − θ )2  
θˆ = arg max ∑ log( p(xk θ )) = arg max ∑ log exp − k 2   =
 2π σ 2σ 
θ k =1 θ k =1   
n 
 1  ( xk − θ )  n 
( xk − θ ) 
2 2
= arg max ∑ log −  = arg max ∑ − 
θ k =1   2π σ  2σ 2  θ k =1  2σ 2 

z Calcoliamo la derivata e uguagliamola a 0:

d n  ( xk − θ )2  n  xk − θ 
dθ
∑ −
k =1 
=∑
2σ 2  k =1  σ 2 
=0
z Da cui: 1 n
µˆ = θˆ = ∑ xk
n k =1
5
Esempio: caso gaussiano, µ e σ non note
z Supponiamo che D contenga n campioni

provenienti da una pdf gaussiana p( x) = N ( µ , σ )
con µ e σ non note.
z Questa volta occorre considerare il gradiente
θ µ
θ =  1  =  2 
θ 2  σ 
 ∂ n   1 n 
 ∂θ ∑ log ( p (x k θ ))  ∑
θ 2 k =1
( x k − θ 1 ) 
∇θ =  1 k =1 
= n  = 0 
 ∂ n
( ( ))   1 ( x − θ ) 2
  0
 ∂θ 2 ∑  ∑
log p x θ  − + k 1 
 2θ 22 
k
k =1
 k =1  2θ 2 F. Tortorella © 
2005

Esempio: caso gaussiano, µ e σ non note
z La stima ML dei due parametri è quindi:

1 n 1 n
µˆ = θˆ1 = ∑ xk σˆ 2 = θˆ2 = ∑ (xk − µˆ )2
n k =1 n k =1
z In effetti, il valore di σˆ 2 è polarizzato in
quanto il valore atteso calcolato su tutti gli
insiemi di dati di ampiezza n è diverso dalla
varianza reale
E σˆ 2 =
n
[ ]
n −1 2
σ ≠σ2
1 n
z Una stima non polarizzata è σˆ 2 = ∑ (xk − µˆ )2
n −F.1Tortorella
k =1 © 2005
6
Stima bayesiana
z Nella stima ML il parametro θ era assunto fisso
ma non noto.
z La soluzione ML è il valore che meglio si
accorda con i campioni di training effettivamente
osservati.
D Maximum
Likelihood
Stima bayesiana
z Anche nella stima bayesiana la forma di p(x | θ) è
assunta nota, con θ non noto.
z Nella stima bayesiana θ è considerato una variabile
aleatoria di densità nota p(θ).
z Il resto della conoscenza a priori è contenuto in un
insieme D di n campioni x1, x2, …, xn indipendenti
estratti da una popolazione avente densità p(x).
z Perciò dobbiamo valutare la densità condizionata p(x|D)
che risulta:
p(x | D) = ∫ p(x | θ)p(θ | D)dθ
nota da stimare
7
Stima bayesiana
z Di conseguenza, nella stima bayesiana, l’incertezza sul valore
del parametro è modellata tramite una pdf.
z Prima dell’osservazione dei dati, il parametro θ è descritto da una
densità a priori p(θ) che è tipicamente di supporto molto ampio
per rappresentare la scarsa conoscenza sul suo vero valore.
z Una volta noti i dati, si fa uso del teorema di Bayes per
determinare la densità a posteriori p(θ|D).
z La conoscenza dei dati dovrebbe idealmente rendere più definita
la densità p(θ|D); in altre parole, si dovrebbe ridurre l’incertezza
sul valore del parametro θ.
D
D
Stima bayesiana
z La densità condizionata p ( x D) si calcola integrando
la densità congiunta p( x,θ D) su θ:
p( x D) = ∫ p( x,θ D)dθ
z Calcoliamo p( x,θ D) :
p (x, θ D ) = p (x θ , D ) p (θ D )
p (x θ , D ) è indipendente da D perché, una volta noto θ,

la densità è completamente specificata. Quindi:
p (x, θ D ) = p (x θ ) p (θ D )
8
Stima bayesiana
z Per calcolare p(θ D) utilizziamo il teorema di Bayes:
p(D θ ) p(θ ) p(D θ ) p(θ )
p(θ D ) = =
p (D ) ∫ p(D θ ) p(θ )dθ
z Possiamo calcolare p(D θ ) sfruttando l’ipotesi che i
campioni di D siano i.i.d.:
n
p(D θ ) = ∏ p(xk θ )
k =1
Stima bayesiana
z Supponiamo che D contenga n campioni i.i.d.

provenienti da una pdf gaussiana con µ non
nota e σ nota.
z Supponiamo che il parametro θ = µ abbia
anch’esso una pdf normale N(µ0, σ0):
1  (θ − µ 0 )2 
p0 (θ ) = exp − 
2π σ 0  2σ 02 
9
Stima bayesiana
z Valutiamo la pdf a posteriori p(θ |D):

p(D θ ) p0 (θ ) p0 (θ ) n
p(θ D ) = = ∏ p (x k θ ) =
p( D) p ( D) k =1
1  (θ − µ 0 )2  1 n
exp −  p( D) ∏
 p(xk θ )
2π σ 0  2σ 2
0  k =1
Stima bayesiana
z Per comprendere come la stima bayesiana modifica la

densità a posteriori all’aumentare dei dati, consideriamo il
valore massimo di p(θ |D):
d d  1 n

log p (θ D ) = 0 ⇒  − (µ − µ0 )2 + ∑ − 1 2 (xk − µ )2  = 0
dθ dµ  2σ 0
2
k =1 2σ 
σ2 nσ 02 1 n
da cui µn =
σ + nσ
2 2
µ0 + ∑x
σ + nσ 02 n k =1 k
2
0
si comprende come, all’aumentare di n, la stima µn si porta

dalla stima iniziale µ0 verso la stima ML.
z In maniera simile, la deviazione standard σn è data da:
1 n 1
= +
σ n2 σ2 σ 02
10
Stima bayesiana
Supponiamo di dover stimare la media di una pdf gaussiana con
parametri µ=0.8 e σ=0.3. Conosciamo solo σ.
Assumiamo una p0(θ) ugualmente gaussiana con µ0=0.0 e σ0=0.3.
Visualizziamo p(θ |D) al variare del numero di campioni n.
D)
Confronto tra stima ML e

stima bayesiana
z Qual è la relazione tra queste due stime ?
z All’aumentare dei dati, la stima bayesiana si
avvicina alla stima ML.
z In pratica, le due tecniche forniranno risultati
significativamente diversi solo per bassi valori
di n.
11
Approccio non parametrico
z Nell’approccio parametrico tutte le densità erano
unimodali (hanno un singolo massimo locale),
mentre in molti problemi pratici le densità sono
multimodali.
z Con l’approccio non parametrico si rimuove
l’assunzione della conoscenza delle densità per cui
si può lavorare con distribuzioni di forma arbitraria.
z Due tipologie di metodi non parametrici:
z Stimare p(x | ωj)

z Stimare direttamente le probabilità a posteriori P( ωj|x)
Stima della densità

z Consideriamo la probabilità che un vettore x,
la cui densità è p(x), cada in una regione R:
P = ∫ p(ξ )dξ
R
z Consideriamo n campioni i.i.d. di x x1,…,xn.
La probabilità che k di questi cadranno in R
sarà data da:
Pk =  n
k
Pk (1− P)n−k
 
mentre il valore atteso per k è E[k]=nP.
12
z Possiamo quindi assumere P≅k/n, dove la
stima diventa più accurata al crescere di n.
z Infatti si ha:  k  k   k   P(1 − P)
2
var
E  = P=E −P =
 n    
n  n   n
z D’altra parte, se supponiamo p(x) continua ed
R sufficientemente piccola, possiamo porre:
P = ∫ p(ξ )dξ ≅ p(x)∫ dξ = p(x)V
R R
z In questo modo, otteniamo una stima di p(x):

k/n
p(x) ≅
V
13
Alcuni problemi:
z se fissassimo il volume V e facessimo crescere n,
otterremmo una media di p(x):
P ∫ p(ξ )dξ
= R
V ∫ dξ
R
per cui dovremmo considerare un volume che tende

a zero.
z Tuttavia, per n fissato, R diventerebbe talmente
piccola che k=0 (e quindi p(x) ≅0); altrimenti se k>0,
la stima divergerebbe.

z Mettiamoci nell’ipotesi di avere un numero illimitato
di campioni.
z Per valutare p(x) consideriamo una sequenza di
regioni R1,R2,…, Rn contenenti x: la regione Rs si
impiega nel caso n=s (1,2,…,n campioni totali).
z Se Vn è il volume di Rn, kn il numero di campioni che
cadono in Rn and pn(x) è l n-ma stima di p(x), si ha:
pn(x) = (kn/n)/Vn
14
z Perché pn(x) converga a p(x) sono necessarie tre
condizioni:
kn
lim Vn = 0 lim k n = ∞ lim =0
n→ ∞ n→ ∞ n→ ∞ n
z Due modi per ottenere tali condizioni:
z ridurre la regione R definita inizialmente specificando il
volume Vn come funzione di n (es.: Vn=1/√n) e dimostrare
che pn(x)Æp(x) per nÆ∞ (metodo della finestra di Parzen).
z specificare kn come funzione di n (es.: kn= √n). In questo
caso, Vn cresce fino a contenere kn campioni (stima a kn
vicini).
Stima della densità con i due metodi. Entrambe le sequenze

rappresentano variabili aleatorie che generalmente convergono,
permettendo di stimare la densità nel punto di interesse.
15
Metodo della finestra di Parzen
z Assumiamo che la regione Rn sia un ipercubo a d
dimensioni, di lato hn e volume Vn= hnd.
z Consideriamo una funzione finestra ϕ(u) che unitaria
all’interno di un ipercubo centrato nell’origine e di
lato unitario:
 1
1 u j ≤ j = 1,... , d
ϕ (u) =  2
0 altrimenti
z ϕ((x-xi)/hn) è uguale a 1 se xi cade all’interno

dell’ipercubo di volume Vn centrato su x e nullo al di
fuori.

z Il numero di campioni che cade all’interno di Vn è quindi
uguale a: n
 x − xi 
k n = ∑ ϕ  
i=1  hn 
z La stima della densità è quindi:
1 n 1  x − xi 
pn (x) = ∑ ϕ 
n i=1 Vn  hn 
z pn(x) stima p(x) come la media di funzioni di x e dei
campioni (xi) (i = 1,… ,n). La funzione ϕ può essere di
forma generale purchè si verifichi ϕ(u)≥0 e ∫ ϕ(u)du =1.
16
z In corrispondenza di un punto xi, la pdf non è nulla.
z Se la pdf è continua sull’intero spazio delle features, allora essa
sarà non nulla anche in un piccolo intorno di xi. Tuttavia, quanto
più ci si allontana dal punto tanto più diminuisce l’influenza del
valore della pdf in xi.
z Di conseguenza, la stima di Parzen si basa sulla considerazione
che la conoscenza sulla pdf ottenuta con l’osservazione del
punto xi è rappresentata da una funzione centrata sul punto e
con un supporto ristretto ad un intorno limitato di xi. Di
conseguenza è una funzione che:
z Ha il suo massimo per x=xi
z È monotonicamente decrescente al crescere di d(x,xi) (distanza)
z Ha integrale unitario
z La funzione è spesso chiamata kernel e rappresenta il contributo
del punto alla stima. La stima complessiva è quindi ottenuta
sommando i contributi di tutti i punti. F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition Università degli Studi
Approccio parametrico e non parametrico 33
di Cassino
Finestra di Parzen
z Una scelta frequente è un kernel gaussiano:
1  u2
ϕ (u) = exp − 
( 2π )
d
 2 
 
z Per cui la stima è:
1 n 1  x − xi 2

pn ( x ) = ∑ exp− 
n i =1 ( 2π h )
d d

 2h 2 

17
A parità di n, la stima dipende dalla forma della ϕ:
ϕ(u)
p(x) stimata
Più in
generale, la
stima dipende
dalla forma di
ϕ e dal numero
di campioni n.
18
Classificazione
z Nei classificatori basati sulla stima con la
finestra di Parzen, si stima la densità
condizionata per ogni classe e si esegue
la classificazione con la regola della
massima probabilità a posteriori.
z Le regioni di decisione dipendono dalla

scelta della funzione finestra.
Classificazione
ampiezza h piccola ampiezza h grande
La forma della ϕ influisce sulle regioni di decisione.

19
Algoritmo di classificazione
basato sul metodo di Parzen
z Input: training set Ts, test set T
1. Determinazione di h a partire da Ts
2. Per ogni campione x di T si stimano le pdf
condizionate:
1 1  x − xi 2

− 
pˆ (x ωt ) = ∑ exp
nt i∈Tst ( 2π h )
d d

 2h 2 

3. Il campione viene assegnato alla classe con
criterio MAP: ω = arg max p( x ωt ) Pˆ (ωt )
t
{ }
Stima LOO di h
z Per determinare il valore di h si potrebbe usare un
approccio Maximum Likelihood, ma ciò porterebbe ad un
valore di hÆ0.
z Invece di determinare h che massimizza log(P(Ts|h)) si
considera h tale che: n
hˆ = arg max ∑ log pˆ −i (x i h )
h i =1
n  x −x 2

dove: pˆ (x h ) = 1 1  
∑
i j
exp −
−i i
n − 1 j =1, j ≠i ( d d
2π h ) 

2h 2 

z In effetti, pˆ −i (x i h ) è la stima della pdf su xi valutata usando
per la stima l’insieme Ts-{xi} (stima LOO, Leave One Out)
20
Stima della densità a k vicini
z Nalla stima a k vicini il volume che circonda il
punto x cresce fin quando arriva a includere k
punti degli n totali.
z La stima della densità che si ottiene è quindi:
k
pˆ n ( x) =
n ⋅ Vn ( x )

z Stima non
soddisfacente
per diversi
problemi:
z È influenzata
dal rumore
locale
z Produce densità
con molte
discontinuità
21
z È possibile usare il metodo a k vicini per
stimare direttamente la probabilità a posteriori
P(ωi|x).
z Consideriamo un insieme Ts di n campioni
appartenenti alle varie classi e sia ni il numero
di campioni appartenenti alla classe ωi.
z Sia x è un campione da classificare non
appartenente a Ts.

z Si consideri un’ipersfera centrata su x e di
raggio tale da includere k campioni di Ts.
z Sia ki ≤ k il numero di campioni interni
all’ipersfera appartenenti alla classe ωi.
z Se V è il volume dell’ipersfera, con il metodo
a k vicini si possono stimare
ki
z La pdf condizionata p(x | ωi ) = n ⋅V
k
p (x ) =
i
z La pdf incondizionata n ⋅V
n
z La probabilità a priori P(ωi ) = i
n
22
Classificatore k-NN
z Mettendo tutto insieme, è possibile ottenere
una stima della probabilità a posteriori:
p(x | ωi )P(ωi ) k n n ⋅ V ki
P(ωi | x ) = ≅ i i =
p(x ) ni ⋅ V n k k
z In questo modo è possibile definire una

regola di classificazione (k Nearest Neighbor
rule o k-NN):
k ( x)
α (x) = ωi ωi = arg max i
i k (x)F. Tortorella © 2005
Classificatore k-NN
z Il classificatore k-NN è un classificatore non
parametrico che classifica i campioni sulla base
della loro somiglianza con gli esemplari del training
set Ts.
z Per definire un
classificatore k-NN
è necessario soltanto
z Scegliere un valore k
z Un insieme di campioni
con etichette (training set)
z Una metrica per definire
la “vicinanza” k=5
23
Prestazioni del classificatore
k-NN
z Il classificatore è sub-ottimo nel senso che
non garantisce la probabilità di errore minima
esibita dal classificatore bayesiano.
z E’ però possibile dimostrare che, con nÆ∞,
la probabilità di errore Pe per il classificatore
k-NN si avvicina alla probabilità di errore del
classificatore bayesiano se kÆ∞.

k-NN
Limiti inferiore (errore di Bayes) e superiore alla
probabilità di errore del classificatore k-NN per un
problema a due classi.
24
Classificatore Nearest-Neighbor
z Un caso particolare si ha quando k=1.
z Si ottiene un classificatore 1-NN o
classificatore “Nearest Neighbor”
z La classificazione di un nuovo campione x
non appartenente a Ts avviene scegliendo
l’etichetta del campione di Ts a minima
distanza da x.
Il classificatore NN induce sullo spazio delle

features una tassellazione di Voronoi. Università
di Cassino
degli Studi
25
1-NN
z Anche il classificatore 1-NN è sub-ottimo.
z E’ però possibile dimostrare che, al crescere
di n, la probabilità di errore Pe per il
classificatore NN soddisfa la seguente
relazione:
Pe* ≤ Pe ≤ 2Pe*
dove Pe* è la probabilità di errore del
classificatore bayesiano.
26

3 - Approccio Statistico

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

3 - Approccio Statistico

Caricato da

Copyright:

Formati disponibili

Approccio statistico

z Informazioni che raramente sono disponibili

z Alternativa: costruire una classificatore da un

z Approccio non parametrico

Stima Maximum Likelihood

z per ogni classe ωi abbiamo un insieme di

z Consideriamo una classe generica cui corrisponde un

z Per definizione la stima ML di θ è il valore che

Stima Maximum Likelihood

z Supponiamo che D contenga n campioni

Stima Maximum Likelihood

z Calcoliamo la derivata e uguagliamola a 0:

z Supponiamo che D contenga n campioni

Stima Maximum Likelihood

z La stima ML dei due parametri è quindi:

p (x θ , D ) è indipendente da D perché, una volta noto θ,

z Supponiamo che D contenga n campioni i.i.d.

z Valutiamo la pdf a posteriori p(θ |D):

z Per comprendere come la stima bayesiana modifica la

si comprende come, all’aumentare di n, la stima µn si porta

Confronto tra stima ML e

z Due tipologie di metodi non parametrici:

z Stimare p(x | ωj)

Stima della densità

z In questo modo, otteniamo una stima di p(x):

per cui dovremmo considerare un volume che tende

Stima della densità

Stima della densità

Stima della densità con i due metodi. Entrambe le sequenze

z ϕ((x-xi)/hn) è uguale a 1 se xi cade all’interno

Metodo della finestra di Parzen

z Le regioni di decisione dipendono dalla

La forma della ϕ influisce sulle regioni di decisione.

Stima della densità a k vicini

Stima della densità a k vicini

z In questo modo è possibile definire una

Prestazioni del classificatore

Il classificatore NN induce sullo spazio delle

Potrebbero piacerti anche