Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
alla classificazione
Approccio parametrico e non
parametrico
Finestra di Parzen
Classificatori K-NN 1-NN
Limitazioni dell’approccio
bayesiano
z Con l’approccio bayesiano, sarebbe possibile
costruire un classificatore ottimo se si
conoscessero:
z le probabilità a priori P(ωi)
z le densità condizionate alla classe P(x|ωi)
1
Approccio parametrico e
non parametrico
z Due sono le soluzioni più diffuse
z Approccio parametrico
z Si assume una forma particolare per le pdf (es.
Gaussiane)
Approccio parametrico
z In questo tipo di approccio si assume nota la forma
delle densità condizionali; tipicamente si assume
una gaussiana P(x | ωi) ~ N( µi, Σi).
z Ci sono quindi due parametri da stimare per ogni
classe.
z Le tecniche più usate per la stima sono:
z Maximum-Likelihood (ML)
z Stima Bayesiana
z Sebbene differenti nella logica, le due tecniche
portano a risultati quasi identici.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 3 di Cassino
2
Stima Maximum Likelihood
z I parametri sono fissati, ma non noti.
z I valori ottimali dei parametri sono ottenuti
attraverso la massimizzazione della
probabilità di ottenere i campioni osservati.
z La stima ha buone proprietà di convergenza
al crescere dell’insieme di campioni.
z E’ più semplice di altre tecniche.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 4 di Cassino
3
Stima Maximum Likelihood
z In queste ipotesi si può lavorare indipendentemente su
ogni classe.
4
Stima Maximum Likelihood
Esempio: caso gaussiano, media non nota
z Da cui: 1 n
µˆ = θˆ = ∑ xk
n k =1
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 9 di Cassino
5
Stima Maximum Likelihood
Esempio: caso gaussiano, µ e σ non note
6
Stima bayesiana
z Nella stima ML il parametro θ era assunto fisso
ma non noto.
z La soluzione ML è il valore che meglio si
accorda con i campioni di training effettivamente
osservati.
D Maximum
Likelihood
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 12 di Cassino
Stima bayesiana
z Anche nella stima bayesiana la forma di p(x | θ) è
assunta nota, con θ non noto.
z Nella stima bayesiana θ è considerato una variabile
aleatoria di densità nota p(θ).
z Il resto della conoscenza a priori è contenuto in un
insieme D di n campioni x1, x2, …, xn indipendenti
estratti da una popolazione avente densità p(x).
z Perciò dobbiamo valutare la densità condizionata p(x|D)
che risulta:
p(x | D) = ∫ p(x | θ)p(θ | D)dθ
nota da stimare
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 13 di Cassino
7
Stima bayesiana
z Di conseguenza, nella stima bayesiana, l’incertezza sul valore
del parametro è modellata tramite una pdf.
z Prima dell’osservazione dei dati, il parametro θ è descritto da una
densità a priori p(θ) che è tipicamente di supporto molto ampio
per rappresentare la scarsa conoscenza sul suo vero valore.
z Una volta noti i dati, si fa uso del teorema di Bayes per
determinare la densità a posteriori p(θ|D).
z La conoscenza dei dati dovrebbe idealmente rendere più definita
la densità p(θ|D); in altre parole, si dovrebbe ridurre l’incertezza
sul valore del parametro θ.
D
D
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 14 di Cassino
Stima bayesiana
z La densità condizionata p ( x D) si calcola integrando
la densità congiunta p( x,θ D) su θ:
p( x D) = ∫ p( x,θ D)dθ
z Calcoliamo p( x,θ D) :
p (x, θ D ) = p (x θ , D ) p (θ D )
8
Stima bayesiana
z Per calcolare p(θ D) utilizziamo il teorema di Bayes:
p(D θ ) p(θ ) p(D θ ) p(θ )
p(θ D ) = =
p (D ) ∫ p(D θ ) p(θ )dθ
z Possiamo calcolare p(D θ ) sfruttando l’ipotesi che i
campioni di D siano i.i.d.:
n
p(D θ ) = ∏ p(xk θ )
k =1
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 16 di Cassino
Stima bayesiana
Esempio: caso gaussiano, media non nota
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 17 di Cassino
9
Stima bayesiana
Esempio: caso gaussiano, media non nota
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 18 di Cassino
Stima bayesiana
Esempio: caso gaussiano, media non nota
10
Stima bayesiana
Esempio: caso gaussiano, media non nota
Supponiamo di dover stimare la media di una pdf gaussiana con
parametri µ=0.8 e σ=0.3. Conosciamo solo σ.
Assumiamo una p0(θ) ugualmente gaussiana con µ0=0.0 e σ0=0.3.
Visualizziamo p(θ |D) al variare del numero di campioni n.
D)
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 20 di Cassino
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 21 di Cassino
11
Approccio non parametrico
z Nell’approccio parametrico tutte le densità erano
unimodali (hanno un singolo massimo locale),
mentre in molti problemi pratici le densità sono
multimodali.
z Con l’approccio non parametrico si rimuove
l’assunzione della conoscenza delle densità per cui
si può lavorare con distribuzioni di forma arbitraria.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 23 di Cassino
P = ∫ p(ξ )dξ
R
z Consideriamo n campioni i.i.d. di x x1,…,xn.
La probabilità che k di questi cadranno in R
sarà data da:
Pk = n
k
Pk (1− P)n−k
mentre il valore atteso per k è E[k]=nP.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 24 di Cassino
12
Stima della densità
z Possiamo quindi assumere P≅k/n, dove la
stima diventa più accurata al crescere di n.
z Infatti si ha: k k k P(1 − P)
2
var
E = P=E −P =
n
n n n
z D’altra parte, se supponiamo p(x) continua ed
R sufficientemente piccola, possiamo porre:
P = ∫ p(ξ )dξ ≅ p(x)∫ dξ = p(x)V
R R
V
Approccio parametrico e non parametrico 25 di Cassino
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 26 di Cassino
13
Stima della densità
Alcuni problemi:
z se fissassimo il volume V e facessimo crescere n,
otterremmo una media di p(x):
P ∫ p(ξ )dξ
= R
V ∫ dξ
R
pn(x) = (kn/n)/Vn
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 28 di Cassino
14
Stima della densità
z Perché pn(x) converga a p(x) sono necessarie tre
condizioni:
kn
lim Vn = 0 lim k n = ∞ lim =0
n→ ∞ n→ ∞ n→ ∞ n
z Due modi per ottenere tali condizioni:
z ridurre la regione R definita inizialmente specificando il
volume Vn come funzione di n (es.: Vn=1/√n) e dimostrare
che pn(x)Æp(x) per nÆ∞ (metodo della finestra di Parzen).
z specificare kn come funzione di n (es.: kn= √n). In questo
caso, Vn cresce fino a contenere kn campioni (stima a kn
vicini).
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 29 di Cassino
15
Metodo della finestra di Parzen
z Assumiamo che la regione Rn sia un ipercubo a d
dimensioni, di lato hn e volume Vn= hnd.
z Consideriamo una funzione finestra ϕ(u) che unitaria
all’interno di un ipercubo centrato nell’origine e di
lato unitario:
1
1 u j ≤ j = 1,... , d
ϕ (u) = 2
0 altrimenti
16
Metodo della finestra di Parzen
z In corrispondenza di un punto xi, la pdf non è nulla.
z Se la pdf è continua sull’intero spazio delle features, allora essa
sarà non nulla anche in un piccolo intorno di xi. Tuttavia, quanto
più ci si allontana dal punto tanto più diminuisce l’influenza del
valore della pdf in xi.
z Di conseguenza, la stima di Parzen si basa sulla considerazione
che la conoscenza sulla pdf ottenuta con l’osservazione del
punto xi è rappresentata da una funzione centrata sul punto e
con un supporto ristretto ad un intorno limitato di xi. Di
conseguenza è una funzione che:
z Ha il suo massimo per x=xi
z È monotonicamente decrescente al crescere di d(x,xi) (distanza)
z Ha integrale unitario
z La funzione è spesso chiamata kernel e rappresenta il contributo
del punto alla stima. La stima complessiva è quindi ottenuta
sommando i contributi di tutti i punti. F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition Università degli Studi
Approccio parametrico e non parametrico 33
di Cassino
Finestra di Parzen
z Una scelta frequente è un kernel gaussiano:
1 u2
ϕ (u) = exp −
( 2π )
d
2
z Per cui la stima è:
1 n 1 x − xi 2
pn ( x ) = ∑ exp−
n i =1 ( 2π h )
d d
2h 2
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 34 di Cassino
17
Metodo della finestra di Parzen
A parità di n, la stima dipende dalla forma della ϕ:
ϕ(u)
p(x) stimata
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 35 di Cassino
Più in
generale, la
stima dipende
dalla forma di
ϕ e dal numero
di campioni n.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 36 di Cassino
18
Classificazione
z Nei classificatori basati sulla stima con la
finestra di Parzen, si stima la densità
condizionata per ogni classe e si esegue
la classificazione con la regola della
massima probabilità a posteriori.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 37 di Cassino
Classificazione
ampiezza h piccola ampiezza h grande
19
Algoritmo di classificazione
basato sul metodo di Parzen
z Input: training set Ts, test set T
1. Determinazione di h a partire da Ts
2. Per ogni campione x di T si stimano le pdf
condizionate:
1 1 x − xi 2
−
pˆ (x ωt ) = ∑ exp
nt i∈Tst ( 2π h )
d d
2h 2
3. Il campione viene assegnato alla classe con
criterio MAP: ω = arg max p( x ωt ) Pˆ (ωt )
t
{ }
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 39 di Cassino
Stima LOO di h
z Per determinare il valore di h si potrebbe usare un
approccio Maximum Likelihood, ma ciò porterebbe ad un
valore di hÆ0.
z Invece di determinare h che massimizza log(P(Ts|h)) si
considera h tale che: n
hˆ = arg max ∑ log pˆ −i (x i h )
h i =1
n x −x 2
dove: pˆ (x h ) = 1 1
∑
i j
exp −
−i i
n − 1 j =1, j ≠i ( d d
2π h )
2h 2
z In effetti, pˆ −i (x i h ) è la stima della pdf su xi valutata usando
per la stima l’insieme Ts-{xi} (stima LOO, Leave One Out)
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 40 di Cassino
20
Stima della densità a k vicini
z Nalla stima a k vicini il volume che circonda il
punto x cresce fin quando arriva a includere k
punti degli n totali.
z La stima della densità che si ottiene è quindi:
k
pˆ n ( x) =
n ⋅ Vn ( x )
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 41 di Cassino
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 42 di Cassino
21
Stima della densità a k vicini
z È possibile usare il metodo a k vicini per
stimare direttamente la probabilità a posteriori
P(ωi|x).
z Consideriamo un insieme Ts di n campioni
appartenenti alle varie classi e sia ni il numero
di campioni appartenenti alla classe ωi.
z Sia x è un campione da classificare non
appartenente a Ts.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 43 di Cassino
22
Classificatore k-NN
z Mettendo tutto insieme, è possibile ottenere
una stima della probabilità a posteriori:
p(x | ωi )P(ωi ) k n n ⋅ V ki
P(ωi | x ) = ≅ i i =
p(x ) ni ⋅ V n k k
Classificatore k-NN
z Il classificatore k-NN è un classificatore non
parametrico che classifica i campioni sulla base
della loro somiglianza con gli esemplari del training
set Ts.
z Per definire un
classificatore k-NN
è necessario soltanto
z Scegliere un valore k
z Un insieme di campioni
con etichette (training set)
z Una metrica per definire
la “vicinanza” k=5
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 46 di Cassino
23
Prestazioni del classificatore
k-NN
z Il classificatore è sub-ottimo nel senso che
non garantisce la probabilità di errore minima
esibita dal classificatore bayesiano.
z E’ però possibile dimostrare che, con nÆ∞,
la probabilità di errore Pe per il classificatore
k-NN si avvicina alla probabilità di errore del
classificatore bayesiano se kÆ∞.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 47 di Cassino
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 48 di Cassino
24
Classificatore Nearest-Neighbor
z Un caso particolare si ha quando k=1.
z Si ottiene un classificatore 1-NN o
classificatore “Nearest Neighbor”
z La classificazione di un nuovo campione x
non appartenente a Ts avviene scegliendo
l’etichetta del campione di Ts a minima
distanza da x.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 49 di Cassino
Classificatore Nearest-Neighbor
25
Prestazioni del classificatore
1-NN
z Anche il classificatore 1-NN è sub-ottimo.
z E’ però possibile dimostrare che, al crescere
di n, la probabilità di errore Pe per il
classificatore NN soddisfa la seguente
relazione:
Pe* ≤ Pe ≤ 2Pe*
dove Pe* è la probabilità di errore del
classificatore bayesiano.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 51 di Cassino
Classificatore Nearest-Neighbor
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 52 di Cassino
26