Sei sulla pagina 1di 26

Approccio statistico

alla classificazione
Approccio parametrico e non
parametrico
Finestra di Parzen
Classificatori K-NN 1-NN

Limitazioni dell’approccio
bayesiano
z Con l’approccio bayesiano, sarebbe possibile
costruire un classificatore ottimo se si
conoscessero:
z le probabilità a priori P(ωi)
z le densità condizionate alla classe P(x|ωi)

z Informazioni che raramente sono disponibili

z Alternativa: costruire una classificatore da un


insieme di esempi (training set)
z Pro: stima delle P(ωi) semplicemente realizzabile
z Contro: training set troppo limitato per una stima affidabile
delle distribuzioni condizionate
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 1 di Cassino

1
Approccio parametrico e
non parametrico
z Due sono le soluzioni più diffuse

z Approccio parametrico
z Si assume una forma particolare per le pdf (es.
Gaussiane)

z Approccio non parametrico


z Non si assume alcuna conoscenza sulla forma
analitica delle pdf.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 2 di Cassino

Approccio parametrico
z In questo tipo di approccio si assume nota la forma
delle densità condizionali; tipicamente si assume
una gaussiana P(x | ωi) ~ N( µi, Σi).
z Ci sono quindi due parametri da stimare per ogni
classe.
z Le tecniche più usate per la stima sono:
z Maximum-Likelihood (ML)
z Stima Bayesiana
z Sebbene differenti nella logica, le due tecniche
portano a risultati quasi identici.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 3 di Cassino

2
Stima Maximum Likelihood
z I parametri sono fissati, ma non noti.
z I valori ottimali dei parametri sono ottenuti
attraverso la massimizzazione della
probabilità di ottenere i campioni osservati.
z La stima ha buone proprietà di convergenza
al crescere dell’insieme di campioni.
z E’ più semplice di altre tecniche.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 4 di Cassino

Stima Maximum Likelihood


z Principi generali
z assumiamo di avere c classi, con
P(x | ωj) ~ N( µj, Σj)
P(x | ωj) ≡ P (x | ωj, θj) dove:
θ j = (µ j ,Σ j ) = (µ1j,µ2j ,..., σ11 22 m n
j , σ j , cov(x j , x j )...)

z per ogni classe ωi abbiamo un insieme di


campioni Di
z supponiamo, inoltre, che i campioni in Di non
diano informazioni su θj
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 5 di Cassino

3
Stima Maximum Likelihood
z In queste ipotesi si può lavorare indipendentemente su
ogni classe.

z Consideriamo una classe generica cui corrisponde un


insieme D contenente n campioni, x1, x2,…, xn estratti
indipendentemente.
z La probabilità di ottenere l’insieme D dato θ è quindi:
n
P(D | θ) = ∏ P(x k | θ)
k =1

z Per definizione la stima ML di θ è il valore che


massimizza P(D | θ).
E’ il valore di θ che meglio si accorda con i campioni di
training effettivamente osservati
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 6 di Cassino

Stima Maximum Likelihood


z Per valutare più agevolmente l’insieme di parametri
θ, è opportuno osservare che:
θˆ = arg max[ p(D θ )] = arg max[log p(D θ )]
θ θ
e quindi considerare il problema equivalente:
  n   n 
θˆ = arg max log ∏ p(xk θ ) = arg max ∑ log( p (xk θ ))
θ   k =1  θ  k =1 
z In questo modo, l’espressione è più facile da
analizzare (derivate di somme invece che di
prodotti; semplificazioni per p() esponenziali)
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 7 di Cassino

4
Stima Maximum Likelihood
Esempio: caso gaussiano, media non nota

z Supponiamo che D contenga n campioni


provenienti da una pdf gaussiana p( x) = N ( µ , σ )
con σ nota.
z Qual è la stima ML di µ ?
n  1 n  (x − θ )2  
θˆ = arg max ∑ log( p(xk θ )) = arg max ∑ log exp − k 2   =
 2π σ 2σ 
θ k =1 θ k =1   
n 
 1  ( xk − θ )  n 
( xk − θ ) 
2 2
= arg max ∑ log −  = arg max ∑ − 
θ k =1   2π σ  2σ 2  θ k =1  2σ 2 
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 8 di Cassino

Stima Maximum Likelihood


Esempio: caso gaussiano, media non nota

z Calcoliamo la derivata e uguagliamola a 0:


d n  ( xk − θ )2  n  xk − θ 

∑ −
k =1 
=∑
2σ 2  k =1  σ 2 
=0

z Da cui: 1 n
µˆ = θˆ = ∑ xk
n k =1

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 9 di Cassino

5
Stima Maximum Likelihood
Esempio: caso gaussiano, µ e σ non note

z Supponiamo che D contenga n campioni


provenienti da una pdf gaussiana p( x) = N ( µ , σ )
con µ e σ non note.
z Questa volta occorre considerare il gradiente
θ µ
θ =  1  =  2 
θ 2  σ 
 ∂ n   1 n 
 ∂θ ∑ log ( p (x k θ ))  ∑
θ 2 k =1
( x k − θ 1 ) 
∇θ =  1 k =1 
= n  = 0 
 ∂ n
( ( ))   1 ( x − θ ) 2
  0
 ∂θ 2 ∑  ∑
log p x θ  − + k 1 
 2θ 22 
k
k =1
Teoria e Tecniche di Pattern Recognition
 k =1  2θ 2 F. Tortorella © 
2005
Università degli Studi
Approccio parametrico e non parametrico 10 di Cassino

Stima Maximum Likelihood


Esempio: caso gaussiano, µ e σ non note

z La stima ML dei due parametri è quindi:


1 n 1 n
µˆ = θˆ1 = ∑ xk σˆ 2 = θˆ2 = ∑ (xk − µˆ )2
n k =1 n k =1
z In effetti, il valore di σˆ 2 è polarizzato in
quanto il valore atteso calcolato su tutti gli
insiemi di dati di ampiezza n è diverso dalla
varianza reale
E σˆ 2 =
n
[ ]
n −1 2
σ ≠σ2
1 n
z Una stima non polarizzata è σˆ 2 = ∑ (xk − µˆ )2
Teoria e Tecniche di Pattern Recognition
n −F.1Tortorella
k =1 © 2005
Università degli Studi
Approccio parametrico e non parametrico 11 di Cassino

6
Stima bayesiana
z Nella stima ML il parametro θ era assunto fisso
ma non noto.
z La soluzione ML è il valore che meglio si
accorda con i campioni di training effettivamente
osservati.

D Maximum
Likelihood

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 12 di Cassino

Stima bayesiana
z Anche nella stima bayesiana la forma di p(x | θ) è
assunta nota, con θ non noto.
z Nella stima bayesiana θ è considerato una variabile
aleatoria di densità nota p(θ).
z Il resto della conoscenza a priori è contenuto in un
insieme D di n campioni x1, x2, …, xn indipendenti
estratti da una popolazione avente densità p(x).
z Perciò dobbiamo valutare la densità condizionata p(x|D)
che risulta:
p(x | D) = ∫ p(x | θ)p(θ | D)dθ

nota da stimare
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 13 di Cassino

7
Stima bayesiana
z Di conseguenza, nella stima bayesiana, l’incertezza sul valore
del parametro è modellata tramite una pdf.
z Prima dell’osservazione dei dati, il parametro θ è descritto da una
densità a priori p(θ) che è tipicamente di supporto molto ampio
per rappresentare la scarsa conoscenza sul suo vero valore.
z Una volta noti i dati, si fa uso del teorema di Bayes per
determinare la densità a posteriori p(θ|D).
z La conoscenza dei dati dovrebbe idealmente rendere più definita
la densità p(θ|D); in altre parole, si dovrebbe ridurre l’incertezza
sul valore del parametro θ.

D
D

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 14 di Cassino

Stima bayesiana
z La densità condizionata p ( x D) si calcola integrando
la densità congiunta p( x,θ D) su θ:
p( x D) = ∫ p( x,θ D)dθ

z Calcoliamo p( x,θ D) :
p (x, θ D ) = p (x θ , D ) p (θ D )

p (x θ , D ) è indipendente da D perché, una volta noto θ,


la densità è completamente specificata. Quindi:
p (x, θ D ) = p (x θ ) p (θ D )
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 15 di Cassino

8
Stima bayesiana
z Per calcolare p(θ D) utilizziamo il teorema di Bayes:
p(D θ ) p(θ ) p(D θ ) p(θ )
p(θ D ) = =
p (D ) ∫ p(D θ ) p(θ )dθ
z Possiamo calcolare p(D θ ) sfruttando l’ipotesi che i
campioni di D siano i.i.d.:
n
p(D θ ) = ∏ p(xk θ )
k =1

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 16 di Cassino

Stima bayesiana
Esempio: caso gaussiano, media non nota

z Supponiamo che D contenga n campioni i.i.d.


provenienti da una pdf gaussiana con µ non
nota e σ nota.
z Supponiamo che il parametro θ = µ abbia
anch’esso una pdf normale N(µ0, σ0):
1  (θ − µ 0 )2 
p0 (θ ) = exp − 
2π σ 0  2σ 02 

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 17 di Cassino

9
Stima bayesiana
Esempio: caso gaussiano, media non nota

z Valutiamo la pdf a posteriori p(θ |D):


p(D θ ) p0 (θ ) p0 (θ ) n
p(θ D ) = = ∏ p (x k θ ) =
p( D) p ( D) k =1
1  (θ − µ 0 )2  1 n
exp −  p( D) ∏
 p(xk θ )
2π σ 0  2σ 2
0  k =1

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 18 di Cassino

Stima bayesiana
Esempio: caso gaussiano, media non nota

z Per comprendere come la stima bayesiana modifica la


densità a posteriori all’aumentare dei dati, consideriamo il
valore massimo di p(θ |D):
d d  1 n

log p (θ D ) = 0 ⇒  − (µ − µ0 )2 + ∑ − 1 2 (xk − µ )2  = 0
dθ dµ  2σ 0
2
k =1 2σ 
σ2 nσ 02 1 n
da cui µn =
σ + nσ
2 2
µ0 + ∑x
σ + nσ 02 n k =1 k
2
0

si comprende come, all’aumentare di n, la stima µn si porta


dalla stima iniziale µ0 verso la stima ML.
z In maniera simile, la deviazione standard σn è data da:
1 n 1
= +
σ n2 σ2 σ 02
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 19 di Cassino

10
Stima bayesiana
Esempio: caso gaussiano, media non nota
Supponiamo di dover stimare la media di una pdf gaussiana con
parametri µ=0.8 e σ=0.3. Conosciamo solo σ.
Assumiamo una p0(θ) ugualmente gaussiana con µ0=0.0 e σ0=0.3.
Visualizziamo p(θ |D) al variare del numero di campioni n.
D)

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 20 di Cassino

Confronto tra stima ML e


stima bayesiana
z Qual è la relazione tra queste due stime ?
z All’aumentare dei dati, la stima bayesiana si
avvicina alla stima ML.
z In pratica, le due tecniche forniranno risultati
significativamente diversi solo per bassi valori
di n.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 21 di Cassino

11
Approccio non parametrico
z Nell’approccio parametrico tutte le densità erano
unimodali (hanno un singolo massimo locale),
mentre in molti problemi pratici le densità sono
multimodali.
z Con l’approccio non parametrico si rimuove
l’assunzione della conoscenza delle densità per cui
si può lavorare con distribuzioni di forma arbitraria.

z Due tipologie di metodi non parametrici:

z Stimare p(x | ωj)


z Stimare direttamente le probabilità a posteriori P( ωj|x)

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 23 di Cassino

Stima della densità


z Consideriamo la probabilità che un vettore x,
la cui densità è p(x), cada in una regione R:

P = ∫ p(ξ )dξ
R
z Consideriamo n campioni i.i.d. di x x1,…,xn.
La probabilità che k di questi cadranno in R
sarà data da:
Pk =  n
k
Pk (1− P)n−k
 
mentre il valore atteso per k è E[k]=nP.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 24 di Cassino

12
Stima della densità
z Possiamo quindi assumere P≅k/n, dove la
stima diventa più accurata al crescere di n.
z Infatti si ha:  k  k   k   P(1 − P)
2

var
E  = P=E −P =
 n    
n  n   n
z D’altra parte, se supponiamo p(x) continua ed
R sufficientemente piccola, possiamo porre:
P = ∫ p(ξ )dξ ≅ p(x)∫ dξ = p(x)V
R R

z In questo modo, otteniamo una stima di p(x):


k/n
p(x) ≅
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi

V
Approccio parametrico e non parametrico 25 di Cassino

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 26 di Cassino

13
Stima della densità
Alcuni problemi:
z se fissassimo il volume V e facessimo crescere n,
otterremmo una media di p(x):

P ∫ p(ξ )dξ
= R
V ∫ dξ
R

per cui dovremmo considerare un volume che tende


a zero.
z Tuttavia, per n fissato, R diventerebbe talmente
piccola che k=0 (e quindi p(x) ≅0); altrimenti se k>0,
la stima divergerebbe.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 27 di Cassino

Stima della densità


z Mettiamoci nell’ipotesi di avere un numero illimitato
di campioni.
z Per valutare p(x) consideriamo una sequenza di
regioni R1,R2,…, Rn contenenti x: la regione Rs si
impiega nel caso n=s (1,2,…,n campioni totali).
z Se Vn è il volume di Rn, kn il numero di campioni che
cadono in Rn and pn(x) è l n-ma stima di p(x), si ha:

pn(x) = (kn/n)/Vn

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 28 di Cassino

14
Stima della densità
z Perché pn(x) converga a p(x) sono necessarie tre
condizioni:
kn
lim Vn = 0 lim k n = ∞ lim =0
n→ ∞ n→ ∞ n→ ∞ n
z Due modi per ottenere tali condizioni:
z ridurre la regione R definita inizialmente specificando il
volume Vn come funzione di n (es.: Vn=1/√n) e dimostrare
che pn(x)Æp(x) per nÆ∞ (metodo della finestra di Parzen).
z specificare kn come funzione di n (es.: kn= √n). In questo
caso, Vn cresce fino a contenere kn campioni (stima a kn
vicini).

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 29 di Cassino

Stima della densità

Stima della densità con i due metodi. Entrambe le sequenze


rappresentano variabili aleatorie che generalmente convergono,
permettendo di stimare la densità nel punto di interesse.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 30 di Cassino

15
Metodo della finestra di Parzen
z Assumiamo che la regione Rn sia un ipercubo a d
dimensioni, di lato hn e volume Vn= hnd.
z Consideriamo una funzione finestra ϕ(u) che unitaria
all’interno di un ipercubo centrato nell’origine e di
lato unitario:
 1
1 u j ≤ j = 1,... , d
ϕ (u) =  2
0 altrimenti

z ϕ((x-xi)/hn) è uguale a 1 se xi cade all’interno


dell’ipercubo di volume Vn centrato su x e nullo al di
fuori.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 31 di Cassino

Metodo della finestra di Parzen


z Il numero di campioni che cade all’interno di Vn è quindi
uguale a: n
 x − xi 
k n = ∑ ϕ  
i=1  hn 
z La stima della densità è quindi:
1 n 1  x − xi 
pn (x) = ∑ ϕ 
n i=1 Vn  hn 
z pn(x) stima p(x) come la media di funzioni di x e dei
campioni (xi) (i = 1,… ,n). La funzione ϕ può essere di
forma generale purchè si verifichi ϕ(u)≥0 e ∫ ϕ(u)du =1.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 32 di Cassino

16
Metodo della finestra di Parzen
z In corrispondenza di un punto xi, la pdf non è nulla.
z Se la pdf è continua sull’intero spazio delle features, allora essa
sarà non nulla anche in un piccolo intorno di xi. Tuttavia, quanto
più ci si allontana dal punto tanto più diminuisce l’influenza del
valore della pdf in xi.
z Di conseguenza, la stima di Parzen si basa sulla considerazione
che la conoscenza sulla pdf ottenuta con l’osservazione del
punto xi è rappresentata da una funzione centrata sul punto e
con un supporto ristretto ad un intorno limitato di xi. Di
conseguenza è una funzione che:
z Ha il suo massimo per x=xi
z È monotonicamente decrescente al crescere di d(x,xi) (distanza)
z Ha integrale unitario
z La funzione è spesso chiamata kernel e rappresenta il contributo
del punto alla stima. La stima complessiva è quindi ottenuta
sommando i contributi di tutti i punti. F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition Università degli Studi
Approccio parametrico e non parametrico 33
di Cassino

Finestra di Parzen
z Una scelta frequente è un kernel gaussiano:
1  u2
ϕ (u) = exp − 
( 2π )
d
 2 
 
z Per cui la stima è:

1 n 1  x − xi 2

pn ( x ) = ∑ exp− 
n i =1 ( 2π h )
d d

 2h 2 

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 34 di Cassino

17
Metodo della finestra di Parzen
A parità di n, la stima dipende dalla forma della ϕ:

ϕ(u)

p(x) stimata

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 35 di Cassino

Più in
generale, la
stima dipende
dalla forma di
ϕ e dal numero
di campioni n.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 36 di Cassino

18
Classificazione
z Nei classificatori basati sulla stima con la
finestra di Parzen, si stima la densità
condizionata per ogni classe e si esegue
la classificazione con la regola della
massima probabilità a posteriori.

z Le regioni di decisione dipendono dalla


scelta della funzione finestra.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 37 di Cassino

Classificazione
ampiezza h piccola ampiezza h grande

La forma della ϕ influisce sulle regioni di decisione.


F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 38 di Cassino

19
Algoritmo di classificazione
basato sul metodo di Parzen
z Input: training set Ts, test set T
1. Determinazione di h a partire da Ts
2. Per ogni campione x di T si stimano le pdf
condizionate:
1 1  x − xi 2

− 
pˆ (x ωt ) = ∑ exp
nt i∈Tst ( 2π h )
d d

 2h 2 

3. Il campione viene assegnato alla classe con
criterio MAP: ω = arg max p( x ωt ) Pˆ (ωt )
t
{ }
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 39 di Cassino

Stima LOO di h
z Per determinare il valore di h si potrebbe usare un
approccio Maximum Likelihood, ma ciò porterebbe ad un
valore di hÆ0.
z Invece di determinare h che massimizza log(P(Ts|h)) si
considera h tale che: n
hˆ = arg max ∑ log pˆ −i (x i h )
h i =1
n  x −x 2

dove: pˆ (x h ) = 1 1  

i j
exp −
−i i
n − 1 j =1, j ≠i ( d d
2π h ) 

2h 2 

z In effetti, pˆ −i (x i h ) è la stima della pdf su xi valutata usando
per la stima l’insieme Ts-{xi} (stima LOO, Leave One Out)
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 40 di Cassino

20
Stima della densità a k vicini
z Nalla stima a k vicini il volume che circonda il
punto x cresce fin quando arriva a includere k
punti degli n totali.
z La stima della densità che si ottiene è quindi:
k
pˆ n ( x) =
n ⋅ Vn ( x )

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 41 di Cassino

Stima della densità a k vicini


z Stima non
soddisfacente
per diversi
problemi:
z È influenzata
dal rumore
locale
z Produce densità
con molte
discontinuità

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 42 di Cassino

21
Stima della densità a k vicini
z È possibile usare il metodo a k vicini per
stimare direttamente la probabilità a posteriori
P(ωi|x).
z Consideriamo un insieme Ts di n campioni
appartenenti alle varie classi e sia ni il numero
di campioni appartenenti alla classe ωi.
z Sia x è un campione da classificare non
appartenente a Ts.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 43 di Cassino

Stima della densità a k vicini


z Si consideri un’ipersfera centrata su x e di
raggio tale da includere k campioni di Ts.
z Sia ki ≤ k il numero di campioni interni
all’ipersfera appartenenti alla classe ωi.
z Se V è il volume dell’ipersfera, con il metodo
a k vicini si possono stimare
ki
z La pdf condizionata p(x | ωi ) = n ⋅V
k
p (x ) =
i
z La pdf incondizionata n ⋅V
n
z La probabilità a priori P(ωi ) = i
n
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 44 di Cassino

22
Classificatore k-NN
z Mettendo tutto insieme, è possibile ottenere
una stima della probabilità a posteriori:
p(x | ωi )P(ωi ) k n n ⋅ V ki
P(ωi | x ) = ≅ i i =
p(x ) ni ⋅ V n k k

z In questo modo è possibile definire una


regola di classificazione (k Nearest Neighbor
rule o k-NN):
k ( x)
α (x) = ωi ωi = arg max i
i k (x)F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 45 di Cassino

Classificatore k-NN
z Il classificatore k-NN è un classificatore non
parametrico che classifica i campioni sulla base
della loro somiglianza con gli esemplari del training
set Ts.
z Per definire un
classificatore k-NN
è necessario soltanto
z Scegliere un valore k
z Un insieme di campioni
con etichette (training set)
z Una metrica per definire
la “vicinanza” k=5
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 46 di Cassino

23
Prestazioni del classificatore
k-NN
z Il classificatore è sub-ottimo nel senso che
non garantisce la probabilità di errore minima
esibita dal classificatore bayesiano.
z E’ però possibile dimostrare che, con nÆ∞,
la probabilità di errore Pe per il classificatore
k-NN si avvicina alla probabilità di errore del
classificatore bayesiano se kÆ∞.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 47 di Cassino

Prestazioni del classificatore


k-NN
Limiti inferiore (errore di Bayes) e superiore alla
probabilità di errore del classificatore k-NN per un
problema a due classi.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 48 di Cassino

24
Classificatore Nearest-Neighbor
z Un caso particolare si ha quando k=1.
z Si ottiene un classificatore 1-NN o
classificatore “Nearest Neighbor”
z La classificazione di un nuovo campione x
non appartenente a Ts avviene scegliendo
l’etichetta del campione di Ts a minima
distanza da x.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 49 di Cassino

Classificatore Nearest-Neighbor

Il classificatore NN induce sullo spazio delle


F. Tortorella © 2005
features una tassellazione di Voronoi. Università
di Cassino
degli Studi

25
Prestazioni del classificatore
1-NN
z Anche il classificatore 1-NN è sub-ottimo.
z E’ però possibile dimostrare che, al crescere
di n, la probabilità di errore Pe per il
classificatore NN soddisfa la seguente
relazione:
Pe* ≤ Pe ≤ 2Pe*
dove Pe* è la probabilità di errore del
classificatore bayesiano.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 51 di Cassino

Classificatore Nearest-Neighbor

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Approccio parametrico e non parametrico 52 di Cassino

26

Potrebbero piacerti anche