Sei sulla pagina 1di 59

Elementi di teoria

bayesiana della
decisione
Teoria bayesiana della decisione
Classificazione cost-sensitive
Regola di rigetto
La curva ROC

Teoria bayesiana della


decisione: caratteristiche
z La teoria bayesiana della decisione è un approccio
statistico fondamentale al problema del pattern
recognition.
z Il suo obiettivo è quello di confrontare
quantitativamente diverse decisioni di
classificazione utilizzando le probabilità ed i costi
cha accompagnano tali decisioni.
z Assunzioni fondamentali:
¾ il problema della decisione è posto in termini
probabilistici
¾ sono noti i valori di tutte le probabilità rilevanti per il
problema
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 1 di Cassino

1
Fondamenti
z Consideriamo un problema a C classi, con etichette
ωj con j=1,2,…,C.
z Etichettiamo con αi i=1,2,…,C le decisioni che è
possibile prendere.
z Supponiamo di conoscere la probabilità P(ωj) che un
campione appartenga ad una certa classe
(probabilità a priori).
z Conosciamo inoltre la funzione di costo (loss
function) λ(αi| ωj) che descrive il costo indotto
dall’aver preso la decisione αi quando il campione
appartiene alla classe ωj.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition Università degli Studi
Elementi di teoria della decisione 2 di Cassino

z Se non avessimo altre informazioni, la regola


di decisione sarebbe basata interamente
sulle P(ωj).
z Supponiamo, invece, di poter utilizzare un
feature vector N-dimensionale x che, in
questo ambito, è formalizzabile come una
variabile aleatoria N-dimensionale.
z Conosciamo inoltre la funzione di densità di
probabilità condizionata alla classe p(x| ωj).
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 3 di Cassino

2
Un esempio di densità di probabilità condizionate alle classi
con C=2.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 4 di Cassino

Teorema di Bayes
z A partire dalle conoscenze descritte,
vorremmo stabilire quale sia la probabilità
P(ωj|x) (probabilità a posteriori) che il
campione descritto da un feature vector x
appartenga alla classe ωj.
z E’ possibile ottenere questa informazione
grazie al teorema di Bayes per cui:
p( x ω j ) ⋅ P(ω j ) C
P(ω j x ) =
p(x)
dove p(x) = ∑ p( x ω j ) ⋅ P(ω j )
j =1
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 5 di Cassino

3
Teorema di Bayes
Grazie al teorema di Bayes, è
possibile risalire alla
probabilità che il feature vector
osservato x sia stato prodotto
da un campione appartenente
alla classe ωj (prob. a
posteriori) a partire dalla
probabilità a priori P(ωj) e dalle Rev. Thomas Bayes
b. 1702, London
verosimiglianze p(x| ωj). d. 1761, Tunbridge Wells,
Kent
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 6 di Cassino

Teorema di Bayes
z Possiamo esprimere informalmente la
formula di Bayes come:

Prob. a posteriori=(prob. a priori) x verosimiglianza


evidenza
z In questo modo è chiaro come la conoscenza del
valore (misura) x influisce sul nostro giudizio a
proposito dello stato di natura

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 7 di Cassino

4
Le probabilità a posteriori relative alle due classi viste prima,
assumendo P(ω1)=2/3 e P(ω2)=1/3 .

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 8 di Cassino

Teoria e Tecniche di Pattern Recognition


Elementi di teoria della decisione 9

5
Decisione
z La decisione tende naturalmente verso la
classe cui compete la probabilità a posteriori
maggiore:
Decidi ω1 se P(ω1|x) > P(ω2|x)
altrimenti decidi ω2
z Questa regola di fatto minimizza la probabilità
di errore:
P(errore|x)=min{P(ω1|x) , P(ω2|x)}
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 10 di Cassino

Decisione
z Da un punto di vista operativo, l’evidenza non entra
in gioco nella decisione che può quindi ridursi a:
Decidi ω1 se p(x|ω1)P(ω1) > p(x|ω2)P(ω2)
altrimenti decidi ω2

z Situazioni particolari:
z se p(x|ω1) = p(x|ω2) l’osservazione del valore x non
fornisce informazioni riguardo lo stato di natura ulteriori
rispetto alle prob. a priori
z se P(ω1) = P(ω2) la decisione tiene conto solo della
verosimiglianza
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 11 di Cassino

6
Il costo atteso
z A fronte dell’osservazione di un f.v. x, qual è
il costo che dobbiamo aspettarci nel caso
prendiamo una decisione αi ?
z Tale costo (che va sotto il nome di rischio
condizionale, conditional risk) viene valutato
come:
C
R(αi x ) = ∑ λ(αi ω j ) ⋅ P(ω j x )
j=1

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 12 di Cassino

La regola di decisione
z Una regola di decisione è una funzione α(x)
che indica quale azione intraprendere per
ogni possibile valore di x osservato.
z In questo contesto, la regola di decisione
ottima è quella per cui si ha il minimo rischio
condizionale:

α(x) = argmin R(αi x )


1≤ j≤C

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 13 di Cassino

7
Regioni di decisione

La regola di
decisione induce
R1
nello spazio delle
fatures un insieme
R2
di regioni di
decisione.
R3
x∈Ri ⇔ α(x) = αi
R1

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 14 di Cassino

Problemi a due classi


z Nel caso particolare di problemi a due classi,
indichiamo con αi la decisione per la classe
ωi con i=1,2.
z Definiamo λij= λ(αi|ωj ). I rischi condizionali
sono:
R(α1|x)= λ11P(ω1|x)+ λ12P(ω2|x)
R(α2|x)= λ21P(ω1|x)+ λ22P(ω2|x)

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 15 di Cassino

8
Problemi a due classi
z Ovviamente la regola di decisione farà
scegliere ω1 se R(α1|x)<R(α2|x).
z La stessa condizione si può porre in modo
equivalente in termini di probabilità a
posteriori:
(λ21-λ11)P(ω1|x) > (λ12-λ22)P(ω2|x)
oppure: ω
P(ω1 x ) >1 λ12 − λ22
P(ω2 x ) ω< λ21 − λ11
2 F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 16 di Cassino

Problemi a due classi


z Ricordando il teorema di Bayes, la
condizione si può scrivere:
ω
p( x ω1 ) >1 λ12 − λ22 P(ω 2 )
p( x ω2 ) ω< λ21 − λ11 P(ω1 )
2

dove il membro di sinistra si definisce


rapporto di verosimiglianza (likelihood ratio)
z Test del rapporto di verosimiglianza
Likelihood Ratio Test (LRT)
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 17 di Cassino

9
Problemi a due classi
non cost-sensitive
z Nel caso di classificazione non cost-sensitive
la decisione deve minimizzare il numero di
errori.
z Questo caso ricade nel precedente a patto di
porre λ21=λ12=1 e λ11=λ22=0 (zero-one loss).
z La condizione diventa quindi:
ω
p( x ω1 ) >1 P(ω 2 )
p( x ω2 ) ω< P(ω1 )
2
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 18 di Cassino

Problemi a due classi

cost-sensitive
con λ21>λ12
0-1 loss

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 19 di Cassino

10
Probabilità minima di errore
z E’ importante valutare quale sia la minima
probabilità di errore, che fornisce il miglior
risultato raggiungibile.
z Consideriamo il problema a due classi.
Indichiamo con X un generico campione e
con x il f.v. corrispondente.
z Siano inoltre R1 e R2 le due regioni di
decisione e T=R1∪R2 il dominio di x.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 20 di Cassino

Probabilità minima di errore


Problemi a due classi
z Per una regola di decisione che genera le
due regioni di decisione R1 e R2 la probabilità
di errore è:
Pe = p(x ∈ R 2 , X ∈ ω1 ) + p(x ∈ R1, X ∈ ω 2 ) =
= p(x ∈ R 2 | ω1 )P(ω1 ) + p(x ∈ R1 | ω 2 )P(ω 2 ) =
= ∫ p(x | ω1 )dx ⋅P(ω1 ) + ∫ p(x | ω 2 )dx ⋅P(ω 2 ) =
R2 R1

= ∫ p(x | ω1 )P(ω1 )dx + ∫ p(x | ω2 )P(ω2 )dx


R2 R1 F. Tortorella © 2005
Università degli Studi
Teoria e Tecniche di Pattern Recognition
di Cassino
Elementi di teoria della decisione 21

11
Probabilità minima di errore
Problemi a due classi
z La probabilità di errore è limitata
inferiormente:
Pe = ∫ p(x | ω1 )P(ω1 )dx + ∫ p(x | ω2 )P(ω 2 )dx ≥
R2 R1

≥ ∫ min{p(x | ω1 )P(ω1 ),p(x | ω2 )P(ω2 )}dx


T

z La probabilità minima di errore è quindi:


Pe* = ∫ min{p(x | ω1 )P(ω1 ), p(x | ω2 )P(ω 2 )}dx
T
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition Quando viene ottenuta ?
Università degli Studi
di Cassino
Elementi di teoria della decisione 22

Ottimalità del classificatore


bayesiano
z La probabilità di errore minima viene
raggiunta con la regola di decisione
bayesiana α(x) = argmax{P(ω1|x), P(ω2|x) }.
z Di conseguenza, nei problemi a due classi, il
classificatore costruito con questa regola
(classificatore bayesiano) è il classificatore
ottimo.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 23 di Cassino

12
Probabilità minima di errore
Problemi a due classi

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 24 di Cassino

Probabilità minima di errore


Problemi multiclasse
z In maniera analoga si può calcolare la
minima probabilità di errore per problemi a C
classi:
C
Pe = 1− P(correct) = 1− ∑ ∫ p(x | ωi )P(ωi )dx
i=1 Ri
z Siccome :
C

∑ ∫ p(x | ω )P(ω )dx ≤ ∫ max{p(x | ω )P(ω )}dx


i=1 Ri
i i
1≤i≤C
i i
T

Pe* = 1− ∫ max p(x | ωi )P(ωi )}dx


T
1≤i≤C { F. Tortorella © 2005
Università degli Studi
Teoria e Tecniche di Pattern Recognition
di Cassino
Elementi di teoria della decisione 25

13
Ottimalità del classificatore
bayesiano
z La probabilità di errore minima viene
raggiunta con la regola di decisione
bayesiana α(x) = argmax {P(ωi|x)}.
z Di conseguenza, anche nei problemi
multiclasse, il classificatore classificatore
bayesiano risulta il classificatore ottimo.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 26 di Cassino

Criterio Minimax
z In alcune circostanze, potrebbe essere necessario
progettare un sistema di riconoscimento che debba
garantire buone prestazioni non per un valore
determinato delle probabilità a priori, ma su un
intervallo di valori possibili.
z Esempi:
z Non conosciamo esattamente la prob. a priori, ma
sappiamo che varia in un certo intervallo.
z Durante la fase operativa del sistema, le prob. a priori
possono cambiare in modo impredicibile.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 28 di Cassino

14
Criterio Minimax
z In questo caso, un approccio ragionevole è
quello di progettare il classificatore in modo
da minimizzare i danni nel caso peggiore
(worst case).
z Ciò equivale a minimizzare il valore massimo
del rischio al variare delle probabilità a priori.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 29 di Cassino

Criterio Minimax
z Consideriamo le regioni di decisione R1 ed R2
indotte da un criterio di decisione. Il rischio
relativo è:
R= ∫ [λ
R1
P p (x ω1 ) + λ12 P2 p (x ω2 )]dx +
11 1 ∫ [λ
R2
P p (x ω1 ) + λ22 P2 p (x ω2 )]dx
21 1

dove P1 = P(ω1 ) P2 = P(ω2 )

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 30 di Cassino

15
Criterio Minimax
z Considerando che ∫ p(x ω1 )dx = 1 − ∫ p(x ω1 )dx
otteniamo: R R 1 2

R(P1 ) = λ22 + (λ12 − λ22 )∫ p (x ω2 )dx +


R1

 
+ P1 (λ11 − λ22 ) + (λ21 − λ11 ) ∫ p (x ω1 )dx − (λ12 − λ22 ) ∫ p (x ω2 )dx 
 R2 R1 
z Una volta stabilite le regioni di decisione, il
rischio è una funzione lineare di P1. Che cosa
significa ?
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 31 di Cassino

Criterio Minimax
Rischio

λ11

λ22

P1 P1
0.0 1.0

Fissata P1, è definito il rischio condizionale complessivo. F. Tortorella © 2005


Che cosa succede se P1cambia? Università degli Studi
di Cassino

16
Criterio Minimax
Rischio

λ22

λ11

P1 P1
0.0 1.0

Per alcuni valori di P1, il rischio condizionale complessivo F. Tortorella © 2005


assume valori inaccettabili. Università degli Studi
di Cassino

Criterio Minimax
z Per limitare il massimo rischio ottenibile, si
sceglie un punto di lavoro tale che, al variare
di P1, il rischio non si modifichi.
z Tale punto coincide con il punto di max del
rischio al variare di P1.
z Di conseguenza, si sceglie il valore di P1 che
massimizza il rischio condizionale
complessivo.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 34 di Cassino

17
Criterio Minimax
Rischio

λ11

λ22

P1
0.0 Pmm 1.0

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 35 di Cassino

Criterio Minimax
z In questo caso, il rischio diventa:
R(P1 ) = λ22 + (λ12 − λ22 ) ∫ p (x ω2 )dx =
R1

λ11 + (λ21 − λ11 ) ∫ p(x ω1 )dx


z Si ottiene per: R2

(λ11 − λ22 ) + (λ21 − λ11 ) ∫ p(x ω1 )dx − (λ12 − λ22 )∫ p(x ω2 )dx = 0
R2 R1

e, nel caso λ11=λ22


(λ21 − λ11 ) ∫ p(x ω1 )dx = (λ12 − λ22 )∫ p(x ω2 )dx
R2 R1
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 36 di Cassino

18
Criterio di Neyman-Pearson
z Ricordiamo che il criterio di Bayes minimizza
il rischio condizionale R
R= ∫ [λ
R1
P p (x ω1 ) + λ12 P2 p (x ω2 )]dx +
11 1 ∫ [λ
R2
P p (x ω1 ) + λ22 P2 p (x ω2 )]dx
21 1

che può scriversi:


R = λ11 P1δ1 + λ12 P2ε 2 + λ21 P1ε 1 + λ22 P2δ 2

δ1 = ∫ p(x ω1 )dx δ 2 = ∫ p ( x ω 2 ) dx
dove: R1 R2

ε 1 = ∫ p(x ω1 )dx ε 2 = ∫ p (x ω2 )dx


R2 R1 F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 37 di Cassino

Criterio di Neyman-Pearson
z Mentre il criterio di Bayes ottimizza il rischio
condizionale complessivo, si potrebbe avere
l’esigenza di limitare la probabilità di errore
all’interno di una classe.
z Esempio: è necessario che la probabilità di
errore sui campioni della classe ω2 sia minore
di α e che sia la minima possibile su ω1.
In altri termini, ε2<α e ε1 min!

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 38 di Cassino

19
Criterio di Neyman-Pearson
z Utilizzando i moltiplicatori di Lagrange
possiamo scrivere la funzione obiettivo da
minimizzare come:
 
F = ε 1 + λ (ε 2 − α ) = ∫ p(x ω1 )dx + λ  ∫ p (x ω2 )dx − α 
R 
R 
2 1
z Da notare:
z Non sono presenti le probabilità a priori
z Le regioni di decisione sono da definire (soluzione
del problema di minimizzazione)
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 39 di Cassino

Criterio di Neyman-Pearson
z La funzione obiettivo si può scrivere:
 
F= ∫ p(x ω )dx + λ 1 − ∫ p(x ω )dx − α  = λ (1 − α ) + ∫ [ p(x ω ) − λp(x ω )]dx
1 2 1 2
R2  R2  R2

z Per minimizzare la f.o. occorre minimizzare


l’integrale e ciò si ottiene rendendo definitivamente
negativo l’integrando, cioè:
{
R2 = x p (x ω1 ) − λp (x ω2 ) < 0 }
che significa definire il criterio di decisione:
p (x ω1 ) >1
ω

λ
p (x ω2 ) <
ω2 F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition Università degli Studi
Elementi di teoria della decisione 40 di Cassino

20
Criterio di Neyman-Pearson
z Il criterio ottenuto è basato sul confronto tra
likelihood ratio ed una soglia (simile al criterio
di Bayes)
z Come otteniamo il valore della soglia λ ?
Imponendo che sia soddisfatto il vincolo
sull’errore.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 41 di Cassino

Criterio di Neyman-Pearson
z Di fatto, bisogna scegliere λ in modo che
ε2=α’ <α
z Come è possibile esprimere l’errore?
z Consideriamo il LR Λ(x) come una v.a., in
quanto è una funzione della variabile
aleatoria x.
z Consideriamo la pdf di Λ condizionata alla
classe ω2
p (Λ ω2 ) = p (Λ (x) x ∈ ω2 )
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 42 di Cassino

21
Criterio di Neyman-Pearson
z In questo modo, l’errore è definibile come:
+∞
ε2 = ∫λ p(Λ ω )dΛ = α ′
2

z Purtroppo una soluzione analitica non è


sempre possibile. Di solito, si cerca una
soluzione sperimentale o numerica.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 43 di Cassino

Classificazione con rigetto


z Nella classificazione cost-sensitive, ci
possono essere casi in cui il costo di un
errore è così elevato che è conveniente
astenersi dal fornire una risposta piuttosto
che rischiare un errore.
z In questi casi, alle decisioni possibili si
aggiunge la “decisione di non decidere”, detta
anche rigetto.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 44 di Cassino

22
Classificazione con rigetto
z Il rischio condizionale diventa:
r se α =‘rigetto’
R(α|x) =
c P(ωi|x) +e (1- P(ωi|x)) se α=ωi
z Quindi la regola di decisione diventa:

ωi se P(ωi|x) > P(ωj|x) ∀i≠j and


α(x) = P(ωi|x) > (e-r)/(e-c)
‘rigetto’ altrimenti
Regola di Chow
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 51 di Cassino

Classificazione con rigetto:


problemi a due classi
z Consideriamo un problema a due classi cost-
sensitive con costi non uniformi ed opzione di
rigetto.
z Come si particolarizza il criterio di decisione ?
z Partiamo dal criterio generale definito in base
ai rischi condizionali:
R(α 0 ) = λ0
R(α1 ) = λ11 P (ω1 x) + λ12 P (ω2 x)
R(α 2 ) = λ21 P(ω1 x) + λ22 P (ω2 x) F. Tortorella © 2005
Università degli Studi
di Cassino

26
Regola di decisione con rigetto
per il classificatore bayesiano
z La regola di decisione diventa quindi:

ωi se P(ωi|x) > P(ωj|x) ∀i≠j and


α(x) = P(ωi|x) > 1-t
‘rigetto’ altrimenti

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 47 di Cassino

Regioni di rigetto

1-t=0.6

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 48 di Cassino

24
Curva error/reject
z Al variare di t variano la probabilità di errore e
la probabilità di rigetto secondo una curva
che si definisce curva error/reject
Pe
t=1

t=0

P r © 2005
1 F. Tortorella
Università degli Studi
di Cassino

Classificazione con rigetto


z Anche il rigetto avrà un suo costo (inferiore a
quello di un errore).
z Assumiamo una funzione di costo del tipo:

c se i=j
λij= e se i≠j
r se i=‘rigetto’

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 50 di Cassino

25
Criterio di Neyman-Pearson
z Utilizzando i moltiplicatori di Lagrange
possiamo scrivere la funzione obiettivo da
minimizzare come:
 
F = ε 1 + λ (ε 2 − α ) = ∫ p(x ω1 )dx + λ  ∫ p (x ω2 )dx − α 
R 
R 
2 1
z Da notare:
z Non sono presenti le probabilità a priori
z Le regioni di decisione sono da definire (soluzione
del problema di minimizzazione)
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 39 di Cassino

Criterio di Neyman-Pearson
z La funzione obiettivo si può scrivere:
 
F= ∫ p(x ω )dx + λ 1 − ∫ p(x ω )dx − α  = λ (1 − α ) + ∫ [ p(x ω ) − λp(x ω )]dx
1 2 1 2
R2  R2  R2

z Per minimizzare la f.o. occorre minimizzare


l’integrale e ciò si ottiene rendendo definitivamente
negativo l’integrando, cioè:
{
R2 = x p (x ω1 ) − λp (x ω2 ) < 0 }
che significa definire il criterio di decisione:
p (x ω1 ) >1
ω

λ
p (x ω2 ) <
ω2 F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 40 di Cassino

20
Classificazione con rigetto:
problemi a due classi
z La condizione per decidere l’assegnazione
alla classe ω1 è R(α1 ) = min{R(α1 ), R(α 2 )} e
R(α1 ) ≤ R (α 0 ) da cui:
p (x ω1 ) λ12 − λ0 P2

p ( x ω2 ) λ0 − λ11 P1
z Analogamente per l’assegnazione alla classe
ω2: p (x ω1 ) λ0 − λ22 P2

p (x ω2 ) λ21 − λ0 P1
con R(α 2 ) = min{RUniversità (α 2 )}
(α1 ),degliRStudi
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
di Cassino
Elementi di teoria della decisione 53

Classificazione con rigetto:


problemi a due classi
z Infine, la condizione per il rigetto è:

λ0 − λ22 P2 p (x ω1 ) λ12 − λ0 P2
< <
λ21 − λ0 P1 p(x ω2 ) λ0 − λ11 P1

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 54 di Cassino

27
Funzioni discriminanti
z Una rappresentazione utile dei classificatori è
in termini di un insieme di funzioni
discriminanti gi(x) i=1,…,C.
z Un campione con f.v. x viene assegnato alla
classe ωi se gi(x) > gj(x) j≠i.
z In questo modo, un classificatore è visto
come un sistema che calcola C funzioni
discriminanti e che sceglie la classe con il
valore più ampio.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 55 di Cassino

Funzioni discriminanti

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 56 di Cassino

28
Funzioni discriminanti
z Un classificatore bayesiano può essere facilmente
rappresentato in termini di funzioni discriminanti ed in
diversi modi.
z Caso generale: gi(x) = -R(αi|x)
z Non cost-sensitive: gi(x) = P(ωi|x)
z In generale, la scelta delle funzioni discriminanti non
è unica. Può essere usata ogni funzione monotona di
P(ωi|x):
z gi(x) = p(x|ωi) P(ωi)
z gi(x) = ln P(ωi|x)= ln p(x|ωi) + ln P(ωi)
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 57 di Cassino

Funzioni discriminanti
z Le funzioni discriminanti definiscono
immediatamente le regioni di decisione:
{
Ri (x ) = x g i (x ) > g j (x ) ∀j ≠ i }
z La frontiera di decisione tra due classi ωi e ωj
è definita come:
{
Γij (x ) = x g i (x ) = g j (x ) j ≠ i }
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 58 di Cassino

29
Funzioni discriminanti

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 59 di Cassino

Funzioni discriminanti per


classificatori a due classi
z Per il classificatore a due classi (dichotomizer)
è consueto definire un’unica funzione
discriminante:
ω1

g(x) ≡ g1 (x) − g 2 (x) > 0


<
ω2
z In tal modo, la decisione avviene in base al
segno della g(x)

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 60 di Cassino

30
Funzioni discriminanti per
classificatori a due classi
z Sono possibili diverse definizioni :

g(x) = P(ω1 x ) − P(ω2 x )


Non
cost-sensitive
p( x ω1 ) P(ω1 )
g(x) = ln + ln
p( x ω2 ) P(ω2 )

p( x ω1 ) λ21 − λ11 P(ω1 )


g(x) = ln + ln + ln
p( x ω2 ) λ12 − λ22 P(ω2 )
cost-sensitive
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 61 di Cassino

Funzioni di densità normali


z Un caso notevole è dato dalle funzioni di
densità gaussiane (o normali).
z La ragione per questa particolarità è legata al
fatto che la densità gaussiana è un modello
appropriato in situazioni in cui il f.v. x per la
classe ωi è una versione rumorosa di un
prototipo µi.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 62 di Cassino

31
Funzioni di densità normali
z Nel caso di f.v. a d dimensioni, le densità
sono definite come:
 1 
p(x|ωi ) = Ai exp − (x − µ i )T Σ i−1(x − µ i )
 2 
1 µ i = E [x|ωi ]
Ai = 1/ 2 Vettore delle medie
( 2π)d/ 2 Σ i
[
Σ i = E (x-µ i )(x-µ i )T|ωi ]
Matrice di covarianza
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 63 di Cassino

Funzioni di densità normali


z Consideriamo i singoli componenti di µ e Σ.
z Se il f.v. è x = ( x1 , x2 ,..., xd ) possiamo scrivere
il vettore delle medie come:
µ = (µ1 , µ 2 ,..., µ d )
dove:
µi = E [xi ]

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 64 di Cassino

32
Funzioni di densità normali
z Analogamente per la matrice di covarianza:

σ 11 σ 12 σ 1d 
σ 21 σ 22 σ 2d 
Σ= 
 
 
σ d 1 σ d 2 σ dd 

σ ij = E [( xi − µi )(x j − µ j )]
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 65 di Cassino

Proprietà della matrice di


covarianza
z Matrice simmetrica: σ ij = σ ji
z Gli elementi sulla diagonale sono le varianze delle
componenti: σ ii = σ i2
z Gli elementi fuori dalla diagonale sono le covarianze
delle componenti e σ ij ≤ σ iσ j
z Se xi e xj tendono a crescere insieme, allora σij>0.
z Se xi tende a crescere quando xj tende a
decrescere, allora σij<0.
z Se xi e xj sono statisticamente indipendenti, allora
σij=0.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 66 di Cassino

33
Proprietà della matrice di
covarianza
xj xj xj

xi xi xi
σ ij = −σ iσ j σ ij = 0
σ ij < 0 σ ij < σ iσ j
xj xj

xi xi
σ ij > 0 σ ij < σ iσ j σ ij = σ iσ j
F. Tortorella © 2005
Università degli Studi
di Cassino

Funzioni di densità normali


z I campioni estratti da una popolazione con
pdf normale tendono a disporsi in una singola
“nuvola”.
z Il centro della regione è definito dal vettore
delle medie, mentre la forma della regione è
determinata dalla matrice di covarianza.
z I punti che hanno lo stesso valore per la pdf
appartengono a curve su cui il termine
1
(x − µ i )T Σ i−1(x − µ i ) è costante.
2 F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 68 di Cassino

34
Funzioni di densità normali

d=2
1 T −1
Il termine 2 (x − µ i ) Σ i (x − µ i )
viene spesso indicato
come quadrato della
distanza di
Mahalanobis

p(x|ωi) costante
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 69 di Cassino

Classificatore bayesiano con


densità normali
z Nel caso di classificazione non cost-sensitive,
le funzioni discriminanti possono essere poste:
g i (x) = ln p (x ωi ) + ln P (ωi )
z Se le densità sono normali:
1 1 d
g i(x) = − (x − µ i )T Σ i−1(x − µ i )- ln Σ i − ln 2π + ln P(ωi )
2 2 2
z In generale, il classificatore ottimale è un
classificatore quadratico.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 70 di Cassino

35
Densità normali
caso Σi=σ2I
z Se le features sono statisticamente
indipendenti e hanno uguale varianza σ2, la
forma di gi(x) si semplifica:
1
Σ i−1 = 2 I Σ i = σ 2 d (costante risp. a i)
σ
2
(x − µ i )T (x − µ i ) x − µi
g i(x) = − 2
+ ln P(ωi ) = − + ln P(ωi )
2σ 2σ 2

distanza euclidea
Teoria e Tecniche di Pattern Recognition
F. Tortorella © 2005
Università degli Studi
Elementi di teoria della decisione 71 di Cassino

Densità normali
caso Σi=σ2I
z Valutiamo la gi(x):
1
[ ]
g i(x) = − 2 xT x − 2µTi x + µTi µ i + ln P(ωi )

z Se si considera che xTx è indipendente da i,
si ottiene un classificatore lineare (linear
machine):
µTi x µTi µ i
g i(x) = 2
− 2
+ ln P(ωi ) = w Ti x + w i 0
σ 2σ
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 72 di Cassino

36
Densità normali
caso Σi=σ2I

d=1 d=2 d=3

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 73 di Cassino

Densità normali
caso Σi=σ2I
z Definiamo le frontiere di decisione g i ( x ) − g j ( x) = 0

g i(x) − g j(x) = (w i − w j ) x + (w i 0 − w j 0 ) = 0
T

z Nel caso in esame l’equazione della frontiera


si può scrivere w T (x − x 0 ) = 0 dove:
w = µi − µ j
σ2 P(ωi )
x 0 = (µ i + µ j ) − (µi − µ j )
1
ln
2 µi − µ j
2
P(ω j )
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 74 di Cassino

37
Al cambiare delle P(ωi) le frontiere di decisione si spostano
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 75 di Cassino

Densità normali
caso Σi= Σ
z Anche in questo caso, la forma delle gi(x) si
semplifica:
1 1 d
g i(x) = − (x − µ i )T Σ i−1(x − µ i )- ln Σ i + ln P(ωi ) − ln 2π
2 2 2

1
g i(x) = − (x − µ i )T Σ −1(x − µ i ) + ln P(ωi )
2

g i(x) = w Ti x + wi 0

w i = Σ −1µ i 1
wi 0 = − µTi Σ −1µ i + ln P(ωi )
F. Tortorella © 2005
Università degli Studi

2 di Cassino

38
Densità normali
caso Σi= Σ
z Anche in questo caso l’equazione della
frontiera si può scrivere w (x − x 0 ) = 0 dove:
T

w = Σ −1 (µ i − µ j )

 P(ωi ) 
ln
P(ω j ) 
x 0 = (µ i + µ j ) − (µ − µ )
1 
2 (µ i − µ j )T Σ −1 (µ i − µ j ) i j
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 77 di Cassino

Le frontiere di decisione non sono più ortogonali a µi-µj


F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 78 di Cassino

39
Criteri di decisione per problemi a
due classi: Valutazione
z Finora abbiamo visto diversi (equivalenti)
criteri di decisione per problemi a due classi:
ω1
p (x ω1 ) > λ12 − λ22 P(ω2 )
z Likelihood ratio: p(x ω2 ) < λ21 − λ11 P(ω1 )
ω2
ω1
 p(x ω1 )  >  λ12 − λ22 P(ω2 ) 
z Log-Likelihood ratio: ln  ln 
 p(x ω2 )  ω<  λ21 − λ11 P(ω1 ) 
 
2

z In generale, il criterio di decisione è del tipo:


ω1
L ( x) > γ
< F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
ω2 Università degli Studi
Elementi di teoria della decisione 79 di Cassino

Criteri di decisione per problemi a


due classi: Valutazione
z La soglia utilizzata è definita sulla base delle
probabilità a priori delle classi e della matrice dei
costi.
z Il primo membro, invece, è indipendente da tali
parametri.
z Nel valutare il criterio di decisione, quindi, dovremo
tenere conto di questo e decidere che cosa valutare:
z L’accuratezza del classificatore (in termini di rischio o
probabilità di errore) per una data combinazione di costi e
probabilità a priori (per un dato decision bias)
z La capacità intrinseca del classificatore a discriminare tra
le due classi, indipendentemente dal decision bias.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 80 di Cassino

40
Criteri di decisione per problemi a
due classi: Valutazione
z Consideriamo il rischio condizionale in
funzione della soglia γ:
R (γ ) = λ11 P1δ1 (γ ) + λ12 P2ε 2 (γ ) + λ21 P1ε 1 (γ ) + λ22 P2δ 2 (γ )
che, come noto, si può scrivere:
R (γ ) = λ11 P1δ1 (γ ) + λ12 P2ε 2 (γ ) + λ21 P1 [1 − δ1 (γ )] + λ22 P2 [1 − ε 2 (γ )]

o
R (γ ) = λ11 P1 [1 − ε 1 (γ )] + λ12 P2 [1 − δ 2 (γ )] + λ21 P1ε 1 (γ ) + λ22 P2δ 2 (γ )

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 81 di Cassino

Criteri di decisione per problemi a


due classi: Valutazione
z Nella formulazione del rischio si identificano
due tipi di contributi:
z λij , Pi : legati al particolare problema, indipendenti
dal classificatore
z δ1 (γ ) ε 2 (γ ) δ 2 (γ ) ε 1 (γ ) : intrinseci al classificatore,
indipendenti dal problema
z Per ottenere una valutazione della qualità di
discriminazione intrinseca al classificatore si
possono valutare gli andamenti di δ1 (γ ) ε 2 (γ ) o
di δ 2 (γ ) ε1 (γ ) al variare di γ.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 82 di Cassino

41
Denominazioni
(uno, nessuno e centomila…)
z La classificazione a due classi è presente in
molti contesti diversi (hypothesis testing,
tecniche radar, diagnosi medica,…) e ciò ha
portato a definire i vari errori e corrette
classificazioni in diversi modi:
z Type I, type II error
z PF (false alarm),PM (miss),PD (detection)(PH hit),
PCR (correct rejection)
z TPR, FPR, TNR, FNR (True Positive, False
Positive, True Negative, False Negative)
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 83 di Cassino

FNR, PM
TPR, PH, PD

TNR, PCR

FPR, PF

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 84 di Cassino

42
Denominazioni
z Scegliamo di adottare la notazione che adopera le
seguenti denominazioni:
z TPR=1-FNR
z FPR=1-TNR
z Sulla base delle caratteristiche del problema
possiamo adottare una delle due convenzioni:
z TPR(γ)= δ 1 (γ ) FPR(γ)= ε 2 (γ )
z TPR(γ)= δ 2 (γ ) FPR(γ)= ε 1 (γ )

z Questi valori si possono visualizzare graficamente


su un piano (piano della curva ROC o ROC space).
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 85 di Cassino

Il piano ROC
1

FPR(γ) FNR(γ) Date le relazioni:


FNR(t) = 1 − TPR(γ )

FPR(t) = 1 − TNR(γ )
TPR

per caratterizzare
completamente le prestazioni
TNR(γ)
del classificatore in
corrispondenza della soglia t
TPR(γ) sono sufficienti due valori,
es.: FPR(γ) e TPR(γ)
0
0 FPR 1

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 86 di Cassino

43
La curva ROC
1.0
z Al variare di t, si ottiene
una sequenza di coppie
0.8
(FPR(γ), TPR(γ) che
fornisce la curva ROC
0.6
(Receiver Operating

TPR
Characteristic ) del
classificatore. 0.4

0.2

0.0
0.0 0.2 0.4 0.6 0.8 1.0
FPR F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 87 di Cassino

La curva ROC
1.0

Punto di
lavoro γ → -∞ Tutti ω2
0.8
ideale

0.6
TPR

0.4

Classificatore
γ → +∞ casuale
0.2
Tutti ω1

0.0
0.0 0.2 0.4 0.6 0.8 1.0
FPR
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 88 di Cassino

44
La curva ROC
1.0
C3 Più la curva è
C2 spostata verso
0.8
C1 l’angolo in alto a
sinistra, migliori
0.6 sono le prestazioni
del classificatore
TPR

relativo.
Prestazioni
0.4
migliori

0.2

0.0
0.0 0.2 0.4 0.6 0.8 1.0
FPR
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 89 di Cassino

Proprietà della curva ROC


relativa al LRT
z La curva ROC ha concavità rivolta verso il
basso.
z È al di sopra della retta TPR=FPR.
z La pendenza della curva in un particolare
punto è uguale al valore della soglia
λ − λ P(ω )
η= 12
λ − λ P(ω )
richiesta per ottenere TPR e FPR
22 2

di quel punto (supponendo TPR(γ)= δ1 (γ ) e


21 11 1

FPR(γ)= ε 2 (γ ) ) (dimostrazione in Van Trees,


vol. 1, § 2.2)
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 90 di Cassino

45
Rette isoscosto
z Assumiamo TPR(γ)= δ1 (γ ) e FPR(γ)= ε 2 (γ ) e
consideriamo la definizione del rischio
condizionale in funzione della soglia γ:
R (γ ) = λ11 P1δ1 (γ ) + λ12 P2ε 2 (γ ) + λ21 P1 [1 − δ1 (γ )] + λ22 P2 [1 − ε 2 (γ )]
z Il rischio associato ad un punto (FPR,TPR)
sul piano ROC sarà quindi:
λ11 P1 ⋅ TPR + λ12 P2 ⋅ FPR + λ21 P1 [1 − TPR ] + λ22 P2 [1 − FPR ]
che può scriversi:
P1 ⋅ (λ11 − λ21 ) ⋅ TPR + P2 ⋅ (λ12 − λ22 ) ⋅ FPR + P1 ⋅ λ21 + P2 ⋅ λ22
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 91 di Cassino

Rette isoscosto
z Perché due punti (FPR1,TPR1) e
(FPR2,TPR2) abbiano lo stesso rischio
associato, si deve avere:
P1 ⋅ (λ11 − λ21 ) ⋅ TPR1 + P2 ⋅ (λ12 − λ22 ) ⋅ FPR1 =
P1 ⋅ (λ11 − λ21 ) ⋅ TPR2 + P2 ⋅ (λ12 − λ22 ) ⋅ FPR2

da cui:
TPR2 − TPR1 P2 (λ12 − λ22 )
= ⋅
FPR2 − FPR1 P1 (λ21 − λ11 )
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 92 di Cassino

46
Rette isocosto
z L’equazione definisce la pendenza di una
retta isocosto. In altre parole, tutti i punti
(FPR,TPR) del piano ROC sulla retta
TPR − TPR1 P2 (λ12 − λ22 )
= ⋅
FPR − FPR1 P1 (λ21 − λ11 )
avranno associato lo stesso rischio
condizionale.
z Ogni combinazione di probabilità a priori e di
costi definisce un fascio di rette isocosto.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 93 di Cassino

Rette isocosto
1.0
Le rette del fascio che
sono disposte più in
alto e a sinistra sono 0.8

quelle cui compete il


rischio minore. 0.6
TPR

Rischio
crescente
0.4

R = P1 ⋅ (λ11 − λ21 ) ⋅ TPR0 + P1 ⋅ λ21 + P2 ⋅ λ22 0.2

0.0
Teoria e Tecniche di Pattern Recognition 0.0 0.2 0.4 0.6 F. Tortorella
0.8 © 2005 1.0
FPR Università degli Studi
Elementi di teoria della decisione 94 di Cassino

47
Definizione della soglia ottima
z Data una combinazione di probabilità a priori
e di costi, qual è il punto di lavoro ottimale
sulla curva ROC ?
z Tale punto deve giacere
z sulla curva ROC
z sulla retta del fascio più “in alto e a sinistra”

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 95 di Cassino

Definizione della soglia ottima


non realizzabile
1.0
ottima

0.8
subottima

0.6
TPR

Rischio
crescente
0.4

0.2

0.0
0.0 Recognition
Teoria e Tecniche di Pattern 0.2 0.4 0.6 0.8 1.0 F. Tortorella © 2005
FPR Università degli Studi
Elementi di teoria della decisione 96 di Cassino

48
Definizione della soglia ottima
Criterio di Bayes
z Il punto di lavoro ottimo è definito dalla retta
del fascio (identificato da probabilità a priori e
costi) tangente alla curva ROC.
z La soglia ottima è di conseguenza quella
associata al punto di lavoro ottimo trovato.
z Nel caso stiamo considerando il LRT,
ritroviamo il criterio di Bayes.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 97 di Cassino

Definizione della soglia ottima


1.0

Al variare del
rapporto tra 0.8

le probabilità
delle classi 0.6
e/o dei costi
TPR

cambia la
0.4
pendenza e
quindi la
soglia ottima. 0.2

0.0
0.0 0.2 0.4 0.6 0.8 F. Tortorella
1.0 © 2005
Teoria e Tecniche di Pattern Recognition FPR
Università degli Studi
Elementi di teoria della decisione 98 di Cassino

49
Criterio di Neyman-Pearson
z In questo contesto, il criterio di Neyman-
Pearson specifica un FPR (o un FNR)
massimo accettabile.
z Di conseguenza, la definizione del punto di
lavoro ottimo in accordo al criterio NP è
facilmente identificato dall’intersezione tra la
curva ROC e la retta FPR=FPRmax
(FNR=FNRmax).

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 99 di Cassino

Criterio di Neyman-Pearson
1.0

1-FNRmax 0.8

0.6
TPR

0.4

0.2 FPRmax

0.0
0.0 Recognition
Teoria e Tecniche di Pattern 0.2 0.4 0.6 0.8 1.0 F. Tortorella © 2005
FPR Università degli Studi
Elementi di teoria della decisione 100 di Cassino

50
Criterio Minimax
z Ricordiamo che la condizione che forniva il
punto di lavoro ottimo in accordo al criterio
minimax era definito dalla relazione:
(λ11 − λ22 ) + (λ21 − λ11 )ε1 − (λ12 − λ22 )ε 2 = 0
z Mantenendo la consueta assunzione
TPR= δ1 (γ ) e FPR= ε 2 (γ ) , la relazione diventa:
(λ11 − λ22 ) + (λ21 − λ11 ) ⋅ (1 − TPR ) − (λ12 − λ22 ) ⋅ FPR = 0

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 101 di Cassino

Criterio Minimax
z Semplificando, la relazione identifica nel
piano ROC la retta :
(λ21 − λ11 ) ⋅ TPR + (λ12 − λ22 ) ⋅ FPR + λ22 − λ21 = 0
z Di conseguenza, il punto di ottimo per il
criterio minimax è dato dall’intersezione della
retta sopra definita con la curva ROC.

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 102 di Cassino

51
Criterio Minimax
1.0

λ21 − λ22
λ21 − λ11 0.8

0.6
TPR

0.4
λ21 − λ22
λ12 − λ11
0.2

0.0
0.0 Recognition
Teoria e Tecniche di Pattern 0.2 0.4 0.6 0.8 1.0 F. Tortorella © 2005
FPR Università degli Studi
Elementi di teoria della decisione 103 di Cassino

Criterio Minimax
1.0

Caso λ11=λ22=0
0.8

λ21
= 1.5
0.6 λ12
TPR

λ21
0.4 = 0.5
λ12
λ21
= 1.0
λ12
0.2
λ21
= 0.2
λ12
0.0 F. Tortorella
0.0
Teoria e Tecniche di Pattern Recognition 0.2 0.4 0.6 0.8 1.0© 2005
FPR Università degli Studi
Elementi di teoria della decisione 104 di Cassino

52
Stima della curva ROC
z Come ricavare la curva ROC quando la regola di
decisione è realizzata da un classificatore e non
sulla base delle pdf condizionate ?
z Consideriamo un problema a due classi (definiamole
genericamente “classe dei positivi” e “classe dei
negativi”).
z Supponiamo di avere un classificatore che riceve in
ingresso un campione i e fornisce una stima f(i)
dell’appartenenza del campione alla classe dei
positivi.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 105 di Cassino

Stima della curva ROC


z Supponiamo inoltre che sia disponibile un
insieme S formato da P campioni “positivi” ed
N campioni “negativi” (l’insieme non è stato
usato per costruire il classificatore).
z Sottoponiamo i campioni di S al classificatore
e, per ogni campione i, valutiamo la risposta
f(i).
i f(i)
classificatore

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition Università degli Studi
di Cassino
Elementi di teoria della decisione 106

53
Stima della curva ROC
z Un modo semplice è quello di considerare un
insieme di soglie {tk} con min(f(i))≤tk≤max(f(i))
e valutare FPR e TPR per ognuna delle soglie,
ricavando un insieme di punti sperimentali.
z In questo modo, però, si possono ottenere
risultati inaccurati.
z Alternativa: algoritmi che impiegano come
possibili soglie tutti i valori forniti dal
classificatore.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 107 di Cassino

Generazione della curva ROC


su un insieme di campioni

F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 108 di Cassino

54
Stima della curva ROC.
Pdf condizionate alle classi di f()

0.18
p(f|y=-1)
p(f|y=+1)
0.16

0.14

0.12

0.1

0.08

0.06

0.04

0.02

0
-5 -4 -3 -2 -1 0 1 2 3 F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 109 di Cassino

Stima della curva ROC


z La curva ottenuta non è 1.0

continua e presenta delle


concavità locali.
0.8
z Tuttavia, quanto detto in
precedenza sulla
definizione del punto di 0.6

lavoro ottimo resta valido.


TPR

z L’unica differenza è che i 0.4

punti da considerare sono


quelli appartenenti al 0.2
convex hull della curva
ROC.
0.0
0.0 0.2 0.4 0.6 0.8© 2005
F. Tortorella 1.0
Teoria e Tecniche di Pattern Recognition FPR
Università degli Studi
Elementi di teoria della decisione 110 di Cassino

55
Scelta della soglia ottima
non realizzabile

1.0 ottima
La soglia
ottimale si 0.8 subottima
ricava in
corrispondenza
0.6
del punto di
tangenza tra il
TPR

fascio di rette 0.4


Rischio crescente
ed il convex
hull della curva 0.2
ROC curve
Convex Hull

ROC.
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
0.0
0.0 0.2 0.4 0.6 Università degli
0.8 1.0 Studi
Elementi di teoria della decisione 111 FPR di Cassino

La curva ROC: valutazione dei


classificatori
1.0
C3 Attraverso la curva
C2
0.8
ROC è possibile
C1 stabilire quale sia il
classificatore
migliore solo se c’è
0.6
TPR

una dominanza su
Prestazioni
0.4
migliori tutto l’insieme dei
punti di lavoro.
0.2
Es. C3 > C2 > C1

0.0 F. Tortorella © 2005


0.0
Teoria e Tecniche 0.2
di Pattern 0.4
Recognition 0.6 0.8 1.0
FPR Università degli Studi
Elementi di teoria della decisione 112 di Cassino

56
La curva ROC: valutazione dei
classificatori
1.0
C1 In questo caso non si
può affermare con
chiarezza quale sia il
0.8
classificatore
C2 migliore.
0.6
Tuttavia è possibile
TPR

realizzare un
0.4 confronto tra i due
classificatori in
termini di Area
0.2
sottesa alla curva
ROC (AUC).
0.0 F. Tortorella © 2005
0.0 0.2 0.4 0.6 0.8 1.0
FPR Università degli Studi
di Cassino

L’AUC come parametro sintetico


per la valutazione
z L’AUC varia tra 0.5 (classificatore completamente casuale) e 1.0
(classificatore ideale).
z Come interpretare i valori intermedi ? Che cosa possiamo
concludere se AUC1>AUC2 ?
z L’AUC ha un preciso significato: fornisce la probabilità
P(f(X)>f(Y)), dove f(X) e f(Y) sono le uscite del classificatore in
corrispondenza di due campioni casualmente prelevati dalla
classe negativa e dalla classe positiva, rispettivamente.
z Probabilità di corretto ordinamento: P(f(X)>f(Y)) non significa
che i campioni sono classificati entrambi correttamente, ma che
1. esiste un valore della soglia per cui X e Y sono classificati
correttamente
2. non esiste alcun valore della soglia per cui X e Y sono classificati
erroneamente
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 114 di Cassino

57
Dimostrazione informale del
significato dell’AUC
Valutiamo il rettangolo sotteso 1.0

alla curva mostrato in figura.


Pr ( f ( X ) > γ X ∈ PosClass )
L’area è uguale a:
0.8
Pr ( f ( X ) > γ )* Pr (γ − ∆γ < f (Y ) ≤ γ )

Essendo f(X) e f(Y)


indipendenti il prodotto è 0.6

uguale a: TPR

Pr ( f ( X ) > γ , γ − ∆γ < f (Y ) ≤ γ )
0.4
Pr (γ − ∆γ < f (Y ) ≤ γ Y ∈ NegClass )
e quindi sommando le aree di
tutti i rettangoli sottesi alla
Pr ( f (Y ) > γ Y ∈ NegClass )
curva, si ottiene 0.2

Pr ( f ( X ) > f (Y ) ) Pr ( f (Y ) > γ − ∆γ Y ∈ NegClass )

0.0 F. Tortorella
Teoria e Tecniche di Pattern Recognition 0.0 0.2 0.4 0.6 0.8 © 2005
1.0
FPR Università degli Studi
Elementi di teoria della decisione 115 di Cassino

AUC e accuratezza a confronto


z L’AUC fornisce la probabilità di corretto ordinamento una valutazione
diversa dall’accuratezza (accuracy), che è legata alla probabilità di
errore del classificatore.

z In many applications, the overall classification error rate is not the most
pertinent performance measure, criteria such as ordering or ranking seem
more appropriate. Consider for example the list of relevant documents
returned by a search engine for a specific query.
That list may contain several thousand documents, but, in practice, only
the top fifty or so are examined by the user. Thus, a search engine’s
ranking of the documents is more critical than the accuracy of its
classification of all documents as relevant or not. More generally, for a
binary classifier assigning a real-valued score to each object, a better
correlation between output scores and the probability of correct
classification is highly desirable.

C. Cortes* and M. Mohri, AUC Optimization vs. Error Rate Minimization,


Advances in Neural Information Processing Systems (NIPS 2003)
Teoria e Tecniche di Pattern Recognition (*) Google
F. Tortorella Labs
© 2005
Università degli Studi
Elementi di teoria della decisione 116 di Cassino

58
Calcolo dell’AUC
z Dalla definizione, un modo per calcolare l’AUC è
quello di eseguire il calcolo numerico dell’integrale
della curva sperimentale
z Un metodo alternativo viene dall’osservazione che
l’AUC coincide con la statistica di Wilcoxon-Mann-
Whitney che stima direttamente la probabilità
P(f(X)>f(Y)) P N 1 if x > y
∑∑ I ( X , Y )
i =1 j =1
i j 
I ( x, y ) = 0.5 if x= y
0 if x< y
N ⋅P 
Statistica di Wilcoxon-Mann-Whitney
F. Tortorella © 2005
Teoria e Tecniche di Pattern Recognition
Università degli Studi
Elementi di teoria della decisione 117 di Cassino

59

Potrebbero piacerti anche