Sei sulla pagina 1di 72

1

Dipartimento di Ingegneria
Biofisica ed Elettronica
Universit di Genova
Prof. Sebastiano B. Serpico
2. Teoria della decisione
2
Introduzione alla Teoria della Decisione
La teoria della decisione Bayesiana affronta un problema di
classificazione su base probabilistica, assegnando cio un
campione incognito ad una delle classi disponibili sulla base
delle caratteristiche statistiche del vettore delle feature x.
La teoria della decisione assume nota la densit di probabilit
(ddp) p(x,e
i
) del vettore delle feature x condizionate
allappartenenza a ciascuna classe e
i
(i = 1, 2, ..., M).
Un campione incognito x* assegnato ad una delle classi e
1
, e
2
,
..., e
M
sfruttando linformazione statistica contenuta nelle ddp
condizionate alle classi p(x, e
i
) (i = 1, 2, ..., M).
Il problema della decisione , in realt, un problema pi generale
rispetto al problema della classificazione.
Nellambito della teoria della decisione si inquadrano:
la decisione a minimo rischio (Bayes);
i criteri MAP ed ML;
il criterio minimax;
il criterio di Neyman-Pearson.
3
Criterio di classificazione MAP
Criterio MAP:
un campione x assegnato alla
classe che presenta la massima
probabilit a posteriori P(e
i
| x):
x e e
j
P(e
j
| x) > P(e
i
| x)
i = 1, 2, ..., M
poich le probabilit a posteriori
sovente non sono note, applicando
il teorema di Bayes (la definizione
di probabilit condizionata), si
riscrive la regola MAP nel modo
seguente:
x e e
j
P(e
j
)p(x| e
j
) > P(e
i
)p(x| e
i
)
i = 1, 2, ..., M
la regola MAP applicabile
quando sono note le probabilit a
posteriori P(e
i
| x) o linsieme delle
ddp condizionate p(x| e
i
) e delle
probabilit a priori P
i
= P(e
i
).
Ottimalit del criterio MAP
sia R
i
la regione di decisione
associata alla classe e
i
da un
generico classificatore che
abbia disponibili le ddp
condizionate p(x| e
i
) e le
probabilit a priori P
i
(i = 1, 2,
..., M);
la probabilit di errore si
esprime nel modo seguente:
si dimostra che il classificatore
MAP minimizza la probabilit
di errore, note le ddp
condizionate alle classi e le
probabilit a priori delle classi
stesse.
1
1
{err} {err| } ( )
{ | }
M
e i i
i
M
i i i
i
P P P P
P R P
=
=
= = e e =
= e e

x
4
Teoria del minimo rischio
Il criterio MAP non tiene conto degli eventuali costi associati ai
diversi errori di classificazione.
Noi potremmo sapere a priori che decidere per lappartenenza di
un certo campione ad una certa classe implica come conseguenza
decidere che una certa azione sia eseguita. Le azioni collegate a
diverse classi possono avere un costo differente.
La teoria del minimo rischio, basata anch'essa sulla definizione e
sulla massimizzazione di una misura di natura probabilistica,
integra questa informazione aggiuntiva e pu essere considerata
come una teoria pi generale che include il criterio MAP come
caso particolare.
Lo scopo decidere unazione in base alla probabilit delle
singole classi. In generale, non c una corrispondenza diretta
classe azione, che si pu avere per come caso particolare.
Notazioni:
insieme delle classi: O = {e
1
, e
2
, ..., e
M
};
insieme delle azioni possibili che vengono prese in funzione della
decisione: A = {o
1
, o
2
, ..., o
R
};
5
Matrice dei costi
I costi delle azioni che possibile intraprendere dipendono
dalle classi e sono definiti da una matrice dei costi A:
A ha dimensione R M:
Esempio:
O = {e
1
= incendio, e
2
= non-incendio}
A = {o
1
= chiamare i pompieri, o
2
= non chiamare i pompieri}

se introducessimo anche una terza azione chiamare la vigilanza,


avremmo un caso con due classi e tre azioni.
1 1 1 2 1
2 1 2 2 2
1 1
( | ) ( | ) ( | )
( | ) ( | ) ( | )
( | ) ( | ) ( | )
M
M
R R R M
o e o e o e
(
(
o e o e o e
(
A =
(
(
o e o e o e

0
0
o
(
A =
(
|

o il costo di chiamare i pompieri se non c incendio e
| di non chiamare i pompieri se c incendio (es.: o = 10
3
costo chiamata e | = 10
6
costo edificio).
Lelemento
ij
= (o
i
| e
j
)
il costo dellazione o
i
data la classe e
j
ed , in
genere, un numero reale
e positivo (qualora fosse
negativo, denoterebbe
un guadagno).
6
Criterio del minimo rischio
Rischio condizionato
Per ogni pattern x, introduciamo il rischio condizionato R(o
i
|x)
di effettuare lazione o
i
dato il pattern x:
Il rischio condizionato pu essere visto come un costo medio
(rispetto alla distribuzione di probabilit a posteriori delle classi)
che si ha se, osservato un campione x, si decide per unazione o
i
.
Criterio di decisione secondo la teoria del minimo rischio
Dato il pattern x viene scelta lazione o
j
cui associato il minimo
rischio condizionato:
x o
j
R(o
j
| x) s R(o
i
| x) i = 1, 2, ..., R
eeO
=
o = o e e = o e

1
( | ) ( | ) ( | ) { ( | )| }
M
i i j j i
j
R P E x x x
7
Caso particolare
Siano M = R = 2, P
1
= P(e
1
) e P
2
= P(e
2
):
A una matrice quadrata 2 2 e
dato allora un campione x, si esegue lazione o
1
se e solo se:
dato il significato dei coefficienti di costo, lipotesi
11

21
< 0
generalmente verificata (quando A quadrata, si mettono
solitamente le azioni a minor costo sulla diagonale principale,
interpretandole come azioni corrette).
1 1 11 2 12
2 1 21 2 22
( | ) ( | ) ( | )
( | ) ( | ) ( | )
R P P
R P P
o = e + e

o = e + e

x x x
x x x
1 11 2 12 1 21 2 22
1 11 21 2 22 12
1 1 21 11 2 2 12 22
1 2 12 22
21 11
2 1 21 11
( | ) ( | ) ( | ) ( | )
( | )( ) ( | )( )
( | ) ( )( ) ( | ) ( )( )
( | ) ( )
( ) (per 0)
( | ) ( )
P P P P
P P
p P p P
p P
p P
e + e s e + e
e s e
e e > e e
e
A = > >
e
x x x x
x x
x x
x
x
x
Attenzione:
Non si confonda il
rapporto di
verosimiglianza
A(x) con la matrice
dei costi A.
8
Confronto minimo rischio - MAP
Caso a due classi
Se
22
=
11
= 0 (costo nullo associato ad azioni corrette), si ha
MAP:
Dal punto di vista operativo come se, gli elementi di costo
modificassero le probabilit a priori. Se
21
=
12
(nessun privilegio
fra le due azioni sbagliate) si riottiene il classificatore MAP.
Caso multiclasse
Se
ii
= 0 per i = 1, 2, ..., n, la decisione a minimo rischio :
Si ricade nel caso MAP se
ij
= 1 o
ij
, dove o
ij
il simbolo di
Kronecker: si parla allora di matrici costo 0-1.
1 2 12
1
2 1 21
( | )
( )
( | )
p P
p P
e
o A = >
e
x
x x
x
( | )
1, 2,...,
( | )
j ij
i
i
j i ji
P
p
j n
p P

e
o > =
e
x
x
x
1 2
1
2 1
( | )
( )
( | )
p P
p P
e
o A = >
e
x
x x
x
9
Classificatore ML
Un classificatore a massima verosimiglianza (maximum
likelihood, ML) associa il campione x alla classe che presenta in
x il massimo valore di ddp condizionata.
Regola di decisione ML: x e e
j
p(x| e
j
) > p(x| e
i
), i = 1, 2, ..., M.
Il classificatore ML si pu pensare come caso particolare di
classificatore MAP, in cui le classi sono equiprobabili. Dal punto
di vista della minimizzazione della probabilit di errore, il
criterio ML quindi ottimo quando le classi sono equiprobabili.
In caso contrario, ML una regola di decisione sub-ottima.
tuttavia largamente usata, quando, in assenza di stime affidabili
delle probabilit a priori, si accetta lipotesi di equiprobabilit.
Il classificatore ML ricade quindi nella teoria del minimo rischio,
con le seguenti condizioni:
1
, 1, 2,...,
1
ij ij
i
i j M
P
M
= o

10
Funzione discriminante della regola a minimo rischio
Il decisore a minimo rischio opera con i seguenti dati in
ingresso:
ddp condizionate p(x| e
i
), i = 1, 2, ..., M;
matrice di costo A;
probabilit a priori P
i
, i = 1, 2, ..., M.
Noti questi dati, si deduce dalla regola di decisione la funzione
discriminante a minimo rischio.
Ad esempio, nel caso M = R = 2, se le ddp condizionate p(x| e
1
) e
p(x| e
2
) sono funzioni continue, lipersuperficie discriminante fra
e
1
ed e
2
si ottiene imponendo luguaglianza seguente:
1 2 12 22
2 1 21 11
( | ) ( )
( | ) ( )
p P
p P
e
=
e
x
x
11
Rischio globale ed hypothesis testing
La teoria del minimo rischio prende una decisione sulla base
del rischio condizionato associato al singolo campione x,
operando cio con una valutazione locale del rischio.
In alternativa, il calcolo effettuato sul rischio pu essere
sviluppato in termini globali, analogamente a quanto si fa
nella teoria MAP, la quale definisce un classificatore in termini
di minima probabilit media di errore (la probabilit di errore
infatti una quantit integrale, globale).
Per la formulazione globale nel caso M = R = 2 adottiamo le
notazioni dellhypothesis testing binaria [Barkat, 1991]:
si deve decidere tra due ipotesi H
0
ed H
1
(es.: assenza e presenza
di segnale radar, rispettivamente);
la scelta effettuata in base ad n osservazioni x
1
, x
2
, , x
n
(es.: n
campioni del segnale radar) raccolte in un vettore aleatorio x che
assume valori in uno spazio Z c
n
(spazio delle osservazioni).
12
Regioni di decisione
Lo spazio Z suddiviso in due regioni di decisione Z
0
e Z
1
tali
che
Z = Z
0
Z
1
;
se x eZ
0
si decide per H
0
;
se x eZ
1
si decide per H
1
.
Le densit di probabilit p(x| H
0
) e p(x| H
1
) si assumono note.
Spazio delle
osservazioni
Decido H0
Decido H1
f(y/H0)
f(y/H1)
SORGENTE
p(x| H
0
)
p(x| H
1
)
13
Costi e costo medio
Si hanno quattro costi distinti associati a quattro casi possibili:

c
ij
il costo associato alla decisione D
i
data lipotesi vera H
j
. Tale
costo equivalente al costo
ij
definito nella teoria del minimo
rischio. In pratica sar sempre c
01
> c
11
e c
10
> c
00
.
Il classificatore Bayesiano minimizza il costo medio su Z,
ovvero il rischio, inteso come rischio globale (su tutto Z).
In altre parole, questo classificatore identifica Z
0
e Z
1
ottimi nel
senso del minimo rischio globale:
c
00
Decido D
0
quando H
0
vera decisione corretta
c
01
Decido D
0
quando H
1
vera
mancato allarme e
relativa probabilita' P
M
c
10
Decido D
1
quando H
0
vera
falso allarme e relativa
probabilita' P
F
c
11
Decido D
1
quando H
1
vera
decisione corretta e
relativa probabilita' P
D
( ) ( ) ( ) ( )
00 0 0 01 0 1 10 1 0 11 1 1
{costo} , , , , E c P D H c P D H c P D H c P D H = = + + +
14
Calcolo del rischio
Applico la regola di Bayes al calcolo del rischio:
Se P
0
= P(H
0
) e P
1
= P(H
1
) sono le probabilit a priori delle ipotesi
(corrispondenti alle probabilit a priori delle classi), si ha:
( ) ( ) ( )
0 1
0 1
0 0 0 1 0 0
0 1 1 1 1 1
0 0 1 1 0 1
( , ) ( | ) ( )
( | ) ( | ) 1 , ( | ) ( | )
( | ) ( | ) 1 , ( | ) ( | )
{decisione corretta} , , 1
{errore}
i j i j j
F F
Z Z
M D D
Z Z
c F D
e
P D H P D H P H
P D H p H d P P D H p H d P
P D H p H d P P P D H p H d P
P P P D H P D H P P P P
P P P
=
= = = =
= = = = =
= = + = +
= =

} }
} }
x x x x
x x x x
( ) ( )
( ) ( )
( )
0 1 1 0 1 0
00 0 01 1 10 0 11 1
00 0 01 1 10 0 11 1
, ,
1 1
1 (1 )
M F
F D F D
F M F M
D H P D H P P P P
c P P c P P c P P c P P
c P P c P P c P P c P P

+ = +

= + + + =

= + + +

espressione del rischio in funzione delle probabilit di falso allarme P


F
e di
detection P
D
(o in funzione di P
F
e della probabilit P
M
di mancato allarme).
15
Regola di classificazione (1)
Esprimendo opportunamente il costo medio, possibile
dedurre la regola di classificazione che lo minimizza.
Esplicitando le probabilit congiunte P(D
i
, H
j
) (i, j = 0, 1), si ha
Per la propriet di normalizzazione delle pdf condizionate si ha:
0 0
1 1
00 0 0 01 1 1
10 0 0 11 1 1
( | ) ( | )
( | ) ( | )
Z Z
Z Z
c P p H d c P p H d
c P p H d c P p H d
= + +
+ +
} }
} }
x x x x
x x x x
1 0
0
0 10 1 11 1 01 11 1 0 10 00 0
( | ) 1 ( | ) 1 ( | ) , 0,1
[ ( ) ( | ) ( ) ( | )]
j j j
Z Z Z
Z
p H d p H d p H d j
P c Pc P c c p H P c c p H d
= = =
= + +
} } }
}
x x x x x x
x x x
costante (indipendente da Z
0
) dipendente da Z
0
16
Regola di classificazione (2)
I termini integrandi dentro la parentesi quadra sono entrambi
positivi per ogni x e Z
0
. Allora il rischio minimo quando la
regione Z
0
include solo quei valori di x per cui il secondo
termine integrando pi grande del primo e quindi la
funzione integranda negativa in tutta Z
0
.
Di conseguenza, definisco la regione Z
0
come il luogo dei punti x
nello spazio delle misure tale che:
P
1
(c
01
c
11
)p(x| H
1
) < P
0
(c
10
c
00
)p(x| H
0
)
Ne deriva la seguente regola di classificazione:
1
0
1
0
1 01 11 1 0 10 00 0
1 0 10 00
0 1 01 11
( ) ( | ) ( ) ( | )
( | ) ( )
( ) dove ( ) e
( | ) ( )
H
H
H
H
P c c p H P c c p H
p H P c c
p H P c c

A q A = q =

x x
x
x x
x
rapporto di verosimiglianza (likelihood ratio)
17
Regola di classificazione (3)
La regola di decisione ottenuta ottimizzando il rischio globale
rispetto alle regioni Z
0
e Z
1
identica a quella ricavata
operando localmente sul rischio condizionato a ciascun
campione x.
Quindi abbiamo verificato che la regola di decisione locale per
il minimo rischio ottimizza anche il rischio globale.
18
MAP come caso particolare del minimo rischio
Anche mediante lapproccio globale, si pu verificare che il
classificatore MAP un caso particolare del classificatore e
minimo rischio.
Nel caso di matrice dei costi 0-1, si ha
Pertanto il classificatore a minimo rischio basato su tale matrice
dei costi :
Inoltre, in questo caso particolare, il rischio coincide con la
probabilit di errore:
pertanto confermato che il classificatore MAP minimizza la
probabilit di errore anche in senso globale.
0
1
0 1
1 0
P
C
P
(
= q =
(

1
0
1 0
0 1
( | )
( ) MAP
( | )
H
H
p H P
p H P
A =
x
x
x
( )
1 0 1 0
1
D F M F e
P P P P P P P P P = + = +
19
Osservazioni sulle regioni di decisione
Un test di verosimiglianza definito non appena siano noti il
rapporto di verosimiglianza A(x) e la soglia q. Fissato il test di
verosimiglianza, sono pertanto univocamente definite le
regioni di decisione Z
0
e Z
1
.
Z
0
= {x e Z: A(x) < q} e Z
1
= {x e Z: A(x) > q} (un campione x e Z
tale che A(x) = q pu essere inserito arbitrariamente in Z
0
o in Z
1
).
Fissate le densit di probabilit p(x| H
0
) e p(x| H
1
), le regioni Z
0
e
Z
1
sono pertanto univocamente determinate dalla soglia q:
Pertanto, anche P
F
e P
D
(e quindi anche P
M
) sono univocamente
determinate da q:
0 0
1 1
( )
( )
Z Z
Z Z
= q

= q

1
1
0
( )
1
( )
( | ) ( )
( | ) ( )
F F
Z
D D
Z
P p H d P
P p H d P
q
q
= = q
= = q
}
}
x x
x x
20
Minimax: introduzione
Quando le probabilit a priori non sono note, non pi
possibile applicare la teoria del minimo rischio. Il test minimax
considera allora la situazione in cui si abbia il massimo valore
del minimo rischio al variare delle probabilit a priori.
Lapproccio minimax assume note le ddp condizionate e la
matrice dei costi, ma non le probabilit a priori. Considero
nuovamente il caso M = 2 con le notazioni dellhypothesis testing.
Sostituendo P
0
= 1 P
1
nelle espressioni di rischio e soglia, si ha:
Fissata allora la matrice dei costi, il valore di q univocamente
determinato da quello di P
1
: q = q(P
1
). Anche le probabilit P
F
=
P
F
(q) e P
M
= P
M
(q) sono allora funzione di P
1
. Di conseguenza il
rischio minimo anchesso funzione di P
1
:
00 10 1 11 00 01 11 10 00
10 00 1
1 01 11
[ (1 ) ] [( ) ( ) ( ) ]
( ) 1
( )
F F M F
c P c P P c c c c P c c P
c c P
P c c
= + + +

q =

1
( ) P =
21
Minimax: grafico del rischio minimo
Graficando il rischio minimo in funzione di P
1
, si ottiene la
curva seguente:
In particolare:
P
1
0
+
q + A(x) < q x e Z Z
0
= Z P
F
0, P
M
1
R c
00
P
1
= 1 q = 0 A(x) > q x e Z Z
1
= Z P
F
=1, P
M
=0
R= c
11
0 0,2 0,4 0,6 0,8 1
P
1
R
c
11
c
00
22
Minimax: retta dei rischi (1)
Consideriamo il test di verosimiglianza associato ad un
generico valore P
1
= P
1
*.
La soglia risulta allora fissata ad q* = q(P
1
*), le regioni di
decisione a Z
0
(q*) e Z
1
(q*), la probabilit di falso allarme a P
F
* =
P
F
(q*) e quella di mancato allarme a P
M
* = P
M
(q*).
Essendo sconosciuto il vero valore di P
1
, il rischio pu assumere
tutti i valori dati da:
per 0 s P
1
s 1. Tali valori di rischio variano linearmente con P
1
:
0 0,2 0,4 0,6 0,8 1
P
1
R
c
11
c
00
R
max
P
1
*
* * * * *
00 10 1 11 00 01 11 10 00
[ (1 ) ] [( ) ( ) ( ) ]
F F M F
c P c P P c c c c P c c P = + + +
Nota La dipendenza di
Rda P
1
in parte
implicita (tramite P
F
e P
D
),
in parte esplicita. Fissando
la regola di decisione
(ovvero q* ), resta solo la
dipendenza esplicita.
23
Minimax: retta dei rischi (2)
Propriet della retta R*:
in P
1
* la retta e la curva del
rischio minimo assumono lo
stesso valore R
1
*, perch il test
di verosimiglianza considerato
ottimo quando P
1
= P
1
*;
la retta sta sopra (o coincide
con) la curva del rischio
minimo perch il test
considerato sub-ottimo per
ogni P
1
= P
1
*;
la retta tangente e sta sopra
la curve per ogni P
1
* e [0, 1],
per cui significa che la curva
dei rischi minimi volge la
concavit verso il basso;
fissata la regola con P
1
*, al
variare del P
1
vero in [0, 1], R*
varia fino ad un massimo
(assunto per P
1
= 0 o per P
1
=
1), che dipende dalla specifica
retta scelta;
al variare di P
1
* cambia la
regola di decisione e quindi
anche la retta R* ed il suo
massimo
0 0,2 0,4 0,6 0,8 1
P
1
R
c
11
c
00
P
1
* P
1
**
R
max
*
R
max
**
*
max
.
24
Minimax: criterio di decisione
Essendo sconosciuto il valore vero di P
1
, il criterio minimax
sceglie la retta cui corrisponde il minimo rischio massimo ed
adotta i valori P
1
* ed q* corrispondenti.
Tale retta orizzontale e tangente alla curva dei rischi minimi nel
suo punto massimo.
Impongo pertanto pendenza nulla per R*:
Tale relazione, detta equazione del minimax, identifica
implicitamente q*, e quindi anche P
1
*.
0 0,2 0,4 0,6 0,8 1
P
1
R
c
11
c
00
R
max
P
1
*
* *
11 00 01 11 10 00
( ) ( ) ( ) 0
M F
c c c c P c c P + =
25
Minimax: casi limite
Lequazione del minimax fornisce una soluzione q* quando la
curva dei rischi minimi ammette massimo interno
allintervallo [0, 1]. In caso contrario si possono presentare due
casi limite:
0 0,2 0,4 0,6 0,8 1
P
1
R
c
11
c
00
P
1
*
0 0,2 0,4 0,6 0,8 1
P
1
R
c
11
c
00
P
1
*
se c
00
> c
11
, il criterio minimax
assume P
1
* 0, q* + .
se c
00
< c
11
, il criterio minimax
assume P
1
* = 1, q* = 0.
26
Minimax: osservazioni
Casi particolari:
se c
00
= c
11
= 0, allora lequazione del minimax si riduce a:
se poi anche c
01
= c
10
(matrice costo 0-1) si ha:
Minimax e probabilit di errore
Nel caso di matrici costo 0-1 si ha:
Allora, la soglia di decisione e le conseguenti regioni di decisione
sono scelte in modo tale che gli errori di decisione siano uguali
per entrambe le classi ed il criterio equivale a minimizzare la
probabilit media di errore.
* *
01 10 M F
c P c P =
* *
M F
P P =
* * *
M F
P P = =
27
Metodo di Neyman-Pearson: introduzione
Quando non sono noti n le probabilit a priori n i costi da
attribuire alle componenti della matrice di rischio, si pu
utilizzare lapproccio di Neyman-Pearson.
Si suppone in tale ambito di conoscere la P
F
desiderata o, quanto
meno, di pretendere che P
F
non superi un dato valore o: P
F
= o.
Il criterio di Neyman-Pearson massimizza P
D
(o minimizza P
M
)
sotto il vincolo P
F
= o.
A tal fine introduce un moltiplicatore di Lagrange > 0,
minimizzando il seguente funzionale:
0 1
0 0
0
1 0
1 0
1 0
( ) ( | ) ( | )
( | ) 1 ( | )
(1 ) [ ( | ) ( | )]
M F
Z Z
Z Z
Z
P P p H d p H d
p H d p H d
p H p H d
(
= + o = + o = (
(

(
( = + o =
(

= o +
} }
} }
}
x x
x x
x x
x x
x x
x
28
Metodo di Neyman-Pearson: criterio di decisione
Il nostro obiettivo allora trovare il dominio Z
0
che risolve il
problema di minimo vincolato.
Trascurando il termini additivo costante nel funzionale, il
problema di minimizzazione pertanto:
Come nella teoria del minimo rischio, osservo che entrambi i
termini integrandi in parentesi quadra sono positivi: si ha quindi
minimo quando la funzione integranda negativa per ogni x e
Z
0
. Pertanto Z
0
= {x e Z: p(x| H
1
) < p(x| H
0
)} = {x e Z: A(x) < } .
Ne consegue il seguente criterio di decisione:
0
0
1
1 0
0
min [ ( | ) ( | )]
( | ) (vincolo)
Z Z
Z
F
Z
p H p H d
P p H d
c

= = o

}
}
x x
x
x
x
1
0
1
0
( | )
( )
( | )
H
H
p H
p H
A =
x
x
x
29
Metodo di Neyman-Pearson: calcolo della soglia
Il metodo di Neyman-Pearson genera nuovamente un test di
verosimiglianza. La soglia del test coincide col moltiplicatore
e si calcola imponendo la condizione di vincolo.
Poich P
F
= P
F
(), lequazione P
F
= o identifica implicitamente i
valori ammissibili di .
Pi esplicitamente, introducendo la variabile aleatoria A = A(x)
(funzione di x), si ha:
dove
( )
*
0 0
{ | } ( | )
F
P P H p H d
+
A

= A > = A A = o =
}
x
*
0
( | ) p H d
+
A

A A = o
}
Nota Non detto che, variando , P
F
vari con continuit (se le ddp
fossero impulsive, ci non avverrebbe): pertanto, in generale, si pu
formulare il test di Neyman-Pearson con la condizione P
F
s o.
30
Receiving Operator Characteristic (ROC)
La curva caratteristica del ricevitore (ROC) rappresenta
landamento della probabilit di detection P
D
in funzione della
probabilit di falso allarme P
F
al variare della soglia di
decisione q.
Una curva ROC dipende solo dalle ddp condizionate p(x| H
0
) e
p(x| H
1
) poich, note tali ddp e fissato un valore di soglia q,
noto il valore delle probabilit P
D
(q) e P
F
(q).
Una curva ROC non dipende da costi n da probabilit a priori.
Indipendentemente dalle ddp condizionate, una curva ROC giace
sempre nel quadrante [0, 1] [0, 1] (perch P
D
e P
F
sono
probabilit) e passa sempre per i punti (0, 0) ed (1, 1). Infatti:
q + P
D
0, P
F
0 (caso limite Z
0
= Z);
q 0 P
D
1, P
F
1 (caso limite Z
1
= Z).
Andamenti irregolari della curva non sono possibili, in quanto P
D
e P
F
variano con continuit (Hp.: ddp non impulsive) e non ci
possono essere due punti con la stessa pendenza.
31
Curve ROC: esempio
Caso gaussiano monodimensionale:
n = 1, p(x| H
0
) = N(0, o
2
), p(x| H
1
) = N(m, o
2
);
le curve ROC in tal caso sono parametrizzabili in funzione di h =
m/ o = 0.5, 1, 2:
P
D
1
h=0.5
h=1
h=2
q=0
p(x| H
0
)
p(x| H
1
)
P
D
P
F
D
0
D
1
0

32
Curve ROC: propriet
La pendenza della tangente alla curva ROC coincide con il
valore di soglia q cui corrispondono le probabilit P
F
e P
D
.
Dimostrazione:
In generale risulta:
+
A A
q
q
+
A A
q
q

= A A = q

= A A = q

}
}
0 0
1 1
( | ) ( | )
( | ) ( | )
F
D
dP
F
d
dP
D
d
P p H d p H
P p H d p H
A
A
q
= q
q
1
0
( | )
( | )
p H
p H
1
0
( | ) /
/ ( | )
D D
F F
p H dP dP d
dP dP d p H
A
A
q q
= = = q
q q
1 0
1
0 0
0
( | ) ( ) ( | )
( | )
( ) ( )
( | ) ( | )
( | )
( ) ( )
x i i x i
i i i i
x i x i
i i i i
p x H x p x H
p H
x x
p x H p x H
p H
x x
A
A
A
q = = =
' ' A A
q
= = q = q q
' ' A A


Verifico tale relazione nel caso n = 1 (per la dimostrazione nel caso generale,
v. Van Trees). Siano x
1
, x
2
, ... le soluzione dellequazione A(x) = q:
33
Curve ROC: osservazioni
Conseguenze della propriet della pendenza delle curve ROC:
nella teoria di Neyman-Pearson, fissata P
F
, trovo P
D
come
ordinata del punto di curva ROC avente ascissa P
F
e trovo come
pendenza della curva in quel punto;
nella teoria del minimo rischio, nota q, trovo P
F
e P
D
come
coordinate del punto di curva ROC in cui la pendenza q;
nella teoria del minimax, trovo P
F
e P
D
come coordinate del
punto di intersezione fra la curva ROC e la retta descritta
dallequazione del minimax e trovo q come pendenza in quel
punto.
Tracciamento di curve ROC:
approccio 1 calcolo analitico delle funzioni P
F
(q) e P
D
(q) (quasi
mai possibile);
approccio 2 rilevazione empirica della curva ROC, mediante
misura sperimentale delle probabilit P
F
e P
D
, relative a valori
distinti di soglia di decisione.
34
Osservazione sui test di verosimiglianza
Un test di verosimiglianza riporta il problema della decisione
in uno spazio delle feature n-dimensionale ad un test
monodimensionale sulla singola grandezza scalare A(x),
indipendentemente da n e senza bisogno di conoscere
esplicitamente le regioni di decisione.
Le regioni di decisione possono essere anche sottoinsiemi molto
complessi dello spazio delle feature (anche non connessi), ma un
loro calcolo esplicito non essenziale alla classificazione di un
dato campione x.
Per classificare x sufficiente calcolare A(x) e confrontarne il
valore con la soglia impiegata.
35
Esempio 1
Esempio 1
caso monodimensionale (n = 1);
due classi gaussiane: p(x| H
0
) = (0, o
2
), p(x| H
1
) = (m, o
2
);
p(x| H
0
)
p(x| H
1
)
P
D
P
F
0

P
M
m
36
Esempio 1: test di verosimiglianza
( )
1
0
1 1
0 0
2
0
2
2
1
2
2
1 0 10 00
2
0 1 01 11
2 2
2
1
( | ) exp
2 2
1
( | ) exp
2 2
( | ) ( ) 2
( ) exp
( | ) ( ) 2
2
ln ( ) ln ln
2 2
H
H
H H
H H
x
p x H
x m
p x H
p x H P c c m mx
x
p x H P c c
m mx m
x x
m

| |
=
|
o o t
\ .

| |

=
|
|
o o t
\ .

| |
A = = q =
|
o
\ .
o
A = q q+ =
o
il test di verosiglianza si traduce
in un test a soglia sulla feature x,
con soglia di decisione .
37
Esempio 1: P
F
e P
D
2
1 0 0
2
2
1 1 1
2
1 0
1
( | ) { | } exp
2 2
1 ( )
( | ) { | } exp
2 2
1 1
in caso di classi equiprobabili
F
D
M D
e M F
x
P P D H P x H dx Q
x m m
P P D H P x H dx Q
m m
P P Q Q
P P P P P
+

| |

| |
= = > = =
| |
o o o t \ .
\ .
| |

| |
= = > = =
| |
o o o t \ .
\ .

| | | |
= = =
| |
o o \ . \ .
= +
}
}
( )
2
:
2
1
dove exp
2 2
F M
e
x
P P
P
y
Q x dy
+
+
| |
=
|
\ .
| |
=
|
t
\ .
}
integrale della coda di
gaussiana
38
Esempio 1: minimax
* *
0 1
ipotesi:
1 0
* *
*
2
F M
C
m m
P Q Q P
(
=
(


| | | |
= = = =
| |
o o \ . \ .
equazione del minimax corrispondente
alla matrice dei costi data.
| |
= + = + = =
|
o \ .
1 0 0 1
( )
2
e M F F F
m
P P P P P P P P P Q
Questo passaggio deriva
dal fatto che, per matrici di
costo 0-1 , le probabilit P
F
e P
M
coincidono
39
Esempio 2
Esempio 2:
caso monodimensionale (n = 1):
ddp non gaussiane:
0 1
1
1
exp( ) ( | )
2 2(1 )
| | 1
1
( | )
2 2
x
x p x H
e
x
x
p x H

| |
= H
|

\ .

| |

= H
|

\ .

P
M
p(x/H )
0
0,46
-0,46
p(x/H )
1
1/2
-1
1
P
F
x
Z
1
Z
1
Z
0
1
2(1-e )
-1
40
Esempio 2: minimo rischio
( )

(
=

<

q = A

< <

(
= = + =
(

(

=
} }
1
0
0 1
0
1
0
1
0,46 1
1 0
1
1 0,46
0 1
1 0 ipotesi:
scelgo per 0.46
1 ( ) 1
scelgo per 0.46 1
[ 0.46, 0.46]
[ 1, 0, 46] [0, 46,1]
1
exp exp( ) 0.42 ( | )
2 1
(
H
H
F
M
C
P P
H x
x
H x
Z
Z
P xdx x dx P D H
e
P P

| |
= =
|
\ .

+
= + = =

1 1
1 0
1
| ) 2 0.46 0.46
2
0.44
2
M F
e M F
D H
P P
P P P P P
41
Esempio 2: Neyman-Pearson
1
0
1
0
1 1
0
1
ipotesi: 0.5
( | ) 1
( ) 2(1 ) exp
( | ) 2
1
ln
F
H
H
H
H
P
p x H
x e x
p x H
e
x

=
A = =
| |

=
|

\ .
( )
1
1 0
1
1
1
( | ) exp exp( ) 0.5
2 1
0.38
F
P P D H xdx x dx
e


(
= = + = (

(

=
} }
soglia di decisione sulla feature
x, associata ad un test di
verosimiglianza con soglia .
Secondo il criterio di Neyman-Pearson,
determino la soglia imponendo il
valore voluto di probabilit di falso
allarme. La risultante probabilit di
detection P
D
= 2(1 0.38)/2 = 0.62.
-1 1
P
D
y
+ * *
42
Esempio 3
Esempio 3:
caso monodimensionale (n = 1);
ddp esponenziali:
( )
( )
0
1
exp 0
( | )
0 altrove
exp 0
( | ) ( 1)
0 altrove
x x
p x H
x x
p x H
>
=

o o >
= o >

-5 0 5 10 15 20 25
x
p(x| H
1
)
p(x| H
0
)
1
43
Esempio 3: curve ROC
Calcolo delle curve ROC:
determino le regioni di decisione associate ad un test di
verosomiglianza al variare della soglia q e le corrispondenti P
F
(q)
e P
D
(q):
|
|
q

> = |

A = o o q o o

< < |

= < < | = o o = o|

= < < | = = |

}
}
1
0
0
1
1
0
0
0
1
: ln
( ) exp[ ( 1) ] 1
: 0
{0 | } exp( ) 1 exp( )
{0 | } exp( ) 1 exp( )
H
H
D
F
H x
x x
H x
P P x H x dx
P P x H x dx
o
= 1 (1 )
D F
P P
forma parametrica
della curva ROC
in questo caso si
pu ottenere la
curva ROC in forma
esplicita
0
0,5
1
0 0,5 1
P
F
P
D
o = 1
o = 2 o = 4
o = 8
o = 16
44
Esempio 3: osservazioni
Note sulle curve ROC:
verifica della propriet della pendenza della curva ROC:
o o| |
= = = o o | q
| |
exp( ) /
exp[ ( 1) ]
/ exp( )
D D
F F
dP dP d
dP dP d
45
Densit di probabilit gaussiane
Premessa
Un modello molto sovente usato per le ddp condizionate alle
classi la gaussiana.
In generale, una giustificazione della grande diffusione dei
modelli gaussiani rappresentata dal teorema del limite centrale,
secondo cui la somma di N variabili aleatorie indipendenti
converge in distribuzione ad una gaussiana per N + .
Pertanto tutti i fenomeni stocastici dovuti ad un grande numero
di cause indipendenti fra loro sono descritti con ottima
approssimazione da modelli gaussiani.
Gaussiana multidimensionale
Un vettore aleatorio continuo n-dimensionale x si dice gaussiano
quando presenta la seguente ddp:
( )
( )
1
/ 2 1/ 2
1 1
exp ( ) ( )
2
2
t
n
p
(
= E
(
t E
x x m x m
(m, E)
46
Caratteristiche della gaussiana multidimensionale
Significato dei parametri
Come una gaussiana monodimensionale univocamente
determinata dai parametri media e varianza, una gaussiana
multidimensionale identificata dal vettore m e dalla matrice E.
m la media del vettore aleatorio x: m = E{x};
E la matrice di covarianza di x: E = Cov{x} = E{(x m)(x m)
t
}.
Stima dei parametri
Adottando un modello gaussiano per un certo insieme di dati,
molto sovente i parametri della ddp gaussiana non sono noti a
priori, ma vanno stimati a partire dai dati disponibili, costituiti, in
generale, da N osservazioni x
1
, x
2
, , x
N
del vettore aleatorio x.
Stime non polarizzate di m e E sono date da:
1 1
1 1


, ( )( )
1
N N
t
k k k
k k
N N
= =
= E =


m x x m x m
47
Osservazioni sulla matrice di covarianza
Propriet di E:
E una matrice simmetrica: E = E
t
;
E una matrice semidefinita positiva. Tuttavia, affinch
lespressione della ddp gaussiana sia ben definita, E deve essere
definita positiva (infatti lespressione di p(x) coinvolge linversa
di E e la divisione per il determinante |E|).
Variabili aleatorie indipendenti:
sia
se o
ij
= 0, allora le v.a. x
i
ed x
j
sono scorrelate ed, essendo
gaussiane, sono anche indipendenti;
se o
ij
= 0 per ogni i = j (ossia se E diagonale), si ha:
p(x) = p(x
1
) p(x
2
) ...p(x
n
)
11 12 1
21 22 2
1 2
n
n
n n nn
o o o
(
(
o o o
(
E =
(
(
o o o

48
Visualizzazione di ddp gaussiane: caso 2D
Visualizzazione:
p(x) pu essere raffigurata come una campana di volume
unitario.
Curve di livello:
le sezioni della campana a quota costante z (curve di livello) sono
ellissi. Gli autovettori di E sono le direzioni degli assi delle ellissi.
Lautovettore in corrispondenza dellautovalore maggiore si
dispone lungo lasse maggiore dellellisse.
z=P(x)
x1
x2
x1
x2
z=3
z=2
z=0.5 z=0.01
y
x
1
2
e
2
e
1
49
Visualizzazione di ddp gaussiane: caso nD
Sulla geometria di una gaussiana n-dimensionale si possono
estendere le osservazioni fatte per le gaussiane bidimensionali.
In particolare:
siano
1
,
2
, ,
n
gli autovalori di E ed e
1
, e
2
, , e
n
i
corrispondenti autovettori;
essendo E simmetrica e definita positiva, gli autovalori sono tutti
reali e positivi e gli autovettori si possono assumere ortonormali
(pi formalmente, esiste una base ortonormale di autovettori di
E);
ordino convenzionalmente autovalori ed autovettori in modo tale
che
1
>
2
> >
n
;
le curve di livello di p(x) sono iperellissi in
n
, i cui assi sono
disposti lungo gli autovettori di E;
lasse disposto lungo e
k
proporzionale a
pertanto il primo autovettore indica la direzione dellasse
maggiore e lultimo autovettore la direzione dellasse pi corto.
;
k

50
Trasformazioni di Karhunen-Loeve
Obiettivo della trasformazione di Karhunen-Loeve (KL)
generare n feature scorrelate y
1
, y
2
, , y
n
a partire da n feature
generiche x
1
, x
2
, , x
n
. Nel caso gaussiano, le n feature
risultanti saranno anche indipendenti.
Giustapponendo per righe gli autovettori, costruisco la seguente
trasformazione lineare:
La matrice di covarianza nello spazio trasformato diagonale:
1
2
,
t
t
t
n
T T
(
(
(
= =
(
(
(

e
e
y x
e
1
2
0 0
0 0
Cov{ }
0 0
n

(
(

(
=
(
(


y
51
Uso di KL per la riduzione di parametri
Giustapponendo solo k < n autovettori in T si costruisce una
trasformazione dallo spazio delle feature originale ad uno
spazio trasformato di dimensione minore.
In tal caso T una matrice rettangolare.
Vantaggio di tale trasformazione la possibilit di elaborare
vettori di feature a dimensionalit ridotta nelle successive fasi (es.:
per diminuire il costo computazionale del sistema di
classificazione).
Se infatti si assume che il potere discriminante di una feature sia
legato alla sua varianza e se gli ultimi autovalori sono molto
piccoli, le feature trasformate corrispondenti si possono
considerare poco significative a fini di classificazione.
Pi avanti considereremo in generale il problema della
riduzione del numero di feature impiegate nella classificazione
ed applicheremo anche la trasformazione KL.
52
Whitening
La trasformazione KL genera, mediante diagonalizzazione di
E, n feature scorrelate y
1
, y
2
, , y
n
, le cui varianze coincidono
con gli autovalori di E: var{y
i
} =
i
, i = 1, 2, , n.
Loperazione di whitening genera altre n feature z
1
, z
2
, , z
n
,
che, oltre ad essere scorrelate, hanno uguale varianza.
necessario, a tal fine, normalizzare le feature sulla base della
varianza. Ad esempio, posso normalizzare ad 1 tutte le varianze,
definendo:
Da un vettore gaussiano n-dimensionale quindi possibile
passare ad n variabili gaussiane monodimensionali, indipendenti
tra loro e di uguale dispersione.
var{ } 1, 1, 2,...,
i
i i
i
y
z z i n = = =

e
1
e
2
Gli iperellissi sono allora
di forma circolare.
53
Gaussianit condizionata alle classi
Finora abbiamo considerato un generico vettore x di feature
gaussiano. Considero adesso un contesto multiclasse, in cui un
vettore x di feature gaussiano quando condizionato a
ciascuna classe e
i
, i = 1, 2, , M:
p(x| e
i
) = (m
i
, E
i
), i = 1, 2, , M;
pi esplicitamente:
m
i
la media di x condizionata ad e
i
: m
i
= E{x| e
i
};
E
i
la matrice di covarianza condizionata ad e
i
:
E
i
= Cov{x| e
i
} = E{(x m
i
)(x m
i
)
t
| e
i
}
per il teorema della probabilit totale, la ddp di x combinazione
lineare di ddp gaussiane (gaussian mixture):
( )
( )
1
1/ 2 / 2
1 1
| exp ( ) ( )
2
2
t
i i i i
n
i
p
(
e = E
(

t E
x x m x m
1
( ) ( | )
M
i i
i
p Pp
=
= e

x x
54
Estensione al caso multiclasse
Le trasformazioni KL e whitening sono associate alla singola
matrice di covarianza E
i
e quindi a classi diverse
corrispondono matrici di trasformazione diverse: se T
i
la
matrice associata a E
i
, in generale risulta T
i
= T
j
per i = j.
Lestensione pi semplice sarebbe una somma pesata delle T
i
, i =
1, 2, , M. Tuttavia, questa soluzione rischia di non essere
vantaggiosa per nessuna delle classi in esame.
Esempio I due sistemi {e
1
, e
2
} sono molto diversi.
x
x
1
2
e
1
e
2
e
1
e
1
e
2
e
2
55
Diagonalizzazione simultanea
Quando M = 2 possibile unestensione di KL e whitening che
permette di generare feature scorrelate sia quando condizionate
ad e
1
sia quando condizionate ad e
2
. Date n feature x
1
, x
2
, ,
x
n
, la diagonalizzazione simultanea esegue le due seguenti
operazioni:
fase 1 diagonalizzazione e whitening di E
1
: vengono generate n
feature z
1
, z
2
, , z
n
, che, condizionate ad e
1
, hanno matrice di
covarianza simmetrica con tutti gli elementi diagonali uguali; sia
E
2z
= Cov{z| e
2
};
fase 2 diagonalizzazione di E
2z
: vengono generate n feature v
1
,
v
2
, , v
n
che, condizionate ad e
2
, sono scorrelate per definizione
di diagonalizzazione;
essendo Cov{z| e
1
} la matrice identit con tutti gli elementi
diagonali uguali, si pu verificare che Cov{v| e
1
} = Cov{z| e
1
};
pertanto il vettore v ha matrici di covarianza diagonali sia
quando condizionato ad e
1
sia quando condizionato ad e
2
.
56
Test di verosimiglianza con classi gaussiane
Siano date due classi e
1
ed e
2
con p(x| e
i
) = (m
i
, E
i
) (i = 1, 2).
Test di verosimiglianza con soglia q:
Applicando logaritmi ln() ad entrambi i membri, si ha:
Lipersuperficie discriminante associata ad un test di
verosimiglianza con classi gaussiane pertanto una iperquadrica:
( )
( )
1
2
1
1 1 1
1/ 2 / 2
1 1
1
2
2 2 2
1/ 2 / 2
2
1 1
exp ( ) ( )
2
2 ( | )
( )
1 1
( | )
exp ( ) ( )
2
2
t
n
t
n
p
p

e
e
(
E
(

t E e
A = = q
e (
E
(

t E
x m x m
x
x
x
x m x m
1
2
1
2 2 2
1
1 1 1 1 2
1
ln ( ) ( ) ( )
2
1 1 1
( ) ( ) ln ln ln
2 2 2
t
t

e
A = E +
E E + E q
x x m x m
x m x m
1 1
12 2 1 1 2
( ) ( ) 0
t t
f x C

= E E + + = x x x C
C
1
e C
2
sono costanti.
57
Ipersuperfici discriminanti lineari
Lipersuperficie discriminante associata ad un test di
verosimiglianza una iperquadrica con termine quadratico
x
t
(E
2
1
E
1
1
)x: pertanto, quando E
1
= E
2
= E, lipersuperficie
discriminante diventa lineare.
x
x
1
2
e
1
e
1
e
1
e
2
e
2
f (x)
i
e
2
58
Osservazioni sulliperpiano discriminante
Liperpiano discriminante f
12
(x) = 0 non necessariamente
perpendicolare alla congiungente (m
1
m
2
) delle medie delle
due classi. Diventa tale quando E = o
2
I, ossia quando E
diagonale e tutte le feature hanno stessa varianza o
2
.
La verifica si ottiene per sostituzione diretta nellespressione
della funzione discriminante.
La posizione delliperpiano discriminante dipende dalla
costante additiva C
2
, che, a sua volta, dipende dalla soglia q.
Ad esempio, in un classificatore MAP o a minimo rischio
aumentare P
1
(e quindi diminuire P
2
) sposta liperpiano pi
lontano da m
1
(e pi vicino ad m
2
), per cui la classe piu'
probabile invade la classe meno probabile.
Col criterio del minimo rischio, rispetto al caso MAP, leffetto
della matrice di costo equivalente ad una modifica delle
probabilit a priori, cio trasla liperpiano parallelamente a se
stesso in direzione dipendente dai valori della matrice stessa.
59
Esempi di regioni di decisione
1
R
1
R
2
R
2
Coppie di rette
R
R
1
R
2
Cerchi
R
1
R
2
Ellissi
R
1
R
2
Parabole
R
1
R
2
R
2
Iperboli
Legenda: le zone tratteggiate
corrispondono alla regione di
decisione R
2
; in ciascuna
regione di decisione (R
1
ed R
2
)
riportata una curva di livello
della ddp corrispondente.
60
MAP con classi gaussiane
Verifico quanto detto nel caso particolare di un classificatore
MAP con due classi gaussiane.
In questo caso:
Ci permette di introdurre una funzione discriminante ad un
indice per il classificatore MAP con classi gaussiane:
La medesima funzione discriminante si ottiene anche in un caso
MAP multiclasse.
In generale, per un classificatore MAP con ddp condizionate
generiche si pu definire: g
i
(x) = ln p(x| e
i
) + ln P
i
o anche g
i
(x) =
P
i
p(x| e
i
).
1
2
1
2
1 2
1 1 1 1 1
1
1
2 2 2 2 2
1 1
( ) ( ) ln ln
2 2
1 1
( ) ( ) ln ln
2 2
t
t
P
P
P
P
e

e
e

e
q = E E +
E E +
x m x m
x m x m
1
1 1
( ) ( ) ( ) ln ln
2 2
t
i i i i i i
g P

= E E + x x m x m
61
Osservazioni sulla funzione discriminante MAP
Distanza di Mahalanobis
A meno di costanti additive la funzione discriminante g
i
associata
alla classe e
i
espressa dalla distanza di Mahalanobis fra il
generico campione x e la media m
i
della classe e
i
:
Forma esplicita della funzione discriminante
Svolgendo i calcoli, la funzione discriminante ad un indice per un
classificatore MAP con classi gaussiante si pu scrivere:
1 2
1 1
( , ) ( ) ( ) ( ) ( , ) ln ln
2 2
t
i i i i i i i i i i
d g d P

= E = E + x m x m x m x x m
1
1
0
1
0
1
2
( ) con
1 1
ln ln
2 2
i i
t t
i i i i i i i
t
i i i i i i
A
g A w
w P

= E

= + + = E

= E E +

x x x w x w m
m m
62
MAP con ipersuperfici discriminanti lineari
Sia E
1
= E
2
= E:
ci permette di cancellare il termine quadratico x
t
Ex/2 ed il
termine noto ln|E|/2 dalla funzione discriminante ad un indice
(essendo tali termini comuni a tutte le funzioni discriminanti e
quindi irrilevanti nel confronto fra di esse):
se, in particolare, E = o
2
I,
1
0
1
0
( ) con
1
ln
2
i i
t
i i i
t
i i i i
g w
w P

= E

= +

= E +

w m
x w x
m m
2
0 2
0
2
( ) con
ln
2
i
i
t
i i i
i
i i
g w
w P

= +

= +

o
m
w
x w x
m
63
Esempio
Siano date due classi e
1
ed e
2
sotto le seguenti ipotesi:
p(x| e
i
) = (m
i
, E
i
) (i = 1, 2).
Applicando la teoria, si ottengono le seguenti funzioni
discriminanti ad un indice:
Il piano di separazione si ricava per differenza:
1 2
1
2
1 2
(8, 4, 4)
( 96, 80, 80)
8 4 4
4 8 4
4 4 8
P P =

E = E = E =
(

m
m
12 1 2 1 2 3
( ) ( ) ( ) 8 8 8 4 0 f g g x x x = = + = x x x
3
1 1 10 1
2
11
2 1 2 3
2
( ) 4
( ) 4 8 8
t
g w x
g x x x

= + =

= + +

x w x
x
64
Probabilit di errore
Caso a due classi
Detta R
i
la regione di decisione associata alla classe e
i
(i = 1, 2) si
ha:
Il calcolo della probabilit di errore si riconduce quindi al calcolo
di due integrali multipli (in
n
) estesi alle regioni di decisione, il
che un problema analiticamente complesso.
Caso multiclasse
Con notazioni analoghe, si ha la seguente espressione delle
probabilit di decisione corretta e di errore per un classificatore
ad M classi:
2 1
1 1 2 2
1 2 1 2 1 2
1 1 2 2
{err| } {err| }
{ | } { | }
( | ) ( | )
e
R R
P P P P P
P P R P P R
P p d P p d
= e + e =
= e e + e e =
= e + e
} }
x x
x x x x
1 1
{ | } ( | ) , 1
i
M M
c i i i i i e c
i i
R
P PP R P p d P P
= =
= e e = e =

}
x x x
65
Probabilit di errore: caso gaussiano (1)
Nel caso di due classi gaussiane generiche, il calcolo analitico
della probabilit di errore non fattibile. Si pu eseguire in
due casi particolari:
E
1
= E
2
(iperpiano discriminante lineare);
n = 1 (caso monodimensionale: una sola feature).
Probabilit di errore con E
1
= E
2
= E
Per semplificare il calcolo di P
e
vantaggioso esprimere il criterio
di decisione come segue:
Introdotta allora la v.a. u = u
12
(x), si ha:
Pertanto u funzione lineare di x e, condizionata ad e
1
e ad e
2
,
ha ddp gaussiana.
1
2
1
12
2
( | )
( ) ln ln
( | )
p
u
p
e
e
e
= q = o
e
x
x
x
1 1 2 2
1 1
1 2 1 2 1 2
{ | } { | }
1
( ) ( ) ( )
2
e
t t
P P u P P u P
u

= < o e + > o e

= E + E

x m m m m m m
66
Probabilit di errore: caso gaussiano (2)
Il criterio di decisione si pu quindi esprimere in funzione
della v.a. u la cui ddp nuovamente una gaussian mixture, i cui
parametri sono legati alla distanza di Mahalanobis fra le classi.
Le ddp condizionate di u sono:
Ci permette il calcolo di P
e
:
1
1
1 2 1 2
2
( | ) ,
2
dove ( ) ( )
( | ) ,
2
t
r
p u r
r
r
p u r

| |
e =
|

\ .
= E

| |

e =
|

\ .

m m m m
r il quadrato della distanza di
Mahalanobis fra le due classi.
2 2
1 2
2 1
1 ( / 2) 1 ( / 2)
exp exp
2 2 2 2
/ 2 / 2
e
u r u r
P P du P du
r r r r
r r
P Q PQ
r r
o +
o
( (
+
= + =
( (
t t

+ o o
| | | |
= +
| |
\ . \ .
} }
67
Probabilit di errore: caso gaussiano (3)
Nel caso E
1
= E
2
= E quindi possibile il calcolo della
probabilit di errore di un classificatore basato su test di
verosimiglianza con classi gaussiane, noti i parametri o = ln q
ed r.
Noti questi parametri, si pu eseguire una verifica preliminare
circa la bont del classificatore: se trovo una P
e
non accettabile,
non calcolo neppure la funzione discriminante, ma cambio il
metodo di approccio al problema (es.: nuove feature).
Per un classificatore ML (P
1
= P
2
, q = 1, o = 0), lespressione di P
e
si semplifica in:
2
e
r
P Q
| |
=
|
\ .
P
e
funzione strettamente
decrescente di r e, per r = 0,
risulta P
e
= 0.5 (non P
e
= 1).
0
0,5
0 5 10 15 20 25 30
r
P
e
12%
5%
68
Probabilit di errore: caso gaussiano (4)
Quando lo spazio delle feature monodimensionale (n = 1), un
test di verosimiglianza su due classi gaussiane genera regioni
di decisione che sono unione finita di intervalli.
Se p(x| e
1
) = (m
1
, o
1
2
) e p(x| e
2
) = (m
2
, o
2
2
), si ha:
Le regioni di decisione sono quindi descritte da disequazioni di
secondo grado, e sono pertanto singoli intervalli o unioni di 2
intervalli disgiunti.
P
e
allora calcolabile analiticamente, integrando le ddp
gaussiane monodimensionali p(x| e
1
) e p(x| e
2
) su tali
intervalli (ed esprimendo il risultato in funzione di Q()).
1
2
1
2
2
1
2
1 1 1
2
2
2
2
2 2
2 2
2 1 2
2 2
1 2 1
( ) 1
exp
2 2 ( | )
( )
( | )
( ) 1
exp
2 2
( ) ( )
ln ln
2 2
x m
p x
x
p x
x m
x m x m
e
e
e
e
(

(
o o t e

A = = q
e (

(
o o t

o
+ q
o o o
69
Maggiorazione della probabilit di errore
Poich calcolare analiticamente P
e
un problema sovente
irresolubile, utile poterla almeno maggiorare.
In presenza di due classi e
1
ed e
2
, si pu dimostrare la validit
della seguente maggiorazione:
(s) la distanza di Chernoff fra le due classi e rappresenta una
misura di separazione fra le classi stesse. In particolare, valori alti
di distanza di Chernoff implicano valori bassi dellupper bound c
u
sulla probabilit di errore.
Se p(x| e
i
) = (m
i
, E
i
) (i = 1, 2), si prova che:
1
1 2
1
1 2
exp[ ( )] [0,1]
dove ( ) ln ( | ) ( | )
n
s s
e u
s s
P P P s s
s p p d

s c = e
= e e
}
x x x
1 2 1
2 1 1 2 2 1
1
1 2
(1 )
(1 ) 1
( ) ( ) [ (1 ) ] ( ) ln
2 2
t
s s
s s
s s
s s s

E + E

= E + E +
E E
m m m m
70
Chernoff bound & Bhattacharyya bound
Lupper bound su P
e
ha tipicamente il seguente andamento in
funzione di s:
Osservazioni:
per s ~ 0 e s ~ 1 la maggiorazione poco precisa;
la maggiorazione pi stretta si ottiene per s = s* (in questo
esempio s*=0,7) e si dice Chernoff bound. Il calcolo di s*
complesso;
sovente si adotta pertanto s = 1/2 (Bhattacharyya bound), che
fornisce una maggiorazione meno precisa, ma molto pi semplice
sul piano computazionale.
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1,1
s
c
u
s*
Chernoff bound
Bhattacharyya bound
P
1
P
2
71
Osservazioni sul Bhattacharyya bound
Distanza di Bhattacharyya
Lespressione esplicita del Bhattacharyya bound :
B = (1/2) prende il nome di distanza di Bhattacharyya fra le due
classi e, nel caso gaussiano, ha la forma seguente:
Estensione al caso multiclasse
Anche in presenza di M classi, si pu scrivere un Bhattacharyya
bound, che si esprime in funzione delle distanze di Bhattacharyya
fra singole coppie di classi:
s c =
| |
= = e e
|
\ .
}
1 2
1 2
exp( )
1
dove ln ( | ) ( | )
2
n
e u
P P P B
B p p d x x x
1 2
1
1 2
2 1 2 1
1 2
1 1 1
2
( ) ( ) ln
2 8 2 2
t
B

E + E
E + E
| | | |
= = +
| |
\ . \ .
E E
m m m m

= = +
s = e e

}
1
1 1
exp( ) dove ln ( | ) ( | )
n
M M
e i j ij ij i j
i j i
P PP B B p p d x x x
72
Bibliografia
K. Fukunaga, Introduction to statistical pattern recognition, 2nd
edition, Academic Press, New York, 1990.
R. O. Duda, P. E. Hart, D. G. Stork, Pattern Classification, 2nd
Edition. New York: Wiley, 2001.
H. L. Van Trees, Detection, estimation and modulation theory, vol.
I, John Wiley & Sons, New York, 1968.
M. Barkat, Signal detection and estimation, Artech House, 1991.