Sei sulla pagina 1di 7

Intelligenza artificiale sub-simbolica:

le Gaussiane, queste sconosciute

Edmondo Trentin

8 aprile 2010

Autore: Edmondo Trentin


Prima trascrizione digitale: Pierluigi Failla (dagli originali di E.T.)
Distribuzioni Normali univariate

(  )
1 x −µ 2

1
p(x) = √ exp − (1)
σ 2π 2 σ
dove: µ è la media; σ è la varianza e σ√12π è un termine di
normalizzazione.
Si tratta di una sorta di kernel (nucleo) centrato in µ e di base
radiale di ampiezza proporzionale a σ 2 .
Notazione compatta:
p(x) = N(x; µ, σ 2 ) (2)
Distribuzioni Normali multivariate

 
1 1 t −1
p(x) = exp − (x − µ) Σ (x − µ) = N(x ; µ, Σ)
|Σ|1/2 (2π)d/2 2

dove: x è un vettore aleatorio d-dimensionale (colonna); µ è il


vettore colonna media; Σ è la matrice d × d di covarianza; |Σ| è il
determinante di Σ; Σ−1 è l’inversa di Σ; t denota la trasposizione
e 1/2 1 d/2 è il termine di normalizzazione.
|Σ| (2π)

Proprietà
1. E [x] = µ inoltre E [(x − µ)(x − µ)t ] = Σ
2. se x = (x1 , ..., xd ) e µ = (µ1 , ..., µd ) ⇒ µi = E [xi ] e
σij = E [(xi − µi )(xj − µj )]
3. limσ→0 p(x) = +∞ (Delta di Dirac)
4. Sia x una variabile aleatoria distribuita secondo
p(x) = N(x; µ, σ 2 ) (ovvero: p(x) è la Probability Density
Function o pdf di x). Allora:
Z +∞
E [x] = xp(x)dx = µ (3)
−∞
e Z +∞
2
E [(x − µ) ] = (x − µ)2 p(x)dx = σ 2 (4)
−∞
5. Campioni distribuiti normalmente si addensano intorno alla
media in modo che circa il 95% dei campioni cade
nell’intervallo |x − µ| < 2σ
6. La matrice di covarianza è sempre simmetrica: σij = σji
7. Per gli elementi di Σ vale quanto segue:
7.1 σii è la varianza di xi
7.2 σij è la covarianza di xi e xj
7.3 se xi e xj sono indipendenti allora: σij = 0
7.3.1 se ∀i, j con i 6=
Q j abbiamo σij = 0 allora Σ è diagonale e
N(x; µ, Σ) = di=1 N(xi ; µi , σii )
In pratica lavoreremo quasi sempre con Σ diagonale!
Esempio: distribuzione dei campioni estrati da p(x) = N(x; µ, Σ):

Gli assi degli ellissoidi sono gli autovettori di Σ e sono anche detti
componenti principali. Le curve di livello sono gli iper-ellissoidi per
i quali (x − µ)t Σ−1 (x − µ) è costante.
I campioni si addensano intorno alla media µ; la forma della nube
di campioni dipende da Σ. La quantità (x − µ)t Σ−1 (x − µ) si dice
distanza (quadratica) di Mahalanobis di x e µ. Le curve di livello
con p(x) costante sono quindi le regioni a distanza di Mahalanobis
costante dalla media µ.
Caso Particolare I

 
σ11 . . . 0
Σ è diagonale ovvero: Σ =  ... ..
.
..  e gli assi sono

. 
0 . . . σdd
paralleli a quelli coordinati cartesiani.
Caso Particolare II

La distanza di Mahalanobis va a coincidere con quella euclidea. Le


ellissi diventano circonferenze ovvero: Σ = I σ 2 , dove con I
indichiamo la matrice identità.