Sei sulla pagina 1di 18

Indice

1 La analisi delle componenti principali 2


1.1 Introduzione al problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Autovalori e autovettori: richiami . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Le componenti principali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 L’analisi discriminante 7
2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 L’analisi discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 L’approccio decisionale: i personaggi della storia . . . . . . . . . . . . . . . . 8
2.4 Variabile casuale normale multipla . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4.1 La stima dei parametri della distribuzione normale . . . . . . . . . . . 12
2.4.2 La stima della matrice di varianze e cov con due campioni . . . . . . . 13
2.5 L’analisi discriminante nel caso normale di normalità . . . . . . . . . . . . . 13
2.6 La stima della funzione discriminante . . . . . . . . . . . . . . . . . . . . . . . 14
2.7 La selezione delle variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.8 Lo score e la tabella di confusione . . . . . . . . . . . . . . . . . . . . . . . . . 16

1
Capitolo 1

La analisi delle componenti


principali

1.1 Introduzione al problema


La analisi delle componenti principali come facciamo in questo corso ha finalità descrittive.
Essa nasce dal problema di sintetizzare in maniera visiva la struttura delle associazioni di
un elevato numero di variabili. Siano X1 , X2 , . . ., Xp un insieme di variabili continue, in
cui p è elevato. Si dispone, di nuovo di un numero N di osservazioni. Le informazioni sono
sintetizzate in una matrice X, in cui le righe sono le osservazioni e le colone sono le variabili.
Lo scatter plot di queste variabili consente di analizzare al massimo l’andamento con-
giunto di 3 variabili per volta. Si pone pertanto il problema di trovare una trasformazione
delle variabili originarie che preservi al massimo la variabilità dei dati ma che ne riduca le
dimensioni, da p ad un numero inferiore. In sintesi, si cercano nuove variabili y1 , y2 , . . . , yr ,
r < p che siano trasformazioni lineare delle variabili originarie, ovvero delle colonne della
matrice X.
Si noti che se a è un vettore p × 1 tale che aT = (a1 , a2 , . . . , ap ) allora

y = Xa

è un vettore di dimensioni N ×1 che è una trasformazione lineare delle colonne di X secondo


i coefficienti in a. L’elemento i-esimo del vettore y è il valore della combinazione lineare
nella i esima osservazione. Ovvero:

yi = a1 xi1 + a2 xi2 + . . . + ap xip .

Nella analisi delle componenti principali, si cercano opportune trasformazioni delle colonne
di X che preservino la variabilità del fenomeno, secondo determinate regole che ora vedremo.

1.2 Autovalori e autovettori: richiami


Sia A una matrice p × p. Sia I la matrice identità di dimensioni p × p. Si crei la matrice
A − λI con λ un numero reale. Sia |A − λI| il determinante di questa matrice. Il polinomio
q(λ),
q(λ) = |A − λI|
è un polinomio in λ di ordine p. Le radici λ1 ,λ2 , . . ., λp , della equazione

2
E.Stanghellini – Dispense di Statistica IV 3

q(λ) = 0
sono numeri reali o complessi. Inoltre alcune radici possono avere molteplicità superiore ad
uno. Queste radici λi sono dette autovalori. Per ogni λi , |A − λi I| = 0, ovvero la matrice
A − λi I ha rango non pieno. Pertanto esiste una combinazione lineare γ delle colonne di
A − λi I che vale zero. Ovvero esiste un γ tale che:

(A − λi I)γ = 0

da cui:
Aγ = λi γ (1.1)
Si noti che γ ha dimensioni p × 1. Il vettore γ è l’autovettore associato all’autovalore λi .
Esso può non essere unico. Infatti, si noti che se γ è un autovettore allora, dalla (1.1) anche
cγ , con c costante arbitraria, è un autovettore. Inoltre, sempre dalla dalla (1.1), se γ e
δ sono due autovettori associati a λi allora anche γ + δ è un autovettore associato a λi .
Ovvero, l’insieme degli autovettori associati a λi forma uno spazio vettoriale.
Dal momento che se γ è un autovettore allora anche cγ , con c costante arbitraria, è un
autovettore, cerchiamo l’autovettore standardizzato, ovvero tale che

γ T γ = 1.
Seguono alcuni risultati, propri dell’algebra lineare, che si richiamano senza dimostrazione:
p
Y
q(λ) = (λi − λ)
i=1
per ogni λ reale. Vari risultati seguono:
Q
→ Ponendo λ = 0 |A| = pi=1 λi
P P
→ traccia(A) = pi=1 aii = pi=1 λi

→ Se C è una matrice invertibile, CAC−1 e A hanno gli stessi autovalori.

Esempio 1.1 Si trovino gli autovalori e gli autovettori della matrice


µ ¶
1 ρ
A=
ρ 1

Gli autovalori sono la soluzione del seguente:

1−λ ρ
=0
ρ 1−λ

che conduce alla:


(1 − λ)2 − ρ2 = 0
le cui soluzioni sono λ1 = 1 + ρ e λ2 = 1 − ρ. Se ρ 6= 0, allora l’autovettore corrispondente
a λ1 = 1 + ρ è µ ¶µ ¶ µ ¶
1 ρ x1 x1
= (1 + ρ)
ρ 1 x2 x2
4 E.Stanghellini – Dispense di Statistica IV

che porta alla soluzione x1 = x2 . Di conseguenza il primo autovettore standardizzato è


µ √ ¶
1\√2
γ (1) = ,
1\ 2

in quanto γ (1) è l’unco vettore con elmenti uguali tale che γ T(1) γ (1) = 1. In maniera analoga
si trova che µ √ ¶
1\ √2
γ (2) = .
−1\ 2
La matrice Γ che ha per colonne gli autovettori standardizzati è pertanto la seguente:
µ √ √ ¶
1\√2 1\ √2
Γ= .
1\ 2 −1\ 2
Si costruisca inoltre la matrice Λ nel modo seguente:
µ ¶
1+ρ 0
Λ=
0 1−ρ

La matrice diagonale Λ che ha come elementi gli autovalori è detta matrice degli au-
tovalori. La matrice Γ che ha per colonne gli autovettori γ (i) associati agli autovalori λi è
detta matrice degli autovettori.
Il caso di maggiore interesse in statistica è quello in cui A è una matrice simmetrica.
Infatti, come vedremo il metodo di analisi delle componenti principale implica il calcolare
gli autovalori gli autovettori della matrice di varianze e covarianze osservata. Se A è una
matrice simmetrica, allora vale il seguente teorema (Scomposizione Spettrale):
Teorema di Scomposizione Spettrale Ogni matrice simmetrica A può essere scritta
come:
p
X
A = ΓΛΓT = λi γ (i) γ T(i)
i=1
in cui Λ è la matrice diagonale degli autovalori di A e Γ è la matrice degli autovettori.
¯
Inoltre, Γ è una matrice ortogonale, ovvero ΓT Γ = I. Per cui,
ΓT AΓ = Λ.

La dimostrazione di questo teorema è omessa. Si può trovare in tutti i testi di Algebra


lineare o di statistica multivariata (si veda ad esempio in Mardia et al.,1979, Multivariate
Analysis).

Esempio 1.2 (segue da 1.1) Si verifichi che ΓT Γ = I. Si verifichi, inoltre, che A = ΓΛΓT .

1.3 Le componenti principali


Ritorniamo al problema originario, ovvero quello di sintetizzare le nostre variabili osservate
in X attraverso combinazioni lineari delle sue colonne. Sia V la matrice di varianze e
covarianze osservate. Ovvero
V = (X − X̄)T (X − X̄)/(N − 1) (1.2)
E.Stanghellini – Dispense di Statistica IV 5

in cui X̄ è anch’essa una matrice di dimensioni N × p le cui colonne sono ripetizioni delle
medie di ogni variabile. Ovvero:
 
x̄1 x̄2 x̄3 ... x̄p
 x̄1 x̄2 x̄3 ... x̄p 
 
X̄ =  x̄1 x̄2 x̄3 ... x̄p 

 ... ... ... ... 
x̄1 x̄2 x̄3 ... x̄p

Sia a un vettore di dimensioni p × 1, e y = Xa un vettore N × 1. La varianza di y è pari a

(y − ȳ)T (y − ȳ)/(N − 1) = (aT Va).

in cui ȳ è un vettore N × 1 della media di y.


Sia F una matrice di dimensioni p × r. Sia ora Y = XF. La matrice Y ha dimensioni
N × r, in cui ogni riga esprime il valore sulla corrispondente unità delle r variabili ottenute
come combinazione lineare delle variabili in X. La matrice delle varianze e covarianze di
questa trasformazione sarà :

(Y − Ȳ)T (Y − Ȳ)/(N − 1) = (FT VF)

in cui Ȳ è una matrice N × r delle medie delle colonne di Y.


L’obbiettivo della analisi delle componenti principali è quello di trovare una matrice F
tale che la varianza di Y = XF sia la massima possibile e tale che le colonne di Y siano
fra loro incorrelate. Si dimostra ora che questo obbiettivo è raggiunto prendendo come F la
matrice degli autovettori corrispondenti agli r autovalori più grandi di V.
Si consideri la scomposizione spettrale della matrice V delle varianze e delle covarianze
osservate. Si costruisca Γ in modo che nella prima colonna vi sia l’autovettore associato
al massimo autovalore di V. Consideriamo la trasformazione XΓ. La varianza di questa
trasformazione da quanto detto è ΓT VΓ. Ora dal teorema spettrale,

ΓT VΓ = Λ

con Λ una matrice diagonale. Di conseguenza λj è la varianza della trasformazione lineare:

Xγ (j) .

La implicazione di quanto sopra sta nel fatto che le trasformazioni lineari Xγ (i) Xγ(j) sono
incorrelate.

Si consideri per il momento r = 1. Sia a il vettore delle combinazioni lineari, ovvero a


tale che la varianza di Xa sia la massima possibile. Si può dimostrare, attraverso il seguente
teorema, che la combinazione lineare secondo i coefficienti in γ (1) è quella che massimizza
la varianza, ovvero a = γ (1) .
Notiamo innanzi tutto, dal momento che gli autovettori formano una base dello spazio,
che ogni vettore a è scrivibile come una combinazione lineare degli autovettori γ (i) , ovvero:

a = c1 γ (1) + c2 γ (2) + . . . + cp γ (p) .


6 E.Stanghellini – Dispense di Statistica IV

P
Inoltre, si ricordi che γ T(j) γ (i) = 0 se j 6= i e γ T(i) γ (i) = 1. Di conseguenza aT a = 2
i ci .

Teorema 1 Non esiste una trasformazione lineare standardizzata delle colonne di X che
ha varianza maggiore di λ1 , l’autovettore più grande.
Dim. Sia a un vettore di dimensioni p × 1 tale che aT a = 1. Come già detto, gli
autovettori di V possono essere presi come basi di uno spazio vettoriale di dimensioni p e
pertanto il vettore a si può esprimere come una combinazione lineare degli autovettori γ (i) .
Ovvero:
a = c1 γ (1) + c2 γ (2) + . . . + cp γ (p) .
P 2
Dal fatto che aT a = 1 segue che ci = 1. Ora, poniamo che a siano i coefficienti della
trasformazione lineare che cerchiamo, ovvero y = Xa. La varianza di y è , dal teorema di
scomposizione spettrale:
aT Va = aT ΓΛΓT a
Notando che aT γ (i) = ci , avremo che aT Γ = [c1 c2 . . . cp ].
Di conseguenza, essendo Λ una matrice diagonale:
p
X
T
a Va = λi c2i .
i=1
P
Da sopra sappiamo che i c2i = 1. Allora, dato che λ1 è l’autovalore massimo, il massimo
della sommatoria è λ1 . Esso è ottenuto quando c1 = 1 e c2 = c3 = . . . = cp = 0.
Adesso ci poniamo nell’ottica di sintetizzare le nostre osservazioni, non tanto con una
unica combinazione lineare, ma con un generico numero r, r < p di combinazioni. Come pos-
siamo procedere? Poniamo r = 2. Possiamo cercare una seconda trasformazione che a) sia
incorrelata con la precedente e b) massimizzi la varianza non spiegata dalla trasformazione
precedente. Il prossimo teorema ci dice che il questo caso la migliore trasformazione lineare
standardizzata è quella che ha coefficienti dati dall’autovettore corrispondente al secondo
autovalore più grande.
Teorema 2 Se y = Xa è una trasformazione lineare che è incorrelata con le prime k
componenti principali, allora la varianza di y è massimizzata quando a = γ (k+1) .
La dimostrazione del teorema è omessa. Essa segue da vicino la dimostrazione del
teorema 1.
Discende dal teorema che i primi r autovettori di V costituiscono delle trasformazioni
lineari delle colonne di X che massimizzano la varianza e sono ortogonali fra di loro.
Osservazione importante. La matrice X e la matrice (X − X̄) danno luogo alla stessa
matrice di varianza e covarianza V. Per questo motivo, le componenti principali vengono
spesso effettuate sulla trasformazione (X − X̄). Questo equivale a calcolare Y nella seguente
maniera:

Y = (X − X̄)F.
Anche questo secondo modo è molto utilizzato in pratica. Si noti che in questo secondo
caso si perde l’informazione che deriva dalla unità di misura del fenomeno, e dalla sua
dimensione. Questo può essere positivo in alcuni casi, ma negativo in altri.
Capitolo 2

L’analisi discriminante

2.1 Introduzione
L’analisi discriminante, a differenza del modello logistico, è nata come strumento di classi-
ficazione. La prima formulazione dell’analisi discriminante risale a Fisher (1936), il quale,
dato un campione casuale di N osservazioni, di cui n1 provenienti da una popolazione, e
N − n1 provenienti da una seconda popolazione, determinò la migliore funzione per allocare
ciascuna osservazione alla popolazione di origine. Questa funzione è detta funzione discrim-
inante. Dal lavoro di Fisher ad oggi, i contributi in materia di analisi discriminante sono
stati numerosissimi.

In Figura 2.1 è riportato un esempio relativo ad un campione di 49 aziende finanziate da


una banca. Per esse è nota la storia creditizia, ovvero acce noto se sono state in grado di
ripagare il credito. Il grafico riporta il diagramma di dispersione delle aziende rispetto a due
indicatori di bilancio: il rapporto tra ricavi netti e capitale investito netto (variabile RI.AT
riportata sull’asse delle ascisse) e il rapporto fra flusso di cassa e passività correnti (variabile
FCR.PTP riportata sull’asse delle ordinate). Ogni osservazione è indicata con il simbolo
+ se relativa ad una azienda solvibile e * altrimenti. L’obbiettivo è quello di suddividere
il quadrante in due parti attraverso una funzione delle due variabili, in modo tale che la
percentuale più elevata di aziende solvibili sia in una delle due aree delimitate dalla funzione
e che la percentuale più elevata di aziende non solvibili sia nell’altra. Le informazioni sugli
indicatori di bilancio della prossima azienda verranno utilizzate per valutare a quale delle
due aree appartenga e decidere se procedere o meno al finanziamento.

2.2 L’analisi discriminante


Sia X = (X1 , X2 , . . . , Xp ) il vettore di variabili casuali che descrivono le informazioni disponi-
bili su una osservazione e x = (x1 , x2 , . . . , xp ) un possibile valore di X. Si hanno due popo-
lazioni P0 e P1 . Si suppone l’esistenza di una c.v. binaria Y che vale 0 se una osservazione
appartiene alla popolazione P0 e 1 altrimenti; si suppone inoltre che Y e X ammettano una
funzione di densità congiunta. Siano f1 (x) = f (x | Y = 1) e f0 = f (x | Y = 0) i valori delle
funzioni di densità condizionate valutate in x. Sia inoltre f (x) la funzione di densità delle
X marginale rispetto ad Y , ovvero:

f (x) = f0 (x)P (Y = 0) + f1 (x)P (Y = 1).

7
8 E.Stanghellini – Dispense di Statistica IV

0.5

aziende insolventi
0.4 aziende sane

0.3

0.2

0.1
FCR.PTP

−0.1

−0.2

−0.3

−0.4

−0.5
0 0.5 1 1.5 2 2.5 3 3.5 4
RI.AT

Figura 2.1: Suddivisione secondo due variabili.

Si indichi con A l’insieme di tutti i possibili valori x. Come abbiamo detto, l’obbiettivo è
quello di dividere A in due regioni A0 e A1 esaustive e mutualmente esclusive, tali che:
x ∈ A0 se l’unità appartiene a P0 ;
x ∈ A1 se l’unità appartiene a P1 .
Tuttavia, il problema della determinazione di A0 e A1 non ha natura deterministica, in
quanto unità con le stesse caratteristiche x possono appartenere sia ad una popolazione che
all’altra. Lo studio pertanto deve essere fatto o sulle funzioni di densità condizionate di x,
fr (x), r ∈ {0, 1}, oppure sulle probabilità P (Y = r | x).

2.3 L’approccio decisionale: i personaggi della storia


Siano X1 , X2 , . . . , Xp le variabili casuali che descrivono le caratteristiche dell’unità statistica
e Y la v.c. di classificazione. Possiamo schematizzare il processo di decisione attraverso una
storia, con i personaggi ed una trama, le complicazioni e possibili epiloghi.
→ I personaggi:

• due popolazioni P0 e P1 , i cattivi e i buoni;

• X = (X1 , X2 , . . . , Xp ) il vettore di variabili casuali che descrivono le informazioni sulle


unità delle due popolazioni con valori x = (x1 , x2 , . . . , xp );

• una c.v. binaria Y = {0, 1}, che vale 0 se una osservazione appartiene alla popolazione
P0 e 1 altrimenti;

• P (Y = 0) e P (Y = 1) probabilità a priori che una unità appartenga a P0 e P1 ;


E.Stanghellini – Dispense di Statistica IV 9

• f1 (x) = f (x | Y = 1) e f0 (x) = f (x | Y = 0) i valori delle funzioni di densità


condizionate valutate in x;

• i due tipi di errore: quello di assegnare un’unità buona alla popolazione P0 quando
invece proviene da P1 , e quello di assegnare un’unità cattiva a P1 ;

• le probabilità di compiere i due errori;

• i costi associati ai due errori: C(0 | 1) e C(1 | 0), ovvero, in ordine, il costo di
allocare una unità alla popolazione P0 quando invece proviene da P1 e il costo di
allocare una unità alla popolazione P1 dato che invece proviene da P0 (costo di errata
classificazione);

→ Le relazioni fra i personaggi. Le v.c. Y e X ammettono una funzione di densità


congiunta tale che:

• La funzione di densità delle X f (x) marginale rispetto ad Y , ovvero:

f (x) = f0 (x)P (Y = 0) + f1 (x)P (Y = 1);

• le probabilità a posteriori, date dalla formula di Bayes:

fr (x)P (Y = r)
P (Y = r | x) = , r ∈ {0, 1}. (2.1)
f (x)

→ La trama. Si indichi con A l’insieme di tutti i possibili valori x. Come abbiamo detto,
l’obbiettivo è quello di dividere A in due regioni A0 e A1 esaustive e mutualmente esclusive,
tali che:
x ∈ A0 se il cliente è cattivo;
x ∈ A1 se il cliente è buono.

Tuttavia, il problema della determinazione di A0 e A1 non ha natura deterministica, in


quanto unità con le stesse caratteristiche x possono appartenere sia ad una popolazione che
all’altra. Il raffronto pertanto deve essere fatto o sulle funzioni di densità condizionate di x,
fr (x), r ∈ {0, 1}, oppure sulle probabilità P (Y = r | x).

Una prima regola intuitiva per determinare A1 è quella di assegnare ad A1 tutti i valori x
tali che ff01 (x)
(x)
> s con s scelto opportunamente. Più formalmente, A1 sarà l’insieme delle x
tali che:
½ ¾
f1 (x)
A1 = x | >s . (2.2)
f0 (x)

Il problema allora della scelta della migliore partizione di A viene riformulato in termini
della scelta del migliore valore di soglia s. E’ intuitivo che il valore s deve tenere conto del
10 E.Stanghellini – Dispense di Statistica IV

rapporto fra i due costi di errata classificazione. Sia C la variabile casuale che descrive il
costo, valore atteso di C è il seguente:

Z
E(C) = C(0 | 1)P (Y = 1) f1 (x)δx +
ZA0
C(1 | 0)P (Y = 0) f0 (x)δx.
A1

RIl valore di s coincide


R con quel valore che minimizza il valore atteso del costo. Si noti che
f r (x)δx + f r (x)δx = 1, r ∈ {0, 1}. Pertanto, ponendo nell’espressione precedente a
RA0 A1 R
A0 f1 (x)δx = 1− A1 f1 (x)δx dopo alcune sostituzioni, l’espressione precedente si semplifica
nella seguente:

Z
E(C) = C(0 | 1)P (Y = 1) + {C(1 | 0)P (Y = 0)f0 (x) −
A1
C(0 | 1)P (Y = 1)f1 (x)}δx.

Dal momento che C(0 | 1)P (Y = 1) è costante, il valore atteso del costo viene minimizzato
scegliendo A1 come l’insieme di tutti e soli i valori di x in cui C(1 | 0)P (Y = 0)f0 (x) − C(0 |
1)P (Y = 1)f1 (x) è negativo, ovvero

f1 (x) C(1 | 0)P (Y = 0)


> .
f0 (x) C(0 | 1)P (Y = 1)

Di conseguenza, il valore della soglia s ottimale è determinato dalla espressione sopra, e la


regione è cosı̀ determinata:
½ ¾
f1 (x) C(1 | 0)P (Y = 0)
A1 = x| > (2.3)
f0 (x) C(0 | 1)P (Y = 1)
oppure, facendo uso della formula di Bayes:
½ ¾
P (Y = 1 | x) C(1 | 0)
A1 = x | > . (2.4)
P (Y = 0 | x) C(0 | 1)

Una formulazione alternativa della regione di accettazione A1 si ottiene passando al logar-


itmo dei rapporti fra funzioni di densità :
½ ¾
f1 (x) C(1 | 0) P (Y = 0)
A1 = x | log > log + log (2.5)
f0 (x) C(0 | 1) P (Y = 1)
oppure ½ ¾
P (Y = 1 | x) C(1 | 0)
A1 = x | log > log . (2.6)
P (Y = 0 | x) C(0 | 1)

→ Le Complicazioni
E.Stanghellini – Dispense di Statistica IV 11

• L’applicabilità della regola di allocazione determinata in precedenza dipende dalla


conoscenza di tutti i personaggi.

• In pratica, le densità condizionate fr (x) non sono note. Certe volte se ne conosce
la forma, ma i parametri vanno stimati, con qualche metodo statistico. Altre volte
neppure la forma è nota.

• Spesso anche le probabilità a priori P (Y = 0) e P (Y = 1) non sono note. Tuttavia se il


campione è estratto casualmente, si possono stimare attraverso le analoghe frequenze
osservate nel campione.

→ Due epiloghi
½ ¾
f1 (x) C(1 | 0) P (Y = 0)
A1 = x | log > log + log (2.7)
f0 (x) C(0 | 1) P (Y = 1)

ANALISI DISCRIMINANTE

oppure
½ ¾
P (Y = 1 | x) C(1 | 0)
A1 = x | log > log . (2.8)
P (Y = 0 | x) C(0 | 1)

MODELLO LOGISTICO

NB: Il primo tipicamente vuole dati continui o loro trasformazioni; il secondo può trattare
dati categorici, e quindi è più flessibile.

2.4 Variabile casuale normale multipla


Sia X = (X1 , . . . , Xp )T un vettore di variabili aleatorie che assume valore x = (x1 , . . . , xp )T .
Si dice che X ha distribuzione normale (o gaussiana) multipla di dimensione p e di parametri
µ e Σ, con Σ una matrice definita positiva, se la funzione di densità congiunta può scriversi:

1 1
f (x) = p exp{− (x − µ)T Σ−1 (x − µ)}
1
(2π) | Σ |
2 2 2

per ogni x ∈ Rp . Sinteticamente, una v.c. p-dimensionale X con distribuzione normale


multipla si indica con X ∼ Np (µ; Σ). Si dimostra che E(X) = µ e V ar(X) = Σ.
12 E.Stanghellini – Dispense di Statistica IV

2.4.1 La stima dei parametri della distribuzione normale


In questo paragrafo si descrive la stima di massima verosimiglianza del valore atteso e della
matrice delle varianze e delle covarianze della distribuzione normale, che sarà richiamata in
seguito. Si assume X ∼ N (µ, Σ). Si assume, inoltre, di avere un campione di N osservazioni
indipendenti xi estratte da X. Si noti che in questo paragrafo xi è un vettore colonna (e
non riga come nei capitoli precedenti), di dimensioni p × 1. Sia Li = logf (xi , µ, Σ). Nel
caso in cui si abbiano N estrazioni indipendenti da una variabile casuale con distribuzione
normale multipla, la funzione di log-verosimiglianza può scriversi:

X Np N 1X
L(µ, Σ) = Li = − log2π − log | Σ | − (xi − µ)T Σ−1 (xi − µ).
2 2 2
i i

Si indichi con x̄ il vettore delle medie campionarie di espressione


N
1 X
x̄ = xi
N
i=1

e con Σ̂ la matrice delle varianze e covarianze campionaria, di espressione


N
1 X
Σ̂ = (xi − x̄)(xi − x̄)T .
N
i=1
P
Si noti che essendo i (xi − x̄)T Σ−1 (x̄ − µ) = 0 (si veda l’Esercizio 2.1),
X X
(xi − µ)T Σ−1 (xi − µ) = (xi − x̄)T Σ−1 (xi − x̄) + N (x̄ − µ)T Σ−1 (x̄ − µ).
i i

Inoltre
X X X
(xi − x̄)T Σ−1 (xi − x̄) = tr(xi − x̄)T Σ−1 (xi − x̄) = trΣ−1 (xi − x̄)T (xi − x̄) = N tr(Σ−1 Σ̂)
i i i

e, analogamente,

(x̄ − µ)T Σ−1 (x̄ − µ) = trΣ−1 (x̄ − µ)(x̄ − µ)T .

Di conseguenza,
Np N N N
L(µ, Σ) = − log2π − log | Σ | − trΣ−1 (x̄ − µ)(x̄ − µ)T − tr(Σ−1 Σ̂). (2.9)
2 2 2 2
Le stime di massima verosimiglianza si ottengono uguagliando a zero il sistema delle
derivate parziali di L(µ, Σ) rispetto agli elementi in µ e in Σ e verificando che il punto
trovato sia un massimo.
Si verifica, attraverso la differenziazione parziale della funzione precedente, che

µ̂ = x̄
e, anche,
Σ = Σ̂.
E.Stanghellini – Dispense di Statistica IV 13

Le stime di massima verosimiglianza di µ e Σ sono pertanto x̄ e Σ̂. Una giustificazione


intuitiva del risultato si può trovare notando che, nel caso in cui Σ sia nota, massimizzare
la funzione di log-verosimiglianza rispetto ai parametri coincide con minimizzare i termini
negativi che compaiono nell’espressione (2.9). Essendo Σ definita positiva, anche la sua
inversa è definita positiva, per cui il termine −N (x̄ − µ)T Σ−1 (x̄ − µ) è minimo se x̄ = µ.
Si noti che x̄ e Σ̂ possono essere viste come funzioni delle variabili casuali X. In parti-
colare, essendo Σ̂ una stima distorta per Σ (si veda Mardia Kent e Bibby, 1979, cap. 3), si
preferisce utilizzare al suo posto la stima corretta:

N
N Σ̂ 1 X
V= = (xi − x̄)(xi − x̄)T .
N −1 N −1
i=1

Si osservi, infine, che V è una espressione alternativa della matrice delle varianze e delle
covarianze campionarie (1.2) introdotta nella parte precedente. Lo studente è invitato a
verificare.

2.4.2 La stima della matrice di varianze e cov con due campioni


Si abbiano due campioni di numerosità n0 e n1 estratti in modo indipendente da due popo-
lazioni P0 e P1 . Sia P0 espressa da una v.c. normale multipla con valore atteso µ0 e matrice
delle varianze e delle covarianze Σ0 e sia Ps espressa da una v.c. normale multipla con valore
atteso µs e matrice delle varianze e delle covarianze Σ1 con Σ0 = Σ1 = Σ.

In questo secondo caso, la stima della matrice di varianza e covarianza Σ si effettua at-
traverso la matrice delle varianze e delle covarianze campionaria pooled.

→ Si indichi con W la matrice delle devianze e codevianze interne ai gruppi, ovvero:


"n n1
#
X0
T
X T
W = (n0 − 1)V0 + (n1 − 1)V1 = (x0i − x̄0 )(x0i − x̄0 ) + (x1i − x̄1 )(x1i − x̄1 ) .
i=1 i=1

→ La stima della matrice delle varianze e delle covarianze campionarie ha espressione:

1
S= W (2.10)
n0 + n1 − 2

essa è detta matrice delle varianze e covarianze pooled.

2.5 L’analisi discriminante nel caso normale di normalità


Nei paragrafi precedenti abbiamo derivato la zona di accettazione A1 con un criterio che pre-
suppone la conoscenza completa delle funzioni di densità fr (·) delle v.c. X e delle probabilità
a priori della v.c. Y . La situazione vista in precedenza è una situazione di studio.
Nell’analisi discriminante classica si assume che la forma della fr (·) sia una normale
multipla con valore atteso µr e matrice delle varianze e covarianze Σr .
14 E.Stanghellini – Dispense di Statistica IV

Dopo alcune semplificazioni si trova che


f1 (x)
f0 (x) = | Σ0 |1/2 | Σ1 |−1/2 exp{− 12 [xT (Σ−1 −1 T −1 −1
1 − Σ0 )x − 2x (Σ1 µ1 − Σ0 µ0 )+

+µT1 Σ−1 T −1
1 µ1 − µ0 Σ0 µ0 ]}.

e, pertanto,

log ff10 (x)


(x) = 1
2 log | Σ0 || Σ1 |−1 − 21 [xT (Σ−1 −1 T −1 −1
1 − Σ0 )x − 2x (Σ1 µ1 − Σ0 µ0 )+
(2.11)
+µT1 Σ−1 T −1
1 µ1 − µ0 Σ0 µ0 ].

L’analisi discriminante quadratica. Si indichi con Q(x) il log ff10 (x)


(x) . Possiamo riscrivere la
(2.2) nel modo seguente:
A1 = {x | Q(x) > log s}.

La funzione Q(x) è detta funzione discriminante quadratica, dal momento che vi compare
il termine xT (Σ−1 −1
1 − Σ0 )x. Nonostante questa regola sia molto generale dal punto di
vista teorico, non è molto utilizzata nella pratica in quanto non porta a risultati ottimali.
La ragione risiede, nell’elevato numero di parametri da stimare attaverso le osservazioni
campionarie, che dà luogo ad una elevata varianza della funzione discriminante stimata, e
di conseguenza ad una forte instabilità dei risultati.

L’analisi discriminante lineare. Qualora sia ragionevole, si assume che Σ0 = Σ1 = Σ. In


tal caso la (2.11) si semplifica molto. Notando che

µT1 Σ−1 µ1 − µT0 Σ−1 µ0 = (µ1 − µ0 )Σ−1 (µ1 + µ0 )

dopo alcuni passaggi la (2.11) si modifica nella seguente:


1
R(x) = (µ1 − µ0 )T Σ−1 [x − (µ1 + µ0 )].
2
Di conseguenza, la (2.2) diventa:

A1 = {x | R(x) > log s}.

Si noti che la funzione R(x) è una funzione lineare delle x, ed è pertanto nota come
funzione discriminante lineare. Indicando infatti con α = (α1 , α2 , . . . , αp ) il vettore riga
(µ1 − µ0 )T Σ−1 e con α0 = − 21 (µ1 − µ0 )T Σ−1 (µ1 + µ0 ) possiamo scrivere l’insieme A1
come:
A1 = {x | α0 + α1 x1 + . . . + αp xp > log s}.

2.6 La stima della funzione discriminante


Nel paragrafo precedente abbiamo determinato la migliore partizione dello spazio A sotto
l’ipotesi che le variabili casuali X abbiano una distribuzione normale multivariata. Le fun-
zioni discriminanti cosı̀ determinate sono funzione dei parametri µr e Σr , se quadratica, µr ,
Σ nel caso lineare.
E.Stanghellini – Dispense di Statistica IV 15

Spesso, tuttavia, questi parametri non sono noti e devono essere stimati attraverso
due campioni casuali estratti da P0 e P1 . In questo lavoro facciamo esplicito riferimento
all’approccio detto plug-in.
L’approccio plug-in consiste nel derivare le stime di massima verosimiglianza di µi e
Σi e sostituirle nella funzione discriminante arrivando cosı̀ ad una funzione discriminante
stimata.

Sia n0 la numerosità del campione casuale estratto da P0 di osservazioni e n1 la numerosità


del campione casuale estratto da P1 . Siano x̄r e Vr , r ∈ {0, 1}, le stima dei parametri
delle due popolazioni come derivate al paragrafo precedente. La funzione discriminante
quadratica stimata ha espressione:
Q̂(x) = 1
2
log | V0 | / | V1 | − 12 [xT (V1−1 − V0−1 )x − 2xT (V1−1 x̄1 − V0−1 x̄0 )+

+x̄T1 V1−1 x̄1 − x̄T0 V0−1 x̄0 ].

Nel caso lineare, invece, Σ0 = Σ1 = Σ. I parametri da stimare sono pertanto i vettori µr ,


r ∈ {0, 1}, e la matrice delle varianze e delle covarianze Σ.

In tal caso la funzione discriminante lineare stimata sarà:

1
R̂(x) = (x̄1 − x̄0 )T S−1 [x − (x̄1 + x̄0 )]. (2.12)
2
con S come in (2.10). Ponendo ora α̂ = (α̂1 , α̂2 , . . . , α̂p ) il vettore riga (x̄1 − x̄0 )T S−1 e con
α̂0 = − 21 (x̄1 − x̄0 )T S−1 (x̄1 + x̄0 ) possiamo scrivere la funzione discriminante lineare come:

R̂(x) = α̂0 + α̂1 x1 + . . . + α̂p xp .

La stima della matrice delle varianze e covarianze è molto sensibile alla presenza di valori
anomali (si veda ad esempio Azzalini e Scarpa, 2004, cap. 5). Un filone di ricerca riguarda lo
sviluppo di metodi robusti di stima, ovvero metodi di stima poco sensibili ai valori anomali.

2.7 La selezione delle variabili


In analogia con il problema della selezione delle variabili in un modello logistico, anche
nel contesto dell’analisi discriminante si pone il problema di evidenziare le variabili la cui
capacità discriminante è elevata togliendo quelle la cui influenza è irrilevante.
Le procedure per la selezione del modello si differenziano a seconda della natura delle
variabili inserite nella funzione discriminante. Se l’ipotesi di normalità può essere accettata,
allora queste si basano su test statistici. In questo paragrafo descriviamo alcuni test che
sono basati sulla ipotesi di normalità delle variabili (si veda ad esempio Anderson, 2003,
capp. 6-10, per una rassegna completa). Una prima analisi può basarsi su test univariati,
quali il test T di Student per la uguaglianza fra medie di due popolazioni.
Siano µ0j e µ1j il valore atteso di Xj nelle due popolazioni e σ0j 2 e σ
1j la varianza
2
nelle due popolazioni. Si ponga σ0j = σ1j . Il test T di Student sottopone a test l’ipotesi
16 E.Stanghellini – Dispense di Statistica IV

H0 : µ0j = µ1j contro l’alternativa H1 : µ0j 6= µ1j . Infatti, la statistica


x̄1j − x̄0j
t= q
sjj ( n10 + 1
n1 )

in cui si è indicato con sjj il j-esimo elemento sulla diagonale principale di S, ha distribuzione
T di Student con n0 + n1 − 2 gradi di libertà. Si rifiuta H0 se il valore di osservato di T è
elevato in modulo. In caso di numerosità campionaria elevata, questo test si può utilizzare
anche quando l’ipotesi di normalità non vale e le varianze delle due popolazioni sono diverse.
In tal caso la statistica test T ha una distribuzione asintotica normale (si veda Cicchitelli,
2002, cap. 8).

L’estensione multivariata del test precedente è nota come test T 2 di Hotelling per l’ipotesi
H0 : µ0 = µ1 di uguaglianza fra vettori di medie in due popolazioni con uguale matrice
delle varianze e covarianze contro l’alternativa H1 : µ0 6= µ1 (si veda Mardia, Kent e Bibby,
1979, cap. 3). Esso si basa sulla seguente distanza standardizzata fra vettori di medie di
due popolazioni:
∆2 = (µ1 − µ0 )T Σ−1 (µ1 − µ0 )
nota come distanza di Mahalanobis. La sua stima campionaria può farsi attraverso la
grandezza D2 , pari a:

D2 = (x̄1 − x̄0 )T S−1 (x̄1 − x̄0 ).


La statistica
n0 n1 2
T2 = D
n
si distribuisce sotto H0 con distribuzione detta di Hotelling. Si verifica inoltre, che una sua
semplice trasformazione monotona si distribuisce come una F -di Fisher con gradi di libertà
pari p e n − p − 1. Valori elevati della statistica T 2 (o della F di Fisher) portano al rifiuto di
H0 . Questo test viene utilizzato nel contesto in studio per valutare la capacità discriminante
di un vettore di variabili congiuntamente considerate.

Se l’ipotesi di normalità non può essere accettata, allora si basano su criteri empirici. Il
criterio empirico maggiormente utilizzato è la minimizzazione della frequenza dell’errore di
classificazione, sia esso nel campione di derivazione o nel secondo campione di validazione.
Esso viene calcolato attraverso la tabella di confusione, descritta nel paragrafo successivo.

Talvolta, quando il campione di validazione non è disponibile, la frequenza dell’errore di


classificazione viene calcolata eliminando una unità del campione. Si procede alla stima
della funzione discriminante senza tale unità e si riclassifica l’unità esclusa. Il procedimento
di ripete per ogni unità del campione e al termine si valuta la frequenza di unità classificate
male. Questo criterio è dovuto a Lachenruch ad Mickey (1968) ed è noto com jackknifing o
cross-validation.

2.8 Lo score e la tabella di confusione


Nelle applicazioni, i parametri α vengono sostituiti dalle loro stime, ottenute con i metodi
discussi in precedenza.
E.Stanghellini – Dispense di Statistica IV 17

0.5

Default
0.4
Sane
0.3

0.2

0.1

FCR.PTP
0

−0.1

−0.2

−0.3

−0.4

−0.5
0 0.5 1 1.5 2 2.5 3 3.5 4
RI.AT

Figura 2.2: Funzione discriminante lineare e dati reali.

Si definisce score il valore formato dalla funzione si = α̂T xi . In pratica, un soggetto


viene assegnato a P1 se lo score si è superiore a s. Altrimenti, esso viene classificato in P0 .
Si riclassifichino le unità nel campione di validazione nel seguente modo. Si costruisca
la variabile Flag stimata che vale 1 se lo score di una unità è maggiore di s e 0 altrimenti.
Si costruisca la seguente tabella 2 × 2 detta di confusione:

Flag stimata Totale


Flag 0 1
0 a b a+b
1 c d c+d
Totale a+c b+d 1

Sulla diagonale principale sono riportate le frequenze relative di unità correttamente classifi-
cate. Fuori diagonale, invece, sono riportate le frequenze relative di unità classificate male.
La somma b + c è la stima della probabilità di errore. Le grandezze b/(a + b) e c/(c + d) sono
stime delle probabilità di errore: la prima è la probabilità di assegnare ai buoni un cattivo
e la seconda è la probabilità dell’errore contrario.

Tuttavia, se sono calcolate attraverso lo stesso campione su cui è stata effettuata la sottosti-
ma esse tendono a fornire valori ottimisti. Si noti che aumentando la soglia s si aumenta la
probabilità che le unità che provengono da P0 siano classificate correttamente ma diminuisce
la probabilità che quelle che provengono da P1 siano classificate correttamente.

Nel caso di due variabili, la funzione discriminante può essere rappresentata attraverso una
retta. In figura 2.2 è riportata la retta che corrisponde alla funzione discriminante lineare
per i dati introdotti nel precedente grafico. La funzione è calcolata ponendo s = 1 (ovvero
log s = 0). Un eventuale innalzamento della soglia va ad influire sulla intercetta della retta,
18 E.Stanghellini – Dispense di Statistica IV

aumentandola. Viceversa, un abbassamento della soglia va a diminuire l’intercetta.

Si vede dal grafico che, nel campione, la proporzione di imprese sane classificate male è 3/25,
mentre quella delle imprese insolventi è 2/24. Questi valori sono sottostime delle probabilità
reali di compiere gli errori di classificazione.
P
ESERCIZIO 2.1 Si dimostri che i (xi − x̄)T Σ−1 (x̄ − µ) = 0.

Essendo Σ−1 (x̄ −Pµ) costanti rispetto all’indice della sommatoria,


P l’espressione
P sopra si
T −1
può riscrivere come [ i (xi − x̄) ]Σ (x̄ − µ), ed essendo i (xi − x̄) = i xi − nx̄ = 0 il
risultato segue.