Sei sulla pagina 1di 32

Modello Lineare Generalizzato (GLM) - Teoria

Gianluca Mastrantonio

email: gianluca.mastrantonio@polito.it

G. Mastrantonio 1 / 32
La densità di una variabile aleatoria yi si dice appartenere alla famiglia
exponenziale se può essere scritta come
 
yi θi − b(θi )
f (yi ; θi , φi ) = exp + c(yi , φi )
a(φi )

dove
θi è chiamato parametro naturale e
φi è il parametro di dispersione
Per le distribuioni della famiglia esponenziale, media e varianza si
calcolano facilmente

G. Mastrantonio 2 / 32
Abbiamo che
Z Z
∂ ∂f (yi ; θi , φi )
f (yi ; θi , φi )dyi = dyi = 0
∂θi ∂θi
quindi

yi − b 0 (θi )
Z Z
∂f (yi ; θi , φi )
dyi = f (yi ; θi , φi )dyi =
∂θi a(φi )
b 0 (θi ) E (yi ) b 0 (θi )
Z Z
1
yi f (yi ; θi , φi )dyi − f (yi ; θi , φi )dyi = − =0
a(φi ) a(φi ) a(φi ) a(φi )

Quindi
E (yi ) = µi = b 0 (θi )

G. Mastrantonio 3 / 32
Abbiamo che
∂2 ∂ 2 f (yi ; θi , φi )
Z Z
f (yi ; θi , φi )dyi = dyi = 0
∂θi2 ∂θi2

quindi

−b 00 (θi ) (yi − b 0 (θi ))2


Z 2 Z
∂ f (yi ; θi , φi )
dy i = f (y i ; θ i , φi ) + f (yi ; θi , φi )dyi
∂θi2 a(φi ) a(φi )2

b 00 (θi )
Z Z
1
=− f (yi ; θi , φi )dyi + (yi − b 0 (θi ))2 f (yi ; θi , φi )dyi =
a(φi ) a(φi )2
b 00 (θi ) Var(yi )
− + =0
a(φi ) a(φi )2

Quindi
Var(yi ) = b 00 (θi )a(φi )

G. Mastrantonio 4 / 32
Abbiamo sempre scritto il modello lineare come
p
X
yi = βj xij + i
j=1

 ∼ N(0, σ 2 )

con tutte le varie ipotesi. Un’altro modo di scrivere il modello è

yi ∼ N(µi , σ 2 )
p
X
µi = βj xij
j=1

G. Mastrantonio 5 / 32
I GLM sono una generalizzazione del modello lineare, e si possono scrivere
come

yi ∼ H(θi , φi )
p
X
g (µi ) = ηi = βj xij
j=1

H è una distribuzione membro della famiglia esponenziale;


 
i −b(θi )
f (yi ; θi , φi ) = exp yi θa(φ i)
+ c(y i , φi )
E (yi ) = µi = b 0 (θi );
Var(yi ) = b 00 (θi )a(φi );
µi ∈ D , dove D può essere R+ , oppure [0, 1], etc...;
g : D → R è la funzione link;
Tra tutte le funzioni link, quella che soddisfa θi = g (µi ) è chiamata
funzione link canonica
G. Mastrantonio 6 / 32
Distribuzione normale y ∼ N(αi , σ 2 ) La densità è

(yi − αi )2
 
2 2
f (yi ; αi , σ ) = (2πσ ) exp −
2σ 2
!
yi αi − 21 αi2 1 2 yi2
= exp − log(2πσ ) −
σ2 2 2σ 2

Con
θ = αi e φ = σ 2 ;
θi2 yi2
b(θi ) = 2 a(φi ) = φi c(yi ; φi ) = − 12 log(2πφi ) − 2φi ;
E (yi ) = θi = αi Var(yi ) = φi = σ 2
la funzione link canonica è g (µi ) = µi

G. Mastrantonio 7 / 32
Distribuzione Poisson yi ∼ Pois(λi ) La densità è

e −λi λyi i
f (yi ; λ) =
yi !
= exp (yi log(λi ) − λi − log(y !))

θ = log(λi ) e φ = ∅;
b(θi ) = exp(θi ) a(φi ) = 1 c(yi ; φi ) = − log(yi !);
E (yi ) = exp(θi ) = λi Var(yi ) = exp(θi ) = λi
la funzione link canonica è g (µi ) = log(µi )

G. Mastrantonio 8 / 32
Distribuzione Binomial yi ∼ Bin(ni , πi ) (ni si considera noto e non
parametro)
 
ni
f (yi ; ni , πi ) = πiyi (1 − πi )ni −yi
yi
  
yi log(πi /(1 − πi )) + ni log(1 − πi ) ni
= exp − log
1 yi
 
πi
θ = log 1−πi e φ = ∅;
 
ni
b(θi ) = ni log(1 + exp(θi )) a(φi ) = 1 c(yi ; φi ) = log ;
yi
exp(θi ) exp(θi )ni
E (yi ) = ni 1+exp(θ i)
= ni π i Var(yi ) = (1+exp(θ ))2
= ni πi (1 − πi )
  i  
la funzione link canonica è g (µi ) = log ni µ−µ
i
i
= log πi
1−πi

G. Mastrantonio 9 / 32
Supponiamo che
p
X
g (µi ) = ηi = β1 + βj xij = Xβ
j=2

e come nel modello lineare, minimizziamo la derivata della log


verosimiglianza per trovare le stime di β.
Indichiamo con L(β; y) la log-verosimiglianza di β
n n
X yi θi − b(θi ) X
L(β; y) = + c(yi , φi )
a(φi )
i=1 i=1

e con U il vettore di derivate rispetto a β, chiamata statistica score:

∂L(β; y)
Uj =
∂βj

G. Mastrantonio 10 / 32
Per calcolare le derivate utilizziamo la chain rule:
∂L(β; yi ) ∂L(β; yi ) ∂θi ∂µi ∂ηi
=
∂βj ∂θi ∂µi ∂ηi ∂βj

∂L(β;yi ) yi −b 0 (θi ) yi −µi


∂θi = a(φi ) = a(φi )
∂µi
∂θi = b 00 (θi ) = Var(y i)
a(φi ) ;
∂ηi
∂βj = xij
Abbiamo quindi
n n
X yi − µi a(φi ) ∂µi X (yi − µi )xij ∂µi
Uj = xij =
a(φi ) Var(yi ) ∂ηi Var(yi ) ∂ηi
i=1 i=1

La soluzione U = 0 rispetto a β generalmente non si riesce a trovare, e


algoritmi numerici vengono usati (Newton-Raphson o Fisher Scoring)

G. Mastrantonio 11 / 32
Ipotizziamo di aver trovato la soluzione β̂, abbiamo adesso bisogno di
trovare la sua distribuzione per poter fare inferenza: test, intervalli di
confidenza etc.

A questo scopo, possiamo utilizzare la statistica score U. Indichiamo con


V e D due matrici diagonali aventi come elemento i-esimo Var(yi ) e
∂µi /∂ηi , rispettivamente. Allora

U = XT DV−1 (y − µ)

La statistica U è una variabile aleatoria con media 0 (E (yi ) = µi )

G. Mastrantonio 12 / 32
L’elemento (j, k) della matrice di varianza-covarianza di U si calcola come
n n
!
X (yi − µi )xij ∂µi X (yh − µh )xhk ∂µh
Cov(Uj , Uk ) = E (Uj Uk ) = E
Var(yi ) ∂ηi Var(yh ) ∂ηh
i=1 h=1

Dato che yi è indipendente da yj abbiamo che E ((yi − µi )(yh − µh )) = 0,


quindi
n  ! Xn
(yi − µi )2 xij xik ∂µi 2 ∂µi 2
  
X xij xik
Jjk = E (Uj Uk ) = E =
Var(yi )2 ∂ηi Var(yi ) ∂ηi
i=1 i=1

La matrice J si chiama matrice d’informazione e può essere scritta com

J = XT WX
 2
1 ∂µi
con Wii = Var(yi ) ∂ηi

G. Mastrantonio 13 / 32
La matrice d’informazione (elemento (j, k)) può essere calcolata
diversamente
Z Z
∂ log f (y; β, φi )
E (Uj ) = Uj f (y; β, φi )dy = f (y; β, φi )dy = 0;
∂βj

se differenziamo rispetto a βk , e scambiamo l’ordine di integrale con


derivata, otteniamo
Z 2 Z
∂ log f (y; β, φi ) ∂ log f (y; β, φi ) ∂f (y; β, φi )
0= f (y; β, φi )dy + dy =
∂βj ∂βk ∂βj ∂βk

usando la derivata del logaritmo, otteniamo


Z 2
∂ log f (y; β, φi )
f (y; β, φi )dy +
∂βj ∂βk
Z
∂ log f (y; β, φi ) ∂ log f (y; β, φi )
f (y; β, φi )dy =
∂βj ∂βk

G. Mastrantonio 14 / 32
Entrambi gli integrali sono valori attesi, e precisamente
Z 2  
∂ log f (y; β, φi ) ∂Uj
f (y; β, φi )dy = E
∂βj ∂βk ∂βk
e Z
∂ log f (y; β, φi ) ∂ log f (y; β, φi )
f (y; β, φi )dy = E (Uj Uk )
∂βj ∂βk
Allora  
∂Uj
Jjk = E (Uj Uk ) = −E
∂βk
Oppure, in forma matriciale

J = E (UUT ) = −E (U0 )

G. Mastrantonio 15 / 32
Le matrici U(b) e J(b), dove con il valore nella parentesi indichiamo per
quale valore di β sono calcolate, servono per i testi di ipotesi su β.
Calcoliamo l’approssimazione di Taylor per la log verosimiglianza, calcolata
in β̂

∂L(β̂; y) 1 ∂ 2 L(β̂; y)
L(β; y) = L(β̂; y) + (β − β̂)T + (β − β̂)T (β − β̂) =
∂β 2 ∂ββ T

e approssimando U0 con E (U0 ) = −J, otteniamo

1
L(β; y) = L(β̂; y) + (β − β̂)T U(β̂) − (β − β̂)T J(β̂)(β − β̂)
2

G. Mastrantonio 16 / 32
Calcoliamo la derivata, prendiamo solo i primi due termini e, come prima,
approssimiamo U0 con E (U0 ) = −J. Otteniamo

U(β) = U(β̂) − J(β̂)(β − β̂)

Se come nel modello lineare, stimiamo β̂ come il valore che massimizza


laverosimiglianza, i.e. ha derivate parziali pari a 0, abbiamo U(β̂) = 0 e
allora
U(β) = −J(β̂)(β − β̂)
da cui abbiamo che
β̂ = β + J−1 U
e quindi (approssimativamente, per n ⇒ ∞)

β̂ ∼ N(β, J−1 )

Notate come la stima di β è più precisa se aumenta la curvatura della


funzione di verosimiglianza (−J)
G. Mastrantonio 17 / 32
Come nel caso lineare, possiamo usare la distribuzione di β̂ per fare test
d’ipotesi, intervalli di confidenza, etc ...
Per esempio, potremmo testare

H0 : βj = bj H1 : βj 6= bj

con la statistica p
z = (β̂j − bj ) Jjj ∼ N(0, 1)
se si assume nota la varianza, oppure
q
z = (β̂j − bj ) Jˆjj ∼ N(0, 1)

se viene stimata, T
 dove
2 Ĵ = X ŴX e Ŵii è una stima di
1 ∂µi
Wii = Var(y i) ∂ηi .
Nel secondo caso dovremmo usare una T di student, ma la distribuzione di
β̂ è approssimativamente normale, come la T .

G. Mastrantonio 18 / 32
Ipotesi sull’intero modello

H0 : β = b H1 : β 6= b

possono essere testate utilizzando la statistica di Wald

(β − b)T J(β − b) ∼ χ2p

o nella forma
UT J−1 U ∼ χ2p
visto che U ∼ N(0, J)

G. Mastrantonio 19 / 32
Sebbene abbiamo derivato solo rispetto a β la log-verosimiglianza, delle
volte dobbiamo stimare anche il parametro di dispersione (per esempio σ 2
nella regresisone o la dispersione della binomiale negativa). Il parametro
da trovare è φ.

I modello vengono scelti in modo tale che la matrice di informazione ha


elementi che connettono i β e φ asintoticamente pari a 0. Rendendo i
parametri indipendenti e possono essere stimati indipendentemente.

Vedremo un esempio con la binomiale negativa

G. Mastrantonio 20 / 32
Ricordiamo che indichiamo con η = Xβ il predittore lineare e con
µ = g −1 (η) la media della variabili aleatoria d’interesse.

Abbiamo allora che, approssimativamente,

η̂ ∼ N(Xβ, X(XT WX)−1 XT )

Per la distribuzione di µ̂ possiamo usare il metodo Delta, che ci permette


di dire che asintoticamente è normale e

µ̂ ∼ N(g −1 (η), DX(XT WX)−1 XT D)

Dove ricordiamo Dii = ∂µi /∂ηi è diagonale. Generalmente per gli intervalli
di confidenza si preferisce costruire quelli di η̂ e poi usare la funzione g −1

G. Mastrantonio 21 / 32
La verosimiglianza può essere usata per fare dei test sul modello. Una
possibile idea è di confrontare il modello in esame con il modello saturato,
i.e. il modello con il maggior numero di parametri possibile (1 per ogni
osservazione).

Indichiamo con L(y; β̂ max ) la log-verosimiglianza per il modello saturo e


come sempre L(y; β̂) quella del modello in esame. Siamo interessati al
rapporto
exp(L(β̂ max ; y))
λ=
exp(L(β̂; y))
o più precisamente al suo logaritmo moltiplicato per due, che chiamiamo
Devianza  
D = 2 log(λ) = 2 L(β̂ max ; y) − L(β̂; y)

G. Mastrantonio 22 / 32
Ricordiamo che l’approssimazione di Taylor della log-verosimiglianza ci
dice che
1
L(β; y) = L(β̂; y) + (β − β̂)T U(β̂) − (β − β̂)T J(β̂)
2

(approssimativamente) Se β̂ è lo stimatore di massima verosimiglianza,


allora possiamo scrivere
1
L(β; y) = L(β̂; y) − (β − β̂)T J(β̂)(β − β̂)
2

e dato che β̂ ∼ N(β, J−1 ) allora


 
2 L(β̂; y) − L(β; y) = (β − β̂)T J(β̂)(β − β̂) ∼ χ2p

Il risultato vale per ogni β di lunghezza p.

G. Mastrantonio 23 / 32
Abbiamo quindi che
 
D =2 L(β̂ max ; y) − L(β̂; y) =
   
2 L(β̂ max ; y) − L(β max ; y) − 2 L(β̂; y) − L(β; y) +
2 (L(β max ; y) − L(β; y))
 
2 L(β̂ max ; y) − L(β max ; y) ∼ χ2n , dove n è la lunghezza di β max ;
 
2 L(β̂; y) − L(β; y) ∼ χ2p , dove p è la lunghezza di β;
ν = 2 (L(β max ; y) − L(β; y)) è una costante che è uguale a 0, se i due
modelli spiegano i dati nello stesso modo.
Abbiamo quindi che
D ∼ χ2n−p,ν

G. Mastrantonio 24 / 32
La devianza può essere usata per confrontare modelli annidati. nello
specifico ipotizziamo di voler testare

H0 : β = β 0 H1 : β = β 1

dove β 0 ha q elementi (modello M0 ) e β 1 ha p elementi (modello M1 ),


con q < p < n.
Possiamo calcolare
   
∆D = D0 − D1 = 2 L(β̂ max ; y) − L(β̂ 0 ; y) − 2 L(β̂ max ; y) − L(β̂ 1 ; y) =

e abbiamo quindi che


 
∆D = 2 L(β̂ 1 ; y) − L(β̂ 0 ; y) ∼ χ2p−q,v0 −v1

dove
ν0 = 2 (L(β max ; y) − L(β 0 ; y));
ν1 = 2 (L(β max ; y) − L(β 1 ; y));
G. Mastrantonio 25 / 32
Se entrambi i modelli sono equivalenti in termine di spiegazione dei dati ,
abbiamo
ν0 = ν1 .
e ∆D ∼ χ2p−q . Se M0 spiega in maniera peggiore i dati, rispetto a M1 ,
abbiamo che
ν0 > ν1
e ∆D ∼ χ2p−q,ν0 −ν1 .

Possiamo confrontare 2
R ∞ ∗ ∆D con un χp−q .∗ Se il valore ∆D si trova 2nella
regione critica D f (x)dx < α, dove f (x) è la densità di una χp−q ,
rifiutiamo H0 , altrimenti, per il rasoio di Occam, scegliamo il modello più
parsimonioso.

G. Mastrantonio 26 / 32
Possiamo calcolare la devianza per un modello normale, con lo scopo di
confrontare modelli nested. Nel modello saturo, il vettore dei parametri è
della stessa dimensione delle osservazionie, e abbiamo che y = ŷ, quindi
n
L(β̂ max ; y) = − log(2πσ 2 )
2
mentre per il modello di interesse è
Pn
(yi − Xi. β̂)2 n
L(β̂; y) = − i=1 − log(2πσ 2 )
2σ 2 2
e
  Pn (y − X β̂)2
i i.
D = 2 L(β̂ max ; y) − L(β̂; y) = i=1 2 ∼ χ2n−p .
σ
Sfortunatamente, questa non può essere usata direttamente dato che
dipende da σ 2 , che non conosciamo.

G. Mastrantonio 27 / 32
Indichiamo con
Pn
− Xi. β̂ 0 )2
i=1 (yi
D0 = ∼ χ2n−q,ν0
σ2
Pn
(yi − Xi. β̂ 1 )2
D1 = i=1 ∼ χ2n−p,ν1
σ2

Assumendo che M1 fitta bene i dati, e quindi la χ2 ha parametro di non


centralià pari a 0, possiamo utilizzare la seguente statistica
D0 − D1  D1
F = ∼ Fp−q,n−p,ν0 −ν1
p−q n−p
Quindi, se assumiamo che M1 e M0 spiegano allo stesso modo i dati,
ν0 = ν1 e possiamo confrontare F con una Fp−q,n−p . Valori elevati di F
suggeriscono che M1 spieghi meglio di M0 .

G. Mastrantonio 28 / 32
Rappresentazione grafica del test di Wald e rapporto di verosimiglianze

G. Mastrantonio 29 / 32
Consideriamo i residui
y − µ̂
Ricordiamo che W = diag{(∂µi /∂ηi )2 /Var(yi )} e D = diag{(∂µi /∂ηi )}.
Calcoliamo la varianza dei residui, ipotizzando che y e µ̂ siano non
correlati asintoticamente.
Abbiamo allora che
V ≈ Var(µ̂) + Var(y − µ̂)
e quindi

Var(y − µ̂) ≈ V − Var(µ̂) ≈ DW−1 D − DX(XT WX)−1 XT D =


 
DW−1/2 I − W1/2 X(XT WX)−1 XT W1/2 W−1/2 D.

G. Mastrantonio 30 / 32
Possiamo definire

Hw = W1/2 X(XT WX)−1 XT W1/2

Hw è approssimativamente una hat matrix per le osservazioni


standardizzate
Hw V−1/2 (y − µ̂) ≈ V−1/2 (ŷ − µ̂)
e può essere considerata come la matrice dei leverage

G. Mastrantonio 31 / 32
Per fare del modello checking possiamo considerare
Residui di Pearson
yi − µ̂i
ei = q
ˆ i)
Var(y
Residui standardizzati
yi − µ̂i ei
ri = q =q
Var(µ̂i )(1 − ĥw ,ii ) 1 − ĥw ,ii

dove ĥw ,ii è l’elemento i sulla diagonale di Hw ;


Cook distance
ĥw ,ii
ri2
p(1 − ĥw ,ii )
deviance residuals
r  
di = sign(yi − µ̂i ) 2 Li (β̂ max ; y) − Li (β̂); y

dove Li è il contributo dato alla log-ver. dalla i-esima osservazione


G. Mastrantonio 32 / 32

Potrebbero piacerti anche