GLM - Teoria

Modello Lineare Generalizzato (GLM) - Teoria
Gianluca Mastrantonio
email: gianluca.mastrantonio@polito.it
G. Mastrantonio 1 / 32
La densità di una variabile aleatoria yi si dice appartenere alla famiglia
exponenziale se può essere scritta come

yi θi − b(θi )
f (yi ; θi , φi ) = exp + c(yi , φi )
a(φi )
dove
θi è chiamato parametro naturale e
φi è il parametro di dispersione
Per le distribuioni della famiglia esponenziale, media e varianza si
calcolano facilmente
Abbiamo che
Z Z
∂ ∂f (yi ; θi , φi )
f (yi ; θi , φi )dyi = dyi = 0
∂θi ∂θi
quindi
yi − b 0 (θi )
Z Z
∂f (yi ; θi , φi )
dyi = f (yi ; θi , φi )dyi =
∂θi a(φi )
b 0 (θi ) E (yi ) b 0 (θi )
Z Z
1
yi f (yi ; θi , φi )dyi − f (yi ; θi , φi )dyi = − =0
a(φi ) a(φi ) a(φi ) a(φi )
Quindi
E (yi ) = µi = b 0 (θi )
Abbiamo che
∂2 ∂ 2 f (yi ; θi , φi )
Z Z
f (yi ; θi , φi )dyi = dyi = 0
∂θi2 ∂θi2
quindi
−b 00 (θi ) (yi − b 0 (θi ))2

Z 2 Z
∂ f (yi ; θi , φi )
dy i = f (y i ; θ i , φi ) + f (yi ; θi , φi )dyi
∂θi2 a(φi ) a(φi )2
b 00 (θi )
Z Z
1
=− f (yi ; θi , φi )dyi + (yi − b 0 (θi ))2 f (yi ; θi , φi )dyi =
a(φi ) a(φi )2
b 00 (θi ) Var(yi )
− + =0
a(φi ) a(φi )2
Quindi
Var(yi ) = b 00 (θi )a(φi )
Abbiamo sempre scritto il modello lineare come
p
X
yi = βj xij + i
j=1
∼ N(0, σ 2 )
con tutte le varie ipotesi. Un’altro modo di scrivere il modello è
yi ∼ N(µi , σ 2 )
p
X
µi = βj xij
j=1
I GLM sono una generalizzazione del modello lineare, e si possono scrivere
come
yi ∼ H(θi , φi )
p
X
g (µi ) = ηi = βj xij
j=1
H è una distribuzione membro della famiglia esponenziale;

i −b(θi )
f (yi ; θi , φi ) = exp yi θa(φ i)
+ c(y i , φi )
E (yi ) = µi = b 0 (θi );
Var(yi ) = b 00 (θi )a(φi );
µi ∈ D , dove D può essere R+ , oppure [0, 1], etc...;
g : D → R è la funzione link;
Tra tutte le funzioni link, quella che soddisfa θi = g (µi ) è chiamata
funzione link canonica
Distribuzione normale y ∼ N(αi , σ 2 ) La densità è
(yi − αi )2

2 2
f (yi ; αi , σ ) = (2πσ ) exp −
2σ 2
!
yi αi − 21 αi2 1 2 yi2
= exp − log(2πσ ) −
σ2 2 2σ 2
Con
θ = αi e φ = σ 2 ;
θi2 yi2
b(θi ) = 2 a(φi ) = φi c(yi ; φi ) = − 12 log(2πφi ) − 2φi ;
E (yi ) = θi = αi Var(yi ) = φi = σ 2
la funzione link canonica è g (µi ) = µi
Distribuzione Poisson yi ∼ Pois(λi ) La densità è
e −λi λyi i
f (yi ; λ) =
yi !
= exp (yi log(λi ) − λi − log(y !))
θ = log(λi ) e φ = ∅;
b(θi ) = exp(θi ) a(φi ) = 1 c(yi ; φi ) = − log(yi !);
E (yi ) = exp(θi ) = λi Var(yi ) = exp(θi ) = λi
la funzione link canonica è g (µi ) = log(µi )
Distribuzione Binomial yi ∼ Bin(ni , πi ) (ni si considera noto e non
parametro)

ni
f (yi ; ni , πi ) = πiyi (1 − πi )ni −yi
yi

yi log(πi /(1 − πi )) + ni log(1 − πi ) ni
= exp − log
1 yi

πi
θ = log 1−πi e φ = ∅;

ni
b(θi ) = ni log(1 + exp(θi )) a(φi ) = 1 c(yi ; φi ) = log ;
yi
exp(θi ) exp(θi )ni
E (yi ) = ni 1+exp(θ i)
= ni π i Var(yi ) = (1+exp(θ ))2
= ni πi (1 − πi )
i
la funzione link canonica è g (µi ) = log ni µ−µ
i
i
= log πi
1−πi
Supponiamo che
p
X
g (µi ) = ηi = β1 + βj xij = Xβ
j=2
e come nel modello lineare, minimizziamo la derivata della log

verosimiglianza per trovare le stime di β.
Indichiamo con L(β; y) la log-verosimiglianza di β
n n
X yi θi − b(θi ) X
L(β; y) = + c(yi , φi )
a(φi )
i=1 i=1
e con U il vettore di derivate rispetto a β, chiamata statistica score:
∂L(β; y)
Uj =
∂βj
Per calcolare le derivate utilizziamo la chain rule:
∂L(β; yi ) ∂L(β; yi ) ∂θi ∂µi ∂ηi
=
∂βj ∂θi ∂µi ∂ηi ∂βj
∂L(β;yi ) yi −b 0 (θi ) yi −µi

∂θi = a(φi ) = a(φi )
∂µi
∂θi = b 00 (θi ) = Var(y i)
a(φi ) ;
∂ηi
∂βj = xij
Abbiamo quindi
n n
X yi − µi a(φi ) ∂µi X (yi − µi )xij ∂µi
Uj = xij =
a(φi ) Var(yi ) ∂ηi Var(yi ) ∂ηi
i=1 i=1
La soluzione U = 0 rispetto a β generalmente non si riesce a trovare, e

algoritmi numerici vengono usati (Newton-Raphson o Fisher Scoring)
Ipotizziamo di aver trovato la soluzione β̂, abbiamo adesso bisogno di
trovare la sua distribuzione per poter fare inferenza: test, intervalli di
confidenza etc.
A questo scopo, possiamo utilizzare la statistica score U. Indichiamo con

V e D due matrici diagonali aventi come elemento i-esimo Var(yi ) e
∂µi /∂ηi , rispettivamente. Allora
U = XT DV−1 (y − µ)
La statistica U è una variabile aleatoria con media 0 (E (yi ) = µi )
L’elemento (j, k) della matrice di varianza-covarianza di U si calcola come
n n
!
X (yi − µi )xij ∂µi X (yh − µh )xhk ∂µh
Cov(Uj , Uk ) = E (Uj Uk ) = E
Var(yi ) ∂ηi Var(yh ) ∂ηh
i=1 h=1
Dato che yi è indipendente da yj abbiamo che E ((yi − µi )(yh − µh )) = 0,

quindi
n ! Xn
(yi − µi )2 xij xik ∂µi 2 ∂µi 2

X xij xik
Jjk = E (Uj Uk ) = E =
Var(yi )2 ∂ηi Var(yi ) ∂ηi
i=1 i=1
La matrice J si chiama matrice d’informazione e può essere scritta com
J = XT WX
2
1 ∂µi
con Wii = Var(yi ) ∂ηi
La matrice d’informazione (elemento (j, k)) può essere calcolata
diversamente
Z Z
∂ log f (y; β, φi )
E (Uj ) = Uj f (y; β, φi )dy = f (y; β, φi )dy = 0;
∂βj
se differenziamo rispetto a βk , e scambiamo l’ordine di integrale con

derivata, otteniamo
Z 2 Z
∂ log f (y; β, φi ) ∂ log f (y; β, φi ) ∂f (y; β, φi )
0= f (y; β, φi )dy + dy =
∂βj ∂βk ∂βj ∂βk
usando la derivata del logaritmo, otteniamo

Z 2
∂ log f (y; β, φi )
f (y; β, φi )dy +
∂βj ∂βk
Z
∂ log f (y; β, φi ) ∂ log f (y; β, φi )
f (y; β, φi )dy =
∂βj ∂βk
Entrambi gli integrali sono valori attesi, e precisamente
Z 2
∂ log f (y; β, φi ) ∂Uj
f (y; β, φi )dy = E
∂βj ∂βk ∂βk
e Z
∂ log f (y; β, φi ) ∂ log f (y; β, φi )
f (y; β, φi )dy = E (Uj Uk )
∂βj ∂βk
Allora
∂Uj
Jjk = E (Uj Uk ) = −E
∂βk
Oppure, in forma matriciale
J = E (UUT ) = −E (U0 )
Le matrici U(b) e J(b), dove con il valore nella parentesi indichiamo per
quale valore di β sono calcolate, servono per i testi di ipotesi su β.
Calcoliamo l’approssimazione di Taylor per la log verosimiglianza, calcolata
in β̂
∂L(β̂; y) 1 ∂ 2 L(β̂; y)
L(β; y) = L(β̂; y) + (β − β̂)T + (β − β̂)T (β − β̂) =
∂β 2 ∂ββ T
e approssimando U0 con E (U0 ) = −J, otteniamo
1
L(β; y) = L(β̂; y) + (β − β̂)T U(β̂) − (β − β̂)T J(β̂)(β − β̂)
2
Calcoliamo la derivata, prendiamo solo i primi due termini e, come prima,
approssimiamo U0 con E (U0 ) = −J. Otteniamo
U(β) = U(β̂) − J(β̂)(β − β̂)
Se come nel modello lineare, stimiamo β̂ come il valore che massimizza

laverosimiglianza, i.e. ha derivate parziali pari a 0, abbiamo U(β̂) = 0 e
allora
U(β) = −J(β̂)(β − β̂)
da cui abbiamo che
β̂ = β + J−1 U
e quindi (approssimativamente, per n ⇒ ∞)
β̂ ∼ N(β, J−1 )
Notate come la stima di β è più precisa se aumenta la curvatura della

funzione di verosimiglianza (−J)
Come nel caso lineare, possiamo usare la distribuzione di β̂ per fare test
d’ipotesi, intervalli di confidenza, etc ...
Per esempio, potremmo testare
H0 : βj = bj H1 : βj 6= bj
con la statistica p
z = (β̂j − bj ) Jjj ∼ N(0, 1)
se si assume nota la varianza, oppure
q
z = (β̂j − bj ) Jˆjj ∼ N(0, 1)
se viene stimata, T
dove
2 Ĵ = X ŴX e Ŵii è una stima di
1 ∂µi
Wii = Var(y i) ∂ηi .
Nel secondo caso dovremmo usare una T di student, ma la distribuzione di
β̂ è approssimativamente normale, come la T .
Ipotesi sull’intero modello
H0 : β = b H1 : β 6= b
possono essere testate utilizzando la statistica di Wald
(β − b)T J(β − b) ∼ χ2p
o nella forma
UT J−1 U ∼ χ2p
visto che U ∼ N(0, J)
Sebbene abbiamo derivato solo rispetto a β la log-verosimiglianza, delle
volte dobbiamo stimare anche il parametro di dispersione (per esempio σ 2
nella regresisone o la dispersione della binomiale negativa). Il parametro
da trovare è φ.
I modello vengono scelti in modo tale che la matrice di informazione ha

elementi che connettono i β e φ asintoticamente pari a 0. Rendendo i
parametri indipendenti e possono essere stimati indipendentemente.
Vedremo un esempio con la binomiale negativa
Ricordiamo che indichiamo con η = Xβ il predittore lineare e con
µ = g −1 (η) la media della variabili aleatoria d’interesse.
Abbiamo allora che, approssimativamente,
η̂ ∼ N(Xβ, X(XT WX)−1 XT )
Per la distribuzione di µ̂ possiamo usare il metodo Delta, che ci permette

di dire che asintoticamente è normale e
µ̂ ∼ N(g −1 (η), DX(XT WX)−1 XT D)
Dove ricordiamo Dii = ∂µi /∂ηi è diagonale. Generalmente per gli intervalli
di confidenza si preferisce costruire quelli di η̂ e poi usare la funzione g −1
La verosimiglianza può essere usata per fare dei test sul modello. Una
possibile idea è di confrontare il modello in esame con il modello saturato,
i.e. il modello con il maggior numero di parametri possibile (1 per ogni
osservazione).
Indichiamo con L(y; β̂ max ) la log-verosimiglianza per il modello saturo e

come sempre L(y; β̂) quella del modello in esame. Siamo interessati al
rapporto
exp(L(β̂ max ; y))
λ=
exp(L(β̂; y))
o più precisamente al suo logaritmo moltiplicato per due, che chiamiamo
Devianza
D = 2 log(λ) = 2 L(β̂ max ; y) − L(β̂; y)
Ricordiamo che l’approssimazione di Taylor della log-verosimiglianza ci
dice che
1
L(β; y) = L(β̂; y) + (β − β̂)T U(β̂) − (β − β̂)T J(β̂)
2
(approssimativamente) Se β̂ è lo stimatore di massima verosimiglianza,

allora possiamo scrivere
1
L(β; y) = L(β̂; y) − (β − β̂)T J(β̂)(β − β̂)
2
e dato che β̂ ∼ N(β, J−1 ) allora

2 L(β̂; y) − L(β; y) = (β − β̂)T J(β̂)(β − β̂) ∼ χ2p
Il risultato vale per ogni β di lunghezza p.
Abbiamo quindi che

D =2 L(β̂ max ; y) − L(β̂; y) =

2 L(β̂ max ; y) − L(β max ; y) − 2 L(β̂; y) − L(β; y) +
2 (L(β max ; y) − L(β; y))

2 L(β̂ max ; y) − L(β max ; y) ∼ χ2n , dove n è la lunghezza di β max ;

2 L(β̂; y) − L(β; y) ∼ χ2p , dove p è la lunghezza di β;
ν = 2 (L(β max ; y) − L(β; y)) è una costante che è uguale a 0, se i due
modelli spiegano i dati nello stesso modo.
Abbiamo quindi che
D ∼ χ2n−p,ν
La devianza può essere usata per confrontare modelli annidati. nello
specifico ipotizziamo di voler testare
H0 : β = β 0 H1 : β = β 1
dove β 0 ha q elementi (modello M0 ) e β 1 ha p elementi (modello M1 ),

con q < p < n.
Possiamo calcolare

∆D = D0 − D1 = 2 L(β̂ max ; y) − L(β̂ 0 ; y) − 2 L(β̂ max ; y) − L(β̂ 1 ; y) =
e abbiamo quindi che

∆D = 2 L(β̂ 1 ; y) − L(β̂ 0 ; y) ∼ χ2p−q,v0 −v1
dove
ν0 = 2 (L(β max ; y) − L(β 0 ; y));
ν1 = 2 (L(β max ; y) − L(β 1 ; y));
Se entrambi i modelli sono equivalenti in termine di spiegazione dei dati ,
abbiamo
ν0 = ν1 .
e ∆D ∼ χ2p−q . Se M0 spiega in maniera peggiore i dati, rispetto a M1 ,
abbiamo che
ν0 > ν1
e ∆D ∼ χ2p−q,ν0 −ν1 .
Possiamo confrontare 2
R ∞ ∗ ∆D con un χp−q .∗ Se il valore ∆D si trova 2nella
regione critica D f (x)dx < α, dove f (x) è la densità di una χp−q ,
rifiutiamo H0 , altrimenti, per il rasoio di Occam, scegliamo il modello più
parsimonioso.
Possiamo calcolare la devianza per un modello normale, con lo scopo di
confrontare modelli nested. Nel modello saturo, il vettore dei parametri è
della stessa dimensione delle osservazionie, e abbiamo che y = ŷ, quindi
n
L(β̂ max ; y) = − log(2πσ 2 )
2
mentre per il modello di interesse è
Pn
(yi − Xi. β̂)2 n
L(β̂; y) = − i=1 − log(2πσ 2 )
2σ 2 2
e
Pn (y − X β̂)2
i i.
D = 2 L(β̂ max ; y) − L(β̂; y) = i=1 2 ∼ χ2n−p .
σ
Sfortunatamente, questa non può essere usata direttamente dato che
dipende da σ 2 , che non conosciamo.
Indichiamo con
Pn
− Xi. β̂ 0 )2
i=1 (yi
D0 = ∼ χ2n−q,ν0
σ2
Pn
(yi − Xi. β̂ 1 )2
D1 = i=1 ∼ χ2n−p,ν1
σ2
Assumendo che M1 fitta bene i dati, e quindi la χ2 ha parametro di non

centralià pari a 0, possiamo utilizzare la seguente statistica
D0 − D1 D1
F = ∼ Fp−q,n−p,ν0 −ν1
p−q n−p
Quindi, se assumiamo che M1 e M0 spiegano allo stesso modo i dati,
ν0 = ν1 e possiamo confrontare F con una Fp−q,n−p . Valori elevati di F
suggeriscono che M1 spieghi meglio di M0 .
Rappresentazione grafica del test di Wald e rapporto di verosimiglianze
Consideriamo i residui
y − µ̂
Ricordiamo che W = diag{(∂µi /∂ηi )2 /Var(yi )} e D = diag{(∂µi /∂ηi )}.
Calcoliamo la varianza dei residui, ipotizzando che y e µ̂ siano non
correlati asintoticamente.
Abbiamo allora che
V ≈ Var(µ̂) + Var(y − µ̂)
e quindi
Var(y − µ̂) ≈ V − Var(µ̂) ≈ DW−1 D − DX(XT WX)−1 XT D =

DW−1/2 I − W1/2 X(XT WX)−1 XT W1/2 W−1/2 D.
Possiamo definire
Hw = W1/2 X(XT WX)−1 XT W1/2
Hw è approssimativamente una hat matrix per le osservazioni

standardizzate
Hw V−1/2 (y − µ̂) ≈ V−1/2 (ŷ − µ̂)
e può essere considerata come la matrice dei leverage
Per fare del modello checking possiamo considerare
Residui di Pearson
yi − µ̂i
ei = q
ˆ i)
Var(y
Residui standardizzati
yi − µ̂i ei
ri = q =q
Var(µ̂i )(1 − ĥw ,ii ) 1 − ĥw ,ii
dove ĥw ,ii è l’elemento i sulla diagonale di Hw ;

Cook distance
ĥw ,ii
ri2
p(1 − ĥw ,ii )
deviance residuals
r
di = sign(yi − µ̂i ) 2 Li (β̂ max ; y) − Li (β̂); y
dove Li è il contributo dato alla log-ver. dalla i-esima osservazione


GLM - Teoria

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

GLM - Teoria

Caricato da

Copyright:

Formati disponibili

Modello Lineare Generalizzato (GLM) - Teoria

−b 00 (θi ) (yi − b 0 (θi ))2

con tutte le varie ipotesi. Un’altro modo di scrivere il modello è

H è una distribuzione membro della famiglia esponenziale;

e come nel modello lineare, minimizziamo la derivata della log

e con U il vettore di derivate rispetto a β, chiamata statistica score:

∂L(β;yi ) yi −b 0 (θi ) yi −µi

La soluzione U = 0 rispetto a β generalmente non si riesce a trovare, e

A questo scopo, possiamo utilizzare la statistica score U. Indichiamo con

La statistica U è una variabile aleatoria con media 0 (E (yi ) = µi )

Dato che yi è indipendente da yj abbiamo che E ((yi − µi )(yh − µh )) = 0,

La matrice J si chiama matrice d’informazione e può essere scritta com

se differenziamo rispetto a βk , e scambiamo l’ordine di integrale con

usando la derivata del logaritmo, otteniamo

e approssimando U0 con E (U0 ) = −J, otteniamo

U(β) = U(β̂) − J(β̂)(β − β̂)

Se come nel modello lineare, stimiamo β̂ come il valore che massimizza

Notate come la stima di β è più precisa se aumenta la curvatura della

possono essere testate utilizzando la statistica di Wald

(β − b)T J(β − b) ∼ χ2p

I modello vengono scelti in modo tale che la matrice di informazione ha

Vedremo un esempio con la binomiale negativa

Abbiamo allora che, approssimativamente,

η̂ ∼ N(Xβ, X(XT WX)−1 XT )

Per la distribuzione di µ̂ possiamo usare il metodo Delta, che ci permette

µ̂ ∼ N(g −1 (η), DX(XT WX)−1 XT D)

Indichiamo con L(y; β̂ max ) la log-verosimiglianza per il modello saturo e

(approssimativamente) Se β̂ è lo stimatore di massima verosimiglianza,

e dato che β̂ ∼ N(β, J−1 ) allora

Il risultato vale per ogni β di lunghezza p.

dove β 0 ha q elementi (modello M0 ) e β 1 ha p elementi (modello M1 ),

e abbiamo quindi che

Assumendo che M1 fitta bene i dati, e quindi la χ2 ha parametro di non

Var(y − µ̂) ≈ V − Var(µ̂) ≈ DW−1 D − DX(XT WX)−1 XT D =

Hw = W1/2 X(XT WX)−1 XT W1/2

Hw è approssimativamente una hat matrix per le osservazioni

dove ĥw ,ii è l’elemento i sulla diagonale di Hw ;

dove Li è il contributo dato alla log-ver. dalla i-esima osservazione

Potrebbero piacerti anche