Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
3
Obiettivi
4
Obiettivi
Y = (x ) +
Un modello di regressione lineare sarebbe del tutto inappropriato a questo
scopo. Una funzione lineare di X, essendo non limitata (né inferiormente, né
superiormente), potrebbe dare luogo a valori stimati di (x) esterni 7
all’intervallo [0,1], e quindi privi di senso.
Definizione di Odds
Odds condizionato
P(Y = 1 | x ) ( x)
=
P(Y = 0 | x ) 1 − (x)
Il rapporto tra la probabilità di un evento e la probabilità del suo complementare
(dato x).
Esempio: Y=affidabilità, con Y=1 cliente affidabile, Y=0 cliente insolvente;
X=occupazione, dove una delle modalità è x= lavoratore non specializzato. Tra i
lavoratori non specializzati, il 72% è affidabile mentre il 28% è insolvente.
Qual è il rapporto tra probabilità di solvenza e quello di insolvenza?
0,72/0,28 = 2,57
Tra i lavoratori non specializzati, la probabilità di solvenza è circa 2,6 volte quella
di insolvenza.
p( y x ) = (x ) 1 − (x )
y (1− y )
( )
È una probabilità, quindi
con E Y x = ( x )
compresa tra 0 e 1
V (Y x ) = ( x )1 − ( x )
e
13
Alcune differenze con il
modello lineare
Modello di Modello di
regressione regressione
lineare logistica
Distribuzione della Normale Bernoulliana
variabile dipendente (di
risposta) Y
0 , 5+ x1 + 2 x2
(x ) =
0.8
0.6
e
0 , 5+ x1 + 2 x2
1+ e
0.4
0.2
2
3
2
0 1
0
-2 -1
-2
X2 -3
X1 19
Il modello logistico
p
logit ( ( x ) ) = 0 + j x j
j =1
in termini di logit: (x )
g (x ) = ln = 0 + 1 x
1 − (x )
n
= yi ( 0 + 1 xi ) + ln
1
0 + 1 xi =
i =1 1 + e
( )
n
= yi ( 0 + 1 xi ) − ln 1 + e 0 + 1xi 22
i =1
Stima dei parametri
Calcolando le derivate parziali della funzione di log-verosimiglianza rispetto ai
parametri 0 e 1, e ponendole uguali a 0, si ricava il sistema delle equazioni
di verosimiglianza:
n e 0 + 1xi n
yi − 0 + 1 xi
=0
yi − ( xi ) = 0
i =1 1+ e
i =1
n 0 + 1 xi n
e xi yi − (xi ) = 0
y x −
i =1 i i
1+ e
x =0
0 + 1 xi i i =1
Le equazioni ottenute non sono lineari nelle incognite quindi la loro soluzione
non è esplicita, ma richiede l’impiego di metodi numerici iterativi
comunemente implementati nei software di analisi statistica dei dati (es.
Newton-Raphson).
La soluzione del sistema restituisce le stime di massima verosimiglianza23b0 e
b1 dei parametri.
Stima dei parametri
ˆ (x i ) =
e 0 1 1i 2 2 i p pi
b + b x + b x +...+ b p x pi
1 + e 0 1 1i 2 2 i
L’OR è uguale a
e 0 + 1 e 0
(1) (0) 1 + e 0 + 1
1 + e 0 = e 0 + 1 e 0 = e 1
OR = =
1 − (1) 1 − (0) 1 1
1 + e 0 + 1 1 + e 0
Quindi exp(b1) è una stima dell’OR tra Y e X. Inoltre, applicando ad entrambi i termini
dell’uguaglianza la trasformata logaritmica, si ha
(1) (0) (1) (0)
1 = ln = ln − ln = logit ( (1)) − logit ( (0)) = g (1) − g (0)
1 − (1) 1 − (0) 1 − (1) 1 − (0)
25
Ovvero, 1 misura la variazione nel logit dovuta al possesso dell’attributo descritto da X.
Variabile indipendente categorica con più
di due modalità
Sia X una variabile categorica a K modalità (ordinate o non). La variabile X può
essere introdotta nel modello attraverso K-1 variabili dummy D1,…,DK-1.
Se nel calcolo degli OR il gruppo delle unità portatrici della modalità corrispondente
all’annullamento di tutte le dummy (ipotizziamo che sia K) viene preso come
“gruppo di riferimento”, la codifica garantisce che il logaritmo dell’OR del gruppo
delle unità che portano la k-esima modalità di X rispetto al gruppo di riferimento K è
(per k=1, …, K-1):
odds per X = modalità k - esima
ln =
odds per X = modalità di riferimento K
= ln (odds per X = modalità k - esima ) − ln (odds per X = modalità di riferimento K ) =
= g (D1 = 0, ..., Dk = 1, ..., DK −1 = 0 ) − g (D1 = 0, ..., Dk = 0, ..., DK −1 = 0) =
= 0 + 1 0 + ... + k 1 + ... + K −1 0 − ( 0 + 1 0 + ... + k 0 + ... + K −1 0) = k
1
e
Se, ai fini interpretativi, è più interessante considerare un incremento di c unità
(c1) piuttosto che un incremento unitario di X, allora il logaritmo dell’OR
corrispondente è uguale a
odds per X = x + c
ln = 0 + 1 (x + c ) − ( 0 + 1 x ) = c1
odds per X = x
27
e quindi l’OR per un incremento di X pari a c unità vale
e c1
Caso di studio: dati bancari tedeschi
German Credit Data
Covariate rilevate
Stime dei parametri: b0=0,968 (0,000), b1= -0,605 (0,001), b2= -0,581 (0,059).
’OR del gruppo “1” rispetto a quello di riferimento e-0,605=0,546 → avere debiti in
altre banche sfavorisce l’affidabilità rispetto a non avere ulteriori debiti.
Secondo il modello stimato, quanto vale la probabilità di essere un cliente
affidabile nel caso in cui non si abbiano ulteriori debiti?
e 0,968−0,6050−0,5810
(0,0) = = 0,72 31
1 + e 0,968−0,6050−0,5810
Example
Example
P- Odds 95% CI
Predictor Coef St.err Wald value Ratio Lower Upper
For age=55
e −1.2985−0.0034*55
yˆ = −1.2985− 0.0034*55
= 0.1845
1+ e
Example
Example
Example
Bj
W=
Vˆ (B j )
• Bj è lo stimatore ML per βj
• La stima della matrice di varianza e covarianza si ottiene invertendo la
matrice di informazione attesa di Fisher.
• Si dimostra che, asintoticamente, sotto l’ipotesi nulla la statistica test è
normalmente distribuita: W|H0 N(0,1). 39
Verifica di ipotesi sui coefficienti di
regressione
• Equivalentemente, si può testare l’ipotesi H0: βj=0 utilizzando la statistica-test
detta “test del rapporto di verosimiglianza” (likelihood ratio test - LRT)
41
Misure sintetiche della bontà di
adattamento
• Danno un’indicazione dell’adattamento globale del modello sul
complesso delle unità statistiche osservate: valori “grandi”
segnalano una bassa qualità del modello, ma valori “piccoli” non
escludono la possibilità che per qualche unità si verifichi un
adattamento particolarmente scarso.
e gˆ ( xk )
yˆ k = nk ˆ (x k ) = nk
1 + e gˆ ( xk )
Poiché ognuno dei J valori yk corrisponde a una numerosità differente nk e ad
una differente probabilità di successo ˆ (x k ) = ˆ k , i residui yk − yˆ k sono difficili da
interpretare.
43
Misure sintetiche della bontà di
adattamento
La confrontabilità può essere ottenuta dividendo ciascun residuo per il
corrispondente scarto quadratico medio, ottenendo il residuo di Pearson.
Tale residuo per il generico covariate pattern xk è così definito:
y k − nk ˆ k
r ( y k , ˆ k ) =
nk ˆ k (1 − ˆ k )
I residui di Pearson hanno approssimativamente media 0 e deviazione standard 1.
Il corrispondente residuo di deviance si definisce invece come segue:
1
yk nk − yk
2
2 = r ( y k , ˆ k )2
k
• Se si adoperano i residui di deviance, la somma dei loro quadrati è la
deviance:
D = d ( y k , ˆ k )
2
k
• La distribuzione asintotica di queste due statistiche nell’universo dei campioni
nell’ipotesi che il modello adattato rappresenti adeguatamente i dati è quella di
2
un Chi-quadrato ( J −( p +1))
• Valori “piccoli” della statistica indicano un buon adattamento, mentre valori
grandi suggeriscono che il divario tra l’osservato e l’atteso non è da attribuire al
solo errore di campionamento. Quindi se il valore calcolato della statistica-test
non è significativo, ovvero il corrispondente p-value è maggiore di un livello
prefissato, l’ipotesi nulla di adeguatezza del modello non viene rifiutata. 45
• Se i dati sono sparsi (frequenze attese <5 ) la distribuzione Chi-quadrato non è
più valida.
Test di Hosmer e Lemeshow
• Nel caso in cui almeno una delle covariate sia continua, il numero dei
covariate pattern cresce con la numerosità del campione e le misure di
adattamento quali la deviance e il test di Pearson non seguono più una
distribuzione Chi-quadrato.
• Lo stesso problema si ha con dati sparsi (frequenze attese <5).
• In questi casi, è preferibile usare il test di Hosmer e Lemeshow che, una volta
suddivise le osservazioni in un certo numero di gruppi (di norma, 10) sulla base
della probabilità stimata del verificarsi o meno dell’evento successo, procede al
confronto tra le frequenze di successo osservate e attese (stimate dal modello)
nei vari gruppi.
• L’ipotesi nulla sottoposta a verifica è che il modello si adatti bene ai dati.
• La statistica test si distribuisce come una Chi-quadrato con un numero di gradi
di libertà pari al numero di gruppi - 2 (di norma, quindi, 10-2=8).
46
Scelta automatica dei regressori
Analogamente al modello di regressione lineare, è possibile utilizzare le
tecniche automatiche per la scelta dei regressori da introdurre nel modello.
Per valutare se il contributo apportato da una covariata è significativo, quindi se
la covariata può essere introdotta o rimossa, si possono utilizzare il test del
rapporto di verosimiglianza o il test di Wald (o una loro combinazione).
o Forward: si parte dal modello con la sola intercetta e, ad ogni passo, viene
aggiunta la covariata corrispondente al coefficiente di regressione con il più
piccolo p-value. Criteri di arresto: non ci sono parametri significativi oppure
tutte le covariate sono state inserite. Una volta inserita una covariata non
può più essere rimossa.
o Backward: si parte dal modello saturo che contiene tutte le covariate e, ad
ogni passo, viene rimossa la covariata corrispondente al coefficiente di
regressione con il più alto p-value. Criteri di arresto: tutti i parametri sono
significativi oppure tutte le covariate sono state rimosse. Una volta rimossa
una covariata non può più essere inserita.
o Stepwise: segue la procedura forward in cui, ad ogni aggiunta di una nuova
covariata, viene valutata la rimozione delle covariate presenti. Criterio di
arresto: non sono soddisfatti né i criteri per l’inserimento né quelli per la 47
rimozione di covariate.