Sei sulla pagina 1di 47

Il modello di regressione logistica*

Prof.ssa Stefania Mignani

* Materiale in collaborazione con la prof.ssa Mariagiulia Matteucci


Modello di regressione logistica
• Descrive la relazione di dipendenza del possesso di una certa
caratteristica definita da una variabile dicotomica Y=0,1 da una o
più variabili indipendenti X1,X2,…,Xp di natura qualsiasi (cioè,
indifferentemente, quantitative o qualitative).

Alcuni esempi di caratteristiche / attributi dicotomici:


• per un soggetto che ha ottenuto un prestito, la restituzione/non-
restituzione del prestito,
• per un’azienda che ha chiesto un finanziamento, il
fallimento/sopravvivenza dopo un dato periodo di tempo,
• per un cliente, il riscontro positivo/negativo ad un’offerta
promozionale,
• per un paziente sotto osservazione, la presenza/assenza di2una
data malattia.
Modello di regressione logistica

• Si presuppone l’esistenza di una relazione tra la probabilità di


un’unità di possedere l’attributo (es. essere un cliente he
restistuisce regolarmente il prestito) e una serie di grandezze
osservabili.
• Si ipotizza che le unità siano tratte casualmente da un unico
universo.
• Si cerca di stimare una caratteristica specifica di tali unità: la
probabilità di possedere l’attributo (es. probabilità di restituire il
prestito, probabilità di essere sano), date le covariate.
• Analogamente è possibile studiare la relazione tra la probabilità di
non possedere l’attributo e le covariate.

3
Obiettivi

1) Individuare tra le variabili indipendenti quelle a maggiore potere


esplicativo, che vanno quindi interpretate come determinanti del
possesso o meno dell’attributo: a seconda che siano associate
positivamente o negativamente con il fenomeno studiato possono
essere considerate rispettivamente come fattori di rischio o come
fattori di protezione (da interpretazione in ambito medico, se
successo=sopravvivenza ad malattia).

4
Obiettivi

1) Ricercare la combinazione lineare delle variabili indipendenti che


meglio discrimina fra il gruppo delle unità che possiedono
l’attributo e quello delle unità che non lo possiedono.

1) Stimare la probabilità del possesso dell’attributo per una nuova


unità statistica su cui è stato osservato il vettore di variabili X e,
fissato per tale probabilità un valore soglia, classificare l’unità alla
categoria delle unità che possiedono l’attributo o a quello delle
unità che non lo possiedono. 5
Esempio
Specificazione del modello
• Modello di regressione per la variabile risposta Y, dove Y dicotomica a
valori 0 e 1, corrispondenti rispettivamente all’assenza e alla presenza
dell’attributo.

• Il modello di regressione per Y è dunque:

Y =  (x ) + 
Un modello di regressione lineare sarebbe del tutto inappropriato a questo
scopo. Una funzione lineare di X, essendo non limitata (né inferiormente, né
superiormente), potrebbe dare luogo a valori stimati di (x) esterni 7
all’intervallo [0,1], e quindi privi di senso.
Definizione di Odds
Odds condizionato

P(Y = 1 | x )  ( x)
=
P(Y = 0 | x ) 1 −  (x)
Il rapporto tra la probabilità di un evento e la probabilità del suo complementare
(dato x).
Esempio: Y=affidabilità, con Y=1 cliente affidabile, Y=0 cliente insolvente;
X=occupazione, dove una delle modalità è x= lavoratore non specializzato. Tra i
lavoratori non specializzati, il 72% è affidabile mentre il 28% è insolvente.
Qual è il rapporto tra probabilità di solvenza e quello di insolvenza?
0,72/0,28 = 2,57
Tra i lavoratori non specializzati, la probabilità di solvenza è circa 2,6 volte quella
di insolvenza.

Odds >1 più favorevole l’evento affidabile


0 <= Odds < 1 più favorevole l’evento insolvente 9
Odds = 1 eventi ugualmente probabili
Odds ratio (OR)
P(Y = 1 | X = 1)  (1)
P(Y = 0 | X = 1) 1 −  (1)
OR(Y , X ) = =
P(Y = 1 | X = 0)  (0)
P(Y = 0 | X = 0) 1 −  (0)
Y = affidabilità, con Y=1 cliente affidabile, Y=0 cliente insolvente
X = tipo di contratto di lavoro, con X=1 a tempo indeterminato, X=0 a
tempo determinato
Tra i lavoratori a tempo determinato, il 69% è affidabile e il 31% è
insolvente. Tra i lavoratori a tempo indeterminato, l’89% è affidabile e
l’11% è insolvente.
o Quanto essere un lavoratore a tempo indeterminato (rispetto ad esserlo
a tempo determinato) favorisce l’essere un cliente affidabile (rispetto a
non esserlo)?
10
Interpretazione OR

• OR =1, i due odds sono uguali, cioè il fattore “essere un lavoratore a


tempo indeterminato” è ininfluente sull’affidabilità del cliente
• OR >1, il fattore “essere un lavoratore a tempo indeterminato” favorisce
l’affidabilità del cliente
• 0 <= OR <1 il fattore “essere un lavoratore a tempo indeterminato”
sfavorisce l’affidabilità del cliente

Altro esempio: Y=Diabete X=obesità entrambe dicotomiche (Sì-No)


OR >1 essere obesi favorisce il diabete → fattore di rischio
0 <= OR< 1 essere obesi protegge contro il diabete → fattore di protezione
OR =1 l’obesità non influenza il diabete (diabete e obesità sono
indipendenti)
11
Assunzioni

Nel modello di regressione lineare l’errore si distribuisce normalmente, con


media nulla e varianza costante. Questa assunzione non è valida quando Y
è una variabile dicotomica.
Y =  (x ) + 
Nel modello logistico si ha: Y=1 con probabilità (x)
Y=0 con probabilità 1-(x)

L’errore può assumere quindi solo 2 valori:


 1 −  (x ) se Y = 1 con probabilità  (x )

 = Y −  (x ) = 
−  (x ) se Y = 0 con probabilità 1 −  (x )

E ( ) = 1 −  (x ) (x ) −  (x )1 −  (x ) = 0
V ( ) = 1 −  (x )  (x ) +  (x ) 1 −  (x ) =  (x )1 −  (x )
Valore atteso: 2 2
12
Varianza:
Non vale l’omoschedasticità
Assunzioni

La variabile aleatoria Y|x segue la distribuzione di Bernoulli:


Y|x ~Ber((x))

p( y x ) =  (x ) 1 −  (x )
y (1− y )

( )
È una probabilità, quindi
con E Y x =  ( x )
compresa tra 0 e 1

V (Y x ) =  ( x )1 −  ( x )
e

13
Alcune differenze con il
modello lineare

Modello di Modello di
regressione regressione
lineare logistica
Distribuzione della Normale Bernoulliana
variabile dipendente (di
risposta) Y

Campo di variazione della -∞, +∞ 0-1


Y e delle stime per Y
Interpretazione dei valori Stima del Stima della
stimati per Y valore di Y probabilità che Y sia
previsto date le pari ad 1 date le
variabili variabili esplicative
esplicative X=x X=x
14
Il modello di regression semplice
16
17
Il modello di regressione multipla
Grafico del modello

Caso due variabili esplicative X1 e X2 continue

Grafico della funzione con


β0=0,5 , β1=1, β2=2

0 , 5+ x1 + 2 x2
 (x ) =
0.8

0.6
e
0 , 5+ x1 + 2 x2
1+ e

0.4

0.2

2
3
2
0 1
0
-2 -1
-2
X2 -3
X1 19
Il modello logistico

Si applica una trasformazione a (x) in modo da avere campo di


variazione da -∞ a + ∞. Si consideri la seguente funzione di (x), detta
logit
  ( x) 
logit ( ( x ) ) = ln  
1 −  ( x ) 

che è il logaritmo naturale del rapporto della probabilità condizionata di


possedere l’attributo alla probabilità condizionata di non possederlo.
Il modello logistico si definisce nel modo seguente:

p
logit ( ( x ) ) =  0 +   j x j
j =1

Il logit è dunque una funzione lineare delle X1,X2,…,Xp.


20
Stima dei parametri

Poiché non vale l’omoschedasticità dei residui non è possibile adottare il


metodo di stima dei minimi quadrati. Il metodo più utilizzato è quello della
massima verosimiglianza.
Consideriamo, per semplicità il modello semplice (con una sola variabile
e 0 + 1x
 (x ) =
indipendente X):
1 + e 0 + 1x

in termini di logit:   (x ) 
g (x ) = ln   =  0 + 1 x
1 −  (x )

Ricordando l’ipotesi di indipendenza reciproca delle variabili campionarie


Y1,Y2,…,Yn, la funzione di verosimiglianza del campione osservato
y1,y2,…,yn si scrive:
L( 0 , 1 ) =  p ( yi xi ) =  ( xi ) i 1 −  ( xi )
n n
y (1− yi )
i =1 i =1 21
Stima dei parametri

Si ricava la funzione di log-verosimiglianza:


n
l ( 0 , 1 ) =  yi ln (xi ) + (1 − yi ) ln1 −  (xi ) =
i =1
n    (xi )  
=   yi ln   + ln1 −  (xi ) =
i =1  1 −  (xi ) 
n  e  0 + 1xi 
=   yi ( 0 + 1 xi ) + ln1 −  0 + 1 xi
 =
i =1   1 + e 

 n
 
=   yi ( 0 + 1 xi ) + ln
1
 0 + 1 xi  =
i =1   1 + e 

 ( )
n
=  yi ( 0 + 1 xi ) − ln 1 + e  0 + 1xi 22
i =1
Stima dei parametri
Calcolando le derivate parziali della funzione di log-verosimiglianza rispetto ai
parametri 0 e 1, e ponendole uguali a 0, si ricava il sistema delle equazioni
di verosimiglianza:

n  e  0 + 1xi  n
  yi −  0 + 1 xi 
=0
  yi −  ( xi ) = 0
 i =1  1+ e 
  i =1
 
n  0 + 1 xi n
 e   xi  yi −  (xi ) = 0

 y x −

 i =1  i i
1+ e
x =0
 0 + 1 xi i   i =1

Le equazioni ottenute non sono lineari nelle incognite quindi la loro soluzione
non è esplicita, ma richiede l’impiego di metodi numerici iterativi
comunemente implementati nei software di analisi statistica dei dati (es.
Newton-Raphson).
La soluzione del sistema restituisce le stime di massima verosimiglianza23b0 e
b1 dei parametri.
Stima dei parametri

Gli stimatori di massima verosimiglianza godono della proprietà di


equivarianza rispetto a trasformazioni funzionali differenziabili.
Date le stime di massima verosimiglianza b0 e b1, la stima di (xi) risulta
quindi:
e b0 +b1xi
ˆ (xi ) =
1 + e b0 +b1xi

e rappresenta il valore della probabilità per Y=1 stimato dal modello di


regressione logistica in corrispondenza di X=xi.

I risultati si possono estendere al modello multiplo:


b + b x + b x +...+ b x

ˆ (x i ) =
e 0 1 1i 2 2 i p pi

b + b x + b x +...+ b p x pi
1 + e 0 1 1i 2 2 i

Asintoticamente, sotto condizioni non particolarmente restrittive, gli


24
stimatori di massima verosimiglianza sono corretti, normodistribuiti ed
efficienti.
Variabile indipendente dicotomica
X indica l’assenza o la presenza di un dato attributo, assumendo rispettivamente i valori
0 e 1. Gli odds di Y condizionati ad X saranno due:
P(Y = 1 | X = 1)  (1)
P(Y = 1 | X = 0)  (0) =
= 1 − P(Y = 1 | X = 1) 1 −  (1)
1 − P(Y = 1 | X = 0) 1 −  (0)

L’OR è uguale a
e  0 + 1 e 0
 (1)  (0) 1 + e  0 + 1
1 + e  0 = e  0 + 1 e  0 = e 1
OR = =
1 −  (1) 1 −  (0) 1 1
1 + e  0 + 1 1 + e 0
Quindi exp(b1) è una stima dell’OR tra Y e X. Inoltre, applicando ad entrambi i termini
dell’uguaglianza la trasformata logaritmica, si ha
  (1)  (0)    (1)    (0) 
1 = ln   = ln   − ln   = logit ( (1)) − logit ( (0)) = g (1) − g (0)
1 −  (1) 1 −  (0) 1 −  (1) 1 −  (0)
25
Ovvero, 1 misura la variazione nel logit dovuta al possesso dell’attributo descritto da X.
Variabile indipendente categorica con più
di due modalità
Sia X una variabile categorica a K modalità (ordinate o non). La variabile X può
essere introdotta nel modello attraverso K-1 variabili dummy D1,…,DK-1.
Se nel calcolo degli OR il gruppo delle unità portatrici della modalità corrispondente
all’annullamento di tutte le dummy (ipotizziamo che sia K) viene preso come
“gruppo di riferimento”, la codifica garantisce che il logaritmo dell’OR del gruppo
delle unità che portano la k-esima modalità di X rispetto al gruppo di riferimento K è
(per k=1, …, K-1):
 odds per X = modalità k - esima 
ln  =
 odds per X = modalità di riferimento K 
= ln (odds per X = modalità k - esima ) − ln (odds per X = modalità di riferimento K ) =
= g (D1 = 0, ..., Dk = 1, ..., DK −1 = 0 ) − g (D1 = 0, ..., Dk = 0, ..., DK −1 = 0) =
=  0 + 1  0 + ... +  k 1 + ... +  K −1  0 − ( 0 + 1  0 + ... +  k  0 + ... +  K −1  0) =  k

Quindi, l’OR di questo gruppo rispetto al gruppo di riferimento è uguale a:


26
k
e
Variabile indipendente quantitativa
Per X quantitativa, espressa in una data unità di misura, si ha che
 odds per X = x + 1 
ln  = ln (odds per X = x + 1) − ln (odds per X = x ) =
 odds per X = x 
= g (x + 1) − g (x ) =  0 + 1 (x + 1) − ( 0 + 1 x ) = 1

quindi l’OR corrispondente ad un incremento unitario di X è uguale a:

1
e
Se, ai fini interpretativi, è più interessante considerare un incremento di c unità
(c1) piuttosto che un incremento unitario di X, allora il logaritmo dell’OR
corrispondente è uguale a

 odds per X = x + c 
ln  =  0 + 1 (x + c ) − ( 0 + 1 x ) = c1
 odds per X = x 
27
e quindi l’OR per un incremento di X pari a c unità vale
e c1
Caso di studio: dati bancari tedeschi
German Credit Data

Nell’ambito delle applicazioni creditizie, le banche sono interessate a capire


se un cliente sarà in grado di restituire un prestito o meno. L’obiettivo di
questo caso di studio è di modellare o prevedere la probabilità che un cliente
(caratterizzato da un certo insieme di valori osservati per le covariate) sia
considerato insolvente (quindi un potenziale rischio per la banca).

• Dati su 1000 clienti di una banca tedesca.


• variabile «affidabilità» binaria (1=il cliente ha restituito il prestito, si dice
quindi «credit-worthy»; 0= il cliente non ha restituito il prestito,
• L’insieme di dati è costituito da un 70% di clienti «good» e un 30% di
clienti «bad». In generale, i clienti non affidabili, quindi a rischio, sono
quelli insolventi dopo oltre 90 giorni dalla data del pagamento, mentre i
clienti a basso rischio sono quelli che non hanno mancato neppure un
pagamento. 28
• Si rilevano inoltre 20 covariate.
Caso di studio: dati bancari tedeschi

Covariate rilevate

 Informazioni personali di base: età, sesso, telefono, lavoratore


straniero
 Informazioni familiari: stato civile, numero di persone a carico
 Informazioni residenziali: anni trascorsi presso l’indirizzo attuale, tipo
di appartamento
 Condizione lavorativa: anni d’impiego, occupazione
 Condizione finanziaria: maggiori investimenti registrati, ulteriori prestiti
in corso, stato del conto corrente, numero di prestiti correnti presso la
banca
 Informazioni di sicurezza: valore dei risparmi o degli investimenti
 Altro: scopo del prestito, ammontare del prestito in Deutsche Marks
(DM)
29
Caso 1: covariata dicotomica

covariata dicotomica X=foreign_worker (1=lavoratore straniero; 0=lavoratore non


straniero).
Stime dei parametri: b0=2,110 (0,000) e b1= -1,298 (0,015) con p-value in
parentesi.
e 2,110−1, 298 x
 (x ) =
1 + e 2,110−1, 298 x
OR= e-1,298=0,273 → essere un lavoratore straniero sfavorisce l’essere un cliente
affidabile. Si stima che, per un lavoratore straniero, la probabilità di essere
affidabile rispetto a non esserlo sia circa 0,27 volte quella di un lavoratore non
straniero.
Secondo il modello stimato, quanto vale la probabilità di essere un cliente
affidabile per un lavoratore straniero? E per un lavoratore non straniero?

e 2,110−1, 2981 e 2,110−1, 2980


 (1) = = 0,69  (0) = 2 ,110 −1, 2980
= 0,89
1+ e 2 ,110 −1, 2981
1+ e 30
Caso 2: covariata categorica
con 3 modalità
Covariata X=further_credits (ulteriori prestiti in corso con modalità 1=sì, in altre
banche; 2=sì, per acquisti in grandi magazzini o altro; 3=nessun altro prestito in
corso).
Si prende la categoria “X=3” (nessun altro prestito in corso) a riferimento, quindi si
avranno due variabili dummy: X1=1 se il cliente ha ulteriori prestiti con banche
(X1=0 altrimenti), X2=1 se il cliente ha ulteriori prestiti per acquisti (X2=0 altrimenti).
e  0 + 1x1 +  2 x2
 (x ) =
1 + e  0 + 1x1 +  2 x2

Stime dei parametri: b0=0,968 (0,000), b1= -0,605 (0,001), b2= -0,581 (0,059).
’OR del gruppo “1” rispetto a quello di riferimento e-0,605=0,546 → avere debiti in
altre banche sfavorisce l’affidabilità rispetto a non avere ulteriori debiti.
Secondo il modello stimato, quanto vale la probabilità di essere un cliente
affidabile nel caso in cui non si abbiano ulteriori debiti?
e 0,968−0,6050−0,5810
 (0,0) = = 0,72 31
1 + e 0,968−0,6050−0,5810
Example
Example

P- Odds 95% CI
Predictor Coef St.err Wald value Ratio Lower Upper

Intercept -1,2985 0.1249 108.13 0.000


Age -0.0034 0.0022 2.49 0.008 0.997 0.992 1.001

The coefficient is negative, so an increase of age induce a decrease


equal to -0.0034 in the logit trasformation of π
Example

Estimated Logistic Regression Equation


−1, 2985 − 0.0034 x1
e
yˆ = −1, 2985 − 0.0034 x1
1+ e
For age=25
e −1.2985−0.0034*25
yˆ = −1.2985− 0.0034*25
= 0.2004
1+ e

For age=55
e −1.2985−0.0034*55
yˆ = −1.2985− 0.0034*55
= 0.1845
1+ e
Example
Example
Example

estimates St.error Wald P-value

Odds ratio CI lower CI upper


Example
Verifica di ipotesi sui coefficienti di regressione
• Le proprietà degli stimatori di massima verosimiglianza (ML) dei parametri
visti in precedenza permettono di costruire opportune statistiche-test per il
controllo di ipotesi sui parametri e di costruire intervalli di confidenza per i
parametri incogniti.
• Per valutare la significatività di un singolo coefficiente di regressione, si può
testare l’ipotesi nulla H0: βj=0, con j=1,…,p, attraverso il test di Wald

Bj
W=
Vˆ (B j )

• Bj è lo stimatore ML per βj
• La stima della matrice di varianza e covarianza si ottiene invertendo la
matrice di informazione attesa di Fisher.
• Si dimostra che, asintoticamente, sotto l’ipotesi nulla la statistica test è
normalmente distribuita: W|H0  N(0,1). 39
Verifica di ipotesi sui coefficienti di
regressione
• Equivalentemente, si può testare l’ipotesi H0: βj=0 utilizzando la statistica-test
detta “test del rapporto di verosimiglianza” (likelihood ratio test - LRT)

 verosimiglianza del modello senza la variabile j 


G = −2 ln  
 verosimiglianza del modello con la variabile j 
• Sotto l’ipotesi nulla H0: βj=0 che l’inserimento della variabile Xj nel modello non
apporti un contributo significativo, nell’universo dei campioni la variabile
campionaria G si distribuisce asintoticamente come una variabile aleatoria
Chi-quadrato Χ2(1)
• Dal punto di vista pratico, G si calcola facendo la differenza tra la -2lnL del
modello senza la variabile j e la -2lnL del modello con la variabile j.
• N.B. I gradi di libertà sono pari alla differenza tra il numero di parametri dei due
modelli (ossia 1). Nel caso in cui la variabile sotto esame sia categorica con K
modalità, il numero dei gradi di libertà sarà invece pari a K-1.
• Questo test si utilizza per confrontare modelli annidati.
40
La bontà di adattamento

• Vogliamo valutare quanto il modello adattato sia efficace nel


descrivere la variabile dipendente Y, ovvero valutare la bontà di
adattamento (goodness of fit).

• Un modello è adeguato a descrivere il fenomeno in esame se la


differenza tra valori osservati e valori stimati è trascurabile.

• Occorre quindi definire indici che misurino la differenza tra i valori


osservati e teorici per:
1. valutare la bontà del modello nel suo complesso;
2. verificare la differenza tra due modelli comparabili.

41
Misure sintetiche della bontà di
adattamento
• Danno un’indicazione dell’adattamento globale del modello sul
complesso delle unità statistiche osservate: valori “grandi”
segnalano una bassa qualità del modello, ma valori “piccoli” non
escludono la possibilità che per qualche unità si verifichi un
adattamento particolarmente scarso.

• Per misurare la divergenza tra il valore osservato per la variabile


risposta e il corrispondente valore stimato dal modello, si parte dalla
definizione dei residui.

• In particolare, i residui più comunemente impiegati sono:


➢ il residuo di Pearson
➢ il residuo di deviance
42
Misure sintetiche della bontà di
adattamento
o Sia J il numero di combinazioni diverse di valori delle variabili indipendenti
(covariate pattern) osservate nelle n unità statistiche (con J<n), che
corrisponde al numero di logit stimati dal modello di regressione logistica.
o Sia nk il numero di unità statistiche che portano una generica combinazione
di valori xk, k=1,…, J.
o Siano yk e ŷk rispettivamente il numero osservato e il numero stimato di unità
statistiche per cui Y=1 in corrispondenza del suddetto covariate pattern xk,
dove le frequenze stimate ŷk si ottengono come:

e gˆ ( xk )
yˆ k = nk ˆ (x k ) = nk
1 + e gˆ ( xk )
Poiché ognuno dei J valori yk corrisponde a una numerosità differente nk e ad
una differente probabilità di successo ˆ (x k ) = ˆ k , i residui yk − yˆ k sono difficili da
interpretare.
43
Misure sintetiche della bontà di
adattamento
La confrontabilità può essere ottenuta dividendo ciascun residuo per il
corrispondente scarto quadratico medio, ottenendo il residuo di Pearson.
Tale residuo per il generico covariate pattern xk è così definito:

y k − nk ˆ k
r ( y k , ˆ k ) =
nk ˆ k (1 − ˆ k )
I residui di Pearson hanno approssimativamente media 0 e deviazione standard 1.
Il corrispondente residuo di deviance si definisce invece come segue:
1

   yk   nk − yk  
2

d ( yk , ˆ k ) = 2 yk ln  + (nk − yk ) ln  


  ˆ
 k k
n  k
n (1 − ˆ )
k   
dove il segno è quello di yk − yˆ k . I residui di deviance, se il modello è buono, si
distribuiscono approssimativamente come una normale. Entrambi i residui
possono dunque essere usati per la diagnostica.
44
Misure sintetiche della bontà di
adattamento
• Le misure sintetiche di adattamento globale che si basano su questi due tipi di
residui sono costruiti come somma dei quadrati dei residui.
• Nel caso dei residui di Pearson si ha la statistica Chi-quadrato di Pearson:

 2 =  r ( y k , ˆ k )2
k
• Se si adoperano i residui di deviance, la somma dei loro quadrati è la
deviance:
D =  d ( y k , ˆ k )
2

k
• La distribuzione asintotica di queste due statistiche nell’universo dei campioni
nell’ipotesi che il modello adattato rappresenti adeguatamente i dati è quella di
 2
un Chi-quadrato ( J −( p +1))
• Valori “piccoli” della statistica indicano un buon adattamento, mentre valori
grandi suggeriscono che il divario tra l’osservato e l’atteso non è da attribuire al
solo errore di campionamento. Quindi se il valore calcolato della statistica-test
non è significativo, ovvero il corrispondente p-value è maggiore di un livello 
prefissato, l’ipotesi nulla di adeguatezza del modello non viene rifiutata. 45
• Se i dati sono sparsi (frequenze attese <5 ) la distribuzione Chi-quadrato non è
più valida.
Test di Hosmer e Lemeshow

• Nel caso in cui almeno una delle covariate sia continua, il numero dei
covariate pattern cresce con la numerosità del campione e le misure di
adattamento quali la deviance e il test di Pearson non seguono più una
distribuzione Chi-quadrato.
• Lo stesso problema si ha con dati sparsi (frequenze attese <5).
• In questi casi, è preferibile usare il test di Hosmer e Lemeshow che, una volta
suddivise le osservazioni in un certo numero di gruppi (di norma, 10) sulla base
della probabilità stimata del verificarsi o meno dell’evento successo, procede al
confronto tra le frequenze di successo osservate e attese (stimate dal modello)
nei vari gruppi.
• L’ipotesi nulla sottoposta a verifica è che il modello si adatti bene ai dati.
• La statistica test si distribuisce come una Chi-quadrato con un numero di gradi
di libertà pari al numero di gruppi - 2 (di norma, quindi, 10-2=8).

46
Scelta automatica dei regressori
Analogamente al modello di regressione lineare, è possibile utilizzare le
tecniche automatiche per la scelta dei regressori da introdurre nel modello.
Per valutare se il contributo apportato da una covariata è significativo, quindi se
la covariata può essere introdotta o rimossa, si possono utilizzare il test del
rapporto di verosimiglianza o il test di Wald (o una loro combinazione).
o Forward: si parte dal modello con la sola intercetta e, ad ogni passo, viene
aggiunta la covariata corrispondente al coefficiente di regressione con il più
piccolo p-value. Criteri di arresto: non ci sono parametri significativi oppure
tutte le covariate sono state inserite. Una volta inserita una covariata non
può più essere rimossa.
o Backward: si parte dal modello saturo che contiene tutte le covariate e, ad
ogni passo, viene rimossa la covariata corrispondente al coefficiente di
regressione con il più alto p-value. Criteri di arresto: tutti i parametri sono
significativi oppure tutte le covariate sono state rimosse. Una volta rimossa
una covariata non può più essere inserita.
o Stepwise: segue la procedura forward in cui, ad ogni aggiunta di una nuova
covariata, viene valutata la rimozione delle covariate presenti. Criterio di
arresto: non sono soddisfatti né i criteri per l’inserimento né quelli per la 47
rimozione di covariate.

Potrebbero piacerti anche