Sei sulla pagina 1di 6

Il modello logistico.

Il modello lineare classico


i i i
e y + = , dove
ki k i i
x b x b b + + + = ...
1 1 0
e gli errori
i
e sono
indipendenti e distribuiti secondo una normale come media 0 e varianza
2
, si applica a variabili
casuali
i
Y distribuite anchesse in modo normale con media
i
e varianza
2
.
Spesso tuttavia la variabile di interesse non rappresenta una misura, ma piuttosto una probabilit
(
i
p ) e la semplice estensione del modello precedente
ki k i i
x b x b b p + + + = ...
1 1 0
comporta, tra
laltro, il rischio che per alcuni valori delle covariate i valori previsti siano fuori dallintervallo
[ ] 1 , 0 .
Una semplice trasformazione come il logaritmo non risolve il problema, in quanto lintervallo
diventa ( ] 0 , (escludendo il valore 0).


Per poter trattare le probabilit impiegando le
tecniche della regressione lineare occorre
innanzitutto introdurre il concetto di odds:
p
p

1
odds . Questo il modo in cui la
probabilit trattata nelle scommesse. Si tratta di
una trasformazione monotona che mappa
lintervallo [ ] 1 , 0 sullintervallo [ ] + , 0 . Se si
conosce il valore dellodds, si pu trovare la
probabilit corrispondente mediante la formula
odds 1
odds
+
= p . Se 5 . 0 = p allora 1 odds = .


possibile ora definire la trasformazione
cercata; si tratta della trasformazione logit,
ovvero del logaritmo naturale dellodds:
|
|

\
|

p
p
1
ln logit ; questa trasformazione mappa
lintervallo [ ] 1 , 0 sullintervallo [ ] + , . Se
5 . 0 = p allora il logit vale 0.

Se indichiamo con la lettera greca il logit della probabilit p, allora il modello
ki k i i
x b x b b + + + = ...
1 1 0
estende il modello lineare classico, permettendo di affrontare problemi
che coinvolgono probabilit con gli strumenti della regressione.
Il modello precedente lineare su scala logit, ma ovviamente non lineare sulla scala della
probabilit. Su questa scala il modello lineare logit corrisponde al modello
ki k i
ki k i
x b x b b
x b x b b
i
e
e
p
+ + +
+ + +
+
=
...
...
1 1 0
1 1 0
1

che prende il nome di modello logistico.


I parametri del modello logistico.
Consideriamo per semplicit il modello
i i
x b b
1 0
+ = , che corrisponde a
i
i
x b b
x b b
i
e
e
p
1 0
1 0
1
+
+
+
= e
applichiamolo al seguente esempio.

Esempio. In una sperimentazione clinica avente lo scopo di valutare leffetto di un trattamento
farmacologico nel ridurre la frequenza di occlusione dei trapianti venosi che si eseguono nei by-
pass aorto-coronarici, Limer et al. (Journal of Thoracic and Cardiovascular Surgery, 94, 773-783,
1987), a dieci giorni dallintervento chirurgico, trovarono che su 240 trapianti in pazienti trattati con
il farmaco (gruppo B) vi erano state 17 occlusioni e che su 232 trapianti in pazienti trattati con
placebo (gruppo A) vi erano state 31 occlusioni. Questi risultati permettono di concludere che il
farmaco efficace?

Indichiamo con
A
p la probabilit (vera) di successo (cio che il trapianto non si occluda) nel
gruppo A e con
B
p la probabilit (vera) di successo nel gruppo B. Codifichiamo inoltre con il
valore 0 lappartenenza al gruppo A e con il valore 1 lappartenenza al gruppo B. Il modello di
regressione logit
i i
x b b
1 0
+ = , dove la variabile indipendente x una variabile dummy. Poich gli
unici valori che pu assumere x sono 0 e 1, il modello precedente corrisponde a
0 0
b = nel gruppo
A e a
1 0 1
b b + = nel gruppo B. Il coefficiente
0
b rappresenta lintercetta sulla scala logit mentre il
coefficiente di regressione
1
b misura, sempre sulla scala logit, la differenza fra i valori di
B
p e
A
p .
Il coefficiente
0
b quindi il logit della probabilit nel gruppo A (il gruppo in cui x vale 0): quindi
|
|

\
|

= =
A
A
p
p
b
1
ln
0 0
e
0
0
1
b
b
A
e
e
p
+
= . Nel gruppo B (in cui x vale 1) avremo
|
|

\
|

= + =
B
B
p
p
b b
1
ln
1 0 1
e, quindi,
1 0
1 0
1
b b
b b
B
e
e
p
+
+
+
= .
La differenza fra
0
e
1
rappresentata da
1
b :
1 0 1
b = .
Poich
|
|

\
|

=
A
A
p
p
1
ln
0
e
|
|

\
|

=
B
B
p
p
1
ln
1
per la codifica associata alla variabile indipendente x,
avremo allora

(
(
(
(
(

|
|

\
|

|
|

\
|

=
|
|

\
|

|
|

\
|

= =
A
A
B
B
A
A
B
B
p
p
p
p
p
p
p
p
b
1
1
ln
1
ln
1
ln
0 1 1
.
La quantit racchiusa fra le parentesi quadre il rapporto fra gli odds delle probabilit nei due
gruppi; questo rapporto prende il nome di odds ratio ed una misura di associazione. Esso vale 1 se
e soltanto se
B A
p p = . Il coefficiente di regressione
1
b quindi il logaritmo naturale dellodds ratio
e varr 0 se e soltanto se
B A
p p = (quando, cio, lodds ratio vale 1). Quindi un test per saggiare
lipotesi nulla 0 : H
1 0
= b equivalente, in questo contesto, ad un test per saggiare lipotesi nulla
B A
p p = : H
0
. Nel modello logistico i confronti fra probabilit sono affrontati eseguendo confronti
fra (logaritmi di) odds ratio.


La stima dei parametri del modello logistico.
Rimaniamo sempre nellambito dellesempio precedente. I due parametri del modello logistico, cio
0
b e
1
b , vengono stimati impiegando il metodo della massima verosimiglianza. Di seguito viene
data una esemplificazione pratica di tale metodo.
Il modello probabilistico che possiamo considerare associato allesempio che stiamo trattando
quello binomiale. Ricordiamo che la variabile casuale Y segue una distribuzione binomiale, con
parametri n e p, se la sua funzione di densit discreta f data da
y n y
p p
y
n
y f

|
|

\
|
= ) 1 ( ) (
dove y rappresenta il numero di successi in n prove indipendenti e p la probabilit (costante) di
successo in una singola prova.
Possiamo pensare che i risultati dellesperimento rappresentino una realizzazione di due variabili
casuali indipendenti,
A
Y e
B
Y , ciascuna distribuita in modo binomiale: i parametri della prima sono
rappresentati da 232 =
A
n e da
A
p (che non conosciamo); i parametri della seconda sono
rappresentati da 240 =
B
n e da
B
p (che non conosciamo). Le probabilit associate ai due risultati
osservati sono, rispettivamente,

31 201
) 1 (
201
232
) 201 (
A A A
p p f
|
|

\
|
=
17 223
) 1 (
223
240
) 223 (
B B B
p p f
|
|

\
|
=

e la probabilit congiunta, essendo i due campioni indipendenti, sar data dal prodotto delle due
probabilit, cio da ) 223 ( ) 201 (
B A
f f . Il valore che tale probabilit assume in concreto dipende
ovviamente dai valori di
A
p e
B
p : possiamo quindi considerarla funzione di
A
p e
B
p . Questa
funzione viene detta funzione di verosimiglianza (in inglese verosimiglianza tradotto likelihood)
ed indicata dalla lettera L:
( ) ) 223 ( ) 201 ( ,
B A B A
f f p p L =
Il metodo della massima verosimiglianza consiste nello scegliere quei valori di
A
p e
B
p dove la
funzione L raggiunge il suo massimo (ovviamente ammesso che tali valori esistano e siano unici).
Per vari motivi si preferisce trattare il logaritmo (naturale) della funzione di verosimiglianza, ovvero
la funzione di log-verosimiglianza:
( ) ( ) [ ] ( ) ( ) ) 223 ( ln ) 201 ( ln , ln ,
B A B A B A
f f p p L p p l + = = .
Avremo ora
( ) ( ) ( )
A A A
p p f + +
|
|

\
|
= 1 ln 31 ln 201
201
232
ln ) 201 ( ln
e
( ) ( ) ( )
B B B
p p f + +
|
|

\
|
= 1 ln 17 ln 223
223
240
ln ) 223 ( ln .
Dobbiamo ora sostituire a
A
p e
B
p la corrispondente codifica attraverso il modello di regressione
logistico, vale a dire
0
0
1
b
b
A
e
e
p
+
= e
1 0
1 0
1
b b
b b
B
e
e
p
+
+
+
= . Ricordando che
0
1
1
1
b
A
e
p
+
= e che
1 0
1
1
1
b b
B
e
p
+
+
= , i logaritmi da considerare sono:

( ) ( )
0
1 ln ln
0
b
A
e b p + = ( ) ( )
0
1 ln 1 ln
b
A
e p + =
( ) ( )
1 0
1 ln ln
1 0
b b
B
e b b p
+
+ + = ( ) ( )
1 0
1 ln 1 ln
b b
B
e p
+
+ =

Avremo quindi
( ) ( ) ( ) ( )
0 0
1 ln 31 1 ln 201
201
232
ln ) 201 ( ln
0
b b
A
e e b f + + +
|
|

\
|
=
e
( ) ( ) ( ) ( )
1 0 1 0
1 ln 17 1 ln 223
223
240
ln ) 223 ( ln
1 0
b b b b
B
e e b b f
+ +
+ + + +
|
|

\
|
= .

La funzione di log-verosimiglianza sar quindi data da:

( ) ( ) ( ) ( ) ( ) ( ) ( )
1 0 1 0 0 0
1 ln 17 1 ln 223 1 ln 31 1 ln 201 ,
1 0 0 1 0
b b b b b b
e e b b e e b b b l
+ +
+ + + + + + =

dove i due termini che coinvolgevano i coefficienti binomiali sono stati omessi, dal momento che
sono ininfluenti nella ricerca del massimo.
Si pu osservare come la funzione l sia non lineare (in essa figurano logaritmi ed esponenziali); il
massimo va ricercato in modo iterativo.
A scopo di esercizio, possiamo considerare noto il coefficiente
0
b ; la funzione l assume infatti il
massimo quando
|

\
|
=
31
201
ln
0
b , cio in corrispondenza del logit di
232
201
=
A
p (la stima della
probabilit di successo nel gruppo A). In questo modo la funzione di log-verosimiglianza dipende
soltanto dal coefficiente
1
b e pu essere tabulata in modo abbastanza agevole. Nella tabella che
segue sono riportati i valori assunti dalla funzione in corrispondenza di altrettanti valori assegnati al
coefficiente
1
b .

1
b ) (
1
b l

0.0 -157.427
0.1 -156.056
0.2 -154.943
0.3 -154.068
0.4 -153.415
0.5 -152.965
0.6 -152.704
0.7 -152.615
0.8 -152.684
0.9 -152.900
1.0 -153.248
1.1 -153.719
1.2 -154.301
1.3 -154.985
1.4 -155.762
1.5 -156.624

Poich le verosimiglianze corrispondono a probabilit (inferiori a 1), il loro logaritmo sempre un
numero negativo. Il grafico della funzione assomiglia a quello di una parabola, ma non una
parabola, come si pu dedurre dalla forma esplicita della funzione stessa. La funzione raggiunge il
massimo quando il coefficiente
1
b assume valori compresi fra 0.6 e 0.8. Con degli zoom successivi
si potrebbe vedere che il valore di
1
b in corrispondenza del quale la funzione raggiunge il suo
massimo ( ) 7046 . 0 023 . 2 ln
31
201
17
223
ln
(
(

. La quantit nella parentesi quadra il rapporto degli


odds nei due gruppi, cio lodds ratio. Esso pu essere riscritto come
17 201
31 223

. Quindi la stima di
massima verosimiglianza del coefficiente
1
b rappresentata proprio dal logaritmo naturale
dellodds ratio calcolato sui risultati dellesperimento.






IL MODELLO LOGISTICO

( )
p
p
p p

=
1
odds : odds
< odds 0
( ) |

\
|

=
p
p
p
1
ln logit : logit odds
< < logit
( )
i
i
i
i
x b b
p
p
p
1 0
1
ln logit + =
|
|

\
|

=
i
i
x b b
x b b
i
e
e
p
1 0
1 0
1
+
+
+
=
0 =
i
x
0
0
1
0
b
b
e
e
p
+
=
0
0
0
0
1
odds
b
e
p
p
=

= ( )
0 0
logit p b =
1 =
i
x
1 0
1 0
1
1
b b
b b
e
e
p
+
+
+
=
1 0
1
1
1
1
odds
b b
e
p
p
+
=

=
( )
1 1 0
logit p b b = +
0
1
odds
odds
OR = =
0
1 0
b
b b
e
e
+

1
b
e
1
) ln( ln(OR) b = =