Sei sulla pagina 1di 19

MASSIMOANGELO ZANETTI

RICERCATORE IN SOCIOLOGIA

Università della
LA REGRESSIONE LOGISTICA Valle d’Aosta
Le variabili dicotomiche

• Diversi fenomeni sociali sono discreti o qualitativi piuttosto che continui o quantitativi
(es. la fede religiosa, l’essere sposati o meno, entrare o uscire dalla forza lavoro, il voto
per un partito piuttosto che un altro, abbandonare gli studi, aderire ad un’associazione)

• I fenomeni binari discreti solitamente sono operazionalizzati nella forma di indicatore


dicotomico o variabile dummy. Sebbene si possano scegliere due numeri qualsiasi per
indicare i due differenti stati qualitativamente diversi di queste variabili dicotomiche,
scegliere i numeri 0 e 1 presenta dei vantaggi: ad esempio la media di una variabile
dicotomica è uguale alla proporzione di casi con valore posto a 1 e può essere
interpretata come una probabilità che la condizione a cui è stata assegnato il valore 1 si
realizzi.
• Es. in un campione rappresentativo di 1000 giovani la condizione di NEET nel 2013 è
operazionalizzata con la variabile NEET2013. Se l’intervistato è NEET in quell’anno la
variabile è posta a 1 altrimenti a 0. Se i casi con valore 1 sono 235, si può facilmente
calcolare che la media della varaibile NEET2013 è 0,235, che è uguale alla probabilità di
essere NEET (235/1000), ovvero il 23,5% dei giovani è NEET.
La regressione con variabile dipendente dicotomica

• Una variabile dicotomica con valori 0 e 1 sembra adatta ad essere utilizzata in una
regressione multipla come variabile dipendente: i coefficienti β hanno una
interpretazione agevole, in quanto aumentano o diminuiscono del loro valore, per
un cambiamento unitario delle variabili indipendenti, la probabilità predetta dal
modello di regressione che la caratteristica indicata dall’1 della variabile dipendente
dicotomica si verifichi
• Es. NEET2013= 0,25 - 0,02 x AnniIstr + 0,15 x Genere; se AnniIstru (anni di istruzione)
aumenta di 1 abbiamo una diminuzione di 0,02 della probabilità di essere NEET; se Genere
passa da 0 (maschio) a 1 (femmina) abbiamo un aumento di 0,15 della probabilità di essere
NEET

• La variabile dipendente assume solo valori 0 o 1, ma i valori predetti dal modello di


regressione sono sempre le medie (ovvero le proporzioni tra i casi a 1 e i casi a 0), quindi le
probabilità che si verifichi la condizione a 1 per dati valori delle variabili indipendenti.
• Es. NEET2013= 0,25 - 0,02 x AnniIstr + 0,15 x Genere; un soggetto femmina con il titolo di
terza media inferiore (8 anni di istruzione) ha probabilità 0,25 - 0,02 x 8 + 0,15 x 1 = 0,41,
ovvero il 41% dei soggetti femmine con 8 anni di istruzione ha probabilità di essere NEET
I problemi della regressione con variabile dicotomica

• Sebbene l’interpretazione dei coefficienti β sia semplice, le stime del modello di


regressione multipla con variabile dipendente dicotomica incontrano due tipi di
problemi, uno di natura concettuale, l’altro di tipo statistico. Considerati
congiuntamente, questi problemi risultano tanto rilevanti da consigliare di adottare
un modello alternativo di regressione.
Problemi concettuali legati alla forma della funzione

• Il problema concettuale di una regressione lineare con una variabile dipendente


dicotomica deriva dal fatto che le probabilità hanno un valore massimo di 1
(certezza di un evento o condizione) e minimo di 0 (impossibilità di un evento o
condizione). Quindi per definizione le probabilità non possono superare il valore di
1 e non possono essere inferiori a 0.

• Tuttavia una linea di regressione lineare può estendersi virtualmente all’infinito, sia
positivo con valori superiori a 1 che negativo con valori inferiori a 0, se le variabili
indipendenti possono mutare indefinitamente il proprio valore

• A seconda dell’inclinazione della retta e dei valori delle variabili indipendenti


osservati, un modello può predire valori della variabile dipendente anche superiori
ad 1 e inferiori a 0, valori che tuttavia non hanno senso e non hanno utilità
predittiva.
I grafici a dispersione con variabile dipendente
continua e dicotomica

• La figura a) mostra una normale grafico a dispersione (scatterplot)


dei casi su un piano cartesiano di valori di variabili quantitative sia
dipendenti che indipendenti

• In questo caso una linea, la retta della funzione di regressione,


attraversa centralmente la nuvola di punti per minimizzare la
somma delle distanze quadratiche dai punti. Entrambe le variabili si
estendono dai valori minimi a quelli massimi e la stessa linea
predice sia valori minimi, medi che elevati

• Nella figura b) non è invece rappresentata una nuvola di punti, ma


due insiemi di punti disposti due linee parallele

• Una linea retta sembra meno adatta per adattarsi a questa


distribuzione di punti. Inoltre qualsia linea di regressione non
orizzontale (relazione nulla tra dipendente e dipendente)
supererebbe 1 e scenderebbe sotto lo 0.
Osservare le densità di casi – la tecnica dello jittering

• Alcune parti delle due linee parallele possono


contenere più casi, ovvero una avere una
maggiore densità degli stessi. Questo si può
cogliere utilizzando ad esempio la tecnica di
jittering, che aggiunge una variazione causale
fittizia (per puri scopi di visulizzazione) ad ogni
caso rispetto all’1 e allo 0 per renderlo più
facilmente distinguibile dagli altri

• Nel caso in figura la densità dei punti


suggerisce una relazione negativa tra le due
variabili, in quanto all’aumentare della x si
notano delle densità di punti sul valore 0 che
non si riproducono anche sul valore 1 della
dipendente. Nella relazione tra essere NEET e
anni di istruzione, più aumenta l’istruzione più è
probabile che i giovani non siano NEET
(relazione inversa)
Il rischio che la probabilità stimata esca dal range 0 – 1

• Il rischio che le probabilità predette dal modello eccedano 1 e siano


inferiori a 0 dipendono dal range di valori della variabile indipendente
e dalla assimmetria (skewness) della distribuzione dei valori della
varabile dipendente dicotomica

• Ad esempio una suddivisione di casi all’incirca 50 a 50 tra 0 e 1


favorisce dei valori predetti che tendono a cadere al centro della
distribuzione di probabilità. Ma più il rapporto tra casi a 0 e casi a 1
è asimmetrico (ad esempio 90 contro 10), più la funzione di
regressione presenterà la tendenza a predirre valori sopra l’1 e sotto
lo 0

• Ad esempio possiamo vedere stimate relazione come NEET2006 = +


0,25 – 0,02 x AnniIstr + 0,15 x Genere, che generano il paradosso
che per un soggetto maschio con almeno 14 anni di istruzione (ma
anche con anni di istruzione superiori) la probabilità di essere NEET
diventa negativa -0,03 con 14 anni di istruzione e se si è laureato in
corso (18 anni di istruzione) la probabilità è -0,11

• Quindi l’assunzione di linearità in questo modello appare


inappropriata

• Se alcuni casi sono esposti a questo problema, ciò implica che


l’assunzione di linearità è in generale inappropriata
Soluzioni al problema della non appropriatezza
dell’assunzione di linearità della funzione
• Una soluzione al problema di non uscire dal range 0-1 dei valori della variabile dipendente
potrebbe essere troncarne i valori uguali o superiori a 1 ponendoli a 1 e quelli uguali o
inferiori a 0 ponendoli a 0 (figura a).

• La regressione sarebbe una linea retta fino al valore massimo e a quello minimo (linea retta
con una certa inclinazione), poi i successivi valori delle variabili indipedenti (X) non
avrebbero più effetto sulla variabile dipendente (linee orizzontali). L’andamento avrebbe così
improvvise discontinuità nella relazione: ad un certo punto l’effetto di X su Y diverrebbe
immediatamente 0.

• Tuttavia sono possibili altre soluzioni nella forma della relazione che ipotizziamo sussista tra
le variabili, piuttosto che la linearità troncata.

• Dato che esiste un «pavimento» e un «soffitto», sembra probabile che l’effetto di un


cambiamento unitario della X sulla probabilità predetta della Y sia di entità progressivamente
minore più ci si avvicina al «pavimento» o al «soffitto». Intoro alla metà della relazione, la
curva non lineare può approssimarsi ad una retta, quindi risultare vicina alla linearità
(proporzionalità tra Y e X), ma invece di continuare indefinitamente in questo modo, quanto
più si avvicina a 0 e 1 l’effetto della X sulla Y diminuisce e infine l’andamento risulta
asintotico. Quindi più i valori si avvicinano a 0 o 1 più è necessario un maggiore incremento
della X per ottenere lo stesso incremento della Y.

• Molte relazioni sono nella realtà sociale di questo tipo: ad esempio la probabilità di avere
una casa di proprietà in relazione al reddito. L’impatto di aumento del reddito sulla variazione
di probabilità di comprarsi una casa è maggiore per i redditi intermedi piuttosto che per quelli
bassi o alti. Altro esempio è l’effetto dell’età nella probabilità di contrarre un matrimonio.
La non additività dell’effetto delle variabili

• La regressione tipicamente assume l’additività, ovvero che l’effetto di una variabile


indipendente su quella dipendente è sempre lo stesso a prescindere dal livello delle altre
variabili.

• Una variabile dipendente probabilmente viola tutti gli assunti di additività per tutte le
combinazioni delle variabili indipendenti.
• Se il valore di una variabile indipendente raggiunge un livello sufficientemente alto per spingere la
variabile dipendente in prossimità dell’1 (o dello 0), allora l’effetto delle altre variabili può non avere
molta influenza.

• Quindi il soffitto e il pavimento rendono l’influenza di tutte le variabili intrinsecamente non


additiva e interagente.
• Per esempio, una normale regressione additiva assume che l’effetto sulla probabilità di diventare
NEET del genere sia uguale per tutte le età, ma invece le differenze di genere hanno un maggiore
impatto sulle età maggiori (perché le donne sono più impegnate in lavori di cura dopo
l’adolescenza).
Problemi di inferenza statistica

• Violazione di due assunti tipici della regressione lineare.

• Violata la distribuzione normale dei residui, cioè della dispersione degli errori dei valori Y empiricamente
rilevati attorno al valore Y predetto per ogni X. Ci sono solo due residui possibili:
• Se Y=1 il residuo è 1 – (bo + b1X1)

• Se Y=0 il residuo è 0 – (bo + b1X1)

• Quindi non hanno una distribuzione normale

• Violata l’omoschedasticità, ovvero che la varianza dei residui sia uguale per ogni X. Quando la Y è vicino
agli estremi, dove la linea retta della regressione è vicina allo 0 o all’1, i residui sono piccoli. Nei valori
centrali, dove Y è vicina allo 0,5, i residui sono più ampi. Quindi la varianza degli errori non è costante.

• La violazione della normalità non crea grandi problemi quando i campioni sono grandi.

• L’eteroschedasticità invece genera problemi seri, perché i coefficienti beta stimati non hanno la varianza
minore e perché si distorce la stima dell’errore standard e il test di significatività non sarà valido.

• In conclusione utilizzare la regressione con una variabile dipendente dicotomica è inappropriato


Trasformazione logistica delle probabilità

• Sono diverse la funzioni non lineare che possono produrre la forma ad S, ma la trasformazione logistica
si è affermata per le sue proprietà desiderabili e per la sua relativa semplicità

• Definiamo P la probabilità che un evento si realizzi. La variabile dipendente ha solo valori 0 e 1 e quindi
si deve stimare per una data combinazione di variabili indipendenti, quale probabilità c’è che la variabile
dipendente sia 1.

• Data la probabilità, la trasformazione logistica implica due passaggi:


• Il primo passaggio è calcolare l’odd, ovvero il rapporto P / (1 – P), ovvero il rapporto tra la probabilità che l’evento si
verifichi diviso la probabilità che non si verifichi. In questo modo, anche se P può variare solo da 0 a 1, P / (1 – P)
varierà da 0 (quando P=0) a +∞ (quando P=1)

• Il secondo passaggio è calcolare il logaritmo naturale di questo rapporto tra probabilità, ovvero ln (P / (1 - P). In
questo modo se l’odd ratio varia da 0 a 1 il logaritmo naturale varia da -∞ a 0 (il logaritmo di 0 non è definito, ma i
logaritmi di numeri prossimi allo 0 tendono a -∞, mentre il logaritmo di 1 è 0), mentre se l’odd ratio varia da 1 a +∞
la stessa cosa fa il logaritmo.

• Quindi dopo il secondo passaggio abbiamo una trasformazione della probabilità che può variare da –∞ a +∞,
esattamente come i valori di una linea retta. A questa trasformata della probabilità si può quindi applicare il
modello di regressione lineare.
Il significato di un odd

• La probabilità è la proporzione di occorrenze di un evento su un totale di accadimenti o di una caratteristica su un totale


di casi (ad esempio la proporzione di NEET sul totale dei giovani)

• L’odd esprime la probabilità che un evento accada rispetto alla probabilità che lo stesso evento non accada, quindi è un
rapporto tra due probabilità complementari P / (1 – P).

• Quando P = 0 anche l’odd ratio è 0, ma quando P = 1 l’odd ratio tende all’infinito positivo. Quando la probabilità è 0,5
l’odd è 1.

• Quindi la trasformazione da probabilità ad odd permette di estendere i valori oltre l’1, cioè di andare oltre il «soffitto»
che limita numericamente il valore della variabile dipendente espressa in termini probabilità o di proporzione. Per
calcolare il valore della probabilità a partire dal valore dell’odd si utilizza la formula P = O / (1 + O). Da questa formula si
può vedere come più O diventa grande, più il rapporto tende ad 1, mentre se O tende a 0 anche P tende a 0.

• L’odd si può espremere anche con un solo numero: ad esempio un odd di 10 indica che la probabilità che un evento
accada è 10 volte la probabilità che quell’evento non accada (cioè su 11 volte, 10 volta l’evento accade, 1 volta non
accade).

• Usando un solo numero per esprimerli, gli odd si possono comparare tra loro: un odd di 8 è quattro volte maggiore di
un odd di 2.

• Un odd ratio è il rapporto tra due odd


Il logaritmo di un odd

• Calcolare il logaritmo naturale di un odd porta ad eliminare anche il «pavimento» che


impediva alla probabilità di scendere sotto lo 0, così come calcolare il rapporto tra
probabilità, cioè l’odd, elimina il «soffitto» di 1 delle probabilità

• Calcolare il logaritmo (naturale) ha i seguenti risultati:


• Se l’odd > 0 ma < 1, il suo logaritmo assume valori negativi, e più l’odd si avvicina a 0 più il suo
logaritmo tende a -∞; invece quanto più l’odd si avvicina a 1 tanto più il suo logaritmo si avvicina a 0.

• Se l’odd = 1 (probabilità che un evento si realizzi uguale alla probabilità che non si realizzi, cioè
entrambe uguali a 0,5, quindi 0,5 / 0,5 = 1), il logaritmo è 0. Quindi il logaritmo di un odd avrà come
valore 0 l’equiprobabilità tra la realizzazione e la non realizzazione di un evento.

• Se l’odd è > 1, allora il suo logarismo sarà posivo. Maggiore sarà l’odd e maggiore sarà il suo
logaritmo

• Non esistono logaritmi di valori =< 0, ma l’odd non raggiunge mai il valore 0, ci si avvicina
senza mai raggiungerlo
Proprietà di un logaritmo di un odd (logit)

• Il logaritmo di un odd è detto logit

• La prima proprietà di un logit è che, a differenza di una probabilità, non ha limiti di valori
inferiore e superiore. L’odd elimina il limite superiore della probabilità e il logaritmo di
un odd elimina il limine inferiore della probabilità
• Se P = 1, il logit risulta indefinito, perché sarebbe il logaritmo di un odd indefinito cioè 1/0. Ma
quanto più la probabilità si avvicina ad 1 il logit tende a +∞

• Se P = 0, il logit è anche questa volta indefinito perché il logaritmo di un odd 0/1 = 0 non
esiste. Ma più la probabilità si avvicina a 0 più il logit tende a -∞

• Quindi il logit varia da -∞ a +∞, quando le probabilità tendono rispettivamente a 0 e a 1.


Quindi la trasformazione in forma di logit della variabile dipendente permette di superare i
limiti di valore del «pavimento» (0) e del «soffitto» (1) che limitano i valori della probabilità
Proprietà di un logaritmo di un odd (logit)

• La seconda proprietà è che la trasformazione logit è simmetrica rispetto alla probabilità di


0,5 (per la quale il logit = 0)

• Inoltre, le probabilità inferiori o superiori alla stessa distanza da essa hanno lo stesso logit,
ma di segno differente. Quindi la distanza del logit da 0 riflette la distanza della probabilità
da 0,5

• La terza proprietà consiste nel fatto che più di si allontana da P = 0,5 più la stessa
differenza di probabilità (ad esempio la differenza di 0,1 come nella figura) corrisponderà
ad un maggiore differenza in termini di logit (ad es. se P passa da 0,5 a 0,6 il logit aumenta
di 0,405, mentre se P passa da 0,8 a 0,9 il logit aumenta di 0,81, cioè di oltre il doppio
La relazione lineare tra logit e variabili indipendenti

• La trasformazione della variabile dipendente da probabilità a logit serve per rendere


lineare la relazione tra la variabile dipendente e le variabili indipendenti della
funzione, e quindi per poter applicare come funzione il modello lineare della
regressione.
• Y = f (𝑋1 , 𝑋2 , 𝑋3 , …) non può essere lineare se Y = P, ma è lineare se Y = ln (P / (1 – P))

• La relazione lineare tra le X e il logit implica una relazione non lineare tra le X e P: ad
una stessa variazione di X corrisponde una stessa variazione del logit, ma ad una
stessa variazione del logit (e quindi di X) non corrisponde una stessa variazione di
probabilità, come abbiamo visto nella slide precedente

• Un cambiamento di un’unità del logit si traduce in una variazione più grande delle
probabilità in prossimità della probabilità 0,5, mentre in una variazione via via minore
più ci si avvicina alle probababilità 0 e 1, cioè agli estremi.
Calcolare le probabilità a partire dai logit

• La relazione lineare tra le X e il logit predetto dal modello è la seguente:


𝑃
• ln = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + …
1−𝑃

• Per esprimere la funzione in termini di probabilità invece che di logit, è necessario in


primo luogo applicare l’esponenziale a base 𝑒 entrambi i membri dell’equazione:

= 𝑒 𝛽0 + 𝛽1𝑋1+𝛽2𝑋2+𝛽3𝑋3+… ; poiché l’elevazione a potenza con base 𝑒 è l’inverso del


𝑃
• 1−𝑃
logaritmo naturale, al primo membro dell’equazione scompare il logaritmo e rimane l’odd;
come si può osservare l’odd non è in relazione lineare con le X

• Come secondo passaggio, si risolve l’equazione rispetto a P, in modo da poter


calcolare le probabilità stimate dal modello:
• P = (𝑒 𝛽0+ 𝛽1𝑋1+𝛽2𝑋2+𝛽3𝑋3+… ) / (1 + 𝑒 𝛽0+ 𝛽1𝑋1+𝛽2𝑋2+𝛽3𝑋3+… )
Grazie per l’attenzione!
Massimo Angelo Zanetti| Ricercatore in Sociologia | Università della Valle d’Aosta