A. Iodice
Regressione
lineare
semplice Statistica
Esercitazione 16
Statistica
A. Iodice
Commonly Asked Questions
Regressione
lineare Qual’è la relazione tra la spesa sostenuta per la promozione di un prodotto
semplice e il livello di vendite nel primo mese?
Qual’è la relazione tra la concentrazione di alcool nel sangue e il tempo di
reazione di un automobilista?
Qual’è la relazione tra il voto di laurea conseguito dagli studenti di
Economia e lo stipendio da loro percepito al primo impiego?
Statistica
Galton e la regressione verso la mediocrità
A. Iodice Nel 1888 Francis Galton, passeggiava in campagna riflettendo sul seguente
problema:
Regressione
lineare Qual’è la relazione tra le caratteristiche fisiche e psichiche di un figlio e
semplice quelle dei genitori?
La contraddizione
Il temporale e la soluzione
Inizialmente lui credeva che l’altezza di
un figlio dovesse essere, in valore atteso Mentre si riparava da un temporale che
(in media), uguale a quella del genitore aveva interrotto la sua passeggiata si
dello stesso sesso. rese conto che l’altezza di un figlio era,
Dunque si attendeva che metà dei figli in valore atteso (in media), compresa
di genitori alti fossero ancora più alti e tra quella del genitore dello stesso sesso
metà dei figli di genitori bassi fossero e la media della popolazione. Dunque
ancora più bassi: le generazioni figli di genitori particolarmente alti
successive avrebbero dovuto avere (bassi) erano in media meno alti (bassi)
persone sempre più alte (o più basse). dei rispettivi genitori. Questa tendenza,
Questo tuttavia non accadeva, perchè confermata dai dati osservati, Galton la
le altezze osservate erano stabili di definı̀ regressione verso la mediocrità.
generazione in generazione.
A. Iodice () Statistica Statistica 3 / 24
Modello di regressione lineare semplice
Il modello
Alla determinazione del valore di Y , oltre che la componente deterministica
β0 + β1 x, concorre anche una componente casuale detta errore non osservabile ,
una variabile casuale con media 0
Y = β0 + β1 x + .
poichè E[] = 0.
A. Iodice () Statistica Statistica 4 / 24
Modello di regressione lineare semplice
Statistica Si consideri di voler analizzare la relazione tra il peso del rullo di un taglia erba e l’entità della depressione
riscontrata nel prato da tagliare. Sia Y la depressione (depression) e x il peso del rullo utilizzato (weight).
A. Iodice Per vedere se l’utilizzo del modello di regressione lineare semplice sia ragionevole in questo caso occorre
raccogliere delle coppie di osservazioni (xi , yi ) e rappresentarle graficamente attraverso il diagramma di
Regressione dispersione.
lineare
semplice
Il diagramma di dispersione (scatter plot)
Statistica
La retta di regressione
A. Iodice
La retta di regressione fornisce una rette passanti per la nube di punti
approssimazione della dipendenza dei valori
Regressione di Y dai valori di X. La relazione di
lineare dipendenza non è esattamente riprodotta
semplice dalla retta; i valori ŷi = β0 + β1 xi sono
dunque i valori teorici, ovvero i valori che la
variabile Y assume, secondo il modello
Y = β0 + β1 x, in corrispondenza dei
valori xi osservati.
Le differenze ei tra i valori teorici ŷi e i
valori osservati yi vengono definite residui.
Questo perchè per ciascuna osservazione il
modello è dato da
yi = β0 + β1 xi + i
| {z } |{z}
comp. deterministica comp. casuale
Statistica
Metodo dei minimi quadrati
A. Iodice
La retta di regressione è tale che la somma dei residui al
Regressione quadrato sia minima. Formalmente
lineare
semplice n n n
2 2 2
X X X
ei = (yi − ŷi ) = (yi − b0 − b1 xi )
i=1 i=1 i=1 Stimatori dei parametri della retta di
regressione:(b0 )
Il problema consiste dunque nel ricercare b0 e b1 che
minimizzano la precedente espressione. Da un punto di
vista operativo bisogna risolvere il seguente sistema di n
X
equazioni (condizioni del primo ordine o stazionarietà). −2 (yi − b0 − b1 xi ) =
i=1
n
∂ X 2 n n
(yi − b0 − b1 xi ) =0 X X
∂b0 i=1 yi − n ∗ b0 − b1 xi = 0
i=1 i=1
n
∂ X 2 b0 = ȳ − b1 x̄
(yi − b0 − b1 xi ) =0
∂b1 i=1
Statistica
I residui
A. Iodice
le differenze tra i valori teorici ŷi e i valori
osservati yi vengono definite residui. La
Regressione retta di regressione è tale che la somma dei
lineare residui al quadrato sia minima.
semplice Formalmente Stimatori dei parametri della retta di regressione:(b1 )
n n
2 2
X X
ei = (yi − ŷi ) = n
X
i=1 i=1 −2 xi (yi − b0 − b1 xi ) = 0
n i=1
2
X
= (yi − b0 − b1 xi ) n n n
2
X X X
i=1 xi yi − b0 xi − b1 xi = 0
i=1 i=1 i=1
n n n Pn Pn !
Il problema consiste dunque nel ricercare X 2
X X i=1 yi i=1 xi
b0 e b1 che minimizzano la precedente b1 xi = xi y i − xi − b1
i=1 i=1 i=1 n n
espressione. Da un punto di vista operativo
bisogna risolvere il seguente sistema di n n
! n n n
2 2
X X X X X
equazioni (condizioni del primo ordine o b1 n xi − ( xi ) =n xi yi − xi yi
stazionarietà). i=1 i=1 i=1 i=1 i=1
Pn Pn Pn
n i=1 xi yi − i=1 xi i=1 yi σxy
b1 = Pn =
2 Pn 2 2
∂ n n i=1 xi − ( i=1 xi ) σx
2
X
(yi − b0 − b1 xi ) =0
∂b0 i=1
n
∂ X 2
(yi − b0 − b1 xi ) =0
∂b1 ()
A. Iodice i=1 Statistica Statistica 8 / 24
Determinazione della retta di regressione
Statistica
A. Iodice
Regressione
lineare
semplice
...statistiche descrittive
P10 P10
x̄ = i=1 xi = 6.07 ȳ = i=1 yi = 14.1
10 10
rP rP
10 (x −x̄)2 10 (y −ȳ)2
i=1 i i=1 i
sx = 10
= 3.04 sy = 10
= 10.1
P10
sxy = i=1 (xi −x̄)(yi −ȳ) = 24.7
10
σxy
rxy = σ σ = 0.8
x y
Statistica
Calcolo dei coefficienti
A. Iodice
Richiamando le quantità calcolate in precedenza e le formule per il calcolo dei parametri si ha
σ
Regressione b1 = σxy 2 = 2.66 b0 = ȳ − b1 x̄ = 14.1 − (2.66 ∗ 6.07) = −2.04
x
lineare
semplice Y = −2.04 + 2.66x rappresenta la retta di regressione stimata
La retta ’migliore’
A. Iodice
Regressione
lineare
semplice
b0 rappresenta l’intercetta della retta di regressione ed
indica il valore della variabile di risposta Y quando il
predittore x assume valore 0.
b1 rappresenta l’inclinazione della retta di regressione,
ovvero la variazione della variabile di risposta Y in
conseguenza di un aumento unitario del predittore x.
Statistica
A. Iodice
Il modello di regressione lineare semplice è
Regressione
lineare Y = β0 + β1 x +
semplice
e l’errore non osservabile è una variabile aleatoria con valore atteso pari a 0. Per
poter fare inferenza sono necessarie alcune assunzioni:
la variabile aleatoria i si distribuisce come una Normale di parametri 0 e
σ 2 : dunque la varianza dell’errore non osservabile i non dipende dal
predittore xi ;
cov(i , j ) = 0, ∀i 6= j (i, j = 1, . . . , n), questo comporta che la risposta
relativa al predittore xi è indipendente da quella relativa al predittore xj ;
x è nota e non stocastica (priva di errore);
dalle precedenti assunzioni segue che ∀i la variabile di risposta Yi si
distribuisce secondo una Normale di parametri
E[Yi ] = β0 + β1 xi e var(Yi ) = σ 2 .
Statistica
La quantità σ 2 è incognita e deve essere stimata a partire dai dati. A questo
A. Iodice scopo si consideri che la standardizzazione di Yi si distribuisce secondo una
normale
Regressione
lineare Yi − E[Yi ] Yi − (β0 + β1 xi )
semplice = .
var(Yi ) σ
La somma dei quadrati delle Yi standardizzate è
Pn 2
i=1 (Yi − β0 − β1 xi )
σ 2
Statistica
A. Iodice
Regressione Il numeratore della precedente rappresenta la somma dei quadrati dei residui
lineare
semplice n
X n
X
(Yi − β0 − β1 xi )2 = e2 = SSe ;
i=1 i=1
Statistica
Un’ipotesi molto importante da verificare nel modello di regressione lineare
A. Iodice
semplice è che il coefficiente angolare della retta di regressione sia pari a 0: se
Regressione
infatti β1 = 0 allora la variabile di risposta non dipende dal predittore, in altre
lineare parole non c’è regressione sul predittore.
semplice Per ottenere il test H0 : β1 = 0 vs H1 : β1 6= 0 è necessario studiare la
distribuzione dello stimatore b1 di β1 : se b1 si discosta da 0 allora si rifiuta H0 ,
altrimenti non si rifiuta. Ma di quanto b1 deve discostarsi da 0?
A questo scopo si consideri che b1 si distribuisce come una Normale di parametri
σ2
E[b1] = β1 e var(b1 ) = Pn 2
i=1 (xi − x̄)
Statistica
A. Iodice
la Normale standard sP
n
Regressione
i=1 (xi − x̄)2
lineare (b1 − β1 )
semplice σ2
non consente ancora di costruire una statistica test perchè è ancora presente il
SSe
parametro incognito σ 2 : tuttavia si può stimare tale parametro attraverso n−2
che, come visto in precedenza, si distribuisce secondo un chi-quadrato con n-2
gradi di libertà; sostituendo a σ 2 il suo stimatore si ha
s
(n − 2) n 2
P
i=1 (xi − x̄)
(b1 − β1 ).
SSe
Poichè questa quantità ha al numeratore una Normale standard ed al
denominatore un chi-quadro rapportato ai propri gradi di libertà, si distribuisce
come una distribuzione t di student con n-2 gradi di libertà.
Statistica
A. Iodice
Regressione
lineare A questo punto la statistica test da utilizzare sotto H0 (β1 = 0) è
semplice
s Pn
(n − 2) i=1 (xi − x̄)2
ST = b1 ∼ tn−2
SSe
Statistica Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed
X è necessario che i residui abbiano un andamento casuale rispetto ai valori della x. Se, ad esempio,
A. Iodice all’aumentare dei valori della x aumentassero sistematicamente anche i residui, allora la relazione potrebbe
non essere non lineare: la retta di regressione ne sarebbe dunque una cattiva approssimazione.
Regressione
lineare variabili esplicative vs residui
semplice
Per verificare che l’andamento dei residui sia effettivamente casuale rispetto ad x, è possibile utilizzare un
diagramma di dispesione tra i valori xi ed i corrispondenti residui ei (i = 1, . . . , n)
Statistica
Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed x
A. Iodice
è necessario che i residui abbiano un andamento casuale rispetto ai valori della x. Se, ad esempio,
all’aumentare dei valori della x aumentassero sistematicamente anche i residui, allora la relazione potrebbe
Regressione non essere non lineare: la retta di regressione ne sarebbe dunque una cattiva approssimazione.
lineare
semplice valori stimati ŷ vs residui
Per controllare che l’assunzione della normalità dei residui sia rispettata si ricorre al confronto tra i quantili
Statistica
della distribuzione Normale standard ed i quantili della distribuzione dei residui osservati.
A. Iodice Q-Q plot
Quanto più i punti del grafico risultano allineati lungo la bisettrice del primo quadrante, tanto migliore sarà
Regressione
l’adattamento dei residui osservati alla distribuzione normale.
lineare
semplice
Statistica
n n
Regressione X 2
X 2
SSy = (yi − ȳ) = (yi − ŷi + ŷi − ȳ) =
lineare
i=1 i=1
semplice
n n n
2 2
X X X
= (yi − ŷi ) + (ŷi − ȳ) + 2 (yi − ŷi )(ŷi − ȳ)
i=1 i=1 i=1
n n n n n
2 2
X X X X X
= (yi − ŷi ) + (ŷi − ȳ) + 2( yi − ŷi )( ŷi − nȳ)
i=1 i=1 i=1 i=1 i=1
Pn Pn
Il metodo dei minimi quadrati assicura che i=1 ŷi = i=1 yi , quindi
n n n
2 2
X X X
SSy = (yi − ŷi ) + (ŷi − ȳ) + 2 ∗ 0 ∗ ( ŷi − nȳ)
i=1 i=1 i=1
n n
2 2
X X
= (ŷi − ȳ) + (yi − ŷi ) = SSr + SSe
i=1 i=1
La devianza può essere decomposta dunque nelle seguenti quantità SSy = SSr + SSe
Statistica
Pn
SSy = i=1 (yi − ȳ)2 devianza totale
A. Iodice
Pn
SSr = i=1 (ŷi − ȳ)2 devianza di regressione
Regressione SSe =
Pn
(yi − ŷi )2 devianza dei residui
i=1
lineare
semplice
Interpretazione grafica
Statistica Intituitivamente, l’adattamento della retta è migliore quanto maggiore sarà proporzione di variabilità totale
che la retta di regressione riesce a spiegare; ovvero, l’adattamento della retta è migliore quanto minore sarà
A. Iodice la variabilità residua. Una misura di come il modello approssima i dati osservati è data dal coefficiente di
determinazione lineare R2 , dato da
Pn
Regressione
2 SSr (ŷi − µy )2
lineare R = = Pi=1
SSy n (yi − µy )2
semplice i=1
ovvero Pn
2 SSe (yi − ŷi )2
R =1− = 1 − P i=1
SSy n (y − µ )2
i=1 i y
esempio di calcolo R2
Pn
SSy = i=1 (yi − ȳ)2 = 1020.9
Pn 2
SSr = i=1 (ŷi − ȳ) = 657.97
Pn
SSe = i=1 (yi − ŷi )2 = 362.93
2 SSr 657.97
R = = = 0.64
SSy 1020.9
ovvero
2 SSe 282.1862
R =1− =1− = 1 − 0.36 = 0.64
SSy 5058.4