Sei sulla pagina 1di 87

Università degli studi della Tuscia

Dipartimento di Economia e Impresa

Statistica economica

a.a. 2012/13

Prof.ssa Tiziana Laureti

Regressione lineare semplice


*Libro di testo: Stock J.H. e Watson, M.W. Introduzione all’econometria,
Pearson, 2009
• Il termine regressione fu introdotto verso la metà dell‘Ottocento
dall’inglese Sir Francis Galton (1822-1911) che, nei suoi studi di
eugenetica, voleva verificare se la statura dei figli potesse essere
prevista sulla base di quella dei genitori, esprimendo questa
corrispondenza in una legge matematica.

• Galton osservò che figli alti provenivano da genitori tendenzialmente


alti così come figli bassi provenivano da genitore tendenzialmente
bassi. Tuttavia, a genitori eccezionalmente alti non corrispondevano
figli alti in modo così estremo, e a genitori eccezionalmente bassi non
corrispondevano figli altrettanto bassi.

• Poichè Galton notò una tendenza delle altezze dei figli a spostarsi nella
generazione successiva verso l’altezza media, scrisse che ciò
costituiva una “regression towards mediocrity” e la relazione statistica
stimata dalle osservazioni fu chiamata il modello della regressione.
regressione

2
Se la correlazione misura l’intensità e il
segno del legame lineare tra due
variabili, l’obiettivo delle tecniche di
regressione è, invece, quello di
individuare il tipo di relazione funzionale
che esiste tra una variabile dipendente
(o spiegata o endogena) e una o più
variabili indipendenti (o esplicative o
esogene).

3
Affermare che il fenomeno Y “dipende” dal fenomeno X secondo la
relazione matematica
Y=f(X)

semplifica ovviamente la dinamica reale dove intervengono, con differenti


pesi, una miriade di interrelazioni, tra le variabili X e Y ed il resto del
mondo dei fenomeni non esplicitati nella formula proposta.

E’ possibile allora correggere il modello scrivendo:

Y=f(X)+u
Dove u costituisce la componente stocastica del modello ed è
rappresentata da una variabile casuale che compendia l’insieme di
circostanze che impediscono a tale relazione di essere un legame teorico
di tipo matematico.

4
Perché si introduce la componente di errore nel modello?

Negli studi empirici la relazione tra due variabili non è mai una relazione funzionale
esatta del tipo Y=f(X)

I comportamenti economici e sociali non sono descritti adeguatamente da relazioni che


fanno corrispondere ad un dato valore di X un unico valore di Y

Esempi:

Nello studio della relazione di dipendenza del consumo familiare (Y) dal reddito
familiare (X), è ragionevole ipotizzare che famiglie con lo stesso reddito abbiano
comportamenti di consumo differenti;

La dimensione di un punto vendita non può essere la sola variabile esplicativa del
fatturato del punto vendita stesso;

La decisione di un consumatore di acquistare il prodotto di una determinata azienda


non è influenzata esclusivamente dal numero di spot giornalieri trasmetti in
televisione.

Il termine di errore u tiene conto di ogni altro fattore (non osservato o non
osservabile) che, oltre alla variabile esplicativa, può influenzare la risposta Y.

Esempio: Il consumo delle famiglie può dipendere, oltre che dal reddito disponibile, anche dal
numero di componenti, dalla loro età e dal livello di istruzione 5
Perché si introduce la componente di errore nel modello?

Se la relazione lineare valesse con esattezza - relazione deterministica o


matematica - il metodo di stima sarebbe semplice: basterebbe conoscere le
coordinate di due punti campionari per tracciare la retta che li unisce e produrre
la relativa equazione.

Tuttavia imbattersi in relazioni funzionali esatte - sulla base dell’osservazione di


dati empirici - risulta estremamente improbabile.
Al contrario è piuttosto frequente osservare delle discrepanze più o meno
accentuate tra i valori osservati di Y e quelli che emergono da una relazione
funzionale esatta con X.

Il termine di errore u serve proprio a rappresentare formalmente tali


discrepanze e a distinguere una relazione statistica (o stocastica)
stocastica da una
deterministica.

6
La regressione

semplice: se la variabile indipendente è solo una;

multipla: se le variabili indipendenti sono due o


più;

lineare: se la relazione che esprime la variabile


dipendente è di tipo lineare;

non lineare: se tale relazione non è lineare.

7
Principali caratteristiche delle analisi di regressione

¾ L’obiettivoprincipale è quello di investigare su eventuali


relazioni empiriche tra variabili allo scopo di analizzare le
cause (determinanti) che possono spiegare un determinato
fenomeno oggetto di studio.

¾ È caratterizzata dalla semplicità intrinseca dei modelli


utilizzati, basati essenzialmente su funzioni lineari.

¾ Sebbene non tutte le relazioni funzionali siano esprimibili


attraverso modelli lineari, una prima analisi fondata su forme
funzionali semplici costituisce comunque un buon punto di
partenza per passare poi ad eventuali modelli più complessi.

8
Principali fasi di un’analisi di regressione lineare

i. Si ipotizza una relazione funzionale lineare tra una variabile oggetto di


studio (variabile dipendente o risposta) e una o più altre variabili
(variabili indipendenti o esplicative);

ii. Si stimano i parametri di tale relazione funzionale sulla base dei dati
campionari a disposizione;

iii. L’analisi è completata con appropriati test statistici sulla significatività dei
parametri e la valutazione della bontà dell’adattamento del modello ai
dati;

iv. Ulteriori analisi di conferma servono ad assicurarsi che la relazione


ipotizzata sia effettivamente lineare e che le assunzioni su cui si basa la
stima del modello siano state rispettate

9
Semplice

Regressione
Lineare

Multipla

Consideriamo dapprima il caso più semplice:


esaminiamo il legame tra due sole variabili X e Y.

10
Partiamo da un esempio… [rif. Bracalente et al.2009]

Per decidere le dimensioni di nuovo punto vendita, una catena di supermercati ha effettuato
un’indagine per studiare la relazione tra dimensione del negozio e le vendite settimanali. A tale
proposito viene estratto un campione di 10 supermercati:

IPOTESI DI RICERCA: Si ipotizza che a maggiori spazi espositivi tendano a corrispondere valori più elevati
delle vendite
11
¾Per mettere in evidenza la relazione lineare esistente tra due caratteri è possibile rappresentare
l’insieme delle coppie di punti su un asse cartesiano (in cui sull’asse delle ascisse viene riportata,
come di consueto, la variabile X e sull’asse delle ordinate la variabile Y).

Il grafico derivante prende il nome di grafico di dispersione (o scatter plot).

Dalla forma che assume la nuvola di punti è possibile “stabilire” il tipo di correlazione lineare
esistente tra le due variabili.

Se tra X e Y non c’è alcun legame allora X e Y sono indipendenti statisticamente


Tra due caratteri esiste indipendenza statistica quando la conoscenza della modalità di uno dei due
caratteri non migliora la “previsione” della modalità dell’altro

Correlazione lineare
ρXY = −1 perfetta discordanza
n

σ ∑ (xi − x )(yi − y ) − 1 < ρXY < 0 discordanza


Corr(X, Y ) = ρ XY = XY = i=1

σXσ Y n n

∑ (xi − x ) ∑ (yi − y )
2 2
ρXY = 0 assenza di legame lineare
i =1 i=1

0 < ρXY < 1 concordanza

ρXY = 1 concordanza perfetta


12
...torniamo all’esempio

Dal diagramma di dispersione (scatter plot) si può avere conferma della linearità e della direzione
della relazione ipotizzata.

V 350
o La relazione è evidenziata
l 300 anche dal valore del
u coefficiente di
250
m correlazione lineare
e 200 r=0.893
v 150
e
100
n
d 50
i
t 0
e 0,0 50,0 100,0 150,0 200,0
Spazio espositivo

¾Viene formulato un modello lineare dove:

Volume delle vendite Î variabile dipendente (variabile risposta)

Spazio espositivo Î variabile esplicativa


13
IL MODELLO DI REGRESSIONE LINEARE SEMPLICE

Il modello di regressione lineare mette in relazione una variabile X


con un’altra variabile, Y. Nella relazione lineare tra Y e X la
pendenza della retta è una caratteristica incognita della
distribuzione congiunta di X e Y nella popolazione.

ll compito della statistica è quello di stimare l’effetto su Y di una


variazione unitaria di X, ossia di stimare la pendenza della retta,
utilizzando un campione di dati su queste due variabili.

La pendenza e l’intercetta della retta che mette in relazione X e Y


possono essere stimati utilizzando un metodo chiamato Minimi
Quadrati Ordinari (OLS, acronimo dall’inglese Ordinary Least
Squares)

14
IL MODELLO DI REGRESSIONE LINEARE SEMPLICE

Su un campione di n unità statistiche sono stati osservati i valori


relativi a due distinte variabili:
Y variabile dipendente o variabile risposta
X variabile indipendente o variabile esplicativa

Sulla base dei dati osservati e di alcune assunzioni può essere


formulata la seguente relazione lineare

Yi = β 0 + β1 X i + ui
i = 1, 2,…, n
Dove, per ogni osservazione i nel campione:

β0 e β1 sono costanti dette parametri del modello di regressione


β0 è l’intercetta della retta di regressione nella popolazione
β1 è il coefficiente angolare (pendenza) della retta di regressione nella
popolazione
ui è una variabile casuale e rappresenta il termine di errore

È la retta di regressione della popolazione. Esprime la


Yi = β 0 + β1 X i relazione esistente in media tra Y e X nella
popolazione
15
La stima dei parametri
Lo stimatore dei minimi quadrati ordinari OLS

Lo stimatore dei minimi quadrati ordinari “sceglie” i coefficienti di regressione


in modo che la retta di regressione stimata sia il più possibile vicina ai
dati osservati, dove la vicinanza è misurata dalla somma dei quadrati
degli errori che si commettono nel predire Y data X.
Siano β i β i stimatori di β e β . La retta di regressione basata su
0 1 0 1
questi stimatori è βi 0 + βi 1 X i e quindi il valore di Yi predetto usando
questa retta è Yii = β
i +β
0
i X. Perciò l’errore che si commette nel predire
1 i
la i-esima osservazione è

ei =Yi − β0 (
i +β
i X =Y −β
1 i i
i −β
0
iX )
1 i

La somma dei quadrati degli errori di predizione per tutte le n osservazioni è

∑e = ∑( )
n n 2
2 i −β
Yi − β i X
i 0 1 i
i =1 i =1

Gli stimatori OLS minimizzano la somma dei quadrati degli errori e sono indicati con b0 e
b1
16
Per minimizzare la somma dei quadrati degli errori si calcolo innanzitutto le derivate parziali

∂ n
( ) ( )
2 n

∂β

i i =1
Yi − β 0 − β 1 X i = −2∑ Yi − β
i i
=1
i −β
0
i X
1 i
0 i
∂ n
( ) ( )
2 n

∂β

i i =1
i −β
Yi − β 0
i X = −2
1 i ∑
i =1
i −β
Yi − β 0
i X X
1 i i
1

i e β
Gli stimatori OLS sono i valori di β i per i quali le derivate sono uguali a zero.
0 1

⎧ n
⎪⎪ ∑ (Yi − b0 − b1 X i ) = 0
i =1
⎨ n
⎪ (Y − b − b X ) X = 0
⎪⎩∑
i =1
i 0 1 i i
Equazioni normali
Quindi si ha:

⎧ n n
⎧ n n

⎪⎪ ∑ Yi = nb0 + ∑ b1 X i ⎪⎪ ∑ Yi = nb0 + b1 ∑ X i
i =1 i =1 i =1 i =1
⎨ n n n ⎨ n n n
⎪ YX = ⎪ YX =b
⎪⎩∑ ∑ ∑ ⎪⎩∑ 0∑ 1∑
i i X b
i 0 + X 2
i b1 i i X i + b X i
2

i =1 i =1 i =1 i =1 i =1 i =1

17
Risolvendo il sistema si ricava:
n
n ∑Y i =1
i

n n n n n

∑ X ∑Y X i i i n∑ Yi X i − ∑ X i ∑ Yi
b1 = i =1 i =1
n
= i =1 i =1 i =1
2
⎛ ⎞
∑X
n n
n i n∑ X i2 − ⎜ ∑ X i ⎟
i =1 i =1 ⎝ i =1 ⎠
n n

∑ Xi
i =1
∑ i
X 2

i =1

n n

∑Y i =1
i ∑X i =1
i

n n n n n n

∑Y X ∑ X i i i
2
∑Y ∑ X − ∑ X ∑ X Y
i i
2
i i i
b0 = i =1 i =1
n
= i =1 i =1 i =1 i =1
2
⎛ n ⎞
∑X
n
n i n∑ X i − ⎜ ∑ X i ⎟
2

i =1 i =1 ⎝ i =1 ⎠
n n

∑X ∑X
i =1
i
i =1
i
2

18
Attraverso semplici passaggi algebrici e ricordando le definizioni di varianza e
covarianza si ottiene la seguente espressione per b1

∑( X )( ) ∑( X )( )
N N
− X Yi − Y − X Yi − Y n
i i
σ XY
b1 = i =1
= i =1
= 2
σX
∑( X ) ∑( X )
N 2 N 2
i −X i −X n
i =1 i =1

Dividendo la prima equazione normale per n si ottiene la seguente espressione per b1

1 n 1 n
b0 = ∑ Yi − b1 ∑ X i = Y − b1 X
n i =1 n i =1

I valori predetti (previsti) Yl i e i residui sono espressi da:

Yl i = b0 + b1 X i
eˆ i = y i − yˆ i

19
Rappresentazione grafica del
residuo
Y

(xi,yi ) Ŷ = ˆ
β0 + ˆ
β1x

yi ê i = y i − ŷ i

ŷ i

xi X

Ogni residuo è lo scostamento


verticale tra il valore osservato e il
corrispondente valore sulla retta

20
Rappresentazione grafica del
metodo dei minimi quadrati
Y

Ŷ = ˆ
β0 + ˆ
β1x

La retta si individua minimizzando la somma dei quadrati di


tutti gli scostamenti verticali

21
Stima della risposta media
(valore previsto o predetto di Y)
Le stime dei parametri della retta possono essere
utilizzate per stimare il valore medio di Y per un dato
valore di X
La stima è data da

ŷ i = ˆ
β0 + ˆ
β1 x i

Il valore predetto di Y si ottiene sostituendo nella retta stimata


uno specifico valore di X

22
Tornando all’esempio…

Applicando il metodo dei minimi quadrati è stata stimata la seguente retta di


regressione ˆ Y = −10,19 + 0,67 ⋅ X

V 250
o
l
il coefficiente di regressione ci dice che
u
m
200
ad ogni incremento unitario della variabile
e 150 X la variabile Y subisce anch’essa un
v 100
e
incremento, di intensità 0,67 -ossia ad ogni
n
d
50 incremento di un m2 nella superficie del
i
t 0
supermercato il volume delle vendite
e 0 50 100 150 200
Spazio espositivo
250 300 350
settimanali aumenta di 67 euro
23
Esempio2: in un campione di 10 famiglie italiane si
rilevano il reddito mensile (X) e il consumo mensile
per generi alimentari (Y), in euro

Reddito (xi) Consumo (yi) 500


600 310 480
460
650 320 440

consumo
420
670 340 400

690 380 380


360
700 400 340
320
720 420 300

760 430
550 600 650 700 750 800 850
reddito
780 440
790 470
800 480 Il diagramma di dispersione suggerisce la
presenza di un legame lineare di tipo
crescente

Il coefficiente di correlazione lineare suggerisce la presenza di un forte legame di


interrelazione ρxy=0,97
24
Con l’analisi di regressione lineare si deve stimare
quella retta che descrive meglio la nuvola di punti
evidenziata dal grafico
La retta è 500

stimata quando 480


460

conosciamo il 440

consumo
420

valore 400
380

dell’intercetta
360
340

all’origine e del
320
300

coefficiente
550 600 650 700 750 800 850
reddito

angolare
(pendenza)

25
Utilizziamo il metodo dei minimi quadrati ordinari
X Y y i − y x i − x (xi − x )(yi − y ) (x i − x )2
600 310 -89 -116 10324 13456
650 320 -79 -66 5214 4356
670 340 -59 -46 2714 2116
690 380 -19 -26 494 676
700 400 1 -16 -16 256
720 420 21 4 84 16
760 430 31 44 1364 1936
780 440 41 64 2624 4096
790 470 71 74 5254 5476
800 480 81 84 6804 7056
716 399 34860 39440
y = 399 n n
x = 716 ∑ (x − x )(yi − y ) ∑ (x − x)
2
i i
i=1 i=1

ˆ 34860
ˆ
β0 = 399 − 0,884* 716 = −233,8 β1 = = 0,884
39440

26
Rappresentazione grafica della
retta
500
Per un incremento
480
460
y = 0.8839x - 233.85 unitario di reddito il
440 consumo aumenta in
media di 0,8839
Consumo

420
400
380 (se il reddito
360
340
aumenta di 1000€, il
320 consumo in media
300 cresce di 884€)
550 600 650 700 750 800 850
reddito

ˆ
β 0 = − 233 ,85
ˆ
β 1 = 0 , 8839

27
Valori previsti e residui
Valori osservati Valori osservati Valori stimati (previsti) di Y
di X di Y ŷ i = ˆ
β 0 + ˆ
β 1x i
ei = yi − yˆ i

X Y Y prevista Residui
600 310 296,47 13,53
650 320 340,66 -20,66
670 340 358,34 -18,34
690 380 376,02 3,98
700 400 384,86 15,14
720 420 402,54 17,46
760 430 437,89 -7,89
780 440 455,57 -15,57
790 470 464,41 5,59
800 480 473,25 6,75

28
MISURE DI BONTA’ DI ADATTAMENTO

R2 varia tra 0 e 1 e misura la frazione della varianza di Yi che è spiegata da Xi


L’errore standard della regressione misura la distanza tipica di Yi dal suo valore predetto

SCOMPOSIZIONE DELLA DEVIANZA TOTALE DI Yi


2 2

∑( ) ( ) ∑
n n n

i =1
Yi − Y = ∑ i =1
Yl i − Y +
i =1
e i2

SQR=Somma Quadrati SQE=Somma


SQT=Somma Quadrati
Regressione (Eexplained Quadrati Errore
Totale (Total Sum of
Sum o Squares, ESS) (Sum of Squared
Squares TSS)
Residuals SSR)
In modo equivalente la varianza di Y può essere scomposta nella somma delle varianze
campionarie delle sue componenti ortogonali: la previsione e il residuo
( )
V (Yi ) = V Yl i + V ( ei )
Tale decomposizione sussiste solo se il modello possiede una intercetta. Solo in tal
caso
n

∑Y = ∑Yl
i i e ∑e X
i =1
i i =0
29
Sotto questa condizione la devianza di Y può essere scomposta in:
2 2

∑ (Y ) ( )
n n

i =1
i −Y = ∑
i =1
Y − Yl i + Yl i − Y =
2 2

(Y ) + ∑ (Yl ) ( ) (Yl )
n n n
= ∑
i =1
− Yl i
i =1
i −Y + 2 ∑ Y − Yl i
i =1
i −Y

La scomposizione precedente è dimostrata perché, il doppio prodotto è nullo.


Infatti:

( )( ) ( ) ( )
n


i =1
Y − l Yl
Y i i − Y = ∑ ei Yl i − Y = b1 ∑ ei X i − X =

= b1 ⎡⎣ ∑ ei X i − X ∑ ei ⎤⎦ = b1 [ 0 − 0] = 0 Sostituendo le stime
dei parametri in Yl i

Ricordando la prima e la seconda delle equazioni normali

30
Il coefficiente di determinazione R2
Sulla base di tale scomposizione della varianza di Yi può essere computata
una misura della bontà di adattamento del modello ai dati denominata
coefficiente di determinazione lineare

n 2

∑ (ŷ i − y ) SQR SQE


R 2
= i=1
2
= = 1 −
n SQT SQT
∑ (y
i=1
i − y )

2 2

( ) ( )
n n
1 ( n − 1) ∑ Yl i − Y 1 ( n − 1) ∑ Y − Yl i
R2 =
( )=
V Yl i
i =1
R2 = 1 −
V ( ei )
= 1− i =1
V (Yi ) n 2
V (Yi ) n 2

1 ( n − 1) ∑ (Yi − Y ) 1 ( n − 1) ∑ (Yi − Y )
i =1 i =1

R2 può assumere valori compresi nell’intervallo [0,1] ma alcune fonti


di variazioni sono più difficili da spiegare di altre. Il giudizio sul valore
di R2 dipende dai contesti di applicazione
31
L’errore standard della regressione (SER, Standard Error of the
Regression)

E’ uno stimatore della deviazione standard dell’errore di regressione


ui. Il SER misura la dispersione della distribuzione di u.

SER =
1 n

n − 2 i =1
(
ei − e
2
)
1 n 2
= ∑
n − 2 i =1
ei
n

La seconda uguaglianza vale perché ∑e


i =1
i =0
Il SER:
ha le unità di e, che sono le unità di Y
misura la “dimensione” media del residuo OLS (l’“errore” medio della retta di regressione
OLS)

Attenzione: il denominatore in questo caso è n-2, esso corregge per una


piccola distorsione verso il basso dovuta alla stima di due parametri
(coefficienti) 32
SCOMPOSIZIONE DELLA DEVIANZA (VARIANZA) IN UNO SCHEMA DI REGRESSIONE LINEARE
2 2

( )
n n n

∑ ( yi
i =1
− y ) = ∑
i =1
yi − y + ∑
i =1
e i2

yi n 2

ei = yi − y i
TSS = ∑ (y
i =1
i − y )

(y )
2
yi − y
n

y *
ESS = ∑i =1
i − y
i

y i−y
n

y
RSS = ∑
i =1
e i2

xi X

33
L’interpretazione del coefficiente R2 - casi limite
Il modello si adatta perfettamente ai dati R2 = 1

La variabilità di Y è completamente spiegata dal modello di regressione


Îtutti i punti corrispondenti alle osservazioni campionarie giacciono
esattamente sulla retta
Îtutti i residui campionari sono pari a zero e pari a zero è la devianza
residua
Î SQT =SQR
0
18
0 1 2 3 4 5 6
16 y = 2 + 3x -2
2
14 R =1 -4
12
10 -6
8 -8
6
4 -10
2 y = 2 -3x
-12
2
0 R =1
0 1 2 3 4 5 6 -14

34
L’interpretazione del coefficiente R2 - casi limite

Il modello non si adatta per niente ai dati R2 = 0


Æil modello non riesce a spiegare nessuna parte - seppur minima -
della variabilità di Y
ÆLa devianza spiegata è pari a zero; la retta stimata è parallela all’asse
delle ascisse
ÆTutta la variabilità di Y è nei residui

12.5 5.5
12 y = 10.8
11.5 R2 = 0 5

11 4.5

10.5
4
10

9.5 3.5 y = 4.6


R2 = 0
9 3
0 1 2 3 4 5 6 0 1 2 3 4 5 6

35
…alcuni esempi
25 12
y = 10.6 -0.2x
R2 = 0.0026
20 10

8
15
6
10
4

5 y = 8.8 -0.6x
2
R2 = 0.18
0 0
0 1 2 3 4 5 6 0 1 2 3 4 5 6

30 9

25
y = 12.3+2.3x 8 y = 1.6+1.2x
20 R2 = 0.7472 7 R2 = 0.973
6
15 5
4
10
3
5 2
0 1
0 1 2 3 4 5 6 0
0 1 2 3 4 5 6

36
Le assunzioni dei minimi quadrati

• Quali sono, precisamente, le proprietà della


distribuzione campionaria dello stimatore OLS?
Quando lo stimatore sarà non distorto? Qual è la
sua varianza?

• Per rispondere a queste domande dobbiamo fare


alcune assunzioni sulla relazione tra Y e X e su
come sono ottenute (lo schema di
campionamento)

• Queste assunzioni – sono tre – sono note come


assunzioni dei minimi quadrati.
LE ASSUNZIONI DEI MINIMI QUADRATI
Assunzione 1
La distribuzione condizionata di ei data Xi ha media nulla
Questo implica che b1 è non distorto E ( ui X i ) = 0

Questa assunzione è una formalizzazione matematica riguardante gli “altri


fattori” contenuti in ei ed afferma che questi fattori non sono legati a Xi nel
senso che, dato un valore di Xi, la media della distribuzione di questi altri
fattori è pari a zero.
Questa assunzione viene di solito interpretata come quella che stabilisce che
le variabili X sono esogene. Essa implica inoltre che: E (Yi X i ) = β 0 + β1 X i
E (Yi | X = x 1 ) y
Distribuzione dei
valori di Y quando
X=x1

E(Yi | X = xi ) = β0 + β1xi

x1 x2 x3 x 38
L’assunzione circa la media condizionata implica che Xi e ui siano
incorrelati, ovvero
corr ( X i , ui ) = 0

Poiché la correlazione è una misura di associazione lineare non


vale invece il contrario. Anche se Xi e ui fossero incorrelati la
media condizionata di ui data Xi potrebbe essere non nulla.
Spesso si discute l’assunzione circa la media condizionata nei
termini di una possibile correlazione tra Xi e il termine di errore.
Se Xi e ui sono correlati allora l’assunzione circa la media
condizionata è violata.

In molti casi è ragionevole ritenere che il termine d’errore


contenga variabili non osservate collegate a variabili osservate
raccolte in X.
E’ necessaria quindi una certa cautela nell’interpretare i
coefficienti di regressione ottenuti come misure di effetti causali.

39
Assunzione 2
(Xi, Yi) sono indipendentemente e identicamente distribuite (i.i.d.). Tale
assunzione è una formalizzazione matematica di come viene estratto il
campione. Se le osservazioni sono estratte con campionamento casuale
semplice da un’ampia popolazione, allora (Xi, Yi) i=1,..,n sono i.i.d. In altre
parole, ogni insieme di (Xi, Yi) rappresenta un’estrazione casuale dalla
distribuzione che caratterizza la popolazione.
L’assunzione di i.i.d. è ragionevole per molti schemi di campionamento

In alcuni casi lo schema di campionamento è non-i.d.d. Ad esempio, nel


caso delle serie temporali quando una stessa unità viene osservata
ripetutamente nel tempo.

Assunzione 3
Gli outlier (ossia osservazioni con valori di Xi o Yi molto lontani) sono
improbabili. Tale assunzioni può essere formulata in termini matematici
affermando che X e Y hanno curtosi finita. L’assunzione di curtosi finita è
plausibile in molte applicazioni che coinvolgono dati economici.
Un modo per scoprire gli outlier è quello di rappresentare graficamente i
dati. Se si decide che un outlier è dovuto, ad esempio, ad un errore di
inserimento dati allora si può correggere l’errore, oppure, nel caso in cui
ciò sia impossibile, si può eliminare l’osservazione dai dati.

40
LE ASSUNZIONI DEI MINIMI QUADRATI

Le assunzioni dei minimi quadrati sono molto importanti e la loro comprensione è


molto importante per capire quando gli OLS forniscono stime utili dei coefficienti di
regressione.
Il primo ruolo svolto dalle assunzioni è di tipo matematico: se valgono le assunzioni
precedenti allora, in grandi campioni, gli stimatori OLS hanno distribuzioni
campionarie normali. Si possono quindi costruire intervalli di confidenza e verifica di
ipotesi.

Il secondo ruolo è quello di identificare le circostanze che creano difficoltà per la


regressione OLS. La prima assunzione è la più importante da considerare nelle
applicazioni pratiche (distorsioni da variabili omesse).
E’ anche importante verificare se valga la seconda assunzioni che per dati sezionali
risulta plausibile.
La terza assunzione serve a ricordare che gli OLS, come la media campionaria,
sono sensibili agli outlier. Se i dati contengono outlier è importante esaminare bene
quelle osservazioni per essere sicuri che appartengano al campione e non siano
solo il risultato di errori di registrazione.

41
APPLICAZIONE EMPIRICA
Esempio tratto dal testo Stock J.H. e Watson, M.W. Introduzione all’econometria,
Pearson, 2009

Dati: file “Retribuzioni”


Variabili: Y= retribuzione media oraria (in US dollari); tre variabili
indipendenti X=età, laurea e genere
In questo esempio si studia la relazione tra retribuzione media
oraria (Y) ed età del lavoratore (X)

Sulla base delle variabili contenute nel file “Retribuzioni”:


1. Stimare il modello di regressione lineare che mette in relazione
la retribuzione media oraria Y all’età del lavoratore X
2. Stimare la retribuzione di un lavoratore di 30 anni
3. Valutare la bontà di adattamento del modello stimato

42
Riepilogo statistiche descrittive di Y e X (Utilizzando in Excel, tra gli strumenti di
analisi, “statistiche descrittive”
Retribuzione oraria media Età

Media 16,771 Media 29,754


Errore standard 0,098 Errore standard 0,032
Mediana 14,904 Mediana 30,000
Moda 19,231 Moda 34,000
Deviazione standard 8,759 Deviazione standard 2,891
Varianza campionaria 76,715 Varianza campionaria 8,359
Curtosi 2,656 Curtosi -1,226
Asimmetria 1,411 Asimmetria -0,103
Intervallo 58,960 Intervallo 9,000
Minimo 2,098 Minimo 25,000
Massimo 61,058 Massimo 34,000
Somma 133934,402 Somma 237619,000
Conteggio 7986,000 Conteggio 7986,000

43
Diagramma di dispersione

Retribuzione media oraria 70

60

50

40

30

20

10

0
0 5 10 15 20 25 30 35 40

Età

Il coefficiente di correlazione lineare, ρXY=0,15 suggerisce l’esistenza di un modesto


legame positivo (In Excel funzione “correlazione”)

44
Utilizzando in Excel, tra gli strumenti di analisi, “regressione” e selezionando come
variabile dipendente la retribuzione media oraria e indipendente l’età si ottiene il
seguente output:
OUTPUT RIEPILOGO

Statistica della regressione


R multiplo 0,1492
R al quadrato 0,0223
R al quadrato corretto 0,0221
Errore standard 8,6612
Osservazioni 7986,0000

ANALISI VARIANZA
gdl SQ MQ F Significatività F
Regressione 1,0 13631,814 13631,814 181,716 0,000
Residuo 7984,0 598935,455 75,017
Totale 7985,0 612567,269

Coefficienti Errore standard Stat t Valore di significatività Inferiore 95% Superiore 95%
Intercetta 3,324 1,002 3,317 0,001 1,360 5,289
Età 0,452 0,034 13,480 0,000 0,386 0,518

a) La retta stimata è quindi espressa da:

yˆ i = 3,324 + 0,452 xi

Per un incremento unitario dell’età la retribuzione media


oraria aumenta di 0,452 dollari
45
b) La retribuzione di un lavoratore di 30 anni è espressa da:

yˆ i = 3,324 + 0,452 ⋅ 30=16,884

c) La bontà di adattamento del modello è espressa da R2

R2=0,0223 indica un basso grado di adattamento del modello ai dati


osservati. Solo il 2,23% della variabilità totale di Y è spiegata dal
modello

Si ottiene rapportando
n 2

∑ ( yˆ i − y ) 1 3 .6 3 1 ,8 1 4 5 9 8 ,9 3 5 ,4 5 5
R2 = i =1
2
= =1− = 0, 0223
n 6 1 2 .5 6 7 ,2 6 9 6 1 2 .5 6 7 ,2 6 9
∑ (y
i =1
i − y )

46
Inferenza sulla regressione
Le stime dei coefficienti del modello β0 e β1 e la stima della
risposta media dipendono dal campione osservato
Al variare dei campioni si generano le v.c. stimatori dei
coefficienti di regressione che indichiamo con b0 e b1 .

Sebbene le distribuzioni campionarie di b0 e b1 possano


essere complesse quando la numerosità campionaria è
piccola, si può sempre affermare che gli stimatori OLS sono
stimatori non distorti per qualsiasi n.

Se il campione è sufficientemente numeroso, per il


teorema del limite centrale la distribuzione
campionaria di b0 e b1 è ben approssimata dalla
distribuzione normale.

47
La distribuzione campionaria di b1
Per derivare la distribuzione in grandi campioni sono necessarie
solo le seguenti assunzioni:

Le assunzioni dei minimi quadrati:


1.E(u|X = x) = 0.
2.(Xi,Yi), i =1,…,n, sono i.i.d.
3.Gli outlier sono rari

⎛ σ v2 ⎞
b1 ~ N ⎜ β1 , 2 2⎟ , dove vi = (Xi – μX)ui
⎝ n(σ X
) ⎠

La varianza di X appare (al quadrato) al denominatore – perciò


aumentando la dispersione di X diminuisce la varianza di β1.

Ragionamento intuitivo: Se vi è più variazione in X, allora vi sono più


informazioni nei dati che si possono utilizzare per l’adattamento della retta
di regressione.
48
PROPRIETA’ DELLO STIMATORE OLS IN CAMPIONE FINITI
IL TEOREMA DI GAUSS-MARKOV: LE IPOTESI

1) E(ui)=0 i=1…n

V(ui)= σ per ogni i=1…n (ipotesi di varianza


2
2)
costante o omoschedasticità)

3)Cov(uiuj)=0 i,j =1…n i≠j (I termini di errore (relativi


ad unità statistiche differenti) hanno correlazione
nulla, sono cioè incorrelati. Questa ipotesi esclude la
presenza di qualsiasi forma di autocorrelazione)

4)La variabile X è non stocastica (i dati relativi alla


variabile indipendente X sono “noti senza errore”, cioè
non soggetti a deviazione di natura accidentale).

49
Proprietà dello stimatore OLS
Sotto le assunzioni dei minimi quadrati (1-3) e ipotesi 1-4, lo
stimatore OLS gode delle seguenti proprietà:

Proprietà 1) b0 e b1 sono corretti (non distorti unbiased)


cioè E(b0)= β0 e E(b1)= β1

Proprietà 2) nella classe degli stimatori corretti che sono


funzioni lineari di Yi gli stimatori dei minimi quadrati b0 e
b1 sono i più efficienti (Teorema Gauss-Markov).
Sinteticamente si può affermare che gli stimatori OLS
sono stimatori BLUE (Best Linear Unbiased
Estimator) ossia sono i migliori stimatori (i più efficienti
ossia con varianza più piccola) lineari e corretti.
OLS è la scelta migliore di qualsiasi altro stimatore
consistente.

50
ERRORE STANDARD DELLO STIMATORE b1

L’errore standard classico del coefficiente angolare (pendenza) o


errore standard nel caso di omoschedasticità pura, assume la
forma seguente:

⎛∧ ⎞ σ u2
⎛ ⎞

⎛ ⎞∧
VAR⎜ β 1 ⎟ =
SE ⎜ β 1 ⎟ = var⎜ β 1 ⎟ ⎝ ⎠
∑ (X )
n
2
⎝ ⎠ ⎝ ⎠ i −X
i =1

In altre parole se valgono le ipotesi di Gauss-Markov la varianza dello


stimatore assume la forma precedente

51
OMOSCHEDASTICITA’

•E(u|X=x) = 0 (u soddisfa la prima assunzione dei Minimi Quadrati)


•La varianza di u non cambia con x (non dipende da x)

52
ETEROSCHEDASTICITA’

•E(u|X=x) = 0 (u soddisfa la prima assunzione dei Minimi Quadrati)


•La varianza di u dipende da x. Quindi siamo in presenza di
Eteroschedasticità
53
Un esempio con dati reali dall'economica del lavoro:
retribuzione oraria media rispetto agli anni di istruzione (fonte
dati: Current Population Survey):

Eteroschedasticità o omoschedasticità?

54
LIMITI DEL TEOREMA DI GAUSS MARKOV

Il teorema di Gauss-Markov fornisce una giustificazione teorica all’utilizzo


degli OLS. Tuttavia il teorema ha due limiti importanti.

1)Le sue condizioni potrebbero non valere nelle applicazioni. In particolare


se il termine di errore è eteroschedastico allora lo stimatore OLS non è più
BLUE. La presenza di eteroschedasticità non è una minaccia all’inferenza se
basata sullo stimatore robusto dello varianza degli errori standard.

2)Anche se valgono le assunzioni del teorema ci sono altri stimatori


alternativi che non sono lineari e condizionatamente non distorti. Sotto certe
condizioni questi altri stimatori sono più efficienti degli OLS.

55
Stime e stimatori nella regressione
Parametro Stima Stimatore
Media Varianza

⎛ ⎞
ˆ
β0 = ⎜ ⎟
2 1 x2
σ ⎜ + ⎟
= Y −ˆ
n
β1 X b0 β0 ⎜n (xi − x)2 ⎟⎟
β0 ⎜


i=1 ⎠
σ2
ˆ
β1 = n

β1 = σ xy σ 2
b1 β1 ∑
i=1
(xi − x)2
x

Il teorema di Gauss- Markov fornisce una giustificazione teorica all’uso


degli OLS. Tuttavia, le sue condizioni potrebbero non valere in pratica. Se il
termine di errore è eteroschedastico, come spesso accade nelle
applicazioni economiche, allora lo stimatore OLS non è più BLUE.

56
Stima della varianza σ2

Per stimare la varianza di bo e b1 dobbiamo sostituire la


varianza degli errori σ 2 = V (u i ) , ignota, con una
sua stima
Lo stimatore corretto di σ2 è dato da
n

∑ ê i2
s 2
= i=1

n − 2
Questo stimatore presenta una correzione per i gradi di
libertà, dato che a denominatore troviamo il numero delle
osservazioni meno il numero dei regressori.

s = s2 è l’errore standard di regressione, già


introdotto, e misura la dispersione dei punti osservati
intorno alla retta di regressione.

57
STIMA DELL’ERRORE STANDARD DI bo e b1
Ipotesi di Omoschedasticità

La varianza stimata di bo e b1 in caso di errori omoschedastici è


espressa da:
⎛ ⎞
⎜ x2 ⎟ s2
l 2 1 l (b ) =
V (b0 ) = s ⎜ + n
⎟; V 1 n
⎜n 2 ⎟



i =1
( x i − x ) ⎟

∑ i
( x
i =1
− x )2

s2
VAR(b1 ) = SE (b1 ) = VAR(b1 )
nσ X2
La radice quadrata viene di solito chiamata standard error (o
errore standard) di bo e b1 , indicato con se(b0) e se(b1) e
rappresenta una stima dello scarto quadratico medio dello stimatore
OLS e dunque uno strumento per misurarne la precisione.
Var(b1)è inversamente proporzionale a var(X): maggiore dispersione in
X significa più informazioni su b1.
58
STIMA DELL’ERRORE STANDARD DI bo e b1
Esiste una formula più generale per la stima della varianza di b1
che vale anche nel caso di errori eteroschedastici (si parla di
stimatore robusto all’eteroschedasticità). Si ha:
1 n 2
VAR(b1 ) = 1 ∑
n − 2 i =1
vˆi vˆi = ( X i − X )uˆi
× 2
n ⎡1 n ⎤
⎢n ∑ ( X i − X ) 2

⎣ i =1 ⎦

SE (b1 ) = VAR(b1 )
Abbiamo ora due formule per gli errori standard per b1
• Il principale vantaggio degli errori standard per l'omoschedasticità
pura è che la formula è più semplice. Lo svantaggio, però, è che
la formula è corretta solo se gli errori sono omoschedastici.

59
STIMA DELL’ERRORE STANDARD DI bo e b1

Implicazioni pratiche…

• La formula dell'omoschedasticità pura per l'errore standard di b1


e la formula “robusta all’eteroschedasticità" sono diverse –
quindi, in generale, si ottengono errori standard diversi
utilizzando formule differenti.
• Gli errori standard per l'omoschedasticità pura sono
l'impostazione predefinita nei software di regressione – a
volte l'unica impostazione (per esempio in Excel). Per
ottenere gli errori standard "robusti all'eteroschedasticità"
generali occorre modificare l’impostazione di default.
• Se non si modifica l’impostazione di default e vi è
eteroschedasticità, gli errori standard (e la statistica-t
e gli intervalli di confidenza) saranno errati –
generalmente, gli SE per l'omoschedasticità pura sono
troppo piccoli.

60
Distribuzione campionaria di b0 e b1
Con un campione di N osservazioni (finito), l’inferenza
statistica esatta è possibile solo formulando esplicitamente
ipotesi sulla forma della distribuzione dei termini di errore.
L’ipotesi più comune è che gli errori abbiano distribuzione
normale
( )
ui ∼ NID 0, σ 2 i = 1,..., N
5)

Che rappresenta un modo compatto per indicare che i termini


di errore sono estrazioni casuali da una distribuzione normale
(n.i.d.) di media nulla e varianza σ2.
Sotto questa ipotesi anche la yi (per un dato valore di xi)
segue una distribuzione normale. Talvolta l’ipotesi di
distribuzione normale può non essere appropriata. Va
comunque osservato che la maggior parte delle ipotesi (che
hanno una rilevanza diverse per la validità dei risultati che
seguono) può essere sottoposta a verifica empirica.
61
Distribuzione campionaria di b0 e b1
Sotto le ipotesi 1-4 e 5 lo stimatore OLS, come funzione lineare dei
termine di errore, ha distribuzione di probabilità Normale:
b1 − β1
⎛ ⎞ ~ N ( 0;1)
n
⎜ σ 2 ⎟ σ2 ∑ i
( x − x )2

b1 ~ N ⎜ β1; n ⎟ i =1
⎜ 2 ⎟
⎜ ∑ i ( x − x ) ⎟
⎝ i =1 ⎠ b0 − β 0
⎛ ~ N ( 0;1)
⎛ ⎞⎞ ⎛ ⎞
⎜ ⎜1 ⎟⎟
x 2
⎜ x2 ⎟
b0 ~ N ⎜ β0 ;σ 2 ⎜ + n ⎟⎟ 2 1
⎜ σ ⎜ + ⎟
⎜n 2 ⎟⎟
n
∑ ⎜n ( x i − x )2 ⎟⎟
⎜ ⎜

( xi − x ) ⎟ ⎟
⎠⎠


∑ ⎠
⎝ i =1 i =1

Y i ~ N(β 0 + β 1 x i; σ 2 )
62
Distribuzione campionaria di b0 e b1

Quando al posto di σ2 utilizziamo la stima corretta s2

b1 − β 1
~ tn − 2 b1 − β 1
n ~ tn − 2
s2 ∑ i
( x
i =1
− x ) 2
s ( b1 )
Errore
standard di b1
b0 − β 0 b0 − β 0
~ tn − 2 ~ tn − 2
⎛ ⎞ s ( b0 )
⎜1 x2 ⎟
Errore
s2 ⎜ + ⎟
⎜n
n
2 ⎟
standard di b0
⎜ ∑ ( x i − x ) ⎟
⎝ i =1 ⎠
Distribuzione t di Student con n-2
gradi di libertà
63
Intervalli di confidenza dei
coefficienti di regressione
Al livello di confidenza 1-α

β1

P ( b1 − tα 2;n−2 ⋅ s ( b1 ) < β1 < b1 + tα 2;n−2 ⋅ s ( b1 ) ) = 1 − α

β0

P ( b0 − tα 2;n−2 ⋅ s ( b0 ) < β0 < b0 + tα 2;n−2 ⋅ s ( b0 ) ) = 1 − α

Un intervallo di confidenza al 95% per β1 contiene il vero valore del parametro


con probabilità 95%, ovvero contiene il vero valore del parametro nel 95% di
tutti i possibili campioni estratti casualmente

64
Stima per intervallo.
Esempio Dati consumo-reddito
êResidui
i = yi − ŷi ê i2
n

∑ i
ê 2
1878,14
13,53 183,04 s =
2
=
i=1
= 234,77
-20,66 427,01 n−2 8
-18,34 336,42 Errore standard della regressione
3,98 15,85
15,14 229,28 s = 234 ,77 = 15,32
17,46 305,01
-7,89 62,26 Errore standard di b1
-15,57 242,36 234,77
5,59 31,29 s(b1 ) = = 0,078
39440
6,75 45,62
1878,14 Errore standard di b0
n

∑ ê 2
i
⎛ 1
s(b0 ) = 234,77 ⎜ +
7162 ⎞
⎟ = 55, 45
⎝ 10 39440 ⎠
i= 1

65
Stima per intervallo.
Esempio Dati consumo-reddito

Al livello di confidenza 1 − α = 0 ,95 t 0 , 025 ; 8 = ± 2 ,31

β1 P(0,88 − 2,31 × 0,078 < β1 < 0,88 + 2,31 × 0,078) = 0,95

stima puntuale valore t S(b1)

P (0 ,71 < β 1 < 1,06 )= 0 ,95

β0 P(− 233,85 − 2,31 × 55,45 < β0 < −233,85 + 2,31 × 55,45) = 0,95

P(- 361,73 < β0 < -105,26) = 0,95

66
Verifica di ipotesi sui coefficienti di
regressione
Possiamo essere interessati a verificare:
H0 : β1 = β10 H0 : β1 = β10 H0 : β1 = β10
1) 2) 3)
H1 : β1 ≠ β10 H1 : β1 > β10 H1 : β1 < β10

Gli stessi sistemi di ipotesi si possono specificare per


il parametro intercetta β0

Statistica test b 1 − β 10
t = ~ t n −2
s (b 1 )

si respinge l’ipotesi nulla se per un certo livello di significatività


α si verifica, rispettivamente nelle tre tipologie precedenti, che:
1)
t > tn−2;α 2 2) t > tn −2;α 3) −t < −tn−2;α
67
Approccio del p-value
La conclusione di un test può dipendere dalla scelta del livello
di significatività α.
Un’ipotesi nulla rifiutata per α=0,10 potrebbe essere accettata
con α=0,01
L’approccio del p-value permette di sganciare l’esito del test
dalla scelta di α.
Il p-value è definito come la probabilità di osservare un valore
della statistica test uguale o più estremo di quello osservato
effettivamente sul campione, dato che H0 è vera.
Il p-value è chiamato anche “livello di significatività
osservato”
A differenza di α il p-value non è una quantità fissata a priori
Il p-value misura quanto i dati campionari supportano H0: più
piccolo è il p-value, minore è il supporto a favore di H0
(maggiore è l’evidenza contro H0)

Si rifiuta H0 se p-value < α


Si accetta H0 se p-value > α 68
Verifica di ipotesi sui coefficienti di
regressione
Un test frequentemente utilizzato è il seguente:

H0 : β1 = 0 H0 : β0 = 0
H1 : β 1 ≠ 0 H1 : β 0 ≠ 0

Se accetto H0 vuol dire che Se accetto H0 vuol dire che la


non c’è nella popolazione una relazione nella popolazione
significativa relazione di può essere rappresentata
dipendenza lineare di Y da X. mediante una retta passante
In altre parole X non ha un per l’origine
effetto “significativo” nello
spiegare le variazioni di Y.

Test di significatività
69
Statistica test
La statistica test si risolve nel rapporto tra il parametro
stimato e il rispettivo errore standard; se tale rapporto
supera il livello critico (individuato dalle tavole), si può
rifiutare H0 e quindi mantenere il parametro stimato
nel modello di regressione.
b1
t = ~ t n −2
s (b 1 )
H0:β1=0 Al livello di significatività α, accetto H0
H1:β1≠0 se il valore della statistica test
calcolato sul campione cade nell’area
di accettazione dell’ipotesi nulla, cioè
se
βˆ1
− tα < < tα
s ( b1 )
2; n − 2 2; n − 2

70
Nei software statistici (ma anche in Excel), la
presentazione dei risultati sul modello di regressione
include la stima dei parametri con i rispettivi errori
standard e il loro rapporto (che costituisce la
statistica test calcolata t per verificare che i
parametri siano nulli), assieme al p-value (valore di
significatività in excel) dato dalla probabilità di
osservare un valore della statistica test uguale o
maggiore del valore ottenuto mediante i dati
campionari sotto ipotesi nulla.

Con riferimento al p-value, il parametro stimato è


considerato significativo (cioè si rifiuta l’ipotesi H0 che
il valore del parametro sia pari zero) quando il
corrispondente p-value è inferiore ad un livello di
significatività α adeguato. Ad esempio se α è pari a
0,05, il parametro stimato si riterrà
significativamente diverso da zero se il p-value
osservato è inferiore a 0,05.
71
Analisi della varianza nella
regressione
Il test di significatività di X ovvero H0 : β1 = 0
può essere derivato anche dalla procedura di
analisi della varianza (ANOVA)
Ricordando la scomposizione della devianza
totale SQT=SQR+SQE, si può dimostrare
che, sotto H0, n

∑ (ŷ − y) 1
2

SQR 1 i
= i=1
~ F(1;n − 2)
SQE (n − 2) n

∑ (n − 2)

i=1
2
i

dove F(1,n-2) indica la distribuzione F di Fisher


con 1,n-2 gradi di libertà

72
Tavola ANOVA
Sorgente Somma gdl Media F
di variazione dei dei quadrati
quadrati
Regressione SQR 1 MQR=SQR/1 F=MQR/MQE
Errore SQE n-2 MQE=SQE/(n-2)
Totale SQT n-1

Valori campionari della statistica F vicini a 1 fanno


propendere per accettare H0 : β1 = 0

Valori di F molto grandi fanno rifiutare H0 a favore di


H1 : β1 ≠ 0

73
Test F
Ad un livello di
significatività α, si accetta
H0 se F<Fα;1,n-2
In questo caso si conclude
che non c’è relazione
statisticamente
significativa.
Si rifiuta H0 se F>Fα;1,n-2,
concludendo che Y
dipende linearmente da X
Fα; 1,n-2

74
Confronto test t – test F
Per verificare H0 : β1 = 0 contro H1 : β1 ≠ 0
valgono le uguaglianze (tα 2;n−2 ) = Fα;1;n−2
2

(tosservato)
2
= Fosservato

Quindi si può concludere che nel modello


di regressione lineare semplice il test t
(con l’ipotesi alternativa bidirezionale) e il
test F (ANOVA) sono del tutto equivalenti.
Nell’esempio dell’ipermercato
(t ) = 3,18 = 10,13 = F
0 ,025 ;3
2 2
0 ,025 ;1;3

(t ) = 4,57 = 20,89 = F
osservato
2 2
osservato

75
ESERCIZIO
In un ipermercato di Viterbo è stata svolta
un‘indagine per rilevare il prezzo del pane negli ultimi
cinque mesi (in euro al Kg) e le quantità consumate
in media in un giorno (in Kg)

prezzo quantità
1,65 210
1,67 198
1,68 176
1,69 175
1,7 174

Stimare la retta di regressione che mette in


relazione la quantità in funzione del prezzo

76
Stima dei coefficienti di regressione - Output Excel

Coefficienti
Intercetta 1529
Variabile X 1 -800

La retta stimata è Y=1529-800X


Un aumento di 1€ del prezzo al Kg del pane fa diminuire la
quantità media di pane consumato giornalmente di 800 kg

Statistica della regressione La dipendenza


lineare è forte
R al quadrato 0,87
(R2=0,87)
Errore standard 6,73
s=6,73

77
Rappresentazione punti osservati e retta di
regressione - Output Excel
250
y = -800x + 1529
2
R = 0.8744
200

150
1.64 1.68 1.72

78
Test t - Output Excel
Coefficienti Errore standard Stat t p-value
Intercetta 1529 293,69 5,21 0,01
Variabile X 1 -800 175,02 -4,57 0,02

Per verificare H0 : β1 = 0
H1 : β1 ≠ 0

βˆ1 −800
t = = = − 4, 5 7
s ( b1 ) 1 7 5, 0 2

Al livello α=0,05 t 0 , 025 ;3 = ± 3,18

-4,57<-3,18 t3

Si rifiuta H0 -4,57 -3,18 3,18

C’è evidenza sufficiente per concludere che la quantità


consumata di pane dipende linearmente dal prezzo

79
Esempio Test F ANOVA - Output Excel
ANALISI VARIANZA
gdl SQ MQ F p-value
Regressione R 1 947,20 947,20 20,89 0,02
Errore E 3 136,00 45,33
Totale 4 1083,20
Per verificare H0 : β1 = 0
H1 : β1 ≠ 0
MQR 947 ,20
F = = = 20 ,89
MQE 45,33
Al livello α=0,05 F0,05;1;3 = 10,13

20,89>10,13 Si rifiuta H0
C’è evidenza sufficiente per concludere che la quantità
consumata di pane dipende linearmente dal prezzo

80
Utilizzo del modello di
regressione per la previsione
Fare una previsione può significare due cose :
1) prevedere il valore atteso E(Yi|X=xi) della
variabile risposta in corrispondenza di un dato
valore di X, diciamo xi
[è un parametro, cioè la media di tutte le Y per le
unità per le quali X=xi, ad esempio il consumo medio
previsto per tutte quelle famiglie con un reddito pari a
40.000€]
2) prevedere il valore singolo della variabile risposta
in corrispondenza di un dato valore di x, diciamo xi
[è una singola determinazione di Yi, ad esempio il
consumo previsto per una particolare famiglia con un reddito
di 40.000€]
81
Previsione puntuale e intervallare
Nei due casi, la stima puntuale del valore previsto
coincide ed è pari a:
ŷ i = ˆ
β 0 +ˆ
β 1x i
La stima per intervallo, invece, è diversa nei due casi.
Il grado di incertezza associato alla previsione di una
media è minore del grado di incertezza associato alla
previsione di un singolo valore.

L’intervallo di confidenza per il valor medio è


meno ampio dell’intervallo di confidenza per la
previsione di un singolo valore

82
Inferenza per la risposta media
Abbiamo visto che lo stimatore di E(Yi|X=xi) è
Ŷ i = ˆ
β 0 +ˆ
β1x i

La stima del suo errore standard è data da:


⎡ ⎤
( )=
s Ŷ i ( )=
V Ŷ i
⎢1
s2 ⎢ +
(x i − x )
2

n ⎥
⎢n ∑ (x h − x )2 ⎥
⎣ h =1 ⎦
Ŷi − E(Yi | X = x i )
~ t n−2
( )
s Ŷi

Gli estremi dell’intervallo di confidenza per il


valor medio E(Yi|X=xi) a un livello di confidenza
1-α sono dati da: ⎡ ⎤
⎢1
Ŷ i ± t α 2 , n − 2 ⋅ s ⎢ + n
2 (xi − x)
2


⎢n ∑ h (x − x )2

⎣ h =1 ⎦

83
Esempio: Riprendiamo l’esempio dell’ ipermercato
di Viterbo e costruiamo l’intervallo di confidenza al
95% per la quantità media quando il prezzo è pari a
1,66 (valore non osservato di X)

Ŷi = 1529 − 800 × 1,66 = 201


x
s
( )
s Ŷ i = 6 ,73
⎡1 (1,66 − 1,68 ) ⎤
2

⎢ + ⎥ = 4 ,62
⎣5 0,00148 ⎦
n
t 3 ,0 ,025 = ± 3,18 ∑ (x h − x)
2

h =1

Estremi dell’intervallo di confidenza


186,31
201 ± 3,18 × 4,62 =
215,69

84
Inferenza per la previsione di un
singolo valore
Ad un livello di confidenza 1-α gli estremi
dell’intervallo di confidenza per la previsione di un
singolo valore sono dati da:
⎡ ⎤
Ŷi ± t α 2;n − 2 ⋅
⎢ 1
s ⎢1 + +
2 (x i − x ) ⎥
2

n ⎥
n (x h − x ) ⎥

2

⎣ h =1 ⎦

85
Esempio: Riprendiamo l’esempio dell’ipermercato di
Viterbo e costruiamo l’intervallo di previsione al 95%
per la quantità prevista per quella unità il cui prezzo
è pari a 1,66
Ŷi = 1529 − 800 × 1,66 = 201
⎡ 1 (1,66 − 1,68 ) ⎤
2

s(previsione valore singolo ) = 6,73 ⎢1 + + ⎥ = 8,16


⎣ 5 0,00148 ⎦
t 0 , 025 , 3 = ± 3 ,18

Estremi dell’intervallo di previsione per il singolo valore


175,05
201 ± 3,18 × 8,16 =
226,95

86
Intervalli di confidenza al 95% per il
valore medio e per il valore singolo
250 per il valore singolo L’int. di confidenza
240 per il valore medio per il valore medio è
230
220
meno ampio dell’int.
210 per la previsione del
200 valore singolo.
190 Per entrambi
180
170
l’ampiezza aumenta
160 quanto più xi si
150 discosta dal valore
1.62 1.64 1.66 1.68 1.7 1.72 medio x = 1.68
x

87

Potrebbero piacerti anche