Sei sulla pagina 1di 21

1 Ordinary Least Square - OLS

Il modello di regressione lineare e’ usato per studiare la


relazione fra una variabile dipendente e piu’ variabili in-
dipendenti. La forma generica del modello di regressione
lineare e’:
yn = f (xn1; xn2; :::xnk )
dove y e’ la variabile dipendente, x1; x2; :::xk sono le
variabili dipendenti, esplicative o regressori e N e’ la
grandezza del campione.

Esempio 1: Funzione del consumo per l’Italia dal 1970 al


2006 (time-series), k = 2

consumo1970 = f (reddito disp1970; ricchezza1970)


consumo1971 = f (reddito disp1971; ricchezza1971)
...
consumo2006 = f (reddito disp2006; ricchezza2006)

yt = f (xt1; xt2)
Esempio 2: studiare la relazione fra salari e caratterisc-
tiche individuali in un campione di N individui. Esempio
2: Equazione del salario per un campione di 3294 indi-
vidui nel 1987 (cross-sectio), k = 2
w1 = f (genere1; istruzione1) , i = 1
w2 = f (genere2; istruzione2) , i = 2
...
wN = f (genereN ; istruzioneN ) ; i = N

yi = f (xi1; xi2)

Indichiamo con y il livello dei salari e x1; x2; :::xk sono


K caratteristiche individuali di ciascun lavoratore i.

Nota: di solito ci si riferisce a K 1 caratteristiche


perche’si considera sempre una costante.

Domanda 1): Esiste una relazione lineare fra y e


x1; x2; :::xk ?
Domanda 2): una combinazione lineare di x1; x2; :::xk
e di una costante fornisce una buona approssimazione
di y ?

Consideriamo una qualsiasi combinazione lineare che in-


cluda una costante
(~1 1) + ( ~ 2 x2); ::: + ( ~ k xk )

dove ~ 1 ~ 2; ::: ~ k sono i coe¢ cienti (coe¢ cienti angolari)


da scegliere, 1 e’la costante xk sono le variabili .

La di¤erenza fra un valore osservato yi (salario di un


individuo i) e la sua approssimazione lineare e’data da
h i
yi ~ 1xi1 + ~ 2xi2; ::: + ~ k xik (1)

In forma vettoriale - in grassetto!


0
x0i = 1 xi2 xik ;
(1 k)
~0 = ~1 ~2 ~k 0 ;
(k 1)
possiamo scrivere la (1) come

yi x0i ~
(1 1)!! (1 k)(k 1)

Approccio Ordinary Least Squares: Ci pre…ggiamo di


scegliere i valori di ~ in modo da minimizzare queste
di¤erenze. IN questo gra…co consideriamo un solo re-
gressore per semplicità.

Scegliamo il valore di ~ minimizzando la funzione obiet-


N
P 2
~
tivo S ( ) = yi 0
xi ~ (perche’al quadrato?) e
i=1
otteniamo
0 1 1
N
X
b = @ xix0iA xiyi
i=1
2 3
y1
6 y2 7
6 7
y = 6 ... 7 ;
4 5
yN
2 3
1 x12 x1k
6 1 x22 x2k 7
6 7
X = 6 ... ... ... 7
(N K) 4 5
1 xN 2 xN k
2 0 3
x1
6 x02 7 h i
6 7
= 6 ... 7 = x1 x2 xk ;
4 5
x0N
2 3
1
6 7
6 2 7
= 6 .. 7
4 . 5
k
S ( ~ ) = (y X ~ )0(y X ~ )
0 ~ 0 0 0 ~ ~ 0 0 ~
= yy Xy yX + XX
0 0
= y 0 y 2 ~ X0 y + ~ X0 X ~
@S ( ~ )
= 2(X0y X0X ~ ) = 0
@~
(X0y X0Xb) = 0
X0y = X0Xb
1 1
X0 X X0 y = X0 X X0Xb
1
b = X0 X X0y vedi regole di derivazione
La combinazione lineare delle xi cosi ottenuta e’data da

y^i = x0ib
che costituisce la migliore approssimazione lineare di y
ottenibile da xi1; xi2; :::xik

Fino ad ora abbiamo solo utilizzato delle nozioni alge-


briche. L’unica assunzione che dobbiamo fare e’ che la
!
N
P
matrice (K K) xix0i sia una matrice invertibile
i=1
infatti
0 1 1
N
X XN
b 0
= @ xixiA xiyi
i=1 i=1
!
N
P
xix0i invertibile ) Ipotesi di assenza di multi-
i=1
collinearita’perfetta : Nessuna xi e’super‡ua in quanto
combinazione lineare esatta di altre variabili esplicative
(da approfondire in seguito)

Se de…niamo ei i residui della regressione come ei =


yi y^i = yi x0ib
N
X
S (b) = (ei)2 Somma dei quadrati dei residui
i=1
2 Il modello di regressione lineare

Modello statistico

yi = 1 + 2xi2 + ::: + k xik + "i


yi = x0i + "i ;
yie xi sono variabili osservabli mentre "i non e’ osser-
vata e ed e’ chiamata termine di errore o di disturbo.
sono parametri ignoti relativi alla popolazione. I dati
consistono in un campione N di osservazioni. Il cam-
pione e’ una particolare realizzazione fra tutti i possibili
campioni di numerosita’ N che avrebbero potuto essere
estratti dalla medesima popolazione ) yi, xi,
"i sono v.c.

y = X + "
(N 1) (N K)(K 1) (N 1)
Ipotizziamo tuttavia che le variabili xi sono considerate
…sse e non stocastiche =) un nuovo campione presen-
tera’ la stessa X e nuovi valori per "i. Dati non speri-
mentali.
Ipotesi fondamentale

E ["ijxi] = 0 ) le variabili xi sono esogene ) E [yijxi] =


x0i

Interpretazione statistica: i coe¢ cienti misurano il


modo in cui il valore atteso di yi varia al variare di xik
mantenendo costanti gli altri elementi di xi

Interpretazione economica: i coe¢ cienti misurano


le variazioni di yi causate da una variazione in xik man-
tenendo costanti gli altri elementi di xi. In questo caso
E ["ijxi] = 0 diventa piu’di¢ cile da giusti…care a causa
di variabili non osservate contenute in "i.

Il valore dei coe¢ cienti puo’essere ricavato tramite uno


stimatore (dato che il campione puo’variare lo stimatore
e’un vettore di v.c. ). Il risultato di tale aplicazione e’
detto stima (stima e’un vettore di numeri)

Uno degli stimatori piu’comuni in econometria e’lo sti-


matore OLS
3 Proprieta’ dello stimatore OLS
in campioni …niti

Quali sono le proprietà dello stomatore OLS? Deve es-


sere corretto e con una varianza piccola. Sotto quali
condizioni ciò accade?

3.1 Ipotesi di Gauss-Markov

1. E ["ijXi] = 0; 8i la distribuzione dell’errore con-


dizionata a X ha media zero. In media la retta di
regressione e’corretta.

2. f"1; "2; :::"ng e fx1; x2; :::xng sono indipendenti


3. V ("i) = 2, i = 1; :::N omoschedasticita’

Esempio di eteroschedasticita’

Omoschedastico o Eteroschedastico?

4. Cov ("i; "j ) = 0, i; j = 1; :::N i 6= j assenza di


autocorrelazione

1 + 3 + 4 ) i termini di errore rappresentano estrazioni


incorrelate di una distribuzione di valore atteso nullo e
varianza costante 2
E ["] = 0 e V (") = 2IN Matrice di varianza covar-
ianza e’diagonale con 2 sulla diagonale principale

E [("i E ["i]) ("i E ["i])]


h i h i
0
= E (" E ["]) (" E ["]) = E ""0
2 3
"1
6 "2 7
6 7
" = 6 ... 7 ;
(N 1) 4 5
"N
2 3
"1 "1 "1 "2 "1 "N
6 "2 "1 "2 "2 7
0 6 7
" " = 6 ... ... 7
(N 1)(1 N ) 4 5
"N " 1 " N "N
2 3
" 1 "1 " 1 " 2 "1 " N
6 " 2 "1 " 2 " 2 7
6 7
E6 ... ... 7
4 5
" N "1 "N " N
2 3
"21 "1 "2 "1 "N
6 7
6 " 2 "1 "22 7
= E6
6 ... ...
7
7
4 5
" N "1 "2N
2 3
var("1) cov ("1"2) cov ("1"N )
6 cov ("2"1) var("2) 7
6 7
= 6 ... ... 7
4 5
cov ("N "1) var("N )
2 3
2 0
6 2 7
6 0 7 2I
= 6
6 ... ...
7=
7 N
4 5
0 2

2 ) X e " sono indipendenti ) E ["jX] = E ["] = 0


e V ("jX) = V (") = 2IN .

X non fornisce informazioni sui valori attesi di " e le


loro (co)varianze. questi risultati possono essere derivati
condizionatamente a xi
3.2 Proprieta’dello stimatore OLS

1. Corretto (Media, Valore Atteso)


h i
0 1
E (b) = E (X X) X0 y
poiche’ y = X + "
h i
0 1
= E (X X) X0 (X + ")
poiche’ X e’non stocastico

= (X0X) 1 X0X + (X0X) 1 X0E (")


=

Intuizione: se assumiamo che e’possibile ripetere il


campionamento ci aspettiamo che in media lo stima-
tore sia pari al valore vero

2. Varianza

V (b) = E (b E (b))(b E (b))0


(K 1) (1 K)
= E (b )(b )0
dato che
h i
0 1 0 0 1 0
b = (X X) X y = (X X) X (X + ")
h i
0 1 0 0
= (X X) X X + (X X) X "1 0

= + ( X 0 X ) 1 X0 "
b = ( X0 X) 1 X0 "
allora
h i
1
= E (b )(b )0 = E ( X X) 0
X0""0X(X0X) 1
Se

E ["i] = 0; 8i

E ""0 = 2I;

X sono deterministiche

abbiamo
h i
1
V (b) = 0
(X X) X0 2IN X(X0X) 1
2 (X0 X) 1
=
3 Teorema di Gauss-Markov: Si puo’ dimostrare che
lo stimatore OLS e’il migliore (piu’e¢ ciente) nella
classe degli stimatori lineari corretti (Best Unbiased
Linear Estimator, BLUE)

Se 2 non e’ nota e deve essere stimata (vedi stima di


varianza campionaria)
N
X
1
s2 = e2i =) V (b) = s2(X0X) 1
N K i=1
V (bk ) = s2ckk
dove ckk è quell’elemento della matrice (X0X) 1 che si
riferisce al coe¢ ciente generico k

4 " N (0; 2); =) dato che b e’una com-


binazione lineare di " si ha b N ( ; 2(X0X) 1)
e bk N ( k ; 2ckk )

Avendo ottenuto la distribuzione campionaria


dello stimatore OLS possiamo procedere con test
d’ipotesi e intervallo di con…denza utilizzando le
statistiche t e F:
3.3 Proprieta’asintotiche dello stimatore

1. Consistenza
p lim b =
al crescere di N la probabilita’che lo stimatore si dis-
costi dal valore vero diventa sempre piu’piccola.
Condizione minima a¢ nche’lo stimatore possa es-
sere utile al nostro scopo. Si veri…ca sotto ipotesi
piu’deboli di quelle considerate …n’ora.

2. Normalita’asintotica
p
N (b ) = N 0; 2(X0X) 1
p
N misura la velocita’ di convergenza. Per N !
1, (b ) ha una distribuzione che con tutta la
massa di probabilita’si concentra sullo zero
a
b N ; s2(X0X) 1
la qualita’ dell’approssimazione migliora al crescere
di N:
Risultati ottenuti sfruttando le ipotesi di Gauss-Markov
combinate con l’ipotesi di errori normali ) tutti i
risultati ottenuti con le statistiche t e F sono validi an-
che se i termini di errore non hanno una distribuzione
normale.

3.4 Analisi della varianza - digressione

Di quanto della variabile y e’ spiegata dal modello di


regressione lineare?

yi = y^i + ei
yi = x0ib + ei

T SS Total Sum of Squares e’una misura della variabilità


del campione osservata

ESS Explained Sum of Square = somma dei quadrati


spiegata dalla regressione
RSS Residual Sum of Square = somma dei quadrati dei
residui

8 9
< NX =
T SS = (yi y )2 =
: ;
i=1
8 9 8 9
< N
X = < N
X =
ESS = (^
yi 2
y^) + RSS = (yi y^i)2
: ; : ;
i=1 i=1
V (yi) = V (^
yi) + V (ei)

Intuitivamente piu’ e’ alto ESS rispetto a RSS tanto


migliore e’la "spiegazione" della variabilita’di y fornita
dalla regressione.

Misure di “bonta”’del modello


2 ESS RSS
R = =1
T SS T SS
R2 e’il coe¢ ciente di determinazione

0 R2 1
ossia la proporzione della varianza di y dovuta alla vari-
azione dei regressori x:

Nota che se si aggiungono variabili al modello l’R2 pre-


sumibilmente aumenta …no a raggiungere 1. Una misura
piu’consona e’allora l’R2 aggiustato
N 1
R2 = 1 1 R2
N K
R2 aumenta solo se il contributo della nuova variabile al
“…t”della regressione piu’che compensa a correzione per
la perdita dei gradi di lierta’, N K:

R2 misura la qualita’della approssimazione lineare