Appunti Econometria - 2006

Appunti di Econometria
F.C. Bagliano, L. Benfratello, A. Sembenelli Dipartimento di Scienze Economiche e Finanziarie G. Prato Universit di Torino Marzo 2006
c 2006 F.C. Bagliano-L. Benfratello-A. Sembenelli.
Indice
1 Natura e scopo delleconometria 2 9
Cenni di calcolo delle probabilit e di inferenza statistica 13 2.1. Esperimento casuale, spazio campionario, evento . . . . . . . 13 2.2. Probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2.1. Propriet delle probabilit . . . . . . . . . . . . . . . . 15 2.2.2. Altre denizioni utili sulle probabilit . . . . . . . . . 16 2.3. Variabili casuali . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.4. Distribuzioni di probabilit . . . . . . . . . . . . . . . . . . . 20 2.5. Distribuzioni teoriche di probabilit . . . . . . . . . . . . . . 25 2.5.1. Distribuzione normale . . . . . . . . . . . . . . . . . . 25 2.5.2. Distribuzione normale standardizzata . . . . . . . . . 27 2.5.3. Distribuzione 2 (Chi-quadrato) . . . . . . . . . . . . 28 2.5.4. Distribuzione t di Student . . . . . . . . . . . . . . . . 29 2.5.5. Distribuzione F di Fisher . . . . . . . . . . . . . . . . 30 2.6. Inferenza statistica - Stimatori . . . . . . . . . . . . . . . . . 33 2.7. Inferenza statistica - Stimatore per intervalli e intervalli di condenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.8. Inferenza statistica - Test di ipotesi . . . . . . . . . . . . . . . 41 2.9. Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 45 49 . 49 . 49 . 50 . 52 . 52
3 Modelli di Regressione - Introduzione e concetti di base 4 Modelli di Regressione - Regressione lineare bivariata 4.1. Metodo dei Minimi Quadrati Ordinari . . . . . . . . . . 4.1.1. Assunzioni . . . . . . . . . . . . . . . . . . . . . 4.1.2. Stima dei parametri . . . . . . . . . . . . . . . . 4.1.3. Propriet algebriche dei minimi quadrati . . . . . 4.1.4. Il coeciente di determinazione semplice . . . . . 3
. . . . .
. . . . .
INDICE 4.1.5. Propriet statistiche . . . . . . . . . . . . . . . . . . . Intervalli di condenza e test delle ipotesi . . . . . . . . . . . Introduzione alla previsione . . . . . . . . . . . . . . . . . . . Forme funzionali utili . . . . . . . . . . . . . . . . . . . . . . Appendice : Stima econometrica della propensione marginale al consumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 60 63 65 68 74 77 77 77 78 80 80 82 82 85 86 90 91 91 92 97 103 106 111 113 113 115 117 117 117 117 117 120 120 120
4.2. 4.3. 4.4. 4.5. 4.6.
5 Modelli di Regressione - Regressione lineare trivariata 5.1. Metodo dei Minimi Quadrati Ordinari . . . . . . . . . . . . . 5.1.1. Assunzioni . . . . . . . . . . . . . . . . . . . . . . . . 5.1.2. Stima dei parametri . . . . . . . . . . . . . . . . . . . 5.1.3. Propriet algebriche dei minimi quadrati . . . . . . . . 5.1.4. Il coeciente di determinazione multiplo (R2 ) . . . . . 5.1.5. Il coeciente di determinazione multiplo aggiustato (R2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.6. Propriet statistiche . . . . . . . . . . . . . . . . . . . 5.2. Interpretazione dei coecienti e variabili omesse . . . . . . . 5.2.1. Il problema dellomissione di variabili rilevanti . . . . 5.3. Test di Ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1. Ipotesi su singoli parametri . . . . . . . . . . . . . . . 5.3.2. Ipotesi congiunte su pi parametri . . . . . . . . . . . 5.3.3. Restrizioni lineari sui parametri . . . . . . . . . . . . . 5.3.4. Stabilit strutturale dei parametri . . . . . . . . . . . 5.4. Previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5. Appendice : Stima econometrica di una funzione di produzione Cobb-Douglas . . . . . . . . . . . . . . . . . . . . . . . 5.6. Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Elementi di algebra lineare 6.1. Denizioni di base . . . . . . . . . . . . . . . . 6.2. Matrici notevoli . . . . . . . . . . . . . . . . . . 6.3. Operazioni fra matrici . . . . . . . . . . . . . . 6.3.1. Addizione . . . . . . . . . . . . . . . . . 6.3.2. Sottrazione . . . . . . . . . . . . . . . . 6.3.3. Moltiplicazione per uno scalare . . . . . 6.3.4. Moltiplicazione fra vettori e fra matrici 6.3.5. Trasposizione di una matrice . . . . . . 6.3.6. Inversione di una matrice . . . . . . . . 6.3.7. Determinante . . . . . . . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
INDICE 6.4. 6.5. 6.6. 6.7. Applicazioni utili del prodotto fra vettori e fra matrici Dipendenza e indipendenza lineare di vettori . . . . . Forme lineari e forme quadratiche . . . . . . . . . . . . Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 123 126 128 131
7 Il modello di regressione lineare multivariata: i Minimi Quadrati Ordinari (OLS) 133 7.1. Notazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 7.2. Assunzioni classiche . . . . . . . . . . . . . . . . . . . . . . . 135 7.3. Stima dei parametri: metodo dei Minimi Quadrati Ordinari . 136 7.4. Interpretazione geometrica del metodo dei minimi quadrati . 138 7.5. Propriet algebriche dei minimi quadrati . . . . . . . . . . . . 139 7.6. Coeciente di determinazione multiplo . . . . . . . . . . . . . 139 7.7. Nota alle propriet algebriche degli stimatori OLS . . . . . . 141 7.8. Propriet statistiche . . . . . . . . . . . . . . . . . . . . . . . 142 7.9. Test di ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 7.10. Esempio: il modello di regressione lineare bivariato . . . . . . 147 7.11. Interpretazione dei coecienti di regressione multipla . . . . . 149 7.12. Omissione di variabili rilevanti e inclusione di variabili irrilevanti151 7.13. Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 8 Violazioni delle assunzioni classiche e modello di regressione lineare generalizzato 157 8.1. Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 8.2. Violazioni delle assunzioni su V ar (") . . . . . . . . . . . . . . 159 8.3. Il modello di regressione lineare generalizzato e lo stimatore GLS (Generalized Least Squares) . . . . . . . . . . . . . . . . 161 9 Eteroschedasticit 9.1. Minimi quadrati generalizzati (GLS) ed eteroschedasticit 9.2. FGLS ed eteroschedasticit . . . . . . . . . . . . . . . . . 9.3. OLS ed eteroschedasticit . . . . . . . . . . . . . . . . . . 9.4. Test di eteroschedasticit . . . . . . . . . . . . . . . . . . 9.5. Eteroschedasticit: unapplicazione . . . . . . . . . . . . . 9.6. Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 165 167 168 169 172 176
. . . . . .
. . . . . .
10 Autocorrelazione 177 10.1. Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 10.2. Processi stocastici (cenni) . . . . . . . . . . . . . . . . . . . . 178 10.2.1. White noise . . . . . . . . . . . . . . . . . . . . . . . . 178
6 10.2.2. Random walk . . . . . . . . . . . 10.2.3. Processo AR(1) . . . . . . . . . . 10.2.4. Processo MA(1) . . . . . . . . . 10.3. GLS con termini di errore AR(1) . . . . 10.4. FGLS con termini di errore AR(1) . . . 10.5. Test di autocorrelazione . . . . . . . . . 10.6. Autocorrelazione ed errata specicazione 10.7. Eteroschedasticit di tipo ARCH . . . . 10.8. Esercizi . . . . . . . . . . . . . . . . . . 11 Violazione dellassunzione di normalit 12 Variabili dummy 12.1. Denizione . . . . . . . . . . . . . . . . . . . . . 12.2. Variabili dummy additive . . . . . . . . . . . . . 12.3. Variabili dummy moltiplicative . . . . . . . . . . 12.4. Variabili dummy e test di stabilit dei parametri. 12.5. Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . dinamica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
INDICE . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 181 183 185 188 189 191 198 202 203 205 . 205 . 206 . 209 . 210 . 211
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
13 Modelli dinamici 213 13.1. Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 13.2. Modelli a ritardi distribuiti . . . . . . . . . . . . . . . . . . . 214 13.3. Fondamenti economici dei modelli dinamici (I): modello con aspettative adattive . . . . . . . . . . . . . . . . . . . . . . . 216 13.4. Fondamenti economici dei modelli dinamici (II): modello con aggiustamento parziale . . . . . . . . . . . . . . . . . . . . 217 13.5. Modelli dinamici: cenno ai problemi di stima . . . . . . . . . 218 13.6. Test di autocorrelazione in modelli autoregressivi (del primo ordine) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 14 Tavole 14.1. Distribuzione 14.2. Distribuzione 14.3. Distribuzione 14.4. Distribuzione 14.5. Distribuzione 221 . 222 . 223 . 224 . 225 . 227
normale standardizzata . 2 . . . . . . . . . . . . t . . . . . . . . . . . . . F . . . . . . . . . . . . . Durbin-Watson . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
Introduzione
Questi appunti sono stati preparati per facilitare la frequenza e lo studio del corso di Econometria di base presso la Facolt di Economia dellUniversit di Torino. Il corso copre i fondamenti del modello classico di regressione lineare e le sue principali estensioni. Nella prima parte del corso, dopo necessari richiami di calcolo delle probabilit ed inferenza statistica (capitolo 2), viene presentato il modello nelle versioni bivariata e trivariata senza utilizzare lapproccio matriciale (capitoli 3-5). Tale approccio viene adottato nella seconda parte del corso per lestensione al caso n-variato del modello classico di regressione (capitolo 7), per lintroduzione del modello generalizzato di regressione (capitolo 8) e per arontare i problemi di stima dovuti ad eteroschedasticit (capitolo 9), autocorrelazione (capitolo 10) e non normalit (capitolo 11). Le necessarie tecniche di calcolo matriciale sono sinteticamente presentate nel capitolo 6. Chiudono il corso due capitoli dedicati allutilizzo di variabili dummy (capitolo 12) e ad unintroduzione ai modelli dinamici (capitolo 13). Tavole statistiche delle principali distribuzioni utilizzate sono raccolte nel capitolo 14.
Capitolo 1
Natura e scopo delleconometria
Denizione. Campo di studi in cui metodi matematici e statistici vengono applicati ai dati economici al ne di dare contenuto empirico alla teoria economica. Prerequisiti : Economia (macro e micro) Matematica Statistica Ragione (pragmatica) per studiare econometria. Leconometria fornisce la necessaria strumentazione per: 1. quanticare grandezze economiche rilevanti per le imprese (es. elasticit dei prodotti al prezzo e al reddito), per gli investitori nanziari (es. volatilit dei titoli azionari) e per le autorit pubbliche (es. elasticit del decit pubblico allaliquota scale); 2. fornire previsioni sullandamento futuro di grandezze economiche rilevanti per le imprese, gli investitori nanziari e le autorit pubbliche (consumi, investimenti, tasso dinteresse, tasso di cambio,...).
10 capitolo 1 Costruzione di un modello econometrico: 1. Teoria economica 2. Specicazione del modello econometrico 3. Dati economici 4. Stima del modello econometrico 5. Controllo della corretta specicazione del modello econometrico (ed eventuale rispecicazione) 6. Utilizzo del modello per: (a) verica delle ipotesi (b) previsione (c) simulazione di scenari alternativi di politica economica.
Esempio (volutamente banale): 1. Teoria economica. Usualmente si ipotizza una relazione tra la quantit domandata di un bene di consumo, il suo prezzo (negativa) e il reddito dei consumatori (positiva) q = f(p; x; :::) Ovviamente la teoria economica pu suggerire variabili addizionali (es. prezzo dei beni sostituti e complementari, investimenti pubblicitari,...). 2. Specicazione del modello econometrico: (a) selezione delle variabili indipendenti da includere nel modello q = f(p; x; :::) (b) scelta della forma funzionale (lineare) q = 0 + 1p + 2x
Natura e scopo delleconometria 11 (c) assunzioni sul termine di errore (o pi semplicemente errore) q = 0 + 1p + 2x + " dove " una variabile casuale di cui bisogna ipotizzare il valore atteso, la varianza e (in alcuni casi) la distribuzione di probabilit; (d) assunzioni sulla natura delle variabili indipendenti e sulla loro relazione con lerrore: i. variabili deterministiche o variabili casuali? ii. se casuali, correlate con lerrore? 3. Dati economici. I parametri del modello 0 ; 1 ; 2 non sono noti. quindi necessario stimarli utilizzando dei dati campionari disponibili. Serie di tempo: dati di un individuo (paese, impresa, consumatore, lavoratore) osservati per pi di un periodo (settimanali, mensili, trimestrali, annuali); Dati cross-sezionali: dati di pi individui osservati per un solo periodo; Dati panel: dati di pi individui osservati per pi di un periodo. 4. Stima del modello econometrico. Mediante lapplicazione di appropriati metodi di stima ai dati economici si ottengono stime dei parametri del modello. Parametri del modello: 0 ; 1 ; 2
Stime dei parametri: b0 ; b1 ; b2
5. Controllo della corretta specicazione del modello. Prima di utilizzare il modello stimato necessario controllare che le assunzioni fatte nella fase (ii) non siano implausibili se confrontate con i dati economici che sono stati utilizzati per la stima. Ad esempio: sono state omesse delle variabili rilevanti? la forma funzionale corretta? le assunzioni sulla struttura stocastica del termine di disturbo sono corrette? le assunzioni sulla natura dei regressori sono corrette?
12 capitolo 1 6. Utilizzo del modello. Verica di ipotesi: il segno di b2 consistente con quanto suggerito dalla teoria economica? Previsione: conoscendo i valori previsti dei regressori possibile prevedere il valore della variabile dipendente?
Capitolo 2
Cenni di calcolo delle probabilit e di inferenza statistica
2.1.
Esperimento casuale, spazio campionario, evento
Esperimento casuale (o esperimento stocastico). Esperimento che ha almeno due possibili esiti (o risultati) e per il quale c incertezza su quale esito si verichi. Esempio: lancio di una moneta, lancio di due monete, lancio di un dado, lancio di due dadi. Spazio campionario (o popolazione). Linsieme dei possibili esiti di un esperimento casuale. Esempio. Nellesperimento lancio di una moneta lo spazio campionario include due possibili esiti (T,C); nellesperimento lancio di due monete lo spazio campionario include quattro possibili esiti (TT, TC, CT, CC). Evento. Un sottoinsieme dello spazio campionario. Esempio. Nellesperimento lancio di due monete: denendo con E1 levento esce almeno una testa questo include gli esiti TT, CT e TC; denendo con E2 levento esce una testa e una croce questo include gli esiti CT e TC; denendo con E3 levento escono due teste questo include lesito TT.
14 capitolo 2 Eventi mutuamente esclusivi. Due eventi sono mutuamente esclusivi se il vericarsi di uno dei due eventi preclude il vericarsi dellaltro. Esempio. Nellesperimento lancio di due monete gli eventi escono due teste e escono due croci sono mutuamente esclusivi. Viceversa gli eventi esce almeno una testa e esce almeno una croce non lo sono, dal momento che gli esiti TC e CT sono compatibili con entrambi gli eventi. Eventi equiprobabili. Due eventi sono equiprobabili se il primo evento ha la stessa probabilit di vericarsi del secondo (si veda oltre per la denizione esatta di probabilit). Esempio. Nellesperimento lancio di una moneta, levento esce testa ha la stessa probabilit dellevento esce croce. Eventi collettivamente esaustivi. Un insieme di eventi collettivamente esaustivo se esaurisce tutti i possibili esiti di un esperimento. Esempio. Nellesperimento lancio di due monete vi sono quattro possibili esiti (TT,TC,CT,CC) che collettivamente deniscono un insieme di eventi esaustivi. Analogamente gli eventi non esce nessuna testa, esce una testa, escono due teste sono collettivamente esaustivi.
probabilit e statistica inferenziale 15 2.2. Probabilit
Probabilit di un evento: denizione classica o a priori. Se un esperimento ha n (con n nito) esiti che sono equiprobabili e se m di questi esiti sono favorevoli allevento A, allora P (A), cio la probabilit che A si verichi, denita dal rapporto m=n. Esempio. La roulette ha 37 (o 38) possibili esiti equiprobabili; di questi, 18 sono favorevoli allevento esce un numero rosso. La probabilit che levento esce un numero rosso si verichi quindi pari a 18=37 = 0; 4865 (o 18=38 = 0; 4737). Limite della denizione classica: cosa succede se gli esiti non sono niti e/o non sono equiprobabili? Probabilit di un evento: denizione frequentista o empirica. Si replichi lesperimento casuale n volte (con n abbastanza grande). Si denisca con m il numero di volte in cui lesito dellesperimento favorevole allevento A. Allora P (A), cio la probabilit che A si verichi, denita dal rapporto m=n. Esempio. La roulette ha 37 (o 38) esiti. Assumiamo questa volta che gli esiti non siano equiprobabili perch la roulette truccata. Allora per determinare la probabilit che si verichi levento esce un numero rosso non possibile basarsi sulla nozione classica di probabilit. Viceversa possibile lanciare la pallina n volte e calcolare il numero m di volte in cui lesito dellesperimento favorevole allevento. 2.2.1. Propriet delle probabilit (i) La probabilit di un evento compresa tra 0 e 1: 0 P (A) 1 (ii) Se A; B; C; ::: sono eventi mutuamente esclusivi, la probabilit che uno di questi si realizzi pari alla somma delle rispettive probabilit: P (A [ B [ C [ :::) = P (A) + P (B) + P (C) + ::: (iii) Se A; B; C; ::: sono eventi mutuamente esclusivi e collettivamente esaustivi, la probabilit che uno di questi si realizzi pari a 1: P (A [ B [ C [ :::) = P (A) + P (B) + P (C) + ::: = 1
16 capitolo 2 2.2.2. Altre denizioni utili sulle probabilit (i) Probabilit congiunta. Dati gli eventi A; B; C; ::: la probabilit che si verichino congiuntamente detta probabilit congiunta: P (A \ B \ C \ :::) (ii) Probabilit marginale (o incondizionata). Dati gli eventi A; B; C; ::: le probabilit che ciascuno di questi si verichi indipendentemente dagli altri sono dette probabilit marginali (o incondizionate) P (A); P (B); P (C); (iii) Indipendenza stocastica. Gli eventi A; B; C; ::: sono stocasticamente indipendenti se la probabilit che si verichino congiuntamente eguale al prodotto delle loro probabilit individuali: P (A \ B \ C \ :::) = P (A) P (B) P (C) ::: (iv) Eventi non mutuamente esclusivi. Se A,B,C, ::: sono eventi non mutuamente esclusivi la propriet (ii) deve essere modicata. Se ad esempio gli eventi A e B non sono mutuamente esclusivi la probabilit che almeno uno di questi si realizzi pari alla somma delle probabilit marginali meno la probabilit congiunta: P (A [ B) = P (A) + P (B) P (A \ B) (v) Probabilit condizionata. La probabilit condizionata di un evento A rispetto ad un evento B si denisce come la probabilit che si verichi A condizionata a che si sia vericato B. Tale probabilit condizionata data dal rapporto tra la probabilit congiunta di A e B e la probabilit marginale di B: P (A \ B) P (A j B) = P (B) (vi) Probabilit condizionata e probabilit marginale. Usualmente la probabilit marginale P (A) non coincide con la probabilit condizionata P (A j B) a meno che i due eventi siano stocasticamente indipendenti. In questo caso infatti P (A j B) = P (A)P (B) P (A \ B) = = P (A) P (B) P (B)
probabilit e statistica inferenziale 17 2.3. Variabili casuali
Denizione di variabile casuale. una variabile il cui valore numerico determinato dallesito di un esperimento casuale. Esempio. Si consideri il lancio di due monete. La variabile casuale numero di teste pu assumere tre valori: 0; 1; 2. Le variabili casuali vengono usualmente deniti con lettere maiuscole, mentre i valori che possono assumere con lettere minuscole. Esempio. P (X = x1 ) indica la probabilit che la variabile casuale X possa assumere un valore pari a x1 . Variabili casuali discrete e continue. Una variabile casuale denita discreta se pu assumere solo un numero nito o uninnit numerabile di valori (numero di teste,...). Una variabile casuale viceversa denita continua se pu assumere qualunque valore allinterno di un intervallo dato (peso, temperatura,...). Funzione di densit (caso univariato). La funzione di densit associa ad ogni valore (o intervalli di valori) che pu assumere una variabile casuale la rispettiva probabilit. Funzione di densit di una variabile casuale discreta. Sia X una variabile casuale discreta; la funzione di densit indica la probabilit che X assuma valore x. P (X = xi ) per i = 1; 2; 3; :::; n f (x) = 0 altrimenti Esempio. Nellesperimento lancio di due monete, la funzione di densit della variabile casuale X = numero di teste pu essere rappresentata come segue: P (X = 0) = 1=4; P (X = 1) = 1=2; P (X = 2) = 1=4 Funzione di densit di una variabile casuale continua. Nel caso continuo la variabile casuale denita in un intervallo e quindi la probabilit che assuma un singolo valore (anche se interno allintervallo) nulla. Per questo motivo nel caso di variabili casuali continue la funzione di densit assegna probabilit a intervalli di valori. Formalmente la funzione di densit di una variabile continua denita come segue. f (x) 0
18 capitolo 2
+1 Z f(x)dx = 1
P (a x < b) =
Zb
a
f(x)dx
dove f (x)dx rappresenta la probabilit associata allintervallo [x; x + dx] della variabile casuale continua. Funzione di densit congiunta (caso bivariato). Variabili discrete. Siano X e Y due variabili casuali discrete; la funzione di densit congiunta indica la probabilit (congiunta) che X assuma valore x e Y valore y. 9 8 < P (X = xi \ Y = yj ) per i = 1; 2; 3; :::; n = per j = 1; 2; 3; :::; m f (x; y) = ; : 0 altrimenti f (x; y) 0
Variabili continue. Siano X e Y due variabili casuali continue, la funzione di densit congiunta denita come segue
+1 +1 Z Z f(x; y)dxdy = 1
1 1
P (a x < b \ c y < d) =
Zb Zd
a c
f(x; y)dxdy
Funzioni di densit marginale (caso bivariato). Variabili discrete. Siano X e Y due variabili discrete, la funzione di densit marginale di X (e analogamente di Y ) indica la probabilit che la X assuma valore x, indipendentemente dai valori assunti dalla Y. X f (x; y) f (x) = f (y) = X
x y
f (x; y)
probabilit e statistica inferenziale 19 Variabili continue. Siano X e Y due variabili continue, la funzione di densit marginale di X (e analogamente di Y ) indica la probabilit che la X assuma un intervallo di valori, indipendentemente dallintervallo di valori assunti dalla Y .
+1 Z
f (x) =
f (x; y) dy
y=1 +1 Z
f (y) =
f (x; y) dx
x=1
Funzioni di densit condizionata (caso bivariato). Variabili discrete. Siano X e Y due variabili discrete, la funzione di densit condizionata di X (e analogamente di Y ) indica la probabilit che la X assuma valore x, dato che la Y ha assunto valore y. f(x j y) = P (X = x j Y = y) = f (x; y) f (y)
Inoltre, se due variabili casuali sono stocasticamente indipendenti la funzione di densit congiunta eguale al prodotto delle funzioni di densit marginali. In questo caso. f(x j y) = f(x)f(y) f(x; y) = = f(x) f(y) f (y)
20 capitolo 2 2.4. Distribuzioni di probabilit
Momenti della distribuzione. Le caratteristiche di una distribuzione univariata di probabilit possono essere utilmente riassunte in alcune caratteristiche, note come momenti della distribuzione: Momento primo = Valore atteso (o media) Momento secondo (intorno alla media) = Varianza (e deviazione standard o scarto quadratico medio) Momento terzo (intorno alla media) = Asimmetria Momento quarto (intorno alla media) = Curtosi Nel caso di distribuzioni congiunte di probabilit si fa inoltre riferimento a tre ulteriori utili caratteristiche: Covarianza Coeciente di correlazione Valore atteso condizionato Valore atteso (media). Il momento primo costituisce la misura di centralit di una distribuzione. Il valore atteso di una VC discreta : X E (X) = = xf (x) Il valore atteso di una VC continua :
+1 Z E (X) = = xf (x) dx 1
Si osservi che il valore atteso (o media) di una distribuzione di probabilit un concetto diverso dalla media campionaria, che indica il valore medio degli esiti di un esperimento casuale ripetuto n volte. Propriet del valore atteso. Siano a, b due costanti e X, Y due variabili casuali E (a) = a
probabilit e statistica inferenziale 21 E (aX + b) = aE (X) + b h i E (aX)2 = a2 E X 2
E (X + Y ) = E (X) + E (Y ) Inoltre, se X e Y sono stocasticamente indipendenti E (X Y ) = E (X) E (Y ) Varianza (momento secondo intorno alla media). La varianza costituisce la misura di dispersione intorno alla media di una distribuzione. La varianza di una VC discreta : X (x )2 f (x) V ar (X) = 2 = Nel caso invece di una VC continua :
2 +1 Z V ar (X) = = (x )2 f (x) dx 1
La varianza pu essere scritta anche come V ar (X) = 2 = E (X )2 = E (X)2 2 La radice quadrata della varianza viene denita scarto quadratico medio o alternativamente deviazione standard. Propriet della varianza. Siano a, b due costanti e X, Y due variabili casuali V ar (a) = 0 V ar (aX + b) = a2 V ar (X) Inoltre, se X e Y sono stocasticamente indipendenti V ar (X + Y ) = V ar (X) + V ar (Y ) V ar (X Y ) = V ar (X) + V ar (Y )
V ar (aX + bY ) = a2 V ar (X) + b2 V ar (Y ) Se viceversa X e Y non sono stocasticamente indipendenti (vedi oltre per la denizione di Cov(X; Y )) V ar (X + Y ) = V ar (X) + V ar (Y ) + 2Cov(X; Y )
22 capitolo 2 V ar (X Y ) = V ar (X) + V ar (Y ) 2Cov(X; Y )
Asimmetria (momento terzo intorno alla media). Per denire la forma della distribuzione di probabilit talvolta necessario utilizzare anche momenti superiori al secondo. Il momento terzo (intorno alla media) denito come: E (X )3 da cui si deriva il seguente indice di asimmetria, S (dallinglese skewness) E (X )3 3 Curtosi (momento quarto intorno alla media). momento quarto (intorno alla media) denito come: S(X) = E (X )4 da cui si deriva il seguente indice di curtosi, K (dallinglese kurtosis) K (X) = E (X )4 4
Analogamente, il
.5 f(x) .4 .3
Left skewed Right skewed Simmetrica
.2 .1 .0 -5 -4 -3 -2 -1 0 1 2 3 4 x 5
probabilit e statistica inferenziale 23
Distribuzioni simmetriche, left e right skewed
.6 f(x) .5 .4 .3 .2 .1 .0 -5 -4 -3 -2 -1 0 1 2 3 4 x 5
platicurtica leptocurtica
mesocurtica
Distribuzioni meso, plati e leptocurtiche
Covarianza. Siano date due variabili casuali X e Y , con media x e y rispettivamente. Sia inoltre f(x; y) la funzione di densit congiunta di X e Y . La covarianza tra le due variabili casuali data da: Cov (X; Y ) = E (X x ) Y y = E (XY ) x y
Nel caso di variabili casuali discrete pu essere calcolata come: XX Cov (X; Y ) = (X x ) Y y f(x; y) = XX = XY f(x; y) x y
24 capitolo 2 e, analogamente, nel caso di variabili casuali continue come: Cov (X; Y ) =
+1 +1 Z Z (X x ) Y y f (x; y)dxdy =
1 1 +1 +1 Z Z 1 1
XY f(x; y)dxdy x y
Propriet della covarianza. Siano a; b; c; d quattro costanti e X; Y due variabili casuali. Se X e Y sono stocasticamente indipendenti allora: Cov (X; Y ) = E (XY ) x y = E (X) E (Y ) x y = 0 Inoltre Cov (a + bX; c + dY ) = bdCov (X; Y ) Coeciente di correlazione. La covarianza rappresenta una misura dellassociazione lineare tra due variabili casuali. Ad esempio se a osservazioni sopra la media di X corrispondono osservazioni sopra la media di Y , gli scarti dalla media avranno lo stesso segno e quindi Cov(X; Y ) > 0. Se viceversa a osservazioni sopra la media di X corrispondono osservazioni sotto la media di Y , gli scarti dalla media avranno segno diverso e quindi Cov(X; Y ) < 0. Il problema che Cov(X; Y ) dipende dallunit di misura delle due variabili casuali. Per ovviare a questo problema si utilizza il coeciente di correlazione (che varia tra 1 e +1), Cov (X; Y ) Cov (X; Y ) = = p x y V ar (X) V ar (Y )
e nel caso continuo
Valore atteso condizionato. Il valore atteso condizionato esprime il valore atteso della variabile casuale X per ogni possibile valore che pu assumere la variabile casuale Y: Il valore atteso di X condizionato a Y = y nel caso discreto eguale a X E (X j Y = y) = xf (x j Y = y)
+1 Z xf (x j Y = y) dx E (X j Y = y) = 1
probabilit e statistica inferenziale 25 2.5. Distribuzioni teoriche di probabilit
2.5.1. Distribuzione normale Una variabile casuale (continua) X distribuita normalmente se la sua funzione di densit di probabilit (PDF) ha la seguente forma:
(x)2 1 f (x) = p e 22 con 2
1<x<1
dove e 2 , noti come i parametri della distribuzione normale, sono rispettivamente il valore atteso (o media) e la varianza: E (X) = V ar (X) = E (X )2 = 2 Una variabile casuale X, normalmente distribuita con valore atteso e varianza 2 , viene usualmente rappresentata come X N ; 2 La distribuzione normale descritta in modo completo dai suoi primi due momenti. Propriet della distribuzione normale (i) Il momento terzo intorno alla media pari a 0. Infatti la distribuzione normale simmetrica rispetto alla media. E (X )3 = 0 da cui S (X) E (X )3 =0 3
(ii) Il momento quarto intorno alla media una funzione della varianza. Infatti: 2 E (X )4 = 3 2 da cui K (X) E (X )4 =3 4
26 capitolo 2 (iii) Relazione tra probabilit, e (scarto quadratico medio o deviazione standard) P ( X + ) 0; 68 P ( 2 X + 2 ) 0; 95 P ( 3 X + 3 ) 0; 997 (iv) Date due variabili casuali normalmente distribuite e stocasticamente indipendenti: X1 N 1 ; 2 1 e la variabile casuale Y = aX1 + bX2 distribuita normalmente: Y N a1 + b2 ; a2 2 + b2 2 1 2 X2 N 2 ; 2 2
.5 .4 .3 .2 .1 .0
2 3
68% 95% 99,7%
+ +2 +3
Area sottesa dalla curva normale
probabilit e statistica inferenziale 27 2.5.2. Distribuzione normale standardizzata Per agevolare il calcolo della probabilit che una variabile casuale normalmente distribuita sia compresa tra due valori dati, utile convertire la X in unaltra variabile normale, Z con valore atteso pari a 0 e varianza pari a 1: Z= X
La funzione di densit (PDF) di una variabile casuale normale standardizzata Z N (0; 1) ha la seguente forma
z2 1 f (z) = p e 2 2
con
1<z <1
Teorema del limite centrale. Intuizione: questo teorema alla base dellampio utilizzo della distribuzione normale nellambito delleconometria. Dimostra che la media campionaria standardizzata di n variabili casuali (purch n sia abbastanza grande) segue una distribuzione normale standardizzata anche se le variabili casuali originarie non sono distribuite normalmente. Nella sua versione pi semplice pu essere formalizzato come segue: Teorema. Siano X1 ; X2 ; :::; Xn n variabili casuali indipendenti caratterizzate dalla stessa PDF (con media e varianza 2 ). Sia 1X Xn = Xi n
i=1 n
la media campionaria, con E(X n ) = 2 V ar(X n ) = n Al tendere di n allinnito Zn = Xn

p n
p n X n
! N (0; 1)
d
dove il segno ! indica che la distribuzione (non nota) di Zn converge in

d
distribuzione ad una normale standardizzata.
28 capitolo 2 2.5.3. Distribuzione 2 (Chi-quadrato) Siano Z1 ; Z2 ; :::; Zm , m variabili casuali con distribuzione normale standardizzata. La variabile X=
m X i=1
Zi2
ha una distribuzione 2 con k gradi di libert, dove k (k m) indica il numero di variabili indipendenti nella somma.
Propriet della distribuzione 2
(i) Il valore atteso di una variabile casuale con distribuzione 2 con k gradi di libert pari a k.
(ii) La varianza di una variabile casuale con distribuzione 2 con k gradi di libert pari a 2k.
(iii) La distribuzione 2 asimmetrica e il tasso di asimmetria dipende dai gradi di libert. Con pochi gradi di libert la distribuzione molto asimmetrica, ma lasimmetria si riduce progressivamente allaumentare dei gradi di libert. Per k > 100 la variabile p p 22 2k 1 pu essere trattata come una variabile normale standardizzata.
(iv) Siano X1 e X2 due variabili indipendenti con distribuzione 2 , con rispettivamente k1 e k2 gradi di libert. La variabile somma X1 + X2 ha a sua volta distribuzione 2 , con k1 + k2 gradi di libert.
probabilit e statistica inferenziale 29
.32 f(x) .28 .24 .20 .16 .12 .08 .04 .00 5 10 15 20 25 x 30
k = 10 k=5 k=2
Funzione di densit di variabili 2 con diversi gradi di libert 2.5.4. Distribuzione t di Student Sia Z una variabile casuale con distribuzione normale standardizzata e sia X una variabile casuale con distribuzione 2 con k gradi di libert e indipendente da Z. La variabile casuale p Z k Z t= q = p X X
k
ha una distribuzione t di Student con k gradi di libert.
Propriet della distribuzione t: (i) Il valore atteso di una variabile casuale con distribuzione t con k gradi di libert pari a 0. (ii) La varianza di una variabile casuale con distribuzione t con k gradi di k libert pari a k2 ed denita per k > 2.
30 capitolo 2 (iii) La distribuzione t simmetrica ma pi piatta (platicurtica) rispetto alla distribuzione normale standardizzata. Allaumentare di k la distribuzione t tende ad approssimare la distribuzione normale standardizzata.
f(x)
.4
k = 120
.3
.2
.1
k=3 k = 10
.0 -4
-3
-2
-1
3 x 4
Funzione di densit di variabili t con diversi gradi di libert 2.5.5. Distribuzione F di Fisher Siano X1 e X2 due variabili casuali, indipendentemente distribuite con distribuzione 2 con gradi di libert k1 e k2 rispettivamente. La variabile casuale F = X1 =k1 X2 =k2
ha una distribuzione F di Fisher con k1 (al numeratore) e k2 (al denominatore) gradi di libert. Propriet della distribuzione F (i) Il valore atteso di una variabile casuale con distribuzione F con k1 e k2 k2 gradi di libert pari a k2 2 ed denita per k2 > 2.
probabilit e statistica inferenziale 31 (ii) La varianza di una variabile casuale con distribuzione F con k1 e k2 gradi di libert pari a
2 2k2 (k1 + k2 2) k1 (k2 2)2 (k2 4)
ed denita per k2 > 4.
(iii) La distribuzione F asimmetrica. Allaumentare di k1 e k2 la distribuzione F tende ad approssimare la distribuzione normale.
(iv) Il quadrato di una variabile casuale con distribuzione t con k gradi di libert ha una distribuzione F con 1 e k gradi di libert:
t2 = F
se t tk e F F1;k .
(v) Se il numero di gradi di libert al denominatore, k2 sucientemente grande, allora esiste la seguente relazione tra la distribuzione F e la distribuzione 2 : k1 F = 2
se F Fk1 ;k2 e 2 21 . k
32 capitolo 2
1.6 f(x) 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 0.0 0.5 1.0 1.5
F10,2 F2,2 F50,50
2.0
2.5
3.0
Funzione di densit di distribuzioni F con diversi gradi di libert
probabilit e statistica inferenziale 33 2.6. Inferenza statistica - Stimatori
Denizione. Si consideri la variabile casuale X ricchezza di una famiglia residente in Italia e si assuma di conoscere la funzione di densit di probabilit (normale nel nostro caso) ma non il valore dei parametri della funzione (; 2 ). Quindi possiamo scrivere: X N(; 2 ) Si noti che stiamo assumendo che ciascuna famiglia della popolazione di riferimento caratterizzata dalla stessa funzione di densit. Linferenza statistica consente di ricavare delle informazioni (il valore dei parametri della PDF) su una popolazione di interesse (le famiglie residenti in Italia) data la disponibilit di un campione casuale di n famiglie estratte dalla popolazione. Dato un campione casuale (X1 ; X2 ; :::; Xn ) estratto da una popolazione la cui PDF dipende da parametri ignoti (; 2 ), uno stimatore denibile come una regola che assegna ad ogni possibile esito dellesperimento casuale estrazione di un campione di n elementi un valore per i parametri di interesse. Ad esempio, uno stimatore naturale (e non distorto) di la media del campione casuale X=
n 1 P Xi n i=1
Analogamente uno stimatore naturale (ma distorto) di 2 S2 =

n 1 P (Xi X )2 n i=1
Il concetto di stimatore non va confuso con il concetto di stima, che fa invece riferimento alla n-pla di numeri reali (x1 ; x2 ; :::; xn ), cio alla ricchezza delle n famiglie eettivamente estratte. Applicando gli stimatori di e 2 ai dati campionari delle famiglie estratte otteniamo le corrispondenti stime
x =
s2
n 1 P xi n i=1 n 1 P = (xi x)2 n i=1
Propriet degli stimatori. Esistono diversi metodi per ottenere degli stimatori (es. metodo dei momenti, metodo dei minimi quadrati, metodo della
34 capitolo 2 massima verosimiglianza). desiderabile che tali stimatori soddisno alcune propriet statistiche. Tali propriet vengono classicate in propriet nite e in propriet asintotiche. Intuitivamente, le propriet nite valgono esattamente per campioni niti (cio per campioni di dimensione n per qualsiasi n). Le propriet asintotiche invece valgono esattamente solo per campioni innitamente grandi e solo approssimativamente per campioni niti. Propriet nite. Stimatore non distorto. Uno stimatore b
denito uno stimatore non distorto (o unbiased) di un parametro se il suo valore atteso eguale al vero , cio se: E b = Se leguaglianza non soddisfatta allora lo stimatore distorto (biased) e la distorsione (bias) pari a: bias b = E b Stimatore a varianza minima. Dato un insieme di stimatori b1 ; b2 ; :::; bj b1
di un parametro , lo stimatore
denito stimatore a varianza minima, se la sua varianza non maggiore di quella di ogni altro stimatore di . Stimatore eciente. Lo stimatore b1
uno stimatore eciente di se lo stimatore a varianza minima tra il sottoinsieme di stimatori non distorti. Stimatore lineare. Uno stimatore viene denito uno stimatore lineare se una funzione lineare del campione casuale. Ad esempio la media campionaria uno stimatore lineare: n 1 P X= Xi n i=1
probabilit e statistica inferenziale 35 Stimatore lineare, non distorto a varianza minima (BLUE). Uno stimatore lineare, non distorto e con varianza minima nella classe degli stimatori lineari e non distorti denito BLUE (Best Linear Unbiased Estimator). Stimatore a errore quadratico medio (MSE) minimo. La MSE (MeanSquared Error) di uno stimatore denita come: i2 h 2 = MSE b = E b = E b E b + E b i2 io h i2 h nh i h = E bE b + E b + 2E b E b E b = h i2 h i2 2 = E bE b + E b = V ar b + bias b
Intuizione: la scelta di uno stimatore a errore quadratico medio minimo pu implicare la scelta di uno stimatore distorto se la sua varianza sucientemente piccola.
.4
f(1 ) f( 2 )
.3
.2
.1
.0
E( 1 ) =
/ E(2 ) =
Stimatori distorti e non distorti
36 capitolo 2
.8 .7 .6 .5 .4 .3 .2 .1 .0
f ( 3 )
f ( 1 )
f ( 2 ) E ( 3 )
Distribuzione di tre stimatori di
.9 .8 .7 .6 .5 .4 .3 .2 .1 .0
E ( 1 )= E ( 2 ) f ( 1 ) f ( 2 )
Trade-o tra distorsione e varianza
probabilit e statistica inferenziale 37 Propriet asintotiche. In alcuni casi non possibile ottenere per uno stimatore le propriet nite desiderate e ci si limita a considerare propriet che valgono quando la dimensione del campione cresce indenitamente (propriet asintotiche). Stimatore consistente. Uno stimatore bn
denito uno stimatore consistente di un parametro se tende al valore vero al crescere della dimensione n del campione. Formalmente se la probabilit che il valore assoluto della dierenza tra lo stimatore e il parametro sia maggiore di " (una quantit positiva piccola a piacere) tende a 0 al tendere di n allinnito: lim P bn > " = 0
n!1
che pu essere riscritta come
dove p lim indica il limite in probabilit. Condizione suciente perch uno stimatore sia consistente che il bias e la varianza tendano a zero al tendere di n allinnito. Propriet delloperatore plim - Invarianza (propriet di Slutski). Se: plim bn =
plim bn =
allora
dove h una funzione continua dello stimatore. - Se b una costante plim (b) = b
h i plim h bn = h ()
cio il limite in probabilit di una costante la costante stessa. - Dati due stimatori consistenti b1;n ; b2;n
38 capitolo 2 valgono le seguenti relazioni plim b1;n + b2;n = plim b1;n + plim b2;n plim b1;nb2;n = plim b1;n plim b2;n ! plim b1;n b1;n plim = b2;n plim b2;n
Si noti che la seconda e la terza relazione valgono indipendentemente dal fatto che gli stimatori siano stocasticamente indipendenti. Questo non vero invece nel caso del valore atteso. - Stimatore asintoticamente eciente. Uno stimatore asintoticamente eciente se consistente e la sua varianza asintotica non maggiore della varianza asintotica di qualunque altro stimatore consistente del parametro. - Stimatore asintoticamente normale. Uno stimatore denito asintoticamente normale se la sua distribuzione campionaria tende a distribuirsi normalmente al crescere della dimensione del campione.
1.0 0.8 0.6 0.4

f ( ) n = 25 f ( ) n = 100 f ( ) n = 80 f ( ) n = 50
0.2 0.0

La distribuzione di b al crescere della numerosit campionaria
probabilit e statistica inferenziale 39 2.7. Inferenza statistica - Stimatore per intervalli e intervalli di condenza
Introduzione. Una stima puntuale basata su un particolare campione osservato non fornisce informazioni sucienti per vericare delle ipotesi suggerite dalla teoria economica o per dare un contributo signicativo al dibattito di politica economica. Sapere che basandosi su un campione casuale di nuovi assunti, un ricercatore ha stimato che la laurea in economia ha leetto di aumentare il salario di ingresso del 10% non ci dice nulla su quanto questa stima sia vicina al valore vero del parametro. La costruzione degli intervalli di condenza contribuisce a rispondere a questa domanda. Esempio. Supponiamo che laltezza degli uomini residenti in Italia sia rappresentabile dalla variabile casuale X N(; 2 ) Dato un campione casuale di 100 uomini (n = 100), uno stimatore di la media campionaria P 1 100 X= Xi 100 i=1 Conoscendo la distribuzione di X sappiamo anche che X N(; e Z= X p N(0; 1) = n 2 ) n
A questo punto siamo in grado di costruire un intervallo che includa con una data probabilit (detta livello di condenza). Pressato un livello di condenza del 95% possiamo infatti scrivere che X p 1; 96 = 0; 95 P r 1; 96 = n e, dopo alcuni passaggi algebrici P r X 1; 96 p X + 1; 96 p = 0; 95 n n Formalmente lultima espressione indica che lintervallo [X 1; 96 p ; X + 1; 96 p ] n n
40 capitolo 2 contiene con il 95% di probabilit. In altri termini prima che il campione casuale sia estratto vi il 95% di probabilit che sia compresa tra il valore inferiore, X 1; 96 pn e il valore superiore, X + 1; 96 pn dellintervallo. Possiamo pensare allintervallo come ad uno stimatore per intervalli, cio ad uno stimatore che fornisce i limiti entro i quali contenuto il valore del parametro ad un dato livello di probabilit. Una volta che abbiamo estratto il campione e calcolato la stima di x= P 1 100 xi = 1; 70 100 i=1
possiamo costruire una stima per intervalli detta anche intervallo di condenza al 95%. Nel nostro caso, assumendo = 0; 5 0; 5 0; 5 ; 1; 70 + 1; 96 p ] [1; 70 1; 96 p 100 100 [1; 602; 1; 798] Nel linguaggio del test delle ipotesi lintervallo di condenza denito regione di accettazione, gli estremi superiore e inferiore della regione di accettazione sono deniti valori critici, e larea esterna allintervallo di condenza denita regione di riuto (o di non accettazione).
probabilit e statistica inferenziale 41 2.8. Inferenza statistica - Test di ipotesi
Introduzione. Il test delle ipotesi consiste nel rispondere alla seguente domanda: lo stimatore b compatibile con un valore numerico ipotizzato (nel nostro caso spesso suggerito dalla teoria economica) del parametro ? Lipotesi = denita ipotesi nulla (H0 ) ed testata contro unipotesi alternativa (H1 ), che a sua volta pu essere semplice, se specica il valore alternativo, o composta, nel caso in cui il valore alternativo non sia specicato. Esempio. Ipotesi alternativa composta H0 : = = 1; 75 H1 : 6= Per testare la validit dellipotesi nulla contro lipotesi alternativa si costruisce la statistica del test che una funzione del campione casuale. Della statistica del test si conosce la distribuzione sotto lipotesi nulla. Nel nostro caso, se = allora X p N(0; 1) Z= = n In ogni applicazione e n sono noti. Si supponga per semplicit che anche sia noto (ma cosa succede se non lo ?). Il problema che noi non conosciamo X ma solamente x. Sostituendo X con x, otteniamo la cosiddetta statistica del test calcolata x 1; 70 1; 75 p = = 1 z= = n 0; 5=10 Intuitivamente, la domanda a cui intendiamo rispondere se x = 1; 70 sia signicativamente diverso dal valore pressato 1; 75. Ci equivale a chiedersi se z = 1 signicativamente diverso da 0. Per rispondere alla domanda necessario vericare se il valore di z cade allinterno dellintervallo di condenza per un dato livello di signicativit (il complemento a 1 del livello di condenza). Ad esempio, nel caso di un livello di signicativit del 5%, i valori critici sono rispettivamente 1; 96 (inferiore) e +1; 96 (superiore) al cui interno cade z = 1. Livello esatto di signicativit (p valore). Lapproccio che confronta la statistica calcolata con i valori critici, al ne di vericare se la statistica cade dentro la regione di accettazione o meno, presenta lo svantaggio di dovere ricalcolare la regione di accettazione per ogni livello di signicativit.
42 capitolo 2 Un approccio alternativo (ma perfettamente equivalente in termini di risultati) basato sul confronto tra il p valore (o livello esatto di signicativit) della statistica calcolata e il livello di signicativit prescelto dal ricercatore. Il p valore denito come la probabilit di ottenere, sotto lipotesi nulla, un valore della statistica del test pi sfavorevole allipotesi nulla stessa. In pratica, il p valore denisce il pi basso livello di signicativit che conduce a riutare lipotesi nulla; pertanto, se il p valore minore (maggiore) del livello di signicativit prescelto, lipotesi nulla verr riutata (non riutata). Nel nostro esempio, il p valore di 1 vale - dalle tavole della distribuzione normale standardizzata - 0; 32 per cui lipotesi nulla sar rigettata solo per valori di 32%. In particolare, pressando = 5%, otteniamo il medesimo risultato (non riuto dellipotesi nulla H0 : = = 1; 75) ottenuto in precedenza vericando che la statistica del test ricadeva nella regione di accettazione. Errori del I e del II tipo. Si noti che con la decisione di riutare o non riutare lipotesi nulla si incorre nel rischio di commettere due tipi di errori: Errore del I tipo: riutare lipotesi nulla H0 quando vera; Errore del II tipo: non riutare lipotesi nulla H0 quando falsa. Approccio classico. Data la dimensione del campione (n) non possibile minimizzare entrambi gli errori. Si sceglie un livello di signicativit basso ( = 0; 05 o = 0; 01) per ottenere un basso livello di probabilit di commettere un errore del I tipo e, data la probabilit di commettere tale errore, si cerca di minimizzare la probabilit di commettere un errore del II tipo. Denita con la probabilit di commettere un errore del secondo tipo, si denisce con (1 ) la potenza del test.
probabilit e statistica inferenziale 43 2.9. Esercizi
1. Dato un mazzo di 52 carte: (a) Qual la probabilit di estrarre una carta di quadri in una singola estrazione? (b) Qual la probabilit di estrarre una carta di cuori in una singola estrazione? (c) Qual la probabilit di estrarre un asso in una singola estrazione? (d) Qual la probabilit di estrarre una carta di quadri o una carta di cuori in una singola estrazione? (e) Qual la probabilit di estrarre una carta di quadri o un asso in una singola estrazione? (f) Qual la probabilit di estrarre due carte di quadri in due successive estrazioni (con reinserimento)? (g) Qual la probabilit di estrarre un carta di quadri in una singola estrazione sapendo di aver estratto una gura? 2. Variabile casuale univariata discreta: lesperimento consiste nel lancio di due dadi. Deniamo la variabile casuale somma dei numeri sulle facce dei due dati. Calcolarne la funzione di densit. 3. Variabile casuale univariata continua: data la seguente funzione 1 f(x) = x2 9 (a) vericare che integri a uno; (b) calcolare la probabilit che la variabile casuale X sia compresa nellintervallo [0; 1]; (c) calcolare la probabilit che la variabile casuale X sia compresa nellintervallo [1; 2]; (d) calcolare la probabilit che la variabile casuale X sia compresa nellintervallo [2; 3]. 0x3
44 capitolo 2 4. Variabili casuali bivariate discrete. Data la seguente funzione di densit congiunta X = 2 0; 27 0; 00 X=0 0; 08 0; 04 X =2 0; 16 0; 10 X =3 0; 00 0; 35
Y =3 Y =6
(b) Calcolare la funzione di densit marginale per X e per Y ; (c) Calcolare la funzione di densit condizionata per X e per Y . 5. Variabili casuali bivariate continue. densit congiunta Data la seguente funzione di
(a) Calcolare la probabilit dellevento X = 2 \ Y = 3;
f(x; y) = 2 x y 0 x1 0 y1 (a) Vericare che integri a 1; (b) Calcolare la funzione di densit marginale per X e per Y ; (c) Calcolare la funzione di densit condizionata per X e per Y 6. Variabile casuale univariata discreta. Lesperimento consiste nel lancio di due dadi. Deniamo la variabile casuale somma dei numeri sulle facce dei due dadi. Calcolarne la media e la varianza. 7. Variabile casuale univariata continua. Sia data una variabile aleatoria X con la seguente funzione di densit 1 f(x) = x2 9 0x3
Calcolarne il valore atteso E(X), il momento secondo E(X 2 ) e la varianza V ar(X).
Capitolo 3
Modelli di Regressione Introduzione e concetti di base
Modelli uni-equazionali e modelli multi-equazionali. Nel corso ci occuperemo (quasi) esclusivamente di stima di modelli economici composti da una sola equazione, rappresentabile come: y = f (x1 ; x2 ; :::; xk ; ") dove: y la variabile dipendente; x1 ; x2 ; :::; xk sono k variabili indipendenti (o variabili esplicative o regressori); " il termine derrore (o pi semplicemente errore) Motivi per includere il termine derrore: 1. incompletezza della teoria sottostante alla specicazione del modello; 2. non-osservabilit dei dati o approssimazioni nei dati osservati; 3. parsimonia nella specicazione del modello con esclusione di alcune variabili meno importanti (variabili secondarie); 4. forma funzionale non corretta; 5. casualit nel comportamento umano.
46 capitolo 3 Selezione delle variabili da includere nel modello. Per semplicit inizieremo analizzando il modello di regressione bivariato. Studieremo poi il modello trivariato e inne (con laiuto dellalgebra delle matrici) generalizzeremo al caso multivariato. Modello bivariato: modello con ununica variabile indipendente: y = f (x1 ; ") Modello trivariato: modello con due variabili indipendenti: y = f (x1 ; x2 ; ") Modello multivariato: modello generico con k variabili indipendenti: y = f (x1 ; x2 ; :::; xk ; ") Scelta della forma funzionale. Nel corso ci occuperemo esclusivamente di modelli lineari nei parametri (ma non necessariamente lineari nelle variabili). Ad esempio, nel caso trivariato y = 0 + 1 x1 + 2 x2 + " un modello lineare sia nei parametri, sia nelle variabili. Viceversa y = e 0 x1 1 x2 2 e" un modello non lineare nelle variabili, che tuttavia pu essere reso lineare nei parametri (e quindi rientra nel nostro campo di studi) trasformando le variabili in logaritmi: log y = 0 + 1 log x1 + 2 log x2 + " Il modello seguente invece non lineare nei parametri y = 0 + 1 +" (x1 + x2 ) 2

e non rientra nel nostro campo di studio. Assunzioni sulla natura del termine derrore. Si supponga di disporre di n osservazioni su y e su x1 ; x2 ; :::; xk . Il modello pu essere scritto come yi = 0 + 1 x1i + 2 x2i + "i
regressione - concetti di base 47 Inizialmente lavoreremo utilizando le cosiddette assunzioni classiche: E("i ) = 0 per i = 1; 2; :::; n V ar("i ) = 2 per i = 1; 2; :::; n
Cov("i ; "j ) = 0 per i 6= j Inoltre, per poter sottoporre a test le ipotesi sui parametri del modello assumeremo anche che: "i N(0; 2 ) per i = 1; 2; :::; n Considerate congiuntamente le quattro assunzioni possono essere riassunte come segue: "i IN(0; 2 ) per i = 1; 2; :::; n dove la I (independent) indica che i termini di errore sono indipendentemente distribuiti. Assunzioni sulla natura delle variabili indipendenti. Assumeremo prevalentemente che le variabili indipendenti siano variabili deterministiche. Ne consegue che per denizione: Cov(xhj ; "i ) = 0 per i; j = 1; 2; :::; n; h = 1; 2; :::; k Unassunzione meno restrittiva che consenta di preservare il risultato sulla covarianza che le variabili indipendenti siano stocastiche ma distribuite indipendentemente dal termine derrore. Infatti, sotto lassunzione di indipendenza e ricordando che E("i ) = 0 si pu scrivere E(xhj "i ) = E(xhj )E ("i ) = 0 per i; j = 1; 2; :::; n; h = 1; 2; :::; k Segue che: Cov(xhj ; "i ) = E f[xhj E(xhj )]["i E("i )]g = 0 per i; j = 1; 2; :::; n; h = 1; 2; :::; k Si osservi inne che, con variabili indipendenti non stocastiche, dallassunzione E("i ) = 0 deriva che il valore atteso di y pari a: E (yi ) = 0 + 1 x1i + 2 x2i
48
Capitolo 4
Modelli di Regressione Regressione lineare bivariata
4.1.
Metodo dei Minimi Quadrati Ordinari
4.1.1. Assunzioni 1. Modello lineare bivariato: yi = 0 + 1 xi + "i 2. Assunzioni classiche: E("i ) = 0 per i = 1; 2; :::; n V ar("i ) = 2 per i = 1; 2; :::; n Cov("i ; "j ) = 0 per i 6= j Cov(xj ; "i ) = 0 per i; j = 1; 2; :::; n 3. Assunzione sulla normalit dei termini derrore: "i N(0; 2 ) per i = 1; 2; :::; n per i = 1; 2; :::; n
50 capitolo 4 4.1.2. Stima dei parametri Intuizione: i parametri 0 , 1 e 2 non sono noti. Il metodo dei minimi quadrati denisce degli stimatori di 0 e 1 , che chiameremo b0 e b1 , tali da minimizzare la somma del quadrato dei residui (RSS, Residual Sum of Squares). Denizione di residuo: ei = yi b0 b1 xi e quindi RSS =
n X i=1
per i = 1; 2; :::; n
e2 = i
Scriviamo il programma di minimizzazione Min

b0 ;b1 n X i=1
n X i=1
(yi b0 b1 xi )2
(yi b0 b1 xi )2
Le condizioni del primo ordine sono: @RSS X = 2 (yi b0 b1 xi ) = 0 @b0

i=1 n
La prima condizione del primo ordine pu essere riscritta come segue

n X i=1
@RSS X = 2xi (yi b0 b1 xi ) = 0 @b1

i=1
2 (yi b0 b1 xi ) = 0 (yi b0 b1 xi ) = 0
n X i=1
n X i=1 n P
n X i=1
yi nb0 b1
xi = 0
y = b0 + b1 x
dove y =
1 n
yi e x =
i=1
1 n
i=1
equazione normale.
n P
xi . Lespressione nale viene denita prima
regressione bivariata 51 Analogamente la seconda condizione del primo ordine pu essere riscritta come segue: n X 2xi (yi b0 b1 xi ) = 0
i=1 n X i=1
xi (yi b0 b1 xi ) = 0
n X i=1
dove lespressione nale viene denita seconda equazione normale. Gli stimatori b0 e b1 rappresentano la soluzione al sistema composto dalle due equazioni normali y = b0 + b1 x
n X i=1
n X i=1
xi yi = b0
xi + b1
n X i=1
x2 i
xi yi = b0
n X i=1
Deniamo ora
n X i=1 2
xi + b1
n X i=1
n X i=1
x2 i
Sxx =
(xi x) = (yi y)2 =
x2 nx2 i
2 yi ny 2
Syy =
n X i=1
n X i=1
n X i=1
Sxy =
(xi x) (yi y) =
Sostituiamo ora la prima equazione normale nella seconda

n X i=1
n X i=1
xi yi nx y
xi yi = (y b1 x)
n X i=1
xi + b1
n X i=1
xi yi nxy = b1
n P
n X
i=1
n X i=1 2
x2 i !
x2 i
nx
xi yi nx y Sxy = b1 = i=1 n P 2 Sxx xi nx2

i=1
52 capitolo 4 e inne b0 = y
Sxy x = y b1 x Sxx
Lo stimatore b1 quindi dato dal rapporto tra la codevianza tra x e y, Sxy e la devianza di x, Sxx . 4.1.3. Propriet algebriche dei minimi quadrati 1. La somma dei residui pari a zero. Questa propriet deriva direttamente dalla prima equazione normale. Infatti:
n X i=1
ei =
n X i=1
(yi b0 b1 xi ) = 0
2. La somma dei prodotti xi ei pari a zero. Questa propriet deriva direttamente dalla seconda equazione normale. Infatti:
n X i=1
xi ei =
n X i=1
xi (yi b0 b1 xi ) = 0
4.1.4. Il coeciente di determinazione semplice Partiamo dalla denizione gi incontrata di somma del quadrato dei residui:
n X i=1 n X i=1 n X i=1 n X i=1
RSS = =
e2 = i
(yi b0 b1 xi )2 =
n X i=1
(yi y b1 (xi x))2 =

n X i=1
(yi y)2 + b2 1
(xi x)2 2b1 Sxy Sxx
(yi y) (xi x) = Sxy Sxy = Sxx
= Syy + b2 Sxx 2b1 Sxy = Syy + 1 = Syy (Sxy )2 = Syy b1 Sxy Sxx
Sxx 2
Denotando con: Syy = somma totale dei quadrati degli scarti della variabile dipendente rispetto alla media (T SS, Total Sum of Squares) b1 Sxy = somma dei quadrati spiegata dal modello di regressione (ESS, Explained Sum of Squares)
regressione bivariata 53 possiamo scrivere: T SS = ESS + RSS Il coeciente di determinazione semplice denito dal rapporto tra la somma dei quadrati spiegata e la somma totale dei quadrati. In formula: r2 = ESS RSS =1 T SS T SS
Valori elevati di r2 indicano che una parte rilevante della somma totale dei quadrati degli scarti spiegata dalla retta di regressione. Si osservi inne che il quadrato del coeciente di correlazione campionario coincide con il coeciente di determinazione semplice. 4.1.5. Propriet statistiche Teorema di Gauss-Markov. Date le assunzioni classiche gli stimatori OLS b0 e b1 sono: (a) lineari; (b) non distorti; (c) a varianza minima nella classe degli stimatori lineari non distorti (BLUE ). Teorema di Rao. (d) Se inoltre si assume la normalit dei termini di errore, gli stimatori OLS b0 e b1 sono gli stimatori a varianza minima nella classe degli stimatori (lineari e non-lineari) non distorti (BUE ). Distribuzione degli stimatori OLS. (e) Data lassunzione di normalit dei termini di errore, gli stimatori OLS b0 e b1 sono a loro volta distribuiti normalmente con le seguenti medie e varianze: x2 2 1 + b0 N 0 ; n Sxx
e viene utilizzato per valutare la bont (il t) di una regressione. Si noti che 0 r2 1
54 capitolo 4 2 b1 N 1 ; Sxx x 2 Cov (b0 ; b1 ) = Sxx La conoscenza delle varianze di b0 e b1 (e della loro covarianza) ovviamente utile. Tuttavia, dicilmente possono essere calcolate direttamente dal momento che 2 non noto. (f) La seguente statistica (la cui radice nota come errore standard della regressione) RSS s2 = n2 2 . Inoltre: uno stimatore non distorto di RSS 2 2 con n 2 gradi di libert. Ne deriva inne ha una distribuzione che le seguenti statistiche
r b0 0 1 x2 2 n + S
xx
RSS (n2)2
dove se (bk ) indica lerrore standard dello stimatore bk , hanno una distribuzione t con n 2 gradi di libert e possono essere utilizzate per costruire intervalli di condenza o eettuare test di ipotesi su 0 e 1 . Dimostrazione del teorema di Gauss-Markov. Consideriamo per semplicit un modello lineare con un solo parametro : yi = xi + "i dove E("i ) = 0 per i = 1; 2; :::; n V ar("i ) = 2 per i = 1; 2; :::; n Cov("i ; "j ) = 0 per i 6= j per i = 1; 2; :::; n
b1 q 1
2 Sxx
=r
b0 0 RSS 1 (n2) n +
b0 0 b0 0 =r = se (b ) 0 x2 1 x2 s2 n + Sxx Sxx b1 b1 1 = q 1 = 2 se (b1 ) s

Sxx
RSS (n2) 2
b1 1 =q
RSS (n2)Sxx
Cov(xj ; "i ) = 0 per i; j = 1; 2; :::; n (con xj deterministiche)
regressione bivariata 55 Prova linearit. Lo stimatore a minimi quadrati di : xi yi X n = ci yi b = i=1 n P 2 i=1 xi

i=1 n P
dove ci =
i=1
xi n P 2. xi
Quindi b uno stimatore lineare dal momento che una funzione lineare delle osservazioni campionarie yi . Prova non-distorsione. Il valore atteso di b pu essere scritto come: 0 1 E(b) =
n X i=1
ci E (yi ) =
Quindi b uno stimatore non distorto del parametro .
n X B xi C B C n @ P A xi = 2 i=1 xi i=1
Prova varianza minima nella classe degli stimatori lineari non-distorti. Lo stimatore a minimi quadrati pu essere scritto come: b=
n X i=1
ci yi
Si consideri uno stimatore lineare alternativo ba =

n X i=1
di yi
Anch lo stimatore alternativo sia non distorto deve essere vero che: E(ba ) = e quindi:
n X i=1 n X i=1
di E (yi ) =
n X i=1
di xi =
di xi = 1
56 capitolo 4 Dal momento che gli yi sono indipendenti con varianza costante pari a 2 , possiamo scrivere che: V ar(ba ) =
n X i=1
d2 2 i
Per trovare lo stimatore lineare non-distorto a varianza minima dobbiamo risolvere il seguente problema di minimizzazione vincolata: Min
di n X i=1
d2 i
con
Scriviamo il problema di minimizzazione vincolata n ! n X X d2 di xi 1 Min i

di ; i=1 i=1
n X i=1
di xi = 1
che equivale a
dove il moltiplicatore di Lagrange. Si derivi rispetto a di e si eguagli a zero: 2di xi = 0 di =
xi 2 Si moltiplichino ora entrambi i membri per xi e si sommi rispetto a i:

n X i=1
X 2 di xi = xi 2
i=1 i=1 n P
Derivando rispetto a si ottiene di Lagrange eguale a:
di xi = 1, da cui il moltiplicatore
da cui deriva che di =
2 = P n x2 i
i=1
che completa la dimostrazione del teorema.
xi xi = ci = P n 2 x2 i
i=1
regressione bivariata 57 Varianza dello stimatore a minimi quadrati: 0 12 V ar(b) =

n X i=1
c2 2 = i
n 2 X B xi C B C 2 = n n @P A P 2 i=1 x2 xi i i=1 i=1
Distribuzione campionaria degli stimatori a minimi quadrati b0 e b1 : Si consideri il seguente modello yi = 0 + 1 xi + "i per i = 1; 2; :::; n
"i IN(0; 2 ) per i = 1; 2; :::; n Gli stimatori a minimi quadrati sono: b0 = y b1 = Sxy x Sxx
Sxy Sxx
Le n variabili y1 ; y2 ; :::; yn sono distribuite come segue: yi IN( 0 + 1 xi ; 2 ) per i = 1; 2; :::; n Deniamo due nuove variabili, somma di variabili distribuite normalmente: L1 =
n X i=1 n X i=1
ci yi
L2 =
di yi
Queste sono a loro volta distribuite normalmente n ! n X X ci ( 0 + 1 xi ) ; 2 c2 L1 N i

i=1 i=1
L2 N
n X
i=1
di ( 0 + 1 xi ) ; 2
n X i=1
d2 i
58 capitolo 4 Cov (L1 ; L2 ) = 2 Scriviamo ora b0 e b1 in funzione di yi Sxy = da cui Sxy b1 = = Sxx con ci = e b0 = y con di = Sxy x= Sxx
n P n X i=1 n X i=1
ci di
(xi x) (yi y) =
n X i=1
(xi x) yi y
n X i=1
(xi x) =
n X i=1
(xi x) yi
i=1
n P
(xi x) yi Sxx (xi x) Sxx

n P
n X i=1
ci yi
yi
i=1
x i=1
(xi x) yi Sxx
n X i=1
di yi
1 x (xi x) n Sxx
n 2 X 2 (xi x)2 = 2 Sxx Sxx i=1
Calcoliamo ora le varianze dei due stimatori V ar (b1 ) =

n X i=1
c2 2 = i
x (xi x) 2 V ar (b0 ) = = = n Sxx i=1 i=1 " # n X 1 x 2 x2 1 2 x (xi x) 2 2 = 2 + (xi x) + = n2 Sxx n Sxx n Sxx
n X
d2 2 i
n X1
i=1
dato che:
n X i=1
n X i=1
(xi x) = 0
(xi x)2 = Sxx
regressione bivariata 59
n X 1 1 = 2 n n i=1
Calcoliamo inne la loro covarianza Cov (b0 ; b1 ) =

n X i=1 2
ci di 2 = x (xi x) n Sxx x = Sxx

2
n X xi x 1 i=1
Sxx
Naturalmente il valore atteso dei due stimatori eguale a: E(b1 ) = e E(b0 ) = E (y) 1 x = ( 0 + 1 x) 1 x = 0 dal momento che:
i=1 n P n P n X i=1
ci E (yi ) =
n X i=1
ci ( 0 + 1 xi ) = 1
ci 0 = 0 e
ci xi = 1.
i=1
60 capitolo 4 4.2. Intervalli di condenza e test delle ipotesi
Date le usuali assunzioni classiche e lassunzione sulla normalit dei termini derrore, le statistiche b0 0 se (b0 ) b1 1 se (b1 ) hanno una distribuzione t di Student con n 2 gradi di libert. Inoltre la statistica RSS 2 ha una distribuzione 2 con n 2 gradi di libert. quindi agevole costruire intervalli di condenza o eettuare test di ipotesi sui parametri del modello lineare bivariato. Intervalli di condenza. Pressato un livello di condenza (1 ) lappropriato intervallo di condenza per 1 (e analogamente per 0 ) il seguente: b1 1 P r t ;n2 t ;n2 = 1 2 2 se (b1 ) dove t ;n2 rappresenta il valore critico inferiore con n 2 gradi di libert 2 t ;n2 rappresenta il valore critico superiore con n 2 gradi di libert 2 da cui P r b1 t ;n2 se (b1 ) 1 b1 + t ;n2 se (b1 ) = 1 2 2 b1 t ;n2 se (b1 ) 2 contiene il vero 1 . Analogamente, pressato lusuale livello di signicativit, nel caso del parametro 2 : (n 2) s2 2 2 P r ;n2 1 ;n2 = 1 2 2 2
Quindi, in (1 ) 100 su 100 casi lintervallo
regressione bivariata 61 dove

2 ;n2 rappresenta il valore critico inferiore con n 2 gradi di libert 2 2
2 ;n2 rappresenta il valore critico superiore con n 2 gradi di libert 1 !
da cui P r (n 2) s2 2 ;n2 1
2
2 (n 2)
s2 2 ;n2
2
=1
Quindi, in (1 ) 100 su 100 casi lintervallo # " s2 s2 ; (n 2) 2 (n 2) 2 1 ;n2 ;n2

2 2
contiene il vero 2 . Test di ipotesi. I test di ipotesi sono procedure che consentono di vericare se unipotesi nulla sia vera o falsa utilizzando dei dati campionari. Ad esempio, nel caso del parametro 1 (e analogamente per 0 ) H0 : 1 = 1 H1 : 1 = 6 1 Se H0 vera, la statistica b1 1 se (b1 )
ha una distribuzione t di Student con n2 gradi di libert. Pressato quindi lusuale livello di condenza (1 ), appropriati intervalli di condenza possono essere costruiti. b1 1 P r t 2 ;n2 t 2 ;n2 = 1 se (b1 ) e, dopo opportuni passaggi, P r t ;n2 se (b1 ) b1 + t ;n2 se (b1 ) = 1 1 1 2 2
Lipotesi nulla riutata a favore dellipotesi alternativa se b1 cade al di fuori dellintervallo di condenza (regione di accettazione).
62 capitolo 4 Analogamente, i test di ipotesi possono essere applicati anche a 2 . Data la seguente ipotesi nulla: H0 : 2 = 2 2 H1 : = 2 6 Se H0 vera, la statistica RSS (n 2) s2 = 2 2 ha una distribuzione 2 con n2 gradi di libert. Pressato (1), possiamo scrivere lintervallo di condenza come: (n 2) s2 2 2 P r ;n2 1 ;n2 = 1 2 2 2 e, dopo gli opportuni passaggi, come 2 2 2 2 2 P r ;n2 =1 s 1 ;n2 2 2 (n 2) (n 2) Lipotesi nulla riutata a favore dellipotesi alternativa se s2 cade al di fuori dellintervallo di condenza (regione di accettazione).
regressione bivariata 63 4.3. Introduzione alla previsione
Dopo aver stimato i parametri del modello lineare bivariato ( 0 ; 1 , 2 ) possibile utilizzarli per prevedere il valore di y per ogni valore dato di x. Sia x0 il valore dato di x, la previsione del corrispondente valore di y, denito b come y0 , data da: y0 = b0 + b1 x0 b mentre il valore vero y0 = 0 + 1 x0 + "0 dove "0 lusuale termine derrore. Possiamo quindi denire lerrore di previsione come: y0 y0 = (b0 0 ) + (b1 1 ) x0 "0 b
che ha valore atteso nullo, dal momento che:
e varianza pari a:
E (y0 y0 ) = [E (b0 ) 0 ] + [E (b1 ) 1 ] x0 E ("0 ) b
V ar (y0 y0 ) = V ar [(b0 0 ) + (b1 1 ) x0 "0 ] = b = V ar (b0 0 ) + x2 V ar (b1 1 ) + 2x0 Cov (b0 0 ; b1 1 ) + V ar ("0 ) = 0 1 x2 x2 x + 2 0 2x0 2 = 2 + 2 = + n Sxx Sxx Sxx ! 1 (x0 x)2 2 = 1+ + n Sxx Si osservi che la varianza dellerrore di previsione: (a) una funzione negativa del numero di osservazioni n; (b) una funzione positiva della distanza tra x0 e la media delle osservazioni sulla cui base sono stati stimati i parametri del modello lineare bivariato, x. Nota la varianza dellerrore di previsione possibile costruire un intervallo di previsione per y0 tale che, dato x0 , in (1 )100 su 100 casi lintervallo contiene il vero y0 : y0 y0 b P r t ;n2 t ;n2 = 1 2 2 se (y0 y0 ) b
64 capitolo 4 0 1
Alternativamente, invece di prevedere il valore di y0 , dato x0 , possibile prevedere il valore atteso di y0 , cio E(y0 ). Dato che: E (y0 ) = 0 + 1 x0 la previsione ancora Tuttavia, lerrore di previsione diverso. Infatti: y0 E (y0 ) = (b0 0 ) + (b1 1 ) x0 b y0 = b0 + b1 x0 b
v ! u u 1 (x0 x)2 b P r @y0 t ;n2 st 1 + + y0 2 n Sxx v !1 u 2 u 1 (x0 x) A = 1 b y0 + t ;n2 st 1 + + 2 n Sxx 0
B C y0 y0 b P r Bt ;n2 r t ;n2 C = 1 @ 2 A 2 2 1 s 1 + n + (x0 x) Sxx
Inoltre, il valore atteso dellerrore di previsione sempre nullo, mentre la sua varianza eguale a: V ar (y0 E (y0 )) = V ar [(b0 0 ) + (b1 1 ) x0 ] = b = V ar (b0 0 ) + x2 V ar (b1 1 ) + 2x0 Cov (b0 0 ; b1 1 ) = 0 2 1 x x2 x + 2 0 2x0 2 = 2 = + n Sxx Sxx Sxx ! 1 (x0 x)2 = 2 + n Sxx
regressione bivariata 65 4.4. Forme funzionali utili
Si gi osservato in precedenza che il modello lineare implica linearit nei parametri ma non necessariamente nelle variabili (originarie). Ne deriva la possibilit di denire una vasta gamma di forme funzionali che, dopo opportune trasformazioni, rientrano nella classe dei modelli lineari. Modello log-lineare (o modello log-log): yi = e 0 xi 1 e"i che pu essere riscritto come ln yi = 0 + 1 ln xi + "i Tale modello lineare nei parametri, lineare nei logaritmi delle variabili e pu quindi esser stimato con il metodo dei minimi quadrati ordinari. La sua popolarit (non solo nel contesto bivariato) dovuta al fatto che il parametro 1 misura direttamente lelasticit (costante) di y rispetto a x. Infatti, denita con yx lelasticit yx = Esempio: log yt = 0 + 1 log xt + "t "t IN(0; 2 ) per t = 1; 2; :::; T d ln y dy x = = 1 dx y d ln x
dove xt indica il prezzo del ca al dettaglio e yt il consumo di ca (tazze per persona al giorno) nel medesimo periodo. I risultati della stima sono: d log y t = 0; 77 0; 25 log xt
(0;02) (0;05)
= 0; 74
Interpretazione del parametro 1 : un aumento di 1% del prezzo del ca determina una riduzione del consumo di ca di 0; 25% (domanda inelastica). 1 = d log yt = d log xt
dyt yt dxt xt
= 0; 25
66 capitolo 4 Modelli semilog-lineari : Modello log-lin: yt = y0 (1 + r)t e"t
dove y0 il valore iniziale della variabile, r il tasso di crescita (costante) di y, e t rappresenta il tempo. Lespressione pu essere riscritta come: ln yt = ln y0 + t ln (1 + r) + "t e quindi ln yt = 0 + 1 t + "t dove 0 = ln y0 e 1 = ln (1 + r) Il modello viene denito log-lin perch solo la variabile dipendente espressa in forma logaritmica, mentre la variabile indipendente t indica il tempo (t = 1; 2; 3; :::; T ). La sua popolarit dovuta al fatto che il parametro 1 misura direttamente il tasso costante di crescita di y. Esempio: log yt = 0 + 1 t + "t "t IN(0; 2 ) per t = 1; 2; :::; T
dove t rappresenta un trend lineare e yt il PIL (Prodotto Interno Lordo) a prezzi costanti. I risultati della stima sono: d log y t =8; 02 + 0; 025t
(0;01) (0;009)
con
r2 = 0; 97
Interpretazione del parametro 1 : il tasso di crescita (costante) del PIL pari a 2,5%. 1 = Modello lin-log: dyt 1 d log yt = = 2; 5% dt yt dt
yt = 0 + 1 ln xt + "t
In questo modello il parametro 1 misura la variazione assoluta di y a fronte di una variazione relativa di x. Infatti, 1 = dyt dyt = dxt d ln xt x
t
regressione bivariata 67 Il modello viene denito lin-log perch solo la variabile indipendente espressa in forma logaritmica. Esempio: yt = 0 + 1 log xt + "t "t IN(0; 2 ) per t = 1; 2; :::; T
dove xt rappresenta loerta di moneta e yt il PIL (Prodotto Interno Lordo). I risultati della stima sono: yt =16; 3 + 2584 log xt ^
(0;70) (93;80)
con
r2 = 0; 98
Interpretazione del parametro 1 : un aumento di 1% delloerta di moneta determina un aumento del PIL di 2584 Euro. 1 = Modello reciproco: yt = 0 + 1 1 + "t xt dyt dyt = dxt = 2584 d log xt x
t
Lassunzione implicita in questo modello che al crescere di x, y tende a 0 (si osservi che 1 una costante). Esempio: yt = 0 + 1 "t 1 + "t xt IN(0; 2 ) per t = 1; 2; :::; T
dove xt rappresenta il tasso di disoccupazione e yt il tasso di variazione percentuale dei salari nominali (curva di Phillips originaria). I risultati della stima sono: yt =1; 42 + 8; 27 ^
(2;07) (2;85)
1 xt
con
r2 = 0; 38
Interpretazione del parametro 1 : 1 > 0 implica una relazione negativa tra inazione (tasso di variazione percentuale dei salari nominali) e disoccupazione.
68 capitolo 4 4.5. Appendice : Stima econometrica della propensione marginale al consumo
Modello lineare bivariato yt = 0 + 1 xt + "t "t IN(0; 2 ) per t = 1; 2; :::; T Metodo dei minimi quadrati ordinari Periodo 1950-1984 (T = 35) Denizione delle variabili: yt = Spese di consumo pro capite (1972 USD) xt = Reddito disponibile pro capite (1972 USD)
regressione bivariata 69 Tabella 1 - I dati Anno Osservazione 1950 1 1951 2 1952 3 1953 4 1954 5 1955 6 1956 7 1957 8 1958 9 1959 10 1960 11 1961 12 1962 13 1963 14 1964 15 1965 16 1966 17 1967 18 1968 19 1969 20 1970 21 1971 22 1972 23 1973 24 1974 25 1975 26 1976 27 1977 28 1978 29 1979 30 1980 31 1981 32 1982 33 1983 34 1984 35 Media
yt 2224 2214 2230 2277 2278 2384 2410 2416 2400 2487 2501 2511 2583 2644 2751 2868 2979 3032 3160 3245 3277 3355 3511 3623 3566 3609 3774 3924 4057 4121 4093 4131 4146 4303 4490 3131
xt 2392 2415 2441 2501 2483 2582 2653 2660 2645 2709 2709 2742 2813 2865 3026 3171 3290 3389 3493 3564 3665 3752 3860 4080 4009 4051 4158 4280 4441 4512 4487 4561 4555 4670 4941 3445
70 capitolo 4 Tabella 2 - Calcolo di Syy , Sxx , Sxy Anno Osservazione (yt y)2 (xt x)2 1950 1 822079 1108207 1951 2 840313 1060312 1952 3 811235 1007442 1953 4 728779 890597 1954 5 727073 924894 1955 6 557540 744276 1956 7 519388 626812 1957 8 510776 615777 1958 9 533902 639543 1959 10 414331 541276 1960 11 396504 541276 1961 12 384010 493807 1962 13 299960 399063 1963 14 236863 336069 1964 15 144161 175322 1965 16 69004 74920 1966 17 23009 23937 1967 18 9739 3104 1968 19 859 2332 1969 20 13068 14229 1970 21 21408 48526 1971 22 50317 94425 1972 23 144639 172462 1973 24 242373 403588 1974 25 189499 318418 1975 26 228785 367582 1976 27 413853 508777 1977 28 629348 697702 1978 29 858058 992585 1979 30 980722 1139099 1980 31 926049 1086360 1981 32 1000629 1246094 1982 33 1030863 1232734 1983 34 1374321 1501325 1984 35 1847735 2238871 S.. 17981190 22271739
(yt y )(xt x) 954481 943924 904031 805635 820040 644176 570577 560824 584340 473569 463269 435462 345981 282139 158980 71901 23468 5498 1415 13636 32231 68929 157939 312760 245642 289995 458867 662644 922874 1056948 1003006 1116637 1127289 1436420 2033923 19989450
regressione bivariata 71 Tabella 3 - Riassunto valori rilevanti e calcolo coecienti Media y 3131 Media x 3445 Syy 17981190 Sxx 22271739 Sxy 19989450 Coeciente b0 Coeciente b1 38,967 0,898
72 capitolo 4 Tabella 4 - Valori osservati, stimati e residui Anno Osservazioni yt yt ^ et 1950 1 2224 2186 38 1951 2 2214 2206 8 1952 3 2230 2230 0 1953 4 2277 2284 -7 1954 5 2278 2268 10 1955 6 2384 2356 28 1956 7 2410 2420 -10 1957 8 2416 2426 -10 1958 9 2400 2413 -13 1959 10 2487 2470 17 1960 11 2501 2470 31 1961 12 2511 2500 11 1962 13 2583 2564 19 1963 14 2644 2610 34 1964 15 2751 2755 -4 1965 16 2868 2885 -17 1966 17 2979 2992 -13 1967 18 3032 3081 -49 1968 19 3160 3174 -14 1969 20 3245 3238 7 1970 21 3277 3328 -51 1971 22 3355 3406 -51 1972 23 3511 3503 8 1973 24 3623 3701 -78 1974 25 3566 3637 -71 1975 26 3609 3675 -66 1976 27 3774 3771 3 1977 28 3924 3880 44 1978 29 4057 4025 32 1979 30 4121 4089 32 1980 31 4093 4066 27 1981 32 4131 4133 -2 1982 33 4146 4127 19 1983 34 4303 4230 73 1984 35 4490 4474 16
regressione bivariata 73 Tabella 5 - Coeciente di determinazione T SS 17981190 1 ESS 17941037 0; 998 RSS 40152 0; 002
1. Calcolo dellerrore standard della regressione: r r RSS 40152 s= = = 34; 9 n2 33 2. Calcolo dellerrore standard di b0 : s s x2 1 1 34452 2 se (b0 ) = s = 1216; 7 + + = 26; 135 n Sxx 35 22271739 3. Calcolo dellerrore standard di b1 : s r s2 1216; 7 = 0; 0074 se (b1 ) = = Sxx 22271739 4. Calcolo della covarianza tra b0 e b1 3445 x 2 = 0; 1882 = 1216; 7 Cov (b0 ; b1 ) = s Sxx 22271739
Tabella 6 - Output standard di una regressione T SS = 17981190 ESS = 17941037 RSS = 40152 r2 = 0; 998 s = 34; 9 Variabile dipendente yt Coeciente 38; 967 0; 898 Errore standard 26; 135 0; 007 Statistica t 1; 491 128; 286
Costante xt
74 capitolo 4 4.6. Esercizi
1. Si supponga di aver stimato il modello lineare bivariato yi = 0 + 1 xi + "i "i IN(0; 2 ) per i = 1; 2; :::; n
con un campione di 20 osservazioni e di aver ottenuto i seguenti risultati yi = ^ s

2
3; 6 + 0; 75 xi
(2;09) (0;26)
= 1; 83
(a) si costruiscano gli intervalli di condenza al 95% per 0 , 1, 2 . (b) si sottopongano disgiuntamente a test le seguenti ipotesi ad un livello di signicativit del 5%: H0 : 0 = 0 contro H1 : 0 6= 0 H0 : 1 = 1 contro H1 : 1 6= 1 H0 : 2 = 1 contro H1 : 2 6= 1 2. Si supponga di aver stimato il modello lineare bivariato yt = 0 + 1 xt + "t "t IN(0; 2 ) per t = 1; 2; :::; T
(dove xt indica le spese pubblicitarie di una impresa in un determinato mese e yt le vendite dellimpresa nel medesimo periodo. Entrambe le variabili sono espresse in migliaia di Euro) con un campione di 20 osservazioni (quindi 20 mesi) e di aver ottenuto i seguenti risultati yt = ^ 2; 4 + 1; 25 xt
(1;43) (0;18)
RSS = 16 x = 8 Sxx = 28 (a) Qual la previsione di vendita con un budget pubblicitario di 12.000 Euro? Qual la varianza stimata dellerrore di previsione? Si costruisca inoltre un intervallo di condenza del 95% per questa previsione.
75 (b) Qual la previsione media di vendita nei prossimi 12 mesi con un budget pubblicitario di 12.000 Euro? Qual la varianza stimata dellerrore di previsione? Si costruisca inoltre un intervallo di condenza del 95% per questa previsione.
76
Capitolo 5
Modelli di Regressione Regressione lineare trivariata
5.1.
Metodo dei Minimi Quadrati Ordinari
5.1.1. Assunzioni 1. Modello lineare trivariato: yi = 0 + 1 x1i + 2 x2i + "i 2. Assunzioni classiche: E("i ) = 0 per i = 1; 2; :::; n V ar("i ) = 2 per i = 1; 2; :::; n Cov("i ; "j ) = 0 per i 6= j Cov(xkj ; "i ) = 0 per i; j = 1; 2; :::; n; k = 1; 2 3. Assunzione sulla normalit dei termini derrore: "i N(0; 2 ) per i = 1; 2; :::; n per i = 1; 2; :::; n
78 capitolo 5 5.1.2. Stima dei parametri Intuizione: i parametri 0 , 1 , 2 e 2 non sono noti. Analogamente al caso bivariato, il metodo dei minimi quadrati denisce degli stimatori di 0 , 1 e 2 , che chiameremo b0 , b1 e b2 , tali da minimizzare la somma del quadrato dei residui (RSS, Residual Sum of Squares). Denizione di residuo: ei = yi b0 b1 x1i b2 x2i e quindi RSS =
n X i=1
per i = 1; 2; :::; n
e2 i
Scriviamo il programma di minimizzazione Min

n X i=1
n X i=1
(yi b0 b1 x1i b2 x2i )2
b0 ;b1 ;b2
(yi b0 b1 x1i b2 x2i )2
Le condizioni del primo ordine sono: @RSS X = 2 (yi b0 b1 x1i b2 x2i ) = 0 @b0
i=1 n
@RSS = @b1 @RSS = @b2
n X i=1 n X i=1
2x1i (yi b0 b1 x1i b2 x2i ) = 0 2x2i (yi b0 b1 x1i b2 x2i ) = 0
Analogamente al caso bivariato queste possono essere riscritte in forma di equazioni normali: y = b0 + b1 x1 + b2 x2 n n n n X X X X x1i yi = b0 x1i + b1 x2 + b2 x1i x2i 1i
i=1 n X i=1
x2i yi = b0
Si sostituisca ora la prima equazione normale nella seconda e nella terza. Si ottengono le seguenti due equazioni
n X i=1
i=1 n X i=1
x2i + b2
i=1 n X i=1
x2 + b1 2i
i=1 n X i=1
x1i x2i
x1i yi = nx1 (y b1 x1 b2 x2 ) + b1
n X i=1
x2 + b2 1i
n X i=1
x1i x2i
regressione trivariata 79
n X i=1
x2i yi = nx2 (y b1 x1 b2 x2 ) + b2
che possono essere semplicate utilizzando la notazione: S11 =

n X i=1 n X i=1
n X i=1
x2 + b1 2i
n X i=1
x1i x2i
(x1i x1 )2 =
n X i=1
x2 nx1 2 1i x1i x2i nx1 x2
S12 =
(x1i x1 ) (x2i x2 ) =
n X i=1
S22 =
n X i=1 n X i=1
(x2i x2 )2 =
n X i=1
n X i=1
x2 nx2 2 2i x1i yi nx1 y x2i yi nx2 y
S1y =
(yi y) (x1i x1 ) = (yi y) (x2i x2 ) =

n X i=1
n X i=1 n X i=1
S2y =
Syy = Ne deriva che

n X i=1
(yi y)2 =
n X i=1
2 yi ny 2
x1i yi = nx1 (y b1 x1 b2 x2 ) + b1
n X i=1
x2 + b2 1i
n X i=1
x1i x2i
pu essere riscritta come S1y = b1 S11 + b2 S12 e

n X i=1 n X i=1 n X i=1
x2i yi = nx2 (y b1 x1 b2 x2 ) + b2
x2 2i
+ b1
x1i x2i
come
S2y = b1 S12 + b2 S22 Risolvendo il sistema si ottengono gli stimatori b1 e b2 b1 = S22 S1y S12 S2y 2 S11 S22 S12
80 capitolo 5 b2 = S11 S2y S12 S1y 2 S11 S22 S12
e, dopo opportune sostituzioni, lo stimatore b0
b0 = y b1 x1 b2 x2 5.1.3. Propriet algebriche dei minimi quadrati Analogamente al caso bivariato: 1. La somma dei residui pari a zero. Questa propriet deriva direttamente dalla prima equazione normale. Infatti:
n X i=1
ei =
n X i=1
(yi b0 b1 x1i b2 x2i ) = 0
2. La somma dei prodotti x1i ei e x2i ei pari a zero. Questa propriet deriva direttamente dalla seconda e dalla terza equazione normale. Infatti: n n X X x1i ei = x1i (yi b0 b1 x1i b2 x2i ) = 0
i=1 i=1 n X i=1
x2i ei =
n X i=1
x2i (yi b0 b1 x1i b2 x2i ) = 0
5.1.4. Il coeciente di determinazione multiplo (R2 )

n X i=1
RSS = Dimostrazione RSS = = =

n X i=1 n X i=1 n X i=1
e2 = Syy b1 S1y b2 S2y i
(yi b0 b1 x1i b2 x2i )2 [yi y b1 (x1i x1 ) b2 (x2i x2 )]2 (yi y)2 + b2 1

n X i=1
(x1i x1 )2 + b2 2
n X i=1
(x2i x2 )2 +
regressione trivariata 81 2b1

n X
+ 2b1 b2
= + b2 S22 2b1 S1y 2b2 S2y + 2b1 b2 S12 2 = Syy b1 S1y b2 S2y Lultima eguaglianza ottenuta utilizzando la seconda e la terza equazione normale: S1y = b1 S11 + b2 S12 S2y = b1 S12 + b2 S22 Infatti, moltiplicando la seconda per b1 e la terza per b2 e sommando membro a membro si ottiene b2 S11 + b2 S22 + 2b1 b2 S12 = b1 S1y + b2 S2y 1 2 Denotando (si osservi lanalogia con il caso bivariato) con: Syy la somma totale dei quadrati degli scarti della variabile dipendente rispetto alla media (T SS, Total Sum of Squares) b1 S1y + b2 S2y la somma dei quadrati spiegata (ESS, Explained Sum of Squares) possiamo scrivere: T SS = ESS + RSS Il coeciente di determinazione multiplo denito dal rapporto tra la somma dei quadrati spiegata e la somma totale dei quadrati. In formula R2 = ESS RSS =1 T SS T SS
i=1 Syy + b2 S11 1
i=1 n X
(yi y) (x1i x1 ) 2b2 (x1i x1 ) (x2i x2 )
n X i=1
(yi y) (x2i x2 )
e viene utilizzato per valutare la bont (il t) di una regressione. Si noti che 0 R2 1 Analogamente al coeciente di determinazione semplice r2 nel caso della regressione bivariata, valori elevati di R2 indicano che una parte rilevante della somma totale dei quadrati (T SS) spiegata dal piano di regressione (ESS). Si osservi inne che il quadrato del coeciente di correlazione multiplo il coeciente di determinazione multiplo.
82 capitolo 5 5.1.5. Il coeciente di determinazione multiplo aggiustato (R2 ) Il coeciente di determinazione multiplo R2 una funzione non decrescente del numero di regressori (cio di variabili esplicative) inclusi nel modello. Infatti, T SS non dipende dal numero di regressori mentre mentre RSS una funzione non crescente del numero di regressori. In altri termini aggiungendo unulteriore variabile esplicativa ad un modello preesistente RSS non pu aumentare. Ne consegue che il coeciente di determinazione multiplo non pu costituire un buon criterio per selezionare il numero di variabili esplicative da includere in un modello (o per confrontare equazioni con un diverso numero di variabili esplicative), dal momento che un eventuale criterio di scelta basato esclusivamente su R2 condurrebbe allinclusione di un numero molto elevato di regressori, anche se non signicativamente diversi da zero. Per ovviare a questo inconveniente in letteratura sono state costruite numerose statistiche alternative. Lintuizione sottostante molto semplice: correggere il coeciente di determinazione multiplo per tener conto della perdita di gradi di libert conseguente allintroduzione di variabili esplicative addizionali. Un esempio il coeciente di determinazione multiplo aggiustato, R2 che denito dalla seguente relazione: RSS n 1 2 n1 1 R2 = 1 R = nk T SS n k R2 =1 RSS T SS n1 nk
e quindi
dove n il numero delle osservazioni e k il numero dei parametri nel modello stimato (3 nel caso del modello di regressione trivariato, costante compresa). Si osservi inne che, anche se comunemente utilizzato, non esiste un consenso generalizzato sulla superiorit del coeciente di determinazione multiplo aggiustato rispetto ad altre misure analoghe. 5.1.6. Propriet statistiche Teorema di Gauss-Markov. Date le assunzioni classiche gli stimatori OLS b0 , b1 e b2 sono (come nel caso bivariato): a) lineari; b) non distorti;
regressione trivariata 83 c) a varianza minima nella classe degli stimatori lineari non distorti (BLUE).
Teorema di Rao. d) Se inoltre si assume la normalit dei termini di errore, gli stimatori OLS b0 , b1 e b2 sono (come nel caso bivariato) gli stimatori a varianza minima nella classe degli stimatori (lineari e non lineari) non distorti (BUE)
Distribuzione degli stimatori OLS. e) Inoltre, sempre data lassunzione di normalit dei termini di errore gli stimatori OLS b0 , b1 e b2 sono (come nel caso bivariato) a loro volta distribuiti normalmente con le seguenti medie e varianze: 2 + x1 2 V ar (b1 ) + 2x1 x2 Cov (b1 ; b2 ) + x2 2 V ar (b2 ) b0 N 0 ; n ! 2 b1 N 1 ; 2 S11 1 r12 ! 2 b2 N 2 ; 2 S22 1 r12 Cov (b0 ; b1 ) = [x1 V ar (b1 ) + x2 Cov (b1 ; b2 )] Cov (b0 ; b2 ) = [x2 V ar (b2 ) + x1 Cov (b1 ; b2 )] Cov (b1 ; b2 ) = dove 2 r2 12 2 S12 1 r12
S12 r12 = p S11 S22
il coeciente di correlazione semplice tra x1 e x2 . Si noti che se r12 elevato, anche V ar (b1 ) e V ar (b2 ) sono elevati e quindi b1 e b2 non possono essere stimati con precisione (multicollinearit). Come nel caso bivariato, la conoscenza delle varianze di b0 , b1 e b2 (e delle loro covarianze) ovviamente utile. Tuttavia, dicilmente possono essere calcolate direttamente dal momento che 2 non noto.
84 capitolo 5 f) Nel caso trivariato, la seguente statistica (la cui radice nota come errore standard della regressione) s2 = RSS n3
uno stimatore non distorto di 2 . Inoltre: RSS 2 ha una distribuzione 2 con n 3 gradi di libert. Ne deriva (trascuriamo per semplicit b0 ) che le seguenti statistiche
r
2 2 S11 1r12
b1 1
RSS (n3)2
=q
RSS 2 (n3)S11 (1r12 )
b1 1
=r
b1 1
s2 2 S11 (1r12 )
b1 1 se (b1 )
2 2 S22 1r12
b2 2
RSS (n3)2
=q
RSS 2 (n3)S22 (1r12 )
b2 2
=r
b2 2
s2 2 S22 (1r12 )
b2 2 se (b2 )
hanno una distribuzione t con n3 gradi di libert e possono essere utilizzate per costruire intervalli di condenza o eettuare test di ipotesi (disgiunti) su 1 e 2 .
regressione trivariata 85 5.2. Interpretazione dei coecienti e variabili omesse
I coecienti come derivate parziali. Dato il modello lineare trivariato vero: yi = 0 + 1 x1i + 2 x2i + "i per i = 1; 2; :::; n "i IN(0; 2 ) il modello stimato yi = b0 + b1 x1i + b2 x2i + ei dove: b1 = b2 = per i = 1; 2; :::; n
S22 S1y S12 S2y 2 S11 S22 S12 S11 S2y S12 S1y 2 S11 S22 S12
I coecienti b1 e b2 possono essere interpretati come derivate parziali: un piccolo movimento di x1 (x2 ) a parit di x2 (x1 ) ha un eetto su y pari al coeciente stimato b1 (o b2 ). Si supponga di stimare invece separatamente due modelli bivariati: yi = b0 + b1y x1i + ei e yi = b0 + b2y x2i + ei dove b1y = e b2y = S1y S11 S2y S22
Qual la relazione tra b1 (b2 ) e b1y (b2y )? Per rispondere a questa domanda introduciamo due regressioni aggiuntive: x2i = b0 + b12 x1i + ei dove b12 = e x1i = b0 + b21 x2i + ei S12 S11
86 capitolo 5 dove
S21 S12 = S22 S22 Riscriviamo adesso b1 (lo stesso ragionamento si applica a b2 ) dividendo numeratore e denominatore per S11 S22 b21 = b1 = Analogamente: b2y b21 b1y 1 b12 b21 Ne deriva che b1 = b1y solo se b12 = 0 e b2 = b2y solo se b21 = 0. Dal momento che il coeciente di correlazione semplice tra x1 e x2 denito dalla seguente espressione: b2 = S12 r12 = p S11 S22 da cui S12 = r12 p S11 S22
1y S12 S2y S22 S1y S12 S2y b1y b12 b2y 11 22 = S11 = 2 2 S 1 b12 b21 S11 S22 S12 1 S111222 S
S S
possiamo riscrivere b12 e b21 come segue: r p S22 S12 r12 S11 S22 b12 = = = r12 S11 S11 S11 r p S11 S12 r12 S11 S22 b21 = = = r12 S22 S22 S22 Quindi b12 e b21 sono entrambi eguali a zero solo se il coeciente di correlazione semplice tra x1 e x2 eguale a zero, cio se x1 e x2 non sono correlati. 5.2.1. Il problema dellomissione di variabili rilevanti Si supponga che il modello vero sia yi = 0 + 1 x1i + 2 x2i + "i per i = 1; 2; :::; n "i IN(0; 2 ) Tuttavia invece di stimare lequazione yi = b0 + b1 x1i + b2 x2i + ei per i = 1; 2; :::; n
regressione trivariata 87 viene stimata lequazione (in cui viene omessa la variabile x2 ) yi = b0 + b1y x1i + ei per i = 1; 2; :::; n
La domanda a cui dobbiamo rispondere se b1y sia uno stimatore non distorto di 1 . Lo solamente se r12 = 0. Infatti agevole dimostrare che: r S22 E (b1y ) = 1 + 2 b12 = 1 + 2 r12 S11 dove 2 b12 rappresenta il bias dello stimatore b1y . Dimostrazione:
n P
b1y =
S1y = i=1 S11 S11 n P (x1i x1 )( 0 + 1 x1i + 2 x2i + "i )

i=1
(x1i x1 )yi
S11
1 =
i=1
n P
(x1i
2 x1 )
+ 2
i=1
n P
(x1i x1 )x2i + S11
i=1
n P
(x1i x1 )"i
S12 = 1 + 2 + S11
i=1
n P
(x1i x1 )"i S11
E(b1y ) = 1 + 2
S12 S11 = 1 + 2 b12 r = 1 + 2 r12
S22 S11
Tale bias nullo solo se r12 eguale a zero. Viceversa la distorsione positiva (cio b1y sovrastima il vero valore di 1 ) se 2 e r12 hanno lo stesso segno. Se viceversa hanno segno opposto la distorsione negativa. Inoltre: V ar (b1y ) = 2 S11
88 capitolo 5 mentre V ar (b1 ) =
Ne consegue che b1y , pur essendo uno stimatore distorto di 1 , caratterizzato da una varianza minore rispetto a b1 , che viceversa uno stimatore corretto. Si osservi tuttavia che ci non implica necessariamente che lerrore standard (stimato) di b1y sia minore rispetto a quello di b1 . Questo vero solo se s2 u 2 > s2 b 1 r12 cio se s2 u 2 2 > 1 r12 sb
2 2 S11 1 r12
dove su lerrore standard (stimato) della regressione yi = b0 + b1 x1i + b2 x2i + ei e sb quello della regressione yi = b0 + b1y x1i + ei Unapplicazione del problema delle variabili omesse: la curva di Phillips. La curva di Phillips originaria pu essere descritta dallequazione: yt = 0 + 1 x1t + t dove yt rappresenta il tasso dinazione eettivo al tempo t e xt il tasso di disoccupazione sempre al tempo t. 1 negativo e signicativamente diverso da zero sembrerebbe indicare che i paesi possano scegliere tra diverse combinazioni di disoccupazione e inazione (cos almeno venivano interpretati negli anni 60 i risultati di Phillips per il Regno Unito e di Samuelson e Solow per gli Stati Uniti). La stima OLS della curva di Phillips originaria su dati US nel periodo 1970-82 fornisce evidenza empirica contraria allesistenza di un trade-o tra inazione e disoccupazione. Infatti: yt =6; 13 + 0; 25 x1t ; r2 = 0; 01 ^
(4;29) (0;63)
Una possibile spiegazione di questo risultato anomalo che la curva di Phillips originaria sia un modello non correttamente specicato dal momento
regressione trivariata 89 che non tiene conto delle aspettative di inazione. La curva di Phillips modicata (o corretta per le aspettative) rappresentabile da: yt = 0 + 1 x1t + 2 x2t + t dove x2t misura il tasso dinazione atteso al tempo t. I segni attesi sono 1 < 0 e 2 > 0 (con 2 = 0 otteniamo la curva di Phillips originaria). Lidea sottostante che, data linazione attesa, un aumento della disoccupazione porti a una riduzione dellinazione eettiva. I risultati della stima sono: yt =7; 19 1; 39 x1t + 1; 47 x2t ; ^
(1;59) (0;31) (0;18)
R2 = 0; 88
Per analizzare la relazione algebrica tra le stime dei due modelli necessaria una terza equazione, dove il tasso dinazione atteso (x2t ) viene regredito sul tasso di disoccupazione (x1t ) x2t =0; 73 + 1; 11 x1t ^
(2;73) (0;40)
r2 = 0; 41
Infatti, sapendo che b1y = b1 + b2 b12 possiamo scrivere 0; 25 = 1; 39 + 1; 47 1; 11 Stima del tasso di disoccupazione naturale. Il tasso naturale di disoccupazione (x1n ) quel tasso di disoccupazione per cui linazione eettiva eguale a quella attesa. Se lipotesi 2 = 1 non riutata dai dati (ma lo nel nostro caso?), possibile riscrivere la curva di Phillips modicata come segue: yt x2t = 0 + 1 x1n + t da cui, imponendo yt x2t = 0 0 = 0 + 1 x1n + t e quindi x1n = ^ b0 7; 19 = 5; 17 = b1 1; 39
90 capitolo 5 5.3. Test di Ipotesi
Dopo aver stimato i parametri di un modello di regressione lineare classico multivariato (di cui il modello trivariato rappresenta il caso pi semplice) yi = 0 + 1 x1i + 2 x2i + "i per i = 1; 2; :::; n "i IN(0; 2 ) possibile vericare una molteplicit di ipotesi sui parametri utilizzando statistiche che hanno distribuzioni t di Student o F di Fisher: (a) Ipotesi su singoli parametri 1 = 1 2 = 0 (b) Ipotesi (congiunte) su pi parametri 1 = 2 = 0 (c) Restrizioni lineari sui parametri 1 2 = 0 1 + 2 = 1 Esempio. Nel contesto di una funzione di produzione Cobb-Douglas la prima restrizione implica che le elasticit al fattore lavoro (x1 ) e al fattore capitale (x2 ) siano eguali, mentre la seconda implica che la loro somma sia pari a 1, cio che i ritorni di scala siano costanti. (d) Stabilit dei parametri pre = post 1 1 pre = post 2 2 Esempio. Nel contesto di una funzione di domanda di un bene importante vericare se lintroduzione di un bene sostituto (cambiamento strutturale) ha modicato le elasticit al prezzo ( 1 ) e al reddito ( 2 ) del bene gi esistente. Supponendo che il bene sostituto sia stato introdotto in un dato periodo, si pu quindi vericare se le stime condotte su osservazioni precedenti il cambiamento strutturale (pre) siano eguali alle stime condotte su osservazioni successive (post).
regressione trivariata 91 5.3.1. Ipotesi su singoli parametri Data unipotesi nulla su un generico parametro j (j = 0; 1; 2) H0 : j = j H1 : j = 6 j la statistica: t= bj j se (bj )
ha sotto lipotesi nulla una distribuzione t di Student con n 3 gradi di libert dove n il numero di osservazioni e 3 il numero di parametri da stimare nel modello e quindi di equazioni normali. Si osservi che ogni equazione normale implica infatti una restrizione sui residui. Analogamente, in un modello multivariato con k parametri da stimare i gradi di libert della statistica t sono pari a n k dove n il numero di osservazioni e k il numero di parametri da stimare nel modello (e quindi di equazioni normali). 5.3.2. Ipotesi congiunte su pi parametri Si consideri la seguente identit T SS = ESS + RSS Gi sappiamo che nel modello trivariato la statistica RSS 2 ha una distribuzione 2 con (n3) gradi di libert (e, pi generalmente, con n k gradi di libert in un modello multivariato con k parametri , dove n il numero delle osservazioni e k il numero dei parametri da stimare nel modello). Si pu dimostrare inoltre che, sotto lipotesi nulla H0 : 1 = 2 = 0, nel modello trivariato la statistica: ESS 2 ha una distribuzione 2 con 2 gradi di libert (e pi generalmente con k 1 gradi di libert dove k il numero dei parametri da stimare nel modello).
92 capitolo 5 Dal momento che le due statistiche sono distribuite in modo indipendente, la statistica (sempre sotto lipotesi nulla H0 : 1 = 2 = 0): F =
ESS 2 2 RSS 2 (n3)
ESS 2 RSS n3
ha una distribuzione F di Fisher con 2 (al numeratore) e n 3 (al denominatore) gradi di libert. Analogamente, in un modello multivariato con k parametri da stimare i gradi di libert della statistica F sono pari a k 1 (al numeratore) e n k (al denominatore) dove n il numero delle osservazioni e k il numero dei parametri da stimare nel modello. quindi possibile utilizzare la statistica F per sottoporre a test lipotesi che tutti i parametri del modello (con leccezione della costante) non siano signicativamente diversi da zero, cio che H0 : 1 = 2 = 0 Se non possibile riutare lipotesi nulla, allora y non una funzione lineare di x1 e x2 . Questo test viene spesso denito test di signicativit della regressione. Modi alternativi di calcolare la statistica F : (a) In funzione di S11 , S12 e S22 F =
ESS 2 RSS n3
ESS b1 S1y + b2 S2y b2 S11 + 2b1 b2 S12 + b2 S22 2 = = 1 2s2 2s2 2s2
(b) Evidenziando il legame con R2 F =

ESS 2 RSS n3
ESS T SS
2
RSS T SS
n3
R2 2 1R2 n3
5.3.3. Restrizioni lineari sui parametri Le restrizioni lineari sui parametri possono essere sottoposte a test utilizzando due diversi approcci: (a) il primo approccio si basa sulla costruzione di un test t e richiede la stima di un solo modello (il modello non ristretto). Questo approccio tuttavia non consente di vericare congiuntamente pi di una restrizione lineare sui parametri;
regressione trivariata 93 (b) il secondo approccio si basa invece sulla costruzione di un test F . pi complesso dal momento che per la sua implementazione devono essere stimati due modelli (il modello non ristretto e il modello ristretto). Tuttavia pi generale. Consente infatti di vericare congiuntamente pi di una restrizione lineare sui parametri. Esempio 1. Si consideri il seguente modello di regressione lineare classico trivariato: yi = 0 + 1 x1i + 2 x2i + "i per i = 1; 2; :::; n "i IN(0; 2 ) La restrizione che si vuole sottoporre a test la seguente: H0 : 1 = 2 che equivale a H0 : 1 2 = 0 Approccio basato sul test t: La seguente statistica t= (b1 b2 ) ( 1 2 ) se (b1 b2 )
ha una distribuzione t di Student con n 3 gradi di libert (e pi generalmente con n k gradi di libert). Quindi, se lipotesi nulla vera: (b1 b2 ) 0 t= se (b1 b2 ) segue anchessa una distribuzione t di Student con n3 gradi di libert. Infatti, dal momento che b1 e b2 sono variabili distribuite normalmente, la loro dierenza ancora distribuita normalmente. Inoltre la varianza (stimata) della loro dierenza pari a: V ar (b1 b2 ) = V ar (b1 ) + V ar (b2 ) 2Cov (b1 ; b2 ) da cui deriva che: t= (b1 b2 ) (b1 b2 ) =p se (b1 b2 ) V ar (b1 ) + V ar (b2 ) 2Cov (b1 ; b2 )
Se il valore calcolato della statistica t eccede il valore critico della distribuzione t al livello di signicativit pressato, allora si deve riutare lipotesi nulla, altrimenti non possibile riutare la restrizione.
94 capitolo 5 Approccio basato sul test F: Lintuizione molto semplice. Stimiamo sia il modello originale (non ristretto), sia il modello che tiene conto della restrizione (modello ristretto). Se la restrizione ragionevole allora la somma dei quadrati dei residui del modello ristretto non dovrebbe essere troppo pi grande della somma dei quadrati dei residui del modello non ristretto. Modello non ristretto: yi = 0 + 1 x1i + 2 x2i + "i Modello ristretto: yi = 0 + 1 x1i + 1 x2i + "i = 0 + 1 (x1i + x2i ) + "i Deniamo con: URSS la somma del quadrato dei residui del modello non ristretto (Unrestricted Residual Sum of Squares), RRSS la somma del quadrato dei residui del modello ristretto (Restricted Residual Sum of Squares), n = numero di osservazioni, k = numero di parametri nel modello non ristretto (3 nel modello trivariato), m = numero di restrizioni (1 nel nostro caso). Sotto ipotesi nulla la statistica: F =
RRSSU RSS m URSS nk
RRSSU RSS 1 URSS n3
ha una distribuzione F con m (al numeratore) e nk (al denominatore) gradi di libert. Se il valore calcolato della statistica F eccede il valore critico della distribuzione F al livello di signicativit pressato, allora si deve riutare lipotesi nulla, altrimenti non possibile riutare la restrizione. Esempio 2. Si consideri il solito modello di regressione lineare classico trivariato: yi = 0 + 1 x1i + 2 x2i + "i per i = 1; 2; :::; n "i IN(0; 2 )
regressione trivariata 95 La restrizione che si vuole sottoporre a test : H0 : 1 + 2 = 1 Approccio basato sul test t. La seguente statistica t= (b1 + b2 ) ( 1 + 2 ) se (b1 + b2 )
ha una distribuzione t di Student con n 3 gradi di libert (e pi generalmente con n k gradi di libert). Quindi, se lipotesi nulla vera: (b1 + b2 ) 1 t= se (b1 + b2 ) segue una distribuzione t di Student con n 3 gradi di libert. Infatti, dal momento che b1 e b2 sono variabili distribuite normalmente, la loro somma ancora distribuita normalmente. Inoltre la varianza (stimata) della loro somma pari a: V ar (b1 + b2 ) = V ar (b1 ) + V ar (b2 ) + 2Cov (b1 ; b2 ) da cui deriva che: t= (b1 + b2 ) 1 (b1 + b2 ) 1 =p se (b1 + b2 ) V ar (b1 ) + V ar (b2 ) + 2Cov (b1 ; b2 )
Come nel caso precedente, se il valore calcolato della statistica t eccede il valore critico della distribuzione t al livello di signicativit pressato, allora si deve riutare lipotesi nulla, altrimenti non possibile riutare la restrizione. Approccio basato sul test F . Lintuizione del test la stessa di quella dellesempio 1. Modello non ristretto: yi = 0 + 1 x1i + 2 x2i + "i Modello ristretto: yi = 0 + 1 x1i + (1 1 ) x2i + "i da cui yi x2i = 0 + 1 (x1i x2i ) + "i
96 capitolo 5 La costruzione del test procede poi come nellesempio 1. Esempio 3 (con m > 1). Si consideri il modello non ristretto yi = 0 + 1 x1i + 2 x2i + 3 x3i + 4 x4i + "i ; i = 1; :::; 23
dove y rappresenta il consumo pro capite di pollo (in libbre), x1 il reddito disponibile pro capite, x2 , x3 , x4 il prezzo al dettaglio (sempre in libbre) della carne di pollo, di suino e di bovino. Tutte le variabili sono espresse in logaritmi. Lipotesi che si vuole sottoporre a test se il consumo di carne di pollo non dipenda dai prezzi della carne di suino e di bovino, cio se carne di pollo, suino e bovino non siano prodotti sostituti (o eventualmente complementari). In breve H0 : 3 = 4 = 0 Il modello ristretto quindi yi = 0 + 1 x1i + 2 x2i + "i Le stime del modello non ristretto e ristretto sono le seguenti yi = 2; 19 + 0; 34 x1i 0; 50 x2i + 0; 15 x3i + 0; 09 x4i ^
(0;16) (0;08) (0;11) (0;10) (0;10) 2 RU
= 0; 9823 yi = 2; 03 + 0; 45 x1i 0; 38 x2i ^

(0;12) (0;02) (0;06) 2 RR
= 0; 9801
A questo punto possiamo sottoporre a test lipotesi nulla calcolando la statistica del test: F =
RRSSU RSS m U RSS nk
2 RU R2 R m 1R2 U nk RRSSU RSS T SS
m
U RSS T SS
nk
0;98230;9801 2 10;9823 18
= 1; 12
Dato che il valore critico della distribuzione (con = 0; 05) : F2;18 = 3; 55 lipotesi nulla non riutata.
regressione trivariata 97 5.3.4. Stabilit strutturale dei parametri Test di Chow. Consideriamo il seguente modello (non ristretto) yi = pre + pre x1i + pre x2i + "i 0 1 2 e yi = post + post x1i + post x2i + "i 0 1 2 con i = n1 + 1; n1 + 2; :::; n1 + n2 con i = 1; 2; :::; n1
dove la prima equazione si applica alle prime n1 osservazioni (periodo pre) e la seconda alle successive n2 osservazioni (periodo post). Inoltre si assuma che: "pre N(0; 2 ) i e che "pre e "post siano indipendentemente distribuiti. Un cambiamento i i strutturale pu implicare siano diverse: (a) le intercette, (b) le pendenze (o almeno una coppia di queste), (c) le intercette e le pendenze (o almeno una coppia di queste). Se non vi cambiamento strutturale allora le due equazioni possono essere combinate in ununica equazione (modello ristretto): yi = 0 + 1 x1i + 2 x2i + "i Per sottoporre a test lipotesi nulla di assenza di cambiamento strutturale: H0 : pre = post 0 0 pre = post 1 1 pre = post 2 2 contro lipotesi alternativa di cambiamento strutturale, si pu utilizzare un approccio basato sulla costruzione di un test F , analogo a quanto gi visto nel caso di restrizione lineare sui parametri. Deniamo con: URSSpre la somma del quadrato dei residui nella prima equazione del "post N(0; 2 ) i
98 capitolo 5 modello non ristretto (n1 osservazioni): yi = pre + pre x1i + pre x2i + "pre 0 1 2 i URSSpost la somma del quadrato dei residui nella seconda equazione del modello non ristretto (n2 osservazioni): yi = post + post x1i + post x2i + "post 0 1 2 i RRSS la somma del quadrato dei residui nel modello ristretto (n1 + n2 osservazioni): yi = 0 + 1 x1i + 2 x2i + "i La statistica: F =
RRSS(U RSSpre +U RSSpost ) k U RSSpre +URSSpost n1 +n2 2k
RRSS(U RSSpre +U RSSpost ) 3 U RSSpre +U RSSpost n1 +n2 6
ha - sotto lipotesi nulla di assenza di cambiamento strutturale - una distribuzione F con k (al numeratore) e n1 + n2 2k (al denominatore) gradi di libert. Se il valore calcolato della statistica F eccede il valore critico della distribuzione F al livello di signicativit pressato, allora si deve riutare lipotesi nulla, altrimenti non possibile riutare la restrizione di assenza di cambiamento strutturale. Lintuizione semplice: se lipotesi di assenza di cambiamento strutturale ragionevole allora la somma dei quadrati del modello ristretto (RRSS) non dovrebbe essere troppo pi grande della somma dei quadrati dei residui del modello non ristretto (URRSpre + URRSpost ). Esempio. yt = pre + pre xt + "t ; t = 1946; :::; 1954 0 1 yt = post + post xt + "t ; t = 1955; :::; 1963 0 1 dove y rappresenta il risparmio pro capite e x il reddito disponibile pro capite. Il modello stimato su dati inglesi per il periodo 1946-63 e lobiettivo vericare se la relazione tra risparmio e reddito si modicata tra la fase di ricostruzione del II dopoguerra (pre: 1946-54) e il periodo successivo (post: 1955-63).
regressione trivariata 99 Stima del modello non ristretto y t = 0; 26 + 0; 05xt ;

(0;31) (0;03) ^
t = 1946; :::; 1954
RSS = 0; 140 y t = 1; 75 + 0; 15xt ;

(0;36) (0;02) ^
t = 1955; :::; 1963
RSS = 0; 193 Stima del modello ristretto y t = 1; 08 + 0; 12xt ;

(0;15) (0;01) ^
t = 1946; :::; 1963
RSS = 0; 572 Test di Chow F =

RRSS(U RSSpre +URSSpost ) k U RSSpre +U RSSpost n1 +n2 2k
0;572(0;193+0;140) 2 0;193+0;140 9+94
= 5; 02
Dato che il valore critico della distribuzione (con = 0; 05) : F2;14 = 3; 74 lipotesi nulla di assenza di cambiamento strutturale riutata. Test di stabilit con stime ricorsive (Cusum e Cusumsq). Limplementazione del test di Chow richiede la conoscenza della data in cui si vericato il cambiamento strutturale. Vi sono altri test di stabilit dei parametri che possono essere applicati anche in situazioni in cui non sia possibile (o non si voglia) ssare esogenamente la data in base alla quale partizionare il campione. Questi test si basano sul metodo delle stime ricorsive. Stime ricorsive. Dato il seguente modello yt = 0 + 1 x1t + 2 x2t + "t ; deniamo con b3 ; b3 ; b3 0 1 2 gli stimatori OLS ottenuti utilizzando le prime 3 osservazioni. Analogamente, deniamo con b4 ; b4 ; b4 0 1 2 t = 1; 2; 3; :::; n
100 capitolo 5 gli stimatori OLS ottenuti utilizando le prime 4 osservazioni. Procedendo in questo modo per ogni parametro saranno disponibili n 2 stime OLS. Residui ricorsivi. Deniamo con yt = bt1 + bt1 x1t + bt1 x2t b 0 1 2
la previsione un passo avanti di yt . Lerrore di previsione un passo avanti (detto anche residuo ricorsivo) quindi b vt = yt yt = (bt1 0 ) + (bt1 1 )x1t + (bt1 2 )x2t "t 0 1 2 V ar(vt ) = V ar(yt yt ) b = 2 (1 + 2 1 (x1t x1 )2 (x2t x2 )2 + + + 2 2 t 1 S11 1 r12 S22 1 r12
Deniamo la varianza dellerrore di previsione (o del residuo ricorsivo) come
dove tutte le variabili campionarie utilizzate nel calcolo delle varianze e co2 varianze degli stimatori (x1 ; x2 ; S11 ; S22 ; S12 ; r12 ) sono calcolate utilizzando le prime t 1 osservazioni. Residui ricorsivi standardizzati. I residui ricorsivi standardizzati sono deniti come vt wt = p V sotto lipotesi nulla che i parametri siano costanti nel tempo wt s N(0; 2 ). Inoltre i residui ricorsivi standardizzati sono tra loro indipendenti. Test Cusum. La statistica Cusum semplicemente Wt =
t P wj ; j=k+1 s r RSS s = nk
2 r12 [(x1t x1 ) (x2t x2 )] ) = 2 V 2 S12 1 r12
t = k + 1; :::; n
Sotto lipotesi nulla di stabilit strutturale, E(Wt ) = 0 e varianza approssimativamente eguale al numero di residui ricorsivi nella somma. Se viceversa i parametri non sono costanti, Wt tender a divergere da 0. Il test realizzato costruendo degli intervalli di condenza per E(Wt ) e plottando Wt e
regressione trivariata 101 gli estremi dellintervallo di condenza rispetto a t. La signicativit della distanza da 0 viene vericata utilizzando due linee rette che passano dai seguenti punti p (k; a n k) p (n; 3a n k) dove il parametro a dipende dal livello di signicativit scelto per il test. = 0; 01 ! a = 1; 143 = 0; 05 ! a = 0; 948
= 0; 10 ! a = 0; 850
Se i valori di Wt sono esterni allintervallo, vi evidenza contraria allipotesi di stabilit dei parametri. Test Cusumsq. La statistica Cusumsq
t P 2 wj
St =
Sotto lipotesi nulla di stabilit strutturale ciascuno dei due termini approssimativamente una somma di variabili chi-quadrato, ciascuna con un tk grado di libert. Quindi E(St ) = nk . Come nel caso precedente, il test realizzato costruendo degli intervalli di condenza per E(St ) e plottando St e gli estremi dellintervallo di condenza rispetto a t. Se i valori di St sono esterni allintervallo, vi evidenza contraria allipotesi di stabilit dei parametri.
j=k+1 n P j=k+1
;
2 wj
t = k + 1; :::; n
102 capitolo 5
20
Cusum
10 0 -10 -20 -30 1970 1975 1980 1985 1990 1995
Esempio relativo al test Cusum
1.2
Cusumsq
0.8
0.4
0.0
-0.4 1970 1975 1980 1985 1990 1995
Esempio relativo al test Cusumsq
regressione trivariata 103 5.4. Previsione
Analogamente al modello bivariato, dopo aver stimato i parametri del mo dello lineare trivariato 0 ; 1 ; 2 ; 2 possibile utilizzarli per prevedere il valore di y per ogni coppia di valori dati (x1 ; x2 ). Sia x10 il valore dato di x1 e sia x20 il valore dato di x2 , la previsione del corrispondente valore di b y0 , denito come y0 , data da: mentre il vero valore y0 = b0 + b1 x10 + b2 x20 b
y0 = 0 + 1 x10 + 2 x20 + "0 dove "0 lusuale termine derrore. Possiamo quindi denire lerrore di previsione come: y0 y0 = (b0 0 ) + (b1 1 ) x10 + (b2 2 ) x20 "0 b
che ha valore atteso nullo, dal momento che:
Ricordando che
E (y0 y0 ) = [E (b0 ) 0 ]+[E (b1 ) 1 ] x10 +[E (b2 ) 2 ] x20 E ("0 ) = 0 b V ar(b0 ) = V ar(b1 ) = V ar(b2 ) = 2 + x1 2 V ar (b1 ) + 2x1 x2 Cov (b1 ; b2 ) + x2 2 V ar (b2 ) n 2 2 S11 1 r12 2 2 S22 1 r12
la varianza dellerrore di previsione
V ar("0 ) = 2 Cov (b0 ; b1 ) = [x1 V ar (b1 ) + x2 Cov (b1 ; b2 )] Cov (b0 ; b2 ) = [x2 V ar (b2 ) + x1 Cov (b1 ; b2 )] 2 2 r12 Cov (b1 ; b2 ) = 2 S12 1 r12 V ar (y0 y0 ) = V ar [(b0 0 ) + (b1 1 ) x10 + (b2 2 ) x20 "0 ] b
104 capitolo 5 pu essere riscritta, come V ar (y0 y0 ) = b 2 + x1 2 V ar (b1 ) + 2x1 x2 Cov (b1 ; b2 ) + x2 2 V ar (b2 ) n +x2 V ar (b1 ) + x2 V ar (b2 ) + 2 10 20 2x10 [x1 V ar (b1 ) + x2 Cov (b1 ; b2 )] 2x20 [x2 V ar (b2 ) + x1 Cov (b1 ; b2 )] +2x10 x20 Cov (b1 ; b2 )
e quindi V ar (y0 y0 ) = 2 + b 2 n 2 +(x10 + x1 2 2x10 x1 ) V ar (b1 ) +(x2 + x2 2 2x20 x2 ) V ar (b2 ) 20 +2 (x10 x20 + x1 x2 x10 x2 x20 x1 ) Cov (b1 ; b2 ) "
Inne V ar (y0 y0 ) = b 1 (x10 x1 )2 (x20 x2 )2 + + 2 2 n S11 1 r12 S22 1 r12 # 2 r12 [(x10 x1 ) (x20 x2 )] 2 2 S12 1 r12
2
1+
Si osservi che la varianza dellerrore di previsione:
(a) una funzione negativa del numero di osservazioni (n) come nel caso bivariato ma (b) non necessariamente una funzione positiva della distanza tra x10 e x20 e le media delle osservazioni sulla cui base sono stati stimati i parametri del modello lineare trivariato (x1 e x2 ). Nota la varianza dellerrore di previsione possibile costruire un intervallo di previsione per y0 , tale che dati x10 e x20 , in (1 )100 su 100 casi, lintervallo contiene il vero y0 : y0 y0 b P r t ;n3 t ;n3 = 1 2 2 se (y0 y0 ) b
regressione trivariata 105 Alternativamente, invece di prevedere il valore di y0 , dati x10 e x20 , possibile prevedere il valore atteso di y0 , cio E(y0 ). Dato che: E (y0 ) = 0 + 1 x10 + 2 x20 la previsione ancora y0 = b0 + b1 x10 + b2 x20 b
Tuttavia, lerrore di previsione diverso. Infatti:
Inoltre, il valore atteso dellerrore di previsione sempre nullo, mentre la sua varianza eguale a: V ar [y0 E (y0 )] = V ar [(b0 0 ) + (b1 1 ) x10 + (b2 2 ) x20 ] = b ! 2 (x20 x2 )2 r12 [(x10 x1 ) (x20 x2 )] 1 (x10 x1 )2 2 + 2 + = 2 2 2 n S11 1 r12 S22 1 r12 S12 1 r12
y0 E (y0 ) = (b0 0 ) + (b1 1 ) x10 + (b2 2 ) x20 b
106 capitolo 5 5.5. Appendice : Stima econometrica di una funzione di produzione Cobb-Douglas
Modello lineare trivariato: yi = 0 + 1 x1i + 2 x2i + "i per i = 1; 2; :::; n "i IN(0; 2 )
Metodo dei minimi quadrati ordinari Imprese 1-23 (n = 23) Denizione delle variabili: y = ln(output) x1 = ln(lavoro) x2 = ln(capitale) Informazioni campionarie (gi predigerite): n = 23 x1 = 10 x2 = 5 y = 12 S11 = 12 S12 = 8 S22 = 12 S1y = 10 S2y = 8 Syy = 10 Domande a cui rispondere: (a) Stimare i parametri 0 , 1 e 2 (b) Calcolare il coeciente di determinazione multiplo R2 (c) Stimare il parametro 2 e calcolare lerrore standard della regressione
regressione trivariata 107 (d) Stimare le varianze e le covarianze degli stimatori b0 , b1 e b2 (e) Calcolare gli errori standard di b0 , b1 e b2 . (f) Sottoporre a test disgiunto le seguenti ipotesi (livello di signicativit del 5%) H0 : 0 = 0 contro H1 : 0 6= 0 H0 : 1 = 0 contro H1 : 1 6= 0 H0 : 2 = 0 contro H1 : 2 6= 0 (g) Sottoporre a test lipotesi (utilizzando sia lapproccio basato sul test t, sia quello basato sul test F ; livello di signicativit 5%) H0 : 1 + 2 = 1 contro H1 : 1 + 2 6= 1 (h) Calcolare il coeciente di determinazione multiplo aggiustato R2 . (i) Sottoporre a test la signicativit della regressione (livello di signicativit del 5%) Soluzione (a) Date le equazioni normali per b1 e b2 S1y = b1 S11 + b2 S12 S2y = b1 S12 + b2 S22 possiamo scrivere 10 = b1 (12) + b2 (8) 8 = b1 (8) + b2 (12) da cui: b1 = 0; 7 b2 = 0; 2 b0 = y b1 x1 b2 x2 = 4 (b) Utilizzando la denizione del coeciente di determinazione multiplo R2 = 1 RSS 0; 7 (10) + 0; 2 (8) ESS b1 S1y + b2 S2y = = = = 0; 86 T SS T SS Syy 10
108 capitolo 5 (c) Ricordando la denizione dellerrore standard della regressione s= r RSS = n3 r p 1; 4 = 0; 07 = 0; 2646 23 3
(d) Calcoliamo prima il coeciente di correlazione semplice tra x1 e x2 : S12 8 8 r12 = p =p = 0; 666 = 12 S11 S22 12 (12)
ora possibile calcolare tutte le varianze e covarianze (stimate) (si osservi che 2 stato rimpiazzato da s2 ) V\ ) = ar (b1 0; 07 s2 = = 0; 0105 2 12 (1 0; 444) S11 1 r12 s2 0; 07 = = 0; 0105 2 12 (1 0; 444) S22 1 r12
V\ ) = ar (b2
\ Cov (b1 ; b2 ) = V\ ) = ar (b0
s2 r2 0; 07 (0; 444) 12 2 = = 0; 0070 8 (1 0; 444) S12 1 r12
s2 \ ar (b1 ar (b2 + x1 2 V \ ) + 2x1 x2 Cov (b1 ; b2 ) + x2 2 V \ ) = n 0; 07 = + 102 (0; 0105) + 2 (10) (5) (0; 0070) + 52 (0; 0105) = 0; 6155 23 i h \ \ ar (b1 Cov (b0 ; b1 ) = x1 V \ ) + x2 Cov (b1 ; b2 ) = 10 (0; 0105)5 (0; 0070) = 0; 07
i h \ \ ar (b2 Cov (b0 ; b2 ) = x2 V \ ) + x1 Cov (b1 ; b2 ) = 5 (0; 0105)10 (0; 0070) = 0; 0175
(e) Gli errori standard di b0 , b1 e b2 sono calcolabili semplicemente come: q p se (b0 ) = V \ ) = 0; 6155 = 0; 7846 ar (b0 q p se (b1 ) = V \ ) = 0; 0105 = 0; 1025 ar (b1 q p se (b2 ) = V \ ) = 0; 0105 = 0; 1025 ar (b2
regressione trivariata 109 (f) Le seguenti statistiche hanno tutte - sotto le ipotesi nulle - distribuzione t di Student con n 3 gradi di libert 4; 0 b0 0 = = 5; 10 se (b0 ) 0; 7846
b1 0 0; 7 = = 6; 83 se (b1 ) 0; 1025 b2 0 0; 2 = = 1; 95 se (b2 ) 0; 1025 Dato che il valore critico della distribuzione : t ; n3 = t0;025; 20 = 2; 086 2 lipotesi nulla riutata per b0 e b1 ma non per b2 . (g) La seguente statistica ha - sotto lipotesi nulla - distribuzione t di Student con n 3 gradi di libert
Lipotesi nulla di ritorni costanti di scala non quindi riutata. Dato il modello non ristretto yi = 0 + 1 x1i + 2 x2i + "i imponiamo la restrizione yi = 0 + 1 x1i + (1 1 )x2i + "i Dopo aver stimato anche il modello ristretto
^ (0;75) (0;08)
(0; 2 + 0; 7) 1 b1 + b2 1 0; 1 = 1; 195 =p = p se (b1 + b2 ) 0; 007 0; 0105 + 0; 0105 + 2 (0; 0070)
yi x2i = 0 + 1 (x1i x2i ) + "i
yi x2i = 3; 15 + 0; 77 (x1i x2i ) RSS = 1; 5 possiamo sottoporre a test lipotesi nulla utilizzando lapproccio basato sul test F F =
RRSSURSS m U RSS nk
1;51;4 1 1;4 20
= 1; 43
Dato che il valore critico della distribuzione (con = 0; 05) : F1;20 = 4; 35 lipotesi nulla non riutata.
110 capitolo 5 (h) Utilizzando la denizione del coeciente di determinazione multiplo aggiustato 22 RSS n 1 2 =1 = 1 0; 14 = 0; 846 R T SS n k 20 (i) La seguente statistica ha - sotto ipotesi nulla - distribuzione F di Fisher con k 1 gradi di libert al numeratore e n k gradi di libert al denominatore: F =
ESS k1 RSS nk
ESS T SS
k1
RSS T SS
nk
R2 k1 1R2 nk
0;86 2 0;14 20
= 61; 43
Dato che il valore critico della distribuzione (con = 0; 05) : F2;20 = 3; 49 lipotesi nulla riutata.
regressione trivariata 111 5.6. Esercizi
1. Data la seguente stima a minimi quadrati ordinari condotta su un campione di 123 osservazioni si sottoponga a verica lipotesi nulla che 1 + 2 = 1. yi = 1; 12 + 0; 70x1i + 0; 60x2i b b0 0; 33 0:08 0; 13 b1 0; 08 0; 15 0; 10 b2 0; 13 0; 10 0; 12
Matrice di covarianza stimata
b0 b1 b2
2. Un econometrico vuole stimare leetto della spesa per studente in attrezzature (biblioteche, laboratori, ecc.) sul voto medio che gli studenti di diverse scuole medie hanno ottenuto ad un esame comune. A tal ne prevede di stimare la seguente equazione: yi = 0 + 1 x1i + "i dove y rappresenta il voto medio e x1 la spesa media per studente. Un altro econometrico critica tale procedimento e sostiene invece che leetto della spesa media per studente sul voto medio deve essere stimata basandosi sulla seguente regressione: yi = 0 + 1 x1i + 2 x2i + "i dove x2 misura il tasso di povert degli studenti iscritti a ciascuna scuola. In caso contrario, commenta, si otterrebbe una stima distorta di 1 . (a) Qual la fondatezza di tale critica? (b) Se vera ci si pu aspettare che la distorsione sia positiva o negativa? 3. Dato il modello non ristretto: yi = 0 + 1 x1i + 2 x2i + 3 x3i + 4 x4i + "i ad un econometrico viene richiesto di sottoporre a test congiunto le seguenti due restrizioni: 1 = 2 2 e 3 = 0; 5 4 .
112 capitolo 5 (a) Si scriva il modello ristretto. (b) Supponendo inoltre che: n = 45, URSS = 130, RRSS = 165 si sottopongano a test congiunto le due restrizioni ( = 0; 05). 4. La relazione tra consumo di prodotti alimentari (y), prezzo reale dei prodotti alimentari (x1i ) e reddito dei consumatori (x2i ) stata stimata per il periodo 1927/41-1948/62 e poi separatamente per il periodo che precede e per quello che segue la seconda guerra mondiale. Si sottoponga a test lipotesi di assenza di break strutturale tra i due periodi. Stima sullintero periodo yi =4; 050; 12 x1i + 0; 24 x2i ; ^
(0;14) (0;01) (0;10)
RSS = 0; 287
Stima sul periodo 1927/41 yi =3; 56 0; 10 x1i + 0; 30 x2i ; ^

(0;20) (0;05) (0;02)
RSS = 0; 115
Stima sul periodo 1948/62 yi =5; 05 0; 16 x1i + 0; 14 x2i ; ^

(0;90) (0;06) (0;05)
RSS = 0; 054
Capitolo 6
Elementi di algebra lineare
6.1.
Denizioni di base
Matrice: insieme rettangolare di elementi disposti in righe e colonne. In particolare, una matrice A di ordine N K una matrice di N K elementi, disposti su N righe e K colonne: 1 0 a11 ::: a1K B . . C = [a ] . . A . A =@ . ij . . . (NK) aN1 ::: aNK dove aij il generico elemento della matrice (i-esima riga e j-esima colonna). Vettore colonna (di ordine N): matrice di ordine N 1 1 x1 B . C x = @ . A . xN 0
Vettore riga (di ordine K): matrice di ordine 1 K y = (y1 y2 ::: yK )
114 capitolo 6 Matrice trasposta: la matrice trasposta A0 di una matrice A di ordine N K una matrice di ordine K N ottenuta sostituendo le colonne (o le righe) con le righe (o le colonne) di A. 0 0 1 a1 B a0 C B 2 C A0 = B . C A = (a1 a2 ::: aK ) ! @ . A . a0 K
Ne consegue che la matrice trasposta di un vettore colonna x un vettore riga: x0 = (x1 x2 ::: xN )
Sottomatrici : data una matrice A di ordine N K, se tutte le righe e colonne sono cancellate con leccezione di r righe e s colonne, la matrice risultante denita una sottomatrice di A di ordine r s.
algebra lineare 115 6.2. Matrici notevoli ordine N N denita matrice ::: ::: . . . a1N a2N . . . 1 C C C A
Matrice diagonale: una matrice quadrata con almeno un elemento non nullo sulla diagonale principale e tutti elementi nulli al di fuori di essa denita matrice diagonale 1 0 a11 0 ::: 0 B 0 a22 ::: 0 C C B A=B . . . . C . . . A @ . . . . . 0 0 ::: aNN dove almeno un elemento aij con i = j diverso da zero. Matrice scalare: una matrice diagonale i cui elementi sulla diagonale principale sono tutti uguali denita matrice scalare 0 1 a 0 ::: 0 B 0 a ::: 0 C B C A=B . . . . C . . . . A @ . . . . 0 0 ::: a
Matrice quadrata: una matrice A di quadrata 0 a11 a12 B a21 a22 B A=B . . . @ . . . aN1 aN2
::: aNN
Matrice identit: una matrice diagonale i cui elementi sulla diagonale principale sono tutti uguali a 1 denita matrice identit I (quindi la matrice identit anche una matrice scalare) 0 1 1 0 ::: 0 B 0 1 ::: 0 C B C I=B . . . . C @ . . . . A . . . . 0 0 ::: 1 Matrice simmetrica: una matrice quadrata denita simmetrica se lelemento aij uguale allelemento aji per ogni i e j. In questo caso A0 = A.
Matrice nulla: una matrice A di ordine N K denita matrice nulla 0 se tutti i suoi elementi sono nulli (segue naturalmente la denizione di
116 capitolo 6 vettore nullo) 0 1 0 0 ::: 0 0 0 ::: 0 C C . . . . C . . . . A . . . . 0 0 ::: 0
B B 0=B @
Uguaglianza fra matrici : due matrici A e B sono uguali se: i) sono dello stesso ordine, ii) aij = bij per tutti gli i e j.
algebra lineare 117 6.3. Operazioni fra matrici
6.3.1. Addizione Sia A = [aij ] e B = [bij ]. Se A e B sono dello stesso ordine, allora la matrice addizione C denita da C=A+B dove C dello stesso ordine di A e B e cij = aij + bij . 6.3.2. Sottrazione Sia A = [aij ] e B = [bij ]. Se A e B sono dello stesso ordine, allora la matrice sottrazione C denita da C=AB dove C dello stesso ordine di A e B e cij = aij bij . 6.3.3. Moltiplicazione per uno scalare Data una matrice A e uno scalare , il loro prodotto una matrice B dello stesso ordine di A, dove bij = aij 6.3.4. Moltiplicazione fra vettori e fra matrici Prodotto interno fra vettori: deniti due vettori colonna 1 0 1 0 b1 a1 B . C B . C b=@ . A a=@ . A e . . aN bN
N X i=1
il prodotto interno (inner product) dei vettori dato da uno scalare: a0 b = Da notare: 1. a0 b = b0 a P 2. a0 a = N a2 i=1 i ai bi = a1 b1 + a2 b2 + ::: + aN bN
118 capitolo 6 Prodotto fra matrici : date una matrice A di ordine N K e una matrice B di ordine K M, il loro prodotto AB (A postmoltiplicata da B) costituito da una matrice C di ordine N M tale che cij =
K X k=1
aik bkj
Si osservi che il prodotto AB esiste perch il numero delle colonne di A uguale al numero delle righe di B (le due matrici sono conformabili per la moltiplicazione). Viceversa, il prodotto BA (B postmoltiplicata da A) non esiste. Date le seguenti due matrici conformabili per la moltiplicazione (NB: dato lordine delle matrici la matrice prodotto risulta quadrata): 1 1 0 0 a11 ::: a1K b11 ::: b1N B . B . . C . C . . . A . A . . e B =@ . A =@ . . . . . . .
(NK)
aN1 ::: aNK
(KN)
bK1 ::: bKN
possiamo vedere il loro prodotto in due modi utili.
(a) Riscriviamo le due matrici utilizzando vettori riga e vettori colonna: 0 1 1 a B . C e A =@ . A B = (b1 ::: bN ) . (N K) (KN) N a dove ai denota la i-esima Abbiamo: 0 c11 c12 ::: B c21 c22 ::: B C =B . . . . . (NN) @ . . . . cN1 cN2 ::: riga di A e bj la j -esima colonna di B: c1N c2N . . . cNN 1 0 a1 b1 a2 b1 . . . a1 b2 a2 b2 . . . ::: ::: . . . a1 bN a2 bN . . . 1 C C C A
Ciascun elemento della matrice C ottenuto come prodotto interno di un vettore riga di A e di un vettore colonna di B: (b) Esprimiamo entrambe le matrici utilizzando vettori colonna:
(NK)
C B C B C=B A @
aN b1 aN b2 ::: aN bN
A = (a1 ::: aK )
(KN)
B = (b1 ::: bN )
algebra lineare 119 Anche la matrice prodotto C sar espressa mediante vettori colonna:
(NN)
C = (c1 ::: cN )
dove ogni colonna di C ottenuta come combinazione lineare delle K colonne di A utilizzando come coecienti gli elementi della corrispondente colonna di B. Ad esempio, per la prima colonna della matrice prodotto c1 abbiamo: c1 = a1 b11 + a2 b21 + ::: + aK bK1 ) c1 = A b1 Complessivamente:
(NN)
C = (A b1
A b2
::: A bN )
Propriet del prodotto fra matrici : (i) La moltiplicazione fra matrici non necessariamente commutativa; generalmente, infatti, AB 6= BA. (ii) Anche se AB e BA esistono entrambe, non saranno dello stesso ordine a meno che A e B siano entrambe matrici quadrate. (iii) Anche se A e B sono entrambe quadrate, AB e BA, pur essendo dello stesso ordine, non sono necessariamente uguali. (iv) Il prodotto fra un vettore colonna (N 1) e un vettore riga (1 N) una matrice (N N). (v) Il prodotto fra una matrice (N N) e un vettore colonna (N 1) un vettore colonna (N 1). (vi) Il prodotto fra un vettore riga (1 N) e una matrice (N N) un vettore riga (1 N). (vii) La moltiplicazione fra matrici associativa: date tre matrici A (N K), B (K M ) e C (M P ), vale che (AB) C = A (BC). (viii) La moltiplicazione fra matrici distributiva rispetto alladdizione: date tre matrici A (N K), B (K M) e C (K M), vale che A(B + C) = AB + AC.
120 capitolo 6 6.3.5. Trasposizione di una matrice (i) La trasposta di una matrice trasposta la matrice originale: (A0 )0 = A. (ii) La trasposta di una somma uguale alla somma delle trasposte: se C = A + B allora C0 = (A + B)0 = A0 + B0 . (iii) La trasposta di un prodotto uguale al prodotto delle trasposte in ordine inverso: (AB)0 = B0 A0 . Questa propriet generalizzabile come segue: (ABCD)0 = D0 C0 B0 A0 . (iv) La trasposta della matrice identit la matrice identit: I0 = I. (v) La trasposta di uno scalare lo scalare stesso: 0 = . (vi) La trasposta di (A)0 = A0 . 6.3.6. Inversione di una matrice Linversa di una matrice quadrata A denita A1 . Se esiste, una matrice quadrata tale che AA1 = A1 A = I dove I una matrice identit dello stesso ordine di A. Propriet della matrice inversa: (i) Linversa del prodotto di due matrici uguale al prodotto delle inverse in ordine inverso: (AB)1 = B1 A1 . (ii) La trasposta dellinversa di A uguale allinversa della trasposta di A: (A1 )0 = (A0 )1 . 6.3.7. Determinante Ad ogni matrice quadrata associato uno scalare, noto come determinante della matrice, det A o jAj. Se la matrice quadrata di ordine 2 2: jAj = a11 a22 a12 a21 Se la matrice quadrata di ordine 3 3: jAj = a11 a22 a33 a11 a23 a32 + a12 a23 a31 a12 a21 a33 + a13 a21 a32 a13 a22 a31 Propriet del determinante:
algebra lineare 121 (i) Una matrice il cui determinante zero denita matrice singolare. Linversa di una matrice singolare non esiste. Se invece il determinante diverso da zero, la matrice denita non-singolare. (ii) Se tutti gli elementi di una riga o una colonna sono uguali a zero allora il determinante zero. (iii) Il determinante di una matrice uguale al determinante della trasposta: jAj = jA0 j (iv) Se due righe o due colonne di una matrice sono uguali allora il determinante zero. (v) Se una riga o una colonna combinazione lineare di altre righe o colonne allora il determinante zero. (vi) Il determinante del prodotto di due matrici uguale al prodotto dei determinanti: jABj = jAj jBj. Rango di una matrice: il rango di una generica matrice A lordine della pi grande sottomatrice quadrata il cui determinante non uguale a zero. Ad esempio, il rango di una matrice A di ordine N K (con K N) K se il determinante di almeno una delle sottomatrici K K non uguale a zero. Minori : data una matrice quadrata A di ordine N N, si cancellino la riga i-esima e la colonna j-esima. Il determinante della risultante sottomatrice quadrata di ordine (N 1) (N 1) denito minore dellelemento aij ed scritto come jMij j. Cofattori : il cofattore di un elemento aij di una matrice quadrata A di ordine N N scritto come cij ed calcolato come cij = (1)i+j jMij j Matrice dei cofattori : data una matrice A, la matrice dei cofattori di A, cof (A), si ottiene sostituendo gli elementi aij con i corrispondenti cij Matrice aggiunta: la matrice aggiunta di A, adj (A), la trasposta della matrice dei cofattori: adj (A) = (cof (A))0
122 capitolo 6 Calcolo dellinversa: se A quadrata e non singolare la sua inversa pu essere calcolata come segue: A1 = 1 adj (A) jAj
algebra lineare 123 6.4. Applicazioni utili del prodotto fra vettori e fra matrici
1. Somma e media. Deniamo un vettore colonna i interamente composto da elementi pari ad 1. Dato un vettore x della stessa dimensione possiamo ottenere la somma degli elementi di x mediante il prodotto ix=
0 N X i=1
xi
e quindi la media aritmetica degli elementi di x, x , pu essere espressa come N 1 1X xi = i0 x x= n n

i=1
2. Cross products. Somme di quadrati e somme di prodotti incrociati (cross products) possono essere espresse facilmente usando prodotti fra vettori. Dati i vettori x e y (entrambi con N elementi) abbiamo
N X i=1
x2 i
=xx
N X i=1
xi yi = x0 y
3. Matrice di cross products. Data una matrice X di dimensione N K costruiamo il prodotto X0 X, una matrice quadrata di dimensione K: 0 0 1 0 0 x1 x1 x1 x0 x2 ::: x0 xK 0 1 1 1 B x0 C B x0 x1 x0 x2 ::: x0 xK 2 C 2 2 2 B B X0 X = B . C @ x1 x2 ::: xK A = B . . . . . A . . . . @ . @ . . . . x0 x0 x1 x0 x2 ::: x0 xK K K K K PN PN 0 PN 2 1 x x ::: i=1 xi1 i=1 x x PN i12 i2 Pi=1 i1 iK C N B PN xi2 xi1 ::: xi2 B i=1 i=1 i=1 xi2 xiK C = B C . . . . . . . . @ A . . . . PN PN PN 2 ::: i=1 xiK xi1 i=1 xiK xi2 i=1 xiK 4. Deviazioni dalla media. Partendo da un vettore di N dati originari, per costruire il corrispondente vettore di deviazioni dalla media
1 C C C A
124 capitolo 6 possiamo utilizzare la relazione:
notando che ii0 una matrice con tutti gli elementi pari ad 1 e quindi 1 0 1 n ii una matrice con tutti gli elementi pari a n . Il vettore di deviazioni dalla media pu essere espresso (ricordando che x = Ix; dove I la matrice identit): 1 0 x1 x B x2 x C C 1 B C = x i x = x ii0 x B . . A n @ . xN x 1 0 1 0 = Ix ii x = I ii x n n | {z }
M0
B 1 B i x = i i0 x = B n @
x x . . . x
C 1 C C = ii0 x A n
= M x
che, moltiplicata per un vettore x, permette di ottenere il corrispondente vettore di deviazioni dalla media degli elementi di x. 5. Utilizzo e propriet di M0 . La matrice M0 utilizzabile per costruire direttamente somme di quadrati delle deviazioni dalla media:
N X 0 (xi x)2 = M0 x M0 x = x0 M0 M0 x i=1
dove M0 la seguente matrice simmetrica 0 1 1 1 n n ::: 1 1 B 1 n ::: B n 0 M =B . . . . . @ . . . .

1 n 1 n
1 n 1 n . . . 1 n
1 C C C A
::: 1
ricordando che M0 simmetrica. Inoltre, M0 una matrice idempotente, possedendo la seguente propriet: M0 M0 = M0 (vericare). Quindi otteniamo: N X (xi x)2 = x0 M0 x
i=1
algebra lineare 125 Estendendo lapplicazione, dati due vettori di N elementi x e y, la matrice che contiene i quadrati delle deviazioni dalle medie e i prodotti incrociati di tali deviazioni si ottiene utilizzando M0 : ! PN PN (xi x)2 (xi x)(yi y) x0 M0 x x0 M0 y i=1 i=1 PN PN = y0 M0 x y0 M0 y 2 i=1 (yi y )(xi x) i=1 (yi y ) 0 0 0 M Z M Z = Z0 M0 M0 Z = Z0 M0 Z
Combinando i due vettori in una matrice Z = [x y] (di dimensioni N 2) possiamo riscrivere lo stesso risultato nella forma seguente:
6. Altri esempi di matrici idempotenti (oltre a M0 ). Data una matrice A (di ordine N K) le matrici B e C (di ordine N N) denite come 1 0 A B = A A0 A 0 1 0 C = IA AA A
sono idempotenti. Esercizio: vericare che le due matrici B e C sono idempotenti; vericare inoltre che CB = 0).
126 capitolo 6 6.5. Dipendenza e indipendenza lineare di vettori
Un insieme di vettori detto linearmente dipendente se ciascuno dei vettori pu essere espresso come combinazione lineare degli altri vettori. Ad esempio, tre vettori a, b e c sono linearmente dipendenti se possibile costruire una loro combinazione lineare k1 a + k2 b + k3 c = 0 con coecienti k non tutti nulli. In questo caso possibile esprimere ad esempio il vettore c (se k3 6= 0 ) come combinazione lineare di a e b: c = k1 a k2 b. Se invece per soddisfare lequazione k1 a + k2 b + k3 c = 0 k3 k3 tutti i coecienti k devono essere nulli, allora i vettori si dicono linearmente indipendenti. Nel caso di vettori con due elementi, questi concetti hanno una semplice interpretazione geometrica. I due elementi di ciascun vettore sono rappresentabili come coordinate di un punto in uno spazio bidimensionale (collegato allorigine degli assi in un piano cartesiano). Moltiplicando un vettore per uno scalare k si ottiene un allungamento o accorciamento del vettore lungo la medesima direzione; la somma di due vettori data da un nuovo vettore che ha come coordinate le somme delle rispettive coordinate dei due vettori. Nella Figura 1 sono rappresentati due vettori, a e b, il vettore 2b e il vettore somma a + b.
Figura 1
algebra lineare 127 Nel caso bidimensionale, due vettori sono linearmente dipendenti se giacciono sulla stessa retta uscente dallorigine: ciascuno di essi pu quindi essere espresso come semplice multiplo dellaltro, come nel caso dei vettori b e 2b in gura. Se invece due vettori non giacciono sulla stessa retta, come nel caso di a e b, allora luno non pu essere espresso come multiplo dellaltro e lunica soluzione dellequazione k1 a + k2 b = 0 k1 = k2 = 0. In questo caso i due vettori sono linearmente indipendenti e ogni altro vettore a due elementi pu essere costruito mediante una combinazione lineare di a e b. Costruendo la matrice A = (a b) possibile ottenere unintuizione geometrica della relazione fra il determinante di A e la dipendenza o indipendenza lineare dei vettori colonna che la compongono. Come rappresentato nella Figura 2, il determinante della matrice A (pi rigorosamente, il valore assoluto del determinante di A) ha linterpretazione geometrica di area del parallelogramma formato dalle sue colonne. Se i due vettori a e b sono linearmente dipendenti (cio giacciono sulla stessa retta) allora larea nulla ) det(A) = 0. Se invece, come in gura, le colonne della matrice A sono linearmente indipendenti, allora il determinante diverso da zero. Come ulteriore prova di questa relazione, notiamo che det(A) = a1 b2 b1 a2 . Quindi a1 b1 det(A) = 0 ) a1 b2 b1 a2 = 0 ) = a2 b2 cio le due colonne di A sono luna un multiplo dellaltra (geometricamente giacciono sulla stessa retta).
Figura 2
128 capitolo 6 6.6. Forme lineari e forme quadratiche
Dati due vettori a e x di ordine N 1 e una matrice A simmetrica di ordine N N N X ai xi L = a0 x =

i=1
denita forma lineare in x, e
Q = x0 A x denita forma quadratica in x. Matrici denite positive e denite negative. Data una matrice quadrata simmetrica A di ordine N N e un vettore non nullo x di ordine N 1, e denita la forma quadratica Q = x0 A x, la matrice A : denita positiva se Q > 0, semidenita positiva se Q 0 denita negativa se Q < 0, semidenita negativa se Q 0 Si denisca ora una matrice non quadrata A di ordine K N. Sia AA0 sia A0 A sono matrici quadrate simmetriche di ordine rispettivamente K K e N N. Si pu dimostrare che entrambe queste matrici sono semidenite positive. Deniamo B = A0 A. Quindi x0 B x = x0 A0 A x Deniamo ora y = Ax possiamo quindi scrivere che x0 B x = x0 A0 A x = y0 y =
K X i=1 2 yi 0:
Esempio di forma quadratica per matrice X0 X. Deniamo la seguente matrice X di ordine N 2 e la sua trasposta: 0 x1 0 X = (x1 x2 ) ; X = x0 2 da cui otteniamo la matrice prodotto X0 X simmetrica di ordine 2 2: 0 0 x1 x1 x1 x0 x2 0 1 ( x1 x2 ) = XX= x0 x0 x1 x0 x2 2 2 2
algebra lineare 129 Dato un vettore a =

0 0
a1 a2
, costruiamo la forma quadratica di X0 X: a2 ) a2 ) x0 x1 x0 x2 1 1 x0 x1 x0 x2 2 2 a1 a2
a (X X) a = (a1 = (a1
(x0 x1 ) a1 + (x0 x2 ) a2 1 1 (x0 x1 ) a1 + (x0 x2 ) a2 2 2
= (x0 x1 ) a2 + (x0 x2 ) a2 a1 + (x0 x1 ) a1 a2 + (x0 x2 ) a2 1 2 1 1 2 2 a2 1

N X i=1
x2 i1
+ 2a1 a2
N X i=1
xi1 xi2 + a2 2
N X i=1
x2 i2
Ad esempio, nel caso in cui N = 2, si ottiene a0 (X0 X) a = (a1 x11 + a2 x12 )2 + (a1 x21 + a2 x22 )2 Forme quadratiche con matrici idempotenti . Come gi visto, una matrice A denita idempotente se A2 = A. Sia 1 0 x1 x = @ ::: A xN
un vettore di N variabili casuali normali indipendenti con valore atteso 0 e varianza 1. La forma quadratica x0 x ha una distribuzione 2 con N gradi di libert. Si pu dimostrare inoltre che:
(i) se A una matrice idempotente di ordine N N e di rango r allora la forma quadratica x0 A x ha una distribuzione 2 con r gradi di libert; (ii) se A e B sono due matrici idempotenti di ordine N N e di rango r e s rispettivamente e se AB = 0, allora le forme quadratiche x0 A x e x0 B x sono distribuite in modo indipendente, con distribuzioni 2 con r e s gradi di libert. Esempio: dato il vettore x N (0; I) di ordine n 1,
n X (xi x)2 = x0 M0 x i=1
130 capitolo 6 con B B M0 = B @ 0

1 1 1 n n 1 1 n 1 n . . . . . . 1 1 n n
::: ::: . . .
1 n 1 n . . . 1 n
1 C C C A
::: 1
matrice singolare di ordine n n e rango n 1 (poich le colonne di M0 sono linearmente dipendenti: m1 + m2 + ::: + mn = 0), abbiamo
n X (xi x)2 2 (n 1) i=1
algebra lineare 131 6.7. Esercizi
1. Confrontate i risultati ottenuti dalla moltiplicazione di una matrice quadrata A per: (a) uno scalare (b) una matrice cos ottenuta: I (c) una matrice (dello stesso ordine di 0 B B =B . . @ . . . . A) 1 ::: ::: C C . . C . . A . . :::
2. Dato un vettore x con N elementi, vericate la relazione algebrica esistente fra: (a) la somma del quadrato degli scarti dalla media x, e (b) la somma dei quadrati degli elementi di x. 3. Considerate il vettore x N (0; I) di ordine n 1, dove gli elementi sono variabili casuali indipendenti. Utilizzando la relazione algebrica fra x0 M0 x e x0 x (dalla risposta allEsercizio 2 ): (a) vericate che x0 x una forma quadratica costruita con una matrice idempotente; (b) esprimete x0 x come somma di due forme quadratiche costruite con matrici idempotenti; (c) caratterizzate le distribuzioni di tali forme quadratiche vericandone lindipendenza e specicandone i gradi di libert.
132
Capitolo 7
Il modello di regressione lineare multivariata: i Minimi Quadrati Ordinari (OLS)
7.1.
Notazione 1 y1 B y C y=B 2 C @ ::: A yn 0
Deniamo:
vettore colonna contenente le n osservazioni campionarie della variabile dipendente, y; 1 0 x1k B x C xk = B 2k C @ ::: A xnk
vettore colonna contenente le n osservazioni campionarie della variabile indipendente, xk , con k = 1; 2; :::; K;
(nK)
= ( x1
x2
::: xK )
134 capitolo 7 0 x11 x21 . . . xn1 x12 ::: x1K x22 ::: x2K . . . . . . . . . xn2 ::: xnK 1 C C C A
matrice n K contenente le n osservazioni campionarie delle K variabili indipendenti (il vettore x1 una colonna di 1); 1 0 "1 B " C "=B 2 C @ ::: A "n vettore colonna contenente gli n termini di errore. Il modello lineare multivariato pu quindi essere scritto nel modo guente: 0 0 0 1 0 1 1 1 0 x11 x12 x1K "1 y1 B x22 C B x2K C B "2 B y2 C B x21 C B B B C B C C C B B . C = B . C 1 + B . C 2 + ::: + B . C K + B . @ . A @ . A @ . @ . A @ . A . . . . . yn xn1 xn2 xnK "n y = X + " dove 1 1 B C =B 2 C @ ::: A K 0 se1 C C C A
B B = B @
In maniera pi compatta possiamo scrivere:
il vettore colonna dei K parametri. Si richiede inoltre che la matrice X sia di rango K. Ci implica che le colonne di X sono linearmente indipendenti e che n K:
OLS multivariato 135 7.2. Assunzioni classiche
Assunzione sui valori attesi dei termini di errore: E ("i ) = 0 per i = 1; 2; :::; n quindi E (") = 0
Assunzione sulle varianze e covarianze dei termini di errore: V ar ("i ) = 2 Cov ("i ; "j ) = 0 Dal momento che: Cov ("i ; "j ) = E ("i "j ) le due assunzioni possono 1 0 "1 B " C E ""0 = E B 2 C @ ::: A "n 0 E "2 1 B E ("2 "1 ) = B @ ::: E ("n "1 ) essere scritte congiuntamente come segue: 1 0 2 "1 "1 "2 ::: "1 "n B " " "2 ::: "2 "n C 2 C "1 "2 ::: "n = E B 2 1 @ ::: ::: ::: ::: A "n "1 "n "2 ::: "2 n 1 0 2 1 0 ::: 0 E ("1 ") ::: E ("1 "n ) 22 E "2 ::: E ("2 "n ) C B 0 2 ::: 0 C C=B C = 2 I ::: ::: ::: A @ ::: ::: ::: ::: A E ("n "2 ) ::: E "2 0 0 ::: 2 n per i = 1; 2; :::; n per i 6= j
Assunzione sulla natura della matrice dei dati X:
Cov (xjk ; "i ) = 0 per i; j = 1; 2; :::; n e per k = 1; 2; :::; K Questa assunzione ovviamente vericata se la matrice X non stocastica. Assunzione sulla normalit del termine di errore: (utile per testare ipotesi): "i N 0; 2 per i = 1; 2; :::; n 2 ) " N 0; I
136 capitolo 7 7.3. Stima dei parametri: metodo dei Minimi Quadrati Ordinari
I parametri 1 ; 2 ; :::; K e 2 non sono noti. Con il metodo dei minimi quadrati deniamo degli stimatori b1 ; b2 ; :::; bK tali da minimizzare la somma dei quadrati dei residui (RSS, Residual Sum of Squares). Deniamo il vettore dei residui e = y Xb e quindi RSS =
n X i=1
e2 = e0 e = (y Xb)0 (y Xb) i
Scriviamo ora il programma di minimizzazione della somma dei quadrati dei residui stimati e, la cui soluzione il vettore dei parametri stimato b: min RSS = (y Xb)0 (y Xb)
b
= y0 y b0 X0 y y0 Xb + b0 X0 Xb = y0 y2 b0 X0 y + b0 X0 Xb Le K condizioni del primo ordine sono: @(RSS) B B B @b @ 0

@(RSS) @b1 @(RSS) @b2
:::
@(RSS) @bK
1 0 C B C B 0 C C C=@ ::: A A 0
In termini matriciali tali condizioni si possono scrivere come: @(RSS) = 2 X0 y + 2 X0 X b = 0 @b e esprimere in forma di sistema di equazioni normali : X0 X b = X0 y Se linversa di (X0 X) esiste (condizione garantita dalla assunzione di rango pieno), allora la soluzione del sistema di equazioni normali (e quindi del programma di minimizzazione) : b = (X0 X )1 X0 y
OLS multivariato 137 Esempio con K = 2. Deriviamo i singoli termini dellespressione di RSS che dipendono da b: - termine 2 b0 X0 y : b X y = (b1 b2 ) = (b1 b2 )
0 0
x0 1 x0 2
x0 y 1 x0 y 2
= b1 x0 y + b2 x0 y 1 2 Derivando rispetto a b1 e b2 : @(b0 X0 y) @b1 ) - termine b0 X0 Xb : b X Xb = (b1 b2 ) = (b1 b2 )

0 0
= x0 y 1 =
@(b0 X0 y) = x0 y 2 @b2 = X0 y
@(b0 X0 y) @b
x0 y 1 x0 y 2
x0 x1 1 x0 x1 2
x0 x2 1 x0 x2 2
x0 x1 b1 + x0 x2 b2 1 1 x0 x1 b1 + x0 x2 b2 2 2
= x0 x1 b2 + 2x0 x2 b1 b2 + x0 x2 b2 1 1 2 1 2 Derivando rispetto a b1 e b2 : @(b0 X0 Xb) @b1 = 2 b1 x0 x1 + 2 b2 x0 x2 1 1 )
b1 b2
@(b0 X0 Xb) = 2 b1 x0 x2 + 2 b2 x0 x2 1 2 @b2 0 @(b0 X0 Xb) b1 x1 x1 x0 x2 1 = 2 X0 Xb =2 x0 x1 x0 x2 b2 @b 2 2 ;
Il sistema di equazioni normali quindi il seguente: 0 x1 x1 b1 + x0 x2 b2 = x0 y 1 1 x0 x1 b1 + x0 x2 b2 = x0 y 2 2 2 da cui si ottengono gli stimatori b1 e b2 :
138 capitolo 7 7.4. Interpretazione geometrica del metodo dei minimi quadrati
Ci limitiamo qui ad una intuizione geometrica del metodo OLS nel caso di vettori a tre elementi, con due vettori x1 e x2 linearmente indipendenti ed un vettore y che, come rappresentato nella Figura 3, non giace sullo stesso piano di x1 e x2 . In termini del modello di regressione abbiamo una matrice X di regressori composta da due colonne linearmente indipendenti; tutti i vettori che giacciono sullo stesso piano di x1 e x2 sono ottenibili come combinazione lineare delle colonne di X. Il metodo dei minimi quadrati consiste nel trovare quella combinazione lineare delle colonne di X (vettore giacente sullo stesso piano di x1 e x2 ), Xb, che minimizza la distanza da y. Come si pu notare dalla gura, tale combinazione lineare perpendicolare al piano determinato dalle colonne di X; i vettori x1 e x2 (e la loro combinazione lineare Xb) devono quindi essere ortogonali al vettore e = y Xb: Formalmente, questo requisito espresso dal sistema di equazioni lineari: X0 e = 0 che d origine al sistema di equazioni normali X0 Xb = X0 y, da cui si ottiene il valore OLS di b.
Figura 3
OLS multivariato 139 7.5. Propriet algebriche dei minimi quadrati
Date le K equazioni normali: X0 y = X0 Xb da cui X0 (y Xb) = X0 e = 0 possibile derivare gli usuali risultati. Infatti per ogni colonna xk di X x0 e = 0 k e, dal momento che la prima colonna di X una colonna di 1: x0 e 1 7.6. =ie=
0 n X i=1
ei = 0
Coeciente di determinazione multiplo
Le deviazioni delle osservazioni y dalla loro media campionaria sono ottenute come yy = M0 y dove M0 una matrice simmetrica e idempotente (gi denita nel capitolo precedente) che trasforma le osservazioni in deviazioni dalla media: 1 0 1 1 1 1 n n ::: n 1 1 B 1 1 n ::: n C C B n M0 = B . C . . . . . . A @ . . . . .
1 n 1 n
::: 1
1 n
da cui otteniamo: T SS =
n X i=1
0 (yi y)2 = M0 y M0 y = y0 M0 M0 y = y0 M0 y b y = Xb + e = y + e b yy = yy+e
Sappiamo inoltre che Sottraendo ora y da entrambi i membri
140 capitolo 7 che pu essere riscritta in deviazioni dalla media come b M0 y = M0 y + e = M0 Xb + e 0 da cui, premoltiplicando il membro di sinistra per M0 y e quello di destra 0 per M0 Xb + e , si ottiene: 0 0 0 0 M y M y = M0 Xb + e M0 Xb + e
0 0 M0 } e {z } = b0 X0 M{z } Xb + b0 X0 | {z e + | 0 M0 Xb +e0 e | M M0 b0 0 0 | {z e } | X M e} {z 0 0
da cui che equivale a:
y 0 M0 y = b0 X0 M0 Xb + e0 e T SS = ESS + RSS Ne deriva inne che R2 = e ancora ESS b0 X0 M0 Xb e0 e = =1 0 0 T SS y0 M0 y yM y e0 e= (n K) R2 = 1 0 0 y M y= (n 1)
NB: Si pu esprimere RSS = e0 e in altro modo, partendo da e0 e = y0 y2 b0 X0 y +b0 X0 Xb |{z}

X0 Xb
) )
e0 e e0 e
= y0 y b0 X0 |{z} Xb
ye
= y0 y b0 X0 y
poich b0 X0 e = 0
OLS multivariato 141 7.7. Nota alle propriet algebriche degli stimatori OLS
Dato il modello di regressione stimato y = Xb + e y + e ^ con X0 e = 0
possiamo esprimere la somma dei quadrati della variabile dipendente come y0 y = (Xb + e)0 (Xb + e) = b0 X0 Xb + e0 e+ e0{z } + b0{z0 e | Xb | X }
0 0 0 0 0 0
) y y = b X Xb + e e
dove tutte le sommatorie si intendono per i = 1; :::; n. Esprimendo tutto in deviazioni dalla media: y y = (^ y) + e y dove y = i y un vettore di n elementi tutti pari alla media dei valori della P yi =n. La somma dei quadrati delle deviazioni variabile dipendente, y = dalla media (TSS) quindi: y y (y y)0 (y y) = [(^ y) + e]0 [(^ y) + e] 0 = (^ y) (^ y) + e0 e+ e0 (^ y) + (^ y)0 e y y y y | {z } | {z }
0 0
che si pu anche scrivere come: X X X 2 yi = yi + ^2 e2 i
y y ) (y y)0 (y y) = (^ y)0 (^ y) + e0 e
Lultima espressione equivalente a: X X X (î y )2 + y e2 (yi y )2 = i T SS = ESS + RSS La somma totale delle deviazioni delle osservazioni della variabile dipendente dalla loro media (T SS) stata scomposta nella parte spiegata dalla regressione (ESS) e nella parte non spiegata (RSS). Sviluppando i prodotti vettoriali possibile riscrivere la scomposizione nel modo seguente: ^^ y0 y y0 y = y0 y y0 y + e0 e X
2 y yi n2 =
equivalente a
T SS = ESS + RSS
X y yi n2 + ^2 e2 i
142 capitolo 7 7.8. Propriet statistiche
Teorema di Gauss-Markov: date le assunzioni classiche il vettore b degli stimatori OLS (come nei casi bivariato e trivariato): a) lineare, b) non distorto, c) a varianza minima nella classe degli stimatori lineari non distorti (BLUE). Teorema di Rao: se inoltre si assume la normalit dei termini di errore, il vettore b degli stimatori OLS (come nei casi bivariato e trivariato) lo stimatore a varianza minima nella classe degli stimatori (lineari e non lineari) non distorti (BUE). Inoltre, sempre data lassunzione di normalit del vettore dei termini di errore, il vettore b degli stimatori OLS (come nei casi bivariato e trivariato) a sua volta distribuito normalmente. Non distorsione del vettore b. Riscriviamo il vettore b come segue: 1 0 1 0 X y = X0 X X (X + ") b = X0 X 0 1 0 0 1 0 X X + X X X" = XX 0 1 0 X" = + XX
e calcoliamone ora il valore atteso: 1 0 1 0 E (b) =E + X0 X X " = + X0 X X E (") =
Matrice di varianza e covarianza di b. Calcolando la varianza di b otteniamo: V ar (b) = E (b ) (b )0 0 0 1 0 0 1 0 X" + XX X" = E + XX =
Per esteso, la matrice di varianze e covarianze di b 0 1 0 var(b1 ) b1 cov(b1 ; b2 ) B cov(b2 ; b1 ) B b2 C var(b2 ) B C V ar B @ ::: A = @ ::: ::: bK cov(bK ; b1 ) cov(bK ; b2 )
0 1 0 0 0 1 0 1 0 2 0 1 XX X E "" X X X = XX X I X XX 0 1 2 = XX : 1 ::: cov(b1 ; bK ) ::: cov(b2 ; bK ) C C A ::: ::: ::: var(bK )
OLS multivariato 143 0 1 2 S 1K 2 S 2K C C A ::: 2 S KK
Normalit del vettore b termini di errore:
2 S 11 2 S 12 B 2 S 21 2 S 22 = B @ ::: ::: 2 S K1 2 S K2 1 = 2 X0 X
::: ::: ::: :::
Data lipotesi di normalit sul vettore dei
e per ciascuno degli elementi di b vale 1 bk N k ; 2 X0 X kk dove lelemento sulla diagonale principale allincrocio tra la k-esima riga e la k-esima colonna della matrice (X0 X)1 . Lo stimatore di 2 Come nei casi bivariato e trivariato, la conoscenza della matrice di varianza e covarianza del vettore b ovviamente utile. Tuttavia, dicilmente i termini della matrice possono essere calcolati direttamente dal momento che 2 non noto. La seguente statistica (la cui radice quadrata denita errore standard della regressione) RSS e0 e = s2 = nK nK uno stimatore non distorto di 2 . Inoltre: RSS e0 e "0 M " " 0 " = 2 = = M 2 2 0 1 X X kk = S kk
il vettore b a sua volta distribuito normalmente 1 b N ; 2 X0 X
" N 0; 2 I
ha una distribuzione 2 con n K gradi di libert dove M una matrice simmetrica e idempotente di ordine n n (e rango n K) 1 0 X M = I X X0 X
144 capitolo 7 Infatti: 1 0 e = y Xb = y X X0 X X y = My = M (X + ") = M"
Matrice di varianza e covarianza stimata di b. Sostituendo 2 con s2 nella matrice di varianza e covarianza di b si ottiene la matrice di varianza e covarianza stimata di b: 1 Est:V ar (b) = s2 X0 X da cui possibile ricavare lerrore standard di bk , per k = 1; 2; :::; K h 1 i 1 2 0 2 se (bk ) = s X X kk
OLS multivariato 145 7.9. Test di ipotesi
Test t di signicativit di singoli parametri . La seguente statistica ha una distribuzione normale standardizzata: zk = bk k p 2 S kk | {z } N(0; 1)
errore standard di bk
Dal momento che 2 tuttavia non nota, viene stimata con s2 . Inoltre e0 e RSS 2 2 (n K) 2 Quindi la statistica tk = p N(0; 1) (bk k ) = 2 S kk q q 2 0e (nK) e =(n K) 2 nK bk k p t(n K) s2 S kk
NB: s2 =
e0 e nK
segue una distribuzione t di Student con n K gradi di libert. Questo risultato ottenuto grazie allindipendenza delle variabili casuali a numeratore (normale standardizzata) e a denominatore (2 divisa per i gradi di libert) della statistica t. Tale indipendenza pu essere vericata utilizzando la seguente propriet statistica: una forma lineare e una forma quadratica in x N (0; I), rispettivamente Ax e x0 Bx (con B matrice simmetrica e idempotente) sono indipendenti se AB = 0. Nel nostro caso x "= e la forma lineare e la forma quadratica in x sono: b 0 1 0 " = XX X | {z }
A
con M = IX(X0 X)1 X0 , da cui immediato vericare che (X0 X)1 X0 M = 0:
" RSS " 0 = M 2 |{z}

B
146 capitolo 7 Test F di signicativit della regressione. Per vericare la capacit esplicativa dellinsieme dei regressori (in aggiunta alla costante) si pu costruire la seguente statistica, che mette in relazione la parte della variabilit della variabile dipendente (intorno alla sua media) spiegata dallinsieme dei regressori, ESS, con la parte di variabilit residua, RSS: 0 0 0 b X M Xb =(K 1) ESS=(K 1) = F = RSS=(n K) e0 e=(n K) h
"0
"i I MZ =(K 1) "0 " M =(n K)
2 (K1) K1 2 (nK) nK
F (K 1; n K) dove i termini ESS e RSS sono stati riespressi come forme quadratiche nel vettore dei termini di errore standardizzati "= per mezzo delle matrici simmetriche e idempotenti I MZ (che non deniamo ulteriormente qui) e M, di rango, rispettivamente, K 1 e n K. Anch la statistica abbia una distribuzione F necessario che le variabili casuali a numeratore e denominatore (con distribuzioni 2 ) siano indipendenti. Lindipendenza garantita dal fatto che I MZ M = 0 (si veda la sezione 6.6). Si noti inne che la statistica F si pu scrivere come F = [ESS=(K 1)] =T SS R2 =(K 1) = [RSS=(n K)] =T SS (1 R2 ) =(n K)
OLS multivariato 147 7.10. Esempio: il modello di regressione lineare bivariato
Consideriamo il semplice caso di modello bivariato con y vettore della variabile dipendente e X matrice n 2 dei regressori, formata dalla costante e da una serie di n osservazioni della variabile x1 : X = (i x1 ) Per ottenere gli stimatori OLS e la matrice di varianze e covarianze dei parametri del modello lineare y = 0 i + 1 x1 + " = X + " costruiamo X0 X e X0 y: 0 0 P i i i i0 x1 0 P xi1 Pn (i x1 ) = = XX = 0 x2 x0 i x0 x1 xi1 x1 1 1 i1 0 P 0 iy i y y= X0 y = = P i 0 0 xi1 yi x1 y x1 La matrice (X0 X)1 quindi: 0 1 XX = 1 P P 2 n xi1 ( xi1 )2 P 2 P xi1 xi1 P n xi1
e le stime dei parametri possono essere calcolate come (utilizzando le relaP P yi = n): x y xi1 = n1 e zioni 1 0 P 2 P P P xi1 yi xi1 xi1 yi P P 2 n xi1 ( xi1 )2 C B 1 0 b0 C = X0 X X y =B b = A @ P P P b1 yi n xi1 yi xi1 B = B @ 0
y P P x1 x y P i12 i n2 y x xi1 n1 P x y x2 i1 x P 2 1 2 i1 i x xi1 n1
Ricordando che (si veda la sezione 4.1.2): X X X 2 x1 y x Sx1 x1 = x2 n2 ; Syy = yi n2 ; Sx1 y = xi1 yi n1 y i1
C B C=@ A
P x1 x y P i12 i n2 y x xi1 n1
P P n x2 ( xi1 )2 i1 P x1 x y P i12 i n2 y X1 x xi1 n1
1 C A
148 capitolo 7 si ottiene: b0 b1 0 1 C A
dove 2 denota la varianza del termine di errore "i . Inne, dopo gli opportuni passaggi (si veda la sezione 4.1.5): 1 0 x x2 1 Sx1x 2 2 n + Sx 1x 1 1 1 1 C B Var(b) = @ A 2 x1 2 Sx x Sx1 x1
1 1
La matrice di varianze e covarianze di b data da: 0 P 2 xi1 2 0 1 @ = P 2 Var(b) = 2 X X P P n xi1 ( xi1 )2 x
B =@
Sx1 y Sx1 x1 x1
Sx1 y Sx1 x1
i1
xi1
1 A
OLS multivariato 149 7.11. Interpretazione dei coecienti di regressione multipla
Consideriamo il modello di regressione lineare multivariata y = X + " con lo stimatore OLS b = (X0 X)1 X0 y ^ I valori stimati della variabile dipendente y e i residui stimati e sono esprimibili come: y = Xb = X(X0 X)1 X0 y ^ e = y Xb = y X(X0 X)1 X0 y = I X(X0 X)1 X0 y = My | {z }
M
dove M una matrice (idempotente) con le seguenti propriet: MX = 0 Me = e
Riscriviamo ora lo stesso modello utilizzando la seguente partizione della matrice dei regressori: X = (X1 x2 ) ) y = X1 1 + x2 2 + " Vogliamo confrontare le stime del coeciente 2 (che misura leetto su y attribuibile al regressore x2 dopo aver tenuto conto delleetto dei regressori nella sottomatrice X1 , avendo cos linterpretazione di derivata parziale) ottenute in due modi diversi: (i) mediante una procedura che preliminarmente depura sia la variabile dipendente sia il regressore che ci interessa x2 dalleetto degli altri regressori in X1 ; (ii) mediante una regressione di y su X1 e x2 simultaneamente. (i) Utilizzando lequivalente della matrice (idempotente) M introdotta sopra possiamo esprimere direttamente i residui stimati dalle due seguenti regressioni: regressione di y su X1 regressione di x2 su X1 ) ) residui stimati u = M1 y residui stimati v = M1 x2
150 capitolo 7 dove M1 = I X1 (X0 X1 )1 X0 1 1 con la propriet M1 X1 = 0. Dopo aver depurato la variabile dipendente e il regressore x2 dalleetto delle variabili in X1 eettuiamo la regressione dei residui u sui residui v, ottenendo lo stimatore b2 : 1 0 b2 = v0 v vu 1 0 0 x2 M1 M1 y = (x2 M1 )M1 x2 1 0 0 x2 M1 y = x2 M1 x2 (ii) Una stima del parametro 2 ovviamente ottenibile mediante la regressione multivariata di y simultaneamente su X1 e x2 . Lo stimatore b2 si ottiene come al solito dalla soluzione del sistema di equazioni normali (condizioni del primo ordine della minimizzazione di RSS). Il modello stimato quindi: y = X1 b1 + x2 b2 + e Per confrontare lo stimatore b2 ottenuto con questo metodo con quello ricavato in precedenza, anzich risolvere esplicitamente il sistema di equazioni normali, possiamo premoltiplicare entrambi i lati della precedente espressione per la matrice M1 denita sopra, ottenendo M1 y = M1 X1 b1 + M1 x2 b2 + M1 e | {z } | {z }
0 e
(utilizzando il fatto che M1 idempotente, per cui M1 M1 = M1 ).
) M1 y = M1 x2 b2 + e
ricordando che per denizione M1 X1 = 0 e M1 e = e: Premoltiplicando ora entrambi i lati dellultima espressione per x0 possiamo esprimere lo stimatore 2 b2 come segue: x0 M1 y = x0 M1 x2 b2 + x0 e 2 2 2 |{z}
0
) b2
Il valore di b2 ottenuto dalla regressione multivariata quindi identico a quello ricavato con il metodo indiretto illustrato in precedenza.
1 0 = x0 M1 x2 x2 M1 y 2
OLS multivariato 151 7.12. Omissione di variabili rilevanti e inclusione di variabili irrilevanti
Esaminiamo ora gli eetti sui coecienti stimati di due problemi di specicazione dei modelli di regressione. Iniziamo dal caso di omissione dal modello stimato di un regressore rilevante, cio appartenente al vero modello che ha generato i dati. Esprimiamo i due modelli come segue: modello vero : y = X1 1 + x2 2 + " modello stimato : y = X1 b + e 1 Nella stima del modello sono (correttamente) inclusi k 1 regressori ma viene omesso il k-esimo regressore x2 . La stima del vettore di coecienti 1 , che denotiamo con b , ottenuta come: 1 0 1 0 X1 y b = X1 X1 1 1 0 0 X1 (X1 1 + x2 2 + ") = X1 X1 1 0 1 0 1 0 0 X1 X1 1 + X0 X1 X1 x2 2 + X0 X1 X1 " = X1 X1 1 1 0 0 1 0 1 0 X1 x2 2 + X1 X1 X1 " = 1 + X1 X1 ed ha il seguente valore atteso (poich E(") = 0): 1 0 E (b ) = 1 + X0 X1 X x2 2 1 1 | {z 1 }
distorsione
b quindi uno stimatore distorto del vero vettore di coecienti 1 . La 1 distorsione dipende sia dal parametro 2 (che misura leetto di x2 su y) sia dalla correlazione esistente fra i regressori misurata dai k 1 coecienti stimati da una regressione OLS di x2 sulle variabili in X1 , raccolti nel vettore b21 : 1 0 X1 x2 b21 = X0 X1 1 Il valore atteso dei coecienti in b risulta quindi: 1 E(b ) = 1 + b21 2 1 Prendiamo ora in considerazione il problema dellinclusione nel modello stimato di variabili irrilevanti, cio che non appartengono al modello vero. In questo caso abbiamo: modello vero : modello stimato : y = X1 1 + " y = X1 b + x2 b + e 1 2
152 capitolo 7 Qui x2 rappresenta una variabile che non ha alcun eetto su y ma che viene comunque inclusa nel modello stimato, insieme al blocco di regressori rilevanti X1 . Denotando con X la matrice completa dei regressori utilizzati: X = (X1 x2 ), il vettore dei coecienti stimati dalla regressione : 1 0 b1 = X0 X Xy b b2 0 1 0 1 = XX X (X1 x2 ) +" 0 1 0 1 + X0 X X" = 0 Il valore atteso dei coecienti risulta quindi 1 b1 = E b 0 2
senza alcuna distorsione dovuta alla presenza di un regressore irrilevante. Linclusione di tale regressore (tranne che nel caso di assenza di correlazione con le variabili in X1 ) ha invece leetto di aumentare la varianza dello stimatore di 1 rispetto a quella ottenibile dalla stima del modello vero (senza x2 ).
OLS multivariato 153 7.13. Esercizi
2. Esprimete la statistica F utilizzata per sottoporre a test la signicativit di tutti i regressori (diversi dalla costante) utilizzando le somme del quadrato dei residui di due modelli (da denire con precisione): non ristretto e ristretto.
1. Dimostrate che R2 uguale al quadrato del coeciente di correlazione ^ fra i valori osservati di yi e quelli stimati yi , cio: P y [ n (yi y ) (î y )]2 2 2 i=1 hP i hP i R = ry;^ y n 2 n (yi y) (î y )2 y i=1 i=1
3. Supponete che si voglia investigare la dipendenza di una variabile economica y dal tasso di inazione, che denotiamo con , e dal tasso di interesse reale, che denotiamo con r. Il modello vero che viene ipotizzato il seguente: yi = 0 + 1 i + 2 ri + "i Viene invece stimato il seguente modello, contenente il tasso di interesse nominale, che chiamiamo n: yi = 0 + 1 i + 2 ni + vi Dalla stima otteniamo i seguenti risultati (fra parentesi gli errori standard delle stime): 1 = 0:1 (0:15) ^ 2 = 0:8 (0:20) ^ ^ Inoltre cov(^ 1 ; 2 ) = 0:002. Ricordando la relazione che lega tassi di interesse e tasso di inazione (r = n ): (a) ricavate la relazione fra i parametri 0 , 1 , 2 e 0 , 1 , 2 ; possibile concludere dai risultati del modello stimato che variazioni del tasso di inazione a parit di tasso di interesse reale non sono rilevanti per la spiegazione di y? (b) costruite un test di signicativit delleetto del tasso di inazione su y a parit di tasso di interesse reale e commentatene il risultato.
154 capitolo 7 4. Considerate il seguente modello con solo due regressori: yi = 1 xi1 + 2 xi2 + "i in cui tutte le variabili hanno media campionaria uguale a zero: y = x1 = x2 = 0 (non viene quindi inserita nel modello la costante). Assu miamo inoltre (per semplicare i calcoli) che la varianza campionaria di x1 e x2 sia pari a 1: Pn Pn 2 x2 i=1 xi1 = i=1 i2 = 1 n n Ci implica che la covarianza campionaria fra x1 e x2 uguale al coeciente di correlazione r12 : Pn xi1 xi2 cov(x1 ; x2 ) = i=1 = r12 n Denotando con 2 la varianza del termine di errore "i : (a) calcolate la matrice di varianze e covarianze degli stimatori b1 e b2 ottenuti con OLS a NB: data una matrice della forma , la sua inversa a una matrice della forma seguente: 1 1 1 a 1 a2 a 1 (b) valutate leetto del grado di correlazione fra x1 e x2 sulle statistiche t costruite per valutare le ipotesi che i singoli parametri 1 e 2 siano ciascuno uguale a zero; (c) calcolate la varianze di due combinazioni lineari dei parametri stimati: b1 + b2 e b1 b2 ;
(d) ipotizzando r12 > 0, valutate leetto del grado di correlazione fra i regressori sulla varianza delle due combinazioni lineari costruite; quali conclusioni si possono trarre sulla possibilit di sottoporre a test ipotesi su combinazioni lineari dei parametri? 5. Considerate tre variabili (tutte con media zero) x, y e z. Siamo interessati a stimare leetto puro di x su y, eliminando leetto della terza variabile z, la quale inuenza sia x sia y.
OLS multivariato 155 (a) Supponiamo di procedere ad una regressione di x su z, da cui ricaviamo lo stimatore bxz ed i residui stimati u. Successivamente stimiamo la seguente regressione di y su u: y = u u + v Derivate lo stimatore du del parametro u da questultima regressione. (b) Confontate du con lo stimatore dx del parametro x nel seguente modello trivariato: y = x x + z z + " (c) Che cosa cambierebbe rispetto al caso (a) se, invece di y, si regredissero su u i residui ottenuti da una precedente regressione di y su z (eettuata per depurare anche y dalleetto di z)? 6. Ipotizziamo che la vera relazione fra due variabili x e y (entrambe con media pari a zero) sia data dal seguente modello lineare: yi = xi + "i dove "i IN(0; 2 ) e non correlato con xi . Le due variabili sono " misurate con errore; invece di x e y vengono osservate x e y , denite come segue: x = xi + ui e yi = yi + vi i dove u e v sono gli errori di misurazione, con media zero e non correlati con x e y e fra di loro (quindi: E(u) = E(v) = E(uv) = E(ux) = E(uy) = E(vx) = E(vy) = 0). Inoltre E(u2 ) = 2 e E(v 2 ) = u 2 . v (a) Scrivete il modello da stimare in termini delle variabili osservate. E possibile applicare il metodo dei minimi quadrati ordinari (OLS) per la stima di e perch? (b) Lo stimatore bOLS fornisce una sovrastima o una sottostima del vero parametro ? (fornire una risposta in termini solo intuitivi).
156
Capitolo 8
Violazioni delle assunzioni classiche e modello di regressione lineare generalizzato
8.1.
Introduzione
Nel capitolo precedente, dato il modello di regressione lineare y = X + " si sono introdotte alcune assunzioni, qui riassunte per comodit. Assunzioni sulla matrice X: X una matrice non stocastica di ordine n K (con n K) e di rango K. Ci implica che le colonne della matrice X sono linearmente indipendenti. In subordine, se X una matrice stocastica, gli elementi della matrice X sono indipendenti o almeno non correlati con gli elementi del vettore ". Assunzioni sul vettore ": E(") = 0
158 capitolo 8 2 0 B 0 2 V ar (") = E(""0 ) = B @ ::: ::: 0 0 " N(0; 2 I) Date le assunzioni classiche, lo stimatore OLS del vettore di parametri b = (X0 X)1 X0 y BLUE (best linear unbiased estimator), con E(b) = V ar (b) = 2 (X0 X)1 Inne, se aggiungiamo alle assunzioni classiche lipotesi di normalit, lo stimatore OLS del vettore BUE (best unbiased estimator ), con b N ; 2 (X0 X)1 0 1 ::: 0 ::: 0 C C = 2 I ::: ::: A ::: 2
Inoltre, per essere in grado di fare inferenza, si assume anche che
GLS 159 8.2. Violazioni delle assunzioni su V ar (")
Lassunzione V ar (") = E(""0 ) = 2 I detta di sfericit degli errori ed implica la duplice condizione di costanza della varianza dei termini di errore "i (omoschedasticit) e di nullit della covarianza per ogni coppia di termini di errore "i e "j con i 6= j (assenza di autocorrelazione). Dato che la matrice X non stocastica, (ricordando semplicemente che la varianza di una costante nulla) vale anche che: V ar (y) = 2 I Eteroschedasticit (cenni). Se le osservazioni campionarie sono relative, ad esempio, a famiglie o imprese in unanalisi cross-sezionale, pu essere poco plausibile assumere che solo il valore atteso, ma non la varianza di y, dipenda dalla matrice X. Si ricordi che nel modello di regressione lineare classico: E(y) = X La rimozione della condizione di costanza della varianza dei termini di errore "i viene denita con il termine di eteroschedasticit. Ad esempio, in un modello di regressione bivariato dove la variabile dipendente rappresentata dal risparmio familiare e la variabile indipendente dal reddito familiare, non solo il valore atteso del risparmio ma anche la sua varianza sembra aumentare al crescere del reddito. Se si rimuove lipotesi di omoschedasticit la matrice di varianza e covarianza dei termini di errore deve essere scritta nel modo seguente: 2 0 1 B 0 2 2 V=B @ ::: ::: 0 0 0 1 ::: 0 ::: 0 C C ::: ::: A ::: 2 n
Si osservi n dora che se la matrice V non nota, sar necessario imporre delle restrizioni dal momento che non possibile stimare n parametri (cio le n varianze) con solo n osservazioni campionarie. Autocorrelazione (cenni). Se le osservazioni sono relative a una singola famiglia o impresa osservata nel tempo (analisi temporale) possibile (per
160 capitolo 8 motivi che saranno spiegati in seguito) che la matrice di varianza e covarianza dei termini di errore possa assumere la seguente struttura: 0 1 1 1 ::: n2 n1 B 1 1 ::: ::: n2 C B C 2 2B ::: ::: ::: ::: C = B ::: C @ n2 ::: ::: 1 1 A n1 n2 ::: 1 1 dove ::: = Cov ("t2 ; "t1 ) = Cov ("t1 ; "t ) = Cov ("t ; "t+1 ) = ::: = 2 1 ::: = Cov ("t2 ; "t ) = Cov ("t1 ; "t+1 ) = Cov ("t ; "t+2 ) = ::: = 2 2 ::: ::: = Cov ("t2 ; "t2+s ) = Cov ("t1 ; "t1+s ) = Cov ("t ; "t+s ) = ::: = 2 s Anche nel caso di autocorrelazione, se la matrice 2 non nota, sar necessario imporre delle restrizioni dal momento che non possibile stimare n parametri (cio 2 e gli n1 coecienti di correlazione) con n osservazioni campionarie. Domande a cui rispondere. La possibile violazione delle assunzioni classiche del modello di regressione lineare pone alcuni importanti problemi: (a) quali sono le conseguenze per lo stimatore OLS quando lassunzione classica sulla matrice di varianza e covarianza dei termini di errore violata? (b) quali procedimenti (test) possono essere sviluppati per vericare la ragionevolezza dellassunzione classica? (c) quali procedure di stima devono essere utilizzate nei casi in cui lassunzione classica risulta violata?
GLS 161 8.3. Il modello di regressione lineare generalizzato e lo stimatore GLS (Generalized Least Squares)
Se viene abbandonata lassunzione di sfericit dei termini di errore, allora il modello di regressione lineare deve essere riscritto come segue: y = X + " E(") = 0 V ar (") = E(""0 ) = 2 Questo modello prende il nome di modello di regressione lineare generalizzato. Sappiamo che lo stimatore OLS bOLS = (X0 X)1 X0 y pur essendo non distorto non pi eciente (non pi BLUE). Inoltre sappiamo che la sua varianza pari a V ar (bOLS ) = 2 (X0 X)1 (X0 X)(X0 X)1 Derivazione dello stimatore eciente per il modello lineare generalizzato. Per derivare lo stimatore eciente nel modello generalizzato, supponiamo di conoscere la matrice , che simmetrica e denita positiva. Linversa di (anchessa matrice denita positiva) ammette la seguente rappresentazione: 1 = P0 P da cui = ) ) 0 1 PP = P1 P01 P = P01 P P0 = I
Per ricavare lo stimatore a minimi quadrati generalizzati (GLS) moltiplichiamo il modello originario per la matrice P: P y = (PX) + P "
162 capitolo 8 Il modello pu essere riscritto nel modo seguente: y = X + " dove Py = y , PX = X e P" = " . Dal momento che E(" ) = 0 la matrice di varianza e covarianza dei termini di errore (trasformati) pu essere scritta come V ar (" ) = E(" "0 ) = E(P ""0 P0 ) = 2 P P0 = 2 I Possiamo quindi riscrivere il modello di regressione lineare generalizzato in forma di modello di regressione classico (trasformato): y = X + " E(" ) = 0 V ar (" ) = E(" "0 ) = 2 I Lo stimatore GLS semplicemente lo stimatore OLS del modello trasformato bGLS = (X0 X )1 X0 y = (X0 P0 PX)1 X0 P0 P y = (X0 1 X)1 X0 1 y Inne, ricaviamo la matrice di varianza e covarianza dello stimatore bGLS . Da 1 0 X " bGLS = + X0 X otteniamo: V ar (bGLS ) = E (bGLS ) (bGLS )0 = E =
1 1 = 2 X0 X = 2 X0 1 X
0 1 0 0 0 1 X E " " X (X X ) X X | {z }
2 I
h 1 0 0 0 1 i X0 X X " " X (X X )
GLS 163 Lo stimatore OLS ancora uno stimatore non distorto nel modello di regressione lineare generalizzato. Infatti: 1 0 X" bOLS = + X0 X da cui Tuttavia, la matrice di varianza e covarianza del vettore b diventa: V ar (bOLS ) = E (bOLS ) (bOLS )0 = E 1 0 X X (X0 X)1 = 2 X0 X h i 1 0 0 0 X0 X X "" X(X X)1 1 0 X E(") = E(bOLS ) = + X0 X
Implicazioni . La usuale formula 2 (X0 X)1 non rappresenta pi la matrice di varianza e covarianza del vettore b e quindi ogni sua applicazione in campo inferenziale fuorviante. Inoltre, lo stimatore OLS non pi quello a varianza minima nella classe degli stimatori non distorti. In altre parole, pur non essendo distorto, lo stimatore OLS non il pi eciente nella classe degli stimatori non distorti. Potenziali soluzioni . (a) se la matrice conosciuta, uno stimatore pi eciente di quello OLS disponibile. Tale stimatore detto stimatore dei minimi quadrati generalizzati (GLS, generalized least squares), bGLS ; (b) se la matrice non nota ma ragionevole fare delle ipotesi sulla sua struttura allora possibile utilizzare una versione modicata dello stimatore GLS, lo stimatore FGLS (feasible generalized least squares); (c) se la matrice non nota e non ragionevole fare ipotesi sulla sua struttura allora lunica soluzione procedere con il metodo dei minimi quadrati ordinari (OLS), stimando direttamente V ar (bOLS ).
164
Capitolo 9
Eteroschedasticit
9.1.
Minimi quadrati generalizzati (GLS) ed eteroschedasticit
Consideriamo il modello di regressione lineare generalizzato: y = X + " E(") = 0 V ar (") = V In presenza di eteroschedasticit la matrice di termini di errore ha la seguente struttura: 0 2 1 0 ::: 0 B 0 2 ::: 0 2 V=B @ ::: ::: ::: ::: 0 0 ::: 2 n varianza e covarianza dei 1 C C A
Per stimare il vettore in modo eciente necessario conoscere V. Normalmente si ipotizza che le varianze siano funzione di ununica variabile osservabile, z (che pu essere o meno parte della matrice X dei regressori). Sviluppiamo ora due esempi, in cui le varianze sono rispettivamente funzione lineare e quadratica della variabile z (opportunamente normalizzata): (i) nel primo caso si ipotizza che 2 = 2 zi i con i = 1; 2; :::; n
166 capitolo 9 e In questo caso Pn

i=1 zi
n 0
=1 1 ::: 0 ::: 0 C C ::: ::: A ::: zn 0 0 :::

p1 zn
e la matrice P assume la seguente forma: 0 1 p 0 ::: z1 B 0 p1 B z2 ::: P=B @ ::: ::: ::: 0 0 ::: (ii) nel secondo caso si ipotizza che
z1 0 B 0 z2 V = 2 = 2 B @ ::: ::: 0 0
1 C C C A
e di conseguenza
2 2 = 2 zi con i = 1; 2; :::; n i Pn 2 i=1 zi =1 e n 2 z1 0 2 B 0 z2 V = 2 = 2 B @ ::: ::: 0 0
In questo caso la matrice P assume invece la 0 1 0 ::: 0 z1 B 0 1 ::: 0 z2 P=B @ ::: ::: ::: ::: 0 0 ::: z1 n
1 ::: 0 ::: 0 C C ::: ::: A 2 ::: zn
seguente forma: 1 C C A
In entrambi i casi lunico elemento non noto 2 , che pu essere stimato utilizzando i residui dellequazione trasformata: s2 = e0 e nK
Si osservi inne che la stima di 2 serve esclusivamente alla stima della matrice di varianza e covarianza di b.
eteroschedasticit 167 9.2. FGLS ed eteroschedasticit
Qualora le varianze siano una funzione di pi di una variabile osservabile (e queste a loro volta possono essere o meno parte della matrice X), si pone il problema di stimare i parametri (non noti) che esprimono la relazione tra le varianze e le variabili. Supponiamo per semplicit che le varianze dipendano linearmente da due variabili osservabili, z1 e z2 , nel modo seguente: 2 = 0 + 1 z1i + 2 z2i i La matrice di varianza e covarianza dei termini di errore ha la seguente forma: 1 0 0 + 1 z11 + 2 z21 0 ::: 0 C B 0 0 0 + 1 z12 + 2 z22 ::: C V=B A @ ::: ::: ::: ::: 0 0 ::: 0 + 1 z1n + 2 z2n
e quindi, per costruire il modello di regressione lineare classico (trasformato), necessario moltiplicare y, X e " per la seguente matrice P: 0 1 1 p 0 ::: 0 0 + 1 z11 + 2 z21 B C 1 p 0 ::: 0 B C 0 +1 z12 +2 z22 P=B C @ A ::: ::: ::: ::: 1 0 0 ::: p + z + z
0 1 1n 2 2n
Il problema che 0 , 1 e 2 sono parametri ignoti che a loro volta devono essere stimati. Il metodo dei minimi quadrati generalizzati fattibili (FGLS) consente di arontare il problema. I passi necessari sono i seguenti: (a) stimare il modello originale y = X + " con OLS al ne di ottenere il vettore dei residui stimati e; (b) stimare la seguente equazione ausiliaria: e2 = 0 + 1 z1i + 2 z2i + ui i dove ui indica il disturbo i-esimo; (c) costruire la matrice P stimata, sostituendo a 0 , 1 e 2 le corrispondenti stime d0 , d1 e d2 ; (d) stimare il modello trasformato y = X + " con OLS al ne di ottenere il vettore delle stime bF GLS .
168 capitolo 9 9.3. OLS ed eteroschedasticit
Lo stimatore GLS eciente. Tuttavia, per applicarlo necessario specicare il modello che descrive la struttura delle varianze nella matrice . In alcuni casi, per evitare di sbagliare la specicazione di , pu essere opportuno continuare ad usare gli stimatori OLS, stimando in modo appropriato la matrice di varianza e covarianza di bOLS : V ar (bOLS ) = 2 (X0 X)1 (X0 X)(X0 X)1 Lapproccio suggerito da White consiste in: (a) stimare il modello originale y = X + " con OLS al ne di ottenere il vettore dei residui stimati e; (b) utilizzare il quadrato dei residui ei utilizzando per la stima di V: 0 2 e1 0 B 0 e2 2 ^ V=B @ ::: ::: 0 0 da cui per stimare la matrice X0 VX, 1 ::: 0 ::: 0 C C ::: ::: A ::: e2 n
^ Est V ar (bOLS ) = (X0 X)1 (X0 V X)(X0 X)1
eteroschedasticit 169 9.4. Test di eteroschedasticit
Esistono numerosi test statistici costruiti con lobiettivo di vericare la presenza di eteroschedasticit. Pur se diversi nellimpostazione, tutti utilizzano il vettore dei residui e ottenuto stimando il modello originario con il metodo OLS. Lidea di sfruttare e2 come stima di 2 . I test pi comunemente utilizi i zati sono: (a) test di Goldfeld-Quandt; (b) test di Breusch-Pagan-Godfrey; (c) test di White. Test di Goldfeld-Quandt (GQ). Questo test pu essere utilizzato qualora si sospetti che le varianze siano funzione di una singola variabile osservabile z (inclusa o meno nella matrice X). La procedura del test la seguente: (a) riordinare le osservazioni in base al valore di zi (dal pi piccolo al pi grande); (b) omettere c osservazioni centrali ( consigliato c = n=3); (c) stimare separatamente il modello originale con OLS per le prime e le ultime nc osservazioni; 2
nc 2
(d) calcolare i RSS delle due regressioni. Si deniscano RSS1 e RSS2 rispettivamente i valori del RSS pi piccolo e pi grande; (e) la statistica RSS2 RSS1 ha, sotto lipotesi nulla di assenza di eteroschedasticit, una distribuzione F con (n c 2K)=2 gradi di libert sia al numeratore sia al denominatore. Pressato un livello di signicativit, se il valore della statistica eccede il valore critico della distribuzione F , allora si riuta lipotesi nulla di assenza di eteroschedasticit. GQ = Test di Breusch-Pagan-Godfrey (BPG). Questo test costituisce unestensione del test GQ, dal momento che le varianze possono essere espresse come funzione (non necessariamente lineare) di pi di una variabile. Per semplicit, si consideri la seguente relazione lineare: 2 = 0 + 1 z1i + 2 z2i + ::: + m1 zm1;i + ui i dove ui indica il disturbo i-esimo. Lintuizione che per sottoporre a test se le varianze sono omoschedastiche suciente sottoporre a test lipotesi nulla H0 : 1 = 2 = ::: = m1 = 0. La procedura del test la seguente:
170 capitolo 9 (a) stimare il modello originale con OLS; (b) costruire la seguente variabile pi = e2 i s2
dove s2 RSS=n e RSS la somma dei quadrati dei residui del modello originale; (c) stimare la seguente equazione ausiliaria: pi = 0 + 1 z1i + 2 z2i + ::: + m1 zm1;i + ui dove ui il residuo i-esimo della regressione ausiliaria; (d) ottenere gli ESS della equazione ausiliaria e calcolare la seguente statistica: 1 BP G = ESS 2 Sotto lipotesi nulla di assenza di eteroschedasticit, BP G ha una distribuzione asintotica 2 con m 1 gradi di libert. Pressato un livello di signicativit, se il valore della statistica eccede il valore critico della distribuzione 2 , allora si riuta lipotesi nulla di assenza di eteroschedasticit. Test di White (W). Il test di White ancora pi generale. Non solo non richiede di identicare a priori la variabile a cui si sospetta siano associate le varianze ma adotta anche una forma funzionale essibile. Applichiamo per semplicit questo test direttamente ad una regressione trivariata: yi = 0 + 1 x1i + 2 x2i + "i La procedura di eettuazione del test la seguente: (a) stimare il modello trivariato con OLS al ne di ottenere i residui ei ; (b) stimare una regressione ausiliaria dove i residui al quadrato sono regrediti sulle variabili originarie, i loro quadrati ed i loro prodotti incrociati: e2 = 0 + 1 x1i + 2 x2i + 3 x2 + 4 x2 + 5 x1i x2i + ui i 1i 2i e calcolare da questa regressione il coeciente di determinazione multiplo R2 ;
eteroschedasticit 171 (c) la statistica W = n R2 sotto lipotesi nulla di assenza di eteroschedasticit ha una distribuzione asintotica 2 con un numero di gradi di libert pari al numero dei regressori (con lesclusione della costante) inclusi nellequazione ausiliaria. Pressato un livello di signicativit, se il valore della statistica eccede il valore critico della distribuzione 2 , allora si riuta lipotesi nulla di assenza di eteroschedasticit.
172 capitolo 9 9.5. Eteroschedasticit: unapplicazione
Consideriamo un campione composto da 1000 individui estratti casualmente dalla popolazione censita USA del 1988. Il fenomeno da spiegare consiste nel livello del salario (WAGE ) degli individui. Le variabili esplicative disponibili sono: il livello di istruzione (EDU ) e gli anni di esperienza lavorativa (EXP). Statistiche descrittive su WAGE e LNWAGE = ln(WAGE )
240 200 160 120 80 40 0 10 20 30 40 50 60
Series: WAGE Sample 1 1000 Observations 1000 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis 11.41696 9.999999 64.99998 2.600000 6.970761 1.938640 9.790304
Jarque-Bera 2547.564 Probability 0.000000
100 80 60 40 20 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0
Series: LNWAGE Sam 1 1000 ple Observations 1000 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis 2.275496 2.302585 4.174387 0.95551 0.563464 0.077570 2.640649
Jarque-Bera 6.383398 Probability 0.041102
eteroschedasticit 173 Regressione OLS di LNWAGE su una costante, EDU e EXP Campione: n = 1000 osservazioni. Equazione stimata: LNW AGEi = 0 + 1 EDUi + 2 EXPi + "i Risultati della stima: Varabile dipendente: LNW AGE b s(b) t Regressore cost. 0.601 0.086 6.957 EDU 0.102 0.006 17.246 EXP 0.019 0.001 15.502 s(LNW AGE) R2 0.303 2 s R 0.302 RSS F 221.0
p 0.00 0.00 0.00 0.563 0.471 216.92
Graco dei residui stimati al quadrato (LNWRES2 ) e dei valori stimati di LNWAGE (LNWAGEFIT ):
LNW R E S 2
0 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 L N W A G E F IT
174 capitolo 9 Test di eteroschedasticit (a) Test di Goldfeld-Quandt Ordinamento delle osservazioni secondo EXP ; due campioni di 350 osservazioni (eliminate le 300 osservazioni centrali) Risultato delle regressioni sui sottocampioni: Campione: 1 350 b s(b) 0.01 0.14 0.12 0.01 0.07 0.007 0.396 s(v.dip.) s 0.392 F 64.62 Campione: 651 1000 b s(b) t Regr. cost. 1.37 0.21 6.59 EDU 0.07 0.01 7.32 EXP 0.005 0.004 1.35 2 R 0.136 s(v.dip.) 0.54 s R2 0.131 0.50 F RSS2 87.06 27.3
Regr. cost. EDU EXP R2 R2 RSS1
t 0.06 11.52 8.88 0.55 0.43 113.7
GQ
= )
RSS2 =(350 3) 87:06 = = 1:35 > F0:05 (347; 347) RSS1 =(350 3) 64:62 lipotesi nulla di assenza di eteroschedasticit riutata al 5%
(b) Test Breusch-Pagan-Godfrey Ipotesi: varianza residui dipendente linearmente dai due regressori EDU e2 e EXP. Regressione ausiliaria di si sui regressori originali. 2 Risultati della regressione ausiliaria: s() t Regressore cost. -0.49 0.28 -1.71 EDU 0.09 0.02 4.68 EXP 0.016 0.004 4.09 2 R 0.030 s(v. dip.) 1.57 2 s R 0.028 1.55 RSS F 2385.7 15.6
BP G
1 R2 ESS = RSS = 38:5 > 2 (2) 0:05 2 2 1 R2 ) lipotesi nulla di assenza di eteroschedasticit riutata al 5% =
eteroschedasticit 175 (c) Test di White Regressione ausiliaria: e2 = d0 + d1 EDUi + d2 EXPi + d3 EDUi2 i +d4 EXPi2 + d5 (EDU EXP )i + ui Risultati della regressione ausiliaria: d s(d) t Regressore cost. 0.49 0.24 2.09 EDU -0.04 0.03 -1.39 EXP -0.02 0.006 -3.54 2 0.002 0.001 1.75 EDU 0.001 0.0002 4.49 EXP2 EDU*EXP 0.001 0.0004 2.67 R2 0.052 s(v. dip.) 0.347 2 s R 0.047 0.339
= nR2 = 52 > 2 (5) 0:05 ) lipotesi nulla di assenza di eteroschedasticit riutata al 5%
Stima OLS con correzione per eteroschedasticit (White). Stima OLS con correzione di White della matrice di varianze e covarianze dei coecienti. Risultati: Variabile Regressore cost. EDU EXP R2 R2 RSS dipendente: LNW AGE b s(b) t 0.601 0.091 6.630 0.102 0.006 16.107 0.019 0.001 13.869 0.303 s(v. dip.) 0.563 s 0.302 0.471 F 221.0 216.92
176 9.6. Esercizi
1. Considerate il semplice modello di regressione lineare: yi = 0 + "i dove le varianze dei termini di errore sono funzione dei valori di una variabile zi secondo la relazione: Pn 2 2 i=1 zi 2 = 2 zi con =1 i n (a) derivate lo stimatore OLS di 0 e la sua varianza in presenza di eteroschedasticit nei termini di errore "i ; (b) trasformate appropriatamente il modello originario e derivate lo stimatore GLS di 0 , confrontandolo con quello OLS; (c) dimostrate che lo stimatore GLS non distorto e calcolatene la varianza. 2. Il modello vero che descrive la relazione, per ogni impresa i, fra costo totale di produzione ci e quantit prodotta qi il seguente: ci = + qi + "i con varianza del termine di errore non costante: E("2 ) = 2 e E("i "j ) = i i 0 per i 6= j. (a) Quale ipotesi necessario introdurre per giusticare la stima dei parametri e da una regressione che abbia come variabile dipendente il costo unitario di produzione? (b) Descrivete la procedura di trasformazione delle variabili coerente con lipotesi formulata in (a), specicando la forma della matrice P e interpretando i coecienti del modello trasformato.
Capitolo 10
Autocorrelazione
10.1.
Introduzione
Consideriamo il modello di regressione lineare generalizzato: y = X + " E(") = 0 V ar (") = 2 Assunzioni : 1. Le osservazioni campionarie sono ordinate rispetto al tempo (serie temporali) con t = 1; 2; :::T 2. Assenza di eteroschedasticit: V ar ("t ) = 2 " 3. Le covarianze (chiamate anche autocovarianze) fra "t e "ts sono una funzione della distanza jt sj ma non di t e di s: dove s il coeciente di correlazione fra "t e "ts (e fra "t1 e "t1s , ecc.). Pi precisamente: Cov ("t ; "ts ) Corr ("t ; "ts ) s = p V ar ("t ) V ar ("ts )
::: = Cov ("t1 ; "t1s ) = Cov ("t ; "ts ) = Cov ("t+1 ; "t+1s ) = ::: = 2 s "
178 capitolo 10 da cui s = e quindi Cov ("t ; "ts ) = 2 s " La matrice di varianza e covarianza dei termini di errore (chiamata anche matrice delle autocovarianze) pu quindi essere scritta come segue: 0 B B 1 1 ::: 1 1 ::: ::: ::: T 2 T 1 ::: ::: T 2 ::: ::: ::: ::: 1 1 ::: 1 1 1 C C C C A Cov ("t ; "ts ) 2 "
V ar (") =
2 "
2 B "B
@ T 2 T 1 T 2
In questo contesto la matrice viene anche denita matrice di autocorrelazione (e spesso denotata con R) dal momento che raccoglie i T 1 coecienti di autocorrelazione. Qualora la matrice non sia nota, sar ovviamente necessario imporre delle restrizioni. Non infatti possibile stimare, con T osservazioni, T 1 coecienti di correlazione, la varianza comune dei termini di errore 2 e i " K parametri del modello. 10.2. Processi stocastici (cenni)
Un processo stocastico una sequenza di variabili casuali ordinate rispetto al tempo: f"t g ; t = 1; +1 Analizziamo alcuni esempi di semplici processi stocastici. 10.2.1. White noise Un processo stocastico fut g denito white noise (rumore bianco) se E(ut ) = 0 var(ut ) = 2 u cov(ut ; us ) = 0 8t 8t 6= s
Esempio per ut N(0; 1), campione di 50 osservazioni (1951-2000):
autocorrelazione 179
3 2 1 0 -1 -2 -3 55 60 65 70 75 80 85 90 95 00
u (white noise)
Utili informazioni sulla natura del processo stocastico possono essere fornite dal calcolo dei coecienti di correlazione s a varie distanze s. Linsieme di tali coecienti forma il cosiddetto correlogramma della serie. Per il processo white noise u il correlogramma mostra una serie di coecienti di (auto)correlazione (AC) prossimi a zero, confermando la natura non autocorrelata della serie.
Correlogrammadi processo stocastico white noise Sample: 1952 2000 Included observations: 49 Autocorrelation Partial Correlation AC PAC Q-Stat .|. | .|. | 1 -0.012 -0.012 0.0077 **| . | **| . | 2 -0.193 -0.193 1.9787 .*| . | .*| . | 3 -0.075 -0.083 2.2843 . |*. | . |*. | 4 0.190 0.157 4.2977 .*| . | .*| . | 5 -0.109 -0.140 4.9680 .|. | . |*. | 6 0.052 0.116 5.1255 **| . | **| . | 7 -0.237 -0.282 8.4641 .|. | .|. | 8 0.030 0.033 8.5186 .*| . | .*| . | 9 -0.107 -0.187 9.2398 .|. | .*| . | 10 -0.050 -0.127 9.4012
Prob 0.930 0.372 0.516 0.367 0.420 0.528 0.293 0.385 0.415 0.494
180 capitolo 10 10.2.2. Random walk Un processo stocastico f"t g denito random walk (passeggiata casuale) se evolve nel tempo come segue:
"t = "t1 + ut ) "t = ut + ut1 + ::: =

1 X i=0
uti
dove fut g un processo white noise. Continuando nellesempio (utilizzando le realizzazioni di ut viste nella gura precedente):
4 2 0 -2 -4 -6 -8 -10 55 60 65 70 75 80 85 90 95 00
epsilon (random walk)
il correlogramma del processo stocastico mostra un elevato grado di persistenza, con coecienti di autocorrelazione inizialmente vicini allunit e che solo lentamente (allaumentare della distanza fra le osservazioni) tendono a diminuire.
Correlogramma di processo stocastico random walk Sample: 1952 2000 Included observations: 49 Autocorrelation Partial Correlatio AC PAC Q-Stat Prob . |*******| . |*******| 1 0.933 0.933 45.299 0.000 . |*******| .|. | 2 0.868 -0.019 85.317 0.000 . |****** | .|. | 3 0.810 0.025 120.97 0.000 . |****** | .|. | 4 0.758 0.013 152.91 0.000 . |***** | **| . | 5 0.679 -0.236 179.10 0.000 . |***** | .*| . | 6 0.598 -0.061 199.91 0.000 . |**** | **| . | 7 0.501 -0.206 214.87 0.000 . |*** | . |*. | 8 0.437 0.180 226.50 0.000 .|*** | .|. | 9 0.377 0.019 235.38 0.000 . |** | .|. | 10 0.318 0.000 241.88 0.000
10.2.3. Processo AR(1) Un processo stocastico f"t g denito autoregressivo di ordine 1 (AR(1)) se evolve nel tempo come segue: "t = "t1 + ut ) "t = ut + ut1 + ut2 + ::: =
2 1 X i=0
i uti
dove fut g un processo white noise. Si osservi che "t funzione di tutta la storia degli ut . Imponendo la restrizione jj < 1, le osservazioni pi lontane nel tempo sono pesate meno delle osservazioni pi recenti. Dopo aver imposto tale restrizione, possiamo calcolare il valore atteso e la varianza di "t : E("t ) = E(ut ) + E(ut1 ) + 2 E(ut2 ) + ::: = 0 V ar ("t ) = V ar (ut ) + 2 V ar (ut1 ) + 4 V ar (ut2 ) + ::: = 2 u = 2 " 1 2
Analogamente si pu procedere al calcolo delle covarianze tra "t e gli altri elementi del processo stocastico Cov ("t ; "t1 ) = E("t "t1 ) = E (( "t1 + ut ) "t1 ) = Cov ("t ; "t2 ) = E("t "t2 ) = 2 2 u = 2 2 " 1 2 2 u = 2 " 1 2
182 capitolo 10 ::: Cov ("t ; "ts ) = E("t "ts ) = s 2 u = s 2 " 1 2
Se i termini di errore del modello di regressione seguono un processo stocastico autoregressivo di ordine 1, la matrice di varianza e covarianza pu essere scritta come segue:
V ar (") =
2 B "B @
0 B B
1 2 :::
1 :::
2 1 :::
T 1 T 2 T 3
::: T 1 ::: T 2 ::: T 3 ::: ::: ::: 1
C C C = 2 " C A
dove i parametri da stimare sono ridotti a due: 2 e . Presentiamo ora tre " esempi di processo AR(1) ottenuti dalle medesime realizzazioni del processo white noise f"t g utilizzate in precedenza ma caratterizzati da diversi valori del parametro autoregressivo : = 0:9, = 0:5 e = 0:7.
4 2 0 -2 -4 -6 -8 -10 55 60 65 70 75 80 85 90 95 00
AR(1) rho = 0.9
CorrelogrammaAR(1) con rho=0.9 di Sample: 1952 2000 Included observations: 49 Autocorrelation Partial Correlati AC PAC . |****** | . |****** | 1 0.838 0.838 . |***** | .|. | 2 0.690-0.041 . |***** | . |*. | 3 0.604 0.122 . |**** | . |*. | 4 0.560 0.102 . |*** | **| . | 5 0.448-0.222 . |*** | .|. | 6 0.359 0.045 . |** | **| . | 7 0.238-0.224 . |** | . |** | 8 0.209 0.227 . |*. | .|. | 9 0.176-0.053 . |*. | . |*. | 10 0.181 0.163
4 2 0 -2 -4 -6 -8 -10 55 60 65 70 75 80 85 90 95 00 AR(1) rho = 0.5
4 2 0 -2 -4 -6 -8 -10 55 60 65 70 75 80 85 90 95 00
AR(1) rho = - 0.7
Correlogramma AR(1) con rho=0.5 di Sample: 1952 2000 Included observations: 49 AC PAC Autocorrelation Partial Correlatio . |*** | . |*** | 1 0.405 0.405 .|. | .*| . | 2 0.032-0.158 .|. | .|. | 3 -0.002 0.057 . |*. | . |*. | 4 0.104 0.108 .*| . | **| . | 5 -0.062-0.193 .*| . | .|. | 6 -0.087 0.042 **| . | **| . | 7 -0.253-0.294 .*| . | . |*. | 8 -0.144 0.083 .*| . | .*| . | 9 -0.162-0.180 .*| . | . | . | 10 -0.070 0.058
Correlogramma di AR(1) con -0.7 = rho Sample: 1952 2000 Included observations: 49 AC PAC Autocorrelation Partial Correlatio ******| . | ******| . | 1 -0.723-0.723 . |**** | .|. | 2 0.532 0.018 ****| . | **| . | 3 -0.541-0.316 . |**** | . |*. | 4 0.569 0.161 ****| . | .*| . | 5 -0.544-0.099 . |**** | . |*. | 6 0.512 0.080 ****| . | .*| . | 7 -0.513-0.100 . |*** | .*| . | 8 0.423-0.161 ***| . | .|. | 9 -0.364-0.001 . |** | **| . | 10 0.278-0.238
10.2.4. Processo MA(1) Un processo stocastico f"t g denito a media mobile di ordine 1 (MA(1)) se evolve nel tempo come segue: "t = ut ut1 dove fut g un processo white noise. Il valore atteso e la varianza di "t sono: E("t ) = E(ut ) E(ut1 ) = 0 V ar ("t ) = V ar (ut ) + 2 V ar (ut1 ) = (1 + 2 ) 2 = 2 u "
184 capitolo 10 Come nei casi precedentemente illustrati, possibile calcolare le covarianze tra "t e gli altri elementi del processo stocastico: Cov ("t ; "t1 ) = E("t "t1 ) = E((ut ut1 ) (ut1 ut2 )) = 2 u Cov ("t ; "t2 ) = E("t "t2 ) = E((ut ut1 ) (ut2 ut3 )) = 0 ::: Cov ("t ; "ts ) = E("t "ts ) = E((ut ut1 ) (uts uts1 )) = 0 8s 2 Se i termini di errore del modello di regressione seguono un processo stocastico a media mobile di ordine 1, la matrice di varianza e covarianza pu essere scritta come segue: 0 1 0 ::: 0 1 + 2 B C 1 + 2 ::: 0 B C 2B 2 C V ar (") = u B 0 1 + ::: 0 C @ ::: ::: ::: ::: ::: A 0 0 0 ::: 1 + 2 dove i parametri da stimare sono ridotti a due: 2 e . Nellesempio seguente u il valore di ssato pari a 0:7:
4 2 0 -2 -4 -6 -8 -10 55 60 65 70 75 80 85 90 95 00 MA(1) theta = 0.7
Correlogramma di MA(1) con theta = Sample: 1952 2000 Included observations: 49 Autocorrelatio Partial Correlat AC PAC ***| . | ***| . | 1 -0.387 -0.387 .*| . | ***| . | 2 -0.15 -0.354 .*| . | ***| . | 3 -0.070 -0.384 . |** | . | . | 4 0.269 -0.014 **| . | **| . | 5 -0.222 -0.232 . |** | . |*. | 6 0.2100.143 **| . | **| . | 7 -0.268 0 -0.21 . |*. | . | . | 8 0.1890.018 .*| . | .*| . | 9 -0.098 -0.093 .|. | **| . | 10 0.008 -0.217
autocorrelazione 185 10.3. GLS con termini di errore AR(1)
Deniamo ora il seguente modello di regressione lineare generalizzato con termini di errore che seguono un processo stocastico di tipo AR(1): y = X + " con "t = "t1 + ut e 2 = " 2 u 1 2
Come visto in precedenza, la matrice di varianza e covarianza : 1 0 1 ::: T 1 2 B 1 ::: T 2 C u B C = 2 E(""0 ) = u ::: ::: ::: A 1 2 @ ::: T 1 T 2 ::: 1 1 0 1 bGLS = X0 1 X X y
Se il coeciente di (auto)correlazione noto, allora sia il vettore
La matrice 1 ammette la rappresentazione 1 = P0 P con
possono essere calcolati invertendo la matrice 0 1 0 B 1 + 2 B 1 = B 0 1 + 2 B @ ::: ::: ::: 0 0 0
sia la matrice di varianza e covarianza di bGLS 1 V ar(bGLS ) = 2 X0 1 X u : ::: 0 ::: 0 ::: 0 ::: ::: ::: 1 1 C C C C A
0 p 1 2 0 0 ::: 0 B 1 0 ::: 0 B B P =B 0 1 ::: 0 @ ::: ::: ::: ::: ::: 0 0 0 ::: 1
1 C C C C A
186 capitolo 10 Trasformazione delle variabili per la stima GLS. Il vettore della variabile dipendente, la matrice dei regressori ed il vettore dei termini di errore vengono ora premoltiplicati per la matrice P: 0 p 1 2 0 B 1 B Py = B 0 B @ ::: ::: 0 0 0 p 1 2 y1 B y2 y1 B B y3 y2 = B B ::: B @ yT 1 yT 2 yT yT 1 1 0 y1 y2 y3 ::: 1 C C C C C C A
0 0 1 ::: 0 1
::: 0 ::: 0 ::: 0 ::: ::: ::: 1
B CB CB CB CB AB @ yT 1 yT
C C C C = y C C A
0 p 10 x11 x12 x13 ::: 1 2 0 0 ::: 0 B C B x21 x22 x23 ::: 1 0 ::: 0 C B B PX = B 0 1 ::: 0 C B x31 x32 x33 ::: B CB @ ::: ::: ::: ::: ::: ::: ::: ::: A @ ::: xT 1 xT 2 xT 3 ::: 0 0 0 ::: 1 p p 0 p 1 2 x11 1 2 x12 1 2 x13 ::: B x21 x11 x22 x12 x23 x13 ::: B = B x31 x21 x32 x22 x33 x23 ::: B @ ::: ::: ::: ::: xT 1 xT 1;1 xT 2 xT 1;2 xT 3 xT 1;3 ::: 0 p 1 1 2 x1 B x2 x1 C B C = B x3 x2 C = X NB. denotiamo con xi la B C @ A ::: T xT 1 x
1 x1K x2K C C x3K C C ::: A xT K p 1 2 x1K x2K x1K x3K x2K ::: xT K xT 1;K
1 C C C C A
riga i-esima di X
Le variabili trasformate y e X sono denite dierenze parziali ( o quasi-
autocorrelazione 187 dierenze o pseudo-dierenze). Inne, per i termini di errore: 1 0 0 p 1 "1 2 1 0 0 ::: 0 B "2 C B C 1 0 ::: 0 C B B C B "3 C B C CB P" = B 0 1 ::: 0 C B C @ A B ::: C ::: ::: ::: ::: ::: @ "T 1 A 0 0 0 ::: 1 "T p p 0 1 1 0 1 2 "1 1 2 "1 B "2 "1 C C B u2 B C C B C = B "3 "2 C = " B u3 B C C B @ A A @ ::: ::: "T "T 1 uT Ora: 0
2 2 (1 p )"1 2 p1 "1 u2 1 2 "1 u3 p ::: 1 2 "1 uT
B B 0 B E " " = EB B @ 0
Il modello trasformato
2 0 0 u B 0 2 0 u B = B 0 0 2 u B @ ::: ::: ::: 0 0 0
::: ::: ::: ::: :::
p p 1 2 "1 u2 1 2 "1 u3 2 u2 u2 u3 u3 u2 u2 3 ::: ::: uT u2 uT u3 1 0 0 C C 0 C = 2 I u C ::: A 2 u
::: ::: ::: ::: :::
p 1 2 "1 uT u2 uT u3 uT ::: u2 T
1 C C C C C A
y = X + " presenta quindi errori non autocorrelati; gli stimatori GLS bGLS sono ricavabili da una semplice stima OLS del modello trasformato.
188 capitolo 10 10.4. FGLS con termini di errore AR(1)
Se la matrice non nota ma si assume che i termini di errore seguano un processo AR(1), per stimare il vettore b necessario stimare . I passi necessari sono i seguenti: (a) stimare il modello originale y = X + " con OLS al ne di ottenere il vettore dei residui stimati e; (b) calcolare il coeciente di (auto)correlazione campionario r: r= PT
t=2 PT
et et1
2 t=1 et
(d) stimare il modello trasformato
^ (c) calcolare la matrice 1 stimata, sostituendo a stima r: 0 1 0 ::: r B r 1 + r2 ::: r B ^ 1 = B 0 1 + r2 ::: r B @ ::: ::: ::: ::: 0 0 0 ::: y = X + "
la corrispondente 1 0 0 C C 0 C C ::: A 1
con OLS al ne di ottenere il vettore delle stime bF GLS , dove 1 0 p 1 r2 y1 C B y2 r y1 C B C B y3 r y2 C ^ y = Py = B C B ::: C B @ yT 1 r yT 2 A yT r yT 1 e 0 p 1 r 2 x1 B x2 r x1 B ^ X = P X = B x3 r x2 B @ ::: xT r xT 1 1 C C C C A
autocorrelazione 189 10.5. Test di autocorrelazione
Esistono numerosi test statistici costruiti con lobiettivo di vericare la presenza di autocorrelazione. Qui esaminiamo il classico test di Durbin-Watson (DW). Test di autocorrelazione di Durbin-Watson (per processi AR(1)). Lintuizione del test di utilizzare il vettore dei residui stimati e, ottenuto stimando il modello originario con il metodo OLS, per vericare se gli elementi di e seguono un processo autoregressivo del primo ordine. La statistica del test la seguente: PT 2 t=2 (et et1 ) DW = PT 2 t=1 et
Per comprenderne il signicato opportuno valutare la relazione fra la statistica DW e il coeciente di correlazione campionario r, dato da PT t=2 et et1 r = PT 2 t=1 et Sviluppando la formula di DW otteniamo: PT 2 PT 2 2 t=2 et 2 et et1 + et1 t=2 (et et1 ) DW = = PT PT 2 2 t=1 et t=1 et PT PT PT 2 2 t=2 et 2 t=2 et et1 + t=2 et1 = PT 2 t=1 et z }| { z }| { T T X X P e2 e2 2 T et et1 + e2 e2 t 1 t T t=2
t=1 PT
t=2
e2 t
PT
t=2
e2 t1
= 22
Conseguentemente, se r pari a zero, cio in assenza di (auto)correlazione campionaria, DW circa pari a 2, mentre se r pari a 1 (1), cio in presenza di perfetta (auto)correlazione positiva (negativa), DW circa pari a 0 (4).
e2 + e2 1 t=2 et et1 PT T2 ' 2 (1 r) PT e2 e t=1 t | {z } | t=1 t} {z

r '0
PT
PT
t=1
t=1
e2 t
190 capitolo 10 La statistica DW non ha una distribuzione standard. Durbin e Watson hanno comunque derivato dei valori critici inferiori (DWL ) e superiori (DWU ) tali che se DW esterno a tali valori possibile riutare lipotesi nulla di assenza di autocorrelazione del primo ordine ad un livello pressato di signicativit In dettaglio: se 0 DW < DWL se DWL DW DWU se DWU < DW < 4 DWU se 4 DWU DW 4 DWL se 4 DWL < DW 4 ) ) H0 riutata (evidenza di autoc. positiva) zona di indecisione H0 accettata zona di indecisione H0 riutata (evidenza di autoc. negativa)
) ) )
I valori critici dipendono inoltre dal numero di osservazioni (n) e dal numero di regressori (con lesclusione della costante) presenti nel modello. necessario ricordare che il test DW appropriato solo quando la matrice X non stocastica.
autocorrelazione 191 10.6. Autocorrelazione ed errata specicazione dinamica.
La presenza di autocorrelazione nei residui stimati (e) non sempre sintomo di autocorrelazione nei termini di errore (") del modello vero che ha generato i dati. Lautocorrelazione pu invece essere dovuta ad una errata specicazione dellequazione stimata. Consideriamo il seguente modello dinamico per la variabile dipendente yt : yt = 0 + 1 xt + 2 xt1 + 3 yt1 + "t con E("t "ts ) = 2 per s = 0 0 per s 6= 0
I termini di errore " non sono autocorrelati e hanno varianza costante. Supponiamo ora che il modello stimato per yt abbia la forma di una semplice relazione fra yt e xt , senza elementi dinamici (sono cio assenti i valori ritardati di un periodo delle due variabili). Viene anche formulata lipotesi che gli errori seguano un processo di tipo AR(1), con parametro . Il modello stimato quindi il seguente: yt = 0 + 1 xt + vt con vt = vt1 + ut
dove il termine ut ha varianza costante e non autocorrelato (white noise). Il modello stimato pu essere riespresso nel modo seguente: da yt1 = 0 + 1 xt1 + vt1 yt1 = 0 + 1 xt1 + vt1 ) yt yt1 = 0 0 + 1 xt 1 xt1 + vt vt1 | {z }
ut
ottenendo
In questa forma il modello stimato ha la stessa struttura dinamica del modello vero, ma con limposizione di una restrizione non lineare sui parametri (nota come: common factor restriction): 1 3 + 2 = 0
yt = 0 (1 ) + 1 xt 1 xt1 + yt1 + ut |{z} | {z } |{z} | {z }

0 1 2 3
192 capitolo 10 Solo se questa restrizione non riutata dai dati possibile ipotizzare che il modello appropriato da stimare rappresentato da una semplice relazione fra yt e xt con un processo AR(1) per lerrore. Altrimenti, la presenza di autocorrelazione dei residui stimati da questo modello deve essere interpretata come segno di errata specicazione dinamica (dynamic misspecication) del modello stesso (in questo caso dovuta allomissione di xt1 e yt1 dallinsieme dei regressori). Una procedura di stima corretta richiede quindi la stima di un modello generale dinamico e il test delle restrizioni common factor prima di procedere allanalisi dellautocorrelazione e ad eventuali trasformazioni delle variabili sulla base del parametro ottenuto. Esempio: Costruiamo le seguenti variabili per un campione di 50 osservazioni (considerando il periodo 1951-2000 e ipotizzando nullo il valore iniziale di y : y1951 = 0): xt N(10; 25) yt = 5 + 2 xt 0:5 xt1 + 0:7 yt1 + "t "t N(0; 16) Il modello dinamico che genera i dati per yt include il valore corrente di x e i valori ritardati di x e y, con il termine di errore " non autocorrelato. Le osservazioni di y generate per il campione 1952-2000 sono mostrate nel graco:
100 90 80 70 60 50 40 30 20 55 60 65 70 75 80 85 90 95 00
Serie y per ilcampione 1952-2000
autocorrelazione 193 Iniziamo dalla stima OLS del modello con dinamica correttamente specicata (cio includendo fra i regressori i valori ritardati di un periodo di x e y). Risultato:
Modello con corretta specificazione dinamica Dependent Variable: Y Method: Least Squares Sample: 1952 2000 Included observations: 49 t-Statistic Prob. Variable Coefficient Std. Error C 5.2734 2.2787 2.3142 0.0253 X 1.9322 0.1089 17.7446 0.0000 X(-1) -0.3393 0.1245 -2.7257 0.0091 Y(-1) 0.6827 0.0373 18.2826 0.0000 R-squared 0.9368 Mean dependent var 59.9438 Adjusted R -squared 0.9326 S.D. dependent var 14.2185 S.E. of regression 3.6923 Akaike info criterion 5.5285 5.6829 Sum squared resid 613.4746 Schwarz criterion 222.2691 Log likelihood -131.4473 F-statistic Durbin-Watson stat 2.3254 Prob(F -statistic) 0.0000
Come ci si aspetta, i residui stimati non mostrano segni di autocorrelazione, come si rileva dal correlogramma no al decimo ritardo:
100 80 60 12 8 4 0 -4 -8 55 60 65 70 75 80
Y
40 20
85
90
Y stimati
95
00
Residui
194 capitolo 10
Correlogramma dei residui modellocorrettamente specificato del Sample: 1952 2000 Included observations: 49 Autocorrelation Partial Correlation AC PAC Q-Stat .*| . | .*| . | 1 -0.165 -0.165 1.4254 .|. | .*| . | 2 -0.043 -0.072 1.5219 .|. | .|. | 3 0.051 0.033 1.6630 **| . | **| . | 4 -0.265 -0.262 5.5499 . |*. | .|. | 5 0.114 0.034 6.2916 .|. | .|. | 6 0.036 0.031 6.3676 **| . | **| . | 7 -0.209 -0.198 8.9632 . |*. | .|. | 8 0.175 0.059 10.831 . |*. | . |** | 9 0.136 0.216 11.993 **| . | .*| . | 10 -0.217 -0.185 15.004
Prob 0.233 0.467 0.645 0.235 0.279 0.383 0.255 0.211 0.214 0.132
Stimiamo ora un modello con errata specicazione dinamica, dal momento che omette i valori ritardati di x e y come regressori: yt = 0 + 1 xt + vt Risultati:
Modello con errata specificazione dinamica Dependent Variable: Y Method: Least Squares Sample: 1952 2000 Included observations: 49 t-Statistic Prob. Variable Coefficient Std. Error C 43.0361 3.4418 12.5038 0.0000 X 1.8174 0.3278 5.5446 0.0000 R-squared 0.3954 Mean dependent var 59.9438 Adjusted R -squared 0.3826 S.D. dependent var 14.2185 S.E. of regression 11.1723 Akaike info criterion 7.7047 7.7819 Sum squared resid 5866.5939 Schwarz criterion 30.7425 Log likelihood -186.7656 F-statistic Durbin-Watson stat 0.3753 Prob(F -statistic) 0.0000
autocorrelazione 195 Residui e correlogramma:

100 80 60 20 0 -20 -40 -60 55 60 65 70 75 80
Y
40 20
85
90
Y stimati
95
00
Residui
Correlogramma dei residui del modello con errata specificazione dinamica Sample: 1952 2000 Included observations: 49 Autocorrelation Partial Correlation AC PAC Q-Stat Prob . |***** | . |***** | 1 0.653 0.653 22.184 0.000 . |*** | .*| . | 2 0.357 -0.121 28.957 0.000 . |** | . |*. | 3 0.223 0.072 31.657 0.000 .|. | .*| . | 4 0.055 -0.169 31.826 0.000 .|. | .|. | 5 -0.045 -0.002 31.940 0.000 .|. | . |*. | 6 -0.018 0.081 31.958 0.000 .|. | .*| . | 7 -0.045 -0.087 32.080 0.000 .*| . | .|. | 8 -0.096 -0.051 32.638 0.000 .*| . | .*| . | 9 -0.116 -0.059 33.478 0.000 .*| . | .|. | 10 -0.144 -0.051 34.804 0.000
Stimiamo ora il modello con dinamica omessa e con errori AR(1). Interpretando i risultati dei test di autocorrelazione dei residui dalla stima del modello statico come evidenza di un processo AR(1) per gli errori, il modello stimato imponendo una struttura autoregressiva del primo ordine sul termine di errore (stimando il parametro autoregressivo ): yt = 0 + 1 xt + vt con vt = vt1 + ut
196 capitolo 10 Risultati:

Modello con dinamica omessa e errori AR(1) Dependent Variable: Y Method: Least Squares Sample: 1952 2000 Included observations: 49 t-Statistic Prob. Variable Coefficient Std. Error C 50.0804 2.8556 17.5377 0.0000 X 1.4493 0.1228 11.8001 0.0000 AR(1) 0.6932 0.0538 12.8832 0.0000 R-squared 0.8656 Mean dependent var 59.9438 Adjusted R -squared 0.8598 S.D. dependent var 14.2185 S.E. of regression 5.3245 Akaike info criterion 6.2418 6.3576 Sum squared resid 1304.1123 Schwarz criterion 148.1431 Log likelihood -149.9237 F-statistic Durbin-Watson stat 1.5738 Prob(F -statistic) 0.0000
Anche in questo caso il graco dei residui stimati e il correlogramma della serie non mostrano evidenti segni di autocorrelazione nei residui stimati:
100 80 60 12 8 4 0 -4 -8 -12 55 60 65 70 75 80
Y
40 20 0
85
90
Y stimati
95
00
Residui
Correlogramma dei residui del modello senza dinamica con errori AR Sample: 1952 2000 Included observations: 49 Autocorrelation Partial Correlation AC PAC Q-Stat Prob . |** | . |** | 1 0.210 0.210 2.2884 . |*. | . |*. | 2 0.140 0.100 3.3252 0.068 . |** | . |*. | 3 0.230 0.193 6.2025 0.045 .*| . | .*| . | 4 -0.058 -0.160 6.3861 0.094 . |*. | . |*. | 5 0.067 0.072 6.6386 0.156 .|. | .|. | 6 0.058 0.008 6.8354 0.233 .*| . | .*| . | 7 -0.087 -0.070 7.2808 0.296 .|. | .|. | 8 0.022 0.010 7.3116 0.397 .*| . | .*| . | 9 -0.066 -0.067 7.5819 0.475 .*| . | .|. | 10 -0.071 -0.008 7.9013 0.544
Da ultimo, procediamo al test della restrizione (common factor ) implicitamente imposta sul modello dinamico: 1 3 + 2 = 0 ottenendo il seguente risultato, da cui si conclude che tale restrizione deve essere riutata:
Wald Test: Null hypothesis: Test Statistic F-statistic beta(1)*beta(3)+beta(2)=0 Value df Probability 50.32 (1, 45) 0.00
Il test (correttamente) segnala che la restrizione implicitamente imposta sul modello dalla stima statica con errori AR(1) non pu essere applicabile ai dati utilizzati e favorisce la specicazione dinamica del modello (che sappiamo essere quella corretta).
198 capitolo 10 10.7. Eteroschedasticit di tipo ARCH
Un tipo particolare di eteroschedasticit riguarda le serie storiche, specialmente quelle nanziarie quali indici azionari, tassi di cambio, indici dei prezzi, caratterizzate dallalternarsi di periodi di maggiore e minore volatilit. Lo studio di queste serie ha portato alla formulazione di metodologie in grado di stimare congiuntamente la media e la varianza condizionale delle variabili economiche e nanziarie. Dato un semplice modello per yt del tipo yt = 0 + 1 yt1 + "t con j 1 j < 1
la media e la varianza condizionale di yt sono date da: E(yt j yt1 ; yt2; ::: ) = 0 + 1 yt1 h i var(yt j yt1 ; yt2; ::: ) = E (yt 0 1 yt1 )2 j yt1 ; yt2; ::: = E("2 j yt1 ; yt2; ::: ) = 2 t t dove si ipotizza che la varianza non sia costante nel tempo. Una specica ipotesi sul tipo di eteroschedasticit presente nei dati quella detta di autoregressive conditional heteroscedasticity (ARCH), secondo la quale la varianza dellerrore al tempo t dipende dalla grandezza degli errori vericatisi in uno o pi periodi passati. Formalmente, nel caso generale in cui gli errori di p periodi passati inuenzano la varianza condizionale in t, abbiamo la seguente relazione: 2 = 0 + 1 "2 + 2 "2 + ::: + p "2 t t1 t2 tp che descrive un processo autoregressivo di ordine p, ARCH(p), per la varianza condizionale di y. Considerando il caso pi semplice di un processo ARCH(1), notiamo che la relazione lineare fra 2 e "2 deriva dalla seguente denizione del termine t t1 di errore del modello: q "t = ut 0 + 1 "2 t1
dove ut un processo white noise con 2 = 1, ut e "t1 sono processi u stocastici indipendenti e 0 > 0, 0 < 1 < 1. Possiamo derivare le propriet statistiche del processo "t , iniziando da quelle non condizionali:
autocorrelazione 199 - media non condizionale: q 2 E("t ) = E ut 0 + 1 "t1 q 2 0 + 1 "t1 = 0 = E(ut ) E | {z }

0
dove si utilizzata lipotesi di indipendenza fra ut e "t1 . - autocovarianze non condizionali: q q 2 2 ut1 0 + 1 "t2 E("t "t1 ) = E ut 0 + 1 "t1 q q 2 u 2 0 + 1 "t1 t1 0 + 1 "t2 = 0 = E(ut ) E | {z }
0
e, pi in generale
E("t "ti ) = 0
8i 6= 0
- varianza non condizionale: " 2 # q 2 2 E("t ) = E ut 0 + 1 "t1 = E u2 0 + 1 "2 t t1 2 = E(u2 ) E 0 + 1 "2 t t1 = 0 + 1 E("t1 ) | {z }
1
e poich E("2 ) = E("2 ) otteniamo t t1
E("2 ) = t
0 1 1
Le propriet non condizionali del processo di errore "t non sono quindi inuenzate dalla particolare struttura ipotizzata: la media e le autocovarianze sono tutte nulle e la varianza costante nel tempo. Veniamo ora alle propriet condizionali : - media condizionale: q 2 E("t j "t1 ; "t2 ; ::: ) = E ut 0 + 1 "t1 j "t1 ; "t2 ; ::: q 2 0 + 1 "t1 = 0 = E(ut ) | {z }
0
200 capitolo 10 - varianza condizionale: " # 2 q ut 0 + 1 "2 E("2 j "t1 ; "t2 ; ::: ) = E j "t1 ; "t2 ; ::: t t1 2 = E(u2 ) 0 + 1 "2 t t1 = 0 + 1 "t1 | {z }
1
Quindi la varianza condizionale di "t non costante nel tempo ma dipende dal quadrato dellerrore vericatosi nel periodo precedente, "2 . Una reat1 lizzazione di "2 elevata al tempo t 1 determina un aumento della varianza dellerrore nel successivo periodo t. Pur essendo non autocorrelati (infatti E("t "ti ) = 0), gli errori " non sono indipendenti. Lautocorrelazione misura la dipendenza lineare fra gli errori in periodi diversi, mentre il processo ipotizzato lega le varianze degli errori (una forma non lineare di dipendenza). Esempio (dati simulati). Su un campione di 100 osservazioni (periodo 1901-2000) sono stati costruiti i seguenti processi stocastici: ut N(0; 1) q "t = ut 1 + 0:8 "2 t1 Inoltre, per valutare gli eetti di una struttura ARCH del termine di errore sullandamento di una variabile y che rappresenta il fenomeno economico che si vuole descrivere, sono state costruite le seguenti due serie per yt (ipotizzando y1901 = 0): yt = 0:2 yt1 + "t ; yt = 0:8 yt1 + "t
Entrambi sono processi AR(1) con il termine di errore che segue un processo ARCH(1), ma sono caratterizzati da diversi parametri che misurano il grado di autocorrelazione della serie: 0:2 e 0:8. Un coeciente su yt1 pi elevato amplica la persistenza nel tempo delleetto sulla volatilit di y dovuto allerrore ARCH.
15 10 5 0 -5 -10 -15 10 20 30 40 50 U 15 10 5 0 -5 -10 -15 10 20 30 40 50 60 70 80 90 00 Y (AR coeff. 0.2) 15 10 5 0 -5 -10 -15 10 20 30 40 50 60 70 80 90 00 Y (AR coeff. 0.8) 60 70 80 90 00 15 10 5 0 -5 -10 -15 10 20 30 40 50 E 60 70 80 90 00
202 capitolo 10 10.8. Esercizi
1. Considerate il seguente modello che descrive la vera relazione fra y e x nel tempo: yt = 0 + 1 xt + "t con V ar("t ) = 2 I. Le serie storiche a disposizione delleconometrico sono invece yt e x , denite come: t
yt = yt + yt1 x = xt + xt1 t
Nel tentativo di ottenere stime dei parametri 0 e 1 , viene stimato il modello: yt = 0 + 1 x + vt t (a) Ricavate la relazione fra i parametri 0 , 1 e 0 , 1 e fra i termini di errore "t e vt ; (b) individuate il tipo di processo stocastico seguito dai termini di errore del modello stimato vt e derivatene la matrice di varianze e covarianze. 2. La relazione fra due serie storiche xt e yt descritta dal modello vero yt = + 0 xt + "t dove "t white noise con E("2 ) = 2 e non correlato con xt . t " Inoltre, la variabile xt generata dal seguente processo stocastico autoregressivo AR(1), con parametro 0 < 1 < 1 : xt = 1 xt1 + vt
2 dove vt white noise con E(vt ) = 2 e E("t vt ) = 0. v
(a) Supponiamo che, al ne di descrivere la relazione fra x e y, si stimi un modello dinamico della forma yt = 0 + 1 xt1 + ut Interpretate i parametri del modello stimato e la varianza del termine di errore ut in funzione dei parametri dei modelli veri per xt e yt . (b) Quali sono le conseguenze sulle stime di 0 e 1 di una variazione nel tempo del parametro 1 e quale interpretazione economica suggeriscono riguardo alla relazione fra x e y?
Capitolo 11
Violazione dellassunzione di normalit
Dato il modello di regressione lineare y = X + " si dimostrato che il vettore degli stimatori b ha una distribuzione normale multivariata. Tale risultato stato ottenuto assumendo che il vettore dei termini di errore " abbia a sua volta una distribuzione normale multivariata (teorema del limite centrale). Dal momento che i test utilizzati per procedere allinferenza statistica (test t e test F ) sono fondati sullassunzione di normalit del vettore dei termini di errore, importante disporre di un test che consenta di vericare questa ipotesi utilizzando la controparte campionaria del vettore ", cio il vettore dei residui e. Misure di asimmetria e curtosi . Per analizzare la forma della distribuzione dei residui stimati - in particolare il suo grado di asimmetria e di appiattimento (curtosi) - vengono utilizzati il terzo ed il quarto momento intorno alla media. Per una generica variabile casuale X con media , tali momenti sono rispettivamente E(X )3 E(X )4
204 Per misurare il grado di asimmetria e di curtosi vengono utilizzate le seguenti misure (denotate con S - dallinglese skewness - e K- dallinglese kurtosis): E(X )3 3 E(X )4 K = 4 S = dove denota lo scarto quadratico medio della variabile (e ovviamente 2 denota il suo momento secondo dalla media, cio la varianza). Nel caso in cui la variabile X sia distribuita normalmente: S = 0 K = 3 Test di normalit Jarque-Bera (JB). Lintuizione del test semplice: se i dati osservati (nel nostro caso i residui stimati) sono generati da una distribuzione normale, allora sia S sia K 3 calcolati sui dati osservati dovrebbero essere prossimi a zero. Il test JB costruito come segue: 2 (K 3)2 S + JB = n 6 24 Sotto lipotesi nulla di normalit la statistica JB ha una distribuzione asintotica 2 con 2 gradi di libert. Pressato un livello di signicativit, se il valore della statistica JB eccede il valore critico della distribuzione, allora si riuta lipotesi nulla di distribuzione normale. Per implementare il test quindi necessario procedere prima al calcolo di S e K e successivamente al calcolo della statistica JB.
Capitolo 12
Variabili dummy
12.1.
Denizione
Alcune variabili esplicative possono aver natura qualitativa: sesso, localizzazione (centro-nord/sud), titolo di studio (diploma di scuola media inferiore, scuola media superiore, laurea). Leetto di queste variabili esplicative sulla variabile dipendente pu essere valutato nel contesto del modello di regressione attraverso lutilizzo di variabili dummy. Tipicamente una variabile dummy (D) assume valore 1 se si verica una condizione e 0 altrimenti. Esempi: D = 1 se un individuo maschio, D = 0 se femmina oppure D = 1 se unimpresa localizzata nel centro-nord, D = 0 se nel sud oppure D1 = 1 se un individuo ha un dipl. di scuola media sup., D1 = 0 se non lo ha; D2 = 1 se un individuo laureato, D2 = 0 se non lo .
206 capitolo 12 12.2. Variabili dummy additive
Si consideri il seguente modello composto da due equazioni, dove la prima si riferisce agli individui femmine (F ) e la seconda agli individui maschi (M): yi = F + 1 xi + "i 0 yi = M + 1 xi + "i 0 Le due equazioni possono essere combinate in una singola equazione valida per tutti gli individui: yi = F + ( M F ) Di + 1 xi + "i 0 0 0 dove Di una variabile dummy pari a 0 se lindividuo femmina e 1 se maschio. Supponendo che yi misuri lo stipendio e xi il numero di anni lavorativi, il coeciente ( M F ) quantica leetto del sesso sullo stipendio 0 0 a parit di anni lavorativi. Forma matriciale. Possiamo esprimere il modello con variabili dummy in forma matriciale come segue: F F F i 0 x " y F M = 0 + 0 + 1 + 0 i yM xM "M F F F i x " 0 y = F + + ( M F ) + 1 ) 0 0 0 yM xM "M i i ) y = F i + ( M F ) D + 1 x + " 0 0 0 0 i
con D =
Caso di tre modalit qualitative. Consideriamo ora il seguente modello composto da tre equazioni, dove la prima si riferisce agli individui che non hanno un diploma di scuola media superiore (I), la seconda agli individui che hanno un diploma di scuola media superiore ma non la laurea (S) e la terza agli individui laureati (L): yi = I + 1 xi + "i 0 yi = S + 1 xi + "i 0 yi = L + 1 xi + "i 0
variabili dummy 207 Le tre equazioni possono essere combinate in una singola equazione valida per tutte le osservazioni: yi = I + ( S I ) D1i + ( L I ) D2i + 1 xi + "i 0 0 0 0 0 con D1i = 1 per media super. 0 altrimenti D2i = 1 per laurea 0 altrimenti
Continuando a supporre che y misuri lo stipendio e x il numero di anni lavorativi, il coeciente ( S I ) misura leetto sullo stipendio del diploma 0 0 di scuola media superiore mentre il coeciente ( L I ) misura leetto della 0 0 laurea, sempre a parit di anni lavorativi. Test di ipotesi . La stima della regressione lineare con due variabili dummy yi = 0 + 1 D1i + 2 D2i + 1 xi + "i |{z} |{z} |{z}
I 0 S I 0 0 L I 0 0
fornisce stime per i parametri 0 , 1 e 2 , interpretabili nei termini dei parametri del modello originario. possibile a questo punto condurre dei test per sottoporre a verica ipotesi sui coecienti stimati. Ad esempio, supponiamo di voler vericare lipotesi che, a parit di anni lavorativi, la variazione di reddito dovuta al passaggio da un titolo di scuola media inferiore al diploma di scuola media superiore sia uguale alla variazione ottenibile dal passaggio alla laurea dal diploma di scuola media superiore. Formalmente, tale ipotesi pu essere espressa nei termini dei parametri originali come: H0 : L S = S I 0 0 0 0 oppure H0 : L I = 2( S I ) 0 0 0 0 H0 : 2 = 2 1 e nei termini dei parametri del modello applicato a tutte le osservazioni
Per procedere alla verica di tale ipotesi si stima il modello non ristretto, ricavandone la somma del quadrato dei residui (URSS, unrestricted residual sum of squares) yi = 0 + 1 D1i + 2 D2i + 1 xi + "i ) URSS
208 capitolo 12 Imponendo la restrizione 2 = 2 1 , il modello ristretto viene cos formulato: yi = 0 + 1 D1i + 2 1 D2i + 1 xi + "i yi = 0 + 1 (D1i + 2 D2i ) + 1 xi + "i {z } |
D3i
Si pu quindi stimare il seguente modello ristretto e ricavarne la relativa somma del quadrato dei residui (RRSS, restricted residual sum of squares): yi = 0 + 1 D3i + 1 xi + "i ) RRSS
con la (nuova) variabile dummy D3 = D1 + 2D2 denita nel modo seguente: 8 < 0 inferiore a sc. media sup. D3i = 1 scuola media superiore : 2 laurea
La verica dellipotesi H0 (che comporta una restrizione lineare sui parametri del modello originario) eettuata mediante la costruzione della seguente statistica F : RRSS URSS F = U RSS
n4
distribuita (sotto H0 ) come una F (1; n 4).
variabili dummy 209 12.3. Variabili dummy moltiplicative
Fino a questo punto abbiamo assunto che leetto del sesso, del titolo di studio, ecc. sia semplicemente additivo. Tuttavia, possibile che queste caratteristiche qualitative inuenzino anche la relazione esistente fra numero di anni lavorativi e stipendio. In questo caso: yi = F + F xi + "i 0 1 M yi = 0 + M xi + "i 1 da cui si deriva, utilizzando variabili dummy, lequazione generale applicabile a tutti gli individui: yi = F + ( M F ) Di + F xi + ( M F ) Di xi + "i 0 0 0 1 1 1 I coecienti ( M F ) e ( M F ) misurano rispettivamente leetto 0 0 1 1 del sesso sullo stipendio allinizio della vita lavorativa (quando cio x = 0) e leetto del sesso sullo stipendio per ogni anno aggiuntivo di lavoro. Ad esempio, ( M F ) > 0 e ( M F ) = 0 implica che gli uomini 0 0 1 1 ottengono una remunerazione pi elevata allingresso nel mercato del lavoro, ma che tale dierenziale rimane invariato nel corso della vita lavorativa degli individui. Forma matriciale. Possiamo esprimere il modello con variabili dummy moltiplicative in forma matriciale come segue: F F F i 0 x 0 " y F M F M = 0 + 0 + 1 + + 1 0 i xM yM 0 "M F i 0 y F M F = 0 + ( 0 0 ) + M i y i F F x " 0 F M F + ( 1 1 ) + + 1 xM "M xM F 0 F x F M F 1 +" ) y = 0 i + ( 0 0 ) D + xM xM M F 1 1 0 con D = i
210 capitolo 12 12.4. Variabili dummy e test di stabilit dei parametri.
Consideriamo il seguente modello non ristretto composto da due equazioni: yi = pre + pre xi + "i 0 1 yi = post + post xi + "i 0 1 dove la prima equazione si applica alle prime n1 osservazioni (periodo pre) e la seconda alle successive n2 osservazioni (periodo post). Utilizzando una variabile dummy D che assume valore 0 se losservazione si riferisce al periodo pre e valore 1 se si riferisce al periodo post, le due equazioni possono essere combinate come segue: yi = pre + ( post pre ) Di + pre xi + ( post pre ) Di xi + "i 0 0 0 1 1 1 Dal modello non ristretto possibile vericare lipotesi di stabilit nel tempo dei due parametri del modello (lintercetta 0 e la pendenza 1 ) sottoponendo a test la signicativit dei coecienti ( post pre ) e ( post pre ). Si 0 0 1 1 possono imporre le seguenti restrizioni, a cui corrisponde un diverso modello ristretto: (i) diverse intercette ma uguali pendenze, con modello ristretto: yi = pre + ( post pre ) Di + 1 xi + "i 0 0 0 (ii) diverse pendenze ma uguali intercette, con modello ristretto: yi = 0 + pre xi + ( post pre ) Di xi + "i 1 1 1 (iii) uguali pendenze ed uguali intercette, con modello ristretto: yi = 0 + 1 xi + "i
variabili dummy 211 12.5. Esercizi
1. Le osservazioni yi si riferiscono al reddito di un campione di individui composto da nM maschi e nF femmine. Il modello che viene stimato semplicemente yi = 0 + 1 di + "i dove di una variabile dummy costruita come segue: 0 per le femmine di = 1 per i maschi Il numero di individui nel campione n = nF + nM . (a) Ricavate gli stimatori OLS dei parametri 0 e 1 e interpretatene il signicato: (b) impostate il test appropriato per lipotesi nulla di uguaglianza fra il reddito medio dei maschi e quello delle femmine. 2. Supponiamo di essere interessati alla stima della relazione fra due variabili xt e yt nellarco del periodo t = 1; :::; T . Ipotizziamo anche che, allinterno del periodo in esame, si possano individuare tre sottoperiodi dierenti, caratterizzati da specici parametri e . I modelli relativi a ciascun sottoperiodo hanno la forma seguente (con lerrore " white noise in tutti i sottoperiodi): yt = 1 + 1 xt + "1 t yt = 2 + 2 xt + "2 t yt = 3 + 3 xt + "3 t per t = 1; :::; t1 per t = t1 + 1; :::; t2 per t = t2 + 1; :::; T
(a) Scrivete un modello unico (valido per t = 1; :::; T ) che incorpori le tre relazioni sopra ipotizzate, denendo le eventuali variabili dummy costruite e interpretando correttamente tutti i parametri del modello. (b) Spiegate come si pu procedere al test congiunto delle seguenti ipotesi: (i) leetto di xt su yt uguale nel primo e nel terzo sottoperiodo; (ii) il valore dellintercetta nel secondo sottoperiodo pari alla somma dei valori delle intercette nei rimanenti due periodi.
212
Capitolo 13
Modelli dinamici
13.1.
Introduzione
Un modello di regressione si dice dinamico quando sul lato destro dellequazione sono inclusi valori ritardati delle variabili indipendenti e/o della variabile dipendente. Possiamo distinguere due tipologie di modelli dinamici: (i) modello a ritardi distribuiti (con K nito): yt = + 0 xt + 1 xt1 + ::: + K xtK + "t (ii) modello autoregressivo: yt = + 0 xt + yt1 + "t per t = 1; 2; :::; T per t = 1; 2; :::; T
214 capitolo 13 13.2. Modelli a ritardi distribuiti
Dato il seguente modello dinamico a ritardi distribuiti yt = + 0 xt + 1 xt1 + ::: + K xtK + "t per t = 1; 2; :::; T
0 denito moltiplicatore di breve periodo (o moltiplicatore di impatto) e misura leetto sul valore atteso di yt di una variazione unitaria di x nello stesso periodo. Supponendo che dal periodo t + 1 in poi x rimanga costante al livello raggiunto nel periodo t, allora = 0 + 1 + ::: + K misura leetto sul valore atteso di yt+K di una variazione di x nel periodo t. denito moltiplicatore di lungo periodo (o moltiplicatore totale). Stima: procedura di Koyck. Per procedere alla stima del modello dinamico, si pu decidere a priori il numero dei ritardi oppure selezionarlo mediante una ricerca sequenziale. Il problema che si pu incontrare la multicollinearit delle variabili, con conseguenti problemi di ecienza delle stime. Una procedura che evita il problema (procedura di Koyck ) si basa su una ipotesi sui parametri del vettore da stimare . In particolare, con riferimento al modello dinamico a ritardi distribuiti visto sopra, per un numero innito di ritardi (k ! 1), assumiamo che i parametri k siano tutti dello stesso segno e declinino geometricamente secondo la relazione k = 0 k con 0 < < 1. La velocit di aggiustamento di y a variazioni nel valore di x data da 1 . Il modello a ritardi distribuiti pu quindi essere scritto come: yt = + 0 xt + 0 xt1 + 0 2 xt2 + ::: + "t Ritardando questa espressione di un periodo: yt1 = + 0 xt1 + 0 xt2 + 0 2 xt3 + ::: + "t1 e moltiplicandola per otteniamo yt1 = + 0 xt1 + 0 2 xt2 + 0 3 xt3 + ::: + "t1 Sottraendo otteniamo yt yt1 = (1 ) + 0 xt + "t "t1
modelli dinamici 215 e inne yt = (1 ) + 0 xt + yt1 + vt con vt = "t "t1 Il moltiplicatore di lungo periodo uguale a = Si pu osservare ora che: (a) data la struttura dei ritardi stato possibile riscrivere il modello a ritardi distribuiti come un modello autoregressivo, riducendo quindi i problemi di multicollinearit; (b) la variabile yt1 stocastica ( infatti funzione di "t1 ). Ci viola lassunzione che la matrice X sia una matrice di costanti. Se assumiamo che Cov (yt1 ; vt ) = 0 ancora possibile stimare il modello con OLS. Tuttavia: (c) assumendo che "t segua un processo stocastico white noise, il termine di errore vt nel modello autoregressivo segue un processo stocastico a media mobile del primo ordine MA(1). Ne segue che Cov (yt1 ; vt ) = Cov (yt1 ; "t "t1 ) = 2 6= 0 Si pu dimostrare che in questo caso lo stimatore OLS distorto e inconsistente.
1 X k=0
k =
0 1
216 capitolo 13 13.3. Fondamenti economici dei modelli dinamici (I): modello con aspettative adattive
Consideriamo il seguente modello economico, che descrive la relazione fra una variabile (dipendente) y e le aspettative su una variabile (indipendente) x: yt = + 0 x + "t t+1 dove x rappresenta laspettativa (degli agenti economici) formata al temt+1 po t sul valore che la variabile x assumer al tempo t+1. Notiamo che questa semplice relazione non ha alcun elemento dinamico (non sono presenti valori ritardati di y o di x ). Assumiamo che le aspettative si formino in modo adattivo, secondo la seguente relazione: x x = (xt x ) t+1 t t Le aspettative formate al tempo t (e quindi relative al periodo futuro t + 1) sono riviste in funzione dello scostamento (detto errore di previsione) tra il valore eettivamente realizzatosi della variabile al tempo t, xt , e le aspettative che si erano formate al tempo t1, x . Il parametro > 0 misura t di quanto gli agenti modicano le proprie aspettative sulla base degli errori di previsione compiuti. Possiamo riscrivere il meccanismo di formazione delle aspettative come segue: x = xt + (1 ) x t+1 t Sostituendo questultima equazione nel modello originario per y abbiamo: yt = + 0 [ xt + (1 ) x ] + "t t Ritardando di un periodo il modello originario otteniamo: yt1 = + 0 x + "t1 t e moltiplicando entrambi i membri dellultima equazione per (1 ): (1 ) yt1 = (1 ) + (1 ) 0 x + (1 ) "t1 t Inne, sottraendo, otteniamo: yt = + 0 xt + (1 ) yt1 + "t (1 ) "t1 che pu essere riscritto come yt = + 0 xt + (1 ) yt1 + vt con vt = "t (1 ) "t1
modelli dinamici 217 Si noti che da un modello economico (statico) con aspettative adattive si ottiene una relazione dinamica fra y e x di forma analoga a quella ottenuta partendo da un modello a ritardi distribuiti e utilizzando la procedura di Koyck. 13.4. Fondamenti economici dei modelli dinamici (II): modello con aggiustamento parziale
Consideriamo ora un modello economico che descrive la relazione fra un valore desiderato (o obiettivo) per la variabile y e il valore assunto da unaltra variabile x: yt = + 0 xt + "t
dove yt denota il livello desiderato di y per il tempo t (ad esempio, lo stock di capitale desiderato da unimpresa). Nuovamente notiamo che il modello non contiene originariamente alcun elemento dinamico. Come nel caso precedente erano le aspettative a non essere direttamente osservabili (e quindi a richiedere unipotesi sul loro meccanismo di formazione) cos in questo caso il valore desiderato y a non essere osservabile. Adottiamo la seguente ipotesi (detta di aggiustamento parziale o stock adjustment) per legare il valore eettivo (ed osservabile) di y con il suo valore desiderato (non osservabile):
y y = (y y ) |t {z t1 } | t {z t1} aggiustamento aggiustamento eettivo desiderato Tale relazione ipotizza che in ogni periodo t il valore eettivo di y vanga variato (aggiustamento eettivo, membro di sinistra dellequazione) in modo da colmare (almeno) parte della dierenza fra valore desiderato per il periodo yt e valore eettivo di partenza yt1 (aggiustamento desiderato, membro di destra dellequazione). Il parametro 0 < 1 misura la frazione dellaggiustamento desiderato che viene eettivamente compiuta in ogni periodo t. Questo meccanismo di aggiustamento pu essere equivalentemente riscritto nel modo seguente:
yt = yt + (1 ) yt1 Sostituendo dal modello originario lespressione per yt in quella per yt si ottiene: yt = + 0 xt + (1 ) yt1 + "t
218 capitolo 13 Questa equazione ora esprime una relazione dinamica fra x e il valore eettivo (ed osservabile) di y. Si osservi come lequazione abbia la stessa struttura ottenuta dal modello dinamico a ritardi distribuiti dopo lapplicazione della procedura di Koyck, con lunica dierenza che in questo caso il termine di errore non autocorrelato. 13.5. Modelli dinamici: cenno ai problemi di stima
Nelle sezioni precedenti sono state introdotte alcune semplici tipologie di modelli dinamici, che qui riportiamo chiamandole per brevit Koyck, aspettative adattive e aggiustamento parziale: yt = (1 ) + 0 xt + yt1 + ("t "t1 ) yt = + 0 xt + (1 )yt1 + ("t (1 )"t1 ) yt = + 0 xt + (1 ) yt1 + "t (Koyck) (Adatt.)
(Agg. parz.)
Tutti i modelli visti hanno una comune forma dinamica autoregressiva del tipo generale: yt = 0 + 1 xt + 2 yt1 + vt Nei primi due casi, inoltre, il termine di errore (non autocorrelato nel modello originario) presenta autocorrelazione di tipo MA(1). Si pone quindi il seguente problema per la stima del modello: inclusione di yt1 (elemento stocastico) fra i regressori in presenza di autocorrelazione nel termine di errore Dal momento che yt1 funzione di vt1 lassunzione che la matrice dei regressori X sia non stocastica violata. Anche in presenza di matrice X (anche solo parzialmente) stocastica, lo stimatore OLS continua ad essere consistente purch sia possibile assumere Cov(yt1 ; vt ) = 0. Tuttavia, tale assunzione non pu valere per i modelli in cui il termine di errore autocorrelato: in questo caso lo stimatore OLS distorto e inconsistente. In questo caso si pu utilizzare per la stima il metodo delle variabili strumentali (instrumental variables, IV), che produce stimatori consistenti
modelli dinamici 219 dei parametri. Lidea di utilizzare altre variabili (dette appunto strumentali) per trasformare il modello originario in modo da rimuovere la correlazione fra regressori e termine di errore e poter procedere alla stima mediante OLS. A titolo di esempio, consideriamo il seguente modello di regressione y = X +v
T 3
Per ipotesi, il regressore xt non correlato con il termine di errore vt mentre il regressore yt1 presenta tale correlazione e necessita di una variabile strumentale. Tale variabile deve possedere due propriet: (i) non deve essere correlata con il termine di errore vt , e (ii ) deve essere correlata con la variabile yt1 . Supponiamo di aver individuato nel valore ritardato di x, cio xt1 , tale variabile strumentale per cui valgono: Cov(xt1 ; vt ) = 0 e Cov(xt1 ; yt1 ) 6= 0 Costruiamo la seguente matrice (detta matrice di varibili strumentali, Z) che raccoglie i regressori del modello originario non correlati con il termine di errore vt (cio la costante e xt ) e, al posto di yt1 , la variabile strumentale xt1 . Tale matrice (di cui si assume rango pieno, pari nel nostro esempio a 3) risulta quindi costruita come
T 3
con i termini di errore nel vettore v autocorrelati (del primo ordine). In particolare consideriamo X = i x y1 e vt = "t "t1
Z = (i x x1 )
Possiamo ora procedere alla trasformazione del modello di partenza premoltiplicando entrambi i lati dellequazione per la matrice Z0 : Z0 y = Z0 X + Z0 v
) yz = Xz + vz Sul modello trasformato si procede poi alla stima mediante OLS, ricavando il vettore degli stimatori IV, che godono della propriet della consistenza: 1 0 Xz yz bIV = X0 Xz z 0 1 0 0 = X ZZ X X Z Z0 y 1 0 1 0 X Z = Z0 X X Z Z0 y 1 0 Z y = Z0 X
220 13.6. Test di autocorrelazione in modelli autoregressivi (del primo ordine)
Il test Durbin-Watson non pu essere applicato per vericare la presenza di autocorrelazione del primo ordine quando la matrice dei regressori X stocastica. In particolare, se la variabile dipendente ritardata inclusa fra i regressori, la statistica DW risulta distorta verso il valore 2 e quindi tende ad accettare troppo spesso lipotesi nulla di assenza di autocorrelazione. Nel caso di presenza di yt1 fra i regressori, Durbin ha proposto la seguente statistica: s T D=r 1 T V ar (g) dove T il numero delle osservazioni nel campione, r il coeciente di correlazione campionario dei residui ricavati dalla stima mediante OLS dellequazione, e g lo stimatore OLS del parametro associato alla variabile dipendente ritardata (, nella formulazione del modello autoregressivo proposta nellintroduzione). Se lipotesi nulla di assenza di autocorrelazione del primo ordine vera, la statistica D tende a distribuirsi asintoticamente come una normale standardizzata. Per eettuare il test di Durbin quindi necessario: (a) stimare il modello originale con OLS; (b) calcolare r, V ar(g) e la statistica D; (c) pressato un livello di signicativit, ad esempio 0,05, confrontare il valore di D con i corrispondenti valori critici della distribuzione normale standardizzata, che nellesempio risultano essere 1; 96 e 1; 96. Se lipotesi nulla vera Prob (1; 96 D 1; 96) = 0; 95 e se D cade in questo intervallo lipotesi di assenza di autocorrelazione non pu venire riutata dal test. Invece, se D > 1; 96 lipotesi nulla riutata e c evidenza di autocorrelazione positiva, mentre se D < 1; 96 lipotesi nulla riutata e c evidenza di autocorrelazione negativa.
Capitolo 14
Tavole
Le pagine seguenti contengono tavole con i valori critici di alcune distribuzioni ampiamente utilizzate in econometria per la costruzione di intervalli di condenza e per il test delle ipotesi (si veda il capitolo 2 per le distribuzioni normale, 2 , t ed F ; il capitolo 10 per la distribuzione Durbin-Watson).
222 capitolo 14 14.1. Distribuzione normale standardizzata
Esempio P r (0 Z 1; 96) = 0; 475 P r (Z > 1; 96) = 0; 5 0; 475 = 0; 025
tavole 223 14.2. Distribuzione 2
Esempio (per 20 gradi di libert) : a P r 2 > 10; 85 = 0; 95 P r 2 > 23; 83 = 0; 25 P r 2 > 31; 41 = 0; 05
224 capitolo 14 14.3. Distribuzione t
Esempio (per 20 gradi di libert) : a P r (t > 2; 086) = 0; 025 P r (t > 1; 725) = 0; 05 P r (jtj > 1; 725) = 0; 10
tavole 225 14.4. Distribuzione F
Esempio (N1 = 10 e N2 = 9) P r (F > 2; 42) = 0; 10 P r (F > 3; 14) = 0; 05 P r (F > 5; 26) = 0; 01
226 capitolo 14
tavole 227 14.5. Distribuzione Durbin-Watson
Valori critici inferiori e superiori per = 5%
228
Valori critici inferiori e superiori per = 1%

Appunti Econometria - 2006

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Appunti Econometria - 2006

Caricato da

Copyright:

Formati disponibili

Appunti di Econometria

c 2006 F.C. Bagliano-L. Benfratello-A. Sembenelli.

4.2. 4.3. 4.4. 4.5. 4.6.

5 123 126 128 131

normale standardizzata . 2 . . . . . . . . . . . . t . . . . . . . . . . . . . F . . . . . . . . . . . . . Durbin-Watson . . . . .

Natura e scopo delleconometria

Stime dei parametri: b0 ; b1 ; b2

Cenni di calcolo delle probabilit e di inferenza statistica

Esperimento casuale, spazio campionario, evento

probabilit e statistica inferenziale 15 2.2. Probabilit

probabilit e statistica inferenziale 17 2.3. Variabili casuali

20 capitolo 2 2.4. Distribuzioni di probabilit

probabilit e statistica inferenziale 21 E (aX + b) = aE (X) + b h i E (aX)2 = a2 E X 2

22 capitolo 2 V ar (X Y ) = V ar (X) + V ar (Y ) 2Cov(X; Y )

probabilit e statistica inferenziale 23

Distribuzioni simmetriche, left e right skewed

Distribuzioni meso, plati e leptocurtiche

e nel caso continuo

probabilit e statistica inferenziale 25 2.5. Distribuzioni teoriche di probabilit

68% 95% 99,7%

Area sottesa dalla curva normale

la media campionaria, con E(X n ) = 2 V ar(X n ) = n Al tendere di n allinnito Zn = Xn

dove il segno ! indica che la distribuzione (non nota) di Zn converge in

distribuzione ad una normale standardizzata.

Propriet della distribuzione 2

probabilit e statistica inferenziale 29

ha una distribuzione t di Student con k gradi di libert.

2 2k2 (k1 + k2 2) k1 (k2 2)2 (k2 4)

ed denita per k2 > 4.

(iii) La distribuzione F asimmetrica. Allaumentare di k1 e k2 la distribuzione F tende ad approssimare la distribuzione normale.

Funzione di densit di distribuzioni F con diversi gradi di libert

probabilit e statistica inferenziale 33 2.6. Inferenza statistica - Stimatori

Analogamente uno stimatore naturale (ma distorto) di 2 S2 =

n 1 P xi n i=1 n 1 P = (xi x)2 n i=1

Stimatori distorti e non distorti

Distribuzione di tre stimatori di

Trade-o tra distorsione e varianza

che pu essere riscritta come

1.0 0.8 0.6 0.4

La distribuzione di b al crescere della numerosit campionaria

probabilit e statistica inferenziale 41 2.8. Inferenza statistica - Test di ipotesi

probabilit e statistica inferenziale 43 2.9. Esercizi

(a) Calcolare la probabilit dellevento X = 2 \ Y = 3;

Calcolarne il valore atteso E(X), il momento secondo E(X 2 ) e la varianza V ar(X).

Modelli di Regressione Introduzione e concetti di base

Modelli di Regressione Regressione lineare bivariata

Metodo dei Minimi Quadrati Ordinari

Scriviamo il programma di minimizzazione Min

Le condizioni del primo ordine sono: @RSS X = 2 (yi b0 b1 xi ) = 0 @b0

La prima condizione del primo ordine pu essere riscritta come segue

@RSS X = 2xi (yi b0 b1 xi ) = 0 @b1

xi . Lespressione nale viene denita prima

(xi x) = (yi y)2 =

Sostituiamo ora la prima equazione normale nella seconda

xi yi nx y Sxy = b1 = i=1 n P 2 Sxx xi nx2

(yi y b1 (xi x))2 =

(xi x)2 2b1 Sxy Sxx

(yi y) (xi x) = Sxy Sxy = Sxx

b0 0 b0 0 =r = se (b ) 0 x2 1 x2 s2 n + Sxx Sxx b1 b1 1 = q 1 = 2 se (b1 ) s

Cov(xj ; "i ) = 0 per i; j = 1; 2; :::; n (con xj deterministiche)

regressione bivariata 55 Prova linearit. Lo stimatore a minimi quadrati di : xi yi X n = ci yi b = i=1 n P 2 i=1 xi

Quindi b uno stimatore non distorto del parametro .

Si consideri uno stimatore lineare alternativo ba =