Sei sulla pagina 1di 185

Lezioni di Econometria

Gianni Amisano
Febbraio 1999
2
Premessa
Queste note, che costituiscono il materiale di riferimento per gli studenti del corso
di econometria attivato presso la Facolt` a di Economia dellUniversit` a di Brescia,
sono il risultato della composizione di diverse fonti di riferimento.
Un elenco (purtroppo non esaustivo) di tali fonti deve necessariamente comin-
ciare con lottimo testo di Maddala (Maddala, 1992: Introductory Econometrics)
che a tuttoggi rappresenta uno dei migliori testi di econometria adatti per un pri-
mo corso. La trattazione di Maddala, carente sotto laspetto della rappresentazione
matriciale degli argomenti, ` e stato integrata facendo riferimento ad altre fonti. Ho
attinto largamente dallo splendido libro di W. Greene (Econometric Analysis, 3rd
edition, 1997), dove si trovano trattati ad un ottimo livello teorico una vastissima
gamma di tecniche econometriche. Le parti relative allanalisi delle serie stori-
che sono ispirate alla lettura del libro di J.D.Hamilton (Time Series Analysis,
Princeton University Press, 1994).
Queste note si articolano in diverse parti. La prima parte copre tutti gli argo-
menti fondamentali di un primo corso di econometria, mentre la seconda ` e una par-
te monograca che ricomprende alcuni argomenti particolari e pi ` u avanzati. Cia-
scun capitolo di queste note si chiude con un insieme di esercizi svolti che servono
ad aiutare gli studenti nella preparazione per lesame. Un aspetto complementare
della preparazione allesame ` e costituito dalla parallela attivit` a di esercitazione che
sar` a svolta in classe utilizzando i software applicativi Gauss e Microt disponi-
bili presso il laboratorio informatico della Facolt` a di Economia dellUniversit` a di
Brescia.
Gli studenti sono caldamente invitati a contattarmi ogni volta che abbiano pro-
blemi di comprensione o di ogni altro tipo. Sono contattabile presso il Diparti-
mento di Scienze Economiche dellUniversit` a di Brescia (via San Faustino 74B)
o tramite e-mail allindirizzo amisano@eco.unibs.it. Tutto il materiale
distribuito agli studenti sar` a depositato alla CLUB (corso Mameli) e disponibile
elettronicamente alla mia pagina web:
(http://www.eco.unibs.it/amisano/index.html)
Desidero ringraziare gli studenti del corso di econometria dellanno accademi-
co 1997/8 e anticipatamente quelli del corrente anno accademico, che mi hanno
segnalato e sicuramente mi segnaleranno molti tra i refusi sicuramente presenti in
queste note.
3
4
Indice
1 Modelli economici e modelli econometrici 9
1.1 Il signicato del termine econometria . . . . . . . . . . . . . . . 9
1.2 Forma usuale dei modelli econometrici . . . . . . . . . . . . . . . 10
1.3 Modelli econometrici . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Aspetti essenziali dellanalisi econometrica . . . . . . . . . . . . 12
2 Richiami matematici 13
2.1 Operatori sommatoria e produttoria . . . . . . . . . . . . . . . . . 13
2.2 Matrici e vettori . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Tipologia di matrici . . . . . . . . . . . . . . . . . . . . . 14
2.2.2 Operazioni matriciali . . . . . . . . . . . . . . . . . . . . 16
2.2.3 Vettori particolari . . . . . . . . . . . . . . . . . . . . . . 17
2.2.4 Traccia di una matrice quadrata . . . . . . . . . . . . . . 19
2.2.5 Matrici partizionate . . . . . . . . . . . . . . . . . . . . . 19
2.2.6 Il determinante di una matrice quadrata . . . . . . . . . . 19
2.2.7 La matrice aggiunta . . . . . . . . . . . . . . . . . . . . . 20
2.2.8 La matrice inversa . . . . . . . . . . . . . . . . . . . . . 20
2.2.9 Alcune propriet` a rilevanti . . . . . . . . . . . . . . . . . 21
2.2.10 Matrici idempotenti . . . . . . . . . . . . . . . . . . . . . 22
2.2.11 Spazio vettoriale . . . . . . . . . . . . . . . . . . . . . . 22
2.2.12 Base di uno spazio vettoriale . . . . . . . . . . . . . . . . 23
2.2.13 Sottospazio vettoriale . . . . . . . . . . . . . . . . . . . . 23
2.2.14 Rango di una matrice . . . . . . . . . . . . . . . . . . . . 24
2.2.15 Indipendenza lineare di vettori . . . . . . . . . . . . . . . 25
2.2.16 Autovalori e autovettori . . . . . . . . . . . . . . . . . . 25
2.2.17 Serie geometriche di matrici . . . . . . . . . . . . . . . . 27
2.2.18 Matrici denite, semidenite positive e negative . . . . . . 27
2.2.19 Prodotto di Kronecker (prodotto tensore) . . . . . . . . . 29
2.2.20 Loperatore vec . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Funzioni in pi ` u variabili . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.1 Derivate parziali prime e seconde . . . . . . . . . . . . . 31
2.3.2 Alcune semplici regole di derivazione per funzioni in pi ` u
variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5
6 INDICE
2.3.3 Ottimizzazione . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.4 Ottimizzazione vincolata . . . . . . . . . . . . . . . . . . 34
2.4 Esercizi su richiami di matematica . . . . . . . . . . . . . . . . . 36
2.5 Soluzioni agli esercizi . . . . . . . . . . . . . . . . . . . . . . . . 37
3 Richiami di inferenza statistica 43
3.1 Variabile casuale . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Distribuzione di probabilit` a . . . . . . . . . . . . . . . . . . . . . 43
3.3 Funzione di ripartizione . . . . . . . . . . . . . . . . . . . . . . . 44
3.4 Momenti di una variabile casuale . . . . . . . . . . . . . . . . . . 46
3.5 La distribuzione normale . . . . . . . . . . . . . . . . . . . . . . 47
3.6 Inferenza statistica parametrica . . . . . . . . . . . . . . . . . . . 48
3.7 Propriet` a degli stimatori . . . . . . . . . . . . . . . . . . . . . . 49
3.7.1 Non distorsione o correttezza . . . . . . . . . . . . . . . . 49
3.7.2 Efcienza . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.7.3 Consistenza . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.7.4 La legge dei grandi numeri (Versione pi ` u semplice) . . . . 51
3.7.5 Teorema centrale del limite . . . . . . . . . . . . . . . . . 52
3.8 Variabili casuali in pi ` u dimensioni . . . . . . . . . . . . . . . . . 53
3.8.1 La covarianza . . . . . . . . . . . . . . . . . . . . . . . . 54
3.9 Distribuzione normale multivariata . . . . . . . . . . . . . . . . . 55
3.10 Alcune distribuzioni notevoli . . . . . . . . . . . . . . . . . . . . 57
3.10.1 La distribuzione
2
. . . . . . . . . . . . . . . . . . . . . 57
3.10.2 La distribuzione t di Student . . . . . . . . . . . . . . . . 57
3.10.3 La distribuzione F di Fisher . . . . . . . . . . . . . . . . 59
3.11 La funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . 60
3.12 Stima di massima verosimiglianza . . . . . . . . . . . . . . . . . 62
3.13 Metodo dei momenti . . . . . . . . . . . . . . . . . . . . . . . . 62
3.14 Propriet` a degli stimatori ottenuti per campionamento da una distri-
buzione gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.15 Stima per intervallo . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.16 Prova delle ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.17 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.18 Soluzioni agli esercizi . . . . . . . . . . . . . . . . . . . . . . . . 72
4 Il modello di regressione lineare 81
4.1 Concetti fondamentali . . . . . . . . . . . . . . . . . . . . . . . . 81
4.1.1 Il ruolo del termine di disturbo e le sue propriet` a . . . . . 82
4.1.2 Ipotesi sui regressori . . . . . . . . . . . . . . . . . . . . 83
4.1.3 Rappresentazione matriciale del modello di regressione li-
neare . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.1.4 Ricapitolando . . . . . . . . . . . . . . . . . . . . . . . . 85
4.2 Stima dei parametri . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.2.1 Metodo dei momenti (MM) . . . . . . . . . . . . . . . . 86
INDICE 7
4.2.2 Metodo della massima verosimiglianza. . . . . . . . . . . 88
4.2.3 Metodo dei minimi quadrati (OLS=ordinary least squares) 90
4.2.4 Aspetti algebrici dello stimatore OLS . . . . . . . . . . . 93
4.2.5 Ricapitolazione sulla stima OLS dei parametri . . . . . 96
4.2.6 Interpretazioni alternative della stima OLS di un MRL . . 96
4.3 Stima del momento secondo (
2
) . . . . . . . . . . . . . . . . . . 100
4.4 Analisi della varianza . . . . . . . . . . . . . . . . . . . . . . . . 101
4.5 Regressione partizionata . . . . . . . . . . . . . . . . . . . . . . 102
4.6 Anticipazione su test congiunti . . . . . . . . . . . . . . . . . . . 103
4.7 Inferenza statistica sul modello di regressione . . . . . . . . . . . 104
4.7.1 Costruzione di intervalli di condenza . . . . . . . . . . . 104
4.7.2 Prova delle ipotesi . . . . . . . . . . . . . . . . . . . . . 106
4.7.3 Un utile esempio: il MRL con 3 regressori . . . . . . . . 109
4.7.4 Inferenza statistica nel modello di regressione multipla . . 112
4.7.5 Esempio di regressione multipla con k = 3 regressori . . . 114
4.8 La previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.9 Diversi modi di costruire Test: Test LR, di Wald, LM . . . . . . . 119
4.9.1 Il test LR . . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.9.2 Il test di Wald . . . . . . . . . . . . . . . . . . . . . . . . 121
4.9.3 Test LM (Lagrange Multipliers) (test dei moltiplicatori di
Lagrange) . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.9.4 Ricapitolazione sulle modalit` a di costruzione dei test . . . 126
4.10 Stima del modello soggetto a vincoli lineari sui parametri . . . . . 127
4.10.1 Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . 129
4.11 Effetti dellomissione di variabili rilevanti . . . . . . . . . . . . . 131
4.12 Effetti dellinclusione di variabili irrilevanti . . . . . . . . . . . . 134
4.13 Gradi di libert` a e indice R
2
. . . . . . . . . . . . . . . . . . . . . 136
4.13.1 Relazione tra test di signicativit` a t, test F e indice

R
2
. . 137
4.14 Test di stabilit` a del MRL . . . . . . . . . . . . . . . . . . . . . . 138
4.14.1 Test basati sullanalisi della varianza . . . . . . . . . . . . 138
4.14.2 Test previsivo di stabilit` a . . . . . . . . . . . . . . . . . . 139
4.14.3 Alcuni commenti ai test di stabilit` a strutturale . . . . . . . 140
4.15 Eserciziario sulla regressione lineare . . . . . . . . . . . . . . . . 141
4.15.1 Esercizio 1 . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.15.2 Esercizio 2 . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.15.3 Esercizio 3 . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.15.4 Esercizio 4 . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.15.5 Esercizio 5 . . . . . . . . . . . . . . . . . . . . . . . . . 143
4.15.6 Esercizio 6 . . . . . . . . . . . . . . . . . . . . . . . . . 143
4.16 Soluzioni agli esercizi . . . . . . . . . . . . . . . . . . . . . . . . 143
4.16.1 Esercizio 1 . . . . . . . . . . . . . . . . . . . . . . . . . 143
4.16.2 Esercizio 2 . . . . . . . . . . . . . . . . . . . . . . . . . 145
4.16.3 Esercizio 3 . . . . . . . . . . . . . . . . . . . . . . . . . 145
4.16.4 Esercizio 4 . . . . . . . . . . . . . . . . . . . . . . . . . 147
8 INDICE
4.16.5 Esercizio 5 . . . . . . . . . . . . . . . . . . . . . . . . . 149
4.16.6 Esercizio 6 . . . . . . . . . . . . . . . . . . . . . . . . . 150
5 Variabili di comodo e variabili troncate 153
5.1 Variabili di comodo come variabili esplicative . . . . . . . . . . . 153
5.1.1 Variabili di comodo a correzione di intercetta . . . . . . . 153
5.1.2 Variabili dummy a correzione di intercetta per trattare dati
con stagionalit` a . . . . . . . . . . . . . . . . . . . . . . . 155
5.1.3 Variabili dummy a correzione di intercetta per outliers . 156
5.1.4 Variabili dummy a correzione di intercetta e di pendenza . 157
5.1.5 Variabili dummy per provare lipotesi di stabilit` a dei coef-
cienti di regressione . . . . . . . . . . . . . . . . . . . . 158
5.1.6 Test di Chow del secondo tipo (o test di validit` a previsiva) 159
5.2 Variabili dummy come variabili dipendenti . . . . . . . . . . . . . 160
5.2.1 Modello di probabilit` a lineare . . . . . . . . . . . . . . . 161
5.2.2 Alcune anticipazioni sulla stima di modelli con disturbi
eteroschedastici . . . . . . . . . . . . . . . . . . . . . . . 162
5.2.3 Stima del modello di probabilit` a lineare . . . . . . . . . . 164
5.2.4 Modelli probit e logit . . . . . . . . . . . . . . . . . . . . 165
5.2.5 Modello Probit . . . . . . . . . . . . . . . . . . . . . . . 169
5.2.6 Effetti di variazioni delle variabili esplicative . . . . . . . 170
5.2.7 Indici di bont` a di adattamento del modello . . . . . . . . . 171
5.3 Il modello Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
5.5 Soluzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
Capitolo 1
Modelli economici e modelli
econometrici
1.1 Il signicato del termine econometria
Il termine econometria signica letteralmente misurazione in economia. Con il
termine econometria ci si riferisce ad una disciplina scientica basata sullapplica-
zione di metodi statistici e matematici per lanalisi di dati economici con lintento
di dare riscontro empirico alle teorie economiche.
Nel 1933 viene pubblicato il primo numero della rivista scientica Econometri-
ca , fondata dalla Econometric Society. Nel primo numero della rivista leditoriale
stabiliva:
obiettivo della Econometric Society ` e la promozione di studi che
unichino gli aspetti teorico-quantitativo e empirico quantitativo e che
siano caratterizzato dal modo di pensare rigoroso proprio delle scienze
naturali.
Leconometria quindi si compone dellunione di matematica, statistica, teoria
economica e di aspetti computazionali per i quali ` e stato sicuramente rilevante
lenorme sviluppo delle capacit` a di calcolo degli elaboratori elettronici avvenuto
negli ultimi venti anni.
Leconometria si basa sullo studio formalizzato di modelli economici. Per mo-
dello economico intendiamo una rappresentazione schematizzata della realt` a di un
fenomeno economico, quali ad esempio il comportamento individuale o collettivo
dei consumatori, lofferta di lavoro, le modalit` a operative delle autorit` a di politica
monetaria.
Generalmente, un modello economico fornisce una rappresentazione sempli-
cata della realt` a che intende spiegare. La semplicit` a del modello ` e funzionale a
consentire di comunicare facilmente i risultati ottenuti dallanalisi del modello. La
semplicit` a del modello deriva dalladozione di ipotesi di partenza semplicatrici,
nalizzate ad astrarre da quegli aspetti della realt` a osservata che non sono rilevanti
9
10 CAPITOLO 1. MODELLI ECONOMICI E MODELLI ECONOMETRICI
per il fenomeno che si intende studiare. In sintesi, per modello economico si inten-
de un insieme di assunzioni nalizzate alla descrizione di un particolare fenomeno
economico.
Negli ultimi decenni la teoria economica ha assunto aspetti di crescente forma-
lizzazione. Molto spesso i modelli economici prendono la forma di equazioni che
connettono misurazioni dei fenomeni che si intendono spiegare (ad esempio la di-
soccupazione, il consumo aggregato, i protti di un settore industriale . . . ) ai valori
assunti da una serie di variabili che si intendono misurare le cause del fenomeno
oggetto di indagine. Quando il modello economico prende la forma di relazioni
matematiche, ` e possibile utilizzare i dati disponibili sul fenomeno studiato per ve-
ricare la rispondenza del modello stesso alla realt` a osservata. La verica empirica
(sulla base dei dati disponibili) della validit` a dei modelli economici costituisce uno
degli scopi fondamentali dellanalisi econometrica.
1.2 Forma usuale dei modelli econometrici
In generale, un modello econometrico assume la forma:
y
t
= f (x
t
) +
t
, t = 1, 2, . . . , T,
dove y
t
` e un vettore (n 1) di variabili che il modello intende spiegare (variabili
endogene) che si riferiscono allosservazione t-esima del campione in esame, f ` e
una funzione che fa dipendere y
t
da un vettore (k 1) di variabili esogene x
t
(variabili esplicative), e
t
rappresenta un vettore (n 1) di termini di disturbo
casuali. La componente f (x
t
) viene detta parte sistematica del modello, mentre la
componente
t
inviene indicata come parte stocastica (o casuale) del modello.
Il pi ` u semplice esempio di modello econometrico ` e il seguente, dove y
t
, x
t
e
t
sono tutte grandezze scalari:
y
t
= +x
t
+
t
, t = 1, 2, . . . , T.
Tale modello viene detto modello di regressione lineare semplice: la variabile di-
pendente y
t
viene fatta dipendere in modo lineare da ulla grandezza esplicativa x
t
ed ` e inuenzata dalla variabile casuale
t
.
La presenza della componente stocastica implica che il modello debba essere
trattato con tecniche inferenziali. Laspetto fondamentale ` e quello della stima, cio` e
dellutilizzazione di un campione di dati osservabili sulle variabili y
t
e x
t
per de-
terminare quale sia la congurazione della parte sistematica del modello meglio in
grado di spiegare il comportamento campionario delle variabili endogene.
Accanto allo scopo di verica empirica dei modelli economici, leconometria si
rivolge tradizionalmente anche alla produzione di modelli previsivi utilizzati da di-
verse istituzioni. Gli intermediari nanziari, e pi` u in generale ogni impresa produt-
tiva in grado di dedicare risorse alla programmazione delle proprie attivit` a future
trova naturalmente utile disporre di scenari sul valore futuro delle variabili econo-
miche che inuiscono sullandamento dei costi e dei ricavi. Accanto alle istituzioni
1.3. MODELLI ECONOMETRICI 11
private, anche le autorit` a di politica economica (governi e banche centrali) e le isti-
tuzioni di coordinamento internazionale (Fondo Monetario Internazionale, Banca
Mondiale ecc. . . ) necessitano di disporre di previsioni afdabili sullandamento di
grandezze economiche di rilievo nazionale o internazionale (cambi, prezzi, entrate
ed uscite del settore pubblico). Tali previsioni possono essere fondate sullutilizzo
di modelli econometrici adattati ai dati osservati per i fenomeni di interesse.
1.3 Modelli econometrici
Per modello econometrico intendiamo:
un insieme di equazioni comportamentali che collegano tra loro pi ` u variabili
economiche e una struttura di componenti casuali, detti termini di disturbo;
un insieme di affermazioni relative alla qualit` a dei dati utilizzati per la stima
del modello: per esempio la presenza o la rilevanza di errori di misurazione
nelle variabili utilizzate;
la specicazione della distribuzione di probabilit` a dei disturbi e degli errori
di misurazione nelle variabili utilizzate.
Ad esempio, il famoso modello di M. Friedman del comportamento dei consu-
matori basato sul reddito permanente pu` o essere formalizzato nel modo seguente:
c
i
= y

i
+
i
y

i
= y
i
+
i
p(
i
) N(0,
2

)
p(
i
) N(0,
2

)
In questo esempio la spesa per consumo individuale dellindividuo i-esimo (c
i
) vie-
ne ipotizzata proporzionale al reddito permanente di tale individuo (y

i
). Inoltre si
ipotizza che le decisioni di consumo individuali siano inuenzata da un termine di
disturbo
i
che rappresenta le caratteristiche individuali non esplicitamente misu-
rabili dellindividuo i-esimo. Il reddito permanente dellindividuo i-esimo y

i
non ` e
osservabile e differisce dal suo livello di reddito corrente (y
i
) per via di un termine
casuale
i
che costituisce necessariamente lerrore di misurazione quando si in-
tenda spiegare il comportamento di consumo sulla base del reddito osservabile.Si
ipotizza che i termini di disturbo
i
e gli errori di misurazione
i
siano variabili
casuali distribuite secondo una legge di distribuzione gaussiana (o Normale). Il
simbolo indica si distribuisce come.
Un altro esempio ` e dato dalla funzione di domanda di un determinato bene:
q
d
t
= + p
t
+u
t
u
t
N(0,
2
u
)
12 CAPITOLO 1. MODELLI ECONOMICI E MODELLI ECONOMETRICI
In questo esempio, la quantit` a domandata del bene allistante t-esimo (q
d
t
) viene
ipotizzata dipendere linearmente dal prezzo del bene allo stesso istante (p
t
). Inoltre
si ipotizza che la domanda sia inuenzata da un termine di disturbo u
t
distribuito
normalmente.
Nei modelli econometrici i termini di disturbo sono variabili inosservabili che
descrivono leffetto sulla varibile dipendente di tutto quello che non pu` o essere
ricompreso nella parte sistematica del modello.
1.4 Aspetti essenziali dellanalisi econometrica
Le fasi dellanalisi econometrica sono le seguenti.
1. Formulare un modello in forma empiricamente vericabile attraverso la scel-
ta di alcuni aspetti fondamentali quali:
forma funzionale della relazione. A questo proposito, nella maggior
parte delle applicazioni econometriche si ` e soliti ricorrere ad una for-
ma funzionale di tipo lineare. Tale scelta risponde essenzialmente alla
necessit` a di rendere pi ` u semplici gli aspetti computazionali.
Variabili da inserire: si tratta di denire linsieme di variabili esplicati-
ve (dette regressori) contenute nel vettore x
t
.
Struttura probabilistica dei disturbi. Nellanalisi econometrica tradi-
zionale ` e consuetamente utilizzata lipotesi di distribuzione normale
dei termini di disturbo.
2. Stima del modello. I dati disponibili vengono utilizzati per generare stime
del modello econometrico. Nella maggior parte dei casi, la stima si concreta
nellottenimento di valori per i parametri del modello.
3. Uso del modello: il modello viene utilizzato per vericare la validit` a di teorie
economiche, per produrre previsioni, per svolgere simulazioni di politica
economica, cio` e per simulare gli effetti di manovre di politiche economiche
alternative.
Capitolo 2
Richiami matematici
In questo capitolo esponiamo gli elementi di algebra matriciale e di matematica che
sono necessari allanalisi econometrica oggetto degli argomenti trattati nel corso.
Gli argomenti sono raggruppati per omogeneit` a e sono trattati al livello di formaliz-
zazione richiesto dalla loro successiva utilizzazione. Gli studenti sono caldamente
invitati a svolgere molti esercizi per impratichirsi con le operazioni matriciali.
2.1 Operatori sommatoria e produttoria
Loperatore sommatoria ` e indicato con il simbolo

e serve ad indicare operazioni


di somma in modo compatto. Loperatore sommatoria ` e accompagnato da una
coppia di indici che determinano linsieme degli addendi. Ad esempio:
n

i=1
a
i
= a
1
+a
2
+. . . +a
n
Loperatore produttoria ` e indicato con il simbolo

e serve ad indicare ope-
razioni di prodotto in modo compatto. Loperatore produttoria ` e accompagnato da
una coppia di indici che determinano linsieme dei fattori. Ad esempio:
n

i=1
a
i
= a
1
a
2
. . . a
n
Le propriet` a di questi operatori sono intuitive e facilmente vericabili.
2.2 Matrici e vettori
In questa sezione vengono descritti alcuni elementi fondamentali dellalgebra delle
matrici necessari per la trattazione degli argomenti ricompresi allinterno del corso.
Per matrice si intende un insieme di numeri ordinati su m 1 righe e n 1
colonne. Per indicare una matrice si utilizza la notazione:
13
14 CAPITOLO 2. RICHIAMI MATEMATICI
A
(mn)
= a
ij
=
_

_
a
11
a
12
. . . a
1n
a
21
a
22
. . . a
2n
. . . . . . . . . . . .
a
n1
a
n2
. . . a
nn
_

_
Si noti che gli elementi della matrice A sono caratterizzati da due indici, il
primo dei quali identica la riga ed il secondo identica la colonna di appartenza.
Ad esempio, lelemento sulla quarta riga, sesta colonna ` e indicato con a
46
. Una
matrice si dice di ordini m e n quando ha m righe e n colonne.
Per vettore si indica una matrice particolare caratterizzata dallavere una sola
riga (vettore riga) o una sola colonna (vettore colonna ). Ad esempio:
a
(41)
=
_

_
1
2
4
7
_

_
,
b
(15)
=
_
4 3 2 5 7

2.2.1 Tipologia di matrici
Una matrice (n n) si dice quadrata di ordine n quando il numero di righe ` e pari
al numero delle sue colonne.
Una matrice quadrata A(n n) si dice simmetrica quando:
a
ij
= a
ji
, i, j
Ad esempio la matrice:
A
(33)
=
_
_
1 2 4
2 5 7
4 7 4
_
_
` e simmetrica, mentre la matrice
A
(33)
=
_
_
1 2 5
2 5 7
4 7 4
_
_
non lo ` e (confrontate gli elementi a
13
e a
31
).
Una matrice quadrata A, di dimensione (n n) si dice diagonale quando:
A = a
ij
, a
ij
= 0, i ,= j.
Ad esempio, la matrice
2.2. MATRICI E VETTORI 15
A =
_
_
2 0 0
0 4 0
0 0 7
_
_
` e chiaramente diagonale.
Una matrice quadrata A, di dimensione (n n) si dice triangolare inferiore
quando:
A = a
ij
, a
ij
= 0, i < j.
Ad esempio, la matrice
A =
_

_
3 0 0 0
4 7 0 0
5 5 2 0
8 5 6 4
_

_
` e triangolare inferiore.
Una matrice quadrata A, di dimensione (n n) si dice triangolare superiore
quando:
A = a
ij
, a
ij
= 0, i > j.
Ad esempio, la matrice
A =
_

_
3 4 5 8
0 7 3 3
0 0 2 6
0 0 0 4
_

_
` e triangolare superiore.
Una matrice quadrata A, di dimensione (n n) si dice matrice identit` a e si
indica I
n
se:
A = a
ij
,
a
ij
= 0, i ,= j,
a
ii
= 1, i.
Ad esempio:
I
4
=
_

_
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
_

_
.
Data una matrice Adi dimensioni (nm), la matrice B, di dimensione (mn)
si dice trasposta di A, e si indica con il simbolo A

ed ` e denita come:
16 CAPITOLO 2. RICHIAMI MATEMATICI
B = A

= b
ij
, b
ij
= a
ji
, , i, j.
La matrice A

viene quindi ottenuta trasformando le colonne di Ain righe di A

.
Ad esempio:
A =
_
1 2
4 3
_
, A

=
_
1 4
2 3
_
.
2.2.2 Operazioni matriciali
Somma e differenza tra matrici
Date due matrici A e B, entrambe di dimensioni (m n), ` e possibile denire la
matrice (mn) C, denita comme somma di Ae B:
C = A+B = c
ij
,
c
ij
= a
ij
+b
ij
, i, j.
Nello stesso modo si denisce la differenza tra due matrici A e B, entrambe di
dimensioni (mn), la matrice (mn) C:
C = AB = c
ij
,
c
ij
= a
ij
b
ij
, i, j.
Prodotto
Dati due vettori (n 1) a e b, si denisce prodotto interno tra tali vettori la
grandezza scalare:
a

b = b

a =
n

i=1
(a
i
b
i
) .
Date le matrici A, di dimensioni (mn) e B, di dimensioni (np), il prodotto
matriciale tra Ae B ` e la matrice C, di dimensione (mp)denita come:
C = A B = c
ij
,
c
ij
=
n

k=1
a
ik
b
kj
, i = 1, 2, . . . m, j = 1, 2, . . . , p.
In altri termini C ` e una matrice il cui elemento generico c
ij
` e dato dal prodotto
interno tra la i-esima riga di Ae la j-esima colonna di B. Ad esempio:
2.2. MATRICI E VETTORI 17
_
1 3 6
2 3 4
_

_
_
1 0
1 1
0 3
_
_
=
_
4 21
5 15
_
.
Si noti che loperazione di prodotto matriciale non ` e denita per qualsiasi cop-
pia di matrici A e B, ma tali matrici debbono vericare la condizione di confor-
mabilit` a per il prodotto: il numero di colonne del primo fattore Adeve essere pari
al numero di righe del secondo fattore B.
Si noti che ovviamente, A B in generale ` e diverso da B A: in generale
quando il prodotto A B ` e possibile non ` e neppure detto che B Alo sia.
Il prodotto e la somma matriciale hanno le seguenti propriet` a:
1. Propriet` a distributiva: se A ` e una matrice (m n) e B e C sono matrici
(n q):
A(B+C) = A B+A C.
2. Propriet` a associativa: date le matrici A, B, C di dimensioni opportune, si
ha:
(A+B) +C = A+ (B+C),
(A B) C = A (B C)
Moltiplicazione per una grandezza scalare
Data la matrice (mn) Ae la grandezza scalare c, ` e possibile denire la matrice
C, di dimensioni (mn) derivante dal prodotto scalare di c per A:
C = c A = Ac = c
ij
, c
ij
= c a
ij
, i = 1, 2, . . . , m, , j = 1, 2, . . . n.
2.2.3 Vettori particolari
Il vettore somma
Si denisca il vettore somma di dimensione (n 1):
i
n
=
_

_
1
1
. . .
1
_

_
Tale vettore se post-moltiplica una matrice A di dimensione (m n) genera
un vettore c (m 1) che contiene le somme degli elementi sulle singole righe di
A:
A i
n
= c = c
i
, c
i
=
n

j=1
a
ij
, i = 1, 2, . . . , m.
18 CAPITOLO 2. RICHIAMI MATEMATICI
Ad esempio:
_
1 2 1 4
3 6 1 0
_

_
1
1
1
1
_

_
=
_
8
10
_
.
Il vettore somma di dimensione (m 1), se trasposto e utilizzato a premolti-
plicare una matrice A di dimensione (mn), genera un vettore c

, di dimensione
(1 n) che contiene le somme degli elementi sulle singole colonne di A:
i

n
A = c

= c
j
, c
j
=
n

i=1
a
ij
, j = 1, 2, . . . , n.
Il vettore estrazione
Il vettore estrazione u
i
n
, di dimensione (n 1), ` e denito come un vettore di ele-
menti tutti pari a zero tranne lelemento i-esimo che ` e pari a uno. In altri termini ` e
la colonna i-esima della matrice I
n
:
u
i
n
=
_

_
0
0
. . .
1
. . .
0
_

_
i-esimo elemento
Il vettore estrazione u
i
n
, se utilizzato per post-moltiplicare una matrice A di
dimensione (m n) genera un vettore c di dimensione (n 1) che coincide con
la i-esima colonna di A. Ad esempio:
A u
3
4
=
_
1 2 1 4
3 6 1 0
_

_
0
0
1
0
_

_
=
_
1
1
_
.
Se invece il vettore estrazione u
i
m
viene trasposto e utilizzato per pre-moltiplicare
una matrice Adi dimensione (mn) genera un vettore di dimensione (1n) che
coincide con la i-esima riga di A. Ad esempio:
_
0 0 1

_
_
1 0 5 6
2 0 4 3
4 5 5 4
_
_
=
_
4 5 5 4

.
2.2. MATRICI E VETTORI 19
2.2.4 Traccia di una matrice quadrata
Sia data una matrice quadrata A di dimensione (n n). Si denice traccia di A
(indicata come tr(A)) la somma degli elementi diagonali di A:
tr(A) =
n

i=1
a
ii
.
Le propriet` a delloperatore traccia sono le seguenti:
tr(A B) = tr(B A),
tr(A B C) = tr(C A B) = tr(B C A),
(invarianza rispetto a permutazioni cicliche),
tr( A) = tr(A), dove ` e una grandezza scalare.
2.2.5 Matrici partizionate
Data la matrice A, di dimensione (mn), ` e possibile partizionare tale matrice in
diversi blocchi. Ad esempio:
A =
_

_
A
11
(m
1
n
1
)
A
12
(m
1
n
2
)
A
21
(m
2
n
1
)
A
22
(m
2
n
2
)
_

_
, m = m
1
+m
2
, n = n
1
+n
2
In caso di prodotto matriciale tra matrici conformabili per il prodotto allinterno
delle quali siano stati deniti blocchi conformabili per prodotto, si pu` o ricavare:
A
(mn)
B
(np)
=
_

_
A
11
(m
1
n
1
)
A
12
(m
1
n
2
)
A
21
(m
2
n
1
)
A
22
(m
2
n
2
)
_

_
B
11
(n
1
p
1
)
B
12
(n
1
p
2
)
B
21
(n
2
p
1
)
B
22
(n
2
p
2
)
_

_
=
=
_
(A
11
B
11
+A
12
B
21
) (A
11
B
12
+A
12
B
22
)
(A
21
B
11
+A
22
B
21
) (A
21
B
12
+A
22
B
22
)
_
,
m
1
+m
2
= m, n
1
+n
2
= n, p
1
+p
2
= p.
2.2.6 Il determinante di una matrice quadrata
Data una matrice quadrata A, di dimensione (n n), si denisce determinante di
A(e lo si indica con [A[) la quantit` a scalare:
[A[ =
n

j=1
(1)
i+j
a
ij
[A
ij
[ , (2.1)
20 CAPITOLO 2. RICHIAMI MATEMATICI
dove A
ij
` e la matrice che si ottiene a partire da A sopprimendone la riga i-esima e
la colonna j-esima. Ad esempio:
[A[ =
_
_
1 2 4
3 1 0
1 0 1
_
_
= 1

1 0
0 1

3 0
1 1

+ 4

3 1
1 0

=
= 1 6 4 = 9
Data lespressione con cui si ricava il determinante, risulta particolarmente fa-
cile calcolare il determinante di una matrice triangolare. Infatti se A, di dimensione
(n n), ` e triangolare (superiore o inferiore), data la (2.1), allora si ha:
[A[ =
n

i=1
a
ii
In altri termini, per una matrice triangolare, il determinante ` e pari al prodotto degli
elementi diagonali.
Nel caso della matrice identit` a, ` e facile mostrare che il determinante ` e pari a 1:
[I
n
[ = 1, n.
Si noti che, date le matrici quadrate (n n) Ae B, si ha:
[A B[ = [A[ [B[ .
2.2.7 La matrice aggiunta
Data la matrice quadrata (n n) A, si denisce A
+
,matrice aggiunta di A, la
matrice che soddisfa:
A
+
A = A A
+
= [A[ I
n
.
(la matrice aggiunta pre-moltiplicata o post-moltiplicata per A genera una matrice
diagonale con elementi tutti pari al determinante di A sulla diagonale).
La matrice A
+
viene ottenuta come:
A
+
=
_
a
+
ij
_
,
a
+
ij
= (1)
i+j
[A
ji
[ .
2.2.8 La matrice inversa
Data la matrice quadrata (nn) A,con [A[ , = 0,si denisce A
1
la matrice inversa
tale per cui:
A
1
A = A A
1
= I
n
.
Data la matrice quadrata (n n) A,con [A[ , = 0, si ha:

A
1

= [A[
1
2.2. MATRICI E VETTORI 21
(il determinante dellinversa ` e pari al reciproco del determinante, quando il deter-
minante ` e diverso da zero).
Si noti che ` e possibile ottenere la matrice inversa di A come:
A
1
= [A[
1
A
+
.
(la matrice inversa pu` o essere calcolata a partire dalla matrice aggiunta dividendo
ciascun elemento della matrice aggiunta per il determinante di A ). Si noti che ` e
possibile calcolare la matrice inversa solo per matrici con determinante diverso da
zero. Tali matrici vengono per questo motivo dette invertibili. Ad esempio, data la
matrice:
A =
_
_
1 3 5
0 1 0
2 1 0
_
_
,
si ha:
A
+
=
_
_
0 5 5
0 10 0
2 5 1
_
_
,
[A[ = 10,
A
1
=
_
_
0
1
2
1
2
0 1 0
1
5

1
2

1
10
_
_
.
2.2.9 Alcune propriet` a rilevanti
Date due matrici conformabili per prodotto A(mn) e B (n p) :
(A B)

= B

(si noti linversione di ordine tra i fattori)


Date due matrici quadrate, di dimensioni (nn) ed invertibili A (mn) e B (np),
vale:
(A B)
1
= B
1
A
1
(si noti linversione di ordine tra i fattori).
Data una matrice quadrata ed invertibile A(nn), la trasposta della matrice
inversa ` e uguale allinversa della trasposta:
(A
1
)

= (A

)
1
.
Data una matrice quadrata ed invertibile A(n n) ed uno scalare c, si ha:
(c A)
1
=
1
c
A
1
, c ,= 0.
22 CAPITOLO 2. RICHIAMI MATEMATICI
2.2.10 Matrici idempotenti
La matrice quadrata A(n n) si dice idempotente se:
A
k
= A, k > 0.
In altri termini, moltiplicando per s` e stessa la matrice A quante volte si vuole si
ottiene sempre A. Alcuni esempi di matrice idempotente sono i seguenti:
A = [0]
(nn)
,
A = I
n
,
A = i
n
(i

n
i
n
)
1
i

n
=
1
n
i
n
i

n
=
1
n

_

_
1 1 . . . 1
1 1 . . . 1
. . . . . . . . . . . .
1 1 . . . 1
_

_
.
Data la matrice (n k) Atale per cui:

,= 0,
si noti che le matrici:
B
(nn)
= A (A

A)
1
A

,
C
(nn)
= I
n
A (A

A)
1
A

sono idempotenti (lo si verichi moltiplicando ciascuna matrice per se stessa ).


2.2.11 Spazio vettoriale
Si consideri il vettore (k 1) a:
a
(k1)
=
_

_
a
1
a
2
. . .
a
k
_

_
pu` o essere inteso come espressione delle coordinate del punto a nello spazio reale
k-dimensionale (R
k
), cos` come da gura (2.2.11) per k = 2. Si noti che qualunque
vettore ottenuto come risultato del prodotto tra uno scalare ed il vettore a (a

=
a) rappresenta le coordinate di un punto a

che si trova sulla semiretta che unisce


lorigine degli assi e il punto a.
Inoltre si noti (gura 2.2.11) che, dati due vettori (2 1) a e b, che la somma
(C) e la differenza (d) tra a e b rappresentano rispettivamente i punti c e d nello
spazio reale bidimensionale.
Deniamo spazio k-dimensionale R
k
linsieme di tutti i vettori reali di dimen-
sione (k 1).
Le propriet` a elementari di R
k
sono:
2.2. MATRICI E VETTORI 23
0 1 2 3 4 5 6 7 8 9
1
2
3
4
5
6
7
a
b=2a
1. Chiusura rispetto alla somma: dati a R
k
e b R
k
, il vettore derivante
dalla somma c = a +b appartiene a R
k
.
2. Chiusura rispetto al prodotto scalare: dato qualunque vettore a R
k
e
qualunque grandezza scalare , il vettore a

= a appartiene a R
k
.
Si denisce spazio vettoriale qualsiasi insieme di vettori chiuso rispetto alla
moltiplicazione scalare ed alla somma.
2.2.12 Base di uno spazio vettoriale
Dato uno spazio vettoriale S, si denisce base di S un insieme di vettori a
1
, a
2
, . . . , a
k
che appartengono a S con la propriet` a che qualunque vettore appartenente a S pu` o
essere ottenuto come combinazione lineare di a
1
, a
2
, . . . , a
k
:
c =

i
a
i
, c S.
Ad esempio, per lo spazio vettoriale R
2
, i vettori:
a
1
=
_
1
0
_
, a
2
=
_
0
1
_
sono una base dato che qualunque vettore (2 1) pu` o essere ottenuto come com-
binazione lineare di a
1
e a
2
.
2.2.13 Sottospazio vettoriale
Si denisce S(a
1
, a
2
, . . . , a
k
), sottospazio vettoriale associato ad un insieme di
vettori a
1
, a
2
, . . . , a
k
lo spazio vettoriale coperto da tali vettori: qualunque vetto-
re appartenente a S(a
1
, a
2
, . . . , a
k
) pu` o essere espresso come combinazione lineare
24 CAPITOLO 2. RICHIAMI MATEMATICI
2 1 0 1 2 3 4 5 6 7
1
2
3
4
5
6
7
a
b
c
d
di a
1
, a
2
, . . . , a
k
:
c =

i
a
i
, c S(a
1
, a
2
, . . . , a
k
).
Ad esempio, i vettori:
a =
_
_
1
2
0
_
_
, b =
_
_
2
3
0
_
_
,
non coprono R
3
. Infatti il vettore:
c =
_
_
1
2
3
_
_
,
non pu` o essere espresso come combinazione lineare di a e b. Il sottospazio vet-
toriale generato da a e b ` e invece linsieme di tutti i vettori appartenenti a R
3
che
hanno terzo elemento pari a zero.
2.2.14 Rango di una matrice
Si denisce spazio colonna di una matrice A di dimensione (m n), lo spazio
vettoriale coperto dai vettori colonna contenuti nella matrice. Si denisce rango
colonna la dimensione di tale spazio vettoriale. Ad esempio, data la matrice:
A =
_
3 8
4 6
_
2.2. MATRICI E VETTORI 25
ha dimensione pari a 1. Si noti infatti (gura 2.2.11) che sia la prima colonna che
la seconda della matrice A rappresentano punti che giacciono sulla retta passante
dallorigine di R
2
e avente inclinazione +2. Qualunque combinazione lineare delle
colonne di Arappresenta punti su tale semiretta.
Si noti che per ogni matrice A(mn) vale:
Rango riga Rango colonna,
ossia:
dimensione(spazio riga) dimensione(spazio colonna).
Si noti inoltre che, date due matrici conformabili per prodotto A(mn) e B
(n p), si ha:
rango(A B) min(rango(A), rango(B)).
2.2.15 Indipendenza lineare di vettori
Dati n vettori di dimensione (n1) a
1
, a
2
, . . . , a
n
, tali vettori si dicono linearmente
indipendenti se:
n

i=1

i
a
i
= 0
vale solo per:

1
=
2
= . . . =
n
= 0.
In altri termini i vettori a
1
, a
2
, . . . , a
n
sono linearmente indipendenti se nessu-
no tra essi pu` o essere espresso come combinazione lineare degli altri n 1.
Si noti che data la matrice A(nn), tale matrice avr` a determinante diverso da
zero se e solo se i suoi vettori riga (o, che ` e lo stesso, i suoi vettori colonna) sono
linearmente indipendenti. Ad esempio, per la matrice:
A =
_
1 15
2 30
_
ha determinante pari a zero e i suoi vettori colonna (riga) non sono linearmente
indipendenti: ad esempio la seconda riga pu` o essere ottenuta moltiplicando per 2
la prima.
2.2.16 Autovalori e autovettori
Data la matrice A, di dimensione (n n), il sistema:
A
(nn)
x
(n1)
=

(11)
x
(n1)
(A I
n
) x = [0]
(n1)
26 CAPITOLO 2. RICHIAMI MATEMATICI
ammette soluzioni x ,= [0]
(n1)
se e solo se:
[A I
n
[ = 0. (2.2)
altrimenti la matrice (A I
n
) pu` o essere invertita e lunica soluzione ` e x = [0].
Le radici
i
(i = 1, 2, . . . , n) dellequazione (2.2): sono chiamati autovalori.
Le soluzioni x
i
(i = 1, 2, . . . , n) associate ad ogni autovalore
i
:
A x
i
=
i
x
i
, i = 1, 2, . . . , n.
sono detti autovettori.
Ad esempio,per la matrice:
A =
_
1 2
2 2
_
, [A I
2
[ =

1 2
2 2

2 3 +
2
= 0
1
=
3
2
+
1
2

17,
2
=
3
2

1
2

17.
Si noti che la relazioni tra autovalori, autovettori e la matrice A pu` o essere
scritta in modo compatto come:
A
(nn)

X
(nn)
=
X
(nn)


(nn)
,
X =[x
1
, x
2
, . . . , x
n
] ,
=
_

1
0 0 0
0
2
0 0
0 0 . . . 0
0 0 0
n
_

_
Un utile risultato relativo agli autovalori ` e il seguente: se tutti gli autovalori

1
,
2
, . . . ,
n
sono distinti allora gli autovettori x
1
, x
2
, . . . , x
n
sono linearmen-
te indipendenti. Data lindipendenza lineare delle colonne di X (e quindi la sua
invertibilit` a), ` e possibile scrivere:
A = X X
1
.
Una importante propriet` a degli autovalori di una qualunque matrice quadrata
Adi dimensioni (nn) ` e che il determinante di tale matrice ` e pari al prodotto dei
suoi autovalori:
[A[ =
n

i=1

i
2.2. MATRICI E VETTORI 27
2.2.17 Serie geometriche di matrici
Data la matrice quadrata (n n) A, si denisca la somma:
S
T
= I
n
+A+A
2
+. . . A
T
=
T

i=0
A
i
.
Pre-moltiplicando S
T
per A, si ottiene:
A S
T
= A+A
2
+. . . A
T+1
=
T+1

i=0
A
i+1
.
Sottraendo le due precedenti espressioni tra loro, si ricava:
(I
n
A) S
T
=
T

i=0
A
i

T+1

i=0
A
i+1
= (I
n
A
T+1
).
Se la matrice (I
n
A) ` e invertibile (in termini equivalenti, se = 1 NON ` e
autovalore di A), allora ` e possibile pre-moltiplicare per (I
n
A)
1
lespressione
precedente ed ottenere:
S
T
= (I
n
A)
1
(I
n
A
T+1
).
`
E possibile mostrare che che se tutti gli autovalori di A sono minori di 1 in
modulo:
[
i
[ < 1, i = 1, 2, . . . , n,
allora:
lim
T
A
T+1
= [0]
(nn)
,
e quindi:
lim
T
S
T
= (I
n
A)
1
.
2.2.18 Matrici denite, semidenite positive e negative
La matrice Asimmetrica (n n) viene detta denita positiva se:
x

(1n)

A
(nn)
x
(n1)
> 0, x
(n1)
,= [0]
(n1)
.
Asimmetrica (n n) viene detta semidenita positiva se:
x

(1n)

A
(nn)
x
(n1)
0, x
(n1)
,= [0]
(n1)
.
28 CAPITOLO 2. RICHIAMI MATEMATICI
Asimmetrica (n n) viene detta denita negativa se:
x

(1n)

A
(nn)
x
(n1)
< 0, x
(n1)
,= [0]
(n1)
.
Asimmetrica (n n) viene detta semi-denita negativa se:
x

(1n)

A
(nn)
x
(n1)
0, x
(n1)
,= [0]
(n1)
.
Gli autovalori di una matrice positiva sono tutti positivi, dato che:
A x
i
=
i
x
i
,
x

i
A x
i
=
i
x

i
x
i
>0=
i
> 0, i = 1, 2, . . . , n.
Con ragionamenti simili si pu` o mostrare che tutti gli autovalori di matrici se-
midenite positive sono non-negativi, che tutti gli autovalori di matrici denite
negative sono negative e che tutti gli autovalori di matrici semidenite negative
sono non positivi. Quindi un modo per vericare le propriet a di denitezza di una
matrice ` e quello di controllare il segno degli autovalori. Ci ` o non ` e molto agevole
per una matrice di dimensioni superiori a (2 2), dato che per trovare gli auto-
valori ` e necessario in tali casi risolvere equazioni di grado superiore al secondo
che non sempre sono risolubili senza lausilio di un computer. Per tale motivo ` e
possibile fare riferimento ad un criterio alternativo, basato sulla verica del segno
dei minori principali. Per minore principale di ordine i (i = 1, 2, . . . , n) di una
matrice quadrata A(nn) si intendono i determinanti della sottomatrice ottenuta
considerando solo le prime i righe e i-colonne di A. Una matrice ` e denita positiva
se tutti i suoi minori principali hanno segno positivo ed ` e denita negativa se i suoi
minori principali hanno segni alternati a partire da .
Fattorizzazione di una matrice denita positiva
Qualunque matrice (n n) denita positiva pu` o essere fattorizzata nel modo
seguente:
= A D A

,
dove A ` e triangolare inferiore con elementi diagonali unitari:
a
ij
= 0, j > i, a
ii
= 1, i = 1, 2, . . . , n,
e D ` e una matrice diagonale con elementi diagonali posiivi:
d
ij
= 0, i ,= j, d
ii
> 0, i = 1, 2, . . . n.
Tale scomposizione ` e unica.
Da questa scomposizione ` e possibile ricavare la cosiddetta fattorizzazione di
Choleski di :
2.2. MATRICI E VETTORI 29
= (A D
1/2
) (A D
1/2
)

= P P

,
P = A D
1/2
, D
1/2
=
_

d
11
0 . . . 0
0

d
22
. . . . . .
. . . . . . . . . . . .
0 . . . . . .

d
nn
_

_
.
Si noti che la matrice P, detta fattore di Choleski di , ha dimensione (nn) ed ` e
triangolare inferiore con elementi diagonali positivi e pari a

d
11
,

d
22
, . . . ,

d
nn
.
2.2.19 Prodotto di Kronecker (prodotto tensore)
Date due matrici A, di dimensione (mn) e B, di dimensione (pq), si denisce
prodotto di Kronecker tra Ae Bla matrice C, di dimensione (m p n q) :
C
(mpnq)
=
A
(mn)

B
(pq)
=
_

_
a
11
B a
12
B . . . a
1n
B
a
21
B a
22
B . . . a
2n
B
. . . . . . . . . . . .
a
n1
B a
n2
B . . . a
nm
B
_

_
.
Ad esempio:
A =
_
1 2
3 4
_
, B =
_
_
5 6 7
8 9 10
11 12 13
_
_
,
C = AB =
_
1 2
3 4
_

_
_
5 6 7
8 9 10
11 12 13
_
_
=
=
_

_
5 6 7 10 12 14
8 9 10 16 18 20
11 12 13 22 24 26
15 18 21 20 24 28
24 27 30 32 36 40
33 36 39 44 48 52
_

_
.
Le pi ` u importanti propriet` a delloperatore prodotto di Kronecker sono le se-
guenti:
1) Date le matrici A, di dimensione (mn) e B, di dimensione (p q):
(AB)

= A

.
2) Date le matrici A, di dimensione (m n) ,B, di dimensione (p q) e C,
di dimensione (r s):
(AB) C = A(BC).
30 CAPITOLO 2. RICHIAMI MATEMATICI
3) Date le matrici Ae B, di dimensione (mn) e C, di dimensione (r s):
(A+B) C = AC+BC.
4) Date le matrici A(mn), B (p q), C (n r) e D(q s) :
_
A
(mn)

B
(pq)
_

_
C
(nr)

D
(qs)
_
=(A C)
(mr)
(B D)
(ps)
=
E
(mprs)
5) Date le matrici quadrate ed invertibili A(mm) e B (n n):
(AB)
1
= A
1
B
1
.
2.2.20 Loperatore vec
Data una matrice (mn) A :
A = [a
1
, a
2
, . . . , a
n
] ,
loperatore vec trasforma la matrice A in un vettore di dimensione (mn 1),
allineando uno sopra allaltra le colonne di A:
vec(A) =
_

_
a
1
a
2
. . .
a
n
_

_
.
Ad esempio:
A =
_
1 3 5
2 4 6
_
,
vec(A) =
_

_
1
2
3
4
5
6
_

_
.
Una propriet` a rilevante delloperatore vec ` e la seguente: date le matrici con-
formabili per prodotto A (mn), B (n p) e C (p q), ` e possibile dimostrare
2.3. FUNZIONI IN PI
`
U VARIABILI 31
che:
vec
_
A
(mn)

B
(np)

C
(pq)
_
=
d
(mq1)
=
=
_
I
q
(A B
(mp)
)
_
vec (C)
(pq1)
=
=
_
C

(qmpn)
vec (B) ,
(np1)
=
_
(C

) I
m

(qmnm)
vec (A) .
(mn1)
2.3 Funzioni in pi ` u variabili
Data la grandezza scalare y e il vettore (n 1) x:
y R
1
,
x
_

_
x
1
x
2
. . .
x
n
_

_
,
si denisce funzione R
n
R
1
(funzione scalare di un vettore) la funzione:
y = f(x) = f(x
1
, x
2
, . . . , x
n
). (2.3)
Ad esempio, si consideri la funzione di produzione Cobb-Douglas omogenea
di primo grado, che fa dipendere il prodotto Y dallutilizzazione di capitale (K) e
lavoro (L):
Y = f(K, L) = A K

L
1
,
A > 0, 0 < < 1.
2.3.1 Derivate parziali prime e seconde
Si denisce la derivata prima parziale della funzione (2.3) rispetto al suo i-esimo
argomento (x
i
, i = 1, 2, . . . , n) la seguente espressione:
f(x)
x
i
= f
i
(x) lim
0

1
[f(x
1
, . . . , x
i
+ , ..x
n
) f(x
1
, . . . , x
i
, ..x
n
)] .
Ad esempio, per la funzione di produzione Cobb-Douglas, la derivata parziale
rispetto al capitale (produttivit` a marginale del capitale) ` e:
f
K
(K, L) =
f(K, L)
K
= A K
1
L
1
.
32 CAPITOLO 2. RICHIAMI MATEMATICI
Si denisce gradiente il vettore delle derivate prime di una funzione scalare di
un vettore:

(n1)
=
_

_
f(x)
x
1
f(x)
x
2
. . .
f(x)
x
n
_

_
.Ad esempio, per la funzione lineare:
f(x)
(n1)
= a
(1n)

x
(n1
+
b
(11)
=
n

i=1
a
i
x
i
+b,
il gradiente ` e:

(n1)
=
_

_
a
1
a
2
. . .
a
n
_

_
= a
(n1)
.
Per la funzione di produzione Cobb-Douglas, il gradiente ` e invece:

(21)
=
_
f(K,L)
K
f(K,L)
L
_
=
_
A K
1
L
1
(1 ) A K

_
.
Le derivate seconde di una funzione f(x) scalare di un vettore R
n
R
1
sono
denite come:
f
ij
=

2
f
x
i
x
j
=

_
f
x
j
_
x
i
, f
ji
=

2
f
x
j
x
i
=

_
f
x
i
_
x
j
,
f
ij
= f
ji
, i = 1, 2, . . . , n, j = 1, 2, . . . , n.
`
E possibile denire una matrice (n n) H, chiamata matrice hessiana, che
contiene le derivate parziali seconde della funzione f(x):
H
(nn)
=
_

2
f
x
1
x
1

2
f
x
1
x
2
. . .

2
f
x
1
x
n

2
f
x
2
x
1

2
f
x
2
x
2
. . .

2
f
x
2
x
n
. . . . . . . . . . . .

2
f
x
n
x
1

2
f
x
n
x
2
. . .

2
f
x
n
x
n
_

_
=

_
_
f(x)
x
_

_
x
=

_
_

_
x
.
Si noti che la matrice hessiana ` e naturalmente simmetrica, dato che:

2
f
x
i
x
j
=

2
f
x
j
x
i
i, j.
Ad esempio, per la funzione di produzione Cobb-Douglas. la matrice hessiana
` e:
H
(22)
=
_
( 1) A K
2
L
1
(1 ) A K
1
L

(1 ) A K
1
L

(1 ) A K

L
1
_
2.3. FUNZIONI IN PI
`
U VARIABILI 33
2.3.2 Alcune semplici regole di derivazione per funzioni in pi ` u varia-
bili
Si notino le seguenti regole di derivazione per funzioni scalari di vettori.
1. Data la funzione f(x) = a

(1n)
x
(n1)
, il gradiente di tale funzione ` e:
f
x
= a
(n1)
.
2. Data la funzione f(x) = x

(1n)
a
(n1)
, il gradiente di tale funzione ` e:
f
x
= a
(n1)
.
3. Data la funzione f(x) = x

(1n)

A
(nn)
x
(n1)
, il gradiente di tale funzione ` e:
f
x
=
_
A

(nn)
+
A
(nn)
_
x
(n1)
Se la matrice A ` e simmetrica, ovviamente il gradiente ` e:
f
x
= 2
A
(nn)
x
(n1)
2.3.3 Ottimizzazione
Nel caso di una funzione scalare di uno scalare R
1
R
1
, y = f(x), la condizione
del primo ordine per avere un massimo o un minimo ` e:
f
x
= 0,
mentre le condizioni del secondo ordine sono:

2
f
x
2
> 0 per un min imo,

2
f
x
2
< 0 per un massimo.
Nel caso di funzione scalare di un vettore R
n
R
1
, y = f(x), le condizioni
del primo ordine per avere un massimo o un minimo sono date dal sistema di n
equazioni:
f
x
= = [0]
(n1)
,
34 CAPITOLO 2. RICHIAMI MATEMATICI
mentre le condizioni del secondo ordine sono:
H
(nn)
denita positiva per un minimo,
H
(nn)
denita negativa per un massimo.
2.3.4 Ottimizzazione vincolata
Sia data la funzione scalare di un vettore R
n
R
1
, y = f(x) e si immagini di
dover massimizzare la funzione rispetto a x sotto un insieme di k vincoli su x:
Max
x
f(x)
con :
_

_
c
1
(x) = d
1
c
2
(x) = d
2
. . .
c
k
(x) = d
k
_

_
oppure :
_
c(x)
(k1)
=
d
(k1)
_
Un modo di procedere al calcolo del massimo vincolato x

` e quello di costruire
la funzione lagrangiana:
L(x, ) = f(x) +
n

i=1

i
[c
i
(x) d
i
] = f(x) +

[c(x) d] ,
=
_

2
. . .

k
_

_
.
Gli elementi del vettore (k 1) sono detti moltiplicatori di Lagrange e con-
sentono di tenere in considerazione i vincoli che la soluzione del problema di ot-
timizzazione deve soddisfare. La costruzione della funzione lagrangiana consente
di impostare il problema di ottimizzazione vincolata come un problema di otti-
mizzazione libera, semplicemente specicando le condizioni del primo ordine in
relazione ad un vettore di variabili di scelta di dimensione superiore:
z
(n+k)1
=
_
x

_
.
Le condizioni del primo ordine sono:
L(x, )
x
= [0]
(n1)

f(x)
x
(n1)
+
_
_
c(x)

x
(nk)
_
_


(k1)
= [0]
(n1)
,
L(x, )

= [0]
(k1)

_
c(x) d
(nk)
_
= [0]
(k1)
.
2.3. FUNZIONI IN PI
`
U VARIABILI 35
Dalla risoluzione del sistema delle condizioni del primo ordine si ricava la
soluzione x

che ottimizza la funzione f(x) sotto i vincoli c(x) = d.


Le propriet` a dellottimo vincolato sono le seguenti:
la funzione valutata nel punto di massimo (minimo) vincolato x

` e non su-
periore (non inferiore) alla funzione valutate nel punto di massimo (minimo)
libero x

:
f(x

) f(x

) nel caso di massimo vincolato,


f(x

) f(x

) nel caso di minimo vincolato.


Infatti:
_
f(x)
x
_
x=x

+
_
c

(x)
x
_
x=x

= [0]
(n1)
e quindi il gradiente valutato in corrispondenza di x = x

,
_
f(x)
x
_
x=x

, ` e
diverso da [0]
(n1)
.
Quando lottimo vincolato coincide con quello vincolato, si ha:
= [0]
(k1)
: x

= x

= [0]
(k1)
.
Ad esempio, si consideri il seguente problema di massimizzazione vincolata:
Max
x
f(x) = a

(13)
x
(31)
x

(31)

A
(33)
x
(31)
,
con :
_
x
1
x
2
+x
3
= 0
x
1
+x
2
+x
3
= 0
_
,
oppure :
_
C
(23)
x
(31)
=
d
(21)
_
Questo ` e il caso di ottimizzazione di una funzione quadratica in x con vincoli
lineari (e omogenei, dato che d = [0]). Le condizioni del primo ordine sono:
L(x, )
x
= [0]
(31)
(2.4)
a
(31)
2
A
(33)
x
(31)
+ C

(32)


(21)
= [0]
(31)
, (2.5)
L(x, )

= [0]
(21)
(2.6)
C
(23)
x
(31)
= [0]
(21)
. (2.7)
36 CAPITOLO 2. RICHIAMI MATEMATICI
La soluzione di queste due insiemi di equazioni con incognite x e fornisce il
massimo vincolato della funzione: esplicitando lespressione (2.4) rispetto a x si
ottiene:
x =
1
2
A
1

_
a +C


_
. (2.8)
Sostituendo questultima espressione nella (2.6) si ottiene:
C
1
2
A
1

_
a +C


_
= [0] =
_
C A
1
C

_
1
C A
1
a.
Sostituendo questultima espressione nella (2.8) si ottiene nalmente il valore di
x:
x =
1
2
A
1

_
a C

_
C A
1
C

_
1
C A
1
a
_
.
2.4 Esercizi su richiami di matematica
1. Per le matrici:
A =
_
1 3 3
2 4 1
_
, B =
_
_
2 4
1 5
6 2
_
_
si calcolino:
A B,
A

,
B A
B

A
2. Si espanda il prodotto matriciale:
X =
_
_
A B+ (C D)

_
(E F)
1
+G H
__

,
dove tutte le matrici sono quadrate ed invertibili.
3. Data la matrice:
A =
_
_
1 4 7
3 2 5
5 8 8
_
_
calcolarne il determinante, la traccia e linversa.
4. Si calcoli la scomposizione di Choleski per la matrice:
A =
_
25 7
7 13
_
.
2.5. SOLUZIONI AGLI ESERCIZI 37
5. Quale operazione si compie post-moltiplicando una matrice A (m n)
per una matrice diagonale di dimensione (n n)? E se invece la si
pre-moltiplica per una matrice diagonale di dimensione (mm)?
6. Date le seguenti forme quadratiche:
a) y = x
2
1
14 x
1
x
2
+ 11 x
2
2
b) y = 5 x
2
1
+x
2
2
+ 7 x
2
3
+ 4 x
1
x
2
+ 6 x
1
x
3
+ 8 x
2
x
3
,
dire se sono positive per tutti i valori di x
1
, x
2
, x
3
.
7. Si calcolino gli autovalori della matrice:
A =
_
_
2 4 3
4 8 6
3 6 5
_
_
.
8. Si risolva, scrivendo la funzione lagrangiana e le condizioni del primo ordi-
ne, il problema di massimizzazione vincolata dellutilit` a del consumatore:
Max U(q)
q
= q

1
q

2
, 0 < < 1, 0 < < 1, q =
_
q
1
q
2
_
,
con il vincolo : p
1
q
1
+p
2
q
2
= y,
dove q
1
e q
2
sono le quantit` a dei beni 1 e 2, p
1
e p
2
sono i prezzi di tali beni
e y ` e il reddito monetario dellindividuo.
2.5 Soluzioni agli esercizi
1. Le matrici richieste sono:
A B =
_
1 3 3
2 4 1
_

_
_
2 4
1 5
6 2
_
_
=
_
23 25
14 30
_
,
A

=
_
_
1 2
3 4
3 1
_
_

_
2 1 6
4 5 2
_
=
_
_
10 11 10
22 23 26
10 8 20
_
_
,
B A =
_
_
2 4
1 5
6 2
_
_

_
1 3 3
2 4 1
_
=
_
_
10 22 10
11 23 8
10 26 20
_
_
,
B

(23)

A
(22)
non conformabili per prodotto.
Si noti che:
B A =
_
A

(B A)

= A

.
38 CAPITOLO 2. RICHIAMI MATEMATICI
2. Si espanda il prodotto matriciale:
X =
_
_
A B+ (C D)

_
(E F)
1
+G H
__

=
= A B F
1
E
1
+A B G H+
+D

F
1
E
1
+D

G H

= E
1
F
1
B

+H

+
+E
1
F
1

C D+H

C D
3. Per la matrice Aabbiamo:
A =
_
_
1 4 7
3 2 5
5 8 8
_
_
[A[ = 1

2 5
8 8

3 5
5 8

+ 7

3 2
5 8

= 24 + 4 + 98 = 78,
tr(A) = 1 + 2 + 8 = 11,
A
+
=
_
_
24 24 6
1 27 16
14 12 10
_
_
, A
1
= [A[
1
A
+
=
_
_
1
78
2
39
7
78
1
26
1
39
5
78
5
78
4
39
4
39
_
_
=
=
_
_

4
13
4
13
1
13
1
78

9
26
8
39
7
39
2
13

5
39
_
_
.
4. La matrice A ` e simmetrica e denita positiva. Per trovare gli autovalori di
Asi procede nel modo seguente:
[A I
2
[ = 0

25 7
7 13

= 0 (25 ) (13 ) 49 = 0,

2
38 + 276 = 0 = 19

85 = 19 9.21 : entrambi positivi.


Il calcolo degli autovalori conferma che la matrice sia denita positiva.
`
E
possibile quindi procedere alla scomposizione di Choleski:
P =
_
p
11
0
p
21
p
22
_
, p
11
> 0, p
22
> 0.
A = P P

=
_
p
2
11
p
11
p
21
p
11
p
21
p
2
21
+p
2
22
_
.
2.5. SOLUZIONI AGLI ESERCIZI 39
Quindi uguagliando elemento per elemento le matrici Ae P P

si ottiene:
p
2
11
= 25 p
11
= 5
p
11
p
21
= 7 p
21
=
7
5
,
p
2
21
+p
2
22
= 13 p
22
=
_
13
49
25
=
2
5

69 .
Si noti che per calcolare gli elementi diagonali della matrice P si prendono
radici positive 5 e
2
5

69 (e non -5 e -

13), dato che il fattore di Choleski


per denizione ha elementi diagonali positivi.
5. Post-moltiplicando una matrice A (m n) per una matrice diagonale di
dimensione (n n) si ottiene:
A = A

(mn)
=
_

_
a
11
a
12
. . . a
1n
a
21
a
22
. . . a
2n
. . . . . . . . . . . .
a
m1
a
m2
. . . a
mn
_

11
0 . . . 0
0
22
. . . 0
. . . . . . . . . . . .
0 0 . . .
nn
_

_
=
=
_

_
a
11

11
a
12

22
. . . a
1n

nn
a
21

11
a
22

22
. . . a
2n

nn
. . . . . . . . . . . .
a
m1

11
a
m2

22
. . . a
mn

nn
_

_
vale a dire si ricava una matrice A

(m n) che risulta moltiplicando ogni


colonna di A per il corrispondente elemento diagonale di . Se invece si
pre-moltiplica A per una matrice diagonale di dimensione (m m) si
ottiene:
A = A

(mn)
=
=
_

11
0 . . . 0
0
22
. . . 0
. . . . . . . . . . . .
0 0 . . .
mm
_

_
a
11
a
12
. . . a
1n
a
21
a
22
. . . a
2n
. . . . . . . . . . . .
a
m1
a
m2
. . . a
mn
_

_
=
=
_

_
a
11

11
a
12

11
. . . a
1n

11
a
21

22
a
22

22
. . . a
2n

22
. . . . . . . . . . . .
a
m1

nn
a
m2

nn
... a
mn

nn
_

_
vale a dire si ricava una matrice A

(mn) che risulta moltiplicando ogni


riga di Aper il corrispondente elemento diagonale di .
6. Si scriva (a) come:
y = x

(12)

A
(22)
x
(21)
= a
11
x
2
1
+ 2 a
12
x
1
x
2
+a
22
x
2
2
,
40 CAPITOLO 2. RICHIAMI MATEMATICI
con Amatrice simmetrica:
A =
_
a
11
a
12
a
12
a
22
_
.
In questo caso si ha:
A =
_
1 7
7 11
_
,
con autovalori: = 6

74 =
_
2.602
14.602
_
. Da ci ` o si ricava che la
matrice A non ` e denita positiva e quindi la forma quadratica (a) non ` e
positiva per qualunque valore di x
1
e x
2
.
Per quello che riguarda (b), essa pu` o essere scritta come:
y = x

(13)

A
(33)
x
(31)
= a
11
x
2
1
+ 2 a
12
x
1
x
2
+ +2 a
13
x
1
x
3
+
+2 a
23
x
2
x
3
+a
22
x
2
2
+a
33
x
2
3
,
A =
_
_
5 2 3
2 1 4
3 4 7
_
_
Per vericare se A ` e denita positiva occorrerebbe vericare se tutti i suoi
autovalori sono positivi. Ci ` o in generale non ` e molto agevole per una matrice
di dimensioni superiori a (2 2), senza lausilio di un computer. Per tale
motivo ` e possibile fare riferimento al segno dei minori principali. Nel caso
della matrice A:
5 > 0,

5 2
2 1

= 5 4 > 0,

5 2 3
2 1 4
3 4 7

= 34 < 0.
Da questo si deduce che la matrice A non ` e denita positiva e quindi che la
forma quadratica (b) non ` e positiva per qualsiasi valori di x.
7. Gli autovalori della matrice Avengono ottenuti come soluzione allequazio-
ne:

2 4 3
4 8 6
3 6 5

= 0
(2 ) [(8 )(5 ) 36]4 [4 (5 ) 18]+3 [24 3 (8 )] = 0
5 + 15
2

3
= 0
_
5 15 +
2
_
= 0
2.5. SOLUZIONI AGLI ESERCIZI 41
=
_
0
15

205
2
= 0.341
15+

205
2
= 14.659
_
Si noti comunque che la seconda colonna di A ` e pari a due volte la prima
colonna. Questo implica che:
[A[ = 0
e quindi, dato che il determinante di una matrice ` e dato dal prodotto dei suoi
autovalori ` e ovvio che almeno uno degli autovalori di Asia nullo.
8. La funzione lagrangiana pu` o essere scritta come:
L(q, ) = u(q) +
_
p

q y
_
,
u(q) = q

1
q

2
, p =
_
p
1
p
2
_
, q =
_
q
1
q
2
_
.
Le condizioni del primo ordine sono:
L(q, )
q
= [0]
u(q)
q
(21)
+ p = [0]
(21)
, (2.9)
L(q, )

= 0 p

q = y. (2.10)
In questo caso conviene scrivere la (2.9) come :
q
1
1
q

2
+ p
1
= 0, (2.11)
q

1
q
1
2
+ p
1
= 0. (2.12)
Si risolva la (2.11) a :
=
q
1
1
q

2
p
1
,
e si sostituisca tale valore nella (2.12), risolvendo per q
1
:
q
1
=
p
2
p
1

q
2
. (2.13)
Si utilizzino ora la (2.10) e la (2.13) per ottenere le soluzioni in termini di q
1
e q
2
:
q

=
_
q

1
q

2
_
=
_

(+)p
1
y

(+)p
2
y
_
.
42 CAPITOLO 2. RICHIAMI MATEMATICI
Si noti che con la funzione di utilit` a specicata le domande q

1
e q

2
sono
funzioni lineari del reddito monetario y. Inne si noti che ` e possibile dare
interpretazione geometrica alle condizioni (2.9):
_
u(q)
q
1
= p
1
u(q)
q
2
= p
2
_

u(q)
q
1
u(q)
q
2
=
p
1
p
2
,
che stabilisce la condizione di tangenza (uguaglianza delle pendenze) tra la
curva di indifferenza e la retta di bilancio.
Capitolo 3
Richiami di inferenza statistica
3.1 Variabile casuale
Per variabile casuale (VC) intendiamo la misurazione quantitativa del risultato di
un esperimento casuale. Ad esempio, consideriamo il lancio di una moneta che con
probabilit` a pari a 1/2 fornisce il risultato testa e con la stessa probabilit` a fornisce
il risultato croce. Immaginiamo di attribuire il valore 0 allevento testa e il valore
1 allevento croce. Abbiamo quindi che la variabile casuale X, risultato del lancio
di una moneta, pu` o essere descritta come segue:
X =
_
0 Pr(X = 0) = 1/2
1 Pr(X = 1) = 1/2
_
In genere si utilizza la notazione X (la lettera maiuscola) per indicare una variabile
casuale e la corrispondente lettera minuscola (x in questo caso) per indicare la
realizzazione di una variabile casuale in un determinato esperimento casuale.
A seconda dellinsieme dei valori che una variabile casuale pu` o assumere (do-
minio o supporto di una variabile casuale) si ` e soliti distinguere le variabili ca-
suali in assolutamente continue e discrete. Una variabile casuale continua (VCC)
assume valori appartenenti allinsieme dei numeri reali (o a suoi sottoinsiemi):
X : x A, A R
Le variabili casuali discrete (VCD) assumono valori discreti. Ad esempio la va-
riabile casuale numero di risultati testa nel lancio ripetuto 10 volte di una moneta
assume valori discreti compresi tra 0 e 10.
3.2 Distribuzione di probabilit` a
Per una variabile casuale ` e importante poter attribuire una misura connessa alla
probabilit` a del prodursi dei diversi risultati ammissibili. Ci ` o viene fatto tramite la
specicazione di una distribuzione di probabilit` a. La distribuzione di probabilit` a ` e
43
44 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
diversamente trattata a seconda che si consideri una VCC o una VCD. Nel caso di
una VCD ` e possibile attribuire ad ogni possibile realizzazione della VC un deter-
minato valore che misura la probabilit` a del prodursi di quel determinato evento. In
tal caso si parla di probabilit` a associata al valore x, che indichiamo con f(x):
f(x) = pr(X = x), x A,

x
i
A
f(x
i
) = 1.
Per le VCC invece si parla di densit` a di probabilit` a assegnata ad ogni punto
appartenente al supporto A della VC e si denisce la probabilit` a che la VC in
questione assuma valori compresi in un qualunque intervallo come:
_
b
a
f(x)dx = pr(a x b), a b
La funzione f(x) viene detta funzione di densit` a di probabilit` a. Si noti quindi
che per una VCC la probabilit` a di essere uguale ad un determinato valore ` e per
denizione nulla dato che:
prob(X = x
0
) =
_
x
0
x
0
f(x)dx = 0, x
0
In altri termini, la massa di probabilit` a sottesa da un unico punto ` e identicamen-
te nulla per ogni punto del supporto di una VCC, a prescindere dallentit` a della
densit` a di probabilit` a assegnata a tale punto. Questo perch` e lintegrale di una qua-
lunque funzione denito su di un intervallo di misura nulla ` e identicamente uguale
a zero.
3.3 Funzione di ripartizione
Per funzione di ripartizione di una variabile casuale X si intende la funzione che
per ogni valore x appartenente al dominio della variabile casuale assegna una mi-
sura della probabilit` a che la variabile casuale stessa assuma valori inferiori a x. In
termini formali abbiamo:
F(x) = pr(X x) =
_
x

f(t)dt
per una VCC e :
F(x) = pr(X x) =

x
i
x
f(x
i
)
per una VCD. Si noti che, ovviamente la funzione di ripartizione, sia per una VCC
che per VCD assume valori compresi nellinsieme [0,1]; in altri termini la funzione
di ripartizione ` e una funzione A [0, 1], ed in pi ` u valgono le seguenti propriet` a:
lim
x
F(x) = 0, lim
x+
F(x) = 1.
Le gure (3.1) e (3.2) presentano rispettivamente un esempio di funzione di ripar-
tizione per una VCC e la funzione di ripartizione di una VCD.
3.3. FUNZIONE DI RIPARTIZIONE 45
Figura 3.1: Funzione di ripartizione per VC discreta
F(x)
1
x
Figura 3.2: Funzione di ripartizione per VC continua
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
-3 -2 -1 0 1 2 3
46 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
3.4 Momenti di una variabile casuale
Il valore atteso di una VC ` e:
E(X) =

x
i
A
x
i
f(x
i
),
per una VCD, e:
E(X) =
_
+

xf(x)dx.
per una VCC. Loperatore E() che denisce loperatore atteso, dato che si riferi-
sce allapplicazione di unoperazione di sommatoria o di integrale ` e un operatore
lineare: data la VC x e le costanti a e b, si ha:
E (a +bx) = a +bE(x).
Il valore atteso costituisce la principale misura della posizione di una VC.
Per sintetizzare le caratteristiche principali di una VC si pu` o fare ricorso alla
mediana, vale a dire ad una misura di tendenza centrale. Per mediana si intende
quel valore x
med
appartenente al supporto della VC tale per cui:
pr(X < x
med
) = pr(X > x
med
) = 1/2.
La mediana x
med
` e diversamente denita a seconda che si tratti di VCC o VCD:
x
med
:
_
x
med

f(x)dx =
1
2
(VCC),
x
med
:

x
i
x
med
p(x
i
)
1
2
(VCD).
Pi ` u in generale ` e possibile denire quantile di una VC corrispondente al valore di
, 0 < < 1, quel valore x

in corrispondenza del quale la massa di probabilit` a


assegnata a valore minori di x

` e pari ad . In tal senso la mediana di una VC ` e


chiaramente il quantile corrispondente a = 1/2.
Un altro concetto rilevante per una VC ` e la moda. Per moda (o valore modale)
si intende un punto i massimo almeno locale della funzione di probabilit` a (se VCD)
o della funzione di densit` a di probabilit` a per una VCC. Ad esempio, se la funzione
di densit` a di una VCC X ammette un massimo interno nel punto x
mo
, tale punto ` e
valore modale per X ed in corrispondenza di esso abbiamo:
_
f(x)
x
_
x=x
mo
= 0.
A seconda che la VC ammetta uno o pi ` u valori modali viene detta unimodale o
multimodale.
3.5. LA DISTRIBUZIONE NORMALE 47
Unaltra importante classe di indicatori sono quelli che forniscono misure di
quanto grande ` e la variabilit` a insita nella VC in questione. Tali indicatori sono
detti misure della dispersione e tra esse assume particolare rilievo la varianza: per
varianza della VC X si intende il valore atteso dei quadrati delle deviazioni da
E(X):
v(X) =
_
+

[x E (x)]
2
f(x)dx (per una VCC),
v(X) =

x
i
A
[x
i
E (x)]
2
p(x) (per una VCD).
Si noti che sia nel caso di una VCC che di una VCD la varianza pu` o essere
alternativamente espressa come:
v(X) = E(X
2
) [E(X)]
2
,
vale a dire come differenza tra il valore atteso del quadrato di X e valore atteso di
X al quadrato. Questa espressione pu` o essere facilmente ottenuta sviluppando il
quadrato [X E (X)]
2
ed applicando il valore atteso a ciascun elemento.
Le propriet` a della varianza possono essere facilmente sintetizzate: data la VC
X e le costanti a e b, dalla denizione di varianza di X ` e possibile ricavare facil-
mente:
v(a +bX) = b
2
v(X).
Questo signica che aggiungere una costante ad una VC non ne modica la va-
rianza e moltiplicare questa VC per una costante b comporta lottenimento di una
varianza che ` e pari a b
2
volte quella della VC di partenza: la varianza ` e infatti un
operatore quadratico.
3.5 La distribuzione normale
In statistica ` e particolarmente diffuso il riferimento alla VC normale o gaussiana:
una VCC X si distribuisce come una normale o gaussiana con valore atteso e
varianza
2
(con notazione sintetica X N(,
2
)) se la sua funzione di densit` a
` e:
f(x) =
1

2
exp
_

1
2
2
(x )
2
_
, x R
1
.
Nella gura (3.5) viene rappresentata la funzione di densit` a di una VC X
N(,
2
). Si noti che ` e possibile notare che tale VC ha moda e mediana che coin-
cidono con , il valore atteso, e punti di esso corrispondenti a . Si noti pure
che la funzione di densit` a ha un asintoto orizzontale corrispondente allasse delle
ascisse:
lim
x
f(x) = lim
x+
f(x) = 0.
48 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
Figura 3.3: Funzione di densit` a normale con media 0 e varianza 1
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-3 -2 -1 0 1 2 3
Dens. normale standard
Una propriet` a importante delle VC normali ` e che qualsiasi trasformazione li-
neare di una VC normale ` e anchessa distribuita normalmente. Data infatti X
N(,
2
) e qualunque coppia di constanti a e b, abbiamo che:
Y = (a +bX) N(a +b, b
2

2
).
Ad esempio, se consideriamo:
a =

, b =
1

,
si ha:
Y =
1

(X ) N(0, 1)
La VC Y viene detta in questo caso normale standardizzata, vale a dire con valore
atteso nullo e varianza unitaria. Lottenimento di Y a partire di X viene detta
operazione di standardizzazione di un VC normale.
3.6 Inferenza statistica parametrica
Linferenza statistica parametrica consiste nel ricavare informazioni relative ai pa-
rametri incogniti della distribuzione di una popolazione a partire dallosservazio-
ne di un campione di ampiezza n (n-pla campionaria) di elementi estratti da tale
popolazione:
x
1
, x
2
, ..., x
n
.
3.7. PROPRIET
`
A DEGLI STIMATORI 49
Linferenza pu` o essere condotta con modalit` a differenti che si possono ricondurre
alle seguenti:
1. Stima puntuale
2. Stima per intervallo (costruzione di intervalli di condenza o intervalli du-
ciari).
3. Prova delle ipotesi.
Per stimatore si intende un valore sintetico delle informazioni contenute nelln-
pla campionaria. Ad esempio se si considera un campione di ampiezza n:
x
1
, x
2
, ..., x
n
,
uno stimatore possibile (e sensato) ` e la media campionaria, denita come:
x
n
=
1
n
n

i=1
x
i
Si noti che gli stimatori sono VC in quanto valori sintetici ottenuti sulla base
dellosservazione di un campione, e ciascuno degli elementi del campione ` e una
VC.
3.7 Propriet` a degli stimatori
3.7.1 Non distorsione o correttezza
Uno stimatore g(x
1
, x
2
, ...x
n
) (con questa notazione si intende sottolineare il fatto
che lo stimatore ` e una VC ottenuta come funzione delle variabili casuali elementi
del campione) viene detto non distorto o corretto per il parametro incognito della
popolazione che si vuole stimare se vale:
E [g(x
1
, x
2
, ...x
n
)] =
3.7.2 Efcienza
Il concetto di efcienza di uno stimatore, in relazione alla stima di un parametro
incognito della popolazione si riferisce alla precisione delle informazione relative
a che possono essere ottenute dallo stimatore utilizzato. La propriet` a dellef-
cienza di uno stimatore ` e un concetto relativo e pertiene agli stimatori appartenenti
ad una determinata classe. Si considerino ad esempio gli stimatori non distorti.
Lo stimatore g(x
1
, x
2
, ...x
n
) appartenente a tale classe che ha varianza minima
viene detto stimatore efciente (stimatore MVUE: Minimum Variance Unbiased
Estimator: stimatore corretto a varianza minima).
50 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
Nella classe degli stimatori lineari e corretti, lo stimatore pi` u efciente viene
detto BLUE ( Best Linear Unbiased Estimator, migliore stimatore lineare corretto).
Ad esempio, avendo a disposizione un campione di n = 10 elementi estratti
in modo identico ed indipendente da una popolazione distribuita normalmente con
momenti entrambi incogniti:
x
i
N(,
2
), i = 1, 2, ..10,
x
i
|
x
j
i ,= j.
Si considerino gli stimatori:
g
10
(x
1
, x
2
, ...x
10
) =
1
10
10

i=1
x
i
,
g
7
(x
1
, x
2
, ...x
10
) =
1
7
7

i=1
x
i
,
Notiamo che entrambi gli stimatori sono corretti:
E [g
10
(x
1
, x
2
, ...x
10
)] =
1
10
10

i=1
E (x
i
) =
1
10
10

i=1
= ,
E [g
7
(x
1
, x
2
, ...x
10
)] =
1
7
7

i=1
= ,
ed ` e possibile mostrare che:
V [g
10
(x
1
, x
2
, ...x
10
)] =
1
100
10

i=1
V (x
i
) =
1
100
10

i=1

2
=
1
10

2
,
V [g
7
(x
1
, x
2
, ...x
10
)] =
1
49
7

i=1
V (x
i
) =
1
49
7

i=1

2
=
1
7

2
.
Il pi ` u efciente tra questi due stimatori ` e quindi g
10
(x
1
, x
2
, ...x
10
), dato che ha va-
rianza pi ` u bassa. Si noti che questo non ` e sorprendente dato che g
10
(x
1
, x
2
, ...x
10
)
utilizza tutte le informazioni provienienti dal campione mentre g
7
(x
1
, x
2
, ...x
10
)
non assegna alcun ruolo allinformazione proveniente dalle osservazioni x
8
, x
9
e
x
10
.
3.7.3 Consistenza
La consistenza ` e una propriet` a asintotica, vale a dire che riguarda il comportamento
degli stimatori per campioni di grande ampiezza (n ).
3.7. PROPRIET
`
A DEGLI STIMATORI 51
Uno stimatore g() viene detto consistente per il parametro incognito della
popolazione se per ogni coppia di valori > 0 e > 0, esiste un ampiezza
campionaria n
0
tale per cui:
prob [[g
n
[ < ] > 1 , n > n
0
.
In altri termini:
lim
n
pr [[g
n
[ < ] = 1, > 0
Altre notazioni equivalenti per esprimere la consistenza sono:
g
n
p
, plim(g
n
)
La consistenza di uno stimatore pu` o quindi essere indicata come la convergenza in
probabilit` a di tale stimatore al valore incognito dei parametri da stimare.
Perch` e si abbia consistenza ` e necessario che:
lim
n
E (g
n
)
2
= 0
Uno stimatore distorto pu` o essere consistente purch` e sia asintoticamente non di-
storto:
lim
n
E(g
n
) = .
`
E possibile enumerare le principali propriet` a delloperatore plim:
plim
_
n

i=1
c
i
x
i
_
=
n

i=1
c
i
plim(x
i
) ,
plim
_
n

i=1
x
i
_
=
n

i=1
plim(x
i
) ,
plim
_
x
1
x
2
_
=
plim(x
1
)
plim(x
2
)
, se plim(x
2
) ,= 0,
plim(g(x)) = g (plim(x)) se la funzione g () ` e continua in plim(x)
3.7.4 La legge dei grandi numeri (Versione pi ` u semplice)
Si consideri un campione di n elementi estratti indipendentemente da una distribu-
zione con valore atteso e varianza
2
:
x
1
, x
2
, ...x
n
i.i.d.(,
2
)
Si consideri la media campionaria:
x
n
=
1
n
n

i=1
x
i
52 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
La legge dei grandi numeri ci assicura che la media campionaria converge in
probabilit` a al valore atteso incognito della popolazione:
p lim(x
n
) =
3.7.5 Teorema centrale del limite
Consideriamo le stesse ipotesi che abbiamo avanzato a proposito della legge dei
grandi numeri, vala a dire che ci sia un campione di n elementi estratti in modo
indipendente dalla stessa popolazione con valore atteso e varianza
2
:
x
1
, x
2
, ...x
n
i.i.d.(,
2
)
Se consideriamo la variabile casuale:
z
n
=

(x
n
)
e con f(z
n
) indichiamo la sua funzione di densit` a di probabilit` a, il teorema centrale
del limite (TCL) afferma che al crescere di n la funzione di densit` a di z
n
converge
a quella dellaVC gaussiana standardizzata:
lim
n
f (z
n
) = (z
n
)
dove () ` e la funzione di densit` a della VC normale standardizzata N(0, 1). Con
notazione del tutto equivalente si pu` o affermare che:
z
n
d
z N(0, 1).
La notazione
d
indica convergenza in distribuzione e si dice che z
n
converge in
distribuzione ad una VC normale standardizzata. Il TCL si pu` o parimenti enun-
ciare nei termini della funzione di ripartizione: denendo F(z
n
) la funzione di
ripartizione di z
n
, il TCL afferma che al crescere di n la funzione di ripartizione di
z
n
converge a quella dellaVC gaussiana standardizzata:
lim
n
F (z
n
) = (z
n
)
dove () ` e la funzione di ripartizione della VC normale standardizzata N(0,1).
In altri termini, qualunque sia la distribuzione della popolazione X, la VC z
n
(la media campionaria standardizzata) ha una distribuzione limite che coincide con
quella della Normale standardizzata. Ad esempio, se consideriamo la seguente VC
(VC bernoulliana):
X =
_
0 con probabilit` a 1 p
1 con probabilit` a p, 0 < p < 1
_
3.8. VARIABILI CASUALI IN PI
`
U DIMENSIONI 53
sappiamo che:
E(X) = p, V (X) = p(1 p),
E(x
n
) = p, V (x
n
) =
p(1 p)
n
Quindi, applicando il TCL si ottiene:
z
n
=

n(x
n
p)
_
p(1 p)
d
N(0, 1)
3.8 Variabili casuali in pi ` u dimensioni
Si consideri il vettore (2 1) x :
x =
_
x
1
x
2
_
dove sia x
1
che x
2
sono due variabili casuali, per semplicit` a di esposizione conti-
nue. Il vettore x pu` o essere quindi denito una variabile casuale bidimensionale.
Con riferimento ad x ` e possibile denire:
La distribuzione congiunta di x
1
e x
2
:
f(X) = f(x
1
, x
2
)
Le distribuzioni marginali di x
1
e x
2
:
f(x
1
) =
_
+

f(x
1
, x
2
)dx
2
f(x
2
) =
_
+

f(x
1
, x
2
)dx
1
Le distribuzioni condizionali di x
1
condizionata a x
2
e di x
2
condizionata ad
x
1
:
f(x
1
[x
2
) =
f(x
1
, x
2
)
f(x
2
)
f(x
2
[x
1
) =
f(x
1
, x
2
)
f(x
1
)
Si ha indipendenza statistica tra x
1
e x
2
quando la distribuzione condizionata di
x
1
dato x
2
coincide con la distribuzione marginale di x
1
; oppure, in termini equiva-
lenti quando la distribuzione di x
2
condizionata su x
1
coincide con la distribuzione
marginale di x
2
:
f(x
1
[x
2
) = f(x
1
) f(x
2
[x
1
) = f(x
2
).
54 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
Si noti che le due condizioni di cui sopra sono del tutto equivalenti, data la de-
nizione di densit` a di probabilit` a condizionale, e da questo si evince la natura sim-
metrica del concetto di indipendenza statistica: dire che x
1
` e indipendente da x
2
equivale ad affermare che x
2
` e indipendente da x
1
:
f(x
1
[x
2
) = f(x
1
)
f(x
1
, x
2
)
f(x
2
)
= f(x
1
)
f(x
1
, x
2
) = f(x
1
)f(x
2
),
f(x
2
[x
1
) = f(x
2
)
f(x
1
, x
2
)
f(x
1
)
= f(x
2
)
f(x
1
, x
2
) = f(x
1
)f(x
2
).
Entrambe le condizioni possono essere riscritte come la condizione che la den-
sit` a di probabilit` a congiunta sia pari al prodotto tra le densit` a marginali per ogni
coppia di valori x
1
e x
2
appartenenti al dominio di X.
3.8.1 La covarianza
La covarianza misura quanto due variabili casuali tendano ad essere legate tra loro
in modo lineare. La covarianza tra le variabili casuali x
1
, x
2
` e denita come:
Cov(x
1
, x
2
) = E [x
1
E (x
1
)] [x
2
E (x
2
)]
` e facile mostrare che:
Cov(x
1
, x
2
) = E [x
1
E (x
1
)] [x
2
E (x
2
)] =
= E x
1
x
2
x
1
E (x
2
) x
2
E (x
1
) +E (x
1
) E (x
2
) =
E(x
1
x
2
) E (x
1
) E (x
2
)
La covarianza tra x
1
e x
2
assume valori che sono compresi tra
_
V (x
1
)V (x
2
)
e +
_
V (x
1
)V (x
2
). Per questo ` e possibile costruire una misura relativa della di-
pendenza lineare tra x
1
e x
2
opportunamente scalando la covarianza: si costruisce
in questo modo lindice di correlazione lineare:
=
Cov(x
1
, x
2
)
_
V (x
1
)V (x
2
)
In assenza di correlazione lindice sar` a pari a zero. Quando due variabili
casuali sono perfettamente correlate in senso positivo lindice di correlazione sar` a
pari a uno e in caso di perfetta correlazione negativa lindice sar` a pari a -1.
La correlazione quindi deve essere intesa come misura della dipendenza lineare
tra due variabili casuali. Si noti che lindipendenza statistica implica assenza di
correlazione. Infatti date x
1
e x
2
se x
1
e x
2
sono indipendenti si avr` a:
Cov(x
1
, x
2
) = E(x
1
x
2
) E (x
1
) E (x
2
) =
3.9. DISTRIBUZIONE NORMALE MULTIVARIATA 55
=
_
+

_
+

x
1
x
2
f(x
1
, x
2
)dx
1
dx
2
E (x
1
) E (x
2
) =
=
_
+

_
+

x
1
x
2
f(x
1
)f(x
2
)dx
1
dx
2
E (x
1
) E (x
2
) =
=
_
+

x
1
f(x1)dx
1
_
+

x
2
f(x2)dx
2
E (x
1
) E (x
2
) =
= E (x
1
) E (x
2
) E (x
1
) E (x
2
) = 0
Lassenza di correlazione non implica per` o lindipendenza statistica tra due
variabili casuali
1
: x
1
e x
2
possono essere non indipendenti in senso statistico ma
con correlazione nulla qualora il legame di dipendenza tra le due variabili sia di
tipo non lineare.
3.9 Distribuzione normale multivariata
La variabile casuale n-variata x, dove x ` e un vettore (n 1) di variabili casuali,
ha distribuzione Normale n-variata e si indica tale propriet` a come:
x
(n1)
=
_

_
x
1
x
2
...
x
n
_

_
N
_

(n1)
,

(nn)
_
dove ` e un vettore (n 1) i cui singoli elementi sono i valori attesi dei corri-
spondenti elementi di x e ` e una matrice (nn) simmetrica almeno semidenita
positiva:
=
_

_
E(x
1
)
E(x
2
)
...
E(x
n
)
_

_
=
_

2
...

n
_

_
,
= E
_
(X) (X)

=
1
Nel caso di due variabili casuali distribuite normalmente, lassenza di correlazione implica
lindipendenza statistica. Vedi oltre.
56 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
=
_

_
E
_
(x
1

1
)
2
_
... E [(x
1

1
) (x
n

n
)]
E [(x
2

2
) (x
1

1
)] ... E [(x
2

2
) (x
n

n
)]
... ... ...
E [(x
n

n
) (x
1

1
)] ... E
_
(x
n

n
)
2
_
_

_
=
=
_

_
v(x
1
) ... cov(x
1
, x
n
)
cov(x
2
, x
1
) ... cov(x
2
, x
n
)
... ... ...
cov(x
n
, x
1
) ... v(x
n
)
_

_
=
_

11

12
...
1n

21

22
...
2n
... ... ... ...

n1

n2
...
nn
_

_
,

ji
=
ij
i, j.
La funzione di densit` a di x pu` o essere scritta come:
f(x) =
_
1

2
_
n
[[
1/2
exp
_

1
2
(x )

1
(x )
_
,
f(x) : R
n
R
1
+
Dalla distribuzione congiunta ` e possibile ottenere le distribuzioni condizionali
e marginali di sottoinsiemi di x. Ad esempio, partizionando il vettore x nel modo:
x =
_

_
x
1
(n
1
1)
x
2
(n
2
1)
_

_
, n
1
+n
2
= n
Partizionando nello stesso modo il vettore e la matrice :
=
_

1
(n
1
1)

2
(n
2
1)
_

_
, =
_

11
(n
1
n
1
)

12
(n
1
n
2
)

21
(n
2
n
1
)

21
(n
2
n
2
)
_

_
,

21
=

12
riusciamo a denire le distribuzioni marginali di x
1
e x
2
:
x
1
N(
1
,
11
),
x
2
N(
2
,
22
),
e le distribuzioni condizionali di x
1
dato x
2
e di x
2
dato x
1
:
x
1
[x
2
N(

1
,

11
),

1
=
1
+
12

1
22
(x
2

2
) ,

11
=
11

12

1
22

21
,
x
2
[x
1
N(

2
,

22
),

2
=
2
+
21

1
11
(x
1

1
) ,

22
=
22

21

1
11

12
,
3.10. ALCUNE DISTRIBUZIONI NOTEVOLI 57
Si noti che nel caso di assenza di correlazione tra x
1
e x
2
,quando cio` e la
matrice delle covarianze tra gli elementi di x
1
e gli elementi di x
2
` e nulla:

12
= E
_
(x
1

1
) (x
2

2
)

= [0]
(n
1
n
2
)
,
la distribuzione di x
1
condizionata a x
2
coincide con la distribuzione marginale di
x
1
e la distribuzioni di x
2
condizionata a x
1
coincide con la distribuzione marginale
di x
2
:

2
=
2
,

22
=
22
,

1
=
1
,

11
=
11
,
in altri termini si ha indipendenza statistica tra x
1
e x
2
. Nel caso in cui trattiamo
una VC n-dimensionale gaussiana, lassenza di correlazione lineare ` e sinonimo di
indipendenza statistici tra i blocchi di x che hanno covarianze nulle.
3.10 Alcune distribuzioni notevoli
3.10.1 La distribuzione
2
Date n variabili casuali indipendenti ed identicamente distribuite come normali
standardizzate:
x
1
, x
2
, ...x
n
, f(x
1
, x
2
, ..., x
n
) =
n

i=1
f(x
i
),
x
i
N(0, 1), i = 1, 2, ..., n,
la VC ottenuta come somma di queste variabili al quadrato ha distribuzione
2
n
(chi-quadro con n gradi di libert` a):
z =
n

i=1
x
2
i

n
, z R
1
+
.
Si noti che dal modo in cui ricaviamo la distribuzione
2
` e possibile dedurre che
a partire da due VC z
1
e z
2
indipendenti aventi entrambe distribuzione
2
rispet-
tivamente con n
1
e n
2
gradi di libert` a, la VC risultante dalla somma ` e anchessa
distribuita come una
2
con n = n
1
+n
2
gradi di libert` a:
z
1

2
n
1
, z
2

2
n
2
z = z
1
+z
2

2
n
1
+n
2
.
Una distribuzione
2
k
con k gradi di libert` a assume valori solamente positivi ed ha
una funzione di densit` a con le propriet` a descritte dalla Figura (3.4).
3.10.2 La distribuzione t di Student
Data una VC x, distribuita come una normale standardizzata:
x N(0, 1)
58 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
Figura 3.4: Funzione di densit` a di VC
2
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.2
0 2 4 6 8 10 12 14 16 18 20
4 gdl
8 gdl
e data una seconda VC y indipendente da x e distribuita come una
2
n
:
f(x, y) = f(x)f(y), y
2
n
si denisca la VC:
z =
x
_
y/n
La VC Z ` e distribuita come una t di Student con n gradi di libert` a:
Z t
n
.
La distribuzione t di Student, la cui funzione di densit` a ` e rappresentata nella
Figura (3.5) per diversi valori di n, ` e chiaramente molto simile ad una distribuzione
gaussiana standardizzata, vale a dire ` e simmetrica intorno a zero e assegna densit` a
di probabilit` a molto bassi a valori distanti da zero. Confrontandola con la distribu-
zione Gaussiana standardizzata, ` e possibile concludere che la densit` a t di Student
tende ad assegnare densit` a di probabilit` a pi ` u alte ai valori sulle code rispetto alla
distribuzione normale standardizzata. Per questo motivo si dice che la distribuzio-
ne t di Student ha le code spesse (fat tails nella dizione inglese). Le propriet` a
3.10. ALCUNE DISTRIBUZIONI NOTEVOLI 59
Figura 3.5: Funzione di densit` a di VC t di Student
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-3 -2 -1 0 1 2 3
2 gdl
80 gdl
essenziali della distribuzione t di Student sono le seguenti:
E(Z) = 0,
v(Z) = E(Z
2
) =
n
n 2
,
se n > 2, altrimenti la varianza non esiste,
lim
n
f(Z) = (Z).
Quindi al crescere del numero dei gradi di libert` a la distribuzione converge in
distribuzione a quella di una VC normale standardizzata.
3.10.3 La distribuzione F di Fisher
Date due variabili casuali X
1
e X
2
statisticamente indipendenti tra loro ed entram-
be distribuite come
2
rispettivamente con n
1
e
n2
gradi di libert` a:
X
1

2
n
1
, X
2

2
n
2
, f(x
1
, x
2
) = f(x
1
)f(x
2
),
la VC Z:
Z =
X
1
/n
1
X
2
/n
2
F
n
1
,
n
2
si distribuisce come una F di Fisher con n
1
gradi di libert` a al numeratore e n
2
gradi libert` a al denominatore. Ovviamente il supporto di z ` e limitato a R
1
+
, dato
che si tratta del rapporto tra grandezze necessariamente positive. Le propriet` a della
funzione di densit` a della distribuzione F sono rappresentate nella gura (3.6).
60 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
Figura 3.6: Funzione di densit` a di VC F di Fischer
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
3-50 gdl
8-50 gdl
3.11 La funzione di verosimiglianza
Sia x
1
, x
2
, ..., x
n
un campione di n elementi estratti in modo indipendente ed iden-
ticamente dalla stessa popolazione (indicati come IID, cio` e distribuiti identica-
mente e indipendentemente) la cui densit` a indichiamo con f(x, ) ad indicare che
tale densit` a ` e descritta dal vettore (k 1) di parametri incogniti :
x
1
, x
2
, ...x
n
IID, f(x
i
, ),i = 1, 2, ..., n.
Data lipotesi di indipendenza tra i diversi elementi del campione possiamo scrivere
la funzione di densit` a del campione come:
f(x
1
, x
2
, ...x
n
, ) =
n

i=1
f(x
i
, )
Ad esempio, se la popolazione fosse distribuita normalmente con valore atteso
e varianza
2
, potremmo scrivere:
f(x
1
, x
2
, ...x
n
, ) = (2)
n/2

n
exp
_

1
2
2
n

i=1
(x
i
)
2
_
, =
_

_
Questa ` e la funzione di densit` a delln pla campionaria sulla base dei parametri
della popolazione e . Questa funzione pu` o essere vista sotto un diverso punto
3.11. LA FUNZIONE DI VEROSIMIGLIANZA 61
Figura 3.7: Funzione di verosimiglianza di
0
0.002
0.004
0.006
0.008
0.01
0.012
-3 -2 -1 0 1 2 3
Si assume che
2
sia noto e pari a 1.
di vista, cio` e come una funzione del valore dei parametri stessi e quindi come
funzione di verosimiglianza:
L(x
1
, x
2
, ...x
n
, ) = (2)
n/2

n
exp
_

1
2
2
n

i=1
(x
i
)
2
_
. (3.1)
Questa funzione esprime la verosimiglianza che ln-pla campionaria osservata sia
stata estratta in modo IID da una distribuzione normale con parametri e
2
. Ad
esempio, dato il campione di ampiezza n = 5:
x
1
= 1.2, x
2
= 1.4, x
3
= 1.6, x
4
= 0.8, x
5
= 0.4,
assumendo per semplicit` a che sia noto e pari a 1, possiamo calcolare in relazione
a diversi valori di il valore di (3.1) (si veda la gura 3.7) ed effettivamente si
ha che la verosimiglianza calcolata in corrispondenza di = 0.5 ` e pari a 0.0027,
e calcolata in corrispondenza di = 3 ` e pari a (6.318) 10
7
, indicando in
questo modo che il valore = 0.5 ` e molto pi ` u verosimile del valore = 3. In
altri termini, sulla base del campione analizzato, ` e molto pi` u verosimile che i dati
osservati siano stati generati da una distribuzione normale con valore atteso pari a
0.5, che da una distribuzione normale con valore atteso pari a 3.
62 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
3.12 Stima di massima verosimiglianza
Dato un certo campione x
1
, x
2
, ...x
n
estratti a una determinata popolazione di cui
si conosce la forma funzionale della funzione di densit` a f(x, ), che dipende da un
vettore di parametri incogniti , la stima di massima verosimiglianza consiste nel
cercare quei valori dei parametri del modello che rendono lestrazione de campione
osservato il pi` u possibile verosimile. In altri termini, si massimizza la funzione di
verosiglianza rispetto ai parametri da stimare:
Max

L(x
1
, x
2
, ...x
n
, ).
La soluzione

viene indicata come stimatore di massima verosimiglianza di .
Spesso si ricorre allespediente di massimizzare il logaritmo della funzione di
verosimiglianza, la cosiddetta funzione di log-verosimiglianza, al ne di ottenere
condizioni del primo ordine pi` u semplici. Si ricordi infatti che se una funzione
viene sottoposta ad una trasformazione monotonica conserva i punti di massimo e
di minimo della funzione di partenza. Ad esempi per il caso di un campione di n
elementi estratti in modo IID da una popolazione normale N(,
2
), la funzione
di log-verosimglianza ` e:
log L(x
1
, x
2
, ...x
n
, ,
2
) =
n
2
log (2) nlog()
1
2
2
n

i=1
(x
i
)
2
.
Le condizioni del primo ordine sono quindi:
log L(x
1
, x
2
, ...x
n
, ,
2
)

= 0
2
2
2
n

i=1
(x
i
) = 0
= x
n
, x
n
=
1
n
n

i=1
x
i
log L(x
1
, x
2
, ...x
n
, ,
2
)

= 0
n

+
1

3
n

i=1
(x
i
)
2
= 0

2
=
1
n
n

i=1
(x
i
)
2
Si noti che lo stimatore del valore atteso ` e non distorto e consistente:
E(x
n
) = , v(x
n
) =

2
n
3.13 Metodo dei momenti
Il medodo dei momenti ` e una modalit` a di stima che ` e utilizzata quando linteres-
se del ricercatore ` e concentrato sullottenimento di stime consistenti. Il metodo
3.14. PROPRIET
`
ADEGLI STIMATORI OTTENUTI PERCAMPIONAMENTODAUNADISTRIBUZIONE GAUSSIANA63
dei momenti consiste nelluguagliare i momenti teorici della distribuzione da cui
proviene i campione ai momenti campionari. Dato che i momenti teorici della po-
polazione dipendono dai parametri incogniti della popolazione, si risolve rispetto
ai parametri incogniti e si ottiene una stima dei parametri della popolazione. Ad
esempio, supponiamo di avere:
x
1
, x
2
, ...x
n
I.I.D., f(x
i
, )i = 1, 2, ..., n.
e la popolazione si distribuisce come una t- di Student con gradi di libert` a e ` e
incognito. Sapendo che per una variabile casuale z distribuita come una t di Student
con gradi di libert` a vale:
E(z) = 0, V (z) =

2
, > 2,
` e possibile per stimare ricavare la varianza campionaria e uguagliarla alla va-
rianza della popolazione, ed ottenere una stima di esplicitando rispetto a tale
parametro:
S
2
=

2
= 2
S
2
S
2
1
3.14 Propriet` a degli stimatori ottenuti per campionamen-
to da una distribuzione gaussiana
Supponiamo di avere un campione di n elementi x
1
, x
2
, ..., x
n
estratti in modo
IID da una popolazione avente distribuzione normale N(,
2
). Si ricordino le
denizioni di media e di varianza campionaria:
x
n
=
1
n
n

i=1
x
i
,
S
2
=
1
n 1
n

i=1
(x
i
)
2
Abbiamo visto che ` e facile denire le propriet` a della media campionaria e stabilire
che:
x
n
N
_
,

2
n
_
e quindi ` e possibile standardizzare x
n
ottenendo:

(x
n
) N (0, 1) .
Daltro canto ` e possibile mostrare che S
2
si distribuisce indipendentemente da
x
n
e che:
(n 1)
S
2

2

2
n1
64 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
Quindi ` e possibile ricavare che vale:

(x
n
)
_
(n 1)
S
2

2
/(n 1)
=

n
S
(x
n
) t
n1
Quindi si pu` o standardizzare anche quando non si conosce utilizzandone una
sua stima corretta ed in questo modo si ottiene una VC la cui distribuzione ` e nota
e tabulata.
Nel caso in cui il campione fosse estratto in modo IID da una distribuzione
non normale, abbiamo visto che al crescere di n possiamo contare sul risultato
fornito dal teorema centrale del limite:
lim
n
f (z
n
) = (z
n
), z
n
=

(x
n
)
e quindi possiamo ritenere che per n sufcientemente grande (per molti problemi
comuni n > 100 osservazioni), si abbia:

n
S
(x
n
) N (0, 1)
dove con il simbolo si indica si distribuisce approssimativamente come. quin-
di per n sufcientemente grande possiamo ritenenre valida il risultato di normalit` a
della media campionaria asintoticamente alla grandezza

n
S
(x
n
) verr` a consi-
derata come distribuita normalmente dato che la distribuzione t di Student converge
in distribuzione alla Normale standardizzata al crescere di n.
3.15 Stima per intervallo
Volendo stimare un parametro incognito sulla base di un campione di ampiezza
n, x
1
, x
2
, ..., x
n
, si immagini di costruire due funzioni delln-pla campionaria:
g
1
(x
1
, x
2
, ..., x
n
), g
1
() : R
n
R
1
,
g
2
(x
1
, x
2
, ..., x
n
), g
2
() : R
n
R
1
con la propriet` a:
pr [g
1
(x
1
, x
2
, ..., x
n
) g
2
(x
1
, x
2
, ..., x
n
)] = ,
dove il valore di ` e dato ed ` e denominato livello di condenza o duciario. Lin-
tervallo denito dalle funzioni g
1
() e g
2
() viene detto intervallo duciario o di
condenza.
Ad esempio ,dato il campione:
x
1
, x
2
, ..., x
n
IIDN(,
2
)
3.15. STIMA PER INTERVALLO 65
Figura 3.8: Quantili corrispondenti al 5% e al 95% per una VC
2
19
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0 5 10 15 20 25 30 35 40 45 50
se abbiamo:
n = 20, x
n
= 5, S
2
= 9
ricordando che:
(n 1)
S
2

2

2
n1
e scegliendo ad esempio =0.90 (90% ), si ha che:
Pr
_
z
n1
(0.05) (n 1)
S
2

2
z
n1
(0.95)
_
= 0.90
Pr
_
(n 1)
S
2
z
n1
(0.95)

2
(n 1)
S
2
z
n1
(0.95)
_
= 0.90
Pr
_
(19)
9
30.144

2
(19)
9
10.117
_
= 0.90
Pr
_
5.67
2
16.90

= 0.90
dove z
n1
(0.05) = 10.117 e z
n1
(0.95) = 30.144 sono i quantili corrispondenti
rispettivamente a 0.05 e 0.95 di una variabile casuale
2
19
che sono ricavabili dalla
consultazione delle tavole statistica della distribuzione
2
. (si veda la Figura 3.8).
Dalla considerazione precedente si ricava che:
Pr
_
(n 1)
S
2
z
n1
_
1
2
_
2
(n 1)
S
2
z
n1
_
1
1
2
_
_
=
In questo modo si ottiene lintervallo di condenza al livello di condenza per la
varianza nel caso in cui il campione sia di elementi IID estratti da una popolazione
66 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
normale. Per dimostrare di aver capito il concetto di intervallo duciario il lettore
dovrebbe provare a costruire un intervallo di condenza al livello 95% per il valore
atteso incognito della popolazione .
3.16 Prova delle ipotesi
Supponiamo di avere un campione x
1
, x
2
, ..., x
n
di elementi tratti da una popola-
zione distribuita normalmente con valore atteso e varianza
2
, dal quale si siano
ricavati i seguenti indicatori sintetici:
x
n
= 0.52, S
2
n
= 0.09, n = 20.
Si immagini che il ricercatore formuli unipotesi relativa al parametro incognito
formalizzata come la congettura che sia pari ad un determinato valore
0
(ad
esempio
0
= 3). Per ipotesi statistica parametrica (nellaccezione di Neyman e
Pearson, gli statistici che hanno formulato lo schema concettuale della prova delle
ipotesi) si intende quindi unaffermazione relativa ad un certo parametro incognito
della popolazione. Si possono avere ipotesi puntuali (come ad esempio = 0.6),
oppure ipotesi che riguardino un intervallo di valori per un parametro incognito,
come ad esempio:
0.55 0.60.
Si possono avere ipotesi semplici che riguardano un singolo parametro della popo-
lazione e ipotesi composte che riguardano pi ` u parametri congiuntamente.
Per prova delle ipotesi si intende una procedura statistica per vericare se una
determinata ipotesi possa essere accettata o meno. La procedura di prova delle ipo-
tesi si basa sulla formulazione di unipotesi di interesse, chiamata ipotesi nulla (in-
dicata comeH
0
) e di unipotesi alternativa (indicata comeH
1
) che viene specicata
appunto come alternativa a H
0
. Ad esempio lipotesi:
H
0
: = 0.6
pu` o essere provata avendo come riferimento lipotesi alternativa:
H
1
: = 0.7.
La prova statistica di ipotesi ` e quindi un criterio decisionale per scegliere tra H
0
e H
1
. In connessione ad entrambe scelte ` e possibile commettere due tipi distinti
di errore. Il primo tipo di errore consiste nel riutare H
0
quando lipotesi H
0
` e vera. Il secondo tipo di errore consiste nel riutare H
1
quando lipotesi H
1
` e
vera. Immaginiamo di utilizzare un determinato criterio per scegliere tra accettare
o meno H
0
e si deniscano come probabilit` a dellerrore di prima specie e la
probabilit` a dellerrore di seconda specie. Il complemento a uno della probabilit` a
dellerrore di seconda specie viene chiamato potenza del test (1 ) e misura la
probabilit` a di correttamente riutare unipotesi nulla H
0
non vera.
3.16. PROVA DELLE IPOTESI 67
Figura 3.9: Distribuzioni sotto H
0
e H
1
di una statistica utilizzata per condurre
prova di ipotesi
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
2 0 2 4 6
La gura sulla destra rappresenta la distribuzione sotto H
0
mentre la gura sulla sinistra rappresen-
ta la distribuzione sotto H
1
. La semiretta verticale corrisponde al valore critico utilizzato. Quindi
larea alla destra di tale valore, sottesa alla distribuzione sotto H
0 ` e pari ad (errore di prima spe-
cie), mentre larea alla sinistra di tale valore, sottesa alla distribuzione sotto H
1 ` e pari ad (errore
di seconda specie)
68 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
Figura 3.10: Esempio sulla prova di ipotesi sul valore atteso: test a una coda
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
4 3 2 1 0 1 2 3 4
Neyman e Pearson propongono un criterio per decidere quando accettare o
riutare H
0
in modo tale che scelto , la probabilit` a dellerrore di prima specie si
minimizza , la probabilit` a dellerrore di seconda specie. Ad esempio, nella Figura
(3.9) notiamo le distribuzioni sotto H
0
e H
1
di una statistica utilizzata per condurre
prova delle ipotesi.
A proposito dellesempio riportato allinizio di questa sezione, ipotizzando che
sia soggetta a prova lipotesi H
0
: =
0
contro H
1
: >
0
, sappiamo che:

n
x
n

N(0, 1),
(n 1)
S
2

2

2
n1
=

n
x
n

S
t
n1
Quindi possiamo ricavare:
pr ( a) = 0.95
pr
_

n
x
n

S
t
n1
0.05

H
0
_
= 0.95
pr
_

n
x
n

0
S
t
n1
0.05
_
= 0.95.
3.16. PROVA DELLE IPOTESI 69
Figura 3.11: Esempio sulla prova di ipotesi sul valore atteso: test a due code
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
4 3 2 1 0 1 2 3 4
In questo contesto ` e quindi possibile utilizzare criterio per condurre la prova
delle ipotesi la seguente regola: se la VC:

n
x
n

0
S
risulta minore di t
n1
0.05
si accetta H
0
; viceversa si riuta H
0
. Si noti che tale criterio
` e connesso naturalmente ad una probabilit` a dellerrore di prima specie pari a =
0.05.
Nel nostro caso abbiamo:

n
x
n

0
S
=

20
0.52 0.6
0.3
= 1.1926,
t
n1
0.05
= 1.729,
ed quindi ` e possibile accettare H
0
(si veda Figura 3.10).
Nel caso lipotesi alternativa fosse stata specicata come: H
1
: ,=
0
, avrem-
mo ricavato:
pr
_
t
n1
0.025

n
x
n

S
t
n1
0.025

H
0
_
= 0.95
pr
_
t
n1
0.025

n
x
n

0
S
+t
n1
0.025
_
= 0.95.
In questo modo si costruisce una criterio decisionale in base al quale i punti:
t
n1
0.025
, t
n1
0.025
2.093, +2.093
70 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
costituiscono gli estremi di un intervallo allinterno del quale se cade la VC:

n
x
n

0
S
si perviene allaccettazione di H
0
, avendo probabilit` a di errore di prima specie pari
a = 0.05 (si veda la gura 3.11). Nel nostro esempio abbiamo:

n
x
n

0
S
= 1.1926,
e quindi si accetta H
0
. In questo caso si parla di test a due code mentre per il test
utilizzato per vericare H
0
contro H
1
: > 0 si parla di test ad una coda.
3.17 Esercizi
1. Data la seguente distribuzione normale bivariata:
x =
_
x
1
x
2
_
N [, ] , =
_

1

2
_
, =
_

11

12

12

22
_
Dimostrare che la distribuzione marginale di x
1
e la distribuzione condizio-
nale di x
2
dato x
1
sono normali. (esercizio difcile ma istruttivo).
2. Dato il seguente campione di elementi estratti in modo IID da una distribu-
zione normale con momenti e
2
:
x
1
= 1.3, x
2
= 2.1, x
3
= 0.4, x
4
= 1.3, x
5
= 0.5,
x
6
= 0.2, x
7
= 1.8, x
8
= 2.5, x
9
= 1.9, x
10
= 3.2.
(a) si calcolino media, mediana e varianza campionaria.
(b) Si verichino le seguenti ipotesi:
H
0
: = 2,
H
0
: = 0.7,
H
0
:
2
= 0.5,
(per le ipotesi sul valore atteso si calcolino i test a una coda e quelli a
due code).
(c) Si trovino gli intervalli di condenza al 95% per e
2
.
3. Dato un campione di ampiezza n estratto da una popolazione avente la se-
guente distribuzione:
f(x) = exp(x), x R
1
+
, > 0.
3.17. ESERCIZI 71
(a) Si scriva la funzione di verosimiglianza del campione e si ricavi lo sti-
matore di massima verosimiglianza di . Quale stimatore si otterrebbe
utilizzando il metodo dei momenti?
4. Dato il vettore (p 1) x:
x N(, )
(a) ottenere una trasformazione lineare di x che sia distribuita nel seguente
modo:
y N(0, I
p
).
5. Immaginamo di avere a disposizione un programma che genera estrazioni
da una distribuzione che pu` o assumere solo valori pari a uno o a zero con
probabilit` a rispettivamente pari a p e 1 p (distribuzione bernoulliana:
x = 1 con probabilit` a pari a p, 0 p 1
x = 0 con probabilit` a pari a 1-p.
Descrivere come sarebbe possibile ottenere estrazioni casuali da una di-
stribuzione normale standardizzata, sfruttando le note propriet` a di grandi
campioni.
6.
`
E estratto un campione di 30 elementi IID da una distribuzione incognita.
Si ipotizzi che in relazione al campione osservato si abbia:
x
30
=
1
30
30

i=1
x
i
= 0.07,
S
2
=
1
29
30

i=1
(x
i
x
30
)
2
= 0.112.
Calcolare un intervallo di condenza approssimativo al 95% per il valore
atteso incognito della popolazione facendo riferimento al teorema centrale
del limite.
7. Il vettore di variabili casuali x, di dimensione (3 1), si distribuisce nel
modo seguente:
x =
_
_
x
1
x
2
x
3
_
_
N (, )
Si descriva la distribuzione delle seguenti variabili casuali:
z
1
= x
1
+x
2
+x
3
,
z
2
= x
1
x
2
x
3
,
y = P
1
(x ) ,
P = fattore di Choleski di .
72 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
8. Dato il vettore di variabili casuali:
x =
_
x
1
x
2
_
N [, ] , =
_

1

2
_
, =
_

11

12

12

22
_
Ricavare la fattorizzazione di Choleski di e darne uninterpretazione in
termini di regressione. (esercizio difcile ma istruttivo).
3.18 Soluzioni agli esercizi
1. Si consideri:
f(x
1
, x
2
) =
_
1

2
_
2
[[
1/2
exp
_

1
2
(x )

1
(x )
_
,
f(x
1
) =
_
+

f(x
1
, x
2
)dx
2
,
1
=
1

_

22

12

12

11
_
,
= [[ =
11

22

2
12
La parte esponenziale della funzione di densit` a pu` o essere scritta come:
exp
_

1
2
_
y
2
1

22
2
12
y
1
y
2
+y
2
2

11

_
,
y
1
= x
1

1
, y
2
= x
2

2
` e possibile trasformare i termini dove appare y
2
nello sviluppo di un quadra-
to, aggiungendo e togliendo la quantit` a
_

12

12
y
1
_
2
:
exp
_

1
2
_
y
2
1

22

_

12

12
y
1
_
2
+
_

12

12
y
1
_
2
2
12
y
1
y
2
+y
2
2

11
__
=
exp
_

1
2
_
y
2
1

22

_

12

11
y
1
_
2
+
11
_
y
2


12

11
_
2
__
.
Si noti che la quantit` a:
exp
_

11
2
_
y
2


12

11
_
2
_
descrive la parte esponenziale di una variabile casuale normale con valore
atteso pari a

12

11
e varianza pari a

11
e quindi:
_
+

exp
_

11
2
_
y
2


12

11
_
2
_
dx
2
=
_
2

11
3.18. SOLUZIONI AGLI ESERCIZI 73
Dato che:
f(x
1
) =
_
+

f(x
1
, x
2
)dx
2
=
=
_
1

2
_
2
[[
1/2
_
2

11
exp
_

1
2
11
_

11

22

2
12
_
y
2
1
_
=
_
1

2
11
_
exp
_

1
2
11
(x
1

1
)
2
_
,
si pu` o concludere che x
1
N(
1
,
11
).
Ora veniamo alla distribuzione di x
2
condizionata su x
1
:
f(x
1
[x
2
) =
f(x
1
, x
2
)
f(x
2
)
=
_
1

2
_
2
[[
1/2
_
1

2
_

1/2
11

exp
_

1
2
11
_
y
2
1

22
2
12
y
1
y
2
+y
2
2

11
_
+
y
2
1
2
11
_
=
_
1

2
_
_

11

22

2
12
_
1/2

exp
_

1
2
11
_
y
2
1

11

22
2
11

12
y
1
y
2
+y
2
2

2
11
y
2
1
(
11

22

2
12
)

_
=
=
_
1

2
_
_

11

22

2
12
_
1/2
exp
_

[y
2
(
12
/
11
)y
1
]
2
2(
22

2
12
/
11
)
_
Quindi, ricordando le denizioni di y
1
e y
2
possiamo concludere che:
x
1
[x
2
N
_

2
+

12

11
(x
1

1
) ,
22

2
12
/
11
_
.
2. (a) In relazione ai dati, si ha:
x
10
=
1
10
10

i=1
x
i
= 1.52,
S
2
=
1
9
10

i=1
(x
i
x
10
)
2
= 0.9418,
S =

S
2
= 0.97.
La stima della mediana ` e tra i valori 1.3 e 1.8.
74 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
(b) Per la verica dellipotesi = 2 si ottiene:
x
10
2
_
S
2
/10
=
1.52 2
_
0.9418/10
== 1.5641
Il valore critico al 5% del test a due code ` e t
9
0.025
= 2.262 .
Quindi il test conduce allaccettazione di H
0
. Se si considera il test ad
una coda:
H
0
: = 2, contro H
1
: < 2,
il valore critico ` e -t
9
0.05
= 1.833 ed anche in questo caso si accetta
H
0
.
Considerando la prova dellipotesi:
H
0
: = 0.7controH
1
: ,= 0.7,
si ottiene:
x
10
0.7
_
S
2
/9
=
1.52 0.7
_
0.9418/10
= 2.672.
Dato che il valore critico per il test ` e ancora t
9
0.025
= 2.262,si riuta
H
0
. A maggior ragione, se si considera lipotesi alternativa:
H
1
: > 0.7,
dato che il valore critico ` e t
9
0.05
= 1.833, si arriva al riuto di H
0
.
Passando alla prova delle ipotesi sulla varianza:
H
0
:
2
= 0.5, contro H
1
:
2
,= 0.5,
si ricordi che :
(n 1)
S
2

2

2
n1
Quindi se vale H
0
si ha:
z = (n 1)
S
2
0.5

2
n1
.
Possiamo denire, sulla base della distribuzione
2
9
di riferimento:
pr(b < z < a[H
0
) = = 0.05
In questo modo si deniscono a e b (si veda la gura 3.12). Dalla tavola
della distribuzione
2
9
si ricava:
a = 2.70, b = 19.0.
3.18. SOLUZIONI AGLI ESERCIZI 75
Figura 3.12: Test a due code per la varianza; distribuzione di riferimento
2
9
, =
0.05
0
0.02
0.04
0.06
0.08
0.1
0.12
0 5 10 15 20 25 30
Figura 3.13: Test a una coda per la varianza; distribuzione di riferimento
2
9
, =
0.05
0
0.02
0.04
0.06
0.08
0.1
0.12
0 5 10 15 20 25 30
76 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
In questo contesto abbiamo:
z = 9
0.9418
0.5
= 16.952,
e quindi si accetta H
0
. Se invece si considera come ipotesi alternativa:
H
1
:
2
> 0.5,
dalla tavola della distribuzione
2
9
di riferimento si determina il valore
c = 16.9 che soddisfa (gura 3.13):
pr(z > c[H
0
) = = 0.05
Quindi in questo esercizio il test ad una coda comporta il riuto di H
0
.
(c) Per costruire lintervallo di condenza per , si ricordi che:
=
x
n

_
S
2
/n
t
n1
quindi ` e possibile determinare il valore t
9
0.025
= 2.262 (si veda la gura
3.13) tale per cui: pr(t
9
0.025
< < t
9
0.025
) = 0.95 = 1 . Quindi
lintervallo di condenza viene ottenuto come:
_
x
10
t
9
0.025
_
S
2
/10, x
10
+t
9
0.025
_
S
2
/10,
_
= [0.8258, 2.2142].
Per quello che riguarda lintervallo di condenza per
2
, ricordiamo
che:
z = (n 1)
S
2

2

2
n1
e quindi possiamo determinare a e b in modo tale che:
pr(a z b) = 0.95 = 1 , a = 2.70, b = 19.0,
o, in termini equivalenti:
pr(2.70 z 19.0) =
pr
_
2.70
8.476

2
19.0
_
=
pr
_
1
19.0


2
8.476

1
2.70
_
=
pr
_
8.476
19.0

2

8.476
2.70
_
=
pr
_
0.44611
2
3.1393
_
= 0.95
Quindi lintervallo di condenza al 95% per
2
` e dato da [0.44611,
3.1393].
3.18. SOLUZIONI AGLI ESERCIZI 77
3. La verosimiglianza del campione (funzione di densit` a congiunta degli ele-
menti del campione) ` e:
f(x
1
, x
2
, ..., x
n
) =
n

i=1
f(x
i
) = ()
n
exp(
n

i=1
x
i
)
e quindi la log-verosimiglianza ` e:
logL = nlog()
n

i=1
x
i
e la stima di di massima verosimiglianza ` e:
logL

= 0
n

i=1
x
i
= 0

=
n

n
i=1
x
i

=
1
x
n
.
Per ottenere lo stimatore ottenuto utilizzando il metodo dei momenti, ` e ne-
cessario ricavare in primo luogo il valore atteso della distribuzione:
E(x) =
_
+
0
xf(x)dx =
_
+
0
xexp(x)dx =
1

Uguagliando il momento teorico al momento campionario e risolvendo per


si ottiene lo stimatore derivante dal metodo dei momenti:
1

= x
n

=
1
x
n
che quindi coincide con lo stimatore di massima verosimiglianza.
4. Denendo P il fattore di Choleski di :
= PP

sappiamo che:
P
1
P
1
= I
p
.
Quindi si ha che:
z = P
1
(x ),
E(z) = P
1
[E(x) ] = [0] ,
E(zz

) = P
1
P
1
= I
p
.
Da questo notiamo che la variabile z si distribuisce come una normale p-
dimensionale standardizzata:
z N(0, I
p
).
78 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
5. Ricordando che, grazie al teorema centrale del limite, possiamo dire:
x
n
E(x)
_
v(x)
n
d
N(0, 1),
qualunque sia la distribuzione della popolazione da cui sono estratti gli ele-
menti del campione. Quindi, dato che per una VC bernoulliana abbiamo:
E(x) = 0 (1 p) + 1 p = p,
v(x) = E(x
2
) (E(x))
2
= p p
2
= p(1 p),
grazie al teorema centrale del limite possiamo scrivere:
x
n
p
_
p(1p)
n
N(0, 1)
Quindi ` e possibile estrarre n = 10000 (un numero altissimo) di elementi
IIDda una bernoulliana e calcolare la media delle realizzazioni, sottrarre p e
dvidere per
_
p(1p)
10000
. La variabile ottenuta ` e approssimativamente distribuita
come una normale.
6. Per il TCL, possiamo dire che:
x
30
E(x)
_

2
/n
N(0, 1),
(n 1)
S
2

2

2
n1
.
quindi il rapporto si distribuisce approssimativamente come una normale:
x
30
E(x)

2
/n
_
(n 1)
S
2

2
/(n 1)
=
x
30
E(x)
_
S
2
/n
z
In relazione alla distribuzione normale ` e possibile determinare il quantile
z
0.025
= 1.96 in corrispondenza del quale abbiamo:
pr
_
1.96
x
30
E(x)
_
S
2
/n
1.96
_
= 0.95
pr
_
x
30
1.96
_
S
2
/n x
30
+ 1.96
_
S
2
/n
_
= 0.95
pr
_
0.07 1.96
_
0.112/30 0.07 + 1.96
_
0.112/30
_
= 0.95
pr [0.0498 0.1898] = 0.95.
Questo denisce un intervallo di condenza approssimativo costruito per .
3.18. SOLUZIONI AGLI ESERCIZI 79
7. Denendo:
z
1
= a
1
(31)

x
(31)
,
a
1
=
_
_
1
1
1
_
_
si ricava che:
z
1
N(a

1
, a

1
a
1
),
a

1
a
1
=
11
+
22
+
33
+ 2
12
+ 2
13
+ 2
23
.
Denendo:
z
2
= a
2
(31)

x
(31)
,
a
2
=
_
_
1
1
1
_
_
si ricava che:
z
2
N(a

2
, a

2
a
2
),
a

2
a
2
=
11
+
22
+
33
2
12
2
13
+ 2
23
.
Per quanto riguarda la variabile casuale y, ` e facile concludere che:
y N( 0
(31)
, I
3
)
8. La fattorizzazione di Choleski di di ottiene ricavando la matrice P con le
seguenti propriet` a:
P =
_
p
11
0
p
21
p
22
_
, p
11
> 0, p
22
> 0,
PP

=
_
p
2
11
p
11
p
21
p
21
p
11
p
2
22
+p
2
11
_
=
_

11

12

12

22
_
.
Quindi, risolvendo luguaglianza appena scritta ` e facile trovare i valori degli
elementi di P corrispondenti:
p
11
=

11
, p
21
=

12

11
, p
22
=
_

22


12

11
Si denisca ora la variabile casuale bidimensionale:
z = P
1
(x ) N(0, I
2
)
80 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
Dato che si ha:
P
1
= [P[
1
P
+
=
_
p
1
11
0

p
21
p
11
p
22
p
1
22
_
la variabile casuale z ` e:
z =
_
z
1
z
2
_
=
_
p
1
11
(x
1

1
)

p
21
p
11
p
22
(x
1

1
) +p
1
22
(x
2

2
)
_
Notate che:
z
1
N(0, 1)
x
1

11
N(0, 1),
z
2
N(0, 1)
1
p
22
_
(x
2

2
)

12

11
(x
1

1
)
_
N(0, 1).
Quindi

11
z
1
d` a i termini di disturbo di una regressione di x
1
su una co-
stante (con coefciente pari a
1
) e tali termini di disturbo hanno varianza
pari a
11
, mentre p
22
z
2
esprime i termini di disturbo di una relazione di
regressione lineare di (x
2

2
) su (x
1

1
) la cui varianza ` e pari a:
p
2
22
=
22


12

11
.
Capitolo 4
Il modello di regressione lineare
4.1 Concetti fondamentali
In un modello di regressione lineare, una variabile y
t
, chiamata variabile dipenden-
te o endogena ` e ipotizzata dipendere in modo lineare, tramite un vettore (k 1) di
parametri:
=
_

2
. . .

k
_

_
da un insieme di k variabili x
1t
, x
2t
, . . . , x
kt
che vengono dette variabili esplicative
o regressori. In aggiunta si ipotizza che la variabile y
t
sia inuenzata da un termine
stocastico
t
:
y
t
=
k

i=1

i
x
it
+
t
, t = 1, 2, . . . T,
k

i=1

i
x
it
= parte sistematica del modello

t
= parte stocastica del modello
Immaginiamo di avere a disposizioni T osservazioni su tutte le variabili che ap-
paiono nel modello e di chiederci come stimare i parametri incogniti del model-
lo. Ad esempio, supponiamo di fare riferimento ad una semplice formulazione
dellequazione del consumo:
y
t
=
1
+
2
x
2t
+
3
x
3t
+
t,
t = 1, . . . , T,
y
t
= consumo allistante t ,
x
1t
= 1t (termine costante della regressione),
x
2t
= reddito disponibile allistante t ,
x
3t
= stock di ricchezza nanziaria allistante t
81
82 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Figura 4.1: Rappresentazione graca di una relazione di regressione semplice teo-
rica
(
1
= 3.0,
2
= 0.5, T = 4 osservazioni)
(x
23
= 3.2, y
3
= 7.7)
(x
21
= 4.5, y
1
= 6.35)
(x
22
= 6.5, y
2
= 5.25)
(x
24
= 2.2, y
4
= 2.0)

3
= 3.1

4
= 2.1

1
= 1.1
2
= 2.2
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6 7
In questo capitolo cercheremo di capire in quale modo ` e possibile stimare i
parametri incogniti del modello
4.1.1 Il ruolo del termine di disturbo e le sue propriet` a
I motivi dellinserimento di un termine di disturbo stocastico nel modello di regres-
sione lineare possono essere sintetizzati come segue:
1. Il termine di disturbo
t
rappresenta un elemento di asistematicit` a connesso
al comportamento umano;
2. inoltre, il termine di disturbo pu` o essere interpretato come la descrizione
delleffetto congiunto di un numero elevato di variabili che producono effetti
su y
t
ma che non sono suscettibili di misurazione e quindi non inseribili nella
parte sistematica del modello;
3. inne, possono essere presenti errori di misurazione tra le variabili.
Gracamente (si veda la gura 4.1), possiamo rappresentare facendo riferimen-
to alla regressione semplice (numero di regressori k = 2, x
1t
= 1, t):
y
t
=
1
+
2
x
2t
+
t,
t = 1, . . . , T,
4.1. CONCETTI FONDAMENTALI 83
si nota che ciascun termine
t
ha leffetto di indurre la corrispondente osservazione
sulla variabile dipendente a deviare dalla relazione teorica che lega y
t
a x
1t
e x
2t
,
cio` e dalla retta di regressione.
Nel modello di regressione lineare a ciascuna osservazione associamo un ter-
mine di errore o termine di disturbo
t
con le seguenti propriet` a:
_
_
_
E(
t
) = 0, t
E(
t

s
) = 0, t ,= s (assenza di correlazione)
E(
2
t
) =
2
, t. (costanza della varianza o omoschedasticit` a
(4.1)
A queste assunzioni di solito si aggiunge lipotesi di normalit` a dei disturbi che
vedremo non essere strettamente necessaria alla stima puntuale del modello:

t
N(0,
2
), t = 1, 2, . . . , T. (4.2)
4.1.2 Ipotesi sui regressori
Nel caso pi ` u semplice, i regressori del modello x
1t
, x
2t
, . . . , x
kt
, t = 1, 2, . . . , k,
sono assunti non stocastici oppure si ipotizza di considerarli come variabili casuali
e di lavorare con la distribuzione condizionale di y
t
dati x
1t
, x
2t
, . . . , x
kt
:
y
t
=
k

i=1

i
x
it
+
t
,
E(y
t
[x
1t,
x
2t,
. . . , x
kt
) =
k

i=1

i
x
it
Nella versione pi ` u semplice del MRL, le ipotesi avanzate sui regressori sono:
1) E(x
it

s
) = 0, i, t, s (esogenit` a stretta dei regressori)
cio` e non si ha correlazione tra i regressori ed i termini di disturbo. Particolarmente
rilevante ` e lipotesi di assenza di simultaneit` a:
E(x
it

t
) = 0, i, t (4.3)
2) Denendo la matrice Xdi dimensioni (T k) :
X =
_

_
x
11
x
21
. . . x
k1
x
12
x
22
. . . x
k2
. . . . . . . . . . . .
x
1T
x
2T
. . . x
kT
_

_
(4.4)
si ipotizza:
(X) = k (4.5)
vale a dire i diversi regressori devono essere linearmente indipendenti.
84 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
4.1.3 Rappresentazione matriciale del modello di regressione lineare
Consideriamo il MRL con k regressori in forma matriciale:
y
(T1)
=
X
(Tk)

(k1)
+
(T1)
Ogni riga della rappresentazione ` e unosservazione distinta:
y
t
=
k

i=1

i
x
it
+
t
= x

t
+
t
, (4.6)
x

t
(1k)
=
_
x
1t
x
2t
. . . x
kt

, t = 1, 2, . . . , T (4.7)
Con lipotesi di normalit` a dei termini di disturbo posso scrivere il modello di
regressione (4.3) nei termini della distribuzione di y
t
dati x
1t
, x
2t
, . . . , x
kt
:
(y
t
[x
1t
, x
2t
, . . . , x
kt
) N(
k

i=1

i
x
it
+
t
,
2
)
f(y[X) =
_
1

2
_
T
exp
_
_
_

1
2
2
T

t=1
_
y
t

i=1

i
x
it
_
2
_
_
_
oppure in termini matriciali:
f(y[X) =
_
1

2
_
T
exp
_

1
2
2
T

t=1

(1T)


(T1)
_
Si noti che linclusione di un termine dintercetta nel modello (si prenda il caso
pi ` u semplice di un modello con soli due regressori, uno dei quali ` e il termine di
intercetta: x
1t
= 1, t):
y
t
=
1
+
2
x
2t
+
t
, t = 1, 2, . . . , T
si pu` o rendere in termini matriciali scrivendo:
y
(T1)
=
X
(T2)

(21)
+
(T1)
,
X =
_

_
1 x
21
1 x
22
. . . . . .
1 x
2T
_

_
Ricapitolando, dato il MRL:
y
t
=
k

i=1

i
x
it
+
t
, t = 1, 2, . . . , T
4.1. CONCETTI FONDAMENTALI 85
lobiettivo ` e quello di ottenere una stima:

=
_

2
. . .

2
_

_
dei parametri incogniti del modello:
=
_

2
. . .

k
_

_
Sulla base di tale stima puntuale dei parametri ` e possibile:
a) prevedere y
T+j
:
y
T+j
=
k

i=1

i
x
iT+j
disponendo di informazioni o avanzando ipotesi sui valori di x
iT+j
, i = 1, 2, . . . , k, j =
1, 2, . . . ..
b) fare ulteriore inferenza sul valore dei parametri. Ad esempio, prendiamo il
semplice modello dove spieghiamo il consumo privato (y) in relazione al reddito
disponibile (x
2
) ed alla spesa pubblica (x
3
):
y
t
=
1
+
2
x
2t
+
3
x
3t
+
t
Possiamo, ad esempio, vericare la compatibilit` a dellipotesi di equivalenza
ricardiana (neutralit` a della spesa pubblica) con una semplice prova delle ipotesi:
H
0
:
3
= 0
H
1
:
3
,= 0
Immaginiamo che il valore stimato di
3
,

3
sia pari a 0.07. Quanto questo
valore ` e statisticamente vicino a zero? A domande di questo tipo ` e possibile ri-
spondere facendo riferimento alla prova delle ipotesi e alla costruzione di intervalli
di condenza.
`
E possibile inoltre costruire intervalli di condenza intorno alle
previsioni sulla variabile dipende, oltre che intorno alle stime dei parametri.
4.1.4 Ricapitolando
Assunzioni del modello lineare di regressione classico:
a) linearit` a della relazione:
y
t
=
k

i=1

i
x
it
+
t
, t = 1, 2, . . . T.
y = X +
86 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
b) ipotesi sui termini di disturbo:
E(
t
) = 0, t,
E(
2
t
) = v(
t
) =
2
, t,
E(
t

tj
) = 0, j ,= 0
cio` e:

t
i.i.d(0,
2
), t.
Spesso si assume lipotesi di normalit` a dei termini di disturbo (che non ` e stretta-
mente necessaria per la stima puntuale dei parametri):

t
N(0,
2
), t.
c) Ipotesi sui regressori x
1t
, x
2t
, . . . x
kt
:
Nella formulazione pi` u semplice del MRL si ipotizza che i regressori siano non
stocastici oppure variabili casuali ortogonali (non correlate) rispetto ai termini di
errore:
E(x
it

s
) = 0, i, t, s (esogenit` a stretta dei regressori)
Una condizione meno stringente ` e quella che richiede lassenza di simultaneit` a
tra ciascuno dei regressori ed i termini di disturbo:
E(x
it

t
) = 0, i, t (assenza di simultaneit` a)
In pi ` u si richiede lindipendenza lineare tra le colonne di X:
(X) = k
4.2 Stima dei parametri
4.2.1 Metodo dei momenti (MM)
Come abbiamo visto consiste nelluguagliare i momenti campionari con quelli
della popolazione; i momenti rilevanti in questo caso sono quelli che esprimono
lassenza di simultaneit` a tra i termini di disturbo e i regressori:
E(x
it

t
) = 0, i, t
Prendiamo un semplice esempio con due regressori:
y
t
=
1
+
2
x
2t
+
t
In questo caso i momenti teorici sono:
E(
t
x
1t
) = 0
E(
t
x
2t
) = 0
4.2. STIMA DEI PARAMETRI 87
che hanno come equivalenti campionari:
1)
1
T
T

t=1

t
x
1t
= 0
1
T
T

t=1
(y
t

2
x
2t
) = 0

y

1

x
2
= 0,

y
=
1
T
T

t=1
y
t
,

x
2
=
1
T
T

t=1
x
2t
2)
1
T
T

t=1

t
x
2t
= 0
1
T
T

t=1
(y
t

2
x
2t
)x
2t
= 0
S(y, x
2
)
1

x
2

2
S(x
2
, x
2
) = 0,
S(y, x
2
) =
1
T
T

t=1
y
t
x
2t
, S(x
2
, x
2
) =
1
T
T

t=1
x
2
2t
,
da cui si ricava sostituendo la prima nella seconda:

1
=

y

2

x
2
,
0 = S(y, x
2
) (

y

2

x
2
)

x
2

2
S(x
2
, x
2
)

2
=
c(y, x
2
)
v(x
2
)
(4.8)
Passiamo ora al MRL con k regressori. I momenti teorici sono:
E(x
it

t
) = 0, i = 1, 2, . . . , k.
I corrispondenti momenti campionari sono:
1
T
X
(kT)


(Tk)
=
_

_
1
T
T

t=1
x
1t

t
1
T
T

t=1
x
2t

t
. . .
1
T
T

t=1
x
kt

t
_

_
Uguagliando i momenti campionari (intesi come funzioni dei parametri incogniti
contenuti in ) ai corrispondenti momenti della popolazione (tutti pari a zero), si
ottiene:
X

(y X) = 0
X

y X

X = 0 (4.9)
88 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Ricordando lassunzione che:
(X) = k
possiamo ricavare che:
(X

X) = k
per cui si pu` o invertire la matrice X

Xed ottenere:

MM
= (X

X)
1
X

y (4.10)
Come utile esercizio, vericate che con k = 2 e un primo regressore dato
dal termine di intercetta (x
1t
= 1, t), utilizzando la (4.10) si ottiene lespressio-
ne (4.8) per

1
e

2
vista prima nellesempio a due variabili. La relazione (4.9)
esprime le cosiddette equazioni normali.
Si noti che in tutta lapplicazione del metodo dei momenti si sono utilizzate
solo le seguenti propriet` a:
- la linearit` a della relazione di regressione y = X +;
- lortogonalit` a di Xrispetto ai termini di disturbo (assenza di simultaneit` a):
E(x
it

), i, t, .
4.2.2 Metodo della massima verosimiglianza.
Si utilizzano tutte le propriet` a sui termini di disturbo, anche quella relativa alla
normalit` a dei termini di disturbo:
E(
t
) = 0, t,
E(
2
t
) =
2
, t,
E(
t

) = 0, t ,= ,

t
N(0,
2
), t.
In questo modo ` e possibile scrivere la verosimiglianza associata al MRL:
L = (
1

2
)
T
exp
_

1
2
2
T

t=1
(y
t

1
x
1t
. . .
k
x
kt
)
2
_
=
= (
1

2
)
T
exp
_

1
2
2
(y X)

(y X)
_
Della funzione di verosimiglianza ` e possibile prendere il logaritmo, in questo
modo ottenendo:
log L =
T
2
log(2) T log
1
2
2
(y X)

(y X)
Per massimizzare la verosimiglianza possiamo ottenere le condizioni del primo
ordine rispetto a e , i parametri del modello:
4.2. STIMA DEI PARAMETRI 89
log L

= 0
1
2

_
(y X)

(y X)

= 0
log L

= 0
T

+
1

3
(y X)

(y X) = 0
Utilizzando il primo blocco delle condizioni del primo ordine otteniamo:
(

X)

y +y

X) = 0
2(X

X) 2(X

y) = 0
Ricordando che (X) = k e quindi che:
(X

X) = k

,= 0
possiamo esplicitare rispetto a ed ottenere lo stimatore di massima verosimi-
glianza:

ML
= (X

X)
1
X

y (4.11)
Notate che ` e lo stesso stimatore che si ottiene applicando il metodo dei momenti.
Sostituendo

ML
nel secondo blocco delle condizioni del primo ordine (la derivata
prima della logverosimiglianza rispetto a ) e risolvendo rispetto a
2
si ottiene
anche uno stimatore per la varianza:

2
ML
=
1
T
(y X

ML
)

(y X

ML
) =
=
1
T

=
1
T
T

t=1

2
t
, (4.12)
= y X

ML
= y X(X

X)
1
X

y
Notate che ` e possibile confermare che la soluzioni associate alle condizioni del
primo ordine, cio` e la (4.11) e la (4.12), deniscono un punto di massimo per la
funzione di logverosimiglianza. Questo pu` o essere vericato calcolando la matrice
hessiana in corrispondenza della soluzione:
H(

ML
,
2
ML
) =
=
_

1

2
X

X
2

3
(X

X X

y)
2

3
(

Xy

X)
T

2
3
1

_
(

ML
,
2
ML
)
=
=
_

1

2
X

X
2

3
(X

X X

y)
2

3
(

Xy

X)
T
4
(
2
3
1
T

)
_
(

ML
,
2
ML
)
=
_
_

1

2
ML
X

X 0
(k1)
0

(1k)
T

4
ML
(2
2
ML
)
_
_
=
_
_

1

2
ML
X

X 0
(k1)
0

(1k)
2T

2
ML
_
_
(4.13)
90 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Figura 4.2: retta di regressione interpolante una nuvola di punti
3.7
3.8
3.9
4
4.1
4.2
4.3
4.4
4.5
1.4 1.6 1.8 2 2.2 2.4 2.6 2.8
`
E evidente che la matrice hessiana, calcolata in corrispondenza della stima di
massima verosimiglianza sia denita negativa.
4.2.3 Metodo dei minimi quadrati (OLS=ordinary least squares)
Supponiamo di avere T osservazioni relative ad una misura del consumo aggregato
y
t
e ad una misura del reddito disponibile x
2t
.di volere stimare una relazione di
regressione lineare del tipo:
y
t
=
1
+
2
x
2t
+
t
, t = 1, 2, . . . , T.
Si veda la gura 4.2: ogni punto sul graco rappresenta unosservazione su y
t
e
x
2t
.
Il metodo di stima OLS consiste nel trovare una retta che interpoli la nuvola
di punti in modo tale da minimizzare la somma dei quadrati degli errori commessi
interpolando linearmente la nuvola di punti.
Supponiamo per esempio T = 4 osservazioni, in relazione a ciascuna di queste
osservazioni si denisce un errore di interpolazione:
y
1
(
1
+
2
x
21
)
y
2
(
1
+
2
x
22
)
y
3
(
1
+
2
x
23
)
y
4
(
1
+
2
x
24
)
4.2. STIMA DEI PARAMETRI 91
La stima della relazione di regressione consiste nel trovare la congurazione
dei parametri
1
e
2
(intercetta e coefciente angolare) che consenta di minimiz-
zare la somma dei quadrati degli errori di interpolazione:
min

1
,
2
T

t=1
(y
t

2
x
2t
)
2
In termini pi ` u generali, sulla base del MRL con k regressori:
y
t
=
k

i=1

i
x
it
+
t
, t = 1, 2, . . . , T
si minimizza la funzione obiettivo somma dei quadrati degli errori di interpolazio-
ne:
Q =
T

t=1
(
2
t
)
oppure in termini matriciali:
Q = (y X)

(y X) = y

y y

X +

X
rispetto al vettore dei parametri :
min

(y X)

(y X)
Ricaviamo le condizioni del primo ordine
Q

=[0]
k1
2X

y + 2X

X = 0
Da cui si ottiene facilmente:

OLS
= (X

X)
1
X

y (4.14)
Si noti che:

OLS
=

ML
=

MM
Propriet` a dello stimatore OLS
(a) Quando si hanno regressori non stocastici, lo stimatore OLS ` e non distorto.
Infatti:
E(

) = E
_
_
X

X
_
1
X

y
_
= E
_
_
X

X
_
1
X

(X +)
_
=
= + (X

X)
1
X

E() =
92 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Nel caso in cui abbiamo regressori stocastici, per conservare la propriet` a di non
distorsione di

occorre ipotizzare:
E(X

) = 0
(b) La matrice di varianze e covarianze dello stimatore OLS ` e:
V ar(

) = E(

)(

= E
_
_
X

X
_
1
X

X(X

X)
1
_
A questo punto, ricordando le assunzioni sui termini di disturbo:
E(
t
) = 0, t,
E(
t

) = 0, t ,= ,
E(
2
t
) =
2
, t
oppure in forma compatta:
E() = 0,
E(

) =
2
I
T
Quindi la matrice di varianze e covarianze dello stimatore OLS ` e:
V (

) = (X

X)
1
X

2
I
T
X(X

X)
1
=
2
(X

X)
1
Notate che con lipotesi aggiuntiva:
lim
T
1
T
(X

X) = Q
(kk)
dove Q ` e una matrice di rango pieno che pu` o essere interpretata come matrice di
varianza e covarianza dei regressori, otteniamo:
lim
T
V (

) = lim
T

2
_
X

X
T
T
_
1
= lim
T

2
Q
1
T
= [0]
che equivale a dire che lo stimatore di minimi quadrati ` e consistente.
(c) lo stimatore OLS ` e il pi` u efciente nella classe degli stimatori lineari non
distorti (teorema di Gauss-Markov), se valgono le ipotesi canoniche sui termini di
disturbo (E() = 0 e E(

) =
2
I).
Infatti, si consideri un qualsiasi stimatore lineare non distorto

=
C
(kT)
y
(T1)
,
E(

) = = CX +CE()
quindi la matrice C , perch` e

sia non distorto,deve soddisfare:
CX = I
k
4.2. STIMA DEI PARAMETRI 93
e la matrice di varianze e covarianze di

` e:
V ar(

) =
2
CC

(4.15)
Si denisca ora:
D = C(X

X)
1
X

in modo tale che la (4.15) pu` o essere riscritta come:


V ar(

) =
2
_
D+ (X

X)
1
_ _
D+ (X

X)
1
_

Si ricordi che:
CX = I
k
= DX+ (X

X)
1
X

X = DX+I
k
che implica:
DX = 0
e quindi possiamo scrivere la (??) come:
V ar(

) =
2
D

D+
2
(X

X)
1
=
2
DD

+V ar(

OLS
)
oppure:
V ar(

) V ar(

OLS
) =
2
DD

Quindi la differenza tra le due matrici di varianza e covarianze ` e


2
DD

e D

D ` e
denita positiva:
x

Dx > 0, x
(k1)
,= [0]
In questo modo si ` e dimostrato che lo stimatore OLS ` e pi ` u efciente di qualunque
altro stimatore lineare non distorto.
4.2.4 Aspetti algebrici dello stimatore OLS
(1) Si considerino i residui dellequazione stimata utilizzando lo stimatore OLS:
= y X

= y X(X

X)
1
X

y =
=
_
I
T
X(X

X)
1
X

_
y = (4.16)
=
_
I
T
X(X

X)
1
X

_
(X +) =
= X + X(X

X)
1
X

X X(X

X)
1
X

X = (4.17)
_
I
T
X(X

X)
1
X

_
(4.18)
Notate che:
X

= X

y (X

X)(X

X)
1
X

y = 0 (4.19)
Lespressione appena riportata vale sempre. In termini geometrici descrive lorto-
gonalit` a dei residui OLS rispetto allo spazio coperto dalle colonne di X.
94 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Se la regressione include una costante, la prima riga di X

(colonna di X) sar` a
una colonna di elementi pari a 1. Quindi, ricordando la (4.19) possiamo scrivere:
u
1

k
X

=L

=
T

t=1

t
= 0 (4.20)
dove u
1
k
` e il vettore estrazione di dimensione (k 1) con primo elemento pari a 1:
u
1
k
(1k)
=
_
1 0 . . . . . . 0

Notate che la (4.20) implica che in questo caso, quando cio` e la regressione include
un termine di intercetta, i residui hanno media campionaria pari a zero.
(2) Calcoliamo il valore atteso del vettore dei residui facendo riferimento alla
(4.18):
E( ) =
_
I
T
X(X

X)
1
X

_
E() = 0
e quindi concludiamo che il valore atteso dei residui ` e nullo. La matrice di varianze
e covarianze dei residui ` e:
V ar( ) = E(

) =
=
_
I
T
X(X

X)
1
X

_
E(

)
_
I
T
X(X

X)
1
X

_
=
=
2
_
I
T
X(X

X)
1
X

_
(4.21)
dato che E(

) =
2
I
T
,e
2
_
I
T
X(X

X)
1
X

_
` e matrice idempotente.
(3) Riprendendo le equazioni normali dei minimi quadrati:
(X

X)

y = 0
possiamo premoltiplicare per un idoneo vettore estrazione:
u
1

k
X

= u
1

k
X

y
Se la prima colonna di X ` e una colonna di 1, si ha:
i
(1T)

=
i
(1T)

y, (4.22)
i =
_
1 1 . . . 1

e quindi, premoltiplicando entrambi i membri della (4.22) per T


1
, si ottiene:
x

(1k)

= y (4.23)
4.2. STIMA DEI PARAMETRI 95
Figura 4.3: retta di regressione stimata con termine di intercetta (punto
A=baricentro)
A
v
a
l
o
r
e

d
i

y
valore di x2
y
x2
2
2.5
3
3.5
4
4.5
0 0.5 1 1.5 2
dove:
x = (
1
T
i

X)

=
1
T
_

_
T
T

t=1
x
2t
. . .
T

t=1
x
kt
_

_
=
_

_
1
x
2
. . .
x
k
_

_
,
y = (
1
T
i

y) =
1
T
T

t=1
y
t
.
Si noti che x ` e il vettore delle medie campionarie dei regressori e y ` e la media cam-
pionaria della variabile dipendente. Quindi la relazione (4.23) indica che la retta di
regressione (iperpiano di regressione se k > 2) passa per il baricentro campionario,
cio` e passa per il punto nello spazio k dimensionale con coordinate date dalle me-
die campionarie delle grandezze che appaiono nella relazione di regressione. Ci ` o
avviene solo se il MRL comprende un termine di intercetta.
Nel caso della regressione semplice:
y
t
=
1
+
2
x
2t
+
t
, t = 1, 2 . . . , T
96 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
abbiamo:
y =

1
+

2
x
2
come evidenziato dal graco 4.3.
4.2.5 Ricapitolazione sulla stima OLS dei parametri
La stima OLS coincide con la stima di massima verosimiglianza (ML=maximum
likelihood) e quella che si ottiene grazie allapplicazione del metodo dei momenti
(MM).La stima OLS non richiede alcuna assunzione sulla forma della distribuzio-
ne dei termini di disturbo.
4.2.6 Interpretazioni alternative della stima OLS di un MRL
Una prima possibile interpretazione della stima del MRL ` e nei termini di proiezio-
ne. Prendiamo i valori stimati y:
y = X

= X(X

X)
1
X

y (4.24)
`
E possibile denire la matrice X(X

X)
1
X

come la matrice di proiezione sullo


spazio coperto dalle colonne di X. Quindi y ` e la proiezione di y sullo spazio
coperto dalle colonne di Xe il vettore dei residui:
= y y =
_
I
T
X(X

X)
1
X

y
d` a la distanza di y dalla proiezione sullo spazio coperto dalle colonne di X. Fa-
cendo un esempio per il quale sia possibile dare una semplice rappresentazione
graca, ipotizziamo un MRL con un solo regressore:
y
t
=
1
x
1t
+
t
, t = 1, ..T
Immaginiamo di avere solo T = 2 osservazioni:
y =
_
2
4
_
, x =
_
1
1
_
`
E chiaro che:

= (x

x)
1
x

y =3
y =

x =
_
3
3
_
= y y =
_
1
1
_
Vediamo quindi che y esprime la proiezione ortogonale di y sullo spazio co-
perto da x.
4.2. STIMA DEI PARAMETRI 97
Figura 4.4: regressione stimata come proiezione ortogonale
0 1 2 3 4 5 6 7 8 9
2
1
1
2
3
4
5
6
7
x
y
y

^
^
98 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
a) Unaltra interpretazione della stima OLS del MRL ` e la seguente. Supponia-
mo di avere:
y = X +
dove la prima colonna di X ` e il termine di intercetta. Ricordando le equazioni
normali dei Minimi Quadrati:
(X

X)

= X

y
possiamo scrivere:
1
T
u
1

k
_
X

X
_

=
1
T
u
1

k
X

y
1
T
i

=
1
T
i

y
x
(1k)


= y,
x

=
_
1 x
2
. . . x
k

oppure in termini equivalenti:


k

i=1

i
x
i
= y
con x
1
= 1, e quindi:

1
= y
k

i=2

i
x (4.25)
Utilizzando lespressione (4.25) possiamo riscrivere il modello come:
y
t
y =
k

i=2

(x
it
x
i
)
oppure in termini matriciali:
y

= X

,
y

=
_

_
y
1
y
y
2
y
. . .
y
T
y
_

_
,
X

[T(k1)]
=
_

_
(x
21
x
2
) . . . (x
k1
x
k
)
(x
22
x
2
) . . . (x
k2
x
k
)
. . . . . . (x
k3
x
k
)
(x
2T
x
2
) . . . (x
k4
x
k
)
_

_
=
=
_
x

2
(T1)
. . . x

k
(T1)
_
4.2. STIMA DEI PARAMETRI 99
Si denisca allora:
z
t
(k1)
=
_

_
y
t
x
2t
. . .
x
kt
_

_
e si ipotizzi che tutte le variabili siano distribuite normalmente:
z
t
N(, ),
=
_

1
(11)

2
(k1)
_

_
, =
_

11

21
(1k)

21
(k1)

22
(kk)
_

_
,

1
= E(y
t
),
2
= E
_
_
x
2t
. . .
x
kt
_
_
,

11
= V ar(y
t
),

12
= Cov(y
t
[x
2t
. . . ..x
kt
])

22
= V ar
_
_
x
2t
. . .
x
kt
_
_
Notate che, per le propriet` a della distribuzione normale, ` e possibile immediata-
mente ricavare la distribuzione di y
t
condizionata sui valori di x
t
:
(y
t
[x
2t
. . . x
kt
) N(

1
,

11
)
E(y
t
[x
2t
. . . x
kt
) =

1
=
1
+

12

1
22
_
_
_
_
x
2t
. . .
x
kt
_
_

2
_
_
,
V ar(y
t
[x
2t
. . . x
kt
) =

11
=
11

12

1
22

21
Se vogliamo stimare i momenti della distribuzione condizionale di y
t
, dati x
2t
. . . x
kt
,
sulla base di T osservazioni disponibili su tutte le variabili, possiamo utilizzare gli
equivalenti campionari dei momenti della popolazione:

1
= y,
11
=
1
T
T

t=1
(y
t
y)
2
=
1
T
y

12
=
1
T
T

t=1
(y
t
y)
_
(x
2t
x
2
) . . . . . . (x
kt
x
k
)

=
=
1
T
y

,
22
=
1
T
X

100 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE


Quindi la stima dei momenti della distribuzione condizionale di y
t
` e:

1
= y + (y

)(X

)
1
_
_
_
_
x
2t
. . .
x
kt
_
_

_
_
x
2
. . .
x
k
_
_
_
_
e quindi:
y
t
y = [(x
2t
x
2
) . . . (x
kt
x
k
)]
_
(X

)
1
X

_
,
y

= X

e la stima della varianza condizionale di y ` e:


11
= V ar(y
t
[x
2t
. . . x
kt
) =
_
y

(X

)
1
X

_
=
= y

_
I
T
X

(X

)
1
X

_
y

4.3 Stima del momento secondo (


2
)
Abbiamo visto che la scelta pi ` u naturale per la stima della varianza dei termini di
disturbo ` e data da:

2
ML
=
1
T


Tale stimatore deriva dalla massimizzazione della funzione di verosimiglianza.
Purtroppo questo stimatore ` e distorto. Infatti, applicando loperatore valore atteso
abbiamo:
E(
2
ML
) =
1
T
E(

M) = (nb: M = I
T
X(X

X)
1
X

)
=
1
T
E(tr
_
M

= (nb: tr(ABC) = tr(BCA))


=
1
T
tr(M
2
I
T
) =

2
T
(tr [M])
dove:
tr(M) = tr(I
T
) tr(X(X

X)
1
X

) =
= T tr((X

X)
1
(X

X)) =
= T tr(I
k
) =
= T k
e quindi:
E(
2
ML
) =
T k
T

2
4.4. ANALISI DELLA VARIANZA 101
Quindi questo stimatore ` e distorto ma consistente, dato che
Tk
T
tende a 1 al
crescere di T. Si noti che lo stimatore

2
OLS
=
1
T k


` e chiaramente non distorto. Quindi:

2
ML
=
1
T

distorto ma consistente

2
OLS
=
1
T k

non distorto e consistente


Il denominatore di
2
OLS
, cio` e la grandezza T k, viene chiamata numero dei gradi
di libert` a della regressione.
4.4 Analisi della varianza
Quanto della variabilit` a di y ` e spiegata dalla retta (iperpiano) di regressione?
y

y = TSS Total Sum of Squares


= (X

+ )

(X

+ ) =
=


Ricordando che:
X

= 0
otteniamo:
y

y =


TSS = ESS +RSS (4.26)
dove:
ESS =

=Explained Sum of Squares =


= somma dei quadrati spiegata
RSS =

=Residual Sum of Squares=


= somma dei quadrati dei residui
Quanto pi ` u alto ` e ESS rispetto a TSS, tanto migliore ` e la spiegazione della varia-
bilit` a di y fornita dalla regressione. Possiamo denire un indice basato sulla scom-
posizione (4.26). Questo indice, chiamato R
2
UC
= indice di bont` a di adattamento ` e
denito come:
R
2
UC
=
ESS
TSS
= 1
RSS
TSS
102 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Questo indice viene denito non centrato (uncentered), dato che indica quanto
della variabilit` a complessiva di y, misurata come somma dei quadrati dei valori
di y, viene spiegata dalla relazione di regressione. Quando il MRL ha un termine
di intercetta (ad esempio x
1t
= 1, t),una misura alternativa di adattamento si ha
scrivendo il MRL nei termini seguenti:
y

(T1)
=. X

(T(k1))

((k1)1)
+ u
(T1)
dove y

e X

raccolgono le deviazioni dalla rispettiva media di colonna (cam-


pionarie) e

comprende tutti i parametri escluso quello associato al termine di


intercetta.
`
E possibile denire un indice R
2
C
centrato (centered):
R
2
C
=
ESS
TSS
=

In questo modo si ottiene un indice di bont` a di adattamento, sempre compre-


so tra 0 e 1, che indica quanto della variabilit` a complessiva di y, misurata come
somma dei quadrati delle deviazioni dei valori di y
t
dalla media campionaria, vie-
ne spiegata dalla relazione di regressione in base alla variabilit` a campionaria dei
regressori diversi dal termine di intercetta.
4.5 Regressione partizionata
Il contenuto di questa sottosezione ` e rilevante per linterpretazione dei coefcienti
stimati di un MRL.
Si immagini di avere un MRL del tipo:
y
(T1)
=
X
(Tk)

(k1)
+
(T1)
Immaginiamo di partizionare la matrice Xe il vettore nei termini seguenti:
X =
_
X
1
X
2

=
_

1

2
_
dove gli oggetti deniti hanno le seguenti dimensioni:
X
1
(Tk
1
)
, X
2
(Tk
2
)
,
1
(k
1
1)
,
1
(k
1
1)
, k
1
+k
2
= k
Ora, applichiamo la partizione appena descritta alle equazioni normali dei MQ:
X

= X

y
_
X

1
X
1
X

1
X
2
X

2
X
1
X

2
X
2
_ _

2
_
=
_
X

1
y
X

2
y
_
(4.27)
4.6. ANTICIPAZIONE SU TEST CONGIUNTI 103
`
E possibile risolvere il primo blocco delle equazioni (4.27) rispetto a

1
:

1
= (X

1
X
1
)
1
_
y X
2

2
_
(1

blocco)
Sostituendo questa soluzione nel secondo blocco di (4.27) si ottiene:
X

2
X
1
(X

1
X
1
)
1
X

1
(y X
2

2
) + (X

2
X
2

2
) = X

2
y.
Ora posso raccogliere tra loro i termini dove appare

2
e portare gli altri a sinistra,
ottenendo:
X

2
_
I
T
X
1
(X

1
X
1
)
1
_
X
2

2
= X

2
y X

2
X
1
(X

1
X
1
)
1
X

1
y
X

2
_
I
T
X
1
(X

1
X
1
)
1
_
X
2

2
= X

2
_
I
T
X
1
(X

1
X
1
)
1
X

1
_
y (4.28)
La matrice:
I
T
X
1
(X

1
X
1
)
1
X

1
= M
1
` e chiaramente simmetrica e idempotente. Per cui posso scrivere la (4.28) come:
X

2
M
1

2
= X

2
M
1
y
Denendo:
M
1
X
2
= X

2
residui della regressione di X
2
su X
1
M
1
y = y

residui della regressione di y su X


1
si pu` o scrivere la (4.28) come:

2
= (X

2
X

2
)
1
X

2
y

(4.29)
Quindi, la stima di

2
` e equivalente a quella che si otterrebbe regredendo prelimi-
narmente X
2
e y dalleffetto di X
1
tramite regressioni preliminari. I coefcienti di
regressione stimati hanno quindi il signicato di vere e proprie derivate parziali.
4.6 Anticipazione su test congiunti
Facciamo riferimento ad un MRL dove il primo dei regressori ` e un termine di
intercetta:
y = X +
oppure nella sua formulazione alternativa
y

= X

+u
dove siano rispettate le ipotesi sui termini di disturbo:
N(0,
2
I
T
)
104 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Quando ` e vera la seguente ipotesi nulla:
H
0
:
2
=
3
= . . . =
k
= 0
(quando cio` e il comportamento di y non ` e inuenzato dai regressori diversi dal
termine di intercetta), ` e possibile descrivere la distribuzione di RSS quando sia
diviso per
2
(varianza teorica dei termini di disturbo):
RSS

2
=

(I
T
X
1
(X

1
X
1
)
1
X

1
)


2
T1
(4.30)
Nello stesso modo, quando ` e vera H
0
abbiamo:
ESS

2
=
1


2
k1
(4.31)
con
ESS

2
indipendente da
RSS

2
. Sulla base di tutto ci ` o possiamo denire una gran-
dezza costruita come rapporto tra (4.30) e (4.31), ognuna divisa per il proprio nu-
mero di gradi di libert` a, ed in questo modo ottenere una grandezza distribuita come
una variabile casuale F di Fisher:
ESS/(k 1)
RSS/(T k)
=
R
2
c
/(k 1)
(1 R
2
c
)/(T k)
F
k1,Tk
(4.32)
che pu` o essere utilizzata per provare lipotesi:
H
0
:
2
=
3
= . . . =
k
= 0 (4.33)
H
1
:
2
,=
3
,= . . . ,=
k
,= 0
Notate che lipotesi (4.33) ` e lipotesi che la regressione non abbia alcun potere
esplicativo, ed ` e evidente che il test F utilizzato sia ovviamente una funzione cre-
scente dellindice R
2
c
: quando la regressione ha basso potere esplicativo (basso
R
2
c
), il test F calcolato sar` a vicino a zero, mentre quando lindice calcolato ` e vicino
a 1, allora il valore calcolato per il test F tende ad essere molto grande.
4.7 Inferenza statistica sul modello di regressione
4.7.1 Costruzione di intervalli di condenza
Se sono valide le ipotesi sui termini di disturbo che sintetizziamo in questo modo:
N(0,
2
I
T
)
` e facile mostrare che:

N(,
2
Q) (4.34)
Q = (X

X)
1
4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 105
Figura 4.5: distribuzione per la stima di , opportunamente standardizzata, e
relativi quantili corrispondenti a /2. (Nella gura T k = 20, = 0.05)
/2) t(
/2) t(
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
4 3 2 1 0 1 2 3 4
quando Xsia non stocastico, (o condizionatamente rispetto a X). Questo risultato
di normalit` a ` e immediato dato che

` e ottenuto come k combinazioni lineari della
variabile casuale Tdimensionale distribuita normalmente:

= (X

X)
1
X

y = + (X

X)
1
X

Sulla base di questo risultato possiamo scrivere:

q
ii
N(0, 1), q
ii
= elemento diagonale i-esimo di Q
Sappiamo pure che:
RSS

2

2
Tk
e che ` e indipendente dalla distribuzione di

. In termini equivalenti:
(T k)

2

2

2
Tk
Quindi posso costruire una variabile casuale distribuita come una t di Student con
T k gradi di libert` a

i
(q
ii
)
1/2

(T k)

2

2
T k
=

i
q
ii
1/2
t
Tk
(4.35)
106 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
e, utilizzando questo risultato distributivo, ` e possibile ricorrere ai valori tabulati
dei quantili della distribuzione t di Student con T k gradi di libert` a per denire
intervalli che soddisfano:
p
_
t
(/2)

i
(q
ii
)
1/2
t
(/2)
_
= 1 (4.36)
come si evince dalla gura 4.5.
Notate che in questo modo ` e possibile denire lintervallo duciario per
i
centrato intorno alla sua stima puntuale e associato ad un livello duciario pari ad
:
P
_

i
t
(/2)
[

q
ii
]
i

i
+t
(/2)
[

q
ii
]
_
= 1
I termini

i
t
(/2)
_

q
ii

i
+t
(/2)
_

q
ii

costituiscono quindi gli estremi


di tale intervallo duciario.
4.7.2 Prova delle ipotesi
Supponiamo che vi sia interesse per la verica dellipotesi semplice che riguarda
il parametro
i
:
H
0
:
i
=
0i
H
1
:
i
,=
0i
(4.37)
dove per
0i
si intende un determinato valore. Ad esempio, se
0i
= 0, lipotesi
nulla contempla la mancanza di potere esplicativo di x
it
su y
t
. Si noti che la (4.37)
denisce unipotesi alternativa bilaterale.
Fissando la probabilit` a dellerrore di prima specie:
pr(riuto H
0
[ H
0
vero) =
possiamo utilizzare il risultato distributivo (4.35) per denire il criterio che de-
nisce la regione di accettazione e la regione di riuto di H
0
(si veda la gura 4.6)
basato sulla probabilit` a dellerrore di prima specie scelto:
p
_
t
(/2)
>

0i
q
ii
1/2
> t
(/2
)
_
=
Come si evince dalla gura, il test da utilizzare ` e a due code e si sostanzia nel
seguente criterio decisionale: si calcoli:

0i
q
ii
1/2
Se tale valore ` e compreso tra t
(/2)
e t
(/2)
, si accetta H
0
, altrimenti si riuta
H
0
. Notate che esiste una dualit` a interpretativa tra costruzione dellintervallo di
4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 107
Figura 4.6: test a due code per vericare H
0
:
0
= 0, contro H
0
:
0
,= 0
se il valore calcolato del test cade in questo
intervallo, accetto lipotesi nulla

probabilit pari a
/2
probabilit pari a
/2
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
4 3 2 1 0 1 2 3 4
condenza e prova delle ipotesi: se il test conduce allaccettazione di H
0
, allora
lintervallo duciario corrispondente ad un livello duciario pari a 1 conterr` a
il valore puntuale
io
ipotizzato vero sotto H
0
, e viceversa.
Supponiamo ora che lipotesi alternativa H
1
sia ora unilaterale, ad esempio:
H
1
:
i
>
0i
.
Fissando la probabilit` a dellerrore di prima specie:
pr(riuto H
0
[ H
0
vero) =
possiamo utilizzare il risultato distributivo (4.35) per denire il criterio che de-
nisce la regione di accettazione e la regione di riuto di H
0
(si veda la gura 4.7)
basato sulla probabilit` a dellerrore di prima specie scelto:
p
_

0i
q
ii
1/2
> t
(
)
_
=
Come si evince dalla gura, il test da utilizzare ` e a una coda e si sostanzia nel
seguente criterio decisionale: si calcoli:

0i
q
ii
1/2
108 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Figura 4.7: test a una coda per vericare H
0
:
0
= 0, contro H
0
:
0
> 0

probabilit pari a
se il valore calcolato del test cade nellintervallo
a sinistra del quantile, accetto lipotesi nulla
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
4 3 2 1 0 1 2 3 4
Se tale valore ` e minore di t
(/2)
, si accetta H
0
, altrimenti si riuta H
0
. Lasciamo
trovare al lettore, come semplice esercizio, la regione critica corrispondente al test
che verica H
0
contro:
H
1
:
i
<
0i
.
Un esempio
Supponiamo che in relazione ad un MRL stimato si abbia:

i
= 0.05,
_

2
q
ii
= 0.02,
T = 66, k = 6
e supponiamo di voler vericare:
H
0
:
i
= 0 contro
H
1
:
i
,= 0
con probabilit` a dellerrore di prima = 5%.
Dalle tavole della distribuzione t di Student con T k = 60 gradi di libert` a, si
trova il quantile:
t
/2
= 2.00
4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 109
Lintervallo di condenza al 95% ` e dato da:
[

i
t
/2
q
1/2
ii
,

i
t
/2
q
1/2
ii
] =
[0.05 2.00 0.02, 0.05 + 2.00 0.02] = [0.01, 0.09]
Il valore calcolato del test ` e:

i
q
1/2
ii
=
0.05
0.02
= 2.5
che confrontato con il valore critico t
/2
= 2.00 conduce a riutare H
0
.Se avessi-
mo come ipotesi alternativa:
H
1
:
i
> 0
scegliendo come probabilit` a di errore di prima specie = 0.05, il quantile rilevante
della distribuzione ` e:
t

= 1.671
Dato che il valore calcolato del test (2.5) ` e maggiore di t

anche il test ad una coda


comporta il riuto di H
0
.
4.7.3 Un utile esempio: il MRL con 3 regressori
Supponiamo di avere il seguente MRL:
y
t
=
1
+
2
x
2t
+
2
x
3t
+
t
, t = 1, 2, . . . , T
x
1t
= 1, t.
oppure in termini matriciali:
y =
X
(T3)

(31)
+,
X =
_
_
1 x
21
x
31
. . . . . . . . .
1 x
2T
x
3T
_
_
, =
_
_

3
_
_
In questo caso abbiamo quindi 3 regressori, di cui uno ` e il termine di intercetta.
Consideriamo ora le equazioni normali dei minimi quadrati:
X

= X

y
Possiamo utilizzare anche unaltra notazione. Deniamo la somma dei quadrati
degli errori come:
Q =
T

t=1
(y
t

2
x
2t

3
x
3t
)
2
110 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Differenziando rispetto ai parametri
1
,
2
,
3
otteniamo:
Q

1
= 0

1
=
1
T
T

t=1
y
t

2
1
T
T

t=1
x
2t

3
1
T
T

t=1
x
3t

1
= y x
2

2
x
3

3
(prima equazione dei MQ)
dove:
y =
1
T
T

t=1
y
t
media campionaria di y
x
2
=
1
T
T

t=1
x
2t
media campionaria di x
2
x
3
=
1
T
T

t=1
x
3t
media campionaria di x
3
Q

2
= 0
T

t=1
x
2t
y
t
=

1
T

t=1
x
2t
+

2
T

t=1
x
2
2t
+

3
T

t=1
x
2t
x
3t
Nella relazione precedente, sostituiamo lespressione per

1
:
_
T

t=1
x
2t
y
t
T y x
2
_
=

2
_
T

t=1
x
2
2t
T x
2
2
_
+
+

3
_
T

t=1
x
2t
x
3t
T x
2
x
3
_
cio` e:
S
2y
=

2
S
22
+

3
S
23
2
a
equazione dei MQ
dove:
S
2y
=
T

t=1
x
2t
y
t
T y x
2
(T volte la covarianza campionaria tra y e x
2
)
S
22
=
T

t=1
x
2
2t
T x
2
2
(T volte la varianza campionaria di x
2
)
S
23
=
T

t=1
x
2t
x
3t
T x
2
x
3
(T volte la covarianza campionaria tra x
2
e x
3
)
Differenziando Q rispetto a

3
(e sostituendo

1
) otteniamo:
Q

3
= 0 S
3y
=

2
S
23
+

3
S
33
3
a
equazione dei MQ
4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 111
con:
S
3y
=
T

t=1
x
3t
y
t
T x
3
y
Ora, ` e possibile risolvere la 2

e la 3

equazione dei MQ per ottenere:

2
=
S
33
S
2y
S
23
S
3y

3 =
S
23
S
3y
S
23
S
2y

,
= S
22
S
33
S
2
23
e inne si ottiene anche un espressione per il coefciente di intercetta stimato:

1
= y

2
x
2

3
x
3
Le soluzioni cos` ricavate per gli stimatori OLS di
1
,
2
,
3
sono del tutto equiva-
lenti a quelli ottenuti facendo riferimento alla usuale notazione matriciale:

(31)
= (X

X)
1
X

y
Si noti che:
TSS = S
yy
=
T

t=1
(y
t
y)
2
= y

,
ESS =

2
S
2y
+

3
S
3y
=

=
=

=
_

1

2
_
dato che:
X

= X

(X

+ ),
X

= 0
A questo punto possiamo scrivere la somma dei quadrati dei residui della regres-
sione stimata come:
RSS = S
yy

2
S
2y

3
S
3y
= y


e lindice R
2
come:
R
2
=
ESS
TSS
=

2
S
2y
+

3
S
3y
S
yy
(coefciente di determinazione multipla).
mentre lindice R ` e detto anche coefciente di correlazione multipla.
112 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
4.7.4 Inferenza statistica nel modello di regressione multipla
Si ricordi che, sotto le ipotesi canoniche sui termini di disturbo, compresa lipotesi
di normalit` a, abbiamo che:

N
_
,
2
(X

X)
1
_
Si consideri ora il modello di regressione con:
y
t
=
1
+
2
x
2t
+
3
x
3t
+
t
, t = 1, 2, .., T
y =
X
(T3)

(31)
+
oppure:
y

= X

+u,

=
_

2

3
_
e quindi avremo:

N
_

,
2
(X

)
1
_
_
X

1
=
_
S
22
S
23
S
22
S
33
_
1
=
1
S
23
S
33
_
1 r
2
23

_
S
22
S
23
S
23
S
33
_
,
r
2
23
=
S
2
23
S
22
S
33
(coefciente di correlazione campionario tra x
2
e x
3
)
Quindi possiamo scrivere le varianze e covarianze dei singoli coefcienti stimati
come:
V ar(

2
) =

2
S
22
(1 r
2
23
)
, (4.38)
V ar(

3
) =

2
S
33
(1 r
2
23
)
, (4.39)
Cov(

2
,

3
) =

2
r
2
23
S
23
(1 r
2
23
)
, (4.40)
V ar(

1
) =

2
T
+ x
2
2
V ar(

2
) + 2 x
2
x
3
Cov(

2
,

3
) +
+ x
2
3
V ar(

3
) (4.41)
Le seguenti considerazioni sembrano degne di nota:
1. Si noti che le varianze di

2
e

3
crescono al crescere di r
2
23
.
2. La variabile casuale:
RSS

2

2
(T3)
pu` o essere utilizzata per costruire intervalli di condenza per
2
.
4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 113
Figura 4.8: intervallo duciario per
2
e
3

2

3
intervallo fiduciario
per e
stima puntuale di
stima puntuale di
3. Standardizzando opportunamente gli stimatori dei singoli parametri otte-
niamo variabili casuali distribuite come t di Student con T 3 gradi di
libert` a:

1
q
1/2
11
t
(T3)

2
q
1/2
22
t
(T3)

3
q
1/2
33
t
(T3)
Questi risultati distributivi possono essere utilizzati per costruire intervalli di
condenza per
1
,
2
e
3
.
4. La variabile casuale:
F =
1
2
2
[S
22
(

2
)
2
+ 2S
23
(

2
)(

3
) +
S
33
(

3
)
2
] (4.42)
si distribuisce come una variabile casuale F di Fisher:
F F
2,(T3)
Questo risultato distributivo pu` o essere utilizzato come riferimento per co-
struire intervalli di condenza per
2
e
3
. Ad esempio, facendo riferimento
114 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
alla Figura 4.8, possiamo denire unellisse, che corrisponde ad una curva
di livello delle funzioni di densit` a F
2,(T3)
tale per cui i punti ricompresi
nellellisse deniscono un intervallo con massa di probabilit` a = 1 (ad
esempio = 0.95), cio` e:
_ _

1
,
2
A
f(
1
,
2
)d
1
d
2
= 0.95
Alternativamente, la grandezza F denita nella (4.42) pu` o essere utilizzata per
vericare lipotesi nulla:
H
0
:
1
=
2
= 0
contro:
H
1
:
1
e/o
2
,= 0
In tal caso la grandezza F viene calcolata in corrispondenza di H
0
:
F =
ESS/2
RSS/(T 3)
=
=
1
2
2
_
S
22
(

2
)
2
+ 2S
23

3
+S
33
(

3
)
2
_
In questo caso lesame della tavola per la distribuzione F
2,T2
fornisce il valore
critico di riferimento alla probabilit` a dellerrore di prima specie scelta.
4.7.5 Esempio di regressione multipla con k = 3 regressori
Immaginiamo di avere una funzione di produzione specicata in logaritmi:
y
t
=
1
+
2
x
2t
+3x
3t
+
t
, t = 1, 2, . . . , T
dove:
y = log(prodotto)
x
2
= log(lavoro)
x
3
= log(k)
Abbiamo dati relativi a 23 imprese (T = 23) che possono essere riassunti come
segue:
_
_
x
2
= 10 x
3
= 5 y = 12
S
22
= 12 S
23
= 8 S
33
= 12
S
2y
= 10 S
3y
= 8 S
yy
= 10
_
_
1. Calcolare

1
,

2
,

3
e le stime dei rispettivi errori standard.
2. Trovare gli intervalli di condenza al 95% per
1
,
2
,
3
,e provare le ipotesi
separate
2
= 0 e
3
= 0 (con livello di condenza pari a 95% e probabilit` a
dellerrore di prima specie al 5%)
4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 115
3. Trovare la regione di condenza al 95% per
2
e
3
4. Vericare lipotesi (con probabilit` a derrore di prima specie al 5%):
H
0
:
2
= 1,
3
= 0
Soluzioni:
1. equazioni normali:

1
= y

2
x
2

3
x
3
S
22

2
+S
23

3
= S
2y
S
23

2
+S
33

3
= S
3y

1
= 4

2
= 0.7

3
= 0.2
R
2
c
=
ESS
TSS
=

2
S
2y
+

3
S
3y
S
yy
= 0.86
da cui
RSS = S
yy
(1 R
2
c
) = 1.4

2
=
RSS
(T 3)
= 0.07
r
2
12
=
S
2
23
S
22
S
33
=
64
144
= 0.4444
da cui (applicando le formule (4.41-??)):
V ar(

2
) =
3
20

2
V ar(

3
) =
3
20

2
Cov(

2
,

3
) =

2
10
V ar(

1
) = 8.7935
2
(varianze e covarianze teoriche)
Sostituisci ora
2
con
2
(stima della varianza di
t
) e prendi le redici
quadrate delle varianze stimate cio` e gli errori standard stimati
_

V (

2
) = SE(

2
) = 0.102
_

V (

3
) = SE(

3
) = 0.102
_

V (

1
) = SE(

1
) = 0.78
116 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Lequazione di regressione stimata diventa (errori standard in parentesi sotto
i coefcienti stimati):
y
t
= 4
(0.78)
+ 0.7
(0.102)
x
2t
+ 0.2
(0.102)
x
3t

2
= 0.07
R
2
= 0.86
2. Per costruire intervalli di condenza

i
SE(

i
)
t
(Tk)
, i = 1, 2, 3
Nel nostro caso (con = 0.05, T = 23, k = 3), la distribuzione di riferi-
mento ` e una t di Student con 20 gradi di libert` a e quindi t
(/2)
= t(0.025) =
2.086. Pertanto gli intervalli di condenza sono ottenuti come:

1
SE(

1
) 2.086 = [2.37, 5.63]

2
SE(

2
) 2.086 = [0.49, 0.91]

3
SE(

3
) 2.086 = [0.01, 0.41]
I test delle ipotesi:
H
0
:
i
= 0
H
1
:
i
,= 0, i = 2, 3 con = 5%
sono ottenuti facendo riferimento a:

i0
SE(

i
)
t
20
,

i0
= 0, i = 2, 3
La regione di accettazione di H
0
` e ovviamente denita dallintervallo:
[t
(/2)
, t
(/2)
] = [t
(0.025
, t
(0.025)
] = [2.086, 2.086]
I valori calcolati di tali test sono:

2
0
SE(

2
)
=
0.7
1.02
= 6.9 Riuto H
0

3
0
SE(

3
)
=
0.2
1.02
= 1.9 Accetto H
0
4.8. LA PREVISIONE 117
3. Costruisci:
(

)/(k 1)
RSS/(T k)
F
k1,Tk
cioe:
_
S
22
(

2
)
2
+ 2S
23
(

2
)(

3
) +S
33
(

3
)
_
3.49(2
2
)
_
12(0.7
2
)
2
+ 16(0.7
2
)(0.2
3
) + 12(0.2
3
)
2

3.49(2 0.07)
(
2
0.7)
2
+
4
3
(
2
0.7)(
3
0.2) + (
3
0.2)
2
0.041
che denisce la supercie delimitata da unellisse centrata sul punto:

=
_
0.7
0.2
_
4. Per la verica dellipotesi congiunta:
H
0
:
2
= 1,
3
= 0 contro
H
1
:
2
,= 1, e/o
3
,= 0
si costruisce il test F:
F =
1
2
2
_
S
22

2
2
+ 2S
23

3
+S
33

2
3
_
= 4.3
Consultando la tavola della distribuzione F
2,20
si ottiene che il valore critico
al 5% ` e:
f(0.05) = 3.49
che confrontato con il valore calcolato del test (4.3) comporta il riuto di
H
0
.
4.8 La previsione
Supponiamo di avere un MRL stimato del tipo
y = X

Immaginiamo che le osservazioni (t = 1, . . . , T) sulle quali si basa la stima del


modello siano riferite a diversi istanti temporali, da un inizio del campione nel pas-
sato (t = 1) ad un istante che corrisponde al presente (t = T, ne del campione).
`
E possibile utilizzare il MRL stimato per prevedere landamento futuro di y :
y
T+1
=x

T+1
(1k)

previsione un passo in avanti


118 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Ovviamente, per poter utilizzare il modello a ni estrapolativi, occorre poter for-
mulare unipotesi relativa al valore futuro dei regressori. Tale ipotesi si chiama
scenario della previsione:
x

T+1
=
_
x
1,T+1
. . . x
k,T+1

Lattivit` a di previsione comporta necessariamente che vengano compiuti degli er-


rori. Ipotizzando che non esista incertezza sullo scenario (cio` e si ipotizza che
x
T+1
sia conosciuto con certezza), lerrore di previsione viene denito come:

T+1|T
= y
T+1
y
T+1
= x

T+1
+
T+1
x

T+1

=
= x

T+1
(

) +
T+1
Notate che lerrore di previsione ha due componenti: la prima componente legata
al fatto che non ` e conosciuto e deve essere stimato (x

T+1
(

)), e la seconda
componente che ` e invece connessa alla presenza di un termine di disturbo stoca-
stico ed imprevedibile (
T+1
). Lerrore di previsione ha comunque valore atteso
nullo (se la stima dei parametri ` e non distorta):
E(y
T+1
y
T+1
) = x

T+1
E(

) +E(
T+1
)
e la varianza dellerrore di previsione ` e data da:
V ar(
T+1|T
) = x

T+1
V ar(

)x
T+1
+
2
=
=
2
_
1 +x

T+1
_
(X

X)
1

x
T+1
_
Ad esempio, consideriamo il MRL semplice:
y
t
=
1
+
2
x
2t
+
t
, t = 1, 2, . . . T
possiamo scrivere la varianza dellerrore di previsione come:
V ar(
T+1|T
) =
2
T+1|T
= V ar(y
T+1
y
T+1
) =
=
2
_
1 +
1
T
+
(x
2T+1
x
2
)
2
S
xx
_
,
S
xx
=
T

t=1
(x
2t
x
2
)
2
, x
2
=
T

t=1
x
2t
Si noti che lerrore di previsione
T+1|T
= y
T+1
y
T+1
= x

T+1
(

) ` e una com-
binazione lineare di variabili casuali normali (
T+1
,

) se i termini di disturbo
sono normali, per cui avr` a una distribuzione normale e quindi posso scrivere:
y
T+1
y
T+1

T+1|T
t
Tk
,

2
T+1|T
=
2
_
1 +x

T+1
(X

X)
1
x
T+1

(4.43)
4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM 119
Figura 4.9:
estremo fiduciario
superiore
puntuale
previsione
estremo fiduciario
inferiore
valore dello scenario
media camp.
di x2
p
r
e
v
i
s
i
o
n
e

p
u
n
t
u
a
l
e

e

i
n
t
e
r
v
.

f
i
d
u
c
i
a
r
i
o
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7
Sulla base di questo risultato distributivo ` e possibile costruire un intervallo
duciario intorno alla previsione puntuale. Nel caso della regressione semplice,
abbiamo un intervallo duciario ad un livello duciario pari a 1 denito nel
modo seguente:
[ y
T+1
t
(/2)

T+1|T
]
Quindi notiamo che, a parit` a di ogni altra circostanza, quanto pi` u mi allontano
dalla media campionaria x
2
, tanto pi` u la previsione di y
T+1
diventa incerta: ` e
accompagnata da un intervallo duciario la cui ampiezza cresce con il crescere di
x
2T+1
da x
2
. Si veda a questo proposito la Figura 4.9.
4.9 Diversi modi di costruire Test: Test LR, di Wald, LM
4.9.1 Il test LR
Il primo test che descriviamo viene chiamato LR (rapporto delle verosimiglianze =
likelihood ratio). Questo test ha validit` a in grandi campioni ed ` e basato sulla stima
di massima verosimiglianza. Si immagini di voler provare lipotesi che i parametri
del modello soddisno un certo insieme di restrizioni. Si denisca il vettore di
120 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
parametri del modello (nel MRL = [

2
]

) e chiamiamo:
=
massimo di L sotto le restrizioni
massimo di L non vincolato
=
=
L(

R
)
L(

UR
)
(R = restricted, UR = un restricted)
`
E possibile mostrare che:

LR
= 2 log
(a)

H
0

2
q
(4.44)
cio` e che la distribuzione asintotica di 2 log sotto H
0
` e
2
q
dove q = numero di
restrizioni imposte sul modello vincolato. Ad esempio, consideriamo il MRL:
y =
X
(Tk)
+ = X
1
(Tk
1
)

1
+ X
2
(Tk
2
)

2
+
per il quale supponiamo siano vericate le seguenti ipotesi sui termini di disturbo:
N(0,
2
I
T
)
Immaginiamo di avere come ipotesi nulla:
H
0
:
2
= 0 (k
2
vincoli di uguaglianza a zero)
La stima del modello non vincolato tramite massima verosimiglianza ` e:

= (X

X)
1
X

y,

2
=
1
T


In corrispondenza di tale valore, la funzione di verosimiglianza assume il valore:
L(

,
2
) =
_
1

2
_
T
exp
_

1
2
2


_
=
_
1

2
_
T
exp
_

T
2
_
La stima del modello vincolato ` e invece basata su di una formulazione del MRL
sulla quale sono stati imposti i vincoli che caratterizzano H
0
:
y = X
1

1
+
R
i cui parametri stimati sono:

R
=
_
(X

1
X
1
)
1
X

1
y
0
(k
2
1)
_
,

2
R
=
1
T

R

R
4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM 121
e il valore della verosimiglianza calcolato in corrispondenza di questo massimo
vincolato ` e:
L(

R
,
2
R
) =
_
1

2
R
_
T
exp
_

1
2
2
R

R

R
_
=
=
_
1

2
R
_
T
exp
_

T
2
_
Quindi posso costruire la variabile casuale denita dalla (4.44) come:

LR
= 2 log
L(

R
)
L(

UR
)
= T log(

2
R

2
) = T [log RRSS log URSS]
dato che:

2
=
1
T

=
URSS
T

2
R
=
1
T

R

R
=
RRSS
T
URSS = somma dei quadrati dei residui
del modello UR (non vincolato,unrestricted)
RRSS = somma dei quadrati dei residui
del modello R(vincolato,restricted)
Il modo in cui ` e costruito il test implica che sia necessario stimare separatamente
il modello vincolato ed il modello non vincolato.
4.9.2 Il test di Wald
Supponiamo che le consuete ipotesi sul MRL abbiamo condotto ad ottenere la
stima dei parametri del primo ordine che ha la seguente propriet` a:

N(,
2
(X

X)
1
)
Immaginiamo di voler provare lipotesi:
H
0
:
2
= 0
H
1
:
2
,= 0
dove
2
` e un sottoinsieme di . Si consideri la stima di

2
(ottenuta sulla base
del modello di partenza non vincolato, vale a dire su cui non sono stati imposti i
vincoli che caratterizzano H
0
) e si denisca:
(X

X)
1
= [Q] =
_
Q
11
Q
12
Q
21
Q
22
_
122 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Grazie alle propriet` a della distribuzione gaussiana, sappiamo che:

2
N(0,
2
Q
22
) (4.45)
Deniamo allora P
2
la fattorizzazione di Choleski di Q
22
:
P
2
P

2
= Q
22
I
k
2
= P
1
2
Q
22
P
1
2
Possiamo ora standardizzare la distribuzione di

2
utilizzando la seguente trasfor-
mazione della (4.45):
1

P
1
2
(

2
) N(0, I
k
2
) (4.46)
che sotto lipotesi nulla H
0
:
2
= 0 diventa:
1

P
1
2
(

2
) N(0, I
k
2
)
Facendo la somma dei quadrati degli elementi del vettore:
z =
1

P
1
2
(

2
)
ottengo chiaramente una grandezza distribuita come una
2
k
2
:
z

z =
_
1

P
1
2
(

2
)
_

_
1

P
1
2
(

2
)
_
=
1

2
Q
1
22

2

H
0

2
k
2
Ovviamente nella formulazione della statistica appena descritta appare la gran-
dezza
2
che in genere ` e sconosciuta. Occorre quindi stimare questo parametro,
in genere utilizzando lo stimatore di massima verosimiglianza, e la statistica di
riferimento sar` a:

W
=
1

2
ML

2
Q
1
22

2
a

H
0

2
k
2
Nel caso pi ` u generale dellimposizione sotto H
0
di q vincoli lineari indipendenti
sui parametri del primo ordine:
H
0
:
R
(qk)
= d
(R) = q
ricordando che:

N(,
2
(X

X)
1
)
possiamo ricavare la distribuzione sotto H
0
della grandezza (R

d):
(R

d) N(0,
2
R(X

X)
1
R

)
4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM 123
e quindi possiamo costruire il test:

W
=
1

2
ML
(R

d)

_
R(X

X)
1
R

1
(R

d)
(a)

H
0

2
q
Prendiamo come esempio pi ` u semplice un MRL dove tutte le variabili appaiono
espresse in termini di deviazioni dalle rispettive medie campionarie:
y

= X

+u
e supponiamo che lipotesi nulla sia quella che implica lassenza assoluta di potere
esplicativo da parte della regressione:
H
0
:

= 0
R = I
k1
d = [0]
(k1)1
Possiamo quindi costruire un test di Wald come:

W
=


2
ML
H
0

(a)

2
k1
Notate che questa statistica si pu` o esprimere in termini equivalenti come:

W
=


2
ML
=
ESS
(
URSS
T
)
= T
_
R
2
c
1 R
2
c
_
(test di Wald in forma
2
)
nb : R
2
c
=
ESS
TSS
Una formulazione alternativa del test di Wald ` e la seguente:
f
W
=
ESS/(k 1)
URSS/(T k)
=
(RRSS URSS)/k 1
URSS/T k
F
k1,Tk
In questo caso la distribuzione di riferimento sotto H
0
` e una F di Fisher con k 1
e T k gradi di libert` a. Si noti che lequivalente test LR della medesima ipotesi ` e:

LR
= T log
_
RRSS
URSS
_
Per questo esempio abbiamo:
RRSS = y

y
URSS =


(dato che azzeriamo i coefcienti associati a tutti i regressori diversi dallintercetta
sotto H
0
) e quindi:

LR
= T log
_
y


_
Si noti che per ottenere il test di Wald, in via generale, ` e necessario stimare solo il
modello non vincolato.
124 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
4.9.3 Test LM (Lagrange Multipliers) (test dei moltiplicatori di La-
grange)
Stimiamo il MRL:
y = X +
sottoposto ai vincoli:
R
(qk)

(k1)
q<k
= d
(R) = q
Dobbiamo quindi massimizzare la logverosimiglianza:
log L
sotto i vincoli:
R = d
Il primo passo ` e quello di costruire la funzione lagrangiana:
log L +

(R d)
log L

+R

= 0 (4.47)
dove con indichiamo il vettore che contiene tutti i parametri del modello:

(k+1)1
=
_

2
_
Ovviamente, il gradiente, calcolato in corrispondenza della congurazione di
che massimizza la logverosimiglianza sotto i vincoli imposti (

R
) non ` e zero ma
` e pari a R

, come si evince dalla (4.47). Se i vincoli non fossero stringenti,


allora il punto di massimo vincolato

R
coinciderebbe con il punto di massimo
non vincolato

UR
e quindi avremmo che il gradiente ` e nullo. In questo caso
infatti, il vettore di moltiplicatori di Lagrange ` e un vettore di dimensioni (q 1)
di zeri. Quanto pi` u i vincoli sono stringenti, tanto pi` u il gradiente calcolato in
corrispondenza di

R
tender` a ad essere diverso da zero.
`
E possibile costruire un test dellipotesi nulla
H
0
: R = d
basato sulla seguente domanda: il gradiente della funzione di logverosimiglian-
za, calcolato in corrispondenza di

R
` e signicativamente diverso da 0? Si pu` o
dimostrare che, sotto H
0
(e date le ipotesi consuete sul modello, compresa quel-
la di normalit` a dei termini di disturbo), possiamo descrivere la distribuzione del
gradiente:
(

R
) =
_
log L()

_
=

R
N
_
0, I
_

R
__
4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM 125
dove
I
_

R
_
=
_
E
_

2
log ()
_

R
si intende la matrice di informazione calcolata in corrispondenza di

R
, cio` e il va-
lore atteso della matrice Hessiana delle derivate seconde (cambiate di segno) della
logverosimiglianza calcolata in corrispondenza della stima di massima verosimi-
glianza sotto H
0
.
Dato questo risultato distributivo, posso denire una grandezza scalare denita
come:
= (

R
)

_
I
_

R
__
1
(

R
) (4.48)
e questa grandezza ` e asintoticamente distribuita sotto H
0
come una variabile ca-
suale
2
q
, con q gradi di libert` a:

H
0

(a)

2
q
(4.49)
Ad esempio, consideriamo il MRL:
y = X + = X
1

1
+X
2

2
+
N
_
0 ,
2
I
_
_
H
0
:
2
= 0
H
1
:
2
,= 0
calcoliamo le derivate prime e seconde della funzione di logverosimiglianza:
log L

=
1
2
2
_
2X

y + 2X

X
_

2
log L

=
X

2
con:

R
=
_

1 R
0
_
I(

R
) =
XX

R
2
log L(
R
)

R
=
1

2
R
_
X

y XX

R
_
`
E possibile mostrare (solo un con un po di algebra e buona volont` a) che vale:
test LM =
LM
=
RSS URSS
RSS/T
126 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Figura 4.10: Logiche di costruzione di test a confronto
non vinc.
0
test LR
test di Wald
S
Test LM

l
o
g

L
S
Linclinazione di SS

` e alla base della costruzione del test LM


Ad esempio, nel caso del test di bont` a della regressione:
H
0
:
2
= =
k
= 0
contro
H
1
:
2
,= 0, e/o
3
,= 0, e/o
k
,= 0
il test LM ` e:

LM
= T R
2
c
dato che in questo caso abbiamo:
RSS = TSS = y

in generale, il test LM ` e basato sulla stima del modello ristretto


4.9.4 Ricapitolazione sulle modalit` a di costruzione dei test
Prendiamo come riferimento la Figura 4.10 dove, in relazione ad un modello mol-
to semplice con un unico parametro da stimare , rappresentiamo la logverosi-
miglianza in corrispondenza dei diversi valori di e deniamo

ML
la stima di
4.10. STIMADEL MODELLOSOGGETTOAVINCOLI LINEARI SUI PARAMETRI127
massima verosimiglianza non vincolata. Supponiamo che lipotesi nulla sia:
H
0
: = 0
H
1
: ,= 0
Ovviamente in questo semplice contesto (in cui c` e un solo parametro) il massi-
mo vincolato della verosimiglianza coincide con la funzione di verosimiglianza
calcolata in corrispondenza di =
0
Ricapitolando, quindi:
test LR = basato sulla distanza tra log L(

ML
) e log L(
0
)
test di Wald = basato sulla distanza tra
0
e

ML
test LM = basato sulla pendenza di log L in
0
(quindi dalla misura di quanto
il gradiente ` e diverso da zero in
0
).
`
E possibile dimostrare che i tre test sono legati da una semplice relazione: per
qualsiasi ipotesi nulla ed in relazione a qualsiasi MRL, si ha:

W

LR

LM
e quindi pu` o succedere che unipotesi sia riutata da W e accettata da LR, LM,per
esempio
4.10 Stima del modello soggetto a vincoli lineari sui para-
metri
Supponiamo di avere un modello di regressione lineare del tipo:
y = X +
per il quale valgono tutte le ipotesi consuete su termini di disturbo e regressori. Im-
maginiamo che esistano ragioni per ritenere che valgano i seguenti vincoli lineari
sui parametri:
R
(qk)

(k1)
=
d
(q1)
, (4.50)
(R) = q
Ad esempio, supponiamo di avere un MRL:
y
t
=
1
+
2
x
2t
+
3
x
3t
+
4
x
4t
+
5
x
5t
+
t
, t = 1, . . . T
dove le variabili hanno il seguente signicato:
y
t
= consumo
x
2t
= reddito disponibile
x
3t
= spesa pubblica
128 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
x
4t
= stock di ricchezza privata
x
5t
= debito pubblico
In una sua semplice formalizzazione, lipotesi di equivalenza ricardiana (la
spesa pubblica, dato che prima o poi necessita di un suo nanziamento tramite
maggiori tasse implica che il consumatore razionale anticipi lincremento delle tas-
se e quindi consideri spesa pubblica alla stregua di riduzione di reddito disponibile
e debito pubblico come riduzione della ricchezza) implica che:

3
=
2
,

5
=
4
Questi sono due vincoli imposti sullo spazio parametrico che possiamo rappresen-
tare in termini matriciali come:
R = d,
=
_

5
_

_
, R =
_
0 1 1 0 0
0 0 0 1 1
_
, d =
_
0
0
_
Ora vediamo un modo possibile per stimare il modello in modo tale che rispetti
vincoli lineari del tipo (4.50): questo metodo ` e chiamato metodo dei minimi qua-
drati vincolati (` e possibile anche denire uno stimatore di massima verosimiglianza
vincolata):
min

soggetta ai vincoli:R = d
Per risolvere questo problema siamo attrezzati: costruiamo la funzione lagrangia-
na e ricaviamo le condizioni del primo ordine rispetto ai parametri del modello e
rispetto ai moltiplicatori di Lagrange
L =

+ 2

(R d) (4.51)
L

= 0 2X

y + 2X

X + 2R

= 0 (4.52)
L

= 0 R d = 0 (4.53)
Ora, esplicitiamo (4.52) rispetto a , chiamando la soluzione

R
:

R
= (X

X)
1
(X

y R

) (4.54)
Sostituiamo ora la (4.54) nella (4.53) ottenendo:
R

R
= d
R(X

X)
1
(X

y R

) = d
R(X

X)
1
X

y d = R(X

X)
1
R


4.10. STIMADEL MODELLOSOGGETTOAVINCOLI LINEARI SUI PARAMETRI129
=
_
R
_
X

X
_
1
R

_ _
R

UR
d
_
(4.55)

UR
= stima non vincolata =
=
_
X

X
_
1
X

y (4.56)
Notate che quando il vincolo ` e esattamente vericato dalla stima non vincolata,
dalla espressione per riportata qui sopra si evince che il vettore dei moltiplicatori
di Lagrange ` e nullo (i vincoli non sono stringenti: il punto di massimo vincolato
coincide con quello di massimo libero):
R

UR
d = 0 = 0
Ora risostituiamo la (4.55) nella (4.54):

R
=
_
X

X
_
1
_
X

y R

_
R
_
X

X
_
1
R

_
1

_
R

UR
d
_
_
(4.57)
La formula vista sopra fornisce un modo per ottenere la stima del MRL sotto i
vincoli che caratterizzano lipotesi nulla H
0
. Per vericare:
H
0
: R = d
contro
H
1
: R ,= d
sono disponibili tutti i test descritti alla sezione precedente:
test di Wald=
_

W
= T
(RRSS URSS)
URSS

2
q
f
W
=
(RRSS URSS)/q
URSS/(T k)
F
q , Tk
test LR =
LR
= T log
_
RRSS
URSS
_

2
q
test LM =
LM
= T
(RRSS URSS)
RRSS

2
q
4.10.1 Alcuni esempi
Prendiamo come primo esempio una funzione di domanda di investimenti:
I
t
=
1
+
2
R
t
+
3

t
+
t
I
t
= domanda di investimento
R
t
= tasso di interesse nominale

t
=tasso di inazione
ipotesi:
3
=
2
130 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Per vericare lipotesi nulla:
H
0
:
3
=
2
,
contro
H
0
:
3
,=
2
` e possibile lavorare con uno qualsiasi dei test visti. Possiamo stimare il modello
non vincolato ottenendo URSS. Per ricavare RSS in questo caso ` e facile: basta
stimare direttamente un modello che soddis implicitamente il vincolo imposto,
vale a dire:
I
t
=
1
+
2
(R
t

t
) +
Rt
(4.58)
Nel modello precedente deniamo un nuovo regressore R
t

t
, tasso di interesse
reale. In questo modo, la regressione stimata (4.58) ha una somma dei quadrati dei
residui che ` e esattamente RSS.
Come secondo esempio, si consideri la seguente funzione di produzione in
logaritmi:
y
t
=
1
+
2
l
t
+
3
k
t
+
t
Si supponga di voler provare lipotesi di rendimenti costanti di scala:
H
0
:
2
+
3
= 1
contro
H
1
:
2
+
3
,= 1
Si noti che, se sono valide tutte le ipotesi consuete su termini di disturbo e regresso-
ri allora sappiamo che la stima OLS non ristretta del modello si distribuisce come
una variabile casuale normale k-variata:

N(,
2
(X

X)
1
)
e quindi la variabile casuale

2
+

3
1 (somma di due variabili casuali normali-1)
sotto H
0
si distribuisce nel modo seguente:

2
+

3
1 = r

1 N [0, ] ,

2
= var(

2
+

3
1) = r


2
Qr =
=
2
(q
22
+ 2q
23
+q
33
) =
= var(

2
) +var(

3
) + 2cov(

2
,

3
),
Q = (X

X)
1
, r =
_
0 1 1

,

2
=
2
(q
22
+ 2q
12
+q
11
) (controparte stimata di )
Quindi opportunamente standardizzando

2
+

3
1 si ottiene una variabile casuale
la cui distribuzione sotto H
0
` e nota:
4.11. EFFETTI DELLOMISSIONE DI VARIABILI RILEVANTI 131
=
_

2
+

3
1
_

=
H
0
t
T3
, (4.59)
=


2
=
_
(q
22
+ 2q
12
+q
11
) = (4.60)
=
_
RSS
T 3
_
(q
22
+ 2q
12
+q
11
) (4.61)
`
E quindi possibile ottenere il valore calcolato della statistica e confrontar-
lo con il valore critico della distribuzione t di Student, scegliendo la probabilit` a
dellerrore di prima specie.
In questo esempio (come nel precedente) ` e semplice fare prova delle ipotesi
perch` e abbiamo una sola restrizione.
`
E per` o anche possibile costruire il test Wald
nella sua forma F :
f
W
=
(RRSS URSS)/q
URSS/(T k)
Per ottenere la RRSS (dalla stima del modello vincolato) ` e possibile:
applicare MQ vincolati
trasformare la relazione di regressione ipotizzando che valga H
0
:
y
t
=
1
+
2
l
t
+ (1
2
)k
t
+
Rt

y
t
k
t
=
1
+
2
(l
t
k
t
) +
Rt
Quindi ottengo un MRL in cui regredisco log
_
Y
K

su log
_
L
K

e un termine di
intercetta. Utilizzo OLS e ottengo la RSS. Si noti che il test f
W
e il test descritto
nella (4.59) conducono a conclusioni equivalenti, dato che il valore di questi test
sono legati dalla seguente relazione:
f
W
= ()
2
in altri termini: il F ` e il quadrato del test , quando c` e un solo vincolo.
4.11 Effetti dellomissione di variabili rilevanti
Supponiamo che il modello vero sia:
y = X + = X
1
(Tk
1
)

1
+ X
2
(Tk
2
)

2
+
Supponiamo di escludere dallanalisi X
2
,perch` e non ne disponiamo di una misu-
razione afdabile oppure perch` e non sappiamo di doverlo inserire. Quindi, invece
di stimare il modello vero, stimo il seguente MRL:
y = X
1

1
+u (4.62)

1 s
= (X

1
X
1
)
1
X

1
y (4.63)
132 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Il vettore dei parametri
1
` e stimato sulla base del modello scorretto. Il valore
atteso di

1 s
` e quindi:
E(

1 s
) = (X

1
X
1
)
1
X

1
(X
1

1
+X
2

2
+)
=
1
+ (X

1
X
1
)
1
X

1
X
2

2

E(

1 s
)
1
= distorsione = (X

1
X
1
)
1
X

1
X
2

2
Si noti che il termine (X

1
X
1
)
1
X

1
X
2
d` a la stima dei coefcienti della regressione
OLS di X
2
su X
1
. Si noti che:

1s

1s
= (X

1
X
1
)
1
X

1
(4.64)
e quindi la matrice di varianze e covarianze di

1s
` e:
V (

1 s
) = E
_
(

1 s
E(

1 s
))(

1 s
E(

1 s
))

_
=
2
(X

1
X
1
)
1
(4.65)
Quindi, gli effetti dellesclusione di X
2
sono che in questo modo:
si ottiene una stima distorta (a meno che sia X

1
X
2
= 0, cio` e che X

1
e X
2
siano ortogonali)
la varianza teorica di

1 s
` e sicuramente minore di quella associata alla stima
del modello completo.
Ma cosa si pu` o dire della stima della varianza di

1 s
? Per capire meglio si
consideri il caso in cui il MRL vero abbia due variabili esogene oltre al termine
di intercetta:
y
t
=
1
+
2
x
2 t
+
3
x
3 t
+
t
ed invece venga stimato un modello scorretto:
y
t
=
1
+
2
x
2 t
+u
t
Notiamo immediatamente che:
V ar(

2 s
) =

2
S
22
(varianza teorica),
S
22
=
T

t=1
(x
2 t
x
2
)
2
mentre la varianza teorica della stima di
2
sulla base del modello vero ` e:
4.11. EFFETTI DELLOMISSIONE DI VARIABILI RILEVANTI 133
V ar(

2
) =

2
(1 r
2
23
)S
22
,
r
2
23
=
1
T
T

t=1
(x
2t
x
2
)(x
3t
x
3
)
_
1
T
T

t=1
(x
2t
x
2
)
2
_ _
1
T
T

t=1
(x
3t
x
3
)
2
_ =
cov(x
2
, x
3
)
var(x
2
) var(x
3
)
quindi, se r
2
1 2
> 0 (cio` e se x
1
e x
2
non sono ortogonali), allora avremo:
V (

1
) > V (

1 s
)
Quanto detto vale per le varianze teoriche. Ora consideriamo le controparti stimate:
var(

2
) =

2
S
22
(1 r
2
23
)
var(

2 s
) =

2
s
S
22
Prendiamo il rapporto di tali varianze:
var(

2
)
var(

2 s
)
=

2
s

2

_
1 r
2
23
_
quindi se
2
s
` e molto superiore a
2
, cio` e se il contributo di x
2
alla spiegazione di
y, una volta che sia gi` a inserito x
1
, ` e molto rilevante, pi ` u di quanto non sia lentit` a
della correlazione di x
1
e x
2
, allora la stima del modello completo ha varianza
stimata minore.
Ad esempio, se consideriamo unequazione di domanda di beni alimentari:
y
t
=
1
+
2
x
2 t
+
3
x
3t
+
t
, t = 1, . . . , T
dove:
y = quantit` a domandata
x
2
= prezzo del bene
x
3
= reddito
(dati riportati sul libro di Maddala)
Stimiamo un modello dove viene omesso il reddito e stimiamo il modello
scorretto:
y
t
= 89.97
(11.85)
+ 0.107
(0.118)
x
2t
,
= 2.338
134 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Notate che

2 s
ha il segno sbagliato (positivo); ricordiamo infatti che abbiamo
indicato lentit` a della distorsione teorica come:
E(

2 s
)
2
=
_
(x

2
x

2
)
1
x

2
x

3
_

3
= (4.66)
=
cov(x
2
, x
3
)
var(x
2
)

3
(4.67)
Dallesame della espressione precedente, possiamo concludere che, dato che
3
,
coefciente del reddito ` e ragionevolmente positivo, e dato che il termine (x

2
x

2
)
1
x

2
x

3
ha lo stesso segno della correlazione tra prezzi e reddito (x
2
e x
3
), presumibilmente
positiva, la distorsione della stima di
2
` e ragionevolmente positiva.
Tutte queste supposizioni sono confermate dallesame del modello completo
stimato:
y
t
= 92.05
(5.84)
0.142
(0.067)
x
2t
+ 0.236
(0.031)
x
3t
,
= 1.952
Notate che lerrore standard di

1
` e diminuito: il contributo di x
3t
alla spiegazione
di y
t
` e superiore allentit` a della correlazione di x
2t
e x
3t
.
4.12 Effetti dellinclusione di variabili irrilevanti
Supponiamo che il modello vero sia:
y = X
1
(Tk
1
)

1
(k
1
1)
+
e che si stimi invece il modello:
y = X
1
(Tk
1
)

1
(k
1
1)
+ X
2
(Tk
2
)

2
(k
2
1)
+u
In altri termini, siamo in una situazione in cui il vettore di parametri veri ` e:
=

1
0
La stima del modello scorretto ` e:

s
=
_

1 s

2 s
_
= (X

X)
1
X

y
che ` e non distorta. Questo signica che il valore atteso di

s
` e:
E
_

s
_
= E
_

1 s

2 s
_
= =
_

1
0
_
4.12. EFFETTI DELLINCLUSIONE DI VARIABILI IRRILEVANTI 135
La matrice di varianze e covarianze della stima del modello scorretto ` e:
V (

s
) =
2
(X

X)
1
=
2
Q =
2
_
Q
11
Q
1 2
Q
2 1
Q
2 2
_
e quindi:
V (

s
) =
2
Q
11
mentre la matrice di varianze e covarianze di

1
(stima di
1
sulla base del modello
vero):
V (

1
) =
2
(X

1
X
1
)
1
`
E possibile dimostrare che la matrice di varianze e covarianze di

1 s
differisce da
quella di

1
per una matrice denita positiva. Quindi la stima del modello scorretto
` e inefciente.
Ad esempio, se il modello vero ` e:
y
t
=
1
+
2
x
2t
+
t
e viene invece stimato:
y
t
=
1
+
2
x
2t
+
3
x
3t
+u
t
Possiamo confrontare le varianze:
V ar(

2s
) =

2
(1 r
2
23
)S
22
V ar(

2
) =

2
S
22
quindi:
V ar(

2s
) > V ar(

2
) se r
2
23
> 0
Anche per le controparti stimate generalmente vale:

V ar(

2s
) >

V ar(

2
),

V ar(

2
) =

2
S
22
,

V ar(

2s
) =

2
s
(1 r
2
23
)S
22
anche se ` e vero che
2
s
<
2
(c` e una variabile esplicativa in pi` u nel modello
scorretto) ma il contributo di x
3t
alla spiegazione di y
t
` e ragionevolmente molto
basso.
Notate che:
E(
2
s
) =
2
136 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Quindi se il modello ` e sovraparametrizzato, la stima di rimane non distorta, anche
se meno efciente (PROVA: fatelo come esercizio).
Come succede alla stima dei parametri rilevanti quando dalla regressione si
esclude un parametro irrilevante? La risposta ` e che in grandi campioni la stima
non cambia affatto, dato che comunque le stime sono non distorte e consistenti.
Per MRL stimati in base a campioni di ampiezza nita esiste il risultato provato
da Leamer (1975): si supponga di essere interessati a
j
e che il regressore x
i
sia
irrilevante. Indichiamo con

j
la stima di
j
sulla base del modello in cui appare
anche x
i
. Leamer prova che, escludendo dalla regressione x
j
dalla regressione, si
ottiene una una stima che ` e vincolata a stare nellintervallo

j
t
i
s
j
, dove:
s
j
= errore standard di

j
t
i
= test t di
i
= 0
4.13 Gradi di libert` a e indice R
2
In un MRL, quando viene incrementato il numero dei regressori inclusi, a prescin-
dere dalla effettiva capacit` a eplicative dei regressori aggiunti su y, si ottiene un
incremento nellindice R
2
:

2
=
RSS
T k
= (1 R
2
)
TSS
T k
Si denisce allora un indice che chiamiamo

R
2
(R
2
adjusted):

R
2
= 1
RSS/(T k)
TSS/(T 1)
= 1 (1 R
2
c
)
_
T 1
T k
_
che penalizza linserimento di regressori. Si noti che:
_
1

R
2
_

TSS
T 1
=
_
1 R
2
c
_

TSS
T k
=
2
al crescere di

R
2
(o di R
2
) diminuisce
2
.
`
E possibile che si verichi il caso in cui 1

R
2
> 1, cio` e

R
2
< 0. Questo si
ha quando:
(1 R
2
c
) >
T k
T 1
,
R
2
c
<
k
T 1
Ad esempio, con T = 21 e k = 2, se R
2
< 0.1 si avr` a

R
2
< 0
4.13. GRADI DI LIBERT
`
A E INDICE R
2
137
4.13.1 Relazione tra test di signicativit` a t, test F e indice

R
2
Se una variabile esplicativa x
i
, con coefciente stimato pari a

i
e con test t > 1,
viene esclusa dalla regressione, allora diminuisce

R
2
. (Ovviamente, sarebbe bello
se

R
2
diminuisse con lesclusione di variabili con coefciente signicativo, cio` e
con t > 2 !). Pi ` u in generale, se x
1t
, . . . , x
rt
sono r grandezze il cui test F di
esclusione congiunta (H
0
:
1
=
2
= =
r
= 0) ` e > 1, allora lesclusione di
tali grandezze comporta una diminuzione dellindice

R
2
.
Dimostrazione:

2
R
=
RRSS
T k +r
stima varianza nel modello ristretto

2
UR
=
URSS
T k
stima varianza nel modello non ristretto
F =
(RRSS URSS)/r
URSS/(T k)
=
_
(T k +r)
2
R
(T k)
2
UR

/r
(T k)
2
UR
/(T k)
Risolvi per F =
(RSS
R
RSS
UR
)/r
RSS
UR
/(T k)
:
F =
_
(T k +r)
2
R
(T k)
2
UR

/r

2
UR
,
F =
(T k +r)
r

2
R

2
UR

(T k)
r
denisci
T k
r
= a
quindi:
T k
r
+ 1 =
T k +r
r
= a + 1
Sostituendo nellespressione per F:
F = (a + 1)

2
R

2
UR
a
e quindi:

2
R

2
UR
=
a +F
a + 1
,
a =
T k
r
quindi se F ` e maggiore di 1, escludendo x
1
, . . . , x
r
si ottiene un aumento della
varianza stimata del modello ristretto, vale a dire una diminuzione di

R
2
, dato
che:
138 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

2
_
1

R
2
_
_
TSS
T 1
_
(relazione inversa tra
2
e

R
2
) (4.68)
e viceversa se F < 1.
4.14 Test di stabilit` a del MRL
Sono test di costanza dei parametri. Abbiamo due tipi diversi di test: test basati
sullanalisi della varianza e test previsivi.
4.14.1 Test basati sullanalisi della varianza
Supponiamo di poter distinguere allinterno del campione due sottoinsiemi di os-
servazioni (T = T
1
+T
2
) in relazione ai quali abbiamo:
y
t
=
(1)
1
x
1t
+
(1)
2
x
2t
+ +
(1)
k
x
kt
+
t
, t = 1, 2, . . . , T
1
y
t
=
(2)
1
x
1t
+
(2)
2
x
2t
+ +
(2)
k
x
kt
+
t
, t = T
1
+ 1, . . . , T
1
+T
2
Possiamo costruire un test di stabilit` a dei parametri:
H
0
:
_

(1)
i
=
(2)
i
i = 1, 2, . . . , k
Sotto H
0
tutti i parametri sono uguali per tutte le osservazioni periodo campionarie
(ampiezza campionaria completa ` e T
1
+T
2
)
Ora, stimiamo il MRL separatamente nei due sotto-campioni ottenendo:
RSS
1
= somma quadrati residui equazione stimata con t = 1 . . . T
1
.
RSS
2
=somma quadrati residui equazione stimata con t = T
1
+1 . . . T
1
+2.
Ricordiamo che:
RSS
1
/
2

2
T
1
k
,
RSS
2
/
2

2
T
2
k
Sotto H
0
i parametri sono costanti su tutto il campione. Quindi ` e possibile stimare
il MRL sotto H
0
:
y
t
=
1
x
1t
+ +
k
x
kt
+
t
, t = 1, 2, . . . , T
1
, T
1
+ 1, . . . , T
1
+T
2
ottenendo la somma dei quadrati dei residui:
RRSS =


4.14. TEST DI STABILIT
`
A DEL MRL 139
da intendere come somma dei quadrati dei residui del modello vincolato (stiamo
stimando il MRL sotto i vincoli che caratterizzano H
0
). Ricordiamo anche che:
RRSS

2

2
T
1
+T
2
k
La somma dei quadrati dei residui del modello non vincolato ` e
URSS = RSS
1
+RSS
2
,
URSS
2
T
1
+T
2
2k
Quindi ` e possibile costruire il test di Wald in forma F come
f
W
=
(RRSS URSS)/k
URSS/(T
1
+T
2
2k)
dove:
k = numero vincoli imposti per ottenere il modello ristretto
T
1
+T
2
2k = T 2k = gradi di libert` a del modello UR
Questo test ` e basato sullanalisi della varianza ed ` e chiamato test di Chow del
primo tipo.
4.14.2 Test previsivo di stabilit` a
Quando T
2
< k non ` e possibile stimare separatamente il MRL nel secondo sot-
tocampione. Allora si utilizza la seguente idea per costruire un test alternativo di
stabilit` a basato sulla capacit` a previsiva del modello: se il modello ` e stabile, ` e possi-
bile stimarlo utilizzando solo le osservazioni che appartengono al primo sottocam-
pione (t = 1, . . . T
1
). Sulla base di questa stima, possiamo utilizzare il modello in
previsione per il sotto-campione dato dalle osservazioni T
1
+ 1, . . . , T
1
+ T
2
e
ottenere errori non sistematici, vale a dire con valore atteso nullo. Specichiamo
quindi unipotesi nulla in base alla quale gli errori di previsione relativi al secondo
sottocampione hanno tutti valore atteso nullo:
H
0
: E(
T
1
+1|T
1
) = E(
T
1
+2|T
1
) = . . . = E(
T
1
+T
2
|T
1
) = 0,
contro
H
1
: E(
T
1
+1|T
1
) ,= 0, e/o E(
T
1
+2|T
1
) ,= 0, e/o E(
T
1
+T
2
|T
1
) ,= 0
Il test di questa ipotesi ` e costruito denendo:
RSS = somma dei quadrati dei residui ottenuti stimando il modello con tutte
le osservazioni (t = 1, 2, . . . , T
1
+T
2
).
RSS
1
= somma dei quadrati dei residui ottenuti stimando il modello con le
osservazioni appartenenti al primo sotto-campione (t = 1, 2, . . . , T
1
).
Queste due somme dei quadrati possono essere utilizzate per costruire un test
di Wald in forma F:
140 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
f
W
=
(RSS RSS
1
)/T
2
RSS
1
/(T
1
k)

H
0
F
T
2
,T
1
k
(4.69)
Per giusticare la costruzione di questo test occorre fare riferimento alluso e al
signicato delle delle variabili di comodo (variabili dummy) nei modelli econome-
trici (vedi capitolo 5). Il test descritto dalla (4.69) ` e detto test di Chow del secondo
tipo.
4.14.3 Alcuni commenti ai test di stabilit` a strutturale
Per quanto riguarda il test di Chow del primo tipo, tale test ` e basato sullassun-
zione implicita che la varianza dei termini di disturbo sia uguale nei due sotto-
campioni, mentre invece ` e possibile che anche tale parametro sia diverso nei due
sotto-campioni:
E(
2
t
) =
2
1
, t = 1, 2, . . . , T
1
,
E(
2
t
) =
2
2
, t = T
1
+ 1, T
1
+ 2, . . . , T
1
+T
2
Occorre quindi vericare lipotesi:
H
0
:
2
1
=
2
2
H
1
:
2
1
,=
2
2
Ricordando che:
RSS
1
/
2
1

2
T
1
k
RSS
2
/
2
2

2
T
2
k
posso costruire un test per vericare H
0
basato sul rapporto delle due grandezze
sopra indicate:
f =
_
_
(RSS
1
/
2
1
)
T
1
k
(RSS
2
/
2
2
)
T
2
k
_
_
H
0
=
_
(RSS
1
)
T
1
k
(RSS
2
)
T
2
k
_
=
_

2
1

2
2
_

(H
0
)
F
T
1
k, T
2
k
(4.70)
quindi, utilizzando la tavola della distribuzione F
T
1
k, T
2
k
, si determinano i quan-
tili a e b in modo tale che:
p a F b = 1
scegliendo = probabilit` a errore di prima specie. Quindi si calcola il test f de-
nito dalla (4.70) e si verica se cade allinterno o allesterno dellintervallo [a, b].
4.15. ESERCIZIARIO SULLA REGRESSIONE LINEARE 141
Nel primo caso si accetta H
0
, nel secondo si riuta H
0
( test a 2 code)
2) Aproposito del test di Chowdel secondo tipo, se i parametri sono costanti , il
valore atteso degli errori di previsione ` e zero; ma se i parametri non sono costanti,
potrebbe comunque darsi che gli errori di precisione abbiano valore atteso nullo
Quindi questo test ` e pi ` u che altro un test di non distorsione delle previsioni.
4.15 Eserciziario sulla regressione lineare
4.15.1 Esercizio 1
Data la seguente funzione di produzione stimata in logaritmi:
log y
t
= 1, 37+ 0, 632
(0,257)
log k
t
+ 0, 452
(0,219)
log L
t
,
T = 40,
R
2
c
= 0.98

2
= 0.01,

Cov(

2
,

3
) = 0.044
si provino le seguenti ipotesi:
a) Ci sono rendimenti costanti di scala
b)
2
=
3
Si calcolino

R
2
e gli intervalli di condenza per

2
e

3
, sia quelli individuali
che quello congiunto.
4.15.2 Esercizio 2
Sia data la seguente regressione stimata:
y
t
= 2.20
(3.4)
+ 0.104
(0.005)
x
2t
+ 3.48
(2.2)
x
3t
+ 0.34
(0.15)
x
4t
,
T = 80,
ESS = 112.5
RSS = 19.5
a) quali regressori sono singolarmente signicativi al 5%?
b) calcolare R
2
e

R
2
142 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
4.15.3 Esercizio 3
Siano dati due campioni con le seguenti informazioni:
Campione 1 Campione 2
T
i
20 25
x
i
2
20 23
y
i
25 28
S
i
22
80 100
S
2y
120 150
S
yy
200 250
,
n.b. :
x
i
2
=
1
T
i

campione i
x
2t
, i = 1, 2
y
i
=
1
T
i

campione i
y
t
, i = 1, 2
S
i
22
=

campione i
(x
2t
x
2
)
2
, i = 1, 2
S
i
2y
=

campione i
(x
2t
x
2
)(y
t
y), i = 1, 2
S
i
yy
=

campione i
(y
t
y)
2
, i = 1, 2
a) stimare una regressione lineare di y su di una costante (termine di intercetta)
e x
2
per ogni campione separatamente e per il campione esteso che combina tutte
le osservazioni.
b) Quali sono le ipotesi sotto le quali la regressione combinata (con 45 osser-
vazioni) ` e valida?
c) Spiegare in quale modo sia possibile vericare lipotesi di validit` a di tali
assunzioni.
4.15.4 Esercizio 4
Sia data la seguente regressione stimata:
y
t
= 2.0
(0.62)
+ 3.5
(1.842)
x
2t
0.7
(0.318)
x
3t
+ 2.0
(1.333)
x
4t
,
T = 26, R
2
= 0.982
Stimando il modello sotto la restrizione:

2
=
3
si ` e ottenuto:
4.16. SOLUZIONI AGLI ESERCIZI 143
y
t
= 1.5
(0.54)
+ 3.0
(1.111)
(x
2t
+x
3t
) 0.6
(0.250)
x
4t
,
R
2
= 0.876
a) vericare la validit` a del vincolo
2
=
3
in tutti i modi possibili.
b) se ometto la variabile x
3t
dalla regressione di partenza, cosa succede a

R
2
?
E perch` e?
4.15.5 Esercizio 5
Per il MRL:
y
t
=
1
x
1t
+
2
x
2t
+
3
x
3t
+
t
abbiamo indicazioni di teoria economica che affermano che:

1
+
2
= ,

1
+
3
=
dove ` e un parametro sconosciuto.
Trovare lo stimatore BLUE di e la sua varianza, stabilendo accuratamente le
ipotesi che occorre utilizzare.
4.15.6 Esercizio 6
Ricavare la matrice di varianza e covarianza dello stimatore ottenuto utilizzando
minimi quadrati vincolati e confrontarla con quella della stima OLS non vincolata.
Come ` e possibile confrontarle? (NB: stiamo parlando di matrici teoriche!)
4.16 Soluzioni agli esercizi
4.16.1 Esercizio 1
a) Ipotesi di rendimenti costanti di scala:
H
0
:
2
+
3
= 1
contro
H
1
:
2
+
3
,= 1
Ricordiamo che:

2
+

3
1
H
o
N(0, V ar(

2
+

3
1))
144 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Quindi costruisco il rapporto:

2
+

3
1
_
V ar (

2
+

3
1)
_1
2
=
0, 632 + 0, 452 1
_
V ar (

2
) +V ar(

3
) + 2Cov (

2
,

3
)
_1
2
=
=
0, 084
[(0, 257)
2
+ (0, 219)
2
+ 2(0, 044)]
=
0, 084
0, 026
= 3, 230
valore critico t
37

= 2, 021 al 95% (test a 2 code) (disponibile t
40
): riuto H
0
!
b) H
0
:
2

3
= 0

3
_
V ar (

3
)
_1
2
=
0, 632 0, 452
_
V ar (

2
) +V ar(

3
) 2Cov(

2
,

3
)
_1
2
=
=
0, 82
0, 202
= 4, 059 riuto H
0
(valore critico

= 2.021)
R
2
= 1 (1 R
2
)
T1
Tk
= 1 0.02
39
37
= 0.9789
Intervallo di condenza per
2
al 95%:

2
se (

2
) t

2
0, 632 (0, 257)(2, 021)
[0, 112 ; 1, 151]
Intervallo di condenza per
3
al 95%

3
se (

3
) t

2
0, 452 (0, 219)(2, 021)
[0, 009 ; 0, 894]
Intervallo congiunto: tutti i valori di
2
e
3
tali per cui:
_
S
kk
(
2

2
)
2
+ 2S
kl
(
2

2
)(
3

3
) +S
ll
(
3

3
)
2
_
< f
2, 37
f
2, 37
= quartile al 95% della distribuzione F
2, 37

= 3, 23 F(
2, 40
)
e:
S
kk
=

T
t=1
(k
t

k)
2
k
t
= log K
t
S
kl
=

T
t=1
(k
t

k)(l
t

l) l
t
= log L
t
S
ll
=

T
t=1
(l
t

l)
2
quindi nel modello y

= X

(T2)

(21)

=
_

3
_
X

=
_

_
.
.
.
.
.
.
k
t

k l
t

l
.
.
.
.
.
.
_

_
V(

) =
2
(X

)
1
=
2
_
S
kk
S
kl
S
kl
S
ll
_
1
=
_
(0, 257)
2
(0, 044)
(0, 044) (0, 219)
2
_
4.16. SOLUZIONI AGLI ESERCIZI 145
Ma si conosce anche
2
= 0, 01, e quindi si possono ricavare S
kk
, S
kL
e S
LL
come:
_
S
kk
S
kL
S
kL
S
LL
_
=
1

2
_
(0, 257)
2
(0, 044)
(0, 044) (0, 219)
2
_
1
da utilizzare nella costruzione dellintervallo di condenza ?congiunto per
2
e
3
.
4.16.2 Esercizio 2
a) sono quelli i cui test t sono maggiori del valore critico del test a 2 code:
_
H
0
:
i
H
1
:
i
,= 0
sulla base di una distribuzione t di Student con 76 gradi di libert` a. Il valore critico
` e approssimativamente 2,00 (vedi sulla tavola della t di Student il valore pi ` u vicino
` e 60). Quindi:
t

1
=

1
se (

1
)
=
2, 20
3, 4
= 0, 647 non signicativo
t

2
=

2
se (

2
)
=
0, 104
0, 005
= 20, 8 signicativo
t
3
=

3
se (

3
)
=
3, 48
2, 2
= 1, 58 non signicativo
t

4
=

4
se (

4
)
=
0, 34
0, 15
= 2, 26 signicativo
b)
R
2
=
ESS
TSS
=
112, 5
19, 5 + 112, 5
= 0, 82

R
2
= 1 (1 R
2
)
T 1
T k
= 1 (0, 148)
79
76
= 0, 846
4.16.3 Esercizio 3
Stima del modello nel primo sotto-periodo:
y
t
=
1
+
2
x
2t
+
t
, t = 1, 2, . . . , 20

1
2
=
S
1
2y
S
1
22
=
120
80
= 1, 5,

1
1
= y
1

1
2
x
1
2
= 25 (1, 5)(20) = 5
Stima del modello nel secondo sotto-periodo:
146 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

2
2
=
S
2
2y
S
2
22
=
150
100
= 1.5

2
1
= y
2

2
2
x
2
2
= 28 23(1.5) = 6.5
Stima del campione esteso (con 45 osservazioni):
20

t=1
x
2
2t
= S
1
22
+ 20
_
x
1
2
_
2
= 80 + 20(20)
2
= 8080,
45

t=21
x
2
2t
= S
2
22
+ 20
_
x
2
2
_
2
= 100 + 25(23)
2
= 13325,
S

22
=
20

t=1
x
2
2t
+
45

t=21
x
2
t
45
_
_
_
_
_
20

t=1
x
2
i
+
45

t=21
x
2
i
45
_
_
_
_
_
2
=
= 21405 45
_
20 x
1
+ 25 x
2
45
_
2
=
= 21405 21125 = 280
20

t=1
x
2t
y
t
= S
1
2y
+T
1
x
1
2
y
1
= 120 + 20 20 25 = 10120
45

t=21
x
2t
y
t
= S
2
2y
+T
2
x
2
2
y
2
= 150 + 25 23 28 = 16250
S

2y
=
20

t=1
x
2t
y
t
+
45

t=21
x
2t
y
t
45
__
20 x
1
+ 25 x
2
45
__
20 y
1
+ 25 y
2
45
__
=
= 26370 45 [(21, 667) (26, 667)] = 369, 275
20

t=1
y
2
t
= S
1
yy
+T
1
( y
1
)
2
= 200 + 20(25)
2
= 12700
45

t=21
y
2
t
= S
y
2
+T
1
( y
2
)
2
= 250 + 25(28)
2
= 19850
S

yy
=
20

t=1
y
2
t
+
45

t=21
y
2
t
45
_
T
1
y
1
+T
2
y
2
45
_
2
=
= 12700 + 19850 45
_
20 25 + 25 28
45
_
2
=
= 32550 32000 = 550
Quindi per tutto il campione ho:
T = 45
x

2
= 21, 667
y

= 26, 667
S

22
= 280
S

2y
= 369, 275
4.16. SOLUZIONI AGLI ESERCIZI 147
S

yy
= 550
da cui si ottiene la stima:

2
=
S

2y
S

22
= 1, 319

1
= y

2
x

2
= 26, 667 1, 319 21, 667 = 1, 912
b) Devono valere le seguenti ipotesi:
_
_
_

1
1
=
2
1

1
2
=
2
2

2
1
=
2
2
c) Si vericano queste ipotesi costruendo un test, ad esempio il test f
W
:
f
W
=
(RRSS URSS)/k
URSS/(T 2k)
dove:
RRSS = somma quadrati residui modello stimato con 45 osservazioni
=S

yy
TSS

2y
ESS
= 550 369, 275 1, 319 = 62, 926
URSS = RSS
1
+RSS
2
=
= S
1
yy

1
1
S
1
2y
+S
2
yy

2
1
S
2
2y
=
= 200 (1, 5)(120) + 250 (1, 5)(150) = 45
f
W
=
(62, 926 45)/2
45/(45 4)
=
8, 963
1, 097
= 8, 166
Il valore critico della F
2, 41
al 5%

= 3, 23 (F
2 40
` e disponibile sulle tavole)
riuto H
0
!
Laltra ipotesi H
0
:
2
1
=
2
2
si verica costruendo il test in forma F:

2
1

2
2
=
RSS
1
/(T
1
k)
RSS
2
/(T
2
k)

(H
0
)
F
T
1
k, T
2
k

2
1

2
2
=
20/18
25/23
= 1, 022
Il valore critico ` e: F
18, 23

= 2, 05 (disponibile per F
20, 23
)
accetta H
0
:
2
1
=
2
2
contro
2
1
>
2
2
Ma la prima ipotesi (
1
1
=
2
1
,
1
2
=
2
2
) ` e stata riutata, per cui non ` e legittimo
combinare tutte le 45 osservazioni.
4.16.4 Esercizio 4
a) H
0
:
2
=
3
H
1
:
2
,=
3
Il test di Wald in forma F ` e:
f
W
=
(RSS URSS)/q
URSS/(T k)
=
Ora, moltiplico numeratore e denominatore per TSS:
=
(
RSSURSS
TSS
)/q
URSS
TSS
/(T k)
=
(1R
2
R
)(1R
2
U
)
q
1R
2
U
Tk
148 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
dove:
R
2
U
= R
2
modello non ristretto
R
2
R
= R
2
modello ristretto
Quindi:
f
W
=
0, 106/1
0, 018/(26 4)
= 129, 555
Il valore critico della distribuzione di riferimento ` e: F
1, 22
= 4, 30 al 5%.
Quindi il test suggerisce il riuto di H
0
.
Calcoliamo ora il test di Wald in forma
2
:

W
=
T [RRSS URSS]
URSS
=
=
T
_
1 R
2
R
(1 R
2
U
)

(1 R
2
U
)
=
= 26
0.106
0.018
= 153. 111
Il valore critico della distribuzione
2
1
= 3.84 al 5%. Quindi anche questo test
conduce al riuto di H
0
.
Si noti che ` e possibile costruire anche il test t come:

3
_

V (

2
) +

V (

3
) 2

Cov(

3
)
_1
2

(H
0
)
t
2 2
che ` e la radice quadrata del test f
W
calcolato in precedenza.
Ora calcoliamo il test LR :

LR
= T log
_
RRSS
URSS
_
=
= 26 log
_
1 R
2
R
1 R
2
U
_
= 26 log(
0.124
0.018
) =
= 50. 178
mentre il valore critico (
2
1
) ` e 3.84.Quindi anche questo test porta al riuto di H
0
.
Ora calcoliamo il test LM

LM
= T
RSS URSS
RSS
=
=
T
_
(R
2
U
R
2
R
)

(1 R
2
R
)
=
= 26
_
0.106
0.124
_
= 22.226
Quindi anche utilizzando questo test, si conclude che occorre riutare H
0
(il valore
critico della distribuzione rilevante sotto H
0
(
2
1
) ` e 3.84)
Si noti che in relazione alla prova delle ipotesi svolta in questo esercizio abbia-
mo riscontrato:
4.16. SOLUZIONI AGLI ESERCIZI 149

W

LR

LM
(153.11 > 50.178 > 22.226)
come abbiamo visto nella parte teorica.
b) Se ometto x
2t
dalla regressione, dato che il test t di signicativit` a di tale pa-
rametro ` e
0.7
0.318
= 2.201, che in valore assoluto ` e > 1, lindice

R
2
` e destinato
a scendere.
4.16.5 Esercizio 5
Basta esprimere il modello nei termini del parametro incognito , sostituendo:

2
=
1
,

3
=
1
quindi sotto H
0
:
y
t
=
1
x
1t
+ (
1
)x
2t
+ (
1
)x
3t
+u
t

y
t
=
1
(x
1t
x
2t
x
3t
) +(x
2t
x
3t
) +u
t
Deniamo:
z
1t
= x
1t
x
2t
x
3t
z
2t
= x
2t
x
3t
e stimiamo il MRL:
y
t
=
1
x
1t
+z
2t
+u
t
La stima OLS di sulla base di questo modello ` e BLUE se, oltre a valere lipotesi
nulla
H
0
:
_

2
=
1

3
=
1
si ha che tutte le condizioni usuali sui termini di disturbo e sui regressori sono
rispettate:
E(u
t
) = 0, t
E(u
t
u

) = 0, t ,=

E(u
2
t
) =
2
, t
(Z) = 2
E( Z

u) = 0
150 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
4.16.6 Esercizio 6
Calcoliamo la stima corrispondente allapplicazione dei MQ vincolati:

R
= (X

X)
1
_
X

y R

_
R(X

X)
1
R

1
_
R

UR
d
__
=
=

UR
(X

X)
1
R

_
R(X

X)
1
R

1
_
R

UR
d
_
=
Per comodit` a chiamiamo:
(X

X)
1
R

_
R(X

X)
1
R

1
=
H
(kq)
quindi:

R
=

UR
H
_
R

UR
d
_
E(

R
) = H(R d)
quindi

R
` e non distorto solo quando vale H
0
(quando R

= d). Ora calcoliamo


la distorsione di

R
:

R
E(

R
) =

UR
H
_
R

UR
d
_
H(R d) =
= (

UR
) HR(

UR
) =
= (I
k
HR)(

UR
) =
(I
k
HR)(X

X)
1
X

Usando questa espressione possiamo calcolare la matrice di varianze e covarianze


di

R
:
V ar(

R
) = E[(

R
E(

R
))(

R
E(

R
))

] =
= E[(I
k
HR)(X

X)
1
X

X(X

X)
1
(I
k
R

) =
=
2
[(I
k
HR)(X

X)
1
(I
k
R

)] =
=
2
[(X

X)
1
HR(X

X)
1
(X

X)
1
R

+
+HR(X

X)
1
R

]
Ricordando la denizione di H :
H = (X

X)
1
R

[R(X

X)
1
R

]
1
otteniamo:
V (

R
) =
2
(X

X)
1

(X

X)
1
R

[R(X

X)
1
R

]
1
R(X

X)
1

(X

X)
1
R

[R(X

X)
1
R

]
1
R(X

X)
1
+
+(X

X)
1
R

[R(X

X)
1
R

]
1
R(X

X)
1

[R(X

X)
1
R

]
1
R(X

X)
1

=
2
(X

X)
1

(X

X)
1
R

[R(X

X)
1
R

]
1
R(X

X)
1

4.16. SOLUZIONI AGLI ESERCIZI 151


Ricordiamoci che la varianza di

UR
` e:
V (

UR
) =
2
(X

X)
1
e quindi:
V (

UR
) V (

R
) =
2
(X

X)
1
R

[R(X

X)
1
R

]
1

R(X

X)
1
ed ` e facilmente dimostrabile che questa matrice ` e denita positiva.
152 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Capitolo 5
Variabili di comodo e variabili
troncate
5.1 Variabili di comodo come variabili esplicative
5.1.1 Variabili di comodo a correzione di intercetta
Consideriamo per semplicit` a il MRL semplice, e supponiamo che esistano due
sottocampioni in corrispondenza di ciascuno dei quali il termine di intercetta possa
essere diverso:
y
t
=
(1)
1
+
2
x
2t
+
t
t = 1.....T
1
(5.1)
y
t
=
(2)
1
+
2
x
2t
+
t
t = T
1
+ 1........T
1
+T
2
(5.2)
In termini esattamente equivalenti possiamo indicare il modello di cui sopra come:
y
t
=
(1)
1
+ (
(2)
1

(1)
1
)D
t
+
2
x
2t
+
t
, t = 1, 2, ..., T
1
+T
2
(5.3)
introducendo una variabile di comodo (o variabile dummy) che chiamiamo D
t
:
D
t
= 0 t [1, T
1
]
D
t
= 1 t [T
1
+ 1, T
1
+T
2
]
Se esistono tre diversi regimi (vale a dire tre diversi sottocampioni in relazione a
ciascuno dei quali si immagina che il termine di intercetta possa essere diverso):
y
t
=
(1)
1
+
2
x
2t
+
t
,t = 1.....T
1
=
(2)
1
+
2
x
2t
+
t
, t = T
1
+ 1........T
1
+T
2
=
(3)
1
+
2
x
2t
+
t
, t = T
1
+T
2
+ 1........T
1
+T
2
+T
3
` e possibile dare rappresentazione equivalente a questo MRL denendo due distinte
variabili di comodo:
y
t
=
(1)
1
+ (
(2)
1

(1)
1
)D
1t
+ (
(3)
1

(1)
1
)D
2t
+
t
153
154 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
con
D
1t
=
_
0 t [1, T
1
] o t [T
1
+T
2
+ 1......T
1
+T
2
+T
3
]
1 t [T
1
+ 1, T
1
+T
2
]
D
2t
=
_
0 t [1, T
1
+T
2
]
1 t [T
1
+T
2
+ 1......T
1
+T
2
+T
3
]
Una variabile di comodo (che indichiamo con VDC) ` e quindi una particolare va-
riabile che assume valori pari a 0 o a 1.
Possiamo fare il seguente esempio: la Figura 5.1a riporta landamento di con-
sumo e reddito (in logaritmi) aggregati per lItalia nel periodo 1920-1996. Si nota
che per gli anni relativi alla Seconda Guerra Mondiale (1940-45), la relazione che
lega le due variabili sembra modicata. Infatti, se esaminiamo la Figura 5.1b, che
riporta il diagramma a dispersione per tale coppia di variabili, notiamo un grup-
po di osservazioni che sembrano essere disomogenee rispetto alle altre. Tali
osservazioni si riferiscono agli anni 1940-45.
[Figura 5.1a qui nel testo]
[Figura 5.1b qui nel testo]
Sulla base di queste considerazioni, stimiamo il MRL:
y
t
=
(1)
1
+ (
(2)
1

(1)
1
)D
t
+
2
x
2t
+
t
(5.4)
D
t
=
_
0 t = 1920.....1939, 1946.....1996
1 t = 1940.....1945
in cui y
t
` e il logaritmo del consumo e x
2t
` e il logaritmo del reddito. Per questo
modello, la matrice dei regressori ` e
X
(T3)
=
_

_
1 0 x
2,1920
1 0 x
2,1921
1 0 x
2,1922
... ... ...
1 1 x
2,1940
... ... ...
1 1 x
2,1945
... ... ...
1 0 x
2,1996
_

_
dove gli anni dal 1940 al 1945 sono anni di guerra e la seconda colonna della ma-
trice X ` e una variabile dummy. Specicando un MRL come quello descritto dalla
(5.4), introducendo una VDC del tipo appena descritto, si opera una correzione sul
termine di intercetta, come la Figura 5.1c chiaramente illustra.
[Figura 5.1c qui nel testo]
5.1. VARIABILI DI COMODO COME VARIABILI ESPLICATIVE 155
Notate che se effettivamente la relazione che si vuole modellare presenta delle
discontinuit` a che richiedono una correzione del termine di intercetta e tale cor-
rezione non viene apportata, ` e possibile ottenere risultati distorti e inconsistenti,
anche per quello che riguarda i coefcienti di pendenza del MRL: si tratta infatti
della conseguenza dellomissione di una variabile rilevante (in questo caso la VDC
necessaria ad apportare la correzione necessaria). Si veda a questo proposito la
Figura 5.2
[Figura 5.2 qui nel testo]
5.1.2 Variabili dummy a correzione di intercetta per trattare dati con
stagionalit` a
Molte variabili macroeconomiche presentano marcate dinamiche stagionali. Con-
sideriamo, per esempio, una relazione di regressione lineare tra log consumo (y) e
log reddito (x
2
), sulla base di dati trimestrali non destagionalizzati:
y
t
=
1
+
2
D
2t
+
3
D
3t
+
4
D
4t
+
2
x
2t
+
t
(5.5)
dove si ha:
D
2t
= variabile dummy pari a 1 solo nel 2

trimestre
D
3t
= variabile dummy pari a 1 solo nel 3

trimestre
D
4t
= variabile dummy pari a 1 solo nel 4

trimestre
Si ha quindi la seguente matrice dei regressori:
X
(T5)
=
_

_
1 0 0 0 x
21
1 1 0 0 x
22
1 0 1 0 x
23
1 1 0 1 x
24
... ... ... ... ...
1 ... ... ... x
2t
_

_
Notate che il MRL appena descritto pu` o essere scritto in termini esattamente
equivalenti come:
y
t
=
1
D
1t
+
2
D
2t
+
3
D
3t
+
4
D
4t
+
2
x
2t
+
t
ma non ` e possibile stimare il MRL:
y
t
=
0
+
1
D
1t
+
2
D
2t
+
3
D
3t
+
4
D
4t
+
2
x
2t
+
t
perch` e la matrice dei regressori in questo caso ` e:
X
(T6)
=
_

_
1 1 0 0 0 x
21
1 0 1 0 0 x
22
1 0 0 1 0 x
23
1 0 0 0 1 x
24
... ... ... ... ... ...
... ... ... ... ... ...
_

_
156 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
che NON ha rango pieno! Infatti la 1

colonna ` e la somma delle colonne 2,3,4 e 5.


Nel caso in cui si abbia un MRL che utilizzi dati mensili non destagionalizzati,
allora avremmo :
y
t
=
1
+
2
D
2t
+..... +
12
D
12t
+
2
x
2t
+
t
dove: D
it
` e una variabile dummy che ` e pari a 1 nel mese i-esimo (i = 1, ....., 12).
5.1.3 Variabili dummy a correzione di intercetta per outliers
Supponiamo che nel campione a disposizione, una osservazione sia chiaramente
anomala (ad esempio, si veda la Figura 5.3).
[Figura 5.3 qui nel testo]
Losservazione anomala viene chiamata outlier (cio` e che giace fuori) e si tratta
di unosservazione connessa ad un evento particolare, non modellabile esplicita-
mente, che rende tale osservazione completamente disomogenea rispetto alle altre.
Ad esempio, supponiamo che nella Figura 5.3 losservazione anomala sia quella
relativa a t = T

. Deniamo ora una VDC denita come segue:


D
t
=
_
1 per t = T

0 t ,= T

e inseriamo questa VDC nel MRL:


y
t
=
1
+
2
x
2t
+
3
D
t
+
t
(5.6)
La matrice dei regressori diventa:
X =
_

_
1 0 x
21
1 0 x
22
... ... ...
1 1 x
2T

1 0 x
2T

+1
1 ... ...
1 0 x
2T
_

_
t = T

Stimando il MRL risultante:


y = X +
=
_
_

3
_
_
` e possibile mostrare (basta fare riferimento alle usuali propriet` a del modello di re-
gressione partizionata che abbiamo visto nel Capitolo 4) che il coefciente stimato
relativo alla VDC ` e pari alla distanza delloutlier dalla retta di regressione stimata.
Quindi, in corrispondenza delloutlier, si ha
T
= 0. Inoltre ` e possibile dimostrare
5.1. VARIABILI DI COMODO COME VARIABILI ESPLICATIVE 157
che la stima del MRL risultante ` e esattamente equivalente a quella del MRL sen-
za introdurre tra i regressori la VDC e eliminando contestualmente dal campione
losservazione anomala:
y
t
=
1
+
2
x
2t
+
t
, (5.7)
t = 1, 2, ...T

1, T

+ 1, ..., T
Per questo motivo, si pu` o concludere che

3
coincide con lerrore di previsione di
y
T
ottenuto utilizzando la stima del MRL (5.7) e la varianza di

3
coincide con la
la varianza di tale errore di previsione. In termini un p` o meno formali, luso della
VDC, che viene chiamata anche variabile di comodo ad impulso (` e uguale a uno
in corrispondenza di una sola osservazione), in questo casoequivale a fare fuori
loutlier.
5.1.4 Variabili dummy a correzione di intercetta e di pendenza
Se riteniamo che il MRL sia:
y
t
=
(1)
1
+
(1)
2
x
2t
+
t
t = 1...T
1
y
t
=
(2)
1
+
(2)
2
x
2t
+
t
t = T
1
+ 1.....T
1
+T
2
T = T
1
+T
2
(5.8)
cio` e se riteniamo che entrambi i coefcienti del primo ordine siano diversi nei due
sottocampioni, possiamo scrivere in termini esattamente equivalenti:
y
t
=
(1)
1
+ (
(2)
1

(1)
1
)D
t
+
2
x
2t
+ (5.9)
+(
(2)
2

(1)
2
)(D
t
x
2t
) +
t
,
t = 1, 2, ...T
1
, T
1
+ 1, ...T
1
+T
2
dove:
D
t
=
_
0 t [1, T
1
]
1 t [T
1
+ 1, T
1
+T
2
]
Quindi in questo MRL si operano congiuntamente una correzione di intercetta e
una correzione della pendenza. Notate che a questo ne ` e necessario denire una
nuova variabile esplicativa la cui singola osservazione t-esima ` e data dal prodotto
tra D
t
e x
2t
. La matrice dei regressori del MRL diventa quindi:
X
(T4)
=
_

_
1 0 x
21
0
1 0 x
22
0
... ... ... ...
1 0 x
2T
1
0
1 1 x
2T
1
+1
x
2T
1
+1
1 1 ... ...
... ... ... ...
1 1 x
2T
1
+T
2
x
2T
1
+T
2
_

_
158 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
5.1.5 Variabili dummy per provare lipotesi di stabilit` a dei coefcienti
di regressione
Supponiamo di avere un MRL con k regressori per il quale riteniamo che si abbia:
y
t
=
(1)
1
+
(1)
2
x
2t
+... +
(1)
k
x
kt
+
t
t = 1.....T
1
y
t
=
(2)
1
+
(2)
2
x
2t
+... +
(2)
k
x
kt
+
t
t = T
1
+ 1.....T
1
+T
2
cio` e si hanno e tutti i parametri del primo ordine del modello hanno una congu-
razione diversa in relazione a due distinti sottocampioni. Alternativamente, posso
scrivere in modo compatto:
y
t
=
(1)
1
+
_

(2)
1

(1)
1
_
D
t
+
(1)
2
x
2t
+
_

(2)
2

(1)
2
_
(D
t
x
2t
) +
+... +
(1)
k
x
kt
+
_

(2)
k

(1)
k
_
(D
t
x
kt
) +
t
,
t = 1, 2, ..., T
1
+T
2
con:
D
t
=
_
0 t [1, T
1
]
1 t [T
1
+ 1, T
1
+T
2
]
Quindi procedo alla stima del seguente MRL:
y
t
=
1
+
2
x
2t
+... +
k
x
kt
+
k+1
D
t
+
k+2
D(x
2
)
t
+ (5.10)
+... +
2k
D(x
k
) +
t
, (5.11)
t = 1, 2, ..., T
1
+T
2
,
dove:
D(x
j
)
t
= D
t
x
jt
,
j = 2, 3, ..., k,
t = 1, 2, ..., T
Ovviamente i parametri del modello (5.10) hanno il seguente signicato:

1
=
(1)
1
,
2
=
(1)
2
, ...,
k
=
(1)
k
,

k+1
=
(2)
1

(1)
1
,
k+2
=
(2)
2

(1)
2
, ...,

2k
=
(2)
k

(1)
k
,
Notate che ` e possibile provare lipotesi:
H
0
:
k+1
=
k+2
=
2k
= 0
contro
H
1
:
k+1
,= 0, e/o
k+2
,= 0, e/o
2k
,= 0
5.1. VARIABILI DI COMODO COME VARIABILI ESPLICATIVE 159
In altri termini, lipotesi nulla H
0
signica che i parametri non cambiano ma si
mantengono costanti per tutto il campione. Per vericare tale ipotesi ` e possibile
utilizzare qualunque tra i test visti nel capitolo 4; ad esempio il test f
W
` e costruito
come:
f
W
=
(RRSS URSS)/k
URSS/(T 2k)
(5.12)
dove URSS ` e la somma dei quadrati dei residui del modello (5.10) stimato (mo-
dello non vincolato), mentre RRSS ` e la somma dei quadrati dei residui dello stesso
modello stimato sotto H
0
. Notate che il test appena descritto ` e molto simile al test
di Chow del 1

tipo visto nel capitolo 4, con la differenza che la stima del modello
non vincolato si basa sullipotesi che la varianza dei termini di disturbo sia la stessa
nei due sottoperiodi.
5.1.6 Test di Chow del secondo tipo (o test di validit` a previsiva)
Questo test si utilizza per vericare la stabilit` a strutturale del MRL. Il test si basa
sul principio che il modello stimato con t = 1, ..., T
1
, in assenza di modicazioni
dei parametri, dovrebbe generare previsioni per t = T
1
+ 1, ..., T
1
+T
2
con errori
associati che hanno valore atteso nullo. Se invece si ipotizza che tali errori di
previsione abbiano valore atteso diverso da zero, occorre inserire in corrispondenza
di ciascuna osservazione del 2

sottocampione una variabile dummy puntuale; il


modello non vincolato diventa allora:
y
t
=
1
+
2
x
2t
+... +
k
x
kt
+
1
D
1
t
+
2
D
2t
+ (5.13)
+... +
T
2
D
T
2
t
+
t
, (5.14)
t = 1, 2, ..., T
1
+T
2
dove D
it
` e una dummy che assume valore unitario solo in corrispondenza di t =
i, (i = T
1
+1, ..., T
1
+T
2
). Vengono quindi stimati T
2
parametri aggiuntivi che
hanno leffetto di eliminare le ultime T
2
osservazioni (ricordatevi leffetto che ha
linclusione di una VDC ad impulso:
t
= 0, t = T
1
+ 1, T
1
+ 2, ..., T
1
+T
2
)
La somma dei quadrati dei residui del modello (5.13) stimato ` e quindi:
T
1
+T
2

t=1

2
t
=
T
1

t=1

2
t
(5.15)
e la stima del modello non vincolato equivale alla stima del modello:
y
t
=
1
+
2
x
2t
+... +
k
x
kt
+
t
, (5.16)
t = 1, 2, ...., T
1
Notate che, con linserimento delle VDC puntuali, dalla stima del modello (5.13)
` e possibile ottenere direttamente gli errori di previsione e le stime delle varianze
160 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
degli errori di previsione, rispettivamente come:
e
T
1
+1|T
1
= y
T
1
+1
y
T
1
+1|T
1
=
k+1
,

V
_
e
T
1
+1|T
1
_
=

V (
k+1
)
E possibile denire lipotesi nulla:
H
0
:
1
=
2
= ... =
T
2
= 0
contro
H
0
:
1
,= 0 e/o
2
,= 0 e/o ... ,= 0 e/o
T
2
,= 0
Questo test, chiamato test di validit` a previsiva o test di Chow del secondo tipo,
pu` o essere costruito confrontando RRSS e URSS, rispettivamente ottenuti come
somma dei quadrati dei residui del modello (5.16) stimato sulla base dellintero
campione (t = 1, 2, ..., T
1
+ T
2
), e somma dei quadrati dei residui dello stesso
modello stimato con i dati relativi al sottocampione (t = 1, 2, ..., T
1
), che a sua
volta ` e equivalente alla somma dei quadrati dei residui del modello (5.13) stimato.
5.2 Variabili dummy come variabili dipendenti
Vi sono importanti applicazioni econometriche dove ` e necessario modellare feno-
meni che si sostanziano in scelte dicotomiche (o comunque discrete):
y
t
= 0,
oppure
y
t
= 1,
t = 1, 2, ..., T
Rilevanti esempi sono ad esempio, la partecipazione al mercato del lavoro, lacqui-
sto di una casa di propriet` a, la scelta di quotarsi in borsa ecc...
Il modello econometrico di riferimento dovrebbe spiegare quali sono le circo-
stanze che determinano, i valori osservati su y
t
:
y
t
= f(1, x
2t
...x
kt
,
t
), (5.17)
t = 1, 2, ..., T
Notate che il sufsso t indica la t-esima osservazione relativa al campione. In gene-
re, in questi contesti applicativi le diverse osservazioni si riferiscono a diverse unit` a
(individui, imprese, famiglie) osservate ad un dato istante temporale. Ad esempio,
possiamo immaginare di avere un campione di T imprese, alcune delle quali sono
quotate in borsa (y
t
= 1) ed altre no (y
t
= 0) e le variabili x
it
...x
kt
costituiscono
la misurazione dei fattori ritenuti rilevanti per determinare la scelta dellimpresa.
Per stimare un modello del tipo (5.17) ` e possibile utilizzare due possibili ap-
procci alternativi:
5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 161
1) Modello di probabilita lineare: nel modello di probabilita lineare (MPL):
y
t
=
k

i=1

i
x
it
+
t
= x

t
+
t
, t = 1, 2, ..., T,
E(
t
) = 0, t,
la variabile dipendente y
t
viene fatta dipendere in modo lineare da un insieme di k
variabili esplicative
(2) Approccio basato sullesistenza di una variabile latente y

t
che non ` e possi-
bile osservare (o misurare) tale per cui:
y
t
=
_
1 se y

t
> 0
0 se y

t
0
Questo approccio ` e alla base dei modelli logit e probit. Ora vedremo questi due
approcci separatamente.
5.2.1 Modello di probabilit` a lineare
Il MPL ` e basato sulla regressione lineare:
y
t
= x

t
(1k)
+
t
con:
E(
t
) = 0, t
E(y
t
[x
t
) = x

t
, t
Si noti che:
E(y
t
[x
t
) = prob(y
t
= 1[x
t
) perch` e y
t
pu` o assumere solo valori pari a
_
0
1
Quindi il MPL d` a una probabilit` a condizionata su x
t
in termini lineari. Notate che,
dato che y
t
=
_
0
1
,
t
pu` o assumere solo due valori:

t
=
_
x

t
(se y
t
= 0)
1 x

t
(se y
t
= 1)
cio` e il termine di disturbo ` e una variabile casuale discreta. Il MRL implica che:
p(y
t
= 1[x
t
) = x

p(y
t
= 0[x
t
) = 1 x

162 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE


e quindi:
E(
t
[x
t
) = x

t
p(y
t
= 0[x
t
) +
_
1 x

_
p(y
t
= 1[x
t
) =
= x

t

_
1 x

_
+
_
1 x

_
x

t
= 0
V (
t
) =
_
x

_
2

_
1 x

_
+
_
1 x

_
2
x

t
=
= x

t

_
1 x

_
= E(y
t
) [1 E(y
t
)]
Quindi, la varianza di
t
non ` e costante per le diverse osservazioni: siamo in pre-
senza di eteroschedasticit` a. Il prossimo paragrafo contiene alcune anticipazioni
sulla stima di modelli con eteroschedasticit` a.
5.2.2 Alcune anticipazioni sulla stima di modelli con disturbi etero-
schedastici
Immaginiamo di avere un MRL del tipo:
y = X +,
E() = [0] .
E(

) = =
_

11
0 ... 0
0
22
... ...
... ... ... 0
0 ... 0
TT
_

_
,
V (
t
) =
2
t
=
tt
, t = 1, 2, .., T
In questo caso il miglior stimatore ` e quello dei Minimi Quadrati Ponderati (WLS=weighted
least squares), che si ottiene in questo modo: si denisce:
P =
_

1/2
11
0 ... 0
0
1/2
22
... ...
... ... ... 0
0 ... 0
1/2
TT
_

_
tale che:
PP

= P
2
=
I
T
= P
1
P
1
=
= P
1
P
1
,
P
1
=
_

1/2
11
0 ... 0
0
1/2
22
... ...
... ... ... 0
0 ... 0
1/2
TT
_

_
5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 163
Inoltre, si deniscono:
y

= P
1
y
X

= P
1
X

= P
1

Notate che premoltiplicare y e X per P


1
equivale a ponderare ciascuna osser-
vazione per
1/2
tt
. Per questo motivo si parla di Minimi Quadrati Ponderati. A
questo punto si pu` o vericare che il modello ponderato:
y

= X

,
E(

) = [0],
E(

) = P
1
P
1
= I
T
ha quindi termini di disturbo omoschedastici. Lo stimatore WLS ` e

wls
= (X

)
1
X

= (X

P
1
P
1
X)
1
X

P
1
P
1
y =
= (X

1
X)
1
X

1
y
e questo stimatore ` e non distorto ed ` e il pi` u efciente nella classe degli stimatori
lineari e non distorti (stimatore BLUE):
E(

wls
) = E
_
(X

1
X)
1
X

1
(X +)
_
= (Non distorto)
V (

wls
) = E
_
(X

1
X)
1
X

X(X

1
X)
1
_
=
= (X

1
X)
1
X

1
X(X

1
X)
1
=
= (X

1
X)
1
Purtroppo questo stimatore non ` e praticabile perch` e di norma (e quindi P)
non ` e nota. Occorre stimarla in qualche modo venga (vedi capitolo 6).
Se invece si usa lo stimatore OLS sul modello di partenza:
y = X +
si ottiene:

OLS
= (X

X)
1
X

y
con le seguenti propriet` a:
E(

OLS
) = (X

X)
1
X

(X +) = Non distorto
V (

OLS
) = E
_
(

OLS
)(

OLS
)

_
=
= E
_
(X

X)
1
X

X(X

X)
1
_
=
= (X

X)
1
X

X(X

X)
1
164 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
Quindi

OLS
` e meno efciente di

GLS
e che la stima OLS della varianza delle
stime ` e distorta e inconsistente. Quindi, se uso OLS in presenza di eteroscheda-
sticit` a le stime dei parametri in sono non distorte ma inefcienti, e le stime degli
errori standard associati sono del tutto insoddisfacenti (distorte e inconsistenti). Si
veda il capitolo 6 per i dettagli.
5.2.3 Stima del modello di probabilit` a lineare
Ritornando al modello di probabilit` a lineare, dato che sappiamo che:
V (
t
) = E(y
t
) [1 E(y
t
)] (eteroschedasticit` a)
possiamo utilizzare la seguente procedura a 2 stadi:
(1) Si stima:
y
t
= x

t
+
t
usando OLS,e si ricavano i valori adattati di y
t
: y
t
= x

OLS
.
(2) Si costruisce la matrice dei pesi:

P
1
=
_

_
[ y
1
(1 y
1
)]
1/2
0 ... 0
0 [ y
2
(1 y
2
)]
1/2
... ...
... ... ... 0
0 ... 0 [ y
T
(1 y
T
)]
1/2
_

_
che ` e ovviamente una stima consistente di P. Questa matrice stimata viene utiliz-
zata per ottenere lo stimatore WLS:

WLS
= (X

1
X)
1
X

1
y,

=

P

Questo approccio presenta alcuni problemi:


(a) Per qualche osservazione, la grandezza y
t
(1 y
t
) potrebbe anche essere
negativo (se y
t
> 1 oppure se y
t
< 0) per campioni niti (in grandi campioni
questa circostanza si verica raramente, dato che

OLS
` e consistente e quindi y
t
p

y
t
)
(b) i termini di errore sono non gaussiani e questo complica molto linferenza,
dato che sappiamo costruire intervalli duciari e fare prova delle ipotesi solo in
presenza di termini di disturbo normali.
In ogni caso, il problema pi ` u grave ` e comunque quello che E(y
t
[x
t
) = x

potrebbe giacere al di fuori dellintervallo [0, 1]. Ricordate infatti che E(y
t
[x
t
)
p(y
t
= 1[x
t
), ma un MPL potrebbe implicare probabilit` a assurde (cio` e negative o
maggiori di uno) per determinate osservazioni: si veda ad esempio la Figura 5.4
dove abbiamo riportato un diagramma a dispersione con y
t
variabile dicotomica e
x
2
come unico regressore (oltre il termine di intercetta). Le osservazioni su y
t
sono
quindi pari o a zero o a 1. Ad esempio, le osservazioni che abbiano valori di x
2
5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 165
pari a x
2a
o x
2b
sono associate ad una probabilit` a stimata rispettivamente negativa
e superiore ad uno.
[Figura 5.4 qui nel testo]
E chiaro che sarebbe molto meglio poter interpolare le osservazioni campio-
nari con una curva non lineare, come ` e ben evidenziato dalla gura 5.4, piuttosto
che con una retta.
5.2.4 Modelli probit e logit
Questi modelli sono basati sullassunzione che esista una variabile inosservabile y

t
che viene determinata da un certo insieme di regressori x
1
... x
k
nel solito modo:
y

t
= x

t
+
t
,
t = 1, 2, ..., T
E(
t
) = 0, t
Questa grandezza non ` e per` o osservabile, e si osserva invece la variabile dipendente
y
t
:
y
t
=
_
1 se y

t
> 0
0 se y

t
0
La variabile latente y

t
pu` o essere interpretata come propensione o abilit` a ad
assumere valore y
t
= 1 (abilit` a a trovare lavoro, trovare casa, essere quotati in bor-
sa) oppure come costo opportunit` a di y
t
= 0.Si noti che se y

t
viene moltiplicata per
qualsiasi costante non nulla, il modello non cambia (problema di identicazione):
y

t
= x

t
+
t
y

t
= x

t
Per questo motivo si utilizza la convenzione di normalizzare il modello in modo
tale da avere un termine di disturbo
t
che ha varianza unitaria:
E(
2
t
) =
2
= 1
Deniamo ora:
P
t
= prob(y
t
= 1) = prob(y

t
> 0) =
= prob(x

t
+
t
> 0) = prob(
t
> x

t
) =
= 1 prob(
t
< x

t
) = 1 F(x

t
)
dove con F() indichiamo la funzione di ripartizione della variabile casuale
t
:
F(h) =
h
_

f(
t
)d
t
166 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
Se si ipotizza che la funzione di densit` a di
t
sia simmetrica intorno a zero, [f(h) = f(h)],
allora abbiamo:
F(x

t
) = 1 F(x

t
)
come si evince dalla Figura 5.5
[Figura 5.5 qui nel testo]
Quindi possiamo scrivere:
P
t
= prob(y
t
= 1) = F(x

t
)
Si noti che, ovviamente, dato che F() ` e una funzione di ripartizione, P
t
` e vincolato
ad essere compreso tra 0 e 1 :
lim
x

F(x

t
) = 0,
lim
x

t
+
F(x

t
) = 1
Si veda a questo proposito la Figura 5.6
[Figura 5.6 qui nel testo]
Esempio di modello logit strutturale (Nakosteen e Zimmer, 1980)
Si consideri un modello di migrazione :
y
t
=
_
1 se l

individuo t-esimo emigra


0 se l

individuo t-esimo non emigra


, t = 1, 2, ...T
Si deniscono:
y
R
t
= x
R
t
(1k)
+
R
t
y
R
t
= salario medio atteso
che t rimanendo nel suo paese si attenderebbe di ricevere
e si fa dipendere tale salario da un vettore di variabili esplicative x
R
t
(et` a, raz-
za, educazione, sesso dellindividuo, occupazione e reddito aggregati del paese
di partenza). Si denisce:
y
M
t
= x
M
t
(1h)
+
M
t
y

M
t
= salario atteso che t si attende di ricevere emigrando
che dipende dal vettore x
M
t
(caratteristiche personali, cio` e et` a, educazione, sesso
ecc e alcuni indicatori macro economici del paese di arrivo).
Il singolo individuo t-esimo compie la scelta di emigrare se:
y
M
t
y
R
t
> c

= costo di emigrazione (difcilmente misurabile)


5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 167
Si denisce quindi il modello:
y

t
= y
M
t
y
R
t
c

t
= x

t
+
t
x
t
= unione degli insiemi di variabili esplicative per y
M
t
e y
R
t

t
=
M
t

R
t
e quindi:
y
t
= 1 se y

t
> 0
A questo punto ` e possibile scrivere la funzione di verosimiglianza delle T
osservazioni su y
t
, t = 1...T:
P(y
1
, y
2
, ..., y
T
[x
1
, x
2
, ..., x
T
) = (

y
t
=1
P
t
)

(1
y
t
=0
P
t
) (5.18)
dove (

y
t
=1
P
t
) indica la produttoria rispetto a tutti le osservazioni in corriispon-
denza delle quali y
t
= 1 e

(1
y
t
=0
P
t
) indica la produttoria rispetto a tutti le osservazioni in corriispon-
denza delle quali y
t
= 0.
Ipotizziamo che i termini di disturbo del modello abbiano distribuzione logisti-
ca:
F(
t
) =
exp(
t
)
1 + exp(
t
)
=
1
1 + exp(
t
)
(5.19)
otteniamo il cosiddetto modello logit
Una variabile casuale logistica ha le seguenti funzione di densit` a e di riparti-
zione:
f(x) =
e
x
(1 +e
x
)
2
x (, +)
F(x) =
e
x
1 +e
x
=
1
1 +e
x
nb : f(x) =
F(x)
x
e le caratteristiche di tali funzioni sono rappresentate, a confronto con quelle di una
variabile casuale normale standardizzata nelle Figure 5.7a e 5.7b.
[Figure 5.7a e 5.7 b qui nel testo]
Notate che una variabile casuale logistica ` e caratterizzata da maggiore disper-
sione rispetto alla normale standardizzata. Infatti:
E(x) = 0
V (x) =

2
3

= 3.28 (> 1)
Il comportamento di una variabile casuale logistica ` e abbastanza simile a quello di
una N(0, 1) (tranne che nelle code).
168 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
Per quello che riguarda il nostro modello, lassunzione di distribuzione logisti-
ca implica:
P
t
= F(x

t
) =
exp(x

t
)
1 + exp(x

t
)
=
1
1 + exp(x

t
)
Esplicitando rispetto a exp(x

t
) otteniamo:
_
1 + exp(x

t
)

P
t
= 1 exp(x

t
) =
P
t
1 P
t

t
= ln(
P
t
1 P
t
) = ln
_
prob(y
t
= 1)
prob(y
t
= 0)
_
Quindi la grandezza x

t
d` a il logaritmo del rapporto delle probabilit` a (log-odds
ratio). Si noti che per il modello logit, il log-odds ratio ` e funzione lineare delle
variabili esplicative x
t
(nel modello di probabilit` a lineare ` e P
t
ad essere funzione
lineare delle variabili esplicative).
Problema della stima del modello logit
Si tratta di trovare una curva che interpoli la nuvola dei punti corrispondenti alle os-
servazioni campionarie, come gi` a visto nella Figura 5.4. Con lipotesi che i termini
di disturbo siano distribuiti come una logistica, ` e possibile scrivere la funzione di
verosimiglianza per il campione:
L = (

y
t
=1
P
t
)
_
_

y
t
=0
(1 P
t
)
_
_
=
=
_
_

y
t
=1
1
1 + exp(x

t
)
_
_
_
_

y
t
=0
_
1
1
1 + exp(x

t
)
_
_
_
=
=
_
_

y
t
=1
1
1 + exp(x

t
)
_
_
_
_

y
t
=0
_
1
1 + exp(x

t
)
_
_
_
(5.20)
ma la stima di questo modello si presenta problematica: infatti, la stima di massima
verosimiglianza richiede di considerare la verosimiglianza o la log verosimiglian-
za (ln L) e derivarla rispetto a . Si ottiene unespressione che non si riesce ad
5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 169
esplicitare rispetto a :
L = (

y
t
=1
ln P
t
) +
_
_

y
t
=0
ln(1 P
t
)
_
_
=
=

y
t
=1
ln[(1 + exp(x

t
)]

y
t
=0
ln[(1 + exp(x

t
)]
L

= [0]

y
t
=1
1
1 + exp(x

t
)
x
t
+ (5.21)

y
t
=0
1
1 + exp(x

t
)
x
t
= [0] (5.22)
Queste condizioni del primo ordine non possono essere esplicitare rispetto e oc-
corre utilizzare un metodo di massimizzazione numerica. In ogni caso la funzione
di log verosimiglianza ` e concava ed ha un unico massimo, quindi non d` a problemi
in questo senso. A questo proposito, ` e necessario partire da un valore iniziale per
la stima numerica, che chiamiamo

0
, che in genere ` e quello che si ricava dalla
stima del modello di probabilit` a lineare.
5.2.5 Modello Probit
E possibile utilizzare una diversa assunzione sulla distribuzione dei termini di
disturbo e ipotizzare che:

t
N(0, 1)
In questo caso, data lipotesi di normalit` a, il modello viene chiamato probit
p(y
t
= 1) = p(y

t
> 0) = (x

t
)
(x

t
) =
x

2
exp
_

x
2
2
_
dx
dove con () indichiamo la funzione di ripartizione di una variabile casuale nor-
male standardizzata. La funzione di verosimiglianza per un modello probit ` e:
L =

y
t
=1
(x

t
)

y
t
=0
_
1 (x

t
)

ln L =

y
t
=1
ln (x

t
)+

y
t
=0
ln
_
1 (x

t
)

ed anche in questo caso per ottenere la stima di massima verosiglianza ` e necessario


usare un metodo di massimizzazione numerica.
Come abbiamo visto nelle Figure 5.7a e 5.7b, le funzioni di densit` a e di ripar-
tizione di una variabile casuale logistica e di una variabile casuale normale sono
170 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
molto simili, a parte il comportamento delle code. Per questo motivo, lassunzione
relativa alla distribuzione dei termini di disturbo ` e relativamente poco importante
e lapplicazione dei modelli logit e probit allo stesso insieme di dati conduce a
risultati simili, ma dato che nel modello logit si ha
V (
t
) = E(
2
t
) =

2
3
occorre dividere i risultati della stima logit per

2
3
per poterle confrontare con quel-
le della stima probit (dove invece la varianza dei termini di disturbo ` e per ipotesi
unitaria.
Un problema ulteriore ` e che tipicamente la proporzione di osservazioni asso-
ciate a y
t
= 1 e di quelle associate a y
t
= 0 possono essere molto sbilanciate tra di
loro; quindi si usano tassi di campionamento diversi per riequilibrare il campione.
Per il modello logit questa procedura ha come unico effetto quello di indurre una
distorsione nel parametro di intercetta che deve essere corretta incrementandola di
log(
P
1
P
0
) (P
1
` e la proporzione delle osservazioni con y
t
= 1 ritenute e P
0
` e la pro-
porzione delle osservazioni con y
t
= 0 ritenute). Le stime degli altri parametri non
sono invece inuenzate dalla diversit` a dei tassi di campionamento.
5.2.6 Effetti di variazioni delle variabili esplicative
Ricordiamo che il MPL stabilisce:
P(y
t
= 1[x
t
) = x

mentre il modello logit stabilisce:


P(y
t
= 1[x
t
) =
exp(x

t
)
1 + exp(x

t
)
=
1
1 + exp(x

t
)
ed il modello probit stabilisce:
P(y
t
= 1[x
t
) = (x

t
)
Quindi, chiamando P(y
t
= 1[x
t
) = P
t
, possiamo vericare che variazioni delle
variabili esplicative hanno diversi effetti su P
t
a seconda del modello di riferimento
P
t
x
it
=
_

i
per il modello di prob. lineare
exp(x

t
)
[1+exp(x

t
)]
2

i
= P
t
(1 P
t
)
i
per il modello logit
(x

t
)
i
per il modello Probit
_

_
Quindi per il MPL,
P
t
x
it
` e costante, cio` e non dipende da x
t
, mentre non ` e costante
per gli altri due modelli. Si noti che per il modello logit, dato che il log-odds ratio
` e:
ln(
P
t
1 P
t
) = x

abbiamo che:
ln(
P
t
1P
t
)
x
it
=
i
5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 171
5.2.7 Indici di bont` a di adattamento del modello
Nei modelli dove la variabile dipendente ` e dicotomica, esiste il problema della
misurazione della bont` a di adattamento, indotto dal fatto che y
t
assume solo valori
0 o 1. Sono state avanzate diverse proposte per misurare quanto il modello spiega
del comportamento della variabile dipendente (per i modelli di regressione lineare
tutte queste misure sono equivalenti):
1) Indice R
2
inteso come il quadrato della correlazione tra y
t
e y
t
.
2) Misure basate sulla somma dei quadrati dei residui.
Nel MRL abbiamo:
R
2
= 1
RSS
TSS
RSS =

= (y y)

(y y) =
T

t=1
(y
t
y
t
)
2
TSS = y

=
T

t=1
(y
t
y) =
T

t=1
y
2
t
T y
2
=
= T
1
T(T
1
/T)
2
=
T
1
T
0
T
dove T
1
= numero di osservazioni con y
t
= 1, T
0
= numero di osservazioni con
y
t
= 0 (T
0
+T
1
= T). Quindi:
R
2
= 1
T
T
1
T
0
T

t=1
(y
t
y
t
)
2
= 1
T
T
1
T
0


Questa ` e la misura proposta da Efron (1978).
Amemiya (1981) suggerisce di denire la somma dei quadrati dei residui in
modo diverso:
T

t=1
_
(y
t
y
t
)
2
y
t
(1 y
t
)
_
in modo tale che ciascun residuo viene ponderato per linverso della stima del
proprio errore standard (vale per il modello di probabilit` a lineare).
3) Misure basate sul rapporto delle verosimiglianze
Per il modello di regressione lineare con termini di disturbo gaussiani:
y = X + (5.23)
E() = [0] , N(0,
2
I
T
)
sappiamo che possiamo scrivere lindice R
2
come:
172 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
R
2
= 1
RSS
TSS
= 1
_
L
R
L
UR
_2
T
(5.24)
dove L
R
= massimo della verosimiglianza del modello vincolato ad avere tutti i
parametri di pendenza
uguali a 0, L
UR
= massimo della verosimiglianza del modello per il modello
non vincolato, dato che sappiamo che:
L = (2
2
)

T
2
exp
_

1
2
2

_
Notate che questa interpretazione dellindice R
2
pu` o essere validamente utiliz-
zata per modelli a variabile dipendente qualitativa. Si ricordi che per i modelli a
VDQ (diversi dal MPL) abbiamo che:
L =(

y
t
=1
P
t
)
_
_

y
t
=0
(1 P
t
)
_
_
Notate che la verosimiglianza ` e generata come produttoria di probabilit` a che sono
tutte < 1; quindi L 1 e questo ci assicura che:
L
R
L
UR
1
da cui:
1
L
R

1
L
UR
1
1
L
R
L
UR
L
R
1
_
L
R
L
UR
_2
T
L
R
2
T
L
R
2
T
1 R
2
1
e quindi:
0 R
2
1 L
R
2
T
A partire da questo tipo di considerazioni, Cragg e Uhler (1970) suggeriscono
di costruire uno pseudo R
2

pseudo R
2
p
=
L
UR
2
T
L
R
2
T
(1 L
UR
2
T
)L
UR
2
T
5.3. IL MODELLO TOBIT 173
mentre McFadden (1974) propone unaltra misura:
R
2
MF
= 1
ln L
UR
ln L
R
Questultima misura non corrisponde ad alcuna misura di R
2
nel modello di re-
gressione lineare.
4) Bont` a del modello come proporzione di previsioni corrette.
Vediamo quante volte il modello correttamente prevede il comportamento
della variabile dipendente. Associamo ad ogni osservazione una sorta di pseudo
previsione y

t
secondo la seguente regola:
Se y
t
> 0.5 y

t
= 1
Se y
t
0.5 y

t
= 1
Quindi per ogni osservazione calcoliamo y
t
y

t
(pseudo errore di previsio-
ne). Ovviamente, se y
t
y

t
= 0, la previsione ` e giusta e se y
t
y

t
= 1 o se
y
t
y

t
= 1, la previsione ` e sbagliata. Quindi possiamo denire un indice di
bont` a del modello basato sul numero di previsioni corrette
R
2
C
=
numero di previsioni corrette
T
(5.25)
che comunque non ` e molto utile per discriminare tra i modelli
5.3 Il modello Tobit
Nel modello Tobit (Tobins probit, Tobin 1958) abbiamo una variabile troncata,
vale a dire osservata solo se positiva:
y
t
=
_
y

t
= x

t
+
t
se y

t
> 0
0 altrimenti
t = 1, 2, ..., T, N(0,
2
I
t
)
Si tratta quindi di un modello di regressione gaussiano censurato.
Ad esempio, si consideri un modello per le decisioni di spesa per lacquisto
di unautomobile, sulla base di un campione di famiglie (si vogliono studiare le
determinanti dellacquisto di auto). Si ipotizza:
y

t
=
_
_
_
x

t
(1k)
+
t
se y

t
> 0
0 per chi non possiede auto
oppure:
174 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
ore lavorate : H
t
=
_
x

t
+
t
0
salario : W
t
=
_
x

t
+
t
0
Per stimare questo modello NON ` e possibile usare lo stimatore OLS utilizzan-
do solo le osservazioni per le quali y

t
> 0, dato che per utilizzare validamente
tale stimatore occorre che valga E() = [0] e questa propriet` a non ` e soddisfatta in
questo caso. Infatti, in questo modo si considerano solo quelle osservazioni per le
quali
t
> x

t
e quindi:
E(
t
) =

_
x

t
(
t
)d
t
,= 0
Si ha quindi una distribuzione troncata per i termini di disturbo, come ` e evidenziato
dalla Figura 5.8.
[Figura 5.8 qui nel testo]
Quindi lo stimatore OLS non ` e utilizzabile perch` e porterebbe ad un risultato
distorto:
E(

OLS
) = + (X

)X

E(

)
(ricorda che E(
t
) ,= 0)
y

(T
1
1)
= X

(T
1
k)
+

= vettore con tutte e sole le osservazioni y

t
> 0.
X

= matrice delle corrispondenti osservazioni sulle variabili esplicative.

= vettore con i corrispondenti termini di disturbo


Occorre quindi utilizzare lo stimatore di massima verosimiglianza :
L =

{y
t
>0}
_
1

2
_
exp
_

1
2
2
(y
t
x

t
)
2
_

{y
t
=0}

_
(5.26)
Notate che nellespressione precedente il secondo blocco di fattori corrisponde
a quelle osservazioni con y
t
= 0, cio` e per le quali si ha
t
< x

t
.(con ()
indichiamo ancora la funzione di ripartizione associata ad una VC N(0, 1)).
Anche nel caso del modello Tobin, la log verosimiglianza non ha condizioni
del primo ordine che possano essere risolte analiticamente:
ln L =
T
1
2
ln(2)T
1
ln()
1
2
2

{y
t
>0}
(y
t
x

t
)
2
+

{y
t
=0}
ln
_

__
5.3. IL MODELLO TOBIT 175
ln L

= [0]
1

{y
t
>0}
x
t
(y
t
x

t
)

{y
t
=0}
1

_x
t
= [0]
ln L

= 0
T
1

+
1

{y
t
=0}
1

_ = 0
Quindi ccorre fare riferimento a metodi di ottimizzazione numerica.
Problema concettuale del modello Tobit
Il modello si basa sullassunzione che y

t
possa effettivamente, in linea di principio,
assumere valori negativi che non vengono riportati perch` e non osservabili. Negli
esempi visti in precedenza ` e evidente che y

t
< 0 non ` e possibile concettualmente.
Esistono dei rischi connessi allapplicazione acritica del modello tobit. Ad
esempio, nel caso della modellazione del salario percepito, si pu` o pensare come
maggiormente indicato un modello del tipo:
W
t
= salario osservato per la t esima unit` a campionaria:
W
t
=
_
W
M
t
se W
M
t
> W
R
t
0 altrimenti
dove:
W
Mt
= x

Mt
+
Mt
= salario di mercato
W
Rt
= x

Rt
+
Rt
= salario di riserva
Modello strutturale del tipo visto per limmigrazione
Qui si osserva W
Mt
quando
W
Mt
W
Rt
> 0
cio` e quando:
x
M
t
+
M
t
x
R
t

R
t
> 0
M
t

R
t
> x
R
t
x
M
t

quindi W
t
= 0 non quando
M
t
> x
M
t
(come risulterebbe dallapplicazione
del modello tobit), ma quando

M
t

R
t
< x
R
t
x
M
t

Utilizzando il modello tobit si ottengono quindi stime dei parametri inconsitenti.
176 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
Differenza tra il modello tobit e modello di regressione troncata
Nel modello di regressione troncata si hanno osservazioni tratte da una distribu-
zione troncata: si osservano le y

t
solo se maggiori di zero (non si osservano n` e la
variabile dipendente, n` e i valori dei regressori nel caso in cui y

t
< 0). Nel modello
tobit, non si osserva la variabile y

t
se ` e negativa, ma si osserva il corrispondente
vettore x
t
di variabili esplicative.
Ad esempio, consideriamo lesperimento dellintroduzione di una tassa sul red-
dito negativa (sussidio di povert` a) per le famiglie a basso reddito nel New Jersey
(anni 70). Tutte le famiglie con redditto al di sopra della soglia di povert` a sono sta-
te pertanto eliminate dal campione. Se si usa lo stimatore OLS sul campione tron-
cato si possono ottenere risultati distorti e non consistenti. di questo possiamo dare
uninterpretazione intuitiva in termini graci, riferendoci ad un MRL semplice. Si
veda la Figura 5.9 di seguito riportata.
[Figura 5.9 qui nel testo]
Occorre quindi far riferimento allo stimatore di massima verosimiglianza:
Dominio di y
t
: (, L]
t
< L x

f(y
t
[ x
t
) =
1

2
exp
_

1
2
2
(y
t
x

t
)
2
_

_
Lx

_
quindi:
ln L =
T
2
ln
2

1
2
2
T

t=1
(y
t
x

t
)
2

t=1
ln
_
L x

_
Occorre anche in questo caso utilizzare un metodo di massimizzazione numerica.
5.4 Esercizi
1) Dato il seguente modello:
y

t
=
1
+
2
D
t
+
t
, t = 1, 2, ..., 100,
y
t
= 1 se y

t
> 0
y
t
= 0 in caso contrario
Lunico regressore, D
t
` e una variabile dummy con valori nulli o unitari. Scrivete
la funzione di verosimiglianza per il modello sotto le ipotesi che:
a)
t
Logistica
b)
t
normale standard
5.4. ESERCIZI 177
Scrivete le condizioni del primo ordine per trovare lo stimatore di massima
verosimiglianza di
1
e
2
nei due casi.
2)Si supponga che un modello di probabilit` a lineare sia applicata ad una rela-
zione del tipo:
y
t
=
1
+x
2t
+
t
dove y
t
=
_
0
1
` e una variabile dipendente dicotomica, e x
2t
` e una variabile
esplicativa che varia nel continuo. Lampiezza campionaria ` e pari a T. Come si
ottiene la stima OLS di questo modello nei termini della media e della varianza
di x
2
? Come possono essere interpretati i risultati? Scrivere la funzione di log-
verosimiglianza del modello di probabilit` a lineare in questo caso.
3) Le seguenti 20 osservazioni sono tratte da una distribuzione normale cen-
surata (a valori negativi di y si sostituiscono valori nulli )
3.8396, 7.2040, 0, 0, 4.4132, 8.0230, 5.7971, 7.0828,
0, 0.80260, 13.0670, 4.3211, 0, 8.6801, 5.4571, 0, 8.1021,
0, 1.2526, 5.6016
Il modello applicabile ` e:
y

t
=
_
+
t
se +
t
> 0
0 altrimenti

t
N(0,
2
)
a) formulate la log-verosimiglianza per questo modello tobit
b) ottenete lo stimatore di massima verosimiglianza di e
2
.
4) Data la seguente ipotesi comportamentale: lindividuo t esimo decide
di lavorare (y
t
= 1) se il suo salario ` e superiore al salario di riserva (W
R
). Si
supponga inoltre che:
W
R
= costante t (salario di riserva uguale per tutti)
W
t
=
1
+
2
x
2t
+
3
x
3t
+
4
D
t
+
t
x
2t
= et` a,
x
3t
= anni di scuola,
D
t
= dummy per sesso =
_
1 se individuo ` e di sesso maschile
0 altrimenti

t
N(0, 1)
Costruire un modello stimabile, ricavare la funzione di log-verosimiglianza e tro-
vare le condizioni del primo ordine per la stima di massima verosimiglianza dei
parametri incogniti. Come cambierebbero le conclusioni se se
t
fosse distribuito
come una VC logistica?
178 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
5) Spiegare come sia possibile in relazione al modello
y
(T1)
=
X
(Tk)

(k1)
+
E() = [0]
E(

) =
2
I
T
generare un errore di previsione per y
T+1
(conoscendo x
T+1
e y
T+1
)
6) Dato il MRL:
y
t
=
1
+
2
p
t
+
3
z
t
+
4
r
t
+
t
dove:
y
t
= stock di moneta in termini reali
p
t
= indice dei prezzi
z
t
= reddito reale
r
t
= tasso di interesse nominale a breve
Questa equazione ` e stimata per la Germania dal 1970 al 1994 sulla base di dati
trimestrali.
a) Se si ritiene che lunicazione (4
o
trimestre del 1990) abbia inuito sul-
lintercetta del modello, come potrebbe essere corretta la specicazione per tenere
presente questo fenomeno?
b) Se invece si ritiene che tale evento abbia inuenzato anche la sensitivit` a della
domanda di moneta rispetto a variazioni del tasso dinteresse, come si modiche-
rebbe il modello?
c) Come ` e possibile vericare questultima ipotesi?
d) Come andrebbe vericata invece lipotesi che tutti i parametri della relazione
sono stati modicati da quellevento?
5.5 Soluzioni
1) a) Se
t
VC logistica, allora:
F(
t
) =
e

t
1 +e

t
=
1
1 +e

t
f(
t
) =
e

t
(1 +e

t
)
2
prob(y

t
> 0) = prob(
1
+
2
D
t
+
t
> 0) =
= prob(
t
>
1

2
D
t
) = prob(
t
>
1
+
2
D
t
) =
= F(
1
+
2
D
t
)
(data la propriet` a di simmetria della logistica)
5.5. SOLUZIONI 179
quindi abbiamo:
p(y
1
y
T
[ D
1
D
T
,
1
,
2
) =
_
_

{y
t
=1}
p(y

t
> 0)
_
_

_
_

{y
t
=0}
p(y

t
0)
_
_
e la verosimiglianza del campione ` e:
L =
_
_

{y
t
=1}
1
1 + exp(
1

2
D
t
)
_
_
_
_

{y
t
=0}
1
1 + exp(
1
+
2
D
t
)
_
_
ln L =

y
t
=1
ln [1 + exp(
1

2
D
t
)]

y
t
=0
ln[(1 + exp(+
1
+
2
D
t
)]
ln L =

y
t
=1
(
1
+
2
D
t
)
T

t=1
ln(1 + exp(
1
+
2
D
t
))
Le condizioni del primo ordine sono:
ln L

1
= 0 T
1

t=1
exp(
1
+
2
D
t
)
1 + exp(
1
+
2
D
t
)
= 0
ln L

= 0

y
t
=1
D
t

t=1
D
t
exp(
1
+
2
D
t
)
1 + exp(
1
+
2
D
t
)
= 0
Si noti che T
1
= numero di osservazioni in relazione alle quali y
t
= 1
b) Se
t
N(0, 1), si ha:
p(y
t
= 1) = p(y

t
> 0) = p(
t
>
1

2
D
t
) =
= p(
t
<
1
+
2
D
t
) = (
1
+
2
D
t
)
L =
_
_

{y
t
=1}
(
1
+
2
D
t
)
_
_
_
_

{y
t
=0}
[1 (
1
+
2
D
t
)]
_
_
180 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
ln L =

y
t
=1
ln (
1
+
2
D
t
) +

y
t
=0
ln[1 (
1
+
2
D
t
)]
e le condizioni del primo ordine sono:
ln L

1
= 0

y
t
=1
(
1
+
2
D
t
)
(
1
+
2
D
t
)

y
t
=0
(
1
+
2
D
t
)
1 (
1
+
2
D
t
)
= 0
ln L

= 0

y
t
=1
D
t
(
1
+
2
D
t
)
1 (
1
+
2
D
t
)

y
t
=0
D
t
(
1
+
2
D
t
)
1 (
1
+
2
D
t
)
= 0
Notate che:
(
1
+
2
D
t
)

1
=
(
1
+
2
D
t
)
(
1
+
2
D
t
)

(
1
+
2
D
t
)

1
= (
1
+
2
D
t
)
(
1
+D
t
)

=
(
1
+d
t
)
(
1
+d
t
)

(
1
+d
t
)

= (
1
+d
t
) d
t
e:
() = funzione di ripartizione di una VC N(0, 1)
() = funzione di densit` a di una VC N(0, 1)
2) Consideriamo

1
= y

2
x
2
x
2
=
1
T
T

t=1
x
2t
y =
1
T
T

t=1
y
t
= p = percentuale di 1 nel campione

2
=
T

t=1
(y
t
y)(x
2t
x
2
)
T

t=1
(y
t
y)
2
=
1
T
T

t=1
(y
t
y)(x
2t
x
2
)
1
T
T

t=1
(y
t
y)
2
=
=
1
T
T

t=1
y
t
x
2t
x
2
y x
2
y + x
2
y

V (x
2
)
=
1
T
T

t=1
y
t
x
2t
x
2
y

V (x
2
)
,

V (x
2
) = varianza campionaria di x
2
5.5. SOLUZIONI 181
Denendo T
1
= numero di osservazioni con y
t
= 1, abbiamo:

2
=
T
1
T
1
T
1
T

t=1
y
t
x
2t
x
2
p

V (x
2
)
=
= p x
1
2
p
_
p x
0
2
+ (1 p) x
0
2

=
=
p(1 p)( x
1
2
x
0
2
)
V (x)
dove x
1
2
` e la media delle osservazioni di x
2t
in relazione alle quali y
t
= 1, e x
0
2
` e la
media delle osservazioni su x
2t
associate a y
t
= 0. Quindi

2
ha il numeratore che
dipende da quanto la media di x
2
` e diversa tra le osservazioni con y
t
= 1 e y
t
= 0:
se x
1
2
= x
0
2
allora

2
= 0. In questo caso allora il modello non spiegherebbe y
sulla base di x
2
.
3)In relazione al nostro modello tobit, abbiamo:
y
t
= 0,
t
(, )

t
N(0,
2
)
a)quindi la verosimiglianza ` e:
L = (2
2
)

T
1
2
exp
_
_
_

1
2
2

y
t
=1
(y
t
)
2
_
_
_

y
t
=0
(

) =
= (2
2
)

T
1
2
exp
_
_
_

1
2
2

y
t
=1
(y
t
)
2
_
_
_

_
(

)
_
T
0
T
1
= numero di osservazioni per cui y
t
> 0 e T
0
= T T
1
. La log verosimiglianza
` e:
ln L =
T
1
2
ln(2
2
)
1
2
2

y
t
=1
(y
t
)
2
T
0
ln (

)
e le condizioni del primo ordine sono:
ln L

= 0
1

y
t
=1
(y
t
) +
T
0

)
(

)
= 0
ln L

2
= 0
T
1
2
2
+
1
2
4

y
t
=1
(y
t
)
2
T
0
(

)
(

)
_


2
3
_
= 0
182 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
E quindi necessario utilizzare un metodo numerico per la massimizzazione della
funzione di verosimiglianza
4) Il lavoratore partecipa se W
t
> W
R
, quindi se y

t
> 0
y

t
= W
t
W
R
y

t
= (
1
W
R
) +
2
x
2t
+
3
x
3t
+
4
D
t
+
t
y

t
=

1
+
2
x
2t
+
3
x
3t
+
4
D
t
+
t

1
= (
1
W
R
) = intercetta del modello
p(y
t
= 1) = p(y

t
> 0) = p(
t
>
1

2
x
2t

3
x
3t

4
D
t
) =
= (z
t
)
con z
t
=
1
+
2
x
2t
+
3
x
3t
+
4
D
t
= x

t
(14)

(41)
La funzione di verosimiglianza ` e:
L =
_
_

{y
t
=1}
p(y
t
= 1)
_
_
_
_

{y
t
=0}
p(y
t
= 0)
_
_
=
=
_
_

{y
t
=1}
(z
t
)
_
_
_
_

{y
t
=0}
[1 (z
t
)]
_
_
=
z
t
= x

e la funzione di log-verosimiglianza ` e:
ln L =

y
t
=1
ln (z
t
) +

y
t
=0
ln[1 (z
t
)]
mentre le condizioni del primo ordine sono:
ln L

1
= 0

y
t
=1
(z
t
)
(z
t
)
+

y
t
=0
(z
t
)
1 (z
t
)
= 0
Si noti che:
(z
t
)

1
=
(z
t
)
z
t

z
t

1
= (z
t
)
ln L

i
= 0

y
t
=1
x
it
(z
t
)
(z
t
)
+

y
t
=0
x
it
(z
t
)
1 (z
t
)
= 0, i = 2, 3, 4
5.5. SOLUZIONI 183
che deriva da:
(z
t
)

i
=
(z
t
)
z
t

z
t

i
= (z
t
) x
it
In forma vettoriale abbiamo:
ln L

(41)
= 0

y
t
=1
(z
t
)
(z
t
)
x
t
(41)
+

y
t
=0
(z
t
)
1 (z
t
)
x
t
(41)
= 0
dove:

y
t
=1
signica sommatoria rispetto a tutte le osservazioni con y
t
= 1

y
t
=0
signica sommatoria rispetto a tutte le osservazioni con y
t
= 0
Se
t
logistica, abbiamo:
F(
t
) =
e

t
1 +e

t
f(
t
) =
e

t
(1 +e

t
)
2
1 F(
t
) =
1
1 +e

t
La funzione di verosimiglianza ` e:
L =
_
_

y
t
=1
F(z
t
)
_
_
_
_

y
t
=0
[1 F(z
t
)]
_
_
e la funzione di log-verosimiglianza ` e:
ln L =

y
t
=1
[z
t
ln(1 +e
z
t
)]

y
t
=0
ln(1 +e
z
t
) =
=

y
t
=1
z
t

t=1
ln(1 +e
z
t
)
Le condizioni del primo ordine per lo stimatore di massima verosimiglianza sono:
ln L

= 0

y
t
=1
x
t

t=1
ln
e
z
t
1 +e
z
t
x
t
= [0]
dove z
t
= x

t
. Occorre utilizzare un metodo di massimizzazione numerica per
ricavare la stima di massima verosimiglianza.
184 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
5) Si scrive
y

(T+1)1
=
_

_
y
1
.
.
.
y
T
y
T+1
_

_
e si aggiunge un regressore d
t
=0 t [1, T] e = 1 per t = T + 1 e si aggiunge
losservazione T + 1 sulle x.
y

= X

(T+1)(k+1)

(k+1)1
+

=
_

_
= vettore k 1 parametri modello di partenza
= parametro sulla variabile dummy puntuale.
Si stima allora

con OLS:

OLS
= (X

)
1
X

ottenendo una stima che coincide con


OLS
= (X

X)
1
X

y per i primi k elementi


di , mentre ` e:
= y
T+1
y
T+1
dove:
y
T+1
= x

T+1

OLS
La stima della varianza dellerrore di previsione ` e:

V ( ) =
2
q
k+1,k+1
,
q
k+1,k+1
= elemento sulla riga k+1, colonna k+1 di Q
Q = (X

)
1
6) a) Costruiamo il seguente MRL:
y
t
=
1
+
2
p
t
+
3
z
t
+
4
r
t
+
5
D
t
+
t
dove:
D
t
=
_
0 no al 3
o
trimestre 1990
1 oltre
Si stima il MRL con OLS e si verica la signicativit` a del coefciente
5
utilizzando
il test t:
t

5
=

5
_

V (

5
)

H
0
t
95
5.5. SOLUZIONI 185
dato che T = 100 (osservazioni trimestrali dal 1970:1 al 1994:4), k = 5.
b) Si stima
y
t
=
1
+
2
p
t
+
3
z
t
+
4
r
t
+
5
D
t
+
6
(D
t
r
t
) +
t
con OLS (la variabile D
t
` e denita come al punto (a))
c) Si verica lipotesi congiunta:
H
0
:
_

5
= 0

6
= 0
contro
H
1
:
_

5
,= 0
e/o
6
,= 0
con un test LM, di Wald o LR, che hanno una distribuzione sotto H
0

2
2
o F
2,95
.
d) Si specica il seguente MRL:
y
t
=
1
+
2
p
t
+
3
z
t
+
4
r
t
+
5
D
t
+
+
6
(D
t
p
t
) +
7
(D
t
z
t
) +
8
(D
t
r
t
) +
t
Si stima il modello con OLS e si verica lipotesi:
H
0
:
5
=
6
=
7
=
8
= 0
contro
H
1
:
5
,= 0 e/o
6
,= 0 e/o
7
,= 0 e/o
8
,= 0
con test LM, di Wald o LR. La distribuzione di riferimento ` e
2
4
per i test in
forma
2
e F
4,92
per il test di Wald in forma F.