(Ebook - Ita - Economia Amisano, Gianni - Lezioni Di A

Lezioni di Econometria
Gianni Amisano
Febbraio 1999
2
Premessa
Queste note, che costituiscono il materiale di riferimento per gli studenti del corso
di econometria attivato presso la Facoltà di Economia dell’Università di Brescia,
sono il risultato della composizione di diverse fonti di riferimento.
Un elenco (purtroppo non esaustivo) di tali fonti deve necessariamente comin-
ciare con l’ottimo testo di Maddala (Maddala, 1992: “Introductory Econometrics”)
che a tutt’oggi rappresenta uno dei migliori testi di econometria adatti per un pri-
mo corso. La trattazione di Maddala, carente sotto l’aspetto della rappresentazione
matriciale degli argomenti, è stato integrata facendo riferimento ad altre fonti. Ho
attinto largamente dallo splendido libro di W. Greene (“Econometric Analysis”, 3rd
edition, 1997), dove si trovano trattati ad un ottimo livello teorico una vastissima
gamma di tecniche econometriche. Le parti relative all’analisi delle serie stori-
che sono ispirate alla lettura del libro di J.D.Hamilton (“Time Series Analysis”,
Princeton University Press, 1994).
Queste note si articolano in diverse parti. La prima parte copre tutti gli argo-
menti fondamentali di un primo corso di econometria, mentre la seconda è una par-
te monografica che ricomprende alcuni argomenti particolari e più avanzati. Cia-
scun capitolo di queste note si chiude con un insieme di esercizi svolti che servono
ad aiutare gli studenti nella preparazione per l’esame. Un aspetto complementare
della preparazione all’esame è costituito dalla parallela attività di esercitazione che
sarà svolta in classe utilizzando i software applicativi Gauss e Microfit disponi-
bili presso il laboratorio informatico della Facoltà di Economia dell’Università di
Brescia.
Gli studenti sono caldamente invitati a contattarmi ogni volta che abbiano pro-
blemi di comprensione o di ogni altro tipo. Sono contattabile presso il Diparti-
mento di Scienze Economiche dell’Università di Brescia (via San Faustino 74B)
o tramite e-mail all’indirizzo amisano@eco.unibs.it. Tutto il materiale
distribuito agli studenti sarà depositato alla CLUB (corso Mameli) e disponibile
elettronicamente alla mia pagina web:
(http://www.eco.unibs.it/˜amisano/index.html)
Desidero ringraziare gli studenti del corso di econometria dell’anno accademi-
co 1997/8 e anticipatamente quelli del corrente anno accademico, che mi hanno
segnalato e sicuramente mi segnaleranno molti tra i refusi sicuramente presenti in
queste note.
3
4
Indice
1 Modelli economici e modelli econometrici 9

1.1 Il significato del termine econometria . . . . . . . . . . . . . . . 9
1.2 Forma usuale dei modelli econometrici . . . . . . . . . . . . . . . 10
1.3 Modelli econometrici . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Aspetti essenziali dell’analisi econometrica . . . . . . . . . . . . 12
2 Richiami matematici 13
2.1 Operatori sommatoria e produttoria . . . . . . . . . . . . . . . . . 13
2.2 Matrici e vettori . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Tipologia di matrici . . . . . . . . . . . . . . . . . . . . . 14
2.2.2 Operazioni matriciali . . . . . . . . . . . . . . . . . . . . 16
2.2.3 Vettori particolari . . . . . . . . . . . . . . . . . . . . . . 17
2.2.4 Traccia di una matrice quadrata . . . . . . . . . . . . . . 19
2.2.5 Matrici partizionate . . . . . . . . . . . . . . . . . . . . . 19
2.2.6 Il determinante di una matrice quadrata . . . . . . . . . . 19
2.2.7 La matrice aggiunta . . . . . . . . . . . . . . . . . . . . . 20
2.2.8 La matrice inversa . . . . . . . . . . . . . . . . . . . . . 20
2.2.9 Alcune proprietà rilevanti . . . . . . . . . . . . . . . . . 21
2.2.10 Matrici idempotenti . . . . . . . . . . . . . . . . . . . . . 22
2.2.11 Spazio vettoriale . . . . . . . . . . . . . . . . . . . . . . 22
2.2.12 Base di uno spazio vettoriale . . . . . . . . . . . . . . . . 23
2.2.13 Sottospazio vettoriale . . . . . . . . . . . . . . . . . . . . 23
2.2.14 Rango di una matrice . . . . . . . . . . . . . . . . . . . . 24
2.2.15 Indipendenza lineare di vettori . . . . . . . . . . . . . . . 25
2.2.16 Autovalori e autovettori . . . . . . . . . . . . . . . . . . 25
2.2.17 Serie geometriche di matrici . . . . . . . . . . . . . . . . 27
2.2.18 Matrici definite, semidefinite positive e negative . . . . . . 27
2.2.19 Prodotto di Kronecker (prodotto tensore) . . . . . . . . . 29
2.2.20 L’operatore vec . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Funzioni in più variabili . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.1 Derivate parziali prime e seconde . . . . . . . . . . . . . 31
2.3.2 Alcune semplici regole di derivazione per funzioni in più
variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5
6 INDICE
2.3.3 Ottimizzazione . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.4 Ottimizzazione vincolata . . . . . . . . . . . . . . . . . . 34
2.4 Esercizi su richiami di matematica . . . . . . . . . . . . . . . . . 36
2.5 Soluzioni agli esercizi . . . . . . . . . . . . . . . . . . . . . . . . 37
3 Richiami di inferenza statistica 43

3.1 Variabile casuale . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Distribuzione di probabilità . . . . . . . . . . . . . . . . . . . . . 43
3.3 Funzione di ripartizione . . . . . . . . . . . . . . . . . . . . . . . 44
3.4 Momenti di una variabile casuale . . . . . . . . . . . . . . . . . . 46
3.5 La distribuzione normale . . . . . . . . . . . . . . . . . . . . . . 47
3.6 Inferenza statistica parametrica . . . . . . . . . . . . . . . . . . . 48
3.7 Proprietà degli stimatori . . . . . . . . . . . . . . . . . . . . . . 49
3.7.1 Non distorsione o correttezza . . . . . . . . . . . . . . . . 49
3.7.2 Efficienza . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.7.3 Consistenza . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.7.4 La legge dei grandi numeri (Versione più semplice) . . . . 51
3.7.5 Teorema centrale del limite . . . . . . . . . . . . . . . . . 52
3.8 Variabili casuali in più dimensioni . . . . . . . . . . . . . . . . . 53
3.8.1 La covarianza . . . . . . . . . . . . . . . . . . . . . . . . 54
3.9 Distribuzione normale multivariata . . . . . . . . . . . . . . . . . 55
3.10 Alcune distribuzioni notevoli . . . . . . . . . . . . . . . . . . . . 57
3.10.1 La distribuzione χ2 . . . . . . . . . . . . . . . . . . . . . 57
3.10.2 La distribuzione t di Student . . . . . . . . . . . . . . . . 57
3.10.3 La distribuzione F di Fisher . . . . . . . . . . . . . . . . 59
3.11 La funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . 60
3.12 Stima di massima verosimiglianza . . . . . . . . . . . . . . . . . 62
3.13 Metodo dei momenti . . . . . . . . . . . . . . . . . . . . . . . . 62
3.14 Proprietà degli stimatori ottenuti per campionamento da una distri-
buzione gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.15 Stima per intervallo . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.16 Prova delle ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.17 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4 Il modello di regressione lineare 81

4.1 Concetti fondamentali . . . . . . . . . . . . . . . . . . . . . . . . 81
4.1.1 Il ruolo del termine di disturbo e le sue proprietà . . . . . 82
4.1.2 Ipotesi sui regressori . . . . . . . . . . . . . . . . . . . . 83
4.1.3 Rappresentazione matriciale del modello di regressione li-
neare . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.1.4 Ricapitolando . . . . . . . . . . . . . . . . . . . . . . . . 85
4.2 Stima dei parametri . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.2.1 Metodo dei momenti (MM) . . . . . . . . . . . . . . . . 86
INDICE 7
4.2.2 Metodo della massima verosimiglianza. . . . . . . . . . . 88

4.2.3 Metodo dei minimi quadrati (OLS=ordinary least squares) 90
4.2.4 Aspetti algebrici dello stimatore OLS . . . . . . . . . . . 93
4.2.5 Ricapitolazione sulla stima OLS dei parametri β . . . . . 96
4.2.6 Interpretazioni alternative della stima OLS di un MRL . . 96
4.3 Stima del momento secondo (σ 2 ) . . . . . . . . . . . . . . . . . . 100
4.4 Analisi della varianza . . . . . . . . . . . . . . . . . . . . . . . . 101
4.5 Regressione partizionata . . . . . . . . . . . . . . . . . . . . . . 102
4.6 Anticipazione su test congiunti . . . . . . . . . . . . . . . . . . . 103
4.7 Inferenza statistica sul modello di regressione . . . . . . . . . . . 104
4.7.1 Costruzione di intervalli di confidenza . . . . . . . . . . . 104
4.7.2 Prova delle ipotesi . . . . . . . . . . . . . . . . . . . . . 106
4.7.3 Un utile esempio: il MRL con 3 regressori . . . . . . . . 109
4.7.4 Inferenza statistica nel modello di regressione multipla . . 112
4.7.5 Esempio di regressione multipla con k = 3 regressori . . . 114
4.8 La previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.9 Diversi modi di costruire Test: Test LR, di Wald, LM . . . . . . . 119
4.9.1 Il test LR . . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.9.2 Il test di Wald . . . . . . . . . . . . . . . . . . . . . . . . 121
4.9.3 Test LM (Lagrange Multipliers) (test dei moltiplicatori di
Lagrange) . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.9.4 Ricapitolazione sulle modalità di costruzione dei test . . . 126
4.10 Stima del modello soggetto a vincoli lineari sui parametri . . . . . 127
4.10.1 Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . 129
4.11 Effetti dell’omissione di variabili rilevanti . . . . . . . . . . . . . 131
4.12 Effetti dell’inclusione di variabili irrilevanti . . . . . . . . . . . . 134
4.13 Gradi di libertà e indice R2 . . . . . . . . . . . . . . . . . . . . . 136
4.13.1 Relazione tra test di significatività t, test F e indice R̄2 . . 137
4.14 Test di stabilità del MRL . . . . . . . . . . . . . . . . . . . . . . 138
4.14.1 Test basati sull’analisi della varianza . . . . . . . . . . . . 138
4.14.2 Test previsivo di stabilità . . . . . . . . . . . . . . . . . . 139
4.14.3 Alcuni commenti ai test di stabilità strutturale . . . . . . . 140
4.15 Eserciziario sulla regressione lineare . . . . . . . . . . . . . . . . 141
4.15.1 Esercizio 1 . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.15.2 Esercizio 2 . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.15.3 Esercizio 3 . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.15.4 Esercizio 4 . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.15.5 Esercizio 5 . . . . . . . . . . . . . . . . . . . . . . . . . 143
4.15.6 Esercizio 6 . . . . . . . . . . . . . . . . . . . . . . . . . 143
4.16.1 Esercizio 1 . . . . . . . . . . . . . . . . . . . . . . . . . 143
4.16.2 Esercizio 2 . . . . . . . . . . . . . . . . . . . . . . . . . 145
4.16.3 Esercizio 3 . . . . . . . . . . . . . . . . . . . . . . . . . 145
4.16.4 Esercizio 4 . . . . . . . . . . . . . . . . . . . . . . . . . 147
8 INDICE
4.16.5 Esercizio 5 . . . . . . . . . . . . . . . . . . . . . . . . . 149

4.16.6 Esercizio 6 . . . . . . . . . . . . . . . . . . . . . . . . . 150
5 Variabili di comodo e variabili troncate 153

5.1 Variabili di comodo come variabili esplicative . . . . . . . . . . . 153
5.1.1 Variabili di comodo a correzione di intercetta . . . . . . . 153
5.1.2 Variabili dummy a correzione di intercetta per trattare dati
con stagionalità . . . . . . . . . . . . . . . . . . . . . . . 155
5.1.3 Variabili dummy a correzione di intercetta per ”outliers” . 156
5.1.4 Variabili dummy a correzione di intercetta e di pendenza . 157
5.1.5 Variabili dummy per provare l’ipotesi di stabilità dei coef-
ficienti di regressione . . . . . . . . . . . . . . . . . . . . 158
5.1.6 Test di Chow del secondo tipo (o test di validità previsiva) 159
5.2 Variabili dummy come variabili dipendenti . . . . . . . . . . . . . 160
5.2.1 Modello di probabilità lineare . . . . . . . . . . . . . . . 161
5.2.2 Alcune anticipazioni sulla stima di modelli con disturbi
eteroschedastici . . . . . . . . . . . . . . . . . . . . . . . 162
5.2.3 Stima del modello di probabilità lineare . . . . . . . . . . 164
5.2.4 Modelli probit e logit . . . . . . . . . . . . . . . . . . . . 165
5.2.5 Modello Probit . . . . . . . . . . . . . . . . . . . . . . . 169
5.2.6 Effetti di variazioni delle variabili esplicative . . . . . . . 170
5.2.7 Indici di bontà di adattamento del modello . . . . . . . . . 171
5.3 Il modello Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
5.5 Soluzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
Capitolo 1
Modelli economici e modelli

econometrici
1.1 Il significato del termine econometria

Il termine econometria significa letteralmente misurazione in economia. Con il
termine econometria ci si riferisce ad una disciplina scientifica basata sull’applica-
zione di metodi statistici e matematici per l’analisi di dati economici con l’intento
di dare riscontro empirico alle teorie economiche.
Nel 1933 viene pubblicato il primo numero della rivista scientifica Econometri-
ca , fondata dalla Econometric Society. Nel primo numero della rivista l’editoriale
stabiliva:
“obiettivo della Econometric Society è la promozione di studi che

unifichino gli aspetti teorico-quantitativo e empirico quantitativo e che
siano caratterizzato dal modo di pensare rigoroso proprio delle scienze
naturali”.
L’econometria quindi si compone dell’unione di matematica, statistica, teoria

economica e di aspetti computazionali per i quali è stato sicuramente rilevante
l’enorme sviluppo delle capacità di calcolo degli elaboratori elettronici avvenuto
negli ultimi venti anni.
L’econometria si basa sullo studio formalizzato di modelli economici. Per mo-
dello economico intendiamo una rappresentazione schematizzata della realtà di un
fenomeno economico, quali ad esempio il comportamento individuale o collettivo
dei consumatori, l’offerta di lavoro, le modalità operative delle autorità di politica
monetaria.
Generalmente, un modello economico fornisce una rappresentazione sempli-
ficata della realtà che intende spiegare. La semplicità del modello è funzionale a
consentire di comunicare facilmente i risultati ottenuti dall’analisi del modello. La
semplicità del modello deriva dall’adozione di ipotesi di partenza semplificatrici,
finalizzate ad astrarre da quegli aspetti della realtà osservata che non sono rilevanti
9
10 CAPITOLO 1. MODELLI ECONOMICI E MODELLI ECONOMETRICI
per il fenomeno che si intende studiare. In sintesi, per modello economico si inten-
de un insieme di assunzioni finalizzate alla descrizione di un particolare fenomeno
economico.
Negli ultimi decenni la teoria economica ha assunto aspetti di crescente forma-
lizzazione. Molto spesso i modelli economici prendono la forma di equazioni che
connettono misurazioni dei fenomeni che si intendono spiegare (ad esempio la di-
soccupazione, il consumo aggregato, i profitti di un settore industriale . . . ) ai valori
assunti da una serie di variabili che si intendono misurare le cause del fenomeno
oggetto di indagine. Quando il modello economico prende la forma di relazioni
matematiche, è possibile utilizzare i dati disponibili sul fenomeno studiato per ve-
rificare la rispondenza del modello stesso alla realtà osservata. La verifica empirica
(sulla base dei dati disponibili) della validità dei modelli economici costituisce uno
degli scopi fondamentali dell’analisi econometrica.
1.2 Forma usuale dei modelli econometrici

In generale, un modello econometrico assume la forma:
yt = f (xt ) + t , t = 1, 2, . . . , T,
dove yt è un vettore (n × 1) di variabili che il modello intende spiegare (variabili
endogene) che si riferiscono all’osservazione t-esima del campione in esame, f è
una funzione che fa dipendere yt da un vettore (k × 1) di variabili esogene xt
(variabili esplicative), e t rappresenta un vettore (n × 1) di termini di disturbo
casuali. La componente f (xt ) viene detta parte sistematica del modello, mentre la
componente t inviene indicata come parte stocastica (o casuale) del modello.
Il più semplice esempio di modello econometrico è il seguente, dove yt , xt e εt
sono tutte grandezze scalari:
yt = α + βxt + εt , t = 1, 2, . . . , T.
Tale modello viene detto modello di regressione lineare semplice: la variabile di-
pendente yt viene fatta dipendere in modo lineare da ulla grandezza esplicativa xt
ed è influenzata dalla variabile casuale εt .
La presenza della componente stocastica implica che il modello debba essere
trattato con tecniche inferenziali. L’aspetto fondamentale è quello della stima, cioè
dell’utilizzazione di un campione di dati osservabili sulle variabili yt e xt per de-
terminare quale sia la configurazione della parte sistematica del modello meglio in
grado di spiegare il comportamento campionario delle variabili endogene.
Accanto allo scopo di verifica empirica dei modelli economici, l’econometria si
rivolge tradizionalmente anche alla produzione di modelli previsivi utilizzati da di-
verse istituzioni. Gli intermediari finanziari, e più in generale ogni impresa produt-
tiva in grado di dedicare risorse alla programmazione delle proprie attività future
trova naturalmente utile disporre di scenari sul valore futuro delle variabili econo-
miche che influiscono sull’andamento dei costi e dei ricavi. Accanto alle istituzioni
1.3. MODELLI ECONOMETRICI 11
private, anche le autorità di politica economica (governi e banche centrali) e le isti-

tuzioni di coordinamento internazionale (Fondo Monetario Internazionale, Banca
Mondiale ecc. . . ) necessitano di disporre di previsioni affidabili sull’andamento di
grandezze economiche di rilievo nazionale o internazionale (cambi, prezzi, entrate
ed uscite del settore pubblico). Tali previsioni possono essere fondate sull’utilizzo
di modelli econometrici adattati ai dati osservati per i fenomeni di interesse.
1.3 Modelli econometrici

Per modello econometrico intendiamo:
• un insieme di equazioni comportamentali che collegano tra loro più variabili

economiche e una struttura di componenti casuali, detti termini di disturbo;
• un insieme di affermazioni relative alla qualità dei dati utilizzati per la stima
del modello: per esempio la presenza o la rilevanza di errori di misurazione
nelle variabili utilizzate;
• la specificazione della distribuzione di probabilità dei disturbi e degli errori
di misurazione nelle variabili utilizzate.
Ad esempio, il famoso modello di M. Friedman del comportamento dei consu-

matori basato sul reddito permanente può essere formalizzato nel modo seguente:
ci = α · yi∗ + εi
yi∗ = yi + ηi
p(εi ) ∼ N (0, σε2 )
p(ηi ) ∼ N (0, ση2 )
In questo esempio la spesa per consumo individuale dell’individuo i-esimo (ci ) vie-
ne ipotizzata proporzionale al reddito permanente di tale individuo (yi∗ ). Inoltre si
ipotizza che le decisioni di consumo individuali siano influenzata da un termine di
disturbo εi che rappresenta le caratteristiche individuali non esplicitamente misu-
rabili dell’individuo i-esimo. Il reddito permanente dell’individuo i-esimo yi∗ non è
osservabile e differisce dal suo livello di reddito corrente (yi ) per via di un termine
casuale ηi che costituisce necessariamente l’errore di misurazione quando si in-
tenda spiegare il comportamento di consumo sulla base del reddito osservabile.Si
ipotizza che i termini di disturbo i e gli errori di misurazione ηi siano variabili
casuali distribuite secondo una legge di distribuzione gaussiana (o Normale). Il
simbolo ∼ indica “si distribuisce come”.
Un altro esempio è dato dalla funzione di domanda di un determinato bene:
qtd = α + β · pt + ut
ut ∼ N (0, σu2 )
12 CAPITOLO 1. MODELLI ECONOMICI E MODELLI ECONOMETRICI
In questo esempio, la quantità domandata del bene all’istante t-esimo (qtd ) viene
ipotizzata dipendere linearmente dal prezzo del bene allo stesso istante (pt ). Inoltre
si ipotizza che la domanda sia influenzata da un termine di disturbo ut distribuito
normalmente.
Nei modelli econometrici i termini di disturbo sono variabili inosservabili che
descrivono l’effetto sulla varibile dipendente di tutto quello che non può essere
ricompreso nella parte sistematica del modello.
1.4 Aspetti essenziali dell’analisi econometrica

Le fasi dell’analisi econometrica sono le seguenti.
1. Formulare un modello in forma empiricamente verificabile attraverso la scel-

ta di alcuni aspetti fondamentali quali:
• forma funzionale della relazione. A questo proposito, nella maggior

parte delle applicazioni econometriche si è soliti ricorrere ad una for-
ma funzionale di tipo lineare. Tale scelta risponde essenzialmente alla
necessità di rendere più semplici gli aspetti computazionali.
• Variabili da inserire: si tratta di definire l’insieme di variabili esplicati-
ve (dette “regressori”) contenute nel vettore xt .
• Struttura probabilistica dei disturbi. Nell’analisi econometrica tradi-
zionale è consuetamente utilizzata l’ipotesi di distribuzione normale
dei termini di disturbo.
2. Stima del modello. I dati disponibili vengono utilizzati per generare stime
del modello econometrico. Nella maggior parte dei casi, la stima si concreta
nell’ottenimento di valori per i parametri del modello.
3. Uso del modello: il modello viene utilizzato per verificare la validità di teorie
economiche, per produrre previsioni, per svolgere simulazioni di politica
economica, cioè per simulare gli effetti di manovre di politiche economiche
alternative.
Capitolo 2
Richiami matematici
In questo capitolo esponiamo gli elementi di algebra matriciale e di matematica che

sono necessari all’analisi econometrica oggetto degli argomenti trattati nel corso.
Gli argomenti sono raggruppati per omogeneità e sono trattati al livello di formaliz-
zazione richiesto dalla loro successiva utilizzazione. Gli studenti sono caldamente
invitati a svolgere molti esercizi per impratichirsi con le operazioni matriciali.
2.1 Operatori sommatoria e produttoria

P
L’operatore sommatoria è indicato con il simbolo e serve ad indicare operazioni
di somma in modo compatto. L’operatore sommatoria è accompagnato da una
coppia di indici che determinano l’insieme degli addendi. Ad esempio:
n
X
ai = a1 + a2 + . . . + an
i=1
Q
L’operatore produttoria è indicato con il simbolo e serve ad indicare ope-
razioni di prodotto in modo compatto. L’operatore produttoria è accompagnato da
una coppia di indici che determinano l’insieme dei fattori. Ad esempio:
n
Y
ai = a1 · a2 · . . . · an
i=1
Le proprietà di questi operatori sono intuitive e facilmente verificabili.
2.2 Matrici e vettori

In questa sezione vengono descritti alcuni elementi fondamentali dell’algebra delle
matrici necessari per la trattazione degli argomenti ricompresi all’interno del corso.
Per matrice si intende un insieme di numeri ordinati su m ≥ 1 righe e n ≥ 1
colonne. Per indicare una matrice si utilizza la notazione:
13
14 CAPITOLO 2. RICHIAMI MATEMATICI
 
a11 a12 . . . a1n
 a21 a22 . . . a2n 
A = {aij } = 
 ... ...

(m×n) ... ... 
an1 an2 . . . ann
Si noti che gli elementi della matrice A sono caratterizzati da due indici, il
primo dei quali identifica la riga ed il secondo identifica la colonna di appartenza.
Ad esempio, l’elemento sulla quarta riga, sesta colonna è indicato con a46 . Una
matrice si dice di ordini m e n quando ha m righe e n colonne.
Per vettore si indica una matrice particolare caratterizzata dall’avere una sola
riga (vettore riga) o una sola colonna (vettore colonna ). Ad esempio:
 
1
 2 
a = 
 4 ,

(4×1)
7

b = 4 3 2 5 7
(1×5)
2.2.1 Tipologia di matrici

Una matrice (n × n) si dice quadrata di ordine n quando il numero di righe è pari
al numero delle sue colonne.
Una matrice quadrata A (n × n) si dice simmetrica quando:
aij = aji , ∀i, j

Ad esempio la matrice:
 
1 2 4
A =  2 5 7 
(3×3)
4 7 4
è simmetrica, mentre la matrice
 
1 2 5
A = 2 5 7 
(3×3)
4 7 4
non lo è (confrontate gli elementi a13 e a31 ).
Una matrice quadrata A, di dimensione (n × n) si dice diagonale quando:
A = {aij } , aij = 0, ∀i 6= j.
Ad esempio, la matrice
2.2. MATRICI E VETTORI 15
 
2 0 0
A= 0
 4 0 
0 0 7
è chiaramente diagonale.
Una matrice quadrata A, di dimensione (n × n) si dice triangolare inferiore
quando:
A = {aij } , aij = 0, ∀i < j.

 
3 0 0 0
 4 7 0 0 
A=
 5

5 2 0 
8 5 6 4
è triangolare inferiore.
Una matrice quadrata A, di dimensione (n × n) si dice triangolare superiore
quando:
A = {aij } , aij = 0, ∀i > j.

 
3 4 5 8
 0 7 3 3 
A=
 0

0 2 6 
0 0 0 4
è triangolare superiore.
Una matrice quadrata A, di dimensione (n × n) si dice matrice identità e si
indica In se:
A = {aij } ,
aij = 0, ∀i 6= j,
aii = 1, ∀i.
Ad esempio:
 
1 0 0 0
 0 1 0 0 
I4 = 
 0
.
0 1 0 
0 0 0 1
Data una matrice A di dimensioni (n×m), la matrice B, di dimensione (m×n)
si dice trasposta di A, e si indica con il simbolo A0 ed è definita come:
B = A0 = {bij } , bij = aji , , ∀i, j.
La matrice A0 viene quindi ottenuta “trasformando” le colonne di A in righe di A0 .

Ad esempio:

1 2 0 1 4
A= ,A = .
4 3 2 3
2.2.2 Operazioni matriciali

Somma e differenza tra matrici
Date due matrici A e B, entrambe di dimensioni (m × n), è possibile definire la

matrice (m × n) C, definita comme somma di A e B:
C = A + B = {cij } ,
cij = aij + bij , ∀i, j.
Nello stesso modo si definisce la differenza tra due matrici A e B, entrambe di

dimensioni (m × n), la matrice (m × n) C:
C = A − B = {cij } ,
cij = aij − bij , ∀i, j.
Prodotto
Dati due vettori (n × 1) a e b, si definisce prodotto interno tra tali vettori la

grandezza scalare:
n
X
a0 b = b0 a = (ai · bi ) .
i=1
Date le matrici A, di dimensioni (m×n) e B, di dimensioni (n×p), il prodotto

matriciale tra A e B è la matrice C, di dimensione (m × p)definita come:
C = A · B = {cij } ,
n
X
cij = aik · bkj , i = 1, 2, . . . m, j = 1, 2, . . . , p.
k=1
In altri termini C è una matrice il cui elemento generico cij è dato dal prodotto
interno tra la i-esima riga di A e la j-esima colonna di B. Ad esempio:
 
1 0
1 3 6 4 21
· 1
 1 =
 .
2 3 4 5 15
0 3
Si noti che l’operazione di prodotto matriciale non è definita per qualsiasi cop-
pia di matrici A e B, ma tali matrici debbono verificare la condizione di confor-
mabilità per il prodotto: il numero di colonne del primo fattore A deve essere pari
al numero di righe del secondo fattore B.
Si noti che ovviamente, A · B in generale è diverso da B · A: in generale
quando il prodotto A · B è possibile non è neppure detto che B · A lo sia.
Il prodotto e la somma matriciale hanno le seguenti proprietà:
1. Proprietà distributiva: se A è una matrice (m × n) e B e C sono matrici

(n × q):
A·(B + C) = A · B + A · C.
2. Proprietà associativa: date le matrici A, B, C di dimensioni opportune, si

ha:
(A + B) + C = A + (B + C),
(A · B) ·C = A· (B · C)
Moltiplicazione per una grandezza scalare

Data la matrice (m × n) A e la grandezza scalare c, è possibile definire la matrice
C, di dimensioni (m × n) derivante dal prodotto scalare di c per A:
C = c · A = A·c = {cij } , cij = c · aij , i = 1, 2, . . . , m, , j = 1, 2, . . . n.
2.2.3 Vettori particolari

Il vettore somma
Si definisca il vettore somma di dimensione (n × 1):
 
1
 1 
in =  
 ... 
1
Tale vettore se post-moltiplica una matrice A di dimensione (m × n) genera

un vettore c (m × 1) che contiene le somme degli elementi sulle singole righe di
A:
n
X
A · in = c = {ci } , ci = aij , i = 1, 2, . . . , m.
j=1
Ad esempio:
 
1
1 2 1 4  1  8
·
  = .
3 6 1 0 1  10
1
Il vettore somma di dimensione (m × 1), se trasposto e utilizzato a premolti-

plicare una matrice A di dimensione (m × n), genera un vettore c0 , di dimensione
(1 × n) che contiene le somme degli elementi sulle singole colonne di A:
n
X
i0n 0
· A = c = {cj } , cj = aij , j = 1, 2, . . . , n.
i=1
Il vettore estrazione
Il vettore estrazione uin , di dimensione (n × 1), è definito come un vettore di ele-

menti tutti pari a zero tranne l’elemento i-esimo che è pari a uno. In altri termini è
la colonna i-esima della matrice In :
 
0

 0 

i
 ... 
un =  
 → i-esimo elemento

 1 
 ... 
0
Il vettore estrazione uin , se utilizzato per post-moltiplicare una matrice A di

dimensione (m × n) genera un vettore c di dimensione (n × 1) che coincide con
la i-esima colonna di A. Ad esempio:
 
0
1 2 1 4  0  1
A · u34 = ·
 1 = 1 .

3 6 1 0
0
Se invece il vettore estrazione uim viene trasposto e utilizzato per pre-moltiplicare

una matrice A di dimensione (m × n) genera un vettore di dimensione (1 × n) che
coincide con la i-esima riga di A. Ad esempio:
 
1 0 5 6
0 0 1  2 0 4 3 = 4 5 5 4 .
4 5 5 4
2.2.4 Traccia di una matrice quadrata

Sia data una matrice quadrata A di dimensione (n × n). Si definice traccia di A
(indicata come tr(A)) la somma degli elementi diagonali di A:
n
X
tr(A) = aii .
i=1
Le proprietà dell’operatore traccia sono le seguenti:
tr(A · B) = tr(B · A),

tr(A · B · C) = tr(C · A · B) = tr(B · C · A),
(invarianza rispetto a permutazioni cicliche),
tr(λ · A) = λ · tr(A), dove λ è una grandezza scalare.
2.2.5 Matrici partizionate

Data la matrice A, di dimensione (m × n), è possibile partizionare tale matrice in
diversi blocchi. Ad esempio:
 
A11 A12
(m1 ×n1 ) (m1 ×n2 )
A=  , m = m1 + m2 , n = n1 + n2
 
A21 A22
(m2 ×n1 ) (m2 ×n2 )
In caso di prodotto matriciale tra matrici conformabili per il prodotto all’interno

delle quali siano stati definiti blocchi conformabili per prodotto, si può ricavare:
   
A11 A12 B11 B12
(m1 ×n1 ) (m1 ×n2 ) (n1 ×p1 ) (n1 ×p2 )
A· B =  · =
   
(mn)(np) A21 A22 B21 B22
(m2 ×n1 ) (m2 ×n2 ) (n2 ×p1 ) (n2 ×p2 )

(A11 · B11 + A12 · B21 ) (A11 · B12 + A12 · B22 )
= ,
(A21 · B11 + A22 · B21 ) (A21 · B12 + A22 · B22 )
m1 + m2 = m, n1 + n2 = n, p1 + p2 = p.
2.2.6 Il determinante di una matrice quadrata

Data una matrice quadrata A, di dimensione (n × n), si definisce determinante di
A (e lo si indica con |A|) la quantità scalare:
n
X
|A| = (−1)i+j · aij · |Aij | , (2.1)
j=1
dove Aij è la matrice che si ottiene a partire da A sopprimendone la riga i-esima e

la colonna j-esima. Ad esempio:
 
1 2 4
1 0

3 0

3 1

|A| =  3 1 0 =1·  −2· +4· =
0 1 1 1 1 0
1 0 1
= 1 − 6 − 4 = −9
Data l’espressione con cui si ricava il determinante, risulta particolarmente fa-

cile calcolare il determinante di una matrice triangolare. Infatti se A, di dimensione
(n × n), è triangolare (superiore o inferiore), data la (2.1), allora si ha:
n
Y
|A| = aii
i=1
In altri termini, per una matrice triangolare, il determinante è pari al prodotto degli
elementi diagonali.
Nel caso della matrice identità, è facile mostrare che il determinante è pari a 1:
|In | = 1, ∀n.
Si noti che, date le matrici quadrate (n × n) A e B, si ha:
|A · B| = |A| · |B| .
2.2.7 La matrice aggiunta

Data la matrice quadrata (n × n) A, si definisce A+ ,matrice aggiunta di A, la
matrice che soddisfa:
A+ · A = A · A+ = |A| · In .
(la matrice aggiunta pre-moltiplicata o post-moltiplicata per A genera una matrice

diagonale con elementi tutti pari al determinante di A sulla diagonale).
La matrice A+ viene ottenuta come:
n o
A+ = a+
ij ,
a+
ij = (−1)
i+j
· |Aji | .
2.2.8 La matrice inversa

6 0,si definisce A−1 la matrice inversa
Data la matrice quadrata (n×n) A,con |A| =
tale per cui:
A−1 · A = A · A−1 = In .
Data la matrice quadrata (n × n) A,con |A| =
6 0, si ha:
A = |A|−1
−1
(il determinante dell’inversa è pari al reciproco del determinante, quando il deter-

minante è diverso da zero).
Si noti che è possibile ottenere la matrice inversa di A come:
A−1 = |A|−1 · A+ .
(la matrice inversa può essere calcolata a partire dalla matrice aggiunta dividendo
ciascun elemento della matrice aggiunta per il determinante di A ). Si noti che è
possibile calcolare la matrice inversa solo per matrici con determinante diverso da
zero. Tali matrici vengono per questo motivo dette invertibili. Ad esempio, data la
matrice:  
1 3 5
A =  0 1 0 ,
2 1 0
si ha:
 
0 5 −5
A+ =  0 −10 0  ,
−2 5 1
|A| = −10,
0 − 21 1
 
2
A−1 =  0 1 0 .
1 1 1
5 − 2 − 10
2.2.9 Alcune proprietà rilevanti

• Date due matrici conformabili per prodotto A (m × n) e B (n × p) :
(A · B)0 = B0 · A0
(si noti l’inversione di ordine tra i fattori)
• Date due matrici quadrate, di dimensioni (nn) ed invertibili A (mn) e B (np),

vale:
(A · B)−1 = B−1 · A−1
(si noti l’inversione di ordine tra i fattori).
• Data una matrice quadrata ed invertibile A (n×n), la trasposta della matrice

inversa è uguale all’inversa della trasposta:
(A−1 )0 = (A0 )−1 .
• Data una matrice quadrata ed invertibile A (n × n) ed uno scalare c, si ha:

1
(c · A)−1 = · A−1 , ∀c 6= 0.
c
2.2.10 Matrici idempotenti

La matrice quadrata A (n × n) si dice idempotente se:
Ak = A, ∀k > 0.
In altri termini, moltiplicando per sè stessa la matrice A quante volte si vuole si
ottiene sempre A. Alcuni esempi di matrice idempotente sono i seguenti:
A = [0] ,
(n×n)
A = In ,
 
1 1 ... 1
1 1 1 1 ... 1 
A = in · (i0n · in )−1 · i0n = · in · i0n = · 

.
n n  ... ... ... ... 
1 1 ... 1
Data la matrice (n × k) A tale per cui:
0
A A 6= 0,
si noti che le matrici:
B = A · (A0 · A)−1 · A0 ,
(n×n)
C = In − A · (A0 · A)−1 · A0
(n×n)
sono idempotenti (lo si verifichi moltiplicando ciascuna matrice per se stessa ).
2.2.11 Spazio vettoriale

Si consideri il vettore (k × 1) a:
 
a1
 a2 
a = 
(k×1)  . . . 
ak
può essere inteso come espressione delle coordinate del punto a nello spazio reale
k-dimensionale (Rk ), cosı̀ come da figura (2.2.11) per k = 2. Si noti che qualunque
vettore ottenuto come risultato del prodotto tra uno scalare λ ed il vettore a (a∗ =λ ·
a) rappresenta le coordinate di un punto a∗ che si trova sulla semiretta che unisce
l’origine degli assi e il punto a.
Inoltre si noti (figura 2.2.11) che, dati due vettori (2 × 1) a e b, che la somma
(C) e la differenza (d) tra a e b rappresentano rispettivamente i punti c e d nello
spazio reale bidimensionale.
Definiamo spazio k-dimensionale Rk l’insieme di tutti i vettori reali di dimen-
sione (k × 1).
Le proprietà elementari di Rk sono:
b=2a
5
a
2
0 1 2 3 4 5 6 7 8 9
1. Chiusura rispetto alla somma: dati a ∈ Rk e b ∈ Rk , il vettore derivante

dalla somma c = a + b appartiene a Rk .
2. Chiusura rispetto al prodotto scalare: dato qualunque vettore a ∈ Rk e
qualunque grandezza scalare λ, il vettore a∗ = λ·a appartiene a Rk .
Si definisce spazio vettoriale qualsiasi insieme di vettori chiuso rispetto alla

moltiplicazione scalare ed alla somma.
2.2.12 Base di uno spazio vettoriale

Dato uno spazio vettoriale S, si definisce base di S un insieme di vettori a1 , a2 , . . . , ak
che appartengono a S con la proprietà che qualunque vettore appartenente a S può
essere ottenuto come combinazione lineare di a1 , a2 , . . . , ak :
X
c= λi · ai , ∀c ∈ S.
Ad esempio, per lo spazio vettoriale R2 , i vettori:

1 0
a1 = , a2 =
0 1
sono una base dato che qualunque vettore (2 × 1) può essere ottenuto come com-
binazione lineare di a1 e a2 .
2.2.13 Sottospazio vettoriale

Si definisce S(a1 , a2 , . . . , ak ), sottospazio vettoriale associato ad un insieme di
vettori a1 , a2 , . . . , ak lo spazio vettoriale “coperto” da tali vettori: qualunque vetto-
re appartenente a S(a1 , a2 , . . . , ak ) può essere espresso come combinazione lineare
5
c
3 d a
2 b
−2 −1 0 1 2 3 4 5 6 7
di a1 , a2 , . . . , ak :
X
c= λi · ai , ∀c ∈ S(a1 , a2 , . . . , ak ).
Ad esempio, i vettori:
  
1 2
a =  2 ,b =  3 ,
0 0
non coprono R3 . Infatti il vettore:

 
1
c =  2 ,
3
non può essere espresso come combinazione lineare di a e b. Il sottospazio vet-

toriale generato da a e b è invece l’insieme di tutti i vettori appartenenti a R3 che
hanno terzo elemento pari a zero.
2.2.14 Rango di una matrice

Si definisce spazio colonna di una matrice A di dimensione (m × n), lo spazio
vettoriale coperto dai vettori colonna contenuti nella matrice. Si definisce rango
colonna la dimensione di tale spazio vettoriale. Ad esempio, data la matrice:

3 8
A=
4 6
ha dimensione pari a 1. Si noti infatti (figura 2.2.11) che sia la prima colonna che
la seconda della matrice A rappresentano punti che giacciono sulla retta passante
dall’origine di R2 e avente inclinazione +2. Qualunque combinazione lineare delle
colonne di A rappresenta punti su tale semiretta.
Si noti che per ogni matrice A (m × n) vale:
Rango riga ≡ Rango colonna,

ossia:
dimensione(spazio riga) ≡ dimensione(spazio colonna).

Si noti inoltre che, date due matrici conformabili per prodotto A (m × n) e B
(n × p), si ha:
rango(A · B) ≤ min(rango(A), rango(B)).
2.2.15 Indipendenza lineare di vettori

Dati n vettori di dimensione (n×1) a1 , a2 , . . . , an , tali vettori si dicono linearmente
indipendenti se:
X n
λ i · ai = 0
i=1
vale solo per:

λ1 = λ2 = . . . = λn = 0.
In altri termini i vettori a1 , a2 , . . . , an sono linearmente indipendenti se nessu-
no tra essi può essere espresso come combinazione lineare degli altri n − 1.
Si noti che data la matrice A (n × n), tale matrice avrà determinante diverso da
zero se e solo se i suoi vettori riga (o, che è lo stesso, i suoi vettori colonna) sono
linearmente indipendenti. Ad esempio, per la matrice:

1 15
A=
2 30
ha determinante pari a zero e i suoi vettori colonna (riga) non sono linearmente
indipendenti: ad esempio la seconda riga può essere ottenuta moltiplicando per 2
la prima.
2.2.16 Autovalori e autovettori

Data la matrice A , di dimensione (n × n), il sistema:
A · x = λ · x ⇒ (A − λ · In ) · x = [0]
(n×n) (n×1) (1×1) (n×1) (n×1)
ammette soluzioni x 6= [0] se e solo se:

(n×1)
|A − λ · In | = 0. (2.2)
altrimenti la matrice (A − λ · In ) può essere invertita e l’unica soluzione è x = [0].

Le radici λi (i = 1, 2, . . . , n) dell’equazione (2.2): sono chiamati autovalori.
Le soluzioni xi (i = 1, 2, . . . , n) associate ad ogni autovalore λi :
A · xi = λi · xi , i = 1, 2, . . . , n.
sono detti autovettori.

Ad esempio,per la matrice:

1 2 1−λ 2
A = , |A − λ · I2 | = ⇒
2 2 2 2−λ
3 1 √ 3 1 √
−2 − 3λ + λ2 = 0 ⇒ λ1 = + 17, λ2 = − 17.
2 2 2 2
Si noti che la relazioni tra autovalori, autovettori e la matrice A può essere

scritta in modo compatto come:
A · X = X · Λ ,
(n×n) (n×n) (n×n) (n×n)
X = [x1 , x2 , . . . , xn ] ,
 
λ1 0 0 0
 0 λ2 0 0 
Λ= 
 0 0 ... 0


0 0 0 λn
Un utile risultato relativo agli autovalori è il seguente: se tutti gli autovalori

λ1 , λ2 , . . . , λn sono distinti allora gli autovettori x1 , x2 , . . . , xn sono linearmen-
te indipendenti. Data l’indipendenza lineare delle colonne di X (e quindi la sua
invertibilità), è possibile scrivere:
A = X · Λ · X−1 .
Una importante proprietà degli autovalori di una qualunque matrice quadrata

A di dimensioni (n × n) è che il determinante di tale matrice è pari al prodotto dei
suoi autovalori:
Yn
|A| = λi
i=1
2.2.17 Serie geometriche di matrici

Data la matrice quadrata (n × n) A, si definisca la somma:
T
X
ST = In + A + A2 + . . . AT = Ai .
i=0
Pre-moltiplicando ST per A, si ottiene:
T
X +1
2 T +1
A · ST = A + A + . . . A = Ai+1 .
i=0
Sottraendo le due precedenti espressioni tra loro, si ricava:
T
X T
X +1
(In − A) · ST = Ai − Ai+1 = (In − AT +1 ).
i=0 i=0
Se la matrice (In − A) è invertibile (in termini equivalenti, se λ = 1 NON è

autovalore di A), allora è possibile pre-moltiplicare per (In − A)−1 l’espressione
precedente ed ottenere:
ST = (In − A)−1 ·(In − AT +1 ).
È possibile mostrare che che se tutti gli autovalori di A sono minori di 1 in

modulo:
|λi | < 1, i = 1, 2, . . . , n,
allora:
lim AT +1 = [0] ,
T →∞ (n×n)
e quindi:
lim ST = (In − A)−1 .

T →∞
2.2.18 Matrici definite, semidefinite positive e negative

La matrice A simmetrica (n × n) viene detta definita positiva se:
x0 · A · x > 0, ∀ x 6= [0] .
(1×n) (n×n) (n×1) (n×1) (n×1)
A simmetrica (n × n) viene detta semidefinita positiva se:
x0 · A · x ≥ 0, ∀ x 6= [0] .
(1×n) (n×n) (n×1) (n×1) (n×1)
A simmetrica (n × n) viene detta definita negativa se:
x0 · A · x < 0, ∀ x 6= [0] .
(1×n) (n×n) (n×1) (n×1) (n×1)
A simmetrica (n × n) viene detta semi-definita negativa se:
x0 · A · x ≤ 0, ∀ x 6= [0] .
(1×n) (n×n) (n×1) (n×1) (n×1)
Gli autovalori di una matrice positiva sono tutti positivi, dato che:
A · xi = λi · xi ,
x0i · A · xi = λi · x0i · xi >0=⇒λi > 0, i = 1, 2, . . . , n.
Con ragionamenti simili si può mostrare che tutti gli autovalori di matrici se-
midefinite positive sono non-negativi, che tutti gli autovalori di matrici definite
negative sono negative e che tutti gli autovalori di matrici semidefinite negative
sono non positivi. Quindi un modo per verificare le proprietá di definitezza di una
matrice è quello di controllare il segno degli autovalori. Ciò non è molto agevole
per una matrice di dimensioni superiori a (2 × 2), dato che per trovare gli auto-
valori è necessario in tali casi risolvere equazioni di grado superiore al secondo
che non sempre sono risolubili senza l’ausilio di un computer. Per tale motivo è
possibile fare riferimento ad un criterio alternativo, basato sulla verifica del segno
dei minori principali. Per minore principale di ordine i (i = 1, 2, . . . , n) di una
matrice quadrata A (n × n) si intendono i determinanti della sottomatrice ottenuta
considerando solo le prime i righe e i-colonne di A. Una matrice è definita positiva
se tutti i suoi minori principali hanno segno positivo ed è definita negativa se i suoi
minori principali hanno segni alternati a partire da −.
Fattorizzazione di una matrice definita positiva

Qualunque matrice Ω (n × n) definita positiva può essere fattorizzata nel modo
seguente:
Ω = A · D · A0 ,
dove A è triangolare inferiore con elementi diagonali unitari:
aij = 0, ∀j > i, aii = 1, i = 1, 2, . . . , n,
e D è una matrice diagonale con elementi diagonali posiivi:
dij = 0, ∀i 6= j, dii > 0, i = 1, 2, . . . n.
Tale scomposizione è unica.

Da questa scomposizione è possibile ricavare la cosiddetta fattorizzazione di
Choleski di Ω :
Ω = (A · D1/2 ) · (A · D1/2 )0 = P · P0 ,
 √ 
d11 √0 ... 0
0 d22 ... ... 
P = A · D1/2 , D1/2 = 

.
 ... ... . . . √. . . 
0 ... ... dnn
√ √ (n × n)
Si noti che la matrice P, detta fattore di Choleski di Ω, ha dimensione √ed è
triangolare inferiore con elementi diagonali positivi e pari a d11 , d22 , . . . , dnn .
2.2.19 Prodotto di Kronecker (prodotto tensore)

Date due matrici A, di dimensione (m × n) e B, di dimensione (p × q), si definisce
prodotto di Kronecker tra A e B la matrice C, di dimensione (m · p × n · q) :
 
a11 · B a12 · B . . . a1n · B
 a21 · B a22 · B . . . a2n · B 
C = A ⊗ B =  ...
.
(m·p×n·q) (m×n) (p×q) ... ... ... 
an1 · B an2 · B . . . anm · B
Ad esempio:  
5 6 7
1 2
A= , B =  8 9 10  ,
3 4
11 12 13
 
5 6 7
1 2
C = A⊗B= ⊗  8 9 10  =
3 4
11 12 13
 
5 6 7 10 12 14

 8 9 10 16 18 20 

 11 12 13 22 24 26 
=  .

 15 18 21 20 24 28 

 24 27 30 32 36 40 
33 36 39 44 48 52
Le più importanti proprietà dell’operatore prodotto di Kronecker sono le se-

guenti:
1) Date le matrici A, di dimensione (m × n) e B, di dimensione (p × q):
(A ⊗ B)0 = A0 ⊗ B0 .
2) Date le matrici A, di dimensione (m × n) ,B, di dimensione (p × q) e C,
di dimensione (r × s):
(A ⊗ B) ⊗ C = A ⊗ (B ⊗ C).
3) Date le matrici A e B, di dimensione (m × n) e C, di dimensione (r × s):
(A + B) ⊗ C = A ⊗ C + B ⊗ C.
4) Date le matrici A (m × n), B (p × q), C (n × r) e D (q × s) :
! !
A ⊗ B · C ⊗ D =(A · C) ⊗ (B · D) = E
(m×n) (p×q) (n×r) (q×s) (m×r) (p×s) (m·p×r·s)
5) Date le matrici quadrate ed invertibili A (m × m) e B (n × n):
(A ⊗ B)−1 = A−1 ⊗ B−1 .
2.2.20 L’operatore vec

Data una matrice (m × n) A :
A = [a1 , a2 , . . . , an ] ,
l’operatore vec trasforma la matrice A in un vettore di dimensione (mn × 1),

allineando uno sopra all’altra le colonne di A:

a1
 a2 
vec(A) = 
 ... .

an
Ad esempio:

1 3 5
A = ,
2 4 6
 
1

 2 

 3 
vec(A) = .

 4 

 5 
6
Una proprietà rilevante dell’operatore vec è la seguente: date le matrici con-

formabili per prodotto A (m × n), B (n × p) e C (p × q), è possibile dimostrare
2.3. FUNZIONI IN PIÙ VARIABILI 31
che:
" #
vec A · B · C = d =
(m×n) (n×p) (p×q) (m·q×1)
" #
= Iq ⊗ (A · B) · vec (C)=
(m×p) (p·q×1)
= C0 ⊗ A · vec (B) ,

(q·m×p·n) (n·p×1)
= (C0 B0 ) ⊗ Im · vec (A) .

(q·m×·n·m) (m·n×1)
2.3 Funzioni in più variabili

Data la grandezza scalare y e il vettore (n × 1) x:
y ∈ R1 ,
 
x1
 x2 
x ∈ 
 ...
,

xn
si definisce funzione Rn → R1 (funzione scalare di un vettore) la funzione:
y = f (x) = f (x1 , x2 , . . . , xn ). (2.3)
Ad esempio, si consideri la funzione di produzione Cobb-Douglas omogenea

di primo grado, che fa dipendere il prodotto Y dall’utilizzazione di capitale (K) e
lavoro (L):
Y = f (K, L) = A · K α · L1−α ,
A > 0, 0 < α < 1.
2.3.1 Derivate parziali prime e seconde

Si definisce la derivata prima parziale della funzione (2.3) rispetto al suo i-esimo
argomento (xi , i = 1, 2, . . . , n) la seguente espressione:
∂f (x)
= fi (x) lim ∆−1 · [f (x1 , . . . , xi + ∆, ..xn ) − f (x1 , . . . , xi , ..xn )] .
∂xi ∆→0
Ad esempio, per la funzione di produzione Cobb-Douglas, la derivata parziale

rispetto al capitale (produttività marginale del capitale) è:
∂f (K, L)
fK (K, L) = = α · A · K α−1 · L1−α .
∂K
Si definisce gradiente il vettore delle derivate prime di una funzione scalare di

un vettore:  ∂f (x)
∂x1
 ∂f (x) 
∇ =
 ∂x2 

(n×1)  . . . 
∂f (x)
∂xn
.Ad esempio, per la funzione lineare:
n
X
0
f (x) = a x + b = ai · xi + b,
(n×1) (1×n) (n×1 (1×1)
i=1
il gradiente è:  
a1
 a2 
∇ = a .
 . . .  =(n×1)

(n×1)
an
Per la funzione di produzione Cobb-Douglas, il gradiente è invece:
" #
∂f (K,L)
α · A · K α−1 · L1−α

∂K
∇ = ∂f (K,L) = .
(2×1) (1 − α) · A · K α · L−α
∂L
Le derivate seconde di una funzione f (x) scalare di un vettore Rn → R1 sono

definite come:

∂f ∂f
2
∂ f ∂ ∂xj ∂ f2 ∂ ∂xi
fij = = , fji = = ,
∂xi ∂xj ∂xi ∂xj ∂xi ∂xj
fij = fji , i = 1, 2, . . . , n, j = 1, 2, . . . , n.
È possibile definire una matrice (n × n) H, chiamata matrice hessiana, che
contiene le derivate parziali seconde della funzione f (x):
 ∂2f ∂2f 2f
. . . ∂x∂1 ∂x
 0
∂x1 ∂x1 ∂x1 ∂x2 ∂f (x)
 ∂2f 2f ∂2f
n
 ∂ ∂ 50

 ∂x2 ∂x1 ∂x∂2 ∂x . . . ∂x ∂x
∂x
H = n  = = .
2 2

(n×n)  ... ... ... ...  ∂x ∂x
∂2f ∂2f ∂2f
∂xn ∂x1 ∂xn ∂x2 ... ∂xn ∂xn
Si noti che la matrice hessiana è naturalmente simmetrica, dato che:

∂2f ∂2f
= ∀i, j.
∂xi ∂xj ∂xj ∂xi
Ad esempio, per la funzione di produzione Cobb-Douglas. la matrice hessiana
è:
α · (α − 1) · A · K α−2 · L1−α α · (1 − α) · A · K α−1 · L−α

H =
(2×2) α · (1 − α) · A · K α−1 · L−α −α · (1 − α) · A · K α · L−α−1
2.3.2 Alcune semplici regole di derivazione per funzioni in più varia-

bili
Si notino le seguenti regole di derivazione per funzioni scalari di vettori.
1. Data la funzione f (x) = a0 · x , il gradiente di tale funzione è:

(1×n) (n×1)
∂f
= a .
∂x (n×1)
2. Data la funzione f (x) = x0 · a , il gradiente di tale funzione è:

(1×n) (n×1)
∂f
= a .
∂x (n×1)
3. Data la funzione f (x) = x0 · A · x , il gradiente di tale funzione è:

(1×n) (n×n) (n×1)
!
∂f 0
= A + A · x
∂x (n×n) (n×n) (n×1)
Se la matrice A è simmetrica, ovviamente il gradiente è:
∂f
= 2· A x
∂x (n×n)(n×1)
2.3.3 Ottimizzazione
Nel caso di una funzione scalare di uno scalare R1 → R1 , y = f (x), la condizione
del primo ordine per avere un massimo o un minimo è:
∂f
= 0,
∂x
mentre le condizioni del secondo ordine sono:
∂2f
> 0 per un min imo,
∂x2
∂2f
< 0 per un massimo.
∂x2
Nel caso di funzione scalare di un vettore Rn → R1 , y = f (x), le condizioni
del primo ordine per avere un massimo o un minimo sono date dal sistema di n
equazioni:
∂f
= ∇ = [0] ,
∂x (n×1)
mentre le condizioni del secondo ordine sono:

H definita positiva per un minimo,
(n×n)
H definita negativa per un massimo.
(n×n)
2.3.4 Ottimizzazione vincolata

Sia data la funzione scalare di un vettore Rn → R1 , y = f (x) e si immagini di
dover massimizzare la funzione rispetto a x sotto un insieme di k vincoli su x:
M ax f (x)
x
 

 c1 (x) = d 1 

c2 (x) = d2
 
con :

 ... 

ck (x) = dk
 
( )
oppure : c(x) = d
(k×1) (k×1)
Un modo di procedere al calcolo del massimo vincolato x∗ è quello di costruire

la funzione lagrangiana:
n
X
L(x, λ) = f (x) + λi · [ci (x) − di ] = f (x) + λ0 · [c(x) − d] ,
i=1
 
λ1
 λ2 
 ... .
λ =  
λk
Gli elementi del vettore (k × 1) λ sono detti moltiplicatori di Lagrange e con-
sentono di tenere in considerazione i vincoli che la soluzione del problema di ot-
timizzazione deve soddisfare. La costruzione della funzione lagrangiana consente
di impostare il problema di ottimizzazione vincolata come un problema di otti-
mizzazione libera, semplicemente specificando le condizioni del primo ordine in
relazione ad un vettore di variabili di scelta di dimensione superiore:

x
z = .
(n+k)×1 λ
Le condizioni del primo ordine sono:
 
∂L(x, λ) ∂f (x)  ∂c(x)0
= [0] ⇒ +  · λ = [0] ,
∂x (n×1) ∂x ∂x (k×1) (n×1)
(n×1) (n×k)
" #
∂L(x, λ)
= [0] ⇒ c(x) − d = [0] .
∂λ (k×1) (n×k) (k×1)
Dalla risoluzione del sistema delle condizioni del primo ordine si ricava la
soluzione x∗ che ottimizza la funzione f (x) sotto i vincoli c(x) = d.
Le proprietà dell’ottimo vincolato sono le seguenti:
• la funzione valutata nel punto di massimo (minimo) vincolato x∗ è non su-

periore (non inferiore) alla funzione valutate nel punto di massimo (minimo)
libero x∗∗ :
f (x∗ ) ≤ f (x∗∗ ) nel caso di massimo vincolato,

f (x∗ ) ≥ f (x∗∗ ) nel caso di minimo vincolato.
Infatti:
∂c0 (x)

∂f (x)
+ · λ = [0]
∂x x=x∗ ∂x x=x∗ (n×1)
h i
e quindi il gradiente valutato in corrispondenza di x = x∗ , ∂f∂x
(x)
, è
x=x∗
diverso da [0] .
(n×1)
• Quando l’ottimo vincolato coincide con quello vincolato, si ha:
λ = [0] : x∗ = x∗∗ ⇔ λ = [0] .

(k×1) (k×1)
Ad esempio, si consideri il seguente problema di massimizzazione vincolata:
M ax f (x) = a0 · x − x0 · A · x ,
x (1×3) (3×1) (3×1) (3×3) (3×1)

x1 − x2 + x3 = 0
con : ,
x1 + x2 + x3 = 0
( )
oppure : C · x = d
(2×3) (3×1) (2×1)
Questo è il caso di ottimizzazione di una funzione quadratica in x con vincoli

lineari (e omogenei, dato che d = [0]). Le condizioni del primo ordine sono:
∂L(x, λ)
= [0] ⇒ (2.4)
∂x (3×1)
a −2· A · x + C0 · λ = [0] , (2.5)
(3×1) (3×3) (3×1) (3×2) (2×1) (3×1)
∂L(x, λ)
= [0] ⇒ (2.6)
∂λ (2×1)
C · x = [0] . (2.7)
(2×3) (3×1) (2×1)
La soluzione di queste due insiemi di equazioni con incognite x e λ fornisce il

massimo vincolato della funzione: esplicitando l’espressione (2.4) rispetto a x si
ottiene:
1
x = · A−1 · a + C0 · λ .

(2.8)
2
Sostituendo quest’ultima espressione nella (2.6) si ottiene:
1 −1
· A−1 · a + C0 · λ = [0] ⇒ λ = − C · A−1 · C0 · C · A−1 · a.

C·
2
Sostituendo quest’ultima espressione nella (2.8) si ottiene finalmente il valore di
x:
1 h −1 i
x = · A−1 · a − C0 · C · A−1 · C0 · C · A−1 · a .
2
2.4 Esercizi su richiami di matematica

1. Per le matrici:  
2 4
1 3 3
A= ,B =  1 5 
2 4 1
6 2
si calcolino:
A · B,
A 0 · B0 ,
B·A
B0 · A
2. Si espanda il prodotto matriciale:

n h io0
X = A · B + (C · D)0 (E · F)−1 + G · H ,
dove tutte le matrici sono quadrate ed invertibili.
3. Data la matrice:
 
1 4 7
A= 3 2 5 
5 8 8
calcolarne il determinante, la traccia e l’inversa.
4. Si calcoli la scomposizione di Choleski per la matrice:

25 7
A= .
7 13
2.5. SOLUZIONI AGLI ESERCIZI 37
5. Quale operazione si compie post-moltiplicando una matrice A (m × n)

per una matrice diagonale Λ di dimensione (n × n)? E se invece la si
pre-moltiplica per una matrice diagonale Γ di dimensione (m × m)?
6. Date le seguenti forme quadratiche:
a) y = x21 − 14 · x1 · x2 + 11 · x22
b) y = 5 · x21 + x22 + 7 · x23 + 4 · x1 · x2 + 6 · x1 · x3 + 8 · x2 · x3 ,
dire se sono positive per tutti i valori di x1 , x2 , x3 .
7. Si calcolino gli autovalori della matrice:

 
2 4 3
A =  4 8 6 .
3 6 5
8. Si risolva, scrivendo la funzione lagrangiana e le condizioni del primo ordi-

ne, il problema di massimizzazione vincolata dell’utilità del consumatore:

α β q1
M ax U (q)= q1 · q2 , 0 < α < 1, 0 < β < 1, q = ,
q q2
con il vincolo : p1 · q1 + p2 · q2 = y,
dove q1 e q2 sono le quantità dei beni 1 e 2, p1 e p2 sono i prezzi di tali beni

e y è il reddito monetario dell’individuo.
2.5 Soluzioni agli esercizi

1. Le matrici richieste sono:
 
2 4
1 3 3 23 25
A·B= · 1 5 = ,
2 4 1 14 30
6 2
   
1 2 10 11 10
0 0 2 1 6
A ·B = 3
 4 · = 22
 23 26  ,
4 5 2
3 1 10 8 20
   
2 4 10 22 10
1 3 3
B·A= 1
 5 · = 11
 23 8  ,
2 4 1
6 2 10 26 20
B0 · A non conformabili per prodotto.
(2×3) (2×2)
Si noti che:
0
B · A = A 0 · B0 ⇔ (B · A)0 = A0 · B0 .
2. Si espanda il prodotto matriciale:

n h io0
X= A · B + (C · D)0 (E · F)−1 + G · H =
= {A · B · F−1 · E−1 + A · B · G · H+
+D0 · C0 · F−1 · E−1 +D0 · C0 · G · H}0
= E−10 · F−10 · B0 · A0 + H0 · G0 ·B0 ·A0 +
0
+E−10 · F−1 · C · D+H0 · G0 · C · D
3. Per la matrice A abbiamo:
 
1 4 7
A= 3 2 5 
5 8 8

2 5
−4· 3 5 +7· 3 2

|A| = 1 · = −24 + 4 + 98 = 78,
8 8 5 8 5 8
tr(A) = 1 + 2 + 8 = 11,
   1 2 7

−24 24 6 78 39 78
+
A = 1 −27 16  , A−1 = |A|−1 · A+ =  26 1 1
39
5 
78 =
5 4 4
14 12 −10 78 39 39
4 4 1
 
− 13 13 13
1 9 8
=  78 − 26 39
.
7 2 5
39 13 − 39
4. La matrice A è simmetrica e definita positiva. Per trovare gli autovalori di

A si procede nel modo seguente:

25 − λ 7
|A − λ · I2 | = 0 ⇒ = 0 ⇒ (25 − λ) · (13 − λ) − 49 = 0,
7 13 − λ
√
λ2 − 38 · λ + 276 = 0 ⇒ λ = 19 ± 85 = 19 ± 9.21 : entrambi positivi.
Il calcolo degli autovalori conferma che la matrice sia definita positiva. È

possibile quindi procedere alla scomposizione di Choleski:

p11 0
P= , p11 > 0, p22 > 0.
p21 p22
p211

0 p11 · p21
A=P·P = .
p11· p21 p221 + p222
Quindi uguagliando elemento per elemento le matrici A e P · P0 si ottiene:
p211 = 25 ⇒ p11 = 5
7
p11 · p21 = 7 ⇒ p21 = ,
5
2√
r
49
p221 + p222 = 13 ⇒ p22 = 13 − = 69 .
25 5
Si noti che per calcolare

√ gli elementi diagonali
√ della matrice P si prendono
radici positive 5 e 52 69 (e non -5 e - 13), dato che il fattore di Choleski
per definizione ha elementi diagonali positivi.
5. Post-moltiplicando una matrice A (m × n) per una matrice diagonale Λ di

dimensione (n × n) si ottiene:
   
a11 a12 . . . a1n λ11 0 . . . 0
 a21 a22 . . . a2n   0 λ22 . . . 0 
A · Λ = A∗ =  · =
(m×n)  . . . ... ... ...   ... ... ... ... 
am1 am2 . . . amn 0 0 . . . λnn
 
a11 · λ11 a12 · λ22 . . . a1n · λnn
 a21 · λ11 a22 · λ22 . . . a2n · λnn 
= 
 ... ... ... ... 
am1 · λ11 am2 · λ22 . . . amn · λnn
vale a dire si ricava una matrice A∗ (m × n) che risulta moltiplicando ogni

colonna di A per il corrispondente elemento diagonale di Γ. Se invece si
pre-moltiplica A per una matrice diagonale Γ di dimensione (m × m) si
ottiene:
Γ · A· = A∗∗ =
(m×n)
   
γ11 0 ... 0 a11 a12 . . . a1n
 0 γ22 ... 0   ·  a21 a22 . . . a2n  =
 
=
 ... ... ... ...   ... ... ... ... 
0 0 ... γmm am1 am2 . . . amn
 
a11 · γ11 a12 · γ11 . . . a1n · γ11
 a21 · γ22 a22 · γ22 . . . a2n · γ22 
= 
 ... ... ... ... 
am1 · γnn am2 · γnn ... amn · γnn
vale a dire si ricava una matrice A∗∗ (m × n) che risulta moltiplicando ogni
riga di A per il corrispondente elemento diagonale di Γ.
6. Si scriva (a) come:
y = x0 · A · x = a11 · x21 + 2 · a12 · x1 · x2 + a22 · x22 ,

(1×2) (2×2) (2×1)
con A matrice simmetrica:

a11 a12
A= .
a12 a22
In questo caso si ha:

1 −7
A= ,
−7 11
√

−2.602
con autovalori: λ = 6 ± 74 = . Da ciò si ricava che la
14.602
matrice A non è definita positiva e quindi la forma quadratica (a) non è
positiva per qualunque valore di x1 e x2 .
Per quello che riguarda (b), essa può essere scritta come:
y = x0 · A · x = a11 · x21 + 2 · a12 · x1 · x2 + +2 · a13 · x1 · x3 +

(1×3) (3×3) (3×1)
+2 · a23 · x2 · x3 + a22 · x22 + a33 · x23 ,

 
5 2 3
A= 2 1 4 
3 4 7
Per verificare se A è definita positiva occorrerebbe verificare se tutti i suoi

autovalori sono positivi. Ciò in generale non è molto agevole per una matrice
di dimensioni superiori a (2 × 2), senza l’ausilio di un computer. Per tale
motivo è possibile fare riferimento al segno dei minori principali. Nel caso
della matrice A:
5 > 0,

5 2
= 5 − 4 > 0,
2 1

5 2 3

2 1 4 = −34 < 0.

3 4 7
Da questo si deduce che la matrice A non è definita positiva e quindi che la

forma quadratica (b) non è positiva per qualsiasi valori di x.
7. Gli autovalori della matrice A vengono ottenuti come soluzione all’equazio-

ne:
2−λ 4 3

4
8−λ 6 = 0 ⇒
3 6 5−λ
(2 − λ) [(8 − λ)(5 − λ) − 36]−4 [4 (5 − λ) − 18]+3 [24 − 3 (8 − λ)] = 0 ⇒
−5λ + 15λ2 − λ3 = 0 ⇒ −λ · 5 − 15λ + λ2 = 0 ⇒

*
√
0 +
15− 205
λ= √2 = 0.341
15+ 205
2 = 14.659
Si noti comunque che la seconda colonna di A è pari a due volte la prima
colonna. Questo implica che:
|A| = 0
e quindi, dato che il determinante di una matrice è dato dal prodotto dei suoi
autovalori è ovvio che almeno uno degli autovalori di A sia nullo.
8. La funzione lagrangiana può essere scritta come:
L(q, λ) = u(q) + λ · p0 q − y ,

p1 q1
u(q) = q1α · q2β , p = ,q = .
p2 q2
∂L(q, λ) ∂u(q)
= [0] ⇒ +λ · p = [0] , (2.9)
∂q ∂q (2×1)
(2×1)
∂L(q, λ)
= 0 ⇒ p0 q = y. (2.10)
∂λ
In questo caso conviene scrivere la (2.9) come :
α · q1α−1 · q2β + λ · p1 = 0, (2.11)

β· q1α · q2β−1 + λ · p1 = 0. (2.12)
Si risolva la (2.11) a λ:
α · q1α−1 · q2β
λ=− ,
p1
e si sostituisca tale valore nella (2.12), risolvendo per q1 :

p2 α
q1 = · · q2 . (2.13)
p1 β
Si utilizzino ora la (2.10) e la (2.13) per ottenere le soluzioni in termini di q1

e q2 :
∗ " α
#
∗ q1 (α+β)·p1 · y
q = = β .
q2∗ (α+β)·p · y 2
Si noti che con la funzione di utilità specificata le domande q1∗ e q2∗ sono
funzioni lineari del reddito monetario y. Infine si noti che è possibile dare
interpretazione geometrica alle condizioni (2.9):
" ∂u(q)
# ∂u(q)
∂q1 = −λ · p1 ∂q1 p1
∂u(q) ⇒ ∂u(q)
= ,
∂q2 = −λ · p2 p2
∂q2
che stabilisce la condizione di tangenza (uguaglianza delle pendenze) tra la

curva di indifferenza e la retta di bilancio.
Capitolo 3
Richiami di inferenza statistica
3.1 Variabile casuale

Per variabile casuale (VC) intendiamo la misurazione quantitativa del risultato di
un esperimento casuale. Ad esempio, consideriamo il lancio di una moneta che con
probabilità pari a 1/2 fornisce il risultato ”testa” e con la stessa probabilità fornisce
il risultato ”croce”. Immaginiamo di attribuire il valore 0 all’evento testa e il valore
1 all’evento croce. Abbiamo quindi che la variabile casuale X, risultato del lancio
di una moneta, può essere descritta come segue:

0 Pr(X = 0) = 1/2
X=
1 Pr(X = 1) = 1/2
In genere si utilizza la notazione X (la lettera maiuscola) per indicare una variabile
casuale e la corrispondente lettera minuscola (x in questo caso) per indicare la
realizzazione di una variabile casuale in un determinato esperimento casuale.
A seconda dell’insieme dei valori che una variabile casuale può assumere (do-
minio o supporto di una variabile casuale) si è soliti distinguere le variabili ca-
suali in assolutamente continue e discrete. Una variabile casuale continua (VCC)
assume valori appartenenti all’insieme dei numeri reali (o a suoi sottoinsiemi):
X : x ∈ A, A ⊆ R
Le variabili casuali discrete (VCD) assumono valori discreti. Ad esempio la va-
riabile casuale numero di risultati ”testa” nel lancio ripetuto 10 volte di una moneta
assume valori discreti compresi tra 0 e 10.
3.2 Distribuzione di probabilità

Per una variabile casuale è importante poter attribuire una misura connessa alla
probabilità del prodursi dei diversi risultati ammissibili. Ciò viene fatto tramite la
specificazione di una distribuzione di probabilità. La distribuzione di probabilità è
43
44 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA
diversamente trattata a seconda che si consideri una VCC o una VCD. Nel caso di
una VCD è possibile attribuire ad ogni possibile realizzazione della VC un deter-
minato valore che misura la probabilità del prodursi di quel determinato evento. In
tal caso si parla di probabilità associata al valore x, che indichiamo con f (x):
X
f (x) = pr(X = x), x ∈ A, f (xi ) = 1.
xi ∈A
Per le VCC invece si parla di densità di probabilità assegnata ad ogni punto

appartenente al supporto A della VC e si definisce la probabilità che la VC in
questione assuma valori compresi in un qualunque intervallo come:
Z b
f (x)dx = pr(a ≤ x ≤ b), a ≤ b
a
La funzione f (x) viene detta funzione di densità di probabilità. Si noti quindi

che per una VCC la probabilità di essere uguale ad un determinato valore è per
definizione nulla dato che:
Z x0
prob(X = x0 ) = f (x)dx = 0, ∀x0
x0
In altri termini, la massa di probabilità sottesa da un unico punto è identicamen-

te nulla per ogni punto del supporto di una VCC, a prescindere dall’entità della
densità di probabilità assegnata a tale punto. Questo perchè l’integrale di una qua-
lunque funzione definito su di un intervallo di misura nulla è identicamente uguale
a zero.
3.3 Funzione di ripartizione

Per funzione di ripartizione di una variabile casuale X si intende la funzione che
per ogni valore x appartenente al dominio della variabile casuale assegna una mi-
sura della probabilità che la variabile casuale stessa assuma valori inferiori a x. In
termini formali abbiamo:
Z x
F (x) = pr(X ≤ x) = f (t)dt
−∞
per una VCC e : X

F (x) = pr(X ≤ x) = f (xi )
xi ≤x
per una VCD. Si noti che, ovviamente la funzione di ripartizione, sia per una VCC
che per VCD assume valori compresi nell’insieme [0,1]; in altri termini la funzione
di ripartizione è una funzione A → [0, 1], ed in più valgono le seguenti proprietà:
lim F (x) = 0, lim F (x) = 1.
x→−∞ x→+∞
Le figure (3.1) e (3.2) presentano rispettivamente un esempio di funzione di ripar-

tizione per una VCC e la funzione di ripartizione di una VCD.
3.3. FUNZIONE DI RIPARTIZIONE 45
Figura 3.1: Funzione di ripartizione per VC discreta

F(x)
1
Figura 3.2: Funzione di ripartizione per VC continua

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-3 -2 -1 0 1 2 3
3.4 Momenti di una variabile casuale

Il valore atteso di una VC è:
X
E(X) = xi f (xi ),
xi ∈A
per una VCD, e:

Z +∞
E(X) = xf (x)dx.
−∞
per una VCC. L’operatore E(·) che definisce l’operatore atteso, dato che si riferi-
sce all’applicazione di un’operazione di sommatoria o di integrale è un operatore
lineare: data la VC x e le costanti a e b, si ha:
E (a + bx) = a + bE(x).
Il valore atteso costituisce la principale misura della posizione di una VC.

Per sintetizzare le caratteristiche principali di una VC si può fare ricorso alla
mediana, vale a dire ad una misura di tendenza centrale. Per mediana si intende
quel valore xmed appartenente al supporto della VC tale per cui:
pr(X < xmed ) = pr(X > xmed ) = 1/2.
La mediana xmed è diversamente definita a seconda che si tratti di VCC o VCD:

Z xmed
1
xmed : f (x)dx = (VCC),
−∞ 2
X 1
xmed : p(xi ) ≤ (VCD).
2
xi ≤xmed
Più in generale è possibile definire quantile di una VC corrispondente al valore di

α, 0 < α < 1, quel valore xα in corrispondenza del quale la massa di probabilità
assegnata a valore minori di xα è pari ad α. In tal senso la mediana di una VC è
chiaramente il quantile corrispondente a α = 1/2.
Un altro concetto rilevante per una VC è la moda. Per moda (o valore modale)
si intende un punto i massimo almeno locale della funzione di probabilità (se VCD)
o della funzione di densità di probabilità per una VCC. Ad esempio, se la funzione
di densità di una VCC X ammette un massimo interno nel punto xmo , tale punto è
valore modale per X ed in corrispondenza di esso abbiamo:

∂f (x)
= 0.
∂x x=xmo
A seconda che la VC ammetta uno o più valori modali viene detta unimodale o
multimodale.
3.5. LA DISTRIBUZIONE NORMALE 47
Un’altra importante classe di indicatori sono quelli che forniscono misure di

quanto grande è la variabilità insita nella VC in questione. Tali indicatori sono
detti misure della dispersione e tra esse assume particolare rilievo la varianza: per
varianza della VC X si intende il valore atteso dei quadrati delle deviazioni da
E(X):
Z +∞
v(X) = [x − E (x)]2 f (x)dx (per una VCC),
−∞
X
v(X) = [xi − E (x)]2 p(x) (per una VCD).
xi ∈A
Si noti che sia nel caso di una VCC che di una VCD la varianza può essere
alternativamente espressa come:
v(X) = E(X 2 ) − [E(X)]2 ,
vale a dire come differenza tra il valore atteso del quadrato di X e valore atteso di
X al quadrato. Questa espressione può essere facilmente ottenuta sviluppando il
quadrato [X − E (X)]2 ed applicando il valore atteso a ciascun elemento.
Le proprietà della varianza possono essere facilmente sintetizzate: data la VC
X e le costanti a e b, dalla definizione di varianza di X è possibile ricavare facil-
mente:
v(a + bX) = b2 v(X).
Questo significa che aggiungere una costante ad una VC non ne modifica la va-
rianza e moltiplicare questa VC per una costante b comporta l’ottenimento di una
varianza che è pari a b2 volte quella della VC di partenza: la varianza è infatti un
operatore quadratico.
3.5 La distribuzione normale

In statistica è particolarmente diffuso il riferimento alla VC normale o gaussiana:
una VCC X si distribuisce come una normale o gaussiana con valore atteso µ e
varianza σ 2 (con notazione sintetica X ∼ N (µ, σ 2 )) se la sua funzione di densità
è:
1 1
f (x) = √ exp − 2 (x − µ)2 , x ∈ R1 .
2πσ 2σ
Nella figura (3.5) viene rappresentata la funzione di densità di una VC X ∼
N (µ, σ 2 ). Si noti che è possibile notare che tale VC ha moda e mediana che coin-
cidono con µ, il valore atteso, e punti di flesso corrispondenti a ±σ. Si noti pure
che la funzione di densità ha un asintoto orizzontale corrispondente all’asse delle
ascisse:
lim f (x) = lim f (x) = 0.
x→−∞ x→+∞
Figura 3.3: Funzione di densità normale con media 0 e varianza 1

0.4
Dens. normale standard
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-3 -2 -1 0 1 2 3
Una proprietà importante delle VC normali è che qualsiasi trasformazione li-

neare di una VC normale è anch’essa distribuita normalmente. Data infatti X ∼
N (µ, σ 2 ) e qualunque coppia di constanti a e b, abbiamo che:
Y = (a + bX) ∼ N (a + bµ, b2 σ 2 ).
Ad esempio, se consideriamo:
µ 1
a= ,b = ,
σ σ
si ha:
1
(X − µ) ∼ N (0, 1)
Y =
σ
La VC Y viene detta in questo caso normale standardizzata, vale a dire con valore
atteso nullo e varianza unitaria. L’ottenimento di Y a partire di X viene detta
operazione di standardizzazione di un VC normale.
3.6 Inferenza statistica parametrica

L’inferenza statistica parametrica consiste nel ricavare informazioni relative ai pa-
rametri incogniti della distribuzione di una popolazione a partire dall’osservazio-
ne di un campione di ampiezza n (n-pla campionaria) di elementi estratti da tale
popolazione:
x1 , x2 , ..., xn .
3.7. PROPRIETÀ DEGLI STIMATORI 49
L’inferenza può essere condotta con modalità differenti che si possono ricondurre
alle seguenti:
1. Stima puntuale
2. Stima per intervallo (costruzione di intervalli di confidenza o intervalli fidu-

ciari).
3. Prova delle ipotesi.
Per stimatore si intende un valore sintetico delle informazioni contenute nell’n-

pla campionaria. Ad esempio se si considera un campione di ampiezza n:
x1 , x2 , ..., xn ,
uno stimatore possibile (e sensato) è la media campionaria, definita come:

n
1X
xn = xi
n
i=1
Si noti che gli stimatori sono VC in quanto valori sintetici ottenuti sulla base
dell’osservazione di un campione, e ciascuno degli elementi del campione è una
VC.
3.7 Proprietà degli stimatori

3.7.1 Non distorsione o correttezza
Uno stimatore g(x1 , x2 , ...xn ) (con questa notazione si intende sottolineare il fatto
che lo stimatore è una VC ottenuta come funzione delle variabili casuali elementi
del campione) viene detto non distorto o corretto per il parametro θ incognito della
popolazione che si vuole stimare se vale:
E [g(x1 , x2 , ...xn )] = θ
3.7.2 Efficienza
Il concetto di efficienza di uno stimatore, in relazione alla stima di un parametro
incognito θ della popolazione si riferisce alla precisione delle informazione relative
a θ che possono essere ottenute dallo stimatore utilizzato. La proprietà dell’effi-
cienza di uno stimatore è un concetto relativo e pertiene agli stimatori appartenenti
ad una determinata classe. Si considerino ad esempio gli stimatori non distorti.
Lo stimatore g(x1 , x2 , ...xn ) appartenente a tale classe che ha varianza minima
viene detto stimatore efficiente (stimatore MVUE: Minimum Variance Unbiased
Estimator: stimatore corretto a varianza minima).
Nella classe degli stimatori lineari e corretti, lo stimatore più efficiente viene
detto BLUE ( Best Linear Unbiased Estimator, migliore stimatore lineare corretto).
Ad esempio, avendo a disposizione un campione di n = 10 elementi estratti
in modo identico ed indipendente da una popolazione distribuita normalmente con
momenti entrambi incogniti:
xi ∼ N (µ, σ 2 ), i = 1, 2, ..10,
xi k xj ∀i 6= j.
Si considerino gli stimatori:

10
1 X
g10 (x1 , x2 , ...x10 ) = xi ,
10
i=1
7
1X
g7 (x1 , x2 , ...x10 ) = xi ,
7
i=1
Notiamo che entrambi gli stimatori sono corretti:
10 10
1 X 1 X
E [g10 (x1 , x2 , ...x10 )] = E (xi ) = µ = µ,
10 10
i=1 i=1
7
1X
E [g7 (x1 , x2 , ...x10 )] = µ = µ,
7
i=1
ed è possibile mostrare che:

10 10
1 X 1 X 2 1
V [g10 (x1 , x2 , ...x10 )] = V (xi ) = σ = σ2,
100 100 10
i=1 i=1
7 7
1 X 1 X 2 1 2
V [g7 (x1 , x2 , ...x10 )] = V (xi ) = σ = σ .
49 49 7
i=1 i=1
Il più efficiente tra questi due stimatori è quindi g10 (x1 , x2 , ...x10 ), dato che ha va-
rianza più bassa. Si noti che questo non è sorprendente dato che g10 (x1 , x2 , ...x10 )
utilizza tutte le informazioni provienienti dal campione mentre g7 (x1 , x2 , ...x10 )
non assegna alcun ruolo all’informazione proveniente dalle osservazioni x8 , x9 e
x10 .
3.7.3 Consistenza
La consistenza è una proprietà asintotica, vale a dire che riguarda il comportamento
degli stimatori per campioni di grande ampiezza (n → ∞).
3.7. PROPRIETÀ DEGLI STIMATORI 51
Uno stimatore g(·) viene detto consistente per il parametro incognito della
popolazione θ se per ogni coppia di valori > 0 e δ > 0, esiste un ampiezza
campionaria n0 tale per cui:
prob [|gn − θ| < ε] > 1 − δ, ∀n > n0 .
In altri termini:
lim pr [|gn − θ| < ε] = 1, ∀ε > 0
n→∞
Altre notazioni equivalenti per esprimere la consistenza sono:
p
gn → θ, plim(gn ) → θ
La consistenza di uno stimatore può quindi essere indicata come la convergenza in

probabilità di tale stimatore al valore incognito dei parametri da stimare.
Perchè si abbia consistenza è necessario che:
lim E (gn − θ)2 = 0

n→∞
Uno stimatore distorto può essere consistente purchè sia asintoticamente non di-
storto:
lim E(gn ) = θ.
n→∞
È possibile enumerare le principali proprietà dell’operatore plim:

n n
!
X X
plim ci xi = ci · plim (xi ) ,
i=1 i=1
n n
!
Y Y
plim xi = plim (xi ) ,
i=1 i=1

x1 plim (x1 )
plim = , se plim (x2 ) 6= 0,
x2 plim (x2 )
plim (g(x)) = g (plim(x)) se la funzione g (·) è continua in plim(x)
3.7.4 La legge dei grandi numeri (Versione più semplice)

Si consideri un campione di n elementi estratti indipendentemente da una distribu-
zione con valore atteso µ e varianza σ 2 :
x1 , x2 , ...xn ∼ i.i.d.(µ, σ 2 )
Si consideri la media campionaria:

n
1X
xn = xi
n
i=1
La legge dei grandi numeri ci assicura che la media campionaria converge in

probabilità al valore atteso incognito µ della popolazione:
p lim (xn ) = µ
3.7.5 Teorema centrale del limite

Consideriamo le stesse ipotesi che abbiamo avanzato a proposito della legge dei
grandi numeri, vala a dire che ci sia un campione di n elementi estratti in modo
indipendente dalla stessa popolazione con valore atteso µ e varianza σ 2 :
x1 , x2 , ...xn ∼ i.i.d.(µ, σ 2 )
Se consideriamo la variabile casuale:

√
n
zn = (xn − µ)
σ
e con f (zn ) indichiamo la sua funzione di densità di probabilità, il teorema centrale
del limite (TCL) afferma che al crescere di n la funzione di densità di zn converge
a quella dellaVC gaussiana standardizzata:
lim f (zn ) = φ(zn )

n→∞
dove φ(·) è la funzione di densità della VC normale standardizzata N (0, 1). Con
notazione del tutto equivalente si può affermare che:
d
zn → z ∼ N (0, 1).
d
La notazione → indica convergenza in distribuzione e si dice che zn converge in
distribuzione ad una VC normale standardizzata. Il TCL si può parimenti enun-
ciare nei termini della funzione di ripartizione: definendo F (zn ) la funzione di
ripartizione di zn , il TCL afferma che al crescere di n la funzione di ripartizione di
zn converge a quella dellaVC gaussiana standardizzata:
lim F (zn ) = Φ(zn )

n→∞
dove Φ(·) è la funzione di ripartizione della VC normale standardizzata N(0,1).

In altri termini, qualunque sia la distribuzione della popolazione X, la VC zn
(la media campionaria standardizzata) ha una distribuzione limite che coincide con
quella della Normale standardizzata. Ad esempio, se consideriamo la seguente VC
(VC bernoulliana):

0 con probabilità 1 − p
X=
1 con probabilità p, 0 < p < 1
3.8. VARIABILI CASUALI IN PIÙ DIMENSIONI 53
sappiamo che:
E(X) = p, V (X) = p(1 − p),

p(1 − p)
E(xn ) = p, V (xn ) =
n
Quindi, applicando il TCL si ottiene:
√
n(xn − p) d
zn = p → N (0, 1)
p(1 − p)
3.8 Variabili casuali in più dimensioni

Si consideri il vettore (2 × 1) x :

x1
x=
x2
dove sia x1 che x2 sono due variabili casuali, per semplicità di esposizione conti-
nue. Il vettore x può essere quindi definito una variabile casuale bidimensionale.
Con riferimento ad x è possibile definire:
• La distribuzione congiunta di x1 e x2 :
f (X) = f (x1 , x2 )
• Le distribuzioni marginali di x1 e x2 :
Z +∞
f (x1 ) = f (x1 , x2 )dx2
−∞
Z+∞
f (x2 ) = f (x1 , x2 )dx1
−∞
• Le distribuzioni condizionali di x1 condizionata a x2 e di x2 condizionata ad

x1 :
f (x1 , x2 )
f (x1 |x2 ) =
f (x2 )
f (x1 , x2 )
f (x2 |x1 ) =
f (x1 )
Si ha indipendenza statistica tra x1 e x2 quando la distribuzione condizionata di

x1 dato x2 coincide con la distribuzione marginale di x1 ; oppure, in termini equiva-
lenti quando la distribuzione di x2 condizionata su x1 coincide con la distribuzione
marginale di x2 :
f (x1 |x2 ) = f (x1 ) ⇔ f (x2 |x1 ) = f (x2 ).

Si noti che le due condizioni di cui sopra sono del tutto equivalenti, data la defi-
nizione di densità di probabilità condizionale, e da questo si evince la natura sim-
metrica del concetto di indipendenza statistica: dire che x1 è indipendente da x2
equivale ad affermare che x2 è indipendente da x1 :
f (x1 , x2 )
f (x1 |x2 ) = f (x1 ) ⇒ = f (x1 )
f (x2 )
⇒ f (x1 , x2 ) = f (x1 )f (x2 ),
f (x1 , x2 )
f (x2 |x1 ) = f (x2 ) ⇒ = f (x2 )
f (x1 )
⇒ f (x1 , x2 ) = f (x1 )f (x2 ).
Entrambe le condizioni possono essere riscritte come la condizione che la den-

sità di probabilità congiunta sia pari al prodotto tra le densità marginali per ogni
coppia di valori x1 e x2 appartenenti al dominio di X.
3.8.1 La covarianza
La covarianza misura quanto due variabili casuali tendano ad essere legate tra loro
in modo lineare. La covarianza tra le variabili casuali x1 , x2 è definita come:
Cov(x1 , x2 ) = E {[x1 − E (x1 )] [x2 − E (x2 )]}
è facile mostrare che:
Cov(x1 , x2 ) = E {[x1 − E (x1 )] [x2 − E (x2 )]} =

= E {x1 x2 − x1 E (x2 ) − x2 E (x1 ) + E (x1 ) E (x2 )} =
E(x1 x2 ) − E (x1 ) E (x2 )
p
La
p covarianza tra x1 e x2 assume valori che sono compresi tra − V (x1 )V (x2 )
e + V (x1 )V (x2 ). Per questo è possibile costruire una misura relativa della di-
pendenza lineare tra x1 e x2 opportunamente scalando la covarianza: si costruisce
in questo modo l’indice di correlazione lineare:
Cov(x1 , x2 )
ρ= p
V (x1 )V (x2 )
In assenza di correlazione l’indice ρ sarà pari a zero. Quando due variabili
casuali sono perfettamente correlate in senso positivo l’indice di correlazione sarà
pari a uno e in caso di perfetta correlazione negativa l’indice sarà pari a -1.
La correlazione quindi deve essere intesa come misura della dipendenza lineare
tra due variabili casuali. Si noti che l’indipendenza statistica implica assenza di
correlazione. Infatti date x1 e x2 se x1 e x2 sono indipendenti si avrà:
Cov(x1 , x2 ) = E(x1 x2 ) − E (x1 ) E (x2 ) =

3.9. DISTRIBUZIONE NORMALE MULTIVARIATA 55
Z +∞ Z +∞
= x1 x2 f (x1 , x2 )dx1 dx2 − E (x1 ) E (x2 ) =
−∞ −∞
Z +∞ Z +∞
= x1 x2 f (x1 )f (x2 )dx1 dx2 − E (x1 ) E (x2 ) =
−∞ −∞
Z +∞ Z +∞
= x1 f (x1)dx1 x2 f (x2)dx2 − E (x1 ) E (x2 ) =
−∞ −∞
= E (x1 ) E (x2 ) − E (x1 ) E (x2 ) = 0
L’assenza di correlazione non implica però l’indipendenza statistica tra due

variabili casuali1 : x1 e x2 possono essere non indipendenti in senso statistico ma
con correlazione nulla qualora il legame di dipendenza tra le due variabili sia di
tipo non lineare.
3.9 Distribuzione normale multivariata
La variabile casuale n-variata x, dove x è un vettore (n × 1) di variabili casuali,

ha distribuzione Normale n-variata e si indica tale proprietà come:
 
x1 !
 x2 
x = ∼N µ , Σ
(n×1)  ...  (n×1) (n×n)
xn
dove µ è un vettore (n × 1) i cui singoli elementi sono i valori attesi dei corri-
spondenti elementi di x e Σ è una matrice (n × n) simmetrica almeno semidefinita
positiva:
   
E(x1 ) µ1
 E(x2 )   µ2 
µ =
 ...
=
  ...
,

E(xn ) µn
Σ = E (X − µ) (X − µ)0 =

1
Nel caso di due variabili casuali distribuite normalmente, l’assenza di correlazione implica
l’indipendenza statistica. Vedi oltre.
 h i 
E (x1 − µ1 )2 ... E [(x1 − µ1 ) (xn − µn )]
 
 E [(x2 − µ2 ) (x1 − µ1 )] ... E [(x2 − µ2 ) (xn − µn )] 
= 
 ...
=
 ... ... h i


E [(xn − µn ) (x1 − µ1 )] ... E (xn − µn )2
   
v(x1 ) ... cov(x1 , xn ) σ11 σ12 ... σ1n
 cov(x2 , x1 ) ... cov(x2 , xn )   σ21 σ22 ... σ2n 
= 
 ...
= ,
... ...   ... ... ... ... 
cov(xn , x1 ) ... v(xn ) σn1 σn2 ... σnn
σji = σij ∀i, j.
La funzione di densità di x può essere scritta come:

n
1 1
f (x) = √ |Σ|−1/2 exp − (x − µ)0 Σ−1 (x − µ) ,
2π 2
n 1
f (x) : R → R+
Dalla distribuzione congiunta è possibile ottenere le distribuzioni condizionali

e marginali di sottoinsiemi di x. Ad esempio, partizionando il vettore x nel modo:
 
x1
 (n ×1) 
x= 1  , n 1 + n2 = n
x2
(n2 ×1)
Partizionando nello stesso modo il vettore µ e la matrice Σ:

   
µ1 Σ11 Σ12
 (n ×1)   (n1 ×n1 ) (n1 ×n2 ) 
µ =  1 ,Σ = ,
µ2 Σ21 Σ21
(n2 ×1) (n2 ×n1 ) (n2 ×n2 )
0
Σ21 = Σ12
riusciamo a definire le distribuzioni marginali di x1 e x2 :
x1 ∼ N (µ1 , Σ11 ),
x2 ∼ N (µ2 , Σ22 ),
e le distribuzioni condizionali di x1 dato x2 e di x2 dato x1 :
x1 |x2 ∼ N (µ∗1 , Σ∗11 ),

µ∗1 = µ1 + Σ12 Σ−1 ∗ −1
22 (x2 − µ2 ) , Σ11 = Σ11 − Σ12 Σ22 Σ21 ,
x2 |x1 ∼ N (µ∗2 , Σ∗22 ),

µ∗2 = µ2 + Σ21 Σ−1 ∗ −1
11 (x1 − µ1 ) , Σ22 = Σ22 − Σ21 Σ11 Σ12 ,
3.10. ALCUNE DISTRIBUZIONI NOTEVOLI 57
Si noti che nel caso di assenza di correlazione tra x1 e x2 ,quando cioè la

matrice delle covarianze tra gli elementi di x1 e gli elementi di x 2 è nulla:
Σ12 = E (x1 − µ1 ) (x2 − µ2 )0 = [0] ,

(n1 ×n2 )
la distribuzione di x1 condizionata a x2 coincide con la distribuzione marginale di

x1 e la distribuzioni di x2 condizionata a x1 coincide con la distribuzione marginale
di x2 :
µ∗2 = µ2 , Σ∗22 = Σ22 , µ∗1 = µ1 , Σ∗11 = Σ11 ,
in altri termini si ha indipendenza statistica tra x1 e x2 . Nel caso in cui trattiamo
una VC n-dimensionale gaussiana, l’assenza di correlazione lineare è sinonimo di
indipendenza statistici tra i blocchi di x che hanno covarianze nulle.
3.10 Alcune distribuzioni notevoli

3.10.1 La distribuzione χ2
Date n variabili casuali indipendenti ed identicamente distribuite come normali
standardizzate:
n
Y
x1 , x2 , ...xn , f (x1 , x2 , ..., xn ) = f (xi ),
i=1
xi ∼ N (0, 1), i = 1, 2, ..., n,
la VC ottenuta come somma di queste variabili al quadrato ha distribuzione χ2n

(chi-quadro con n gradi di libertà):
n
X
z= x2i ∼ χn , z ∈ R1+ .
i=1
Si noti che dal modo in cui ricaviamo la distribuzione χ2 è possibile dedurre che
a partire da due VC z1 e z2 indipendenti aventi entrambe distribuzione χ2 rispet-
tivamente con n1 e n2 gradi di libertà, la VC risultante dalla somma è anch’essa
distribuita come una χ2 con n = n1 + n2 gradi di libertà:
z1 ∼ χ2n1 , z2 ∼ χ2n2 ⇒ z = z1 + z2 ∼ χ2n1 +n2 .

Una distribuzione χ2k con k gradi di libertà assume valori solamente positivi ed ha
una funzione di densità con le proprietà descritte dalla Figura (3.4).
3.10.2 La distribuzione t di Student

Data una VC x, distribuita come una normale standardizzata:
x ∼ N (0, 1)
Figura 3.4: Funzione di densità di VC χ2

0.2
4 gdl
8 gdl
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
0 2 4 6 8 10 12 14 16 18 20
e data una seconda VC y indipendente da x e distribuita come una χ2n :
f (x, y) = f (x)f (y), y ∼ χ2n
si definisca la VC:
x
z=p
y/n
La VC Z è distribuita come una t di Student con n gradi di libertà:
Z ∼ tn .
La distribuzione t di Student, la cui funzione di densità è rappresentata nella

Figura (3.5) per diversi valori di n, è chiaramente molto simile ad una distribuzione
gaussiana standardizzata, vale a dire è simmetrica intorno a zero e assegna densità
di probabilità molto bassi a valori distanti da zero. Confrontandola con la distribu-
zione Gaussiana standardizzata, è possibile concludere che la densità t di Student
tende ad assegnare densità di probabilità più alte ai valori sulle code rispetto alla
distribuzione normale standardizzata. Per questo motivo si dice che la distribuzio-
ne t di Student ha le ”code spesse” (fat tails nella dizione inglese). Le proprietà
3.10. ALCUNE DISTRIBUZIONI NOTEVOLI 59
Figura 3.5: Funzione di densità di VC t di Student

0.4
2 gdl
80 gdl
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-3 -2 -1 0 1 2 3
essenziali della distribuzione t di Student sono le seguenti:

E(Z) = 0,
n
v(Z) = E(Z 2 ) = ,
n−2
se n > 2, altrimenti la varianza non esiste,
lim f (Z) = φ(Z).
n→∞
Quindi al crescere del numero dei gradi di libertà la distribuzione converge in
distribuzione a quella di una VC normale standardizzata.
3.10.3 La distribuzione F di Fisher

Date due variabili casuali X1 e X2 statisticamente indipendenti tra loro ed entram-
be distribuite come χ2 rispettivamente con n1 e n2 gradi di libertà:
X1 ∼ χ2n , X2 ∼ χ2n , f (x1 , x2 ) = f (x1 )f (x2 ),
1 2
la VC Z:
X1 /n1
Z= ∼ Fn1 ,n2
X2 /n2
si distribuisce come una F di Fisher con n1 gradi di libertà al numeratore e n2
gradi libertà al denominatore. Ovviamente il supporto di z è limitato a R1+ , dato
che si tratta del rapporto tra grandezze necessariamente positive. Le proprietà della
funzione di densità della distribuzione F sono rappresentate nella figura (3.6).
Figura 3.6: Funzione di densità di VC F di Fischer

0.9
3-50 gdl
8-50 gdl
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
3.11 La funzione di verosimiglianza

Sia x1 , x2 , ..., xn un campione di n elementi estratti in modo indipendente ed iden-
ticamente dalla stessa popolazione (indicati come IID, cioè distribuiti identica-
mente e indipendentemente) la cui densità indichiamo con f (x, θ) ad indicare che
tale densità è descritta dal vettore (k × 1) di parametri incogniti θ:
x1 , x2 , ...xn ∼ IID, f (xi , θ),i = 1, 2, ..., n.
Data l’ipotesi di indipendenza tra i diversi elementi del campione possiamo scrivere
la funzione di densità del campione come:
n
Y
f (x1 , x2 , ...xn , θ) = f (xi , θ)
i=1
Ad esempio, se la popolazione fosse distribuita normalmente con valore atteso

µ e varianza σ 2 , potremmo scrivere:
n
( )
−n/2 −n 1 X 2 µ
f (x1 , x2 , ...xn , θ) = (2π) σ exp − 2 (xi − µ) , θ =
2σ σ
i=1
Questa è la funzione di densità dell’n − pla campionaria sulla base dei parametri
della popolazione µ e σ. Questa funzione può essere vista sotto un diverso punto
3.11. LA FUNZIONE DI VEROSIMIGLIANZA 61
Figura 3.7: Funzione di verosimiglianza di µ

0.012
0.01
0.008
0.006
0.004
0.002
0
-3 -2 -1 0 1 2 3
Si assume che σ 2 sia noto e pari a 1.
di vista, cioè come una funzione del valore dei parametri stessi e quindi come
funzione di verosimiglianza:
n
( )
−n/2 −n 1 X 2
L(x1 , x2 , ...xn , θ) = (2π) σ exp − 2 (xi − µ) . (3.1)
2σ
i=1
Questa funzione esprime la verosimiglianza che l’n-pla campionaria osservata sia

stata estratta in modo IID da una distribuzione normale con parametri µ e σ 2 . Ad
esempio, dato il campione di ampiezza n = 5:
x1 = 1.2, x2 = 1.4, x3 = 1.6, x4 = 0.8, x5 = 0.4,
assumendo per semplicità che σ sia noto e pari a 1, possiamo calcolare in relazione
a diversi valori di µ il valore di (3.1) (si veda la figura 3.7) ed effettivamente si
ha che la verosimiglianza calcolata in corrispondenza di µ = 0.5 è pari a 0.0027,
e calcolata in corrispondenza di µ = 3 è pari a (6.318) × 10−7 , indicando in
questo modo che il valore µ = 0.5 è molto più verosimile del valore µ = 3. In
altri termini, sulla base del campione analizzato, è molto più verosimile che i dati
osservati siano stati generati da una distribuzione normale con valore atteso pari a
0.5, che da una distribuzione normale con valore atteso pari a 3.
3.12 Stima di massima verosimiglianza

Dato un certo campione x1 , x2 , ...xn estratti a una determinata popolazione di cui
si conosce la forma funzionale della funzione di densità f (x, θ), che dipende da un
vettore di parametri incogniti θ, la stima di massima verosimiglianza consiste nel
cercare quei valori dei parametri del modello che rendono l’estrazione de campione
osservato il più possibile verosimile. In altri termini, si massimizza la funzione di
verosiglianza rispetto ai parametri da stimare:
M ax L(x1 , x2 , ...xn , θ).

θ
La soluzione θb viene indicata come stimatore di massima verosimiglianza di θ.

Spesso si ricorre all’espediente di massimizzare il logaritmo della funzione di
verosimiglianza, la cosiddetta funzione di log-verosimiglianza, al fine di ottenere
condizioni del primo ordine più semplici. Si ricordi infatti che se una funzione
viene sottoposta ad una trasformazione monotonica conserva i punti di massimo e
di minimo della funzione di partenza. Ad esempi per il caso di un campione di n
elementi estratti in modo IID da una popolazione normale N (µ, σ 2 ), la funzione
di log-verosimglianza è:
n
n 1 X
log L(x1 , x2 , ...xn , µ, σ 2 ) = − log (2π) − n log(σ) − 2 (xi − µ)2 .
2 2σ
i=1
Le condizioni del primo ordine sono quindi:

n
∂ log L(x1 , x2 , ...xn , µ, σ 2 ) 2 X
= 0⇒ (xi − µ) = 0
∂µ 2σ 2
i=1
n
1X
⇒ µ
b = xn , xn = xi
n
i=1
n
∂ log L(x1 , x2 , ...xn , µ, σ 2 ) n 1 X
= 0⇒− + 3 (xi − µ)2 = 0
∂σ σ σ
i=1
n
1X
b2 =
⇒ σ b)2
(xi − µ
n
i=1
Si noti che lo stimatore del valore atteso µ è non distorto e consistente:
σ2
E(xn ) = µ, v(xn ) =
n
3.13 Metodo dei momenti

Il medodo dei momenti è una modalità di stima che è utilizzata quando l’interes-
se del ricercatore è concentrato sull’ottenimento di stime consistenti. Il metodo
3.14. PROPRIETÀ DEGLI STIMATORI OTTENUTI PER CAMPIONAMENTO DA UNA DISTRIBUZIONE GA
dei momenti consiste nell’uguagliare i momenti teorici della distribuzione da cui

proviene i campione ai momenti campionari. Dato che i momenti teorici della po-
polazione dipendono dai parametri incogniti della popolazione, si risolve rispetto
ai parametri incogniti e si ottiene una stima dei parametri della popolazione. Ad
esempio, supponiamo di avere:
x1 , x2 , ...xn ∼ I.I.D., f (xi , θ)i = 1, 2, ..., n.
e la popolazione si distribuisce come una t- di Student con ν gradi di libertà e ν è

incognito. Sapendo che per una variabile casuale z distribuita come una t di Student
con ν gradi di libertà vale:
ν
E(z) = 0, V (z) = , ∀ν > 2,
ν−2
è possibile per stimare ν ricavare la varianza campionaria e uguagliarla alla va-
rianza della popolazione, ed ottenere una stima di ν esplicitando rispetto a tale
parametro:
ν S2
S2 = ⇒ νb = 2 2
ν−2 S −1
3.14 Proprietà degli stimatori ottenuti per campionamen-

to da una distribuzione gaussiana
Supponiamo di avere un campione di n elementi x1 , x2 , ..., xn estratti in modo
IID da una popolazione avente distribuzione normale N (µ, σ 2 ). Si ricordino le
definizioni di media e di varianza campionaria:
n
1X
xn = xi ,
n
i=1
n
1 X
S2 = b)2
(xi − µ
n−1
i=1
Abbiamo visto che è facile definire le proprietà della media campionaria e stabilire
che:
σ2

xn ∼ N µ,
n
e quindi è possibile standardizzare xn ottenendo:
√
n
(xn − µ) ∼ N (0, 1) .
σ
D’altro canto è possibile mostrare che S 2 si distribuisce indipendentemente da
xn e che:
S2
(n − 1) 2 ∼ χ2n−1
σ
Quindi è possibile ricavare che vale:

√ √
n
σ (xn − µ) n
q = (xn − µ) ∼ tn−1
2
(n − 1) Sσ2 /(n − 1) S
Quindi si può standardizzare anche quando non si conosce σ utilizzandone una

sua stima corretta ed in questo modo si ottiene una VC la cui distribuzione è nota
e tabulata.
Nel caso in cui il campione fosse estratto in modo IID da una distribuzione
non normale, abbiamo visto che al crescere di n possiamo contare sul risultato
fornito dal teorema centrale del limite:
√
n
lim f (zn ) = φ(zn ), zn = (xn − µ)
n→∞ σ
e quindi possiamo ritenere che per n sufficientemente grande (per molti problemi
comuni n > 100 osservazioni), si abbia:
√
n
(xn − µ) ≈ N (0, 1)
S
dove con il simbolo ≈ si indica ”si distribuisce approssimativamente come”. quin-
di per n sufficientemente grande possiamo ritenenre valida√
il risultato di normalità
n
della media campionaria asintoticamente alla grandezza S (xn − µ) verrà consi-
derata come distribuita normalmente dato che la distribuzione t di Student converge
in distribuzione alla Normale standardizzata al crescere di n.
3.15 Stima per intervallo

Volendo stimare un parametro incognito θ sulla base di un campione di ampiezza
n, x1 , x2 , ..., xn , si immagini di costruire due funzioni dell’n-pla campionaria:
g1 (x1 , x2 , ..., xn ), g1 (·) : Rn → R1 ,

g2 (x1 , x2 , ..., xn ), g2 (·) : Rn → R1
con la proprietà:
pr [g1 (x1 , x2 , ..., xn ) ≤ θ ≤ g2 (x1 , x2 , ..., xn )] = α,
dove il valore di α è dato ed è denominato livello di confidenza o fiduciario. L’in-

tervallo definito dalle funzioni g1 (·) e g2 (·) viene detto intervallo fiduciario o di
confidenza.
Ad esempio ,dato il campione:
x1 , x2 , ..., xn ∼ IIDN (µ, σ 2 )

3.15. STIMA PER INTERVALLO 65
Figura 3.8: Quantili corrispondenti al 5% e al 95% per una VC χ219

0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
0 5 10 15 20 25 30 35 40 45 50
se abbiamo:
n = 20, xn = 5, S 2 = 9
ricordando che:
S2
(n − 1) ∼ χ2n−1
σ2
e scegliendo ad esempio α=0.90 (90% ), si ha che:
S2

P r zn−1 (0.05) ≤ (n − 1) 2 ≤ zn−1 (0.95) = 0.90 ⇒
σ
2 S2

S 2
P r (n − 1) ≤ σ ≤ (n − 1) = 0.90 ⇒
zn−1 (0.95) zn−1 (0.95)

9 2 9
P r (19) ≤ σ ≤ (19) = 0.90 ⇒
30.144 10.117
2

P r 5.67 ≤ σ ≤ 16.90 = 0.90
dove zn−1 (0.05) = 10.117 e zn−1 (0.95) = 30.144 sono i quantili corrispondenti
rispettivamente a 0.05 e 0.95 di una variabile casuale χ219 che sono ricavabili dalla
consultazione delle tavole statistica della distribuzione χ2 . (si veda la Figura 3.8).
Dalla considerazione precedente si ricava che:
" #
S2 S 2
P r (n − 1) ≤ σ 2 ≤ (n − 1) =α
zn−1 1−α2 zn−1 1 − 1−α 2
In questo modo si ottiene l’intervallo di confidenza al livello di confidenza α per la

varianza nel caso in cui il campione sia di elementi IID estratti da una popolazione
normale. Per dimostrare di aver capito il concetto di intervallo fiduciario il lettore

dovrebbe provare a costruire un intervallo di confidenza al livello 95% per il valore
atteso incognito della popolazione µ.
3.16 Prova delle ipotesi

Supponiamo di avere un campione x1 , x2 , ..., xn di elementi tratti da una popola-
zione distribuita normalmente con valore atteso µ e varianza σ 2 , dal quale si siano
ricavati i seguenti indicatori sintetici:
xn = 0.52, Sn2 = 0.09, n = 20.
Si immagini che il ricercatore formuli un’ipotesi relativa al parametro incognito

µ formalizzata come la congettura che µ sia pari ad un determinato valore µ0 (ad
esempio µ0 = 3). Per ipotesi statistica parametrica (nell’accezione di Neyman e
Pearson, gli statistici che hanno formulato lo schema concettuale della prova delle
ipotesi) si intende quindi un’affermazione relativa ad un certo parametro incognito
della popolazione. Si possono avere ipotesi puntuali (come ad esempio µ = 0.6),
oppure ipotesi che riguardino un intervallo di valori per un parametro incognito,
come ad esempio:
0.55 ≤ µ ≤ 0.60.
Si possono avere ipotesi semplici che riguardano un singolo parametro della popo-
lazione e ipotesi composte che riguardano più parametri congiuntamente.
Per prova delle ipotesi si intende una procedura statistica per verificare se una
determinata ipotesi possa essere accettata o meno. La procedura di prova delle ipo-
tesi si basa sulla formulazione di un’ipotesi di interesse, chiamata ipotesi nulla (in-
dicata comeH0 ) e di un’ipotesi alternativa (indicata comeH1 ) che viene specificata
appunto come alternativa a H0 . Ad esempio l’ipotesi:
H0 : µ = 0.6
può essere provata avendo come riferimento l’ipotesi alternativa:
H1 : µ = 0.7.
La prova statistica di ipotesi è quindi un criterio decisionale per scegliere tra H0

e H1 . In connessione ad entrambe scelte è possibile commettere due tipi distinti
di errore. Il primo tipo di errore consiste nel rifiutare H0 quando l’ipotesi H0
è vera. Il secondo tipo di errore consiste nel rifiutare H1 quando l’ipotesi H1 è
vera. Immaginiamo di utilizzare un determinato criterio per scegliere tra accettare
o meno H0 e si definiscano α come probabilità dell’errore di prima specie e β la
probabilità dell’errore di seconda specie. Il complemento a uno della probabilità
dell’errore di seconda specie viene chiamato potenza del test (1 − β) e misura la
probabilità di correttamente rifiutare un’ipotesi nulla H0 non vera.
3.16. PROVA DELLE IPOTESI 67
Figura 3.9: Distribuzioni sotto H0 e H1 di una statistica utilizzata per condurre

prova di ipotesi
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−2 0 2 4 6
La figura sulla destra rappresenta la distribuzione sotto H0 mentre la figura sulla sinistra rappresen-
ta la distribuzione sotto H1 . La semiretta verticale corrisponde al valore critico utilizzato. Quindi
l’area alla destra di tale valore, sottesa alla distribuzione sotto H0 è pari ad α (errore di prima spe-
cie), mentre l’area alla sinistra di tale valore, sottesa alla distribuzione sotto H1 è pari ad β (errore
di seconda specie)
Figura 3.10: Esempio sulla prova di ipotesi sul valore atteso: test a una coda
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−4 −3 −2 −1 0 1 2 3 4
Neyman e Pearson propongono un criterio per decidere quando accettare o

rifiutare H0 in modo tale che scelto α, la probabilità dell’errore di prima specie si
minimizza β, la probabilità dell’errore di seconda specie. Ad esempio, nella Figura
(3.9) notiamo le distribuzioni sotto H0 e H1 di una statistica utilizzata per condurre
prova delle ipotesi.
A proposito dell’esempio riportato all’inizio di questa sezione, ipotizzando che
sia soggetta a prova l’ipotesi H0 : µ = µ0 contro H1 : µ > µ0 , sappiamo che:
√ xn − µ
n ∼ N (0, 1),
σ
S2 √ xn − µ
(n − 1) 2 ∼ χ2n−1 ⇒ τ = n ∼ tn−1
σ S
Quindi possiamo ricavare:
pr (τ ≤ a) = 0.95
√ xn − µ

n−1
⇒ pr n ≤ t0.05 H0 = 0.95
S
√ xn − µ0

n−1
⇒ pr n ≤ t0.05 = 0.95.
S
3.16. PROVA DELLE IPOTESI 69
Figura 3.11: Esempio sulla prova di ipotesi sul valore atteso: test a due code
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−4 −3 −2 −1 0 1 2 3 4
In questo contesto è quindi possibile utilizzare criterio per condurre la prova

delle ipotesi la seguente regola: se la VC:
√ xn − µ0
n
S
risulta minore di tn−1
0.05 si accetta H0 ; viceversa si rifiuta H0 . Si noti che tale criterio
è connesso naturalmente ad una probabilità dell’errore di prima specie pari a α =
0.05.
Nel nostro caso abbiamo:
√ xn − µ0 √ 0.52 − 0.6
n = 20 = −1.1926,
S 0.3
tn−1
0.05 = 1.729,
ed quindi è possibile accettare H0 (si veda Figura 3.10).

Nel caso l’ipotesi alternativa fosse stata specificata come: H1 : µ 6= µ0 , avrem-
mo ricavato:
√ xn − µ

n−1 n−1
pr −t0.025 ≤ n ≤ t0.025 H0 = 0.95 ⇒
S
√ xn − µ0

n−1 n−1
pr −t0.025 ≤ n ≤ +t0.025 = 0.95.
S
In questo modo si costruisce una criterio decisionale in base al quale i punti:
−tn−1 n−1
0.025 , t0.025 ⇒ −2.093, +2.093
costituiscono gli estremi di un intervallo all’interno del quale se cade la VC:

√ xn − µ0
n
S
si perviene all’accettazione di H0 , avendo probabilità di errore di prima specie pari
a α = 0.05 (si veda la figura 3.11). Nel nostro esempio abbiamo:
√ xn − µ0
n = −1.1926,
S
e quindi si accetta H0 . In questo caso si parla di test a due code mentre per il test
utilizzato per verificare H0 contro H1 : µ > µ0 si parla di test ad una coda.
3.17 Esercizi
1. Data la seguente distribuzione normale bivariata:

x1 µ1 σ11 σ12
x= ∼ N [µ, Σ] , µ = ,=
x2 µ2 σ12 σ22
Dimostrare che la distribuzione marginale di x1 e la distribuzione condizio-

nale di x2 dato x1 sono normali. (esercizio difficile ma istruttivo).
2. Dato il seguente campione di elementi estratti in modo IID da una distribu-

zione normale con momenti µ e σ 2 :
x1 = 1.3, x2 = 2.1, x3 = 0.4, x4 = 1.3, x5 = 0.5,

x6 = 0.2, x7 = 1.8, x8 = 2.5, x9 = 1.9, x10 = 3.2.
(a) si calcolino media, mediana e varianza campionaria.

(b) Si verifichino le seguenti ipotesi:
H0 : µ = 2,
H0 : µ = 0.7,
H0 : σ 2 = 0.5,
(per le ipotesi sul valore atteso si calcolino i test a una coda e quelli a
due code).
(c) Si trovino gli intervalli di confidenza al 95% per µ e σ 2 .
3. Dato un campione di ampiezza n estratto da una popolazione avente la se-

guente distribuzione:
f (x) = λ exp(−λx), x ∈ R1+ , λ > 0.

3.17. ESERCIZI 71
(a) Si scriva la funzione di verosimiglianza del campione e si ricavi lo sti-

matore di massima verosimiglianza di λ. Quale stimatore si otterrebbe
utilizzando il metodo dei momenti?
4. Dato il vettore (p × 1) x:
x ∼ N (µ, Ω)
(a) ottenere una trasformazione lineare di x che sia distribuita nel seguente
modo:
y ∼ N (0, Ip ).
5. Immaginamo di avere a disposizione un programma che genera estrazioni

da una distribuzione che può assumere solo valori pari a uno o a zero con
probabilità rispettivamente pari a p e 1 − p (distribuzione bernoulliana:
x = 1 con probabilità pari a p, 0 ≤ p ≤ 1
x = 0 con probabilità pari a 1-p.
Descrivere come sarebbe possibile ottenere estrazioni casuali da una di-
stribuzione normale standardizzata, sfruttando le note proprietà di grandi
campioni.
6. È estratto un campione di 30 elementi IID da una distribuzione incognita.
Si ipotizzi che in relazione al campione osservato si abbia:
30
1 X
x30 = xi = 0.07,
30
i=1
30
1 X
S2 = (xi − x30 )2 = 0.112.
29
i=1
Calcolare un intervallo di confidenza approssimativo al 95% per il valore

atteso incognito della popolazione facendo riferimento al teorema centrale
del limite.
7. Il vettore di variabili casuali x, di dimensione (3 × 1), si distribuisce nel
modo seguente:
 
x1
x =  x2  ∼ N (µ, Ω)
x3
Si descriva la distribuzione delle seguenti variabili casuali:
z1 = x1 + x2 + x3 ,
z2 = x1 − x2 − x3 ,
y = P−1 (x − µ) ,
P = fattore di Choleski di Ω.
8. Dato il vettore di variabili casuali:

x1 µ1 σ11 σ12
x= ∼ N [µ, Σ] , µ = ,=
x2 µ2 σ12 σ22
Ricavare la fattorizzazione di Choleski di Σ e darne un’interpretazione in

termini di regressione. (esercizio difficile ma istruttivo).

1. Si consideri:
2
1 −1/2 1 0 −1
f (x1 , x2 ) = √ |Σ| exp − (x − µ) Σ (x − µ) ,
2π 2
Z +∞
−1 1 σ22 −σ12
f (x1 ) = f (x1 , x2 )dx2 , Σ = ,
−∞ ∆ −σ12 σ11
2
∆ = |Σ| = σ11 σ22 − σ12
La parte esponenziale della funzione di densità può essere scritta come:

1 2 2

exp − y σ22 − 2σ12 y1 y2 + y2 σ11 ,
2∆ 1
y1 = x1 − µ1 , y2 = x2 − µ2
è possibile trasformare i termini dove appare y2 nello sviluppo di un quadra-

2
to, aggiungendo e togliendo la quantità √σσ1212 y1 :
( " 2 2 #)
1 σ 12 σ 12
exp − y 2 σ22 − √ y1 + √ y1 − 2σ12 y1 y2 + y22 σ11 =
2∆ 1 σ12 σ12
( " 2 #)
σ12 2

1 2 σ12
exp − y σ22 − √ y1 + σ11 y2 − .
2∆ 1 σ11 σ11
Si noti che la quantità:

( 2 )
σ11 σ12
exp − y2 −
2∆ σ11
descrive la parte esponenziale di una variabile casuale normale con valore

atteso pari a σσ12
11
e varianza pari a σ∆11 e quindi:
( 2 )
+−∞
Z r
σ11 σ12 ∆
exp − y2 − dx2 = 2π
−∞ 2∆ σ11 σ11
Dato che: Z +∞
f (x1 ) = f (x1 , x2 )dx2 =
−∞
2 r
1 −1/2 ∆ 1 2
2
= √ |∆| 2π · exp − σ11 σ22 − σ12 y1 =
2π σ11 2∆σ11

1 1 2
√ exp − (x1 − µ1 ) ,
2πσ11 2σ11
si può concludere che x1 ∼ N (µ1 , σ11 ).

Ora veniamo alla distribuzione di x2 condizionata su x1 :
2
f (x1 , x2 ) |∆|−1/2
√1
2π
f (x1 |x2 ) = = ×
f (x2 ) −1/2
√1 σ
2π 11
y12

1 2 2

exp − y σ22 − 2σ12 y1 y2 + y2 σ11 +
2∆σ11 1 2σ11

1 2
−1/2
= √ σ11 σ22 − σ12 ×
2π

1 2 2 2 2 2

exp − y σ11 σ22 − 2σ11 σ12 y1 y2 + y2 σ11 − y1 (σ11 σ22 − σ12 ) =
2∆σ11 1
( )
2
1 2
−1/2 [y 2 − (σ 12 /σ )y
11 1 ]
= √ σ11 σ22 − σ12 exp − 2 /σ )
2π 2(σ22 − σ12 11
Quindi, ricordando le definizioni di y1 e y2 possiamo concludere che:

σ12 2
x1 |x2 ∼ N µ2 + (x1 − µ1 ) , σ22 − σ12 /σ11 .
σ11
2. (a) In relazione ai dati, si ha:
10
1 X
x10 = xi = 1.52,
10
i=1
10
1 X
S2 = (xi − x10 )2 = 0.9418,
9
i=1
√
S = S 2 = 0.97.
La stima della mediana è tra i valori 1.3 e 1.8.

(b) Per la verifica dell’ipotesi µ = 2 si ottiene:
x −2 1.52 − 2
p10 =p == −1.5641
S 2 /10 0.9418/10
Il valore critico al 5% del test a due code è t90.025 = 2.262 .

Quindi il test conduce all’accettazione di H0 . Se si considera il test ad
una coda:
H0 : µ = 2, contro H1 : µ < 2,
il valore critico è -t90.05 = −1.833 ed anche in questo caso si accetta
H0 .
Considerando la prova dell”ipotesi:
H0 : µ = 0.7controH1 : µ 6= 0.7,
si ottiene:
x10 − 0.7 1.52 − 0.7
p =p = 2.672.
2
S /9 0.9418/10
Dato che il valore critico per il test è ancora ±t90.025 = ±2.262,si rifiuta
H0 . A maggior ragione, se si considera l’ipotesi alternativa:
H1 : µ > 0.7,
dato che il valore critico è t90.05 = 1.833, si arriva al rifiuto di H0 .

Passando alla prova delle ipotesi sulla varianza:
H0 : σ 2 = 0.5, contro H1 : σ 2 6= 0.5,
si ricordi che :
S2
(n − 1) ∼ χ2n−1
σ2
Quindi se vale H0 si ha:
S2
z = (n − 1) ∼ χ2n−1 .
0.5
Possiamo definire, sulla base della distribuzione χ29 di riferimento:
pr(b < z < a|H0 ) = α = 0.05
In questo modo si definiscono a e b (si veda la figura 3.12). Dalla tavola

della distribuzione χ29 si ricava:
a = 2.70, b = 19.0.
Figura 3.12: Test a due code per la varianza; distribuzione di riferimento χ29 , α =
0.05
0.12
0.1
0.08
0.06
0.04
0.02
0
0 5 10 15 20 25 30
Figura 3.13: Test a una coda per la varianza; distribuzione di riferimento χ29 , α =
0.05
0.12
0.1
0.08
0.06
0.04
0.02
0
0 5 10 15 20 25 30
In questo contesto abbiamo:

0.9418
z=9 = 16.952,
0.5
e quindi si accetta H0 . Se invece si considera come ipotesi alternativa:
H1 : σ 2 > 0.5,
dalla tavola della distribuzione χ29 di riferimento si determina il valore

c = 16.9 che soddisfa (figura 3.13):
pr(z > c|H0 ) = α = 0.05
Quindi in questo esercizio il test ad una coda comporta il rifiuto di H0 .

(c) Per costruire l’intervallo di confidenza per µ, si ricordi che:
xn − µ
τ=p ∼ tn−1
S 2 /n
quindi è possibile determinare il valore t90.025 = 2.262 (si veda la figura

3.13) tale per cui: pr(−t90.025 < τ < t90.025 ) = 0.95 = 1 − α. Quindi
l’intervallo di confidenza viene ottenuto come:
h p p i
x10 − t90.025 S 2 /10, x10 + t90.025 S 2 /10, = [0.8258, 2.2142].
Per quello che riguarda l’intervallo di confidenza per σ 2 , ricordiamo

che:
S2
z = (n − 1) 2 ∼ χ2n−1
σ
e quindi possiamo determinare a e b in modo tale che:
pr(a ≤ z ≤ b) = 0.95 = 1 − α, a = 2.70, b = 19.0,
o, in termini equivalenti:
pr(2.70 ≤ z ≤ 19.0) =

8.476
pr 2.70 ≤ ≤ 19.0 =
σ2
σ2

1 1
pr ≤ ≤ =
19.0 8.476 2.70

8.476 2 8.476
pr ≤σ ≤ =
19.0 2.70
2

pr 0.44611 ≤ σ ≤ 3.1393 = 0.95
Quindi l’intervallo di confidenza al 95% per σ 2 è dato da [0.44611,

3.1393].
3. La verosimiglianza del campione (funzione di densità congiunta degli ele-

menti del campione) è:
n
Y n
X
n
f (x1 , x2 , ..., xn ) = f (xi ) = (λ) exp(−λ xi )
i=1 i=1
e quindi la log-verosimiglianza è:

n
X
logL = nlog(λ) − λ xi
i=1
e la stima di λ di massima verosimiglianza è:

n
∂logL n X b = Pnn b= 1 .
=0⇒ − xi = 0 ⇒ λ ⇒λ
∂λ λ i=1 xi xn
i=1
Per ottenere lo stimatore ottenuto utilizzando il metodo dei momenti, è ne-

cessario ricavare in primo luogo il valore atteso della distribuzione:
Z +∞ Z +∞
1
E(x) = xf (x)dx = λ xexp(−λx)dx =
0 0 λ
Uguagliando il momento teorico al momento campionario e risolvendo per
λ si ottiene lo stimatore derivante dal metodo dei momenti:
1 b= 1
= xn ⇒ λ
λ xn
che quindi coincide con lo stimatore di massima verosimiglianza.
4. Definendo P il fattore di Choleski di Ω:
Ω = PP0
sappiamo che:
P−1 ΩP−10 = Ip .
Quindi si ha che:
z = P−1 (x − µ),
E(z) = P−1 [E(x) − µ] = [0] ,
E(zz0 ) = P−1 ΩP−10 = Ip .
Da questo notiamo che la variabile z si distribuisce come una normale p-

dimensionale standardizzata:
z ∼N (0, Ip ).
5. Ricordando che, grazie al teorema centrale del limite, possiamo dire:

xn − E(x) d
q → N (0, 1),
v(x)
n
qualunque sia la distribuzione della popolazione da cui sono estratti gli ele-
menti del campione. Quindi, dato che per una VC bernoulliana abbiamo:
E(x) = 0 · (1 − p) + 1 · p = p,
v(x) = E(x2 ) − (E(x))2 = p − p2 = p(1 − p),
grazie al teorema centrale del limite possiamo scrivere:

x −p
qn ≈ N (0, 1)
p(1−p)
n
Quindi è possibile estrarre n = 10000 (un numero altissimo) di elementi

IID da unaq bernoulliana e calcolare la media delle realizzazioni, sottrarre p e
dvidere per p(1−p)
10000 . La variabile ottenuta è approssimativamente distribuita
come una normale.
6. Per il TCL, possiamo dire che:

x30 − E(x)
p ≈ N (0, 1),
σ 2 /n
S2
(n − 1) 2 ≈ χ2n−1 .
σ
quindi il rapporto si distribuisce approssimativamente come una normale:
x30 −E(x)
√ 2
σ /n x30 − E(x)
q = p 'z
2
(n − 1) Sσ2 /(n − 1) S 2 /n
In relazione alla distribuzione normale è possibile determinare il quantile

z0.025 = 1.96 in corrispondenza del quale abbiamo:
" #
x30 − E(x)
pr −1.96 ≤ p ≤ 1.96 = 0.95 ⇒
S 2 /n
h p p i
2 2
pr x30 − 1.96 S /n ≤ µ ≤ x30 + 1.96 S /n = 0.95 ⇒
h p p i
pr 0.07 − 1.96 0.112/30 ≤ µ ≤ 0.07 + 1.96 0.112/30 = 0.95 ⇒
pr [−0.0498 ≤ µ ≤ 0.1898] = 0.95.

Questo definisce un intervallo di confidenza approssimativo costruito per µ.
7. Definendo:
0
z1 = a1 x ,
(3×1) (3×1)
 
1
a1 =  1 
1
si ricava che:
z1 ∼ N (a01 µ, a01 Ωa1 ),

a01 Ωa1 = ω11 + ω22 + ω33 + 2ω12 + 2ω13 + 2ω23 .
Definendo:
0
z2 = a2 x ,
(3×1) (3×1)
 
1
a2 =  −1 
−1
si ricava che:
z2 ∼ N (a02 µ, a02 Ωa2 ),

a02 Ωa2 = ω11 + ω22 + ω33 − 2ω12 − 2ω13 + 2ω23 .
Per quanto riguarda la variabile casuale y, è facile concludere che:
y ∼ N ( 0 , I3 )
(3×1)
8. La fattorizzazione di Choleski di Σ di ottiene ricavando la matrice P con le

seguenti proprietà:

p11 0
P = , p11 > 0, p22 > 0,
p21 p22
p211

0 p11 p21 σ11 σ12
PP = Σ ⇒ = .
p21 p11 p222 + p211 σ12 σ22
Quindi, risolvendo l’uguaglianza appena scritta è facile trovare i valori degli

elementi di P corrispondenti:
√
r
σ12 σ12
p11 = σ11 , p21 = √ , p22 = σ22 −
σ11 σ11
Si definisca ora la variabile casuale bidimensionale:
z = P−1 (x − µ) ∼ N (0, I2 )
Dato che si ha:

p−1

−1 −1 + 11 0
P = |P| P = p21
− p11 p22 p−1
22
la variabile casuale z è:
p−1

z1 11 (x1 − µ1 )
z= = p21 −1
z2 − p11 p22 (x1 − µ1 ) + p22 (x2 − µ2 )
Notate che:
x1 − µ1
z1 ∼ N (0, 1) ⇒ √ ∼ N (0, 1),
σ11

1 σ12
z2 ∼ N (0, 1) ⇒ (x2 − µ2 ) − (x1 − µ1 ) ∼ N (0, 1).
p22 σ11
√
Quindi σ11 z1 dà i termini di disturbo di una regressione di x1 su una co-
stante (con coefficiente pari a µ1 ) e tali termini di disturbo hanno varianza
pari a σ11 , mentre p22 z2 esprime i termini di disturbo di una relazione di
regressione lineare di (x2 − µ2 ) su (x1 − µ1 ) la cui varianza è pari a:
σ12
p222 = σ22 − .
σ11
Capitolo 4
Il modello di regressione lineare
4.1 Concetti fondamentali

In un modello di regressione lineare, una variabile yt , chiamata variabile dipenden-
te o endogena è ipotizzata dipendere in modo lineare, tramite un vettore (k × 1) di
parametri:  
β1
 β2 
β= 
 ... 
βk
da un insieme di k variabili x1t , x2t , . . . , xkt che vengono dette variabili esplicative
o regressori. In aggiunta si ipotizza che la variabile yt sia influenzata da un termine
stocastico εt :
k
X
yt = βi xit + εt , t = 1, 2, . . . T,
i=1
k
X
βi xit = parte sistematica del modello
i=1
εt = parte stocastica del modello
Immaginiamo di avere a disposizioni T osservazioni su tutte le variabili che ap-

paiono nel modello e di chiederci come stimare i parametri incogniti del model-
lo. Ad esempio, supponiamo di fare riferimento ad una semplice formulazione
dell’equazione del consumo:
yt = β1 + β2 x2t + β3 x3t + εt, t = 1, . . . , T,

yt = consumo all’istante t ,
x1t = 1∀t (termine costante della regressione),
x2t = reddito disponibile all’istante t ,
x3t = stock di ricchezza finanziaria all’istante t
81
82 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Figura 4.1: Rappresentazione grafica di una relazione di regressione semplice teo-

rica
(β1 = 3.0, β2 = 0.5, T = 4 osservazioni)
9
(x23 = 3.2, y3 = 7.7)
8
7 (x21 = 4.5, y1 = 6.35)

ε3 = 3.1
6 ε1 = 1.1 ε2 = −2.2
5
(x22 = 6.5, y2 = 5.25)
4
3 ε4 = −2.1
2 (x24 = 2.2, y4 = 2.0)
0
0 1 2 3 4 5 6 7
In questo capitolo cercheremo di capire in quale modo è possibile stimare i

parametri incogniti del modello
4.1.1 Il ruolo del termine di disturbo e le sue proprietà

I motivi dell’inserimento di un termine di disturbo stocastico nel modello di regres-
sione lineare possono essere sintetizzati come segue:
1. Il termine di disturbo εt rappresenta un elemento di asistematicità connesso

al comportamento umano;
2. inoltre, il termine di disturbo può essere interpretato come la descrizione

dell’effetto congiunto di un numero elevato di variabili che producono effetti
su yt ma che non sono suscettibili di misurazione e quindi non inseribili nella
parte sistematica del modello;
3. infine, possono essere presenti errori di misurazione tra le variabili.
Graficamente (si veda la figura 4.1), possiamo rappresentare facendo riferimen-

to alla regressione semplice (numero di regressori k = 2, x1t = 1, ∀t):
yt = β1 + β2 x2t + εt, t = 1, . . . , T,
4.1. CONCETTI FONDAMENTALI 83
si nota che ciascun termine εt ha l’effetto di indurre la corrispondente osservazione

sulla variabile dipendente a deviare dalla relazione teorica che lega yt a x1t e x2t ,
cioè dalla retta di regressione.
Nel modello di regressione lineare a ciascuna osservazione associamo un ter-
mine di errore o termine di disturbo εt con le seguenti proprietà:

 E(εt ) = 0, ∀t
E(εt εs ) = 0, ∀t 6= s (assenza di correlazione) (4.1)
E(ε2t ) = σ 2 , ∀t. (costanza della varianza o omoschedasticità

A queste assunzioni di solito si aggiunge l’ipotesi di normalità dei disturbi che

vedremo non essere strettamente necessaria alla stima puntuale del modello:
εt ∼ N (0, σ 2 ), t = 1, 2, . . . , T. (4.2)
4.1.2 Ipotesi sui regressori

Nel caso più semplice, i regressori del modello x1t , x2t , . . . , xkt , t = 1, 2, . . . , k,
sono assunti non stocastici oppure si ipotizza di considerarli come variabili casuali
e di lavorare con la distribuzione condizionale di yt dati x1t , x2t , . . . , xkt :
k
X
yt = βi xit + εt ,
i=1
k
X
E(yt |x1t, x2t, . . . , xkt ) = βi xit
i=1
Nella versione più semplice del MRL, le ipotesi avanzate sui regressori sono:
1) E(xit εs ) = 0, ∀i, t, s (esogenità stretta dei regressori)
cioè non si ha correlazione tra i regressori ed i termini di disturbo. Particolarmente
rilevante è l’ipotesi di assenza di simultaneità:
E(xit εt ) = 0, ∀i, t (4.3)
2) Definendo la matrice X di dimensioni (T × k) :

 
x11 x21 ... xk1
 x12 x22 ... xk2 
X =
 ...
 (4.4)
... ... ... 
x1T x2T ... xkT
si ipotizza:
ρ(X) = k (4.5)
vale a dire i diversi regressori devono essere linearmente indipendenti.
4.1.3 Rappresentazione matriciale del modello di regressione lineare

Consideriamo il MRL con k regressori in forma matriciale:
y = X β + ε
(T ×1) (T ×k)(k×1) (T ×1)
Ogni riga della rappresentazione è un’osservazione distinta:

k
X
yt = βi xit + εt = x0t β+εt , (4.6)
i=1
x0t

= x1t x2t . . . xkt , t = 1, 2, . . . , T (4.7)
(1×k)
Con l’ipotesi di normalità dei termini di disturbo posso scrivere il modello di

regressione (4.3) nei termini della distribuzione di yt dati x1t , x2t , . . . , xkt :
Xk
(yt |x1t , x2t , . . . , xkt ) ∼ N ( βi xit + εt , σ 2 )
i=1
 #2 
T k
T "
1  1 X X 
f (y|X) = √ exp − 2 yt − βi xit
2πσ  2σ 
t=1 i=1
oppure in termini matriciali:

T
T ( )
1 1 X
f (y|X) = √ exp − 2 ε 0 ε
2πσ 2σ (1×T ) (T ×1)
t=1
Si noti che l’inclusione di un termine d’intercetta nel modello (si prenda il caso
più semplice di un modello con soli due regressori, uno dei quali è il termine di
intercetta: x1t = 1, ∀t):
yt = β1 + β2 x2t + εt , t = 1, 2, . . . , T
si può rendere in termini matriciali scrivendo:
y = X β + ε ,
(T ×1) (T ×2)(2×1) (T ×1)
 
1 x21
 1 x22 
X = 
 ...

... 
1 x2T
Ricapitolando, dato il MRL:
k
X
yt = βi xit + εt , t = 1, 2, . . . , T
i=1
4.1. CONCETTI FONDAMENTALI 85
l’obiettivo è quello di ottenere una stima:

 
β̂1
 β̂2 
β̂ =  
 ... 
β̂2
dei parametri incogniti del modello:
 
β1
 β2 
β = 
 ... 
βk
Sulla base di tale stima puntuale dei parametri è possibile:
a) “prevedere” yT +j :
X k
ŷT +j = β̂i xiT +j
i=1
disponendo di informazioni o avanzando ipotesi sui valori di xiT +j , i = 1, 2, . . . , k, j =
1, 2, . . . ..
b) fare ulteriore inferenza sul valore dei parametri. Ad esempio, prendiamo il
semplice modello dove spieghiamo il consumo privato (y) in relazione al reddito
disponibile (x2 ) ed alla spesa pubblica (x3 ):
yt = β1 + β2 x2t + β3 x3t + εt
Possiamo, ad esempio, verificare la compatibilità dell’ipotesi di equivalenza
ricardiana (neutralità della spesa pubblica) con una semplice prova delle ipotesi:
H0 : β3 = 0
H1 : β3 6= 0
Immaginiamo che il valore stimato di β3 , β̂3 sia pari a 0.07. Quanto questo
valore è statisticamente vicino a zero? A domande di questo tipo è possibile ri-
spondere facendo riferimento alla prova delle ipotesi e alla costruzione di intervalli
di confidenza. È possibile inoltre costruire intervalli di confidenza intorno alle
previsioni sulla variabile dipende, oltre che intorno alle stime dei parametri.
4.1.4 Ricapitolando
Assunzioni del modello lineare di regressione classico:
a) linearità della relazione:
k
X
yt = βi xit + εt , t = 1, 2, . . . T.
i=1
y = Xβ + ε
b) ipotesi sui termini di disturbo:
E(εt ) = 0, ∀t,
E(ε2t ) = v(εt ) = σ 2 , ∀t,
E(εt εt−j ) = 0, ∀j 6= 0
cioè:
εt ∼ i.i.d(0, σ 2 ), ∀t.
Spesso si assume l’ipotesi di normalità dei termini di disturbo (che non è stretta-
mente necessaria per la stima puntuale dei parametri):
εt ∼ N (0, σ 2 ), ∀t.
c) Ipotesi sui regressori x1t , x2t , . . . xkt :

Nella formulazione più semplice del MRL si ipotizza che i regressori siano non
stocastici oppure variabili casuali ortogonali (non correlate) rispetto ai termini di
errore:
E(xit εs ) = 0, ∀i, t, s (esogenità stretta dei regressori)

Una condizione meno stringente è quella che richiede l’assenza di simultaneità
tra ciascuno dei regressori ed i termini di disturbo:
E(xit εt ) = 0, ∀i, t (assenza di simultaneità)
In più si richiede l’indipendenza lineare tra le colonne di X:
ρ(X) = k
4.2 Stima dei parametri

4.2.1 Metodo dei momenti (MM)
Come abbiamo visto consiste nell’uguagliare i momenti campionari con quelli
della popolazione; i momenti rilevanti in questo caso sono quelli che esprimono
l’assenza di simultaneità tra i termini di disturbo e i regressori:
E(xit εt ) = 0, ∀i, t
Prendiamo un semplice esempio con due regressori:
yt = β1 + β2 x2t + εt
In questo caso i momenti teorici sono:
E(εt x1t ) = 0
E(εt x2t ) = 0
4.2. STIMA DEI PARAMETRI 87
che hanno come equivalenti campionari:

T T
1X 1X
1) εt x1t = 0⇒ (yt − β1 − β2 x2t ) = 0 ⇒
T T
t=1 t=1
− −
⇒ y −β1 − β2 x2 = 0,
T T
− 1X − 1X
y = yt , x 2 = x2t
T T
t=1 t=1
T T
1 X 1 X
2) εt x2t = 0⇒ (yt − β1 − β2 x2t )x2t = 0 ⇒
T T
t=1 t=1
−
⇒ S(y, x2 ) − β1 x2 −β2 S(x2 , x2 ) = 0,
T T
1X 1X 2
S(y, x2 ) = yt x2t , S(x2 , x2 ) = x2t ,
T T
t=1 t=1
da cui si ricava sostituendo la prima nella seconda:
− −
β̂1 = y −β2 x2 ,
− − −
0 =S(y, x2 ) − ( y −β2 x2 ) x2 −β2 S(x2 , x2 )
ĉ(y, x2 )
⇒ β̂2 = (4.8)
v̂(x2 )
Passiamo ora al MRL con k regressori. I momenti teorici sono:
E(xit εt ) = 0, i = 1, 2, . . . , k.
I corrispondenti momenti campionari sono:

 T 
1 P
T x1t εt 
t=1

 
 T
1 P

1 0

T x2t εt 
X ε = t=1

T (k×T ) (T ×k)  

 ... 

 T 
1 P
T xkt ε t
t=1
Uguagliando i momenti campionari (intesi come funzioni dei parametri incogniti

contenuti in β) ai corrispondenti momenti della popolazione (tutti pari a zero), si
ottiene:
X0 (y − Xβ) = 0
X0 y − X0 Xβ = 0 (4.9)
Ricordando l’assunzione che:

ρ(X) = k
possiamo ricavare che:
ρ(X0 X) = k
per cui si può invertire la matrice X0 X ed ottenere:
β̂M M = (X0 X)−1 X0 y (4.10)
Come utile esercizio, verificate che con k = 2 e un primo regressore dato

dal termine di intercetta (x1t = 1, ∀t), utilizzando la (4.10) si ottiene l’espressio-
ne (4.8) per β̂1 e β̂2 vista prima nell’esempio a due variabili. La relazione (4.9)
esprime le cosiddette equazioni normali.
Si noti che in tutta l’applicazione del metodo dei momenti si sono utilizzate
solo le seguenti proprietà:
- la linearità della relazione di regressione y = Xβ + ε;
- l’ortogonalità di X rispetto ai termini di disturbo (assenza di simultaneità):
E(xit ετ ), ∀i, t, τ.
4.2.2 Metodo della massima verosimiglianza.

Si utilizzano tutte le proprietà sui termini di disturbo, anche quella relativa alla
normalità dei termini di disturbo:
E(εt ) = 0, ∀t,
E(ε2t ) = σ 2 , ∀t,
E(εt ετ ) = 0, ∀t 6= τ,
εt ∼ N (0, σ 2 ), ∀t.
In questo modo è possibile scrivere la verosimiglianza associata al MRL:

T
( )
1 T 1 X 2
L = (√ ) exp − 2 (yt − β1 x1t − . . . − βk xkt ) =
2πσ 2σ
t=1

1 T 1 0
= (√ ) exp − 2 (y − Xβ) (y − Xβ)
2πσ 2σ
Della funzione di verosimiglianza è possibile prendere il logaritmo, in questo

modo ottenendo:
T 1
log L = − log(2π) − T log σ − 2 (y − Xβ)0 (y − Xβ)
2 2σ
Per massimizzare la verosimiglianza possiamo ottenere le condizioni del primo
ordine rispetto a β e σ, i parametri del modello:
∂ log L 1 ∂
(y − Xβ)0 (y − Xβ) = 0

= 0→−
∂β 2 ∂β
∂ log L T 1
= 0 → − + 3 (y − Xβ)0 (y − Xβ) = 0
∂σ σ σ
Utilizzando il primo blocco delle condizioni del primo ordine otteniamo:
∂(β 0 X0 Xβ) ∂ 0 0
− (β X y + y0 Xβ) = 0 ⇒
∂β ∂β
2(X0 X)β − 2(X0 y) = 0
Ricordando che ρ(X) = k e quindi che:
ρ(X0 X) = k ⇐⇒ X0 X 6= 0

possiamo esplicitare rispetto a β ed ottenere lo stimatore di massima verosimi-

glianza:
β̂M L = (X0 X)−1 X0 y (4.11)

Notate che è lo stesso stimatore che si ottiene applicando il metodo dei momenti.
Sostituendo β̂M L nel secondo blocco delle condizioni del primo ordine (la derivata
prima della logverosimiglianza rispetto a σ) e risolvendo rispetto a σ 2 si ottiene
anche uno stimatore per la varianza:
1
σ
bM2
L = (y − Xβ̂ M L )0 (y − Xβ̂ M L ) =
T
T
1 0 1X 2
= εb εb = εbt , (4.12)
T T
t=1
εb = y − Xβ̂ M L = y − X(X0 X)−1 X0 y
Notate che è possibile confermare che la soluzioni associate alle condizioni del
primo ordine, cioè la (4.11) e la (4.12), definiscono un punto di massimo per la
funzione di logverosimiglianza. Questo può essere verificato calcolando la matrice
hessiana in corrispondenza della soluzione:
2
H(βbM L , σ
bM L) =
− σ12 X0 X 2
(X0 Xβ − X0 y)

= σ3 =
2
σ3
(β 0 X0 X − y0 X) T
σ2
− 3 σ14 ε0 ε (βbM L ,b
σM2
L)
− σ12 X0 X 2
(X0 Xβ − X0 y)

= σ3 =
2
σ3
(β 0 X0 X − y0 X) T 2 1 0
σ4 (σ − 3 T ε ε) (βbM L ,b
σM2
L)
− σb21 X0 X 1 0
   
0 − σb2 X X 0
ML (k×1) = ML (k×1) (4.13)
−2T

00 σ
T
4 (−2b
σM2 )
L 00 σ 2
(1×k) bM L (1×k) bM L
Figura 4.2: retta di regressione interpolante una nuvola di punti
4.5
4.4
4.3
4.2
4.1
3.9
3.8
3.7
1.4 1.6 1.8 2 2.2 2.4 2.6 2.8
È evidente che la matrice hessiana, calcolata in corrispondenza della stima di

massima verosimiglianza sia definita negativa.
4.2.3 Metodo dei minimi quadrati (OLS=ordinary least squares)

Supponiamo di avere T osservazioni relative ad una misura del consumo aggregato
yt e ad una misura del reddito disponibile x2t .di volere stimare una relazione di
regressione lineare del tipo:
yt = β1 + β2 x2t + εt , t = 1, 2, . . . , T.
Si veda la figura 4.2: ogni punto sul grafico rappresenta un’osservazione su yt e
x2t .
Il metodo di stima OLS consiste nel trovare una retta che interpoli la nuvola
di punti in modo tale da minimizzare la somma dei quadrati degli errori commessi
interpolando linearmente la nuvola di punti.
Supponiamo per esempio T = 4 osservazioni, in relazione a ciascuna di queste
osservazioni si definisce un errore di interpolazione:
y1 − (β1 + β2 x21 )
y2 − (β1 + β2 x22 )
y3 − (β1 + β2 x23 )
y4 − (β1 + β2 x24 )
La stima della relazione di regressione consiste nel trovare la configurazione

dei parametri β1 e β2 (intercetta e coefficiente angolare) che consenta di minimiz-
zare la somma dei quadrati degli errori di interpolazione:
T
X
min (yt − β1 − β2 x2t )2
β1 ,β2
t=1
In termini più generali, sulla base del MRL con k regressori:

k
X
yt = βi xit + εt , t = 1, 2, . . . , T
i=1
si minimizza la funzione obiettivo somma dei quadrati degli errori di interpolazio-

ne:
T
X
Q= (ε2t )
t=1
Q = (y − Xβ)0 (y − Xβ) = y0 y − β 0 X0 y − y0 Xβ + β 0 X0 Xβ
rispetto al vettore dei parametri β:
min (y − Xβ)0 (y − Xβ)

β
Ricaviamo le condizioni del primo ordine
∂Q
= [0] ⇒ −2X0 y + 2X0 Xβ = 0
∂β k×1
Da cui si ottiene facilmente:
β̂OLS = (X0 X)−1 X0 y (4.14)

Si noti che:
β̂OLS = β̂M L = β̂M M
Proprietà dello stimatore OLS

(a) Quando si hanno regressori non stocastici, lo stimatore OLS è non distorto.
Infatti:
h −1 i h −1 0 i
E(β̂) = E X0 X X0 y = E X0 X X (Xβ + ε) =
= β + (X0 X)−1 X0 E(ε) = β
Nel caso in cui abbiamo regressori stocastici, per conservare la proprietà di non
distorsione di βb occorre ipotizzare:
E(X0 ε) = 0
(b) La matrice di varianze e covarianze dello stimatore OLS è:

h −1 0 0 i
V ar(β̂) = E(β̂ − β)(β̂ − β)0 = E X0 X X εε X(X0 X)−1
A questo punto, ricordando le assunzioni sui termini di disturbo:
E(εt ) = 0, ∀t,
E(εt ετ ) = 0, ∀t 6= τ,
E(ε2t ) = σ 2 , ∀t
oppure in forma compatta:
E(ε) = 0,
E(εε0 ) = σ 2 IT
Quindi la matrice di varianze e covarianze dello stimatore OLS è:

b = (X0 X)−1 X0 σ 2 IT X(X0 X)−1 = σ 2 (X0 X)−1
V (β)
Notate che con l’ipotesi aggiuntiva:

1 0
lim (X X) = Q
T →∞ T (k×k)
dove Q è una matrice di rango pieno che può essere interpretata come matrice di
varianza e covarianza dei regressori, otteniamo:
0 −1
2 XX Q−1
lim V (β̂) = lim σ T = lim σ 2 = [0]
T →∞ T →∞ T T →∞ T
che equivale a dire che lo stimatore di minimi quadrati è consistente.
(c) lo stimatore OLS è il più efficiente nella classe degli stimatori lineari non
distorti (teorema di Gauss-Markov), se valgono le ipotesi canoniche sui termini di
disturbo (E(ε) = 0 e E(εε0 ) = σ 2 I).
Infatti, si consideri un qualsiasi stimatore lineare non distorto
β̃ = C y ,
(k×T )(T ×1)
E(β̃) = β = CXβ + CE(ε)
quindi la matrice C , perchè β̃ sia non distorto,deve soddisfare:
CX = Ik
e la matrice di varianze e covarianze di β̃ è:
V ar(β̃) =σ 2 CC0 (4.15)
Si definisca ora:
D = C − (X0 X)−1 X0
in modo tale che la (4.15) può essere riscritta come:
h ih i0
2 0 −1 0 −1
V ar(β̃) =σ D + (X X) D + (X X)
Si ricordi che:
CX = Ik = DX + (X0 X)−1 X0 X = DX + Ik
che implica:
DX = 0
e quindi possiamo scrivere la (??) come:
V ar(β̃) = σ 2 D0 D + σ 2 (X0 X)−1 = σ 2 DD0 + V ar(β̂OLS )
oppure:
V ar(β̃) − V ar(β̂OLS ) = σ 2 DD0
Quindi la differenza tra le due matrici di varianza e covarianze è σ 2 DD0 e D0 D è
definita positiva:
x0 D0 Dx > 0,∀ x 6= [0]
(k×1)
In questo modo si è dimostrato che lo stimatore OLS è più efficiente di qualunque

altro stimatore lineare non distorto.
4.2.4 Aspetti algebrici dello stimatore OLS

(1) Si considerino i residui dell’equazione stimata utilizzando lo stimatore OLS:
0
ε̂ = y − Xβ̂ = y − X(X X)−1 X0 y =
h i
= IT − X(X0 X)−1 X0 y = (4.16)
h i
= IT − X(X0 X)−1 X0 (Xβ + ε) =
= Xβ + ε − X(X0 X)−1 X0 Xβ − X(X0 X)−1 X0 Xε = (4.17)
h i
IT − X(X0 X)−1 X0 ε (4.18)
Notate che:
X0 ε̂ = X0 y − (X0 X)(X0 X)−1 X0 y = 0 (4.19)
L’espressione appena riportata vale sempre. In termini geometrici descrive l’orto-
gonalità dei residui OLS rispetto allo spazio coperto dalle colonne di X.
Se la regressione include una costante, la prima riga di X0 (colonna di X) sarà

una colonna di elementi pari a 1. Quindi, ricordando la (4.19) possiamo scrivere:
0 XT
u1k X0 ε̂ =L0 ε̂ = ε̂t = 0 (4.20)
t=1
dove u1k è il vettore estrazione di dimensione (k × 1) con primo elemento pari a 1:
u10

k = 1 0 ... ... 0
(1×k)
Notate che la (4.20) implica che in questo caso, quando cioè la regressione include
un termine di intercetta, i residui hanno media campionaria pari a zero.
(2) Calcoliamo il valore atteso del vettore dei residui facendo riferimento alla
(4.18):
E(ε̂) = IT − X(X0 X)−1 X0 E(ε) = 0
e quindi concludiamo che il valore atteso dei residui è nullo. La matrice di varianze
e covarianze dei residui è:
V ar(ε̂) = E(ε̂ε̂0 ) =

= IT − X(X0 X)−1 X0 E(εε0 ) IT − X(X0 X)−1 X0 =

= σ 2 IT − X(X0 X)−1 X0 (4.21)

dato che E(εε0 ) = σ 2 IT ,e σ 2 IT − X(X0 X)−1 X0 è matrice idempotente.
(3) Riprendendo le equazioni normali dei minimi quadrati:
0
(X0 X)β̂ − X y = 0
possiamo premoltiplicare per un idoneo vettore estrazione:
0 0
1
u1k X0 Xβ̂ = uk X0 y
Se la prima colonna di X è una colonna di 1, si ha:
0 0
i Xβ̂ = i y, (4.22)
(1×T ) (1×T )
0
i = 1 1 ... 1
e quindi, premoltiplicando entrambi i membri della (4.22) per T −1 , si ottiene:
x̄0 β̂ =ȳ (4.23)

(1×k)
Figura 4.3: retta di regressione stimata con termine di intercetta (punto

A=baricentro)
4.5
y A
valore di y
3.5
2.5 x2
2
0 0.5 1 1.5 2
valore di x2
dove:
T
 
T
 
 P  1
x
1  t=1 2t
 
1 x2 
x̄ = ( i0 X)0 = 
 
= ,
T  ...
T  ... 
 

 PT  xk
xkt
t=1
T
1 1 X
ȳ = ( i0 y) = yt .
T T
t=1
Si noti che x̄ è il vettore delle medie campionarie dei regressori e ȳ è la media cam-
pionaria della variabile dipendente. Quindi la relazione (4.23) indica che la retta di
regressione (iperpiano di regressione se k > 2) passa per il baricentro campionario,
cioè passa per il punto nello spazio k dimensionale con coordinate date dalle me-
die campionarie delle grandezze che appaiono nella relazione di regressione. Ciò
avviene solo se il MRL comprende un termine di intercetta.
Nel caso della regressione semplice:
yt = β1 + β2 x2t + εt , t = 1, 2 . . . , T
abbiamo:
ȳ = β̂1 + β̂2 x̄2
come evidenziato dal grafico 4.3.
4.2.5 Ricapitolazione sulla stima OLS dei parametri β

La stima OLS coincide con la stima di massima verosimiglianza (M L=maximum
likelihood) e quella che si ottiene grazie all’applicazione del metodo dei momenti
(M M ).La stima OLS non richiede alcuna assunzione sulla forma della distribuzio-
ne dei termini di disturbo.
4.2.6 Interpretazioni alternative della stima OLS di un MRL

Una prima possibile interpretazione della stima del MRL è nei termini di proiezio-
ne. Prendiamo i valori stimati y
b:
0
ŷ = Xβ̂ = X(X X)−1 X0 y (4.24)
È possibile definire la matrice X(X0 X)−1 X0 come la matrice di proiezione sullo

spazio coperto dalle colonne di X. Quindi y b è la proiezione di y sullo spazio
coperto dalle colonne di X e il vettore dei residui:
y = IT − X(X0 X)−1 X0 y

εb = y−b
dà la distanza di y dalla proiezione sullo spazio coperto dalle colonne di X. Fa-
cendo un esempio per il quale sia possibile dare una semplice rappresentazione
grafica, ipotizziamo un MRL con un solo regressore:
yt = β1 x1t + εt , t = 1, ..T
Immaginiamo di avere solo T = 2 osservazioni:

2 1
y= ,x =
4 1
È chiaro che:
β̂ = (x0 x)−1 x0 y =3

3
y
b = β̂x =
3

−1
ε̂ = y − y
b=
1
Vediamo quindi che y

b esprime la proiezione ortogonale di y sullo spazio co-
perto da x.
Figura 4.4: regressione stimata come proiezione ortogonale

7
5
y
4
^y
3
x
1
0 1 2 3 4 5 6 7 8 9
−1
^ε
−2
a) Un’altra interpretazione della stima OLS del MRL è la seguente. Supponia-

mo di avere:
y = Xβ + ε
dove la prima colonna di X è il termine di intercetta. Ricordando le equazioni
normali dei Minimi Quadrati:
0
(X0 X)β̂ = X y
possiamo scrivere:
1 10 1 10 0
uk X0 X β̂ =

u Xy⇒
T T k
1 0 1 0
i Xβ̂ = iy⇒
T T
x 0 β̂ = ȳ,
(1×k)
x̄0 =

1 x̄2 . . . x̄k
oppure in termini equivalenti:

k
X
β̂i x̄i = ȳ
i=1
con x̄1 = 1, e quindi:

k
X
β̂1 = ȳ− β̂i x̄ (4.25)
i=2
Utilizzando l’espressione (4.25) possiamo riscrivere il modello come:
Xk
ŷt − ȳ = β̂(xit − x̄i )
i=2
y∗ = X∗ β ∗ +ε∗ ,
 
y1 − y
 y2 − y 
y∗ =  ...
,

yT − y
 
(x21 − x̄2 ) ... (xk1 − x̄k )
(x22 − x̄2 ) ... (xk2 − x̄k ) 
X∗

=  =
[T ×(k−1)]  ... ... (xk3 − x̄k ) 
(x2T − x̄2 ) ... (xk4 − x̄k )

= x∗2 ... x∗k
(T ×1) (T ×1)
Si definisca allora:  
yt
 x2t 
zt =  
 ... 
(k×1)
xkt
e si ipotizzi che tutte le variabili siano distribuite normalmente:
zt ∼ N (µ, Σ),
 
µ1  0

 (1×1)  σ11 σ21
(1×k)
µ =  −−  , Σ =  ,
   
σ21 Σ22
µ2
 
(k×1) (k×k)
(k×1)
 
x2t
µ1 = E(yt ), µ2 = E  . . .  ,
xkt
0
σ11 = V ar(yt ), σ12 = Cov(yt [x2t . . . ..xkt ])
 
x2t
Σ22 = V ar . . . 

xkt
Notate che, per le proprietà della distribuzione normale, è possibile immediata-

mente ricavare la distribuzione di yt condizionata sui valori di xt :
(yt |x2t . . . xkt ) ∼ N (µ∗1 , σ11

∗
)
  
x2t
E(yt |x2t . . . xkt ) = µ∗1 = µ1 + σ12
0
Σ−1
22
 . . .  − µ2  ,
xkt
∗
V ar(yt |x2t . . . xkt ) = σ11 0
= σ11 − σ12 Σ−1
22 σ21
Se vogliamo stimare i momenti della distribuzione condizionale di yt , dati x2t . . . xkt ,

sulla base di T osservazioni disponibili su tutte le variabili, possiamo utilizzare gli
equivalenti campionari dei momenti della popolazione:
T
1 X 1
µ̂1 = ȳ, σ̂11 = (yt − ȳ)2 = y∗0 y∗ ,
T T
t=1
T
0 1 X
σ
b12 = (yt − ȳ) (x2t − x̄2 ) . . . . . . (xkt − x̄k ) =
T
t=1
1 ∗0 ∗ 1
= y X , Σ22 = X∗0 X∗
T T
Quindi la stima dei momenti della distribuzione condizionale di yt è:

   
x2t x̄2
b∗1 = ȳ + (y∗0 X∗ )(X∗0 X∗ )−1  . . .  −  . . . 
µ
xkt x̄k
e quindi:
h i
ŷt − ȳ = [(x2t − x̄2 ) . . . (xkt − x̄k )] (X∗0 X∗ )−1 X∗0 y∗ ,
b ∗ = X∗ β̂
y
e la stima della varianza condizionale di y è:

h i
∗ −1
σ
b11 = V ar(yt |x2t . . . xkt ) = y∗0 y∗ −y∗0 X∗ (X∗0 X∗ ) X∗0 y∗ =
h i
∗0 ∗ −1 ∗0
= y IT − X (X X ) X y∗
∗0 ∗
4.3 Stima del momento secondo (σ 2 )

Abbiamo visto che la scelta più naturale per la stima della varianza dei termini di
disturbo è data da:
2 1 0
σ̂M L = ε̂ ε̂
T
Tale stimatore deriva dalla massimizzazione della funzione di verosimiglianza.
Purtroppo questo stimatore è distorto. Infatti, applicando l’operatore valore atteso
abbiamo:
1
2
E(σM L) = E(ε0 Mε) = (nb: M = IT −X(X0 X)−1 X0 )
T
1
E(tr Mε0 ε =

= (nb: tr(ABC) = tr(BCA))
T
1 σ2
= tr(Mσ 2 IT ) = (tr [M])
T T
dove:
tr(M) = tr(IT ) − tr(X(X0 X)−1 X0 ) =

= T − tr((X0 X)−1 (X0 X)) =
= T − tr(Ik ) =
= T −k
e quindi:
2 T −k 2
E(σ̂M L) = σ
T
4.4. ANALISI DELLA VARIANZA 101
T −k
Quindi questo stimatore è distorto ma consistente, dato che T tende a 1 al
crescere di T . Si noti che lo stimatore
1
2
σ̂OLS = ε̂0 ε̂
T −k
è chiaramente non distorto. Quindi:
2 1 0
σ̂M L = ε̂ ε̂ distorto ma consistente
T
1
2
σ̂OLS = ε̂0 ε̂ non distorto e consistente
T −k
2
Il denominatore di σ̂OLS , cioè la grandezza T −k, viene chiamata numero dei gradi
di libertà della regressione.
4.4 Analisi della varianza

Quanto della variabilità di y è spiegata dalla retta (iperpiano) di regressione?
y0 y = T SS Total Sum of Squares

0
= (Xβ̂ + ε̂) (Xβ̂ + ε̂) =
0 0
= β̂ 0 X0 Xβ̂ + β̂ X0 ε̂ + ε̂0 Xβ̂ + ε̂ ε̂
Ricordando che:
X0 ε̂ = 0
otteniamo:
0
y0 y = β̂ 0 X0 Xβ̂ + ε̂ ε̂ ⇒
T SS = ESS + RSS (4.26)
dove:
ESS = β̂ 0 X0 Xβ̂ =Explained Sum of Squares =

= somma dei quadrati “spiegata”
RSS = ε̂0 ε̂ =Residual Sum of Squares=
= somma dei quadrati dei residui
Quanto più alto è ESS rispetto a T SS, tanto migliore è la spiegazione della varia-
bilità di y fornita dalla regressione. Possiamo definire un indice basato sulla scom-
posizione (4.26). Questo indice, chiamato RU 2
C = indice di bontà di adattamento è
definito come:
2 ESS RSS
RU C = =1−
T SS T SS
Questo indice viene definito “non centrato” (uncentered), dato che indica quanto
della variabilità complessiva di y, misurata come somma dei quadrati dei valori
di y, viene spiegata dalla relazione di regressione. Quando il MRL ha un termine
di intercetta (ad esempio x1t = 1, ∀t),una misura alternativa di adattamento si ha
scrivendo il MRL nei termini seguenti:
y∗ =. X∗ β∗ + u
(T ×1) (T ×(k−1))((k−1)×1) (T ×1)
dove y∗ e X∗ raccolgono le deviazioni dalla rispettiva media di colonna (cam-

pionarie) e β ∗ comprende tutti i parametri escluso quello associato al termine di
2 “centrato” (centered):
intercetta. È possibile definire un indice RC
2 ESS β̂ ∗0 X∗0 X∗ β̂ ∗
RC = =
T SS y∗0 y∗
In questo modo si ottiene un indice di bontà di adattamento, sempre compre-
so tra 0 e 1, che indica quanto della variabilità complessiva di y, misurata come
somma dei quadrati delle deviazioni dei valori di yt dalla media campionaria, vie-
ne spiegata dalla relazione di regressione in base alla variabilità campionaria dei
regressori diversi dal termine di intercetta.
4.5 Regressione partizionata

Il contenuto di questa sottosezione è rilevante per l’interpretazione dei coefficienti
stimati di un MRL.
Si immagini di avere un MRL del tipo:
y = X β + ε
(T ×1) (T ×k)(k×1) (T ×1)
Immaginiamo di partizionare la matrice X e il vettore β nei termini seguenti:

X = X1 X2

β1
β=
β2
dove gli oggetti definiti hanno le seguenti dimensioni:
X1 , X2 , β1 , β1 , k1 + k2 = k
(T ×k1 ) (T ×k2 ) (k1 ×1) (k1 ×1)
Ora, applichiamo la partizione appena descritta alle equazioni normali dei MQ:
X0 Xβ̂ = X0 y ⇒
X01 X1 X01 X2
0
β̂1 X1 y
= (4.27)
X02 X1 X02 X2 β̂2 X02 y
4.6. ANTICIPAZIONE SU TEST CONGIUNTI 103
È possibile risolvere il primo blocco delle equazioni (4.27) rispetto a βb1 :

h i
β̂1 = (X01 X1 )−1 y − X2 β̂2 (1◦ blocco)
Sostituendo questa soluzione nel secondo blocco di (4.27) si ottiene:
X02 X1 (X01 X1 )−1 X01 (y − X2 β̂2 ) + (X02 X2 β̂2 ) = X02 y.
Ora posso raccogliere tra loro i termini dove appare β̂2 e portare gli altri a sinistra,
ottenendo:
h i
X02 IT − X1 (X01 X1 )−1 X2 β̂2 = X02 y − X02 X1 (X01 X1 )−1 X01 y ⇒
h i h i
X02 IT − X1 (X01 X1 )−1 X2 β̂2 = X02 IT −X1 (X01 X1 )−1 X01 y (4.28)
La matrice:
IT −X1 (X01 X1 )−1 X01 = M1
è chiaramente simmetrica e idempotente. Per cui posso scrivere la (4.28) come:
X02 M1 β̂2 = X02 M1 y
Definendo:
M1 X2 = X∗2 residui della regressione di X2 su X1

∗
M1 y = y residui della regressione di y su X1
si può scrivere la (4.28) come:
β̂2 = (X∗0 ∗ −1 ∗0 ∗
2 X2 ) X2 y (4.29)
Quindi, la stima di β̂2 è equivalente a quella che si otterrebbe regredendo prelimi-

narmente X2 e y dall’effetto di X1 tramite regressioni preliminari. I coefficienti di
regressione stimati hanno quindi il significato di vere e proprie derivate parziali.
4.6 Anticipazione su test congiunti

Facciamo riferimento ad un MRL dove il primo dei regressori è un termine di
intercetta:
y = Xβ + ε
oppure nella sua formulazione alternativa
y∗ = X∗ β ∗ +u
dove siano rispettate le ipotesi sui termini di disturbo:
ε ∼ N (0, σ 2 IT )
Quando è vera la seguente ipotesi nulla:
H0 : β2 = β3 = . . . = βk = 0
(quando cioè il comportamento di y non è influenzato dai regressori diversi dal

termine di intercetta), è possibile descrivere la distribuzione di RSS quando sia
diviso per σ 2 (varianza teorica dei termini di disturbo):
RSS ε0 ε
2
= (IT −X1 (X01 X1 )−1 X01 ) ∼ χ2T −1 (4.30)
σ σ σ
Nello stesso modo, quando è vera H0 abbiamo:
ESS 1
= 2 βb∗0 X∗0 X∗ βb ∼ χ2k−1 (4.31)
σ2 σ
con ESS
σ2
indipendente da RSS σ2
. Sulla base di tutto ciò possiamo definire una gran-
dezza costruita come rapporto tra (4.30) e (4.31), ognuna divisa per il proprio nu-
mero di gradi di libertà, ed in questo modo ottenere una grandezza distribuita come
una variabile casuale F di Fisher:
ESS/(k − 1) Rc2 /(k − 1)

= ∼ Fk−1,T −k (4.32)
RSS/(T − k) (1 − Rc2 )/(T − k)
che può essere utilizzata per provare l’ipotesi:
H0 : β2 = β3 = . . . = βk = 0 (4.33)
H1 : β2 6= β3 6= . . . 6= βk 6= 0
Notate che l’ipotesi (4.33) è l’ipotesi che la regressione non abbia alcun potere
esplicativo, ed è evidente che il test F utilizzato sia ovviamente una funzione cre-
scente dell’indice Rc2 : quando la regressione ha basso potere esplicativo (basso
Rc2 ), il test F calcolato sarà vicino a zero, mentre quando l’indice calcolato è vicino
a 1, allora il valore calcolato per il test F tende ad essere molto grande.
4.7 Inferenza statistica sul modello di regressione

4.7.1 Costruzione di intervalli di confidenza
Se sono valide le ipotesi sui termini di disturbo che sintetizziamo in questo modo:
ε ∼ N (0, σ 2 IT )
è facile mostrare che:
β̂ ∼ N (β, σ 2 Q) (4.34)
0 −1
Q = (X X)
4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 105
Figura 4.5: distribuzione per la stima di β, opportunamente standardizzata, e

relativi quantili corrispondenti a α/2. (Nella figura T − k = 20, α = 0.05)
0.4
0.35
0.3
0.25
0.2
0.15
0.1
t(α/2)
0.05 −t(α/2)
0
−4 −3 −2 −1 0 1 2 3 4
quando X sia non stocastico, (o condizionatamente rispetto a X). Questo risultato

di normalità è immediato dato che β̂ è ottenuto come k combinazioni lineari della
variabile casuale T −dimensionale ε distribuita normalmente:
0
β̂ = (X X)−1 X0 y = β + (X0 X)−1 X0 ε
Sulla base di questo risultato possiamo scrivere:
β̂i − βi
√ ∼ N (0, 1), qii = elemento diagonale i-esimo di Q
σ qii
Sappiamo pure che:
RSS
∼ χ2T −k
σ2
e che è indipendente dalla distribuzione di β.
b In termini equivalenti:
σ̂ 2
∼ χ2T −k
(T − k)
σ2
Quindi posso costruire una variabile casuale distribuita come una t di Student con
T − k gradi di libertà
β̂i − βi
σ(q )1/2 β̂i − βi
s ii = ∼ tT −k (4.35)
2
(T − k) σ̂σ2 σ̂qii 1/2
T −k
e, utilizzando questo risultato distributivo, è possibile ricorrere ai valori tabulati

dei quantili della distribuzione t di Student con T − k gradi di libertà per definire
intervalli che soddisfano:
( )
β̂i − βi
p −t(α/2) ≤ ≤ −t(α/2) = 1 − α (4.36)
σ̂(qii )1/2
come si evince dalla figura 4.5.

Notate che in questo modo è possibile definire l’intervallo fiduciario per βi
centrato intorno alla sua stima puntuale e associato ad un livello fiduciario pari ad
α: n √ √ o
P β̂i − t(α/2) [σ̂ qii ] ≤ βi ≤ β̂i + t(α/2) [σ̂ qii ] = 1 − α
√ √
I termini β̂i − t(α/2) σ̂ qii e β̂i + t(α/2) σ̂ qii costituiscono quindi gli estremi
di tale intervallo fiduciario.
4.7.2 Prova delle ipotesi

Supponiamo che vi sia interesse per la verifica dell’ipotesi semplice che riguarda
il parametro βi :
H0 : βi = β0i
H1 : βi 6= β0i (4.37)
dove per β0i si intende un determinato valore. Ad esempio, se β0i = 0, l’ipotesi

nulla contempla la mancanza di potere esplicativo di xit su yt . Si noti che la (4.37)
definisce un’ipotesi alternativa bilaterale.
Fissando la probabilità dell’errore di prima specie:
pr(rifiuto H0 | H0 vero) = α
possiamo utilizzare il risultato distributivo (4.35) per definire il criterio che defi-
nisce la regione di accettazione e la regione di rifiuto di H0 (si veda la figura 4.6)
basato sulla probabilità dell’errore di prima specie scelto:
( )
β̂i − β0i
p −t(α/2) > > t(α/2 ) = α
σ̂qii 1/2
Come si evince dalla figura, il test da utilizzare è a due code e si sostanzia nel
seguente criterio decisionale: si calcoli:
β̂i − β0i
σ̂qii 1/2
Se tale valore è compreso tra −t(α/2) e t(α/2) , si accetta H0 , altrimenti si rifiuta
H0 . Notate che esiste una dualità interpretativa tra costruzione dell’intervallo di
Figura 4.6: test a due code per verificare H0 : β0 = 0, contro H0 : β0 6= 0

0.4
0.35
0.3
0.25
0.2
0.15
0.1
probabilità pari a probabilità pari a
α /2 α /2
0.05
0
−4 −3 −2 −1 0 1 2 3 4
se il valore calcolato del test cade in questo
intervallo, accetto l’ipotesi nulla
confidenza e prova delle ipotesi: se il test conduce all’accettazione di H0 , allora

l’intervallo fiduciario corrispondente ad un livello fiduciario pari a 1 − α conterrà
il valore puntuale βio ipotizzato vero sotto H0 , e viceversa.
Supponiamo ora che l’ipotesi alternativa H1 sia ora unilaterale, ad esempio:
H1 : βi > β0i .
Fissando la probabilità dell’errore di prima specie:
pr(rifiuto H0 | H0 vero) = α
possiamo utilizzare il risultato distributivo (4.35) per definire il criterio che defi-
nisce la regione di accettazione e la regione di rifiuto di H0 (si veda la figura 4.7)
basato sulla probabilità dell’errore di prima specie scelto:
( )
β̂i − β0i
p > t(α ) = α
σ̂qii 1/2
Come si evince dalla figura, il test da utilizzare è a una coda e si sostanzia nel
seguente criterio decisionale: si calcoli:
β̂i − β0i
σ̂qii 1/2
Figura 4.7: test a una coda per verificare H0 : β0 = 0, contro H0 : β0 > 0

0.4
0.35
0.3
0.25
0.2
0.15
0.1
probabilità pari a
α
0.05
0
−4 −3 −2 −1 0 1 2 3 4
se il valore calcolato del test cade nell’intervallo
a sinistra del quantile, accetto l’ipotesi nulla
Se tale valore è minore di t(α/2) , si accetta H0 , altrimenti si rifiuta H0 . Lasciamo

trovare al lettore, come semplice esercizio, la regione critica corrispondente al test
che verifica H0 contro:
H1 : βi < β0i .
Un esempio
Supponiamo che in relazione ad un MRL stimato si abbia:
βbi = 0.05,
p
b2 · qii = 0.02,
σ
T = 66, k = 6
e supponiamo di voler verificare:
H0 : βi = 0 contro
H1 : βi 6= 0
con probabilità dell’errore di prima α = 5%.

Dalle tavole della distribuzione t di Student con T − k = 60 gradi di libertà, si
trova il quantile:
tα/2 = 2.00
L’intervallo di confidenza al 95% è dato da:

1/2 1/2
[β̂i − tα/2 σ̂qii , β̂i − tα/2 σ̂qii ] =
[0.05 − 2.00 · 0.02, 0.05 + 2.00 · 0.02] = [0.01, 0.09]
Il valore calcolato del test è:
β̂i 0.05
1/2
= = 2.5
σ̂qii 0.02
che confrontato con il valore critico tα/2 = 2.00 conduce a rifiutare H0 .Se avessi-
mo come ipotesi alternativa:
H1 : βi > 0
scegliendo come probabilità di errore di prima specie α = 0.05, il quantile rilevante
della distribuzione è:
tα = 1.671
Dato che il valore calcolato del test (2.5) è maggiore di tα anche il test ad una coda
comporta il rifiuto di H0 .
4.7.3 Un utile esempio: il MRL con 3 regressori

Supponiamo di avere il seguente MRL:
yt = β1 + β2 x2t + β2 x3t + εt , t = 1, 2, . . . , T
x1t = 1, ∀t.
y = X β +ε,
(T ×3)(3×1)
   
1 x21 x31 β1
X =  ... ... . . .  , β =  β2 
1 x2T x3T β3
In questo caso abbiamo quindi 3 regressori, di cui uno è il termine di intercetta.

Consideriamo ora le equazioni normali dei minimi quadrati:
0
X0 Xβ̂ = X y
Possiamo utilizzare anche un’altra notazione. Definiamo la somma dei quadrati
degli errori come:
XT
Q= (yt − β1 − β2 x2t − β3 x3t )2
t=1
Differenziando rispetto ai parametri β1 , β2 , β3 otteniamo:

T T T
∂Q 1 X 1 X 1 X
= 0 ⇒ βb1 = yt − β̂2 x2t − β̂3 x3t
∂β1 T T T
t=1 t=1 t=1
⇒ βb1 = ȳ − x̄2 β̂2 − x̄3 β̂3 (prima equazione dei MQ)
dove:
T
1 X
ȳ = yt media campionaria di y
T
t=1
T
1 X
x̄2 = x2t media campionaria di x2
T
t=1
T
1 X
x̄3 = x3t media campionaria di x3
T
t=1
T T T T
∂Q X X X X
=0⇒ x2t yt = βb1 x2t + β̂2 x22t + β̂3 x2t x3t
∂β2
t=1 t=1 t=1 t=1
Nella relazione precedente, sostituiamo l’espressione per βb1 :

T T
! !
X X
2 2
x2t yt − T ȳx̄2 = β̂2 x2t − T x̄2 +
t=1 t=1
T
!
X
+β̂3 x2t x3t − T x̄2 x̄3
t=1
cioè:
S2y = β̂2 S22 + β̂3 S23 2a equazione dei M Q
dove:
T
X
S2y = x2t yt − T ȳx̄2 (T volte la covarianza campionaria tra y e x2 )
t=1
XT
S22 = x22t − T x̄22 (T volte la varianza campionaria di x2 )
t=1
T
X
S23 = x2t x3t − T x̄2 x̄3 (T volte la covarianza campionaria tra x2 e x3 )
t=1
Differenziando Q rispetto a β̂3 (e sostituendo βb1 ) otteniamo:

∂Q
= 0 ⇒ S3y = β̂2 S23 + β̂3 S33 3a equazione dei M Q
∂ β̂3
con:
XT
S3y = x3t yt − T x̄3 ȳ
t=1
Ora, è possibile risolvere la 2◦ e la 3◦ equazione dei M Q per ottenere:

S33 S2y − S23 S3y
β̂2 =
∆
S23 S3y − S23 S2y
β̂3 = ,
∆
2
∆ = S22 S33 − S23
e infine si ottiene anche un espressione per il coefficiente di intercetta stimato:
βb1 = ȳ − β̂2 x̄2 − β̂3 x̄3
Le soluzioni cosı̀ ricavate per gli stimatori OLS di β1 , β2 , β3 sono del tutto equiva-
lenti a quelli ottenuti facendo riferimento alla usuale notazione matriciale:
β̂ = (X0 X)−1 X0 y
(3×1)
Si noti che:
XT
T SS = Syy = (yt − ȳ)2 = y∗0 y∗ ,
t=1
ESS = β̂2 S2y + β̂3 S3y = β̂ ∗0 X∗0 y∗ =
= β̂ ∗0 X∗0 X∗ β̂ ∗ ,

β1
β∗ =
β2
dato che:
∗
X∗0 y∗ = X∗0 (X∗ β̂ +ε̂),
X∗0 ε̂ = 0
A questo punto possiamo scrivere la somma dei quadrati dei residui della regres-
sione stimata come:
∗
RSS = Syy − β̂2 S2y − β̂3 S3y = y∗0 y∗ −β̂ X∗0 X∗ β̂ ∗ = ε̂0 ε̂
e l’indice R2 come:
ESS β̂2 S2y + β̂3 S3y

R2 = = (coefficiente di determinazione multipla).
T SS Syy
mentre l’indice R è detto anche coefficiente di correlazione multipla.

4.7.4 Inferenza statistica nel modello di regressione multipla

Si ricordi che, sotto le ipotesi canoniche sui termini di disturbo, compresa l’ipotesi
di normalità, abbiamo che:
β̂ ∼ N β, σ 2 (X0 X)−1

Si consideri ora il modello di regressione con:

yt = β1 + β2 x2t + β3 x3t + εt , t = 1, 2, .., T
y = X β +ε
(T ×3)(3×1)
oppure:
y∗ = X∗ β ∗ +u,

∗ β2
β =
β3
e quindi avremo:
β̂ ∗ ∼ N β ∗ , σ 2 (X∗0 X∗ )−1

−1
∗0 ∗ −1 S22 S23 1 S22 −S23
X X = = ,
2 −S23 S33

S22 S33 S23 S33 1 − r23
2
S23
2
r23 = (coefficiente di correlazione campionario tra x2 e x3 )
S22 S33
Quindi possiamo scrivere le varianze e covarianze dei singoli coefficienti stimati
come:
σ2
V ar(β̂2 ) = 2 ), (4.38)
S22 (1 − r23
σ2
V ar(β̂3 ) = 2 ), (4.39)
S33 (1 − r23
σ 2 r23
2
Cov(β̂2 , β̂3 ) = 2 ), (4.40)
S23 (1 − r23
σ2
V ar(βb1 ) = + x̄22 V ar(β̂2 ) + 2x̄2 x̄3 Cov(β̂2 , β̂3 ) +
T
+x̄23 V ar(β̂3 ) (4.41)
Le seguenti considerazioni sembrano degne di nota:
2 .
1. Si noti che le varianze di β̂2 e β̂3 crescono al crescere di r23
2. La variabile casuale:
RSS
∼ χ2(T −3)
σ2
può essere utilizzata per costruire intervalli di confidenza per σ 2 .
Figura 4.8: intervallo fiduciario per β2 e β3
β3
stima puntuale di β3
intervallo fiduciario
per β2 e β3
stima puntuale di
β2
β2
3. Standardizzando opportunamente gli stimatori dei singoli parametri otte-

niamo variabili casuali distribuite come t di Student con T − 3 gradi di
libertà:
βb1 − β1
1/2
∼ t(T −3)
σ̂q11
βb2 − β2
1/2
∼ t(T −3)
σ̂q22
β̂3 − β3
1/2
∼ t(T −3)
σ̂q33
Questi risultati distributivi possono essere utilizzati per costruire intervalli di
confidenza per β1 , β2 e β3 .
4. La variabile casuale:
1
F = [S22 (βb2 − β2 )2 + 2S23 (βb2 − β2 )(βb3 − β3 ) +
2σ̂ 2
S33 (βb3 − β3 )2 ] (4.42)
si distribuisce come una variabile casuale F di Fisher:
F ∼ F2,(T −3)
Questo risultato distributivo può essere utilizzato come riferimento per co-
struire intervalli di confidenza per β2 e β3 . Ad esempio, facendo riferimento
alla Figura 4.8, possiamo definire un’ellisse, che corrisponde ad una curva
di livello delle funzioni di densità F2,(T −3) tale per cui i punti ricompresi
nell’ellisse definiscono un intervallo con massa di probabilità = 1 − α (ad
esempio = 0.95), cioè:
Z Z
f (β1 , β2 )dβ1 dβ2 = 0.95
β1 ,β2 ∈A
Alternativamente, la grandezza F definita nella (4.42) può essere utilizzata per

verificare l’ipotesi nulla:
H0 : β1 = β2 = 0
contro:
H1 : β1 e/o β2 6= 0
In tal caso la grandezza F viene calcolata in corrispondenza di H0 :
ESS/2
F = =
RSS/(T − 3)
1 h 2 2
i
= S 22 (β̂2 ) + 2S 23 β̂2 β̂3 + S 33 (β̂3 )
2σ̂ 2
In questo caso l’esame della tavola per la distribuzione F2,T −2 fornisce il valore
critico di riferimento alla probabilità dell’errore di prima specie scelta.
4.7.5 Esempio di regressione multipla con k = 3 regressori

Immaginiamo di avere una funzione di produzione specificata in logaritmi:
yt = β1 + β2 x2t + β3x3t + εt , t = 1, 2, . . . , T
dove:
y = log(prodotto)
x2 = log(lavoro)
x3 = log(k)
Abbiamo dati relativi a 23 imprese (T = 23) che possono essere riassunti come
segue:  
x̄2 = 10 x̄3 = 5 ȳ = 12
 S22 = 12 S23 = 8 S33 = 12 
S2y = 10 S3y = 8 Syy = 10
1. Calcolare β̂1 , β̂2 , β̂3 e le stime dei rispettivi errori standard.

2. Trovare gli intervalli di confidenza al 95% per β1 , β2 , β3 ,e provare le ipotesi
separate β2 = 0 e β3 = 0 (con livello di confidenza pari a 95% e probabilità
dell’errore di prima specie al 5%)
3. Trovare la regione di confidenza al 95% per β2 e β3

4. Verificare l’ipotesi (con probabilità d’errore di prima specie al 5%):
H0 : β2 = 1, β3 = 0
Soluzioni:
1. equazioni normali:
β̂1 = ȳ − β̂2 x̄2 − β̂3 x̄3
S22 β̂2 + S23 β̂3 = S2y
S23 β̂2 + S33 β̂3 = S3y
β̂1 = 4
β̂2 = 0.7
β̂3 = 0.2
ESS β̂2 S2y + β̂3 S3y

Rc2 = = = 0.86
T SS Syy
da cui
RSS = Syy (1 − Rc2 ) = 1.4

RSS
b2 =
σ = 0.07
(T − 3)
2
S23 64
2
r12 = = = 0.4444
S22 S33 144
da cui (applicando le formule (4.41-??)):
3 2
V ar(β̂2 ) = σ
20
3 2
V ar(β̂3 ) = σ
20
−σ 2
Cov(β̂2 , β̂3 ) =
10
V ar(β̂1 ) = 8.7935σ 2 (varianze e covarianze teoriche)
Sostituisci ora σ 2 con σ̂ 2 (stima della varianza di εt ) e prendi le redici

quadrate delle varianze stimate cioè gli errori standard stimati
q
V̂ (β̂2 ) = SE(β̂2 ) = 0.102
q
V̂ (β̂3 ) = SE(β̂3 ) = 0.102
q
V̂ (β̂1 ) = SE(β̂1 ) = 0.78
L’equazione di regressione stimata diventa (errori standard in parentesi sotto

i coefficienti stimati):
ŷt = 4 + 0.7 x2t + 0.2 x3t

(0.78) (0.102) (0.102)
2
σ̂ = 0.07
2
R = 0.86
2. Per costruire intervalli di confidenza
β̂i − βi
∼ t(T −k) , i = 1, 2, 3
SE(β̂i )
Nel nostro caso (con α = 0.05, T = 23, k = 3), la distribuzione di riferi-

mento è una t di Student con 20 gradi di libertà e quindi t(α/2) = t(0.025) =
2.086. Pertanto gli intervalli di confidenza sono ottenuti come:
βb1 ± SE(βb1 ) · 2.086 = [2.37, 5.63]

β̂2 ± SE(β̂2 ) · 2.086 = [0.49, 0.91]
β̂3 ± SE(β̂3 ) · 2.086 = [−0.01, 0.41]
I test delle ipotesi:
H0 : βi = 0
H1 : βi 6= 0, i = 2, 3 con α = 5%
sono ottenuti facendo riferimento a:
β̂i − βi0
∼ t20 ,
SE(β̂i )
βi0 = 0, i = 2, 3
La regione di accettazione di H0 è ovviamente definita dall’intervallo:
[−t(α/2) , t(α/2) ] = [−t(0.025 , t(0.025) ] = [−2.086, 2.086]
I valori calcolati di tali test sono:
β̂2 − 0 0.7
= = 6.9 ⇒ Rifiuto H0
SE(β̂2 ) 1.02
β̂3 − 0 0.2
= = 1.9 ⇒ Accetto H0
SE(β̂3 ) 1.02
4.8. LA PREVISIONE 117
3. Costruisci:
(βb∗ − β ∗ )0 X∗0 X∗ (βb∗ − β ∗ )/(k − 1)

∼ Fk−1,T −k
RSS/(T − k)
cioe:
h i
S22 (β̂2 − β2 )2 + 2S23 (β̂2 − β2 )(β̂3 − β3 ) + S33 (β̂3 − β3 ) ≤ 3.49(2σ 2 ) ⇒
12(0.7 − β2 )2 + 16(0.7 − β2 )(0.2 − β3 ) + 12(0.2 − β3 )2 ≤ 3.49(2 · 0.07) ⇒

4
(β2 − 0.7)2 + (β2 − 0.7)(β3 − 0.2) + (β3 − 0.2)2 ≤ 0.041
3
che definisce la superficie delimitata da un’ellisse centrata sul punto:

∗ 0.7
β =
b
0.2
4. Per la verifica dell’ipotesi congiunta:
H0 : β2 = 1, β3 = 0 contro
H1 : β2 6= 1, e/o β3 6= 0
si costruisce il test F :
1 h 2 2
i
F = S 22 β̂2 + 2S 23 β̂2 β̂3 + S 33 β̂3 = 4.3
2σ 2
Consultando la tavola della distribuzione F2,20 si ottiene che il valore critico
al 5% è:
f (0.05) = 3.49
che confrontato con il valore calcolato del test (4.3) comporta il rifiuto di
H0 .
4.8 La previsione
Supponiamo di avere un MRL stimato del tipo
ŷ = Xβ̂
Immaginiamo che le osservazioni (t = 1, . . . , T ) sulle quali si basa la stima del

modello siano riferite a diversi istanti temporali, da un inizio del campione nel pas-
sato (t = 1) ad un istante che corrisponde al presente (t = T , fine del campione).
È possibile utilizzare il MRL stimato per prevedere l’andamento futuro di y :
ŷT +1 =x0T +1 β̂ previsione un passo in avanti

(1×k)
Ovviamente, per poter utilizzare il modello a fini estrapolativi, occorre poter for-
mulare un’ipotesi relativa al valore futuro dei regressori. Tale ipotesi si chiama
scenario della previsione:
x0T +1 = x1,T +1 . . . xk,T +1

L’attività di previsione comporta necessariamente che vengano compiuti degli er-

rori. Ipotizzando che non esista incertezza sullo scenario (cioè si ipotizza che
xT +1 sia conosciuto con certezza), l’errore di previsione viene definito come:
εbT +1|T = yT +1 − ŷT +1 = x0T +1 β + εT +1 − x0T +1 β̂ =

= x0T +1 (β − β̂) + εT +1
Notate che l’errore di previsione ha due componenti: la prima componente legata

al fatto che β non è conosciuto e deve essere stimato (x0T +1 (β − β̂)), e la seconda
componente che è invece connessa alla presenza di un termine di disturbo stoca-
stico ed imprevedibile (εT +1 ). L’errore di previsione ha comunque valore atteso
nullo (se la stima dei parametri è non distorta):
E(yT +1 − ŷT +1 ) = x0T +1 E(β − β̂) + E(εT +1 )
e la varianza dell’errore di previsione è data da:
εT +1|T ) = x0T +1 V ar(β̂)xT +1 + σ 2 =

V ar(b
= σ 2 1 + x0T +1 (X0 X)−1 xT +1

Ad esempio, consideriamo il MRL semplice:
yt = β1 + β2 x2t + εt , t = 1, 2, . . . T
possiamo scrivere la varianza dell’errore di previsione come:
εT +1|T ) = σT2 +1|T = V ar(yT +1 − ŷT +1 ) =

V ar(b
(x2T +1 − x̄2 )2

2 1
= σ 1+ + ,
T Sxx
T
X T
X
Sxx = (x2t − x2 )2 , x2 = x2t
t=1 t=1
Si noti che l’errore di previsione εbT +1|T = yT +1 −ŷT +1 = x0T +1 (β−β̂) è una com-
binazione lineare di variabili casuali normali (εT +1 , β − β̂) se i termini di disturbo
sono normali, per cui avrà una distribuzione normale e quindi posso scrivere:
yT +1 − ŷT +1
∼ tT −k ,
σ
bT +1|T
bT2 +1|T b2 1 + x0T +1 (X0 X)−1 xT +1

σ = σ (4.43)
4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM 119
Figura 4.9:
previsione puntuale e interv. fiduciario
previsione
7 puntuale
6 estremo fiduciario
superiore
5
4
media camp. estremo fiduciario
di x2 inferiore
3
2
0 1 2 3 4 5 6 7
valore dello scenario
Sulla base di questo risultato distributivo è possibile costruire un intervallo

fiduciario intorno alla previsione puntuale. Nel caso della regressione semplice,
abbiamo un intervallo fiduciario ad un livello fiduciario pari a 1 − α definito nel
modo seguente:
[ŷT +1 ± t(α/2) · σ
bT +1|T ]
Quindi notiamo che, a parità di ogni altra circostanza, quanto più mi allontano
dalla media campionaria x2 , tanto più la previsione di yT +1 diventa incerta: è
accompagnata da un intervallo fiduciario la cui ampiezza cresce con il crescere di
x2T +1 da x2 . Si veda a questo proposito la Figura 4.9.
4.9 Diversi modi di costruire Test: Test LR, di Wald, LM

4.9.1 Il test LR
Il primo test che descriviamo viene chiamato LR (rapporto delle verosimiglianze =
likelihood ratio). Questo test ha validità in grandi campioni ed è basato sulla stima
di massima verosimiglianza. Si immagini di voler provare l’ipotesi che i parametri
del modello soddisfino un certo insieme di restrizioni. Si definisca θ il vettore di
parametri del modello (nel MRL θ = [β 0 σ 2 ]0 ) e chiamiamo:
massimo di L sotto le restrizioni

λ = =
massimo di L non vincolato
L(θ̂R )
= (R = restricted, U R = un − restricted)
L(θ̂U R )
È possibile mostrare che:

(a)
φLR = −2 log λ ∼ χ2q (4.44)
H0
cioè che la distribuzione asintotica di −2 log λ sotto H0 è χ2q dove q = numero di

restrizioni imposte sul modello vincolato. Ad esempio, consideriamo il MRL:
y = X β + ε = X1 β1 + X2 β2 + ε
(T ×k) (T ×k1 ) (T ×k2 )
per il quale supponiamo siano verificate le seguenti ipotesi sui termini di disturbo:
ε ∼ N (0, σ 2 IT )
Immaginiamo di avere come ipotesi nulla:
H0 : β2 = 0 (k2 vincoli di uguaglianza a zero)
La stima del modello non vincolato tramite massima verosimiglianza è:
β̂ = (X0 X)−1 X0 y,
1 0
b2 =
σ εb εb
T
In corrispondenza di tale valore, la funzione di verosimiglianza assume il valore:
T T
1 1 1 T
2
L(β̂, σ̂ ) = √ exp − 2 ε̂0 ε̂ = √ exp −
2πσ̂ 2σ̂ 2πσ̂ 2
La stima del modello vincolato è invece basata su di una formulazione del MRL
sulla quale sono stati imposti i vincoli che caratterizzano H0 :
y = X1 β1 +εR
i cui parametri stimati sono:
(X01 X1 )−1 X01 y

" #
β̂R = 0 ,
(k2 ×1)
2 1 0
σ
bR = εb εbR
T R
e il valore della verosimiglianza calcolato in corrispondenza di questo massimo

vincolato è:
T
2 1 1 0
L(β̂R , σ̂R ) = √ exp − 2 ε̂R ε̂R =
2πσ̂R 2σ̂R
T
1 T
= √ exp −
2πσ̂R 2
Quindi posso costruire la variabile casuale definita dalla (4.44) come:

2
σ̂R
L(θ̂R )
φLR = −2 log = T log( ) = T [log RRSS − log U RSS]
L(θ̂U R ) σ̂ 2
dato che:
1 0 U RSS
σ̂ 2 = εb εb =
T T
2 1 0 RRSS
σ̂R = εb εbR =
T R T
U RSS = somma dei quadrati dei residui
del modello U R (non vincolato,unrestricted)
RRSS = somma dei quadrati dei residui
del modello R(vincolato,restricted)
Il modo in cui è costruito il test implica che sia necessario stimare separatamente
il modello vincolato ed il modello non vincolato.
4.9.2 Il test di Wald

Supponiamo che le consuete ipotesi sul MRL abbiamo condotto ad ottenere la
stima dei parametri del primo ordine che ha la seguente proprietà:
β̂ ∼ N (β, σ 2 (X0 X)−1 )
Immaginiamo di voler provare l’ipotesi:
H0 : β2 = 0
H1 : β2 6= 0
dove β2 è un sottoinsieme di β. Si consideri la stima di β̂2 (ottenuta sulla base

del modello di partenza non vincolato, vale a dire su cui non sono stati imposti i
vincoli che caratterizzano H0 ) e si definisca:

0 −1 Q11 Q12
(X X) = [Q] =
Q21 Q22
Grazie alle proprietà della distribuzione gaussiana, sappiamo che:
β̂2 −β 2 ∼ N (0, σ 2 Q22 ) (4.45)
Definiamo allora P2 la fattorizzazione di Choleski di Q22 :
P2 P02 = Q22
Ik2 = P−1 −10
2 Q22 P2
Possiamo ora standardizzare la distribuzione di βb2 utilizzando la seguente trasfor-

mazione della (4.45):
1 −1
P (β̂ 2 −β 2 ) ∼ N (0, Ik2 ) (4.46)
σ 2
che sotto l’ipotesi nulla H0 : β2 = 0 diventa:
1 −1
P (β̂ 2 ) ∼ N (0, Ik2 )
σ 2
Facendo la somma dei quadrati degli elementi del vettore:
1 −1
z= P (β̂ 2 )
σ 2
ottengo chiaramente una grandezza distribuita come una χ2k2 :
0
0 1 −1 1 −1
zz= P (β̂ 2 ) P (β̂ 2 )
σ 2 σ 2
1 0 −1
= β̂ Q β̂2 ∼ χ2k2
σ 2 2 22 H0
Ovviamente nella formulazione della statistica appena descritta appare la gran-

dezza σ 2 che in genere è sconosciuta. Occorre quindi stimare questo parametro,
in genere utilizzando lo stimatore di massima verosimiglianza, e la statistica di
riferimento sarà:
1 a
φW = 2 β̂20 Q−1 2
22 β̂2 ∼ χk2
σ
bM L H0
Nel caso più generale dell’imposizione sotto H0 di q vincoli lineari indipendenti

sui parametri del primo ordine:
H0 : R β=d
(q×k)
ρ(R) = q
ricordando che:
β̂ ∼ N (β, σ 2 (X0 X)−1 )
possiamo ricavare la distribuzione sotto H0 della grandezza (Rβ̂ − d):
(Rβ̂ − d) ∼ N (0, σ 2 R(X0 X)−1 R0 )

e quindi possiamo costruire il test:

1 0 −1 (a)
φW = 2 (Rβ̂ − d) R(X0 X)−1 R0 (Rβ̂ − d) ∼ χ2q
σ̂M L H0
Prendiamo come esempio più semplice un MRL dove tutte le variabili appaiono
espresse in termini di deviazioni dalle rispettive medie campionarie:
y∗ = X∗ β ∗ +u
e supponiamo che l’ipotesi nulla sia quella che implica l’assenza assoluta di potere
esplicativo da parte della regressione:
H0 : β∗ = 0
R = Ik−1
d = [0]
(k−1)×1
Possiamo quindi costruire un test di Wald come:

0
β̂ ∗ X∗0 X∗ β̂ ∗ H0 2
φW = 2 ∼ χk−1
σ̂M L (a)
Notate che questa statistica si può esprimere in termini equivalenti come:

0 ∗
β̂ ∗ X̃0 X̃β̂ Rc2

ESS
φW = 2 = U RSS = T 2
(test di Wald in forma χ2 )
σ̂M L ( T ) 1 − R c
ESS
nb : Rc2 =
T SS
Una formulazione alternativa del test di Wald è la seguente:
ESS/(k − 1) (RRSS − U RSS)/k − 1
fW = = ∼ Fk−1,T −k
U RSS/(T − k) U RSS/T − k
In questo caso la distribuzione di riferimento sotto H0 è una F di Fisher con k − 1
e T − k gradi di libertà. Si noti che l’equivalente test LR della medesima ipotesi è:

RRSS
φLR = T log
U RSS
Per questo esempio abbiamo:
RRSS = ỹ0 ỹ
U RSS = ε̂0 ε̂
(dato che azzeriamo i coefficienti associati a tutti i regressori diversi dall’intercetta
sotto H0 ) e quindi: 0
ỹ ỹ
φLR = T log 0
ε̂ ε̂
Si noti che per ottenere il test di Wald, in via generale, è necessario stimare solo il
modello non vincolato.
4.9.3 Test LM (Lagrange Multipliers) (test dei moltiplicatori di La-

grange)
Stimiamo il MRL:
y = Xβ + ε
sottoposto ai vincoli:
R β =d
(q×k)(k×1)
q<k
ρ(R) = q
Dobbiamo quindi massimizzare la logverosimiglianza:

log L
sotto i vincoli:
Rβ = d
Il primo passo è quello di costruire la funzione lagrangiana:
log L + λ0 (R β − d)
∂ log L
+ R0 λ = 0 (4.47)
∂θ
dove con θ indichiamo il vettore che contiene tutti i parametri del modello:

β
θ =
(k+1)×1 σ2
Ovviamente, il gradiente, calcolato in corrispondenza della configurazione di
θ che massimizza la logverosimiglianza sotto i vincoli imposti (θbR ) non è zero ma
è pari a −R0 λ, come si evince dalla (4.47). Se i vincoli non fossero stringenti,
allora il punto di massimo vincolato θbR coinciderebbe con il punto di massimo
non vincolato θbU R e quindi avremmo che il gradiente è nullo. In questo caso
infatti, il vettore di moltiplicatori di Lagrange λ è un vettore di dimensioni (q × 1)
di zeri. Quanto più i vincoli sono stringenti, tanto più il gradiente calcolato in
corrispondenza di θbR tenderà ad essere diverso da zero.
È possibile costruire un test dell’ipotesi nulla
H0 : R β = d
basato sulla seguente domanda: il gradiente della funzione di logverosimiglian-
za, calcolato in corrispondenza di θbR è significativamente diverso da 0? Si può
dimostrare che, sotto H0 (e date le ipotesi consuete sul modello, compresa quel-
la di normalità dei termini di disturbo), possiamo descrivere la distribuzione del
gradiente:
∂ log L (θ)
γ(θ̂R ) = ∼ N 0 , I θ̂R
∂θ θ=θ̂R
dove " #
∂ 2 log (θ)
I θ̂R = −E
∂ θ ∂ θ0
θ̂R
si intende la matrice di informazione calcolata in corrispondenza di θ̂R , cioè il va-

lore atteso della matrice Hessiana delle derivate seconde (cambiate di segno) della
logverosimiglianza calcolata in corrispondenza della stima di massima verosimi-
glianza sotto H0 .
Dato questo risultato distributivo, posso definire una grandezza scalare definita
come:
0
h i −1
φ = γ(θ̂R ) I θ̂R γ(θ̂R ) (4.48)
e questa grandezza è asintoticamente distribuita sotto H0 come una variabile ca-

suale χ2q , con q gradi di libertà:
H
φ ∼0 χ2q (4.49)
(a)
Ad esempio, consideriamo il MRL:
y = Xβ + ε = X1 β1 + X2 β2 + ε
ε ∼ N 0 , σ2I

H0 : β2 = 0
H1 : β2 6= 0
calcoliamo le derivate prime e seconde della funzione di logverosimiglianza:
∂ log L 1 0 0

= − −2X y + 2X Xβ
∂β 2σ 2
2
∂ log L X0 X
= − 2
∂β ∂β 0 σ
con:

β̂1 R
β̂R =
0
XX0
I(θ̂R ) =
σ̂R2
∂ log L(σ̂R ) 1 0 0

= 2 X y − XX β̂R
∂ σ̂R σ̂R
È possibile mostrare (solo un con un po’ di algebra e buona volontà) che vale:
RSS − U RSS
test LM = φLM =
RSS/T
Figura 4.10: Logiche di costruzione di test a confronto
log L
S’
test LR
Test LM
test di Wald
S
β0 β non vinc. β
L’inclinazione di SS 0 è alla base della costruzione del test LM
Ad esempio, nel caso del test di bontà della regressione:

H0 : β2 = · · · = βk = 0
contro
H1 : β2 6= 0, e/o β3 6= 0, e/o βk 6= 0
il test LM è:
φLM = T · Rc2
dato che in questo caso abbiamo:
RSS = T SS = y∗0 y∗
in generale, il test LM è basato sulla stima del modello ristretto
4.9.4 Ricapitolazione sulle modalità di costruzione dei test

Prendiamo come riferimento la Figura 4.10 dove, in relazione ad un modello mol-
to semplice con un unico parametro da stimare β, rappresentiamo la logverosi-
miglianza in corrispondenza dei diversi valori di β e definiamo β̂M L la stima di
4.10. STIMA DEL MODELLO SOGGETTO A VINCOLI LINEARI SUI PARAMETRI127
massima verosimiglianza non vincolata. Supponiamo che l’ipotesi nulla sia:
H0 : β = 0
H1 : β 6= 0
Ovviamente in questo semplice contesto (in cui c’è un solo parametro) il ”massi-
mo vincolato” della verosimiglianza coincide con la funzione di verosimiglianza
calcolata in corrispondenza di β = β0
Ricapitolando, quindi:
test LR = basato sulla distanza tra log L(β̂M L ) e log L(β0 )
test di Wald = basato sulla distanza tra β0 e β̂M L
test LM = basato sulla pendenza di log L in β0 (quindi dalla misura di quanto
il gradiente è diverso da zero in β0 ).
È possibile dimostrare che i tre test sono legati da una semplice relazione: per
qualsiasi ipotesi nulla ed in relazione a qualsiasi MRL, si ha:
φW ≥ φLR ≥ φLM
e quindi può succedere che un’ipotesi sia rifiutata da W e accettata da LR, LM,per
esempio
4.10 Stima del modello soggetto a vincoli lineari sui para-

metri
Supponiamo di avere un modello di regressione lineare del tipo:
y = Xβ + ε
per il quale valgono tutte le ipotesi consuete su termini di disturbo e regressori. Im-
maginiamo che esistano ragioni per ritenere che valgano i seguenti vincoli lineari
sui parametri:
R β = d , (4.50)
(q×k)(k×1) (q×1)
ρ(R) = q
Ad esempio, supponiamo di avere un MRL:
yt = β1 + β2 x2t + β3 x3t + β4 x4t + β5 x5t + εt , t = 1, . . . T
dove le variabili hanno il seguente significato:

yt = consumo
x2t = reddito disponibile
x3t = spesa pubblica
x4t = stock di ricchezza privata

x5t = debito pubblico
In una sua semplice formalizzazione, l’ipotesi di equivalenza ricardiana (la
spesa pubblica, dato che prima o poi necessita di un suo finanziamento tramite
maggiori tasse implica che il consumatore razionale anticipi l’incremento delle tas-
se e quindi consideri spesa pubblica alla stregua di riduzione di reddito disponibile
e debito pubblico come riduzione della ricchezza) implica che:
β3 = −β2 ,
β5 = −β4
Questi sono due vincoli imposti sullo spazio parametrico che possiamo rappresen-
tare in termini matriciali come:
Rβ = d,
 
β1
 β2 
,R = 0 1 1 0 0 ,d = 0
 
β =  β3
  0 0 0 1 1 0
 β4 
β5
Ora vediamo un modo possibile per stimare il modello in modo tale che rispetti
vincoli lineari del tipo (4.50): questo metodo è chiamato metodo dei minimi qua-
drati vincolati (è possibile anche definire uno stimatore di massima verosimiglianza
vincolata):
min ε0 ε
β
soggetta ai vincoli:Rβ = d
Per risolvere questo problema siamo attrezzati: costruiamo la funzione lagrangia-
na e ricaviamo le condizioni del primo ordine rispetto ai parametri del modello e
rispetto ai moltiplicatori di Lagrange
L = ε0 ε + 2λ0 (Rβ − d) (4.51)

∂L
= 0 ⇒ −2X0 y + 2X0 Xβ + 2R0 λ = 0 (4.52)
∂β
∂L
= 0 ⇒ Rβ − d = 0 (4.53)
∂λ
Ora, esplicitiamo (4.52) rispetto a β, chiamando la soluzione βbR :
βbR = (X0 X)−1 (X0 y − R0 λ) (4.54)
Sostituiamo ora la (4.54) nella (4.53) ottenendo:
R β̂ R = d ⇒
0 −1
R(X X) (X y − R0 λ) = d ⇒
0
R(X0 X)−1 X0 y − d = R(X0 X)−1 R0 λ ⇒

4.10. STIMA DEL MODELLO SOGGETTO A VINCOLI LINEARI SUI PARAMETRI129
h −1 ih i
λ = R X0 X R0 RβbU R − d (4.55)
βbU R = stima non vincolata =

−1 0
= X0 X Xy (4.56)
Notate che quando il vincolo è esattamente verificato dalla stima non vincolata,
dalla espressione per λ riportata qui sopra si evince che il vettore dei moltiplicatori
di Lagrange è nullo (i vincoli non sono stringenti: il punto di massimo vincolato
coincide con quello di massimo libero):
Rβ̂ U R − d = 0 ⇒ λ = 0
Ora risostituiamo la (4.55) nella (4.54):
i
−1 h −1 0 i−1 h
β̂R = X0 X X0 y − R0 R X0 X R · Rβ̂ U R − d (4.57)
La formula vista sopra fornisce un modo per ottenere la stima del MRL sotto i
vincoli che caratterizzano l’ipotesi nulla H0 . Per verificare:
H0 : Rβ = d
contro
H1 : Rβ 6= d
sono disponibili tutti i test descritti alla sezione precedente:
(RRSS − U RSS)

 φW = T
 ∼ χ2q
test di Wald= U RSS
(RRSS − U RSS)/q
 fW =
 ∼ Fq , T −k
U RSS/(T − k)
RRSS
test LR = φLR = T log ∼ χ2q
U RSS
(RRSS − U RSS)
test LM = φLM = T ∼ χ2q
RRSS
4.10.1 Alcuni esempi

Prendiamo come primo esempio una funzione di domanda di investimenti:
It = β1 + β2 Rt + β3 Πt + εt
It = domanda di investimento
Rt = tasso di interesse nominale
Πt =tasso di inflazione
ipotesi: β3 = −β2
Per verificare l’ipotesi nulla:
H0 : β3 = −β2 ,
contro
H0 : β3 6= −β2
è possibile lavorare con uno qualsiasi dei test visti. Possiamo stimare il modello
non vincolato ottenendo U RSS. Per ricavare RSS in questo caso è facile: basta
stimare direttamente un modello che soddisfi implicitamente il vincolo imposto,
vale a dire:
It = β1 + β2 (Rt − Πt ) + εRt (4.58)
Nel modello precedente definiamo un nuovo regressore Rt − Πt , tasso di interesse
reale. In questo modo, la regressione stimata (4.58) ha una somma dei quadrati dei
residui che è esattamente RSS.
Come secondo esempio, si consideri la seguente funzione di produzione in
logaritmi:
yt = β1 + β2 lt + β3 kt + εt
Si supponga di voler provare l’ipotesi di rendimenti costanti di scala:
H0 : β2 + β3 = 1
contro
H1 : β2 + β3 6= 1
Si noti che, se sono valide tutte le ipotesi consuete su termini di disturbo e regresso-
ri allora sappiamo che la stima OLS non ristretta del modello si distribuisce come
una variabile casuale normale k-variata:
βb ∼ N (β, σ 2 (X0 X)−1 )
e quindi la variabile casuale β̂2 + β̂3 − 1 (somma di due variabili casuali normali-1)
sotto H0 si distribuisce nel modo seguente:
β̂2 + β̂3 − 1 = r0 βb − 1 ∼ N [0, ω] ,

ω 2 = var(β̂2 + β̂3 − 1) = r0 σ 2 Qr =
= σ 2 (q22 + 2q23 + q33 ) =
= var(βb2 ) + var(βb3 ) + 2cov(βb2 , βb3 ),
Q = (X0 X)−1 , r = 0 1 1 ,

b2 = σ
ω b2 (q22 + 2q12 + q11 ) (controparte stimata di ω)
Quindi opportunamente standardizzando β̂2 + β̂3 −1 si ottiene una variabile casuale

la cui distribuzione sotto H0 è nota:
4.11. EFFETTI DELL’OMISSIONE DI VARIABILI RILEVANTI 131

β̂2 + β̂3 − 1
τ = = ∼ tT −3 , (4.59)
ω H0
√
b
p
ω
b = b2 = σ
ω b (q22 + 2q12 + q11 ) = (4.60)
r
RSS p
= (q22 + 2q12 + q11 ) (4.61)
T −3
È quindi possibile ottenere il valore calcolato della statistica τ e confrontar-
lo con il valore critico della distribuzione t di Student, scegliendo la probabilità
dell’errore di prima specie.
In questo esempio (come nel precedente) è semplice fare prova delle ipotesi
perchè abbiamo una sola restrizione. È però anche possibile costruire il test Wald
nella sua forma F :
(RRSS − U RSS)/q
fW =
U RSS/(T − k)
Per ottenere la RRSS (dalla stima del modello vincolato) è possibile:
• applicare M Q vincolati
• trasformare la relazione di regressione ipotizzando che valga H0 :
yt = β1 + β2 lt + (1 − β2 )kt + εRt ⇒
yt − kt = β1 + β2 (lt − kt ) + εRt
Y L
Quindi ottengo un MRL in cui regredisco log K su log K e un termine di
intercetta. Utilizzo OLS e ottengo la RSS. Si noti che il test fW e il test τ descritto
nella (4.59) conducono a conclusioni equivalenti, dato che il valore di questi test
sono legati dalla seguente relazione:
fW = (τ )2
in altri termini: il F è il quadrato del test τ , quando c’è un solo vincolo.
4.11 Effetti dell’omissione di variabili rilevanti

Supponiamo che il modello “vero” sia:
y = Xβ + ε = X1 β1 + X2 β2 + ε
(T ×k1 ) (T ×k2 )
Supponiamo di escludere dall’analisi X2 ,perchè non ne disponiamo di una misu-

razione affidabile oppure perchè non sappiamo di doverlo inserire. Quindi, invece
di stimare il modello “vero”, stimo il seguente MRL:
y = X1 β1 + u (4.62)
β̂1 s = (X01 X1 )−1 X01 y (4.63)
Il vettore dei parametri β1 è stimato sulla base del modello “scorretto”. Il valore
atteso di β̂1 s è quindi:
E(β̂1 s ) = (X01 X1 )−1 X01 (X1 β1 + X2 β2 + ε)

= β1 + (X01 X1 )−1 X01 X2 β2 ⇒
E(β̂1 s ) − β1 = distorsione = (X01 X1 )−1 X01 X2 β2
Si noti che il termine (X01 X1 )−1 X01 X2 dà la stima dei coefficienti della regressione
OLS di X2 su X1 . Si noti che:
βb1s − β1s = (X01 X1 )−1 X01 ε (4.64)
e quindi la matrice di varianze e covarianze di βb1s è:

h i
V (β̂1 s ) = E (β̂1 s − E(β̂1 s ))(β̂1 s − E(β̂1 s ))0 = σ 2 (X01 X1 )−1 (4.65)
Quindi, gli effetti dell’esclusione di X2 sono che in questo modo:
• si ottiene una stima distorta (a meno che sia X01 X2 = 0, cioè che X01 e X2
siano ortogonali)
• la varianza teorica di β̂1 s è sicuramente minore di quella associata alla stima

del modello completo.
Ma cosa si può dire della stima della varianza di β̂1 s ? Per capire meglio si
consideri il caso in cui il MRL ”vero” abbia due variabili esogene oltre al termine
di intercetta:
yt = β1 + β2 x2 t + β3 x3 t + εt
ed invece venga stimato un modello “scorretto”:
yt = β1 + β2 x2 t + ut
Notiamo immediatamente che:
σ2
V ar(β̂2 s ) = (varianza teorica),
S22
T
X
S22 = (x2 t − x̄2 )2
t=1
mentre la varianza teorica della stima di β2 sulla base del modello “vero” è:
4.11. EFFETTI DELL’OMISSIONE DI VARIABILI RILEVANTI 133
σ2
V ar(β̂2 ) = 2 )S ,
(1 − r23 22
T
1 P
T (x2t − x2 )(x3t − x3 )
2 t=1 cov(x
c 2 , x3 )
r23 = T T =
1 v ar(x2 )d
v ar(x3 )
(x2t − x2 )2 T1 (x3t − x3 )2
P P d
T
t=1 t=1
quindi, se r12 2 > 0 (cioè se x1 e x2 non sono ortogonali), allora avremo:
V (β̂1 ) > V (β̂1 s )
Quanto detto vale per le varianze teoriche. Ora consideriamo le controparti stimate:
σ̂ 2
vd
ar(β̂2 ) = 2 )
S22 (1 − r23
σ̂s2
vd
ar(β̂2 s ) =
S22
Prendiamo il rapporto di tali varianze:
vd
ar(β̂2 ) σ̂s2 2

= 2
· 1 − r23
vd
ar(β̂2 s ) σ̂
quindi se σ̂s2 è molto superiore a σ̂ 2 , cioè se il contributo di x2 alla spiegazione di

y, una volta che sia già inserito x1 , è molto rilevante, più di quanto non sia l’entità
della correlazione di x1 e x2 , allora la stima del modello completo ha varianza
stimata minore.
Ad esempio, se consideriamo un’equazione di domanda di beni alimentari:
yt = β1 + β2 x2 t + β3 x3t + εt , t = 1, . . . , T
dove:
y = quantità domandata
x2 = prezzo del bene
x3 = reddito
(dati riportati sul libro di Maddala)
Stimiamo un modello dove viene omesso il reddito e stimiamo il modello
”scorretto”:
ybt = 89.97 + 0.107 x2t ,

(11.85) (0.118)
σ̂ = 2.338
Notate che β̂2 s ha il segno sbagliato (positivo); ricordiamo infatti che abbiamo
indicato l’entità della distorsione teorica come:
h i
∗ −1 ∗ 0 ∗
E(β̂2 s ) − β2 = (x∗0 x
2 2 ) x 2 3 β3 =
x (4.66)
cov(x
c 2 , x3 )
= β3 (4.67)
vd
ar(x2 )
Dall’esame della espressione precedente, possiamo concludere che, dato che β3 ,
coefficiente del reddito è ragionevolmente positivo, e dato che il termine (x∗0 ∗ −1 ∗0 ∗
2 x2 ) x2 x3
ha lo stesso segno della correlazione tra prezzi e reddito (x2 e x3 ), presumibilmente
positiva, la distorsione della stima di β2 è ragionevolmente positiva.
Tutte queste supposizioni sono confermate dall’esame del modello completo
stimato:
ybt = 92.05 − 0.142 x2t + 0.236 x3t ,

(5.84) (0.067) (0.031)
σ̂ = 1.952
Notate che l’errore standard di β̂1 è diminuito: il contributo di x3t alla spiegazione
di yt è superiore all’entità della correlazione di x2t e x3t .
4.12 Effetti dell’inclusione di variabili irrilevanti

Supponiamo che il modello “vero” sia:
y = X1 β1 +ε
(T ×k1 )(k1 ×1)
e che si stimi invece il modello:
y = X1 β1 + X2 β2 +u
(T ×k1 )(k1 ×1) (T ×k2 )(k2 ×1)
In altri termini, siamo in una situazione in cui il vettore di parametri veri è:
β1
β=
0
La stima del modello “scorretto” è:

β̂1 s
β̂s = = (X0 X)−1 X0 y
β̂2 s
che è non distorta. Questo significa che il valore atteso di β̂s è:

h i β̂1 s β1
E β̂s = E =β=
β̂2 s 0
4.12. EFFETTI DELL’INCLUSIONE DI VARIABILI IRRILEVANTI 135
La matrice di varianze e covarianze della stima del modello “scorretto è:

2 0 −1 2 2 Q11 Q1 2
V (β̂s ) = σ (X X) = σ Q = σ
Q2 1 Q2 2
e quindi:
V (β̂s ) = σ 2 Q11
mentre la matrice di varianze e covarianze di β̂1 (stima di β1 sulla base del modello
“vero”):
V (β̂1 ) = σ 2 (X01 X1 )−1
È possibile dimostrare che la matrice di varianze e covarianze di β̂1 s differisce da
quella di β̂1 per una matrice definita positiva. Quindi la stima del modello scorretto
è inefficiente.
Ad esempio, se il modello vero è:
yt = β1 + β2 x2t + εt
e viene invece stimato:
yt = β1 + β2 x2t + β3 x3t + ut
Possiamo confrontare le varianze:
σ2
V ar(β̂2s ) = 2 )S
(1 − r23 22
σ 2
V ar(β̂2 ) =
S22
quindi:
2
V ar(β̂2s ) > V ar(β̂2 ) se r23 >0
Anche per le controparti stimate generalmente vale:
Vdar(β̂2s ) > Vd ar(β̂2 ),

b2
σ
Vdar(β̂2 ) = ,
S22
bs2
σ
Vdar(β̂2s ) = 2 )S
(1 − r23 22
anche se è vero che σbs2 < σb2 (c’è una variabile esplicativa in più nel modello
scorretto) ma il contributo di x3t alla spiegazione di yt è ragionevolmente molto
basso.
Notate che:
E(b σs2 ) = σ 2
Quindi se il modello è sovraparametrizzato, la stima di σ rimane non distorta, anche

se meno efficiente (PROVA: fatelo come esercizio).
Come succede alla stima dei parametri rilevanti quando dalla regressione si
esclude un parametro irrilevante? La risposta è che in grandi campioni la stima
non cambia affatto, dato che comunque le stime sono non distorte e consistenti.
Per MRL stimati in base a campioni di ampiezza finita esiste il risultato provato
da Leamer (1975): si supponga di essere interessati a βj e che il regressore xi sia
irrilevante. Indichiamo con β̂j la stima di βj sulla base del modello in cui appare
anche xi . Leamer prova che, escludendo dalla regressione xj dalla regressione, si
ottiene una una stima che è vincolata a stare nell’intervallo β̂j ± ti sj , dove:
sj = errore standard di β̂j
ti = test t di βi = 0
4.13 Gradi di libertà e indice R2

In un MRL, quando viene incrementato il numero dei regressori inclusi, a prescin-
dere dalla effettiva capacità eplicative dei regressori aggiunti su y, si ottiene un
incremento nell’indice R2 :
RSS T SS
σ̂ 2 = = (1 − R2 )
T −k T −k
Si definisce allora un indice che chiamiamo R̄2 (R2 ”adjusted”):

2 RSS/(T − k) T −1
R̄ = 1 − = 1 − (1 − Rc2 )
T SS/(T − 1) T −k
che “penalizza” l’inserimento di regressori. Si noti che:
T SS T SS
1 − R̄2 · = 1 − Rc2 · = σ̂ 2
T −1 T −k
al crescere di R̄2 (o di R2 ) diminuisce σ̂ 2 .

È possibile che si verifichi il caso in cui 1 − R̄2 > 1, cioè R̄2 < 0. Questo si
ha quando:
T −k
(1 − Rc2 ) > ,⇒
T −1
k
Rc2 <
T −1
Ad esempio, con T = 21 e k = 2, se R2 < 0.1 si avrà R̄2 < 0

4.13. GRADI DI LIBERTÀ E INDICE R2 137
4.13.1 Relazione tra test di significatività t, test F e indice R̄2

Se una variabile esplicativa xi , con coefficiente stimato pari a β̂i e con test t > 1,
viene esclusa dalla regressione, allora diminuisce R̄2 . (Ovviamente, sarebbe bello
se R̄2 diminuisse con l’esclusione di variabili con coefficiente significativo, cioè
con t > 2 !). Più in generale, se x1t , . . . , xrt sono r grandezze il cui test F di
esclusione congiunta (H0 : β1 = β2 = · · · = βr = 0) è > 1, allora l’esclusione di
tali grandezze comporta una diminuzione dell’indice R̄2 .
Dimostrazione:
2 RRSS
σ̂R = → stima varianza nel modello ristretto
T −k+r
U RSS
σ̂U2 R = → stima varianza nel modello non ristretto
T −k
2 − (T − k)σ̂ 2

(RRSS − U RSS)/r (T − k + r) σ̂R U R /r
F = =
U RSS/(T − k) (T − k)σ̂U2 R /(T − k)
(RSSR − RSSU R )/r
Risolvi per F = :
RSSU R /(T − k)
2 − (T − k)σ̂ 2

(T − k + r) σ̂R U R /r
F = ,
σ̂U2 R
2
(T − k + r) σ̂R (T − k)
F = 2 −
r σ̂U R r
definisci
T −k
=a
r
quindi:
T −k T −k+r
+1= =a+1
r r
Sostituendo nell’espressione per F :
σ̂R2
F = (a + 1) −a
σ̂U2 R
e quindi:
2
σ̂R a+F
2 = ,
σ̂U R a+1
T −k
a =
r
quindi se F è maggiore di 1, escludendo x1 , . . . , xr si ottiene un aumento della
varianza stimata del modello ristretto, vale a dire una diminuzione di R̄2 , dato
che:

2 2 T SS
(relazione inversa tra σ̂ 2 eR̄2 )

σ̂ 1 − R̄ (4.68)
T −1
e viceversa se F < 1.
4.14 Test di stabilità del MRL

Sono test di costanza dei parametri. Abbiamo due tipi diversi di test: test basati
sull’analisi della varianza e test previsivi.
4.14.1 Test basati sull’analisi della varianza

Supponiamo di poter distinguere all’interno del campione due sottoinsiemi di os-
servazioni (T = T1 + T2 ) in relazione ai quali abbiamo:
(1) (1) (1)
yt = β1 x1t + β2 x2t + · · · + βk xkt + εt , t = 1, 2, . . . , T1
(2) (2) (2)

yt = β1 x1t + β2 x2t + · · · + βk xkt + εt , t = T1 + 1, . . . , T1 + T2
Possiamo costruire un test di stabilità dei parametri:

n
(1) (2)
H0 : βi = βi i = 1, 2, . . . , k
Sotto H0 tutti i parametri sono uguali per tutte le osservazioni periodo campionarie
(ampiezza campionaria completa è T1 + T2 )
Ora, stimiamo il MRL separatamente nei due sotto-campioni ottenendo:
• RSS1 = somma quadrati residui equazione stimata con t = 1 . . . T1 .
• RSS2 = somma quadrati residui equazione stimata con t = T1 +1 . . . T1 +2.
Ricordiamo che:
RSS1 /σ 2 ∼ χ2T1 −k ,
RSS2 /σ 2 ∼ χ2T2 −k
Sotto H0 i parametri sono costanti su tutto il campione. Quindi è possibile stimare

il MRL sotto H0 :
yt = β1 x1t + · · · + βk xkt + εt , t = 1, 2, . . . , T1 , T1 + 1, . . . , T1 + T2
ottenendo la somma dei quadrati dei residui:
RRSS = ε̂0 ε̂
4.14. TEST DI STABILITÀ DEL MRL 139
da intendere come somma dei quadrati dei residui del modello vincolato (stiamo
stimando il MRL sotto i vincoli che caratterizzano H0 ). Ricordiamo anche che:
RRSS
∼ χ2T1 +T2 −k
σ2
La somma dei quadrati dei residui del modello non vincolato è
U RSS = RSS1 + RSS2 ,

U RSS ∼ χ2T1 +T2 −2k
Quindi è possibile costruire il test di Wald in forma F come
(RRSS − U RSS)/k
fW =
U RSS/(T1 + T2 − 2k)
dove:
k = numero vincoli imposti per ottenere il modello ristretto
T1 + T2 − 2k = T − 2k = gradi di libertà del modello U R
Questo test è basato sull’analisi della varianza ed è chiamato test di Chow del
primo tipo.
4.14.2 Test previsivo di stabilità

Quando T2 < k non è possibile stimare separatamente il MRL nel secondo sot-
tocampione. Allora si utilizza la seguente idea per costruire un test alternativo di
stabilità basato sulla capacità previsiva del modello: se il modello è stabile, è possi-
bile stimarlo utilizzando solo le osservazioni che appartengono al primo sottocam-
pione (t = 1, . . . T1 ). Sulla base di questa stima, possiamo utilizzare il modello in
”previsione” per il sotto-campione dato dalle osservazioni T1 + 1, . . . , T1 + T2 e
ottenere errori non sistematici, vale a dire con valore atteso nullo. Specifichiamo
quindi un’ipotesi nulla in base alla quale gli errori di previsione relativi al secondo
sottocampione hanno tutti valore atteso nullo:
H0 : E(b
εT1 +1|T1 ) = E(b
εT1 +2|T1 ) = . . . = E(b
εT1 +T2 |T1 ) = 0,
contro
εT1 +1|T1 ) 6= 0, e/o E(b
H1 : E(b εT1 +2|T1 ) 6= 0, e/o E(b
εT1 +T2 |T1 ) 6= 0
Il test di questa ipotesi è costruito definendo:

RSS = somma dei quadrati dei residui ottenuti stimando il modello con tutte
le osservazioni (t = 1, 2, . . . , T1 + T2 ).
RSS1 = somma dei quadrati dei residui ottenuti stimando il modello con le
osservazioni appartenenti al primo sotto-campione (t = 1, 2, . . . , T1 ).
Queste due somme dei quadrati possono essere utilizzate per costruire un test
di Wald in forma F :
(RSS − RSS1 )/T2

fW = ∼ FT ,T −k (4.69)
RSS1 /(T1 − k) H0 2 1
Per giustificare la costruzione di questo test occorre fare riferimento all’uso e al
significato delle delle variabili di comodo (variabili dummy) nei modelli econome-
trici (vedi capitolo 5). Il test descritto dalla (4.69) è detto test di Chow del secondo
tipo.
4.14.3 Alcuni commenti ai test di stabilità strutturale

Per quanto riguarda il test di Chow del primo tipo, tale test è basato sull’assun-
zione implicita che la varianza dei termini di disturbo sia uguale nei due sotto-
campioni, mentre invece è possibile che anche tale parametro sia diverso nei due
sotto-campioni:
E(ε2t ) = σ12 , t = 1, 2, . . . , T1 ,
E(ε2t ) = σ22 , t = T1 + 1, T1 + 2, . . . , T1 + T2
Occorre quindi verificare l’ipotesi:
H0 : σ12 = σ22
H1 : σ12 6= σ22
Ricordando che:
RSS1 /σ12 ∼ χ2T1 −k

RSS2 /σ22 ∼ χ2T2 −k
posso costruire un test per verificare H0 basato sul rapporto delle due grandezze
sopra indicate:
(RSS1 /σ12 )
  " (RSS1 ) #
f =  T1 −k 2  = (RSS T1 −k
(RSS2 /σ2 ) 2)
T2 −k T2 −k
H0
2

σ̂1
= ∼ FT1 −k, T2 −k (4.70)
σ̂22 (H0 )
quindi, utilizzando la tavola della distribuzione FT1 −k, T2 −k , si determinano i quan-

tili a e b in modo tale che:
p {a ≤ F ≤ b} = 1 − α
scegliendo α = probabilità errore di prima specie. Quindi si calcola il test f defi-
nito dalla (4.70) e si verifica se cade all’interno o all’esterno dell’intervallo [a, b].
4.15. ESERCIZIARIO SULLA REGRESSIONE LINEARE 141
Nel primo caso si accetta H0 , nel secondo si rifiuta H0 ( test a 2 code)
2) A proposito del test di Chow del secondo tipo, se i parametri sono costanti , il
valore atteso degli errori di previsione è zero; ma se i parametri non sono costanti,
potrebbe comunque darsi che gli errori di precisione abbiano valore atteso nullo
Quindi questo test è più che altro un test di non distorsione delle previsioni.
4.15 Eserciziario sulla regressione lineare

4.15.1 Esercizio 1
Data la seguente funzione di produzione stimata in logaritmi:
log yt = 1, 37+ 0, 632 log kt + 0, 452 log Lt ,

(0,257) (0,219)
T = 40,
Rc2 = 0.98
b2 = 0.01,
σ
b βb2 , βb3 ) = −0.044
Cov(
si provino le seguenti ipotesi:

a) Ci sono rendimenti costanti di scala
b) β2 =β3
Si calcolino R̄2 e gli intervalli di confidenza per β̂2 e β̂3 , sia quelli individuali
che quello congiunto.
4.15.2 Esercizio 2
Sia data la seguente regressione stimata:
ŷt = 2.20 + 0.104 x2t + 3.48 x3t + 0.34 x4t ,

(3.4) (0.005) (2.2) (0.15)
T = 80,
ESS = 112.5
RSS = 19.5
a) quali regressori sono singolarmente significativi al 5%?

b) calcolare R2 e R̄2
4.15.3 Esercizio 3
Siano dati due campioni con le seguenti informazioni:
Campione 1 Campione 2
Ti 20 25
xi2 20 23
yi 25 28 ,
i
S22 80 100
S2y 120 150
Syy 200 250
n.b. :
1 X
xi2 = x2t , i = 1, 2
Ti
campione i
1 X
yi = yt , i = 1, 2
Ti
campione i
X
i
S22 = (x2t − x2 )2 , i = 1, 2
campione i
X
i
S2y = (x2t − x2 )(yt − y), i = 1, 2
campione i
X
i
Syy = (yt − y)2 , i = 1, 2
campione i
a) stimare una regressione lineare di y su di una costante (termine di intercetta)

e x2 per ogni campione separatamente e per il campione esteso che combina tutte
le osservazioni.
b) Quali sono le ipotesi sotto le quali la regressione combinata (con 45 osser-
vazioni) è valida?
c) Spiegare in quale modo sia possibile verificare l’ipotesi di validità di tali
assunzioni.
4.15.4 Esercizio 4
Sia data la seguente regressione stimata:
ŷt = 2.0 + 3.5 x2t − 0.7 x3t + 2.0 x4t ,

(0.62) (1.842) (0.318) (1.333)
2
T = 26, R = 0.982
Stimando il modello sotto la restrizione:
β2 = β3
si è ottenuto:
ŷt = 1.5 + 3.0 (x2t + x3t )− 0.6 x4t ,

(0.54) (1.111) (0.250)
R2 = 0.876
a) verificare la validità del vincolo β2 = β3 in tutti i modi possibili.

b) se ometto la variabile x3t dalla regressione di partenza, cosa succede a R̄2 ?
E perchè?
4.15.5 Esercizio 5
Per il MRL:
yt = β1 x1t + β2 x2t + β3 x3t + εt

abbiamo indicazioni di teoria economica che affermano che:
β1 + β2 = α,
β1 + β3 = −α
dove α è un parametro sconosciuto.

Trovare lo stimatore BLUE di α e la sua varianza, stabilendo accuratamente le
ipotesi che occorre utilizzare.
4.15.6 Esercizio 6
Ricavare la matrice di varianza e covarianza dello stimatore ottenuto utilizzando
minimi quadrati vincolati e confrontarla con quella della stima OLS non vincolata.
Come è possibile confrontarle? (NB: stiamo parlando di matrici teoriche!)

4.16.1 Esercizio 1
a) Ipotesi di rendimenti costanti di scala:
H0 : β2 + β3 = 1
contro
H1 : β2 + β3 6= 1
Ricordiamo che:
β̂2 + β̂3 − 1 ∼ N (0, V ar(β̂2 + β̂3 − 1))

Ho
Quindi costruisco il rapporto:

β̂2 + β̂3 − 1 0, 632 + 0, 452 − 1
h i1 = h i1 =
2 2
V ar (β̂2 + β̂3 − 1) V ar (β̂2 ) + V ar(β̂3 ) + 2Cov (β̂2 , β̂3 )
0, 084 0, 084
= 2 2
= = 3, 230
[(0, 257) + (0, 219) + 2(−0, 044)] 0, 026
valore critico t37 ∼= 2, 021 al 95% (test a 2 code) (disponibile t40 ): rifiuto H0 !
b) H0 : β2 − β3 = 0
β̂2 − β̂3 0, 632 − 0, 452
h i1 = h i1 =
2 2
V ar (β̂2 − β̂3 ) V ar (β̂2 ) + V ar(β̂3 ) − 2Cov(β̂2 , β̂3 )
−0, 82
= = −4, 059 → rifiuto H0 (valore critico ∼ = 2.021)
0, 202
2 −1
R = 1 − (1 − R2 ) TT −k = 1 − 0.02 3937 = 0.9789
Intervallo di confidenza per β2 al 95%:
β̂2 ± se (β̂2 ) · t α2 ⇒ 0, 632 ± (0, 257)(2, 021) ⇒

⇒ [0, 112 ; 1, 151]
Intervallo di confidenza per β3 al 95%
β̂3 ± se (β̂3 ) · t α2 ⇒ 0, 452 ± (0, 219)(2, 021) ⇒

⇒ [0, 009 ; 0, 894]
Intervallo
h congiunto: tutti i valori di β2 e β3 tali per cui: i
Skk (β2 − β̂2 )2 + 2Skl (β2 − β̂2 )(β3 − β̂3 ) + Sll (β3 − β̂3 )2 < f2, 37
f2, 37 = quartile al 95% della distribuzione F2, 37 ∼ = 3, 23 F (2, 40 )
e:
Skk = Tt=1 (kt − k̄)2 kt = log Kt
P
PT
Skl = t=1 (kt − k̄)(lt − ¯l) lt = log Lt
Sll = Tt=1 (lt − ¯l)2
P
quindi nel modello y b ∗ = X∗ β̂ ∗

(T ×2)(2×1)

β̂2
β̂ ∗ =
β̂
 3
.. ..

. . 
X∗ =  ¯l 

 tk − k̄ l t −
.. ..

. .
−1
(0, 257)2 (−0, 044)

∗ 2 ∗0 ∗ −1 2 Skk Skl
V(β̂ ) = σ̂ (X X ) = σ̂ =
Skl Sll (−0, 044) (0, 219)2
Ma si conosce anche σ̂ 2 = 0, 01, e quindi si possono ricavare Skk , SkL e SLL

come: −1
(0, 257)2 (−0, 044)

Skk SkL 1
= 2
SkL SLL σ̂ (−0, 044) (0, 219)2
da utilizzare nella costruzione dell’intervallo di confidenza ?congiunto per β2
e β3 .
4.16.2 Esercizio 2
a) sono quelli i cui test t sono maggiori del valore critico del test a 2 code:

H0 : βi
H1 : βi 6= 0
sulla base di una distribuzione t di Student con 76 gradi di libertà. Il valore critico
è approssimativamente 2,00 (vedi sulla tavola della t di Student il valore più vicino
è 60). Quindi:
βb1 2, 20
t β1 = = = 0, 647 → non significativo
se (β1 )
b 3, 4
β̂2 0, 104
t β2 = = = 20, 8 → significativo
se (β̂2 ) 0, 005
β̂3 3, 48
tβ3 = = = 1, 58 → non significativo
se (β̂3 ) 2, 2
β̂4 0, 34
t β4 = = = 2, 26 → significativo
se (β̂4 ) 0, 15
b)
ESS 112, 5
R2 = = = 0, 82
T SS 19, 5 + 112, 5
T −1 79
R̄2 = 1 − (1 − R2 ) = 1 − (0, 148) = 0, 846
T −k 76
4.16.3 Esercizio 3
Stima del modello nel primo sotto-periodo:
yt = β1 + β2 x2t + εt , t = 1, 2, . . . , 20
1
S2y 120
β̂21 = 1 = = 1, 5,
S22 80
βb11 = ȳ − β̂21 x12 = 25 − (1, 5)(20) = −5
1
Stima del modello nel secondo sotto-periodo:

2
S2y 150
βb22 = 2 = = 1.5
S22 100
βb12 = ȳ − β̂22 x22 = 28 − 23(1.5) = −6.5
2
Stima del campione esteso (con 45 osservazioni):

20
X 2
x22t = S22
1
+ 20 x̄12 = 80 + 20(20)2 = 8080,
t=1
45
X 2
x22t = S22
2
+ 20 x̄22 = 100 + 25(23)2 = 13325,
t=21
 2
20 45
x2i x2i 
P P
20 45  +
− 45  t=1 t=21
X X
∗
S22 = x22t + x2t  =
 
 45 
t=1 t=21
2
20x̄1 + 25x̄2
= 21405 − 45 =
45
= 21405 − 21125 = 280
20
1 + T x̄1 ȳ 1 = 120 + 20 · 20 · 25 = 10120
P
x2t yt = S2y 1 2
t=1
45
2 + T x̄2 ȳ 2 = 150 + 25 · 23 · 28 = 16250
P
x2t yt = S2y 2 2
t=21
20 45 20x̄1 + 25x̄2 20ȳ 1 + 25ȳ 2

∗
P P
S2y = x2t yt + x2t yt − 45 =
t=1 t=21 45 45
= 26370 − 45 · [(21, 667) (26, 667)] = 369, 275
20
yt2 = Syy
1 + T (ȳ 1 )2 = 200 + 20(25)2 = 12700
P
1
t=1
45
yt2 = Sy2 + T1 (ȳ 2 )2 = 250 + 25(28)2 = 19850
P
t=21
2
20 45 T1 ȳ 1 + T2 ȳ 2

∗ 2 2
P P
Syy = yt + yt − 45 =
t=1 t=21 45
20 · 25 + 25 · 28 2

= 12700 + 19850 − 45 =
45
= 32550 − 32000 = 550
Quindi per tutto il campione ho:
T = 45
x∗2 = 21, 667
ȳ ∗ = 26, 667
S22∗ = 280
S2y∗ = 369, 275

Syy∗ = 550
da cui si∗ottiene la stima:

S2y
β̂2∗ = ∗ = 1, 319
S22
β̂1 = ȳ ∗ − β̂2∗ x∗2 = 26, 667 − 1, 319 · 21, 667 = −1, 912
∗
b)
 Devono valere le seguenti ipotesi:
1 2
 β1 = β1
β 1 = β22
 22
σ1 = σ22
c) Si verificano queste ipotesi costruendo un test, ad esempio il test fW :
(RRSS − U RSS)/k
fW =
U RSS/(T − 2k)
dove:
RRSS = somma quadrati residui modello stimato con 45 osservazioni
∗ − β̂ ∗ S ∗ = 550 − 369, 275 · 1, 319 = 62, 926
=Syy 2y
T SS ESS
U RSS = RSS1 + RSS2 =
= Syy1 − β̂ 1 S 1 + S 2 − β̂ 2 S 2 =
1 2y yy 1 2y
= 200 − (1, 5)(120) + 250 − (1, 5)(150) = 45
(62, 926 − 45)/2 8, 963
fW = = = 8, 166
45/(45 − 4) 1, 097
Il valore critico della F2, 41 al 5% ∼ = 3, 23 (F2 40 è disponibile sulle tavole) →
rifiuto H0 !
L’altra ipotesi H0 : σ12 = σ22 si verifica costruendo il test in forma F :
σ̂12 RSS1 /(T1 − k)
2 = ∼ FT −k, T2 −k
σ̂2 RSS2 /(T2 − k) (H0 ) 1
σ̂12 20/18
= = 1, 022
σ̂22 25/23
Il valore critico è: F18, 23 ∼
= 2, 05 (disponibile per F20, 23 )
accetta H0 : σ1 = σ2 contro σ12 > σ22
2 2
Ma la prima ipotesi (β11 = β12 , β21 = β22 ) è stata rifiutata, per cui non è legittimo
combinare tutte le 45 osservazioni.
4.16.4 Esercizio 4
a) H0 : β2 = β3
H1 : β2 6= β3
Il test di Wald in forma F è:
(RSS − U RSS)/q
fW = =
U RSS/(T − k)
Ora, moltiplico numeratore e denominatore per T SS:
2 )−(1−R2 )
(1−RR
( RSS−U
T SS
RSS
)/q q
U
= U RSS
= 1−RU 2
T SS /(T − k)
T −k
dove:
RU 2 = R2 modello non ristretto
RR 2 = R2 modello ristretto
Quindi:
0, 106/1
fW = = 129, 555
0, 018/(26 − 4)
Il valore critico della distribuzione di riferimento è: F1, 22 = 4, 30 al 5%.
Quindi il test suggerisce il rifiuto di H0 .
Calcoliamo ora il test di Wald in forma χ2 :
T · [RRSS − U RSS]
φW = =
U RSS
2 2

T · 1 − RR − (1 − RU )
= 2) =
(1 − RU
0.106
= 26 · = 153. 111
0.018
Il valore critico della distribuzione χ21 = 3.84 al 5%. Quindi anche questo test
conduce al rifiuto di H0 .
Si noti che è possibile costruire anche il test t come:
β̂2 − β̂3
∼ t2 2
i 1 (H
0)
h
2
V (β̂2 ) + V (β̂3 ) − 2Cov(β̂2 β̂3 )
b b d
che è la radice quadrata del test fW calcolato in precedenza.

Ora calcoliamo il test LR :

RRSS
φLR = T log =
U RSS
2
1 − RR 0.124
= 26 log 2 = 26 · log( )=
1 − RU 0.018
= 50. 178
mentre il valore critico (χ21 ) è 3.84.Quindi anche questo test porta al rifiuto di H0 .
Ora calcoliamo il test LM
RSS − U RSS
φLM = T =
RSS
2 − R2 )

T · (RU R
= 2) =
(1 − RR

0.106
= 26 = 22.226
0.124
Quindi anche utilizzando questo test, si conclude che occorre rifiutare H0 (il valore
critico della distribuzione rilevante sotto H0 (χ21 ) è 3.84)
Si noti che in relazione alla prova delle ipotesi svolta in questo esercizio abbia-
mo riscontrato:
φW ≥ φLR ≥ φLM
(153.11 > 50.178 > 22.226)
come abbiamo visto nella parte teorica.
b) Se ometto x2t dalla regressione, dato che il test t di significatività di tale pa-
0.7
rametro è − = −2.201, che in valore assoluto è > 1, l’indice R̄2 è destinato
0.318
a scendere.
4.16.5 Esercizio 5
Basta esprimere il modello nei termini del parametro incognito α, sostituendo:
β2 = α − β1 ,
β3 = −α − β1
quindi sotto H0 :
yt = β1 x1t + (α − β1 )x2t + (−α − β1 )x3t + ut ⇒
yt = β1 (x1t − x2t − x3t ) + α(x2t − x3t ) + ut
Definiamo:
z1t = x1t − x2t − x3t

z2t = x2t − x3t
e stimiamo il MRL:
yt = β1 x1t + αz2t + ut
La stima OLS di α̂ sulla base di questo modello è BLUE se, oltre a valere l’ipotesi
nulla

β2 = α − β1
H0 :
β3 = −α − β1
si ha che tutte le condizioni usuali sui termini di disturbo e sui regressori sono
rispettate:
E(ut ) = 0, ∀t
E(ut uτ ) = 0, ∀t 6=τ
E(u2t ) = σ 2 , ∀t
ρ(Z) = 2
E( Z0 u) = 0
4.16.6 Esercizio 6
Calcoliamo la stima corrispondente all’applicazione dei MQ vincolati:
n −1 h io
β̂R = (X0 X)−1 X0 y − R0 R(X0 X)−1 R0

Rβ̂ U R − d =
−1 h i
= β̂U R − (X0 X)−1 R0 R(X0 X)−1 R0

Rβ̂ U R − d =
Per comodità chiamiamo:
−1
(X0 X)−1 R0 R(X0 X)−1 R0

= H
(k×q)
quindi:
h i
β̂R = β̂U R − H Rβ̂ U R − d
E(β̂R ) = β − H(Rβ − d)
quindi β̂R è non distorto solo quando vale H0 (quando R0 β = d). Ora calcoliamo
la distorsione di β̂R :
h i
β̂R − E(β̂R ) = β̂U R − H Rβ̂ U R − d − β − H(Rβ − d) =
= (β̂U R − β) − HR(β̂U R − β) =
= (Ik − HR)(β̂U R − β) =
(Ik − HR)(X0 X)−1 X0 ε
Usando questa espressione possiamo calcolare la matrice di varianze e covarianze
di β̂R :
V ar(β̂R ) = E[(β̂R − E(β̂R ))(β̂R − E(β̂R ))0 ] =
= E[(Ik − HR)(X0 X)−1 X0 εε0 X(X0 X)−1 (Ik − R0 H0 ) =
= σ 2 [(Ik − HR)(X0 X)−1 (Ik − R0 H0 )] =
= σ 2 [(X0 X)−1 − HR(X0 X)−1 − (X0 X)−1 R0 H0 +
+HR(X0 X)−1 R0 H0 ]
Ricordando la definizione di H :
H = (X0 X)−1 R0 [R(X0 X)−1 R0 ]−1
otteniamo:
V (β̂R ) = σ 2 {(X0 X)−1 −
−(X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 −
−(X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 +
+(X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 ·
·R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 }
= σ 2 {(X0 X)−1 −
−(X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 }
Ricordiamoci che la varianza di β̂U R è:
V (β̂U R ) = σ 2 (X0 X)−1
e quindi:
V (β̂U R ) − V (β̂R ) = σ 2 (X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 ·

·R(X0 X)−1
ed è facilmente dimostrabile che questa matrice è definita positiva.

Capitolo 5
Variabili di comodo e variabili

troncate
5.1 Variabili di comodo come variabili esplicative

5.1.1 Variabili di comodo a correzione di intercetta
Consideriamo per semplicità il MRL semplice, e supponiamo che esistano due
sottocampioni in corrispondenza di ciascuno dei quali il termine di intercetta possa
essere diverso:
(1)
yt = β1 + β2 x2t + εt t = 1.....T1 (5.1)
(2)
yt = β1 + β2 x2t + εt t = T1 + 1........T1 + T2 (5.2)
In termini esattamente equivalenti possiamo indicare il modello di cui sopra come:
(1) (2) (1)
yt = β1 + (β1 − β1 )Dt + β2 x2t + εt , t = 1, 2, ..., T1 + T2 (5.3)
introducendo una variabile di comodo (o variabile dummy) che chiamiamo Dt :
Dt = 0 ∀t ∈ [1, T1 ]
Dt = 1 ∀t ∈ [T1 + 1, T1 + T2 ]
Se esistono tre diversi ”regimi” (vale a dire tre diversi sottocampioni in relazione a
ciascuno dei quali si immagina che il termine di intercetta possa essere diverso):
(1)
yt = β1 + β2 x2t + εt ,t = 1.....T1
(2)
= β1 + β2 x2t + εt , t = T1 + 1........T1 + T2
(3)
= β1 + β2 x2t + εt , t = T1 + T2 + 1........T1 + T2 + T3
è possibile dare rappresentazione equivalente a questo MRL definendo due distinte
variabili di comodo:
(1) (2) (1) (3) (1)
yt = β1 + (β1 − β1 )D1t + (β1 − β1 )D2t + εt
153
154 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE
con

0 t ∈ [1, T1 ] o t ∈ [T1 + T2 + 1......T1 + T2 + T3 ]
D1t =
1 t ∈ [T1 + 1, T1 + T2 ]

0 t ∈ [1, T1 + T2 ]
D2t =
1 t ∈ [T1 + T2 + 1......T1 + T2 + T3 ]
Una variabile di comodo (che indichiamo con VDC) è quindi una particolare va-
riabile che assume valori pari a 0 o a 1.
Possiamo fare il seguente esempio: la Figura 5.1a riporta l’andamento di con-
sumo e reddito (in logaritmi) aggregati per l’Italia nel periodo 1920-1996. Si nota
che per gli anni relativi alla Seconda Guerra Mondiale (1940-45), la relazione che
lega le due variabili sembra modificata. Infatti, se esaminiamo la Figura 5.1b, che
riporta il diagramma a dispersione per tale coppia di variabili, notiamo un grup-
po di osservazioni che ”sembrano” essere disomogenee rispetto alle altre. Tali
osservazioni si riferiscono agli anni 1940-45.
[Figura 5.1a qui nel testo]
[Figura 5.1b qui nel testo]
Sulla base di queste considerazioni, stimiamo il MRL:
(1) (2) (1)

yt = β1 + (β1 − β1 )Dt + β2 x2t + εt (5.4)

0 t = 1920.....1939, 1946.....1996
Dt =
1 t = 1940.....1945
in cui yt è il logaritmo del consumo e x2t è il logaritmo del reddito. Per questo
modello, la matrice dei regressori è
 
1 0 x2,1920
 1 0 x2,1921 
 
 1 0 x2,1922 
 
 ... ... ... 
 
 
 
X = 1 1 x2,1940
 

(T ×3) 
 ... ... ...


 1 1 x2,1945
 

 
 
 
 ... ... ... 
1 0 x2,1996
dove gli anni dal 1940 al 1945 sono anni di guerra e la seconda colonna della ma-
trice X è una variabile dummy. Specificando un MRL come quello descritto dalla
(5.4), introducendo una VDC del tipo appena descritto, si opera una correzione sul
termine di intercetta, come la Figura 5.1c chiaramente illustra.
[Figura 5.1c qui nel testo]
5.1. VARIABILI DI COMODO COME VARIABILI ESPLICATIVE 155
Notate che se effettivamente la relazione che si vuole modellare presenta delle

discontinuità che richiedono una correzione del termine di intercetta e tale cor-
rezione non viene apportata, è possibile ottenere risultati distorti e inconsistenti,
anche per quello che riguarda i coefficienti di pendenza del MRL: si tratta infatti
della conseguenza dell’omissione di una variabile rilevante (in questo caso la VDC
necessaria ad apportare la correzione necessaria). Si veda a questo proposito la
Figura 5.2
[Figura 5.2 qui nel testo]
5.1.2 Variabili dummy a correzione di intercetta per trattare dati con

stagionalità
Molte variabili macroeconomiche presentano marcate dinamiche stagionali. Con-
sideriamo, per esempio, una relazione di regressione lineare tra log consumo (y) e
log reddito (x2 ), sulla base di dati trimestrali non destagionalizzati:
yt = α1 + α2 D2t + α3 D3t + α4 D4t + β2 x2t + εt (5.5)
dove si ha:
D2t = variabile dummy pari a 1 solo nel 2◦ trimestre
Si ha quindi la seguente matrice dei regressori:
 
1 0 0 0 x21
 1 1 0 0 x22 
 
 1 0 1 0 x23 
X = 
(T ×5)  1 1 0 1 x24
 

 ... ... ... ... ... 
1 ... ... ... x2t
Notate che il MRL appena descritto può essere scritto in termini esattamente
equivalenti come:
yt = γ1 D1t + γ2 D2t + γ3 D3t + γ4 D4t + β2 x2t + εt
ma non è possibile stimare il MRL:
yt = δ0 + δ1 D1t + δ2 D2t + δ3 D3t + δ4 D4t + β2 x2t + εt
perchè la matrice dei regressori in questo caso è:
 
1 1 0 0 0 x21
 1 0 1 0 0 x22 
 
 1 0 0 1 0 x23 
X = 
(T ×6)  1 0 0 0 1 x24
 

 ... ... ... ... ... ... 
... ... ... ... ... ...
che NON ha rango pieno! Infatti la 1◦ colonna è la somma delle colonne 2,3,4 e 5.
Nel caso in cui si abbia un MRL che utilizzi dati mensili non destagionalizzati,
allora avremmo :
yt = α1 + α2 D2t + ..... + α12 D12t + β2 x2t + εt
dove: Dit è una variabile dummy che è pari a 1 nel mese i-esimo (i = 1, ....., 12).
5.1.3 Variabili dummy a correzione di intercetta per ”outliers”

Supponiamo che nel campione a disposizione, una osservazione sia chiaramente
”anomala” (ad esempio, si veda la Figura 5.3).
L’osservazione anomala viene chiamata outlier (cioè che giace fuori) e si tratta
di un’osservazione connessa ad un evento particolare, non modellabile esplicita-
mente, che rende tale osservazione completamente disomogenea rispetto alle altre.
Ad esempio, supponiamo che nella Figura 5.3 l’osservazione anomala sia quella
relativa a t = T ∗ . Definiamo ora una VDC definita come segue:
per t = T ∗

1
Dt =
0 t 6= T ∗
e inseriamo questa VDC nel MRL:
yt = β1 + β2 x2t + β3 Dt + εt (5.6)
La matrice dei regressori diventa:

 
1 0 x21

 1 0 x22 


 ... ... ... 

X=
 1 1 x2T ∗ 


 1 0 x2T ∗ +1 
 ⇒ t = T∗
 1 ... ... 
1 0 x2T
Stimando il MRL risultante:

y = Xβ + ε
 
β1
β =  β2 
β3
è possibile mostrare (basta fare riferimento alle usuali proprietà del modello di re-
gressione partizionata che abbiamo visto nel Capitolo 4) che il coefficiente stimato
relativo alla VDC è pari alla distanza dell’outlier dalla retta di regressione stimata.
Quindi, in corrispondenza dell’outlier, si ha ε̂T ∗ = 0. Inoltre è possibile dimostrare
che la stima del MRL risultante è esattamente equivalente a quella del MRL sen-
za introdurre tra i regressori la VDC e eliminando contestualmente dal campione
l’osservazione anomala:
yt = β1 + β2 x2t + εt , (5.7)
∗ ∗
t = 1, 2, ...T − 1, T + 1, ..., T
Per questo motivo, si può concludere che βb3 coincide con l’errore di previsione di
yT ∗ ottenuto utilizzando la stima del MRL (5.7) e la varianza di βb3 coincide con la
la varianza di tale errore di previsione. In termini un pò meno formali, l’uso della
VDC, che viene chiamata anche variabile di comodo ad impulso (è uguale a uno
in corrispondenza di una sola osservazione), in questo casoequivale a ”fare fuori”
l’outlier.
5.1.4 Variabili dummy a correzione di intercetta e di pendenza

Se riteniamo che il MRL sia:
(1) (1)
yt = β1 + β2 x2t + εt t = 1...T1
(2) (2)
yt = β1 + β2 x2t + εt t = T1 + 1.....T1 + T2
T = T1 + T2 (5.8)
cioè se riteniamo che entrambi i coefficienti del primo ordine siano diversi nei due
sottocampioni, possiamo scrivere in termini esattamente equivalenti:
(1) (2) (1)
yt = β1 + (β1 − β1 )Dt + β2 x2t + (5.9)
(2) (1)
+(β2 − β2 )(Dt · x2t ) + εt ,
t = 1, 2, ...T1 , T1 + 1, ...T1 + T2
dove:
0 ∀t ∈ [1, T1 ]
Dt =
1 ∀t ∈ [T1 + 1, T1 + T2 ]
Quindi in questo MRL si operano congiuntamente una correzione di intercetta e
una correzione della pendenza. Notate che a questo fine è necessario definire una
nuova variabile esplicativa la cui singola osservazione t-esima è data dal prodotto
tra Dt e x2t . La matrice dei regressori del MRL diventa quindi:
 
1 0 x21 0
 1 0 x22 0 
 
 ... ... ... ... 
 
 1 0 x2T1 0 
X = 
(T ×4)  1 1 x2T1 +1 x2T1 +1 


 1 1 ... ... 
 
 ... ... ... ... 
1 1 x2T1 +T2 x2T1 +T2
5.1.5 Variabili dummy per provare l’ipotesi di stabilità dei coefficienti

di regressione
Supponiamo di avere un MRL con k regressori per il quale riteniamo che si abbia:
(1) (1) (1)
yt = β1 + β2 x2t + ... + βk xkt + εt t = 1.....T1
(2) (2) (2)
yt = β1 + β2 x2t + ... + βk xkt + εt t = T1 + 1.....T1 + T2
cioè si hanno e tutti i parametri del primo ordine del modello hanno una configu-
razione diversa in relazione a due distinti sottocampioni. Alternativamente, posso
scrivere in modo compatto:

(1) (2) (1) (1) (2) (1)
yt = β1 + β1 − β1 Dt + β2 x2t + β2 − β2 (Dt · x2t ) +

(1) (2) (1)
+... + βk xkt + βk − βk (Dt · xkt ) + εt ,
t = 1, 2, ..., T1 + T2
con:
0 ∀t ∈ [1, T1 ]
Dt =
1 ∀t ∈ [T1 + 1, T1 + T2 ]
Quindi procedo alla stima del seguente MRL:
yt = δ1 + δ2 x2t + ... + δk xkt + δk+1 Dt + δk+2 D(x2 )t + (5.10)

+... + δ2k D(xk ) + εt , (5.11)
t = 1, 2, ..., T1 + T2 ,
dove:
D(xj )t = Dt · xjt ,
j = 2, 3, ..., k,
t = 1, 2, ..., T
Ovviamente i parametri del modello (5.10) hanno il seguente significato:

(1) (1) (1)
δ1 = β1 , δ2 = β2 , ..., δk = βk ,
(2) (1) (2) (1)
δk+1 = β1 − β1 , δk+2 = β2 − β2 , ...,
(2) (1)
δ2k = βk − βk ,
Notate che è possibile provare l’ipotesi:
H0 : δk+1 = δk+2 = δ2k = 0

contro
H1 : δk+1 6= 0, e/o δk+2 6= 0, e/o δ2k 6= 0
In altri termini, l’ipotesi nulla H0 significa che i parametri non cambiano ma si

mantengono costanti per tutto il campione. Per verificare tale ipotesi è possibile
utilizzare qualunque tra i test visti nel capitolo 4; ad esempio il test fW è costruito
come:
(RRSS − U RSS)/k
fW = (5.12)
U RSS/(T − 2k)
dove URSS è la somma dei quadrati dei residui del modello (5.10) stimato (mo-
dello non vincolato), mentre RRSS è la somma dei quadrati dei residui dello stesso
modello stimato sotto H0 . Notate che il test appena descritto è molto simile al test
di Chow del 1◦ tipo visto nel capitolo 4, con la differenza che la stima del modello
non vincolato si basa sull’ipotesi che la varianza dei termini di disturbo sia la stessa
nei due sottoperiodi.
5.1.6 Test di Chow del secondo tipo (o test di validità previsiva)

Questo test si utilizza per verificare la stabilità strutturale del MRL. Il test si basa
sul principio che il modello stimato con t = 1, ..., T1 , in assenza di modificazioni
dei parametri, dovrebbe generare previsioni per t = T1 + 1, ..., T1 + T2 con errori
associati che hanno valore atteso nullo. Se invece si ipotizza che tali errori di
previsione abbiano valore atteso diverso da zero, occorre inserire in corrispondenza
di ciascuna osservazione del 2◦ sottocampione una variabile dummy puntuale; il
modello non vincolato diventa allora:
yt = β1 + β2 x2t + ... + βk xkt + γ1 D1 t + γ2 D2t + (5.13)

+... + γT2 DT2 t + εt , (5.14)
t = 1, 2, ..., T1 + T2
dove Dit è una dummy che assume valore unitario solo in corrispondenza di t =
i, (i = T1 + 1, ..., T1 + T2 ). Vengono quindi stimati T2 parametri aggiuntivi che
hanno l’effetto di eliminare le ultime T2 osservazioni (ricordatevi l’effetto che ha
l’inclusione di una VDC ad impulso: ε̂t = 0, t = T1 + 1, T1 + 2, ..., T1 + T2 )
La somma dei quadrati dei residui del modello (5.13) stimato è quindi:
TX
1 +T2 XT1
ε̂2t = ε̂2t (5.15)
t=1 t=1
e la stima del modello non vincolato equivale alla stima del modello:
yt = β1 + β2 x2t + ... + βk xkt + εt , (5.16)

t = 1, 2, ...., T1
Notate che, con l’inserimento delle VDC puntuali, dalla stima del modello (5.13)
è possibile ottenere direttamente gli errori di previsione e le stime delle varianze
degli errori di previsione, rispettivamente come:
ebT1 +1|T1 = yT1 +1 − ybT1 +1|T1 = γ

bk+1 ,

Vb ebT1 +1|T1 = Vb (b γk+1 )
E’ possibile definire l’ipotesi nulla:
H0 : γ1 = γ2 = ... = γT2 = 0
contro
H0 : γ1 6= 0 e/o γ2 6= 0 e/o ... 6= 0 e/o γT2 6= 0
Questo test, chiamato test di validità previsiva o test di Chow del secondo tipo,
può essere costruito confrontando RRSS e URSS, rispettivamente ottenuti come
somma dei quadrati dei residui del modello (5.16) stimato sulla base dell’intero
campione (t = 1, 2, ..., T1 + T2 ), e somma dei quadrati dei residui dello stesso
modello stimato con i dati relativi al sottocampione (t = 1, 2, ..., T1 ), che a sua
volta è equivalente alla somma dei quadrati dei residui del modello (5.13) stimato.
5.2 Variabili dummy come variabili dipendenti

Vi sono importanti applicazioni econometriche dove è necessario modellare feno-
meni che si sostanziano in scelte dicotomiche (o comunque discrete):
yt = 0,
oppure
yt = 1,
t = 1, 2, ..., T
Rilevanti esempi sono ad esempio, la partecipazione al mercato del lavoro, l’acqui-

sto di una casa di proprietà, la scelta di quotarsi in borsa ecc...
Il modello econometrico di riferimento dovrebbe spiegare quali sono le circo-
stanze che determinano, i valori osservati su yt :
yt = f (1, x2t ...xkt , εt ), (5.17)

t = 1, 2, ..., T
Notate che il suffisso t indica la t-esima osservazione relativa al campione. In gene-

re, in questi contesti applicativi le diverse osservazioni si riferiscono a diverse unità
(individui, imprese, famiglie) osservate ad un dato istante temporale. Ad esempio,
possiamo immaginare di avere un campione di T imprese, alcune delle quali sono
quotate in borsa (yt = 1) ed altre no (yt = 0) e le variabili xit ...xkt costituiscono
la misurazione dei fattori ritenuti rilevanti per determinare la scelta dell’impresa.
Per stimare un modello del tipo (5.17) è possibile utilizzare due possibili ap-
procci alternativi:
5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 161
1) Modello di probabilita’ lineare: nel modello di probabilita’ lineare (MPL):
k
X
yt = βi xit + εt = x0t β + εt , t = 1, 2, ..., T,
i=1
E(εt ) = 0, ∀t,
la variabile dipendente yt viene fatta dipendere in modo lineare da un insieme di k

variabili esplicative
(2) Approccio basato sull’esistenza di una variabile latente yt∗ che non è possi-
bile osservare (o misurare) tale per cui:
se yt∗ > 0

1
yt =
0 se yt∗ ≤ 0
Questo approccio è alla base dei modelli logit e probit. Ora vedremo questi due
approcci separatamente.
5.2.1 Modello di probabilità lineare

Il MPL è basato sulla regressione lineare:
yt = x0t β + εt
(1×k)
con:
E(εt ) = 0, ∀t
E(yt |xt ) = x0t β, ∀t

Si noti che:

0
E(yt |xt ) = prob(yt = 1|xt ) perchè yt può assumere solo valori pari a
1
Quindi il MPLdà una probabilità condizionata su xt in termini lineari. Notate che,

0
dato che yt = , εt può assumere solo due valori:
1
−x0t β

(se yt = 0)
εt =
1 − x0t β (se yt = 1)
cioè il termine di disturbo è una variabile casuale discreta. Il MRL implica che:
p(yt = 1|xt ) = x0t β

p(yt = 0|xt ) = 1 − x0t β
e quindi:
E(εt |xt ) = −x0t β · p(yt = 0|xt ) + 1 − x0t β · p(yt = 1|xt ) =

= −x0t β · 1 − x0t β + 1 − x0t β · x0t β = 0

2 2
−x0t β· 1 − x0t β + 1 − x0t β · x0t β =

V (εt ) =
= x0t β · 1 − x0t β = E(yt ) · [1 − E(yt )]

Quindi, la varianza di εt non è costante per le diverse osservazioni: siamo in pre-

senza di eteroschedasticità. Il prossimo paragrafo contiene alcune anticipazioni
sulla stima di modelli con eteroschedasticità.
5.2.2 Alcune anticipazioni sulla stima di modelli con disturbi etero-

schedastici
Immaginiamo di avere un MRL del tipo:
y = Xβ + ε,
E(ε) = [0] .
 
ω11 0 ... 0
0 ω22 ... ... 
E(ε0 ε) = Ω = 

,
 ... ... ... 0 
0 ... 0 ωT T
V (εt ) = σt2 = ωtt , t = 1, 2, .., T
In questo caso il miglior stimatore è quello dei ”Minimi Quadrati Ponderati” (WLS=weighted
least squares), che si ottiene in questo modo: si definisce:
 1/2 
ω11 0 ... 0
1/2
 0 ω22 ... ... 
 
P= 
 ... ... ... 0 
1/2
0 ... 0 ωT T
tale che:
PP0 = P2 = Ω
IT = P−1 ΩP−1 =
= P−1 ΩP−10 ,
 −1/2 
ω11 0 ... 0
−1/2
 0 ω22 ... ...
 
P−1 = 


 ... ... ... 0 
−1/2
0 ... 0 ωT T
Inoltre, si definiscono:
y∗ = P−1 y
X∗ = P−1 X
ε∗ = P−1 ε
Notate che premoltiplicare y e X per P−1 equivale a ponderare ciascuna osser-

−1/2
vazione per ωtt . Per questo motivo si parla di Minimi Quadrati Ponderati. A
questo punto si può verificare che il modello ponderato:
y ∗ = X ∗ β + ε∗ ,
E(ε∗ ) = [0],
E(ε∗ ε∗0 ) = P−1 ΩP−10 = IT
ha quindi termini di disturbo omoschedastici. Lo stimatore WLS è
β̂wls = (X∗0 X∗ )−1 X∗0 y∗ = (X0 P−1 P−10 X)−1 X0 P−1 P−10 y =
= (X0 Ω−1 X)−1 X0 Ω−1 y
e questo stimatore è non distorto ed è il più efficiente nella classe degli stimatori
lineari e non distorti (stimatore BLUE):
h i
E(β̂wls ) = E (X0 Ω−1 X)−1 X0 Ω−1 (Xβ + ε) = β (Non distorto)
h i
V (β̂wls ) = E (X0 Ω−1 X)−1 X0 εε0 X(X0 Ω−1 X)−1 =
= (X0 Ω−1 X)−1 X0 Ω−1 X(X0 Ω−1 X)−1 =
= (X0 Ω−1 X)−1
Purtroppo questo stimatore non è praticabile perchè di norma Ω (e quindi P)

non è nota. Occorre stimarla in qualche modo venga (vedi capitolo 6).
Se invece si usa lo stimatore OLS sul modello di partenza:
y = Xβ + ε
si ottiene:
β̂OLS = (X0 X)−1 X0 y
con le seguenti proprietà:
E(β̂OLS ) = (X0 X)−1 X0 (Xβ + ε) = β Non distorto

h i
V (β̂OLS ) = E (β̂OLS −β)(β̂ OLS −β)0 =
h i
= E (X0 X)−1 X0 ε0 εX(X0 X)−1 =
= (X0 X)−1 X0 ΩX(X0 X)−1
Quindi β̂OLS è meno efficiente di β̂GLS e che la stima OLS della varianza delle
stime è distorta e inconsistente. Quindi, se uso OLS in presenza di eteroscheda-
sticità le stime dei parametri in β sono non distorte ma inefficienti, e le stime degli
errori standard associati sono del tutto insoddisfacenti (distorte e inconsistenti). Si
veda il capitolo 6 per i dettagli.
5.2.3 Stima del modello di probabilità lineare

Ritornando al modello di probabilità lineare, dato che sappiamo che:
V (εt ) = E(yt ) [1 − E(yt )] (eteroschedasticità)
possiamo utilizzare la seguente procedura a 2 stadi:

(1) Si stima:
yt = x0t β + εt
usando OLS,e si ricavano i valori adattati di yt : ŷt = x0t β̂OLS .
(2) Si costruisce la matrice dei pesi:
 
[ŷ1 (1 − ŷ1 )]−1/2 0 ... 0
0 [ŷ2 (1 − ŷ2 )]−1/2 ... ...
 
b −1 = 
P

 ... ... ... 0
 

0 ... 0 [ŷT (1 − ŷT )]−1/2
che è ovviamente una stima consistente di P. Questa matrice stimata viene utiliz-
zata per ottenere lo stimatore WLS:
b −1 X)−1 X0 Ω
βbW LS = (X0 Ω b −1 y,
Ω
b =P b0
bP
Questo approccio presenta alcuni problemi:

(a) Per qualche osservazione, la grandezza ŷt (1 − ŷt ) potrebbe anche essere
negativo (se ŷt > 1 oppure se ŷt < 0) per campioni finiti (in grandi campioni
p
questa circostanza si verifica raramente, dato che β̂OLS è consistente e quindi ŷt ⇒
yt )
(b) i termini di errore sono non gaussiani e questo complica molto l’inferenza,
dato che sappiamo costruire intervalli fiduciari e fare prova delle ipotesi solo in
presenza di termini di disturbo normali.
In ogni caso, il problema più grave è comunque quello che E(yt |xt ) = x0t β
potrebbe giacere al di fuori dell’intervallo [0, 1]. Ricordate infatti che E(yt |xt ) ≡
p(yt = 1|xt ), ma un MPL potrebbe implicare probabilità assurde (cioè negative o
maggiori di uno) per determinate osservazioni: si veda ad esempio la Figura 5.4
dove abbiamo riportato un diagramma a dispersione con yt variabile dicotomica e
x2 come unico regressore (oltre il termine di intercetta). Le osservazioni su yt sono
quindi pari o a zero o a 1. Ad esempio, le osservazioni che abbiano valori di x2
pari a x2a o x2b sono associate ad una probabilità stimata rispettivamente negativa
e superiore ad uno.
E’ chiaro che sarebbe molto meglio poter interpolare le osservazioni campio-
nari con una curva non lineare, come è ben evidenziato dalla figura 5.4, piuttosto
che con una retta.
5.2.4 Modelli probit e logit

Questi modelli sono basati sull’assunzione che esista una variabile inosservabile yt∗
che viene determinata da un certo insieme di regressori x1 ... xk nel solito modo:
yt∗ = x0t β + εt ,
t = 1, 2, ..., T
E(εt ) = 0, ∀t
Questa grandezza non è però osservabile, e si osserva invece la variabile dipendente

yt :
1 se yt∗ > 0

yt =
0 se yt∗ ≤ 0
La variabile latente yt∗ può essere interpretata come ”propensione” o ”abilità” ad
assumere valore yt = 1 (abilità a trovare lavoro, trovare casa, essere quotati in bor-
sa) oppure come costo opportunità di yt = 0.Si noti che se yt∗ viene moltiplicata per
qualsiasi costante non nulla, il modello non cambia (problema di identificazione):
λyt∗ = λx0t β + λεt

yt∗∗ = x0t β ∗ + ε∗t
Per questo motivo si utilizza la convenzione di ”normalizzare” il modello in modo

tale da avere un termine di disturbo εt che ha varianza unitaria:
E(ε2t ) = σ 2 = 1
Definiamo ora:
Pt = prob(yt = 1) = prob(yt∗ > 0) =

= prob(x0t β + εt > 0) = prob(εt > −x0t β) =
= 1 − prob(εt < −x0t β) = 1 − F (−x0t β)
dove con F (·) indichiamo la funzione di ripartizione della variabile casuale εt :
Zh
F (h) = f (εt )dεt
−∞
Se si ipotizza che la funzione di densità di εt sia simmetrica intorno a zero, [f (−h) = f (h)],
allora abbiamo:
F (−x0t β) = 1 − F (x0t β)
come si evince dalla Figura 5.5
Quindi possiamo scrivere:
Pt = prob(yt = 1) = F (x0t β)
Si noti che, ovviamente, dato che F (·) è una funzione di ripartizione, Pt è vincolato
ad essere compreso tra 0 e 1 :
lim F (x0t β) = 0,
x0t β⇒−∞
lim F (x0t β) = 1
x0t β⇒+∞
Si veda a questo proposito la Figura 5.6

Esempio di modello logit strutturale (Nakosteen e Zimmer, 1980)

Si consideri un modello di migrazione :
1 se l0 individuo t-esimo emigra

yt = , t = 1, 2, ...T
0 se l0 individuo t-esimo non emigra
Si definiscono:
ytR∗ = xR0
t β + εR
t
(1×k)
ytR∗ = salario medio atteso

che t rimanendo nel suo paese si attenderebbe di ricevere
e si fa dipendere tale salario da un vettore di variabili esplicative xR

t (età, raz-
za, educazione, sesso dell’individuo, occupazione e reddito aggregati del paese
di partenza). Si definisce:
ytM ∗ = xM
t
0
γ + εM
t
(1×h)
∗
yM t
= salario atteso che t si attende di ricevere emigrando
che dipende dal vettore xM t (caratteristiche personali, cioè età, educazione, sesso
ecc e alcuni indicatori macro economici del paese di arrivo).
Il singolo individuo t-esimo compie la scelta di emigrare se:
ytM ∗ − ytR∗ > c∗

c∗ = costo di emigrazione (difficilmente misurabile)
Si definisce quindi il modello:
yt∗ = ytM ∗ − ytR∗ − c∗

yt∗ = x0t δ + εt
xt = unione degli insiemi di variabili esplicative per ytM ∗ e ytR∗
εt = εM R
t − εt
e quindi:
yt = 1 se yt∗ > 0
A questo punto è possibile scrivere la funzione di verosimiglianza delle T
osservazioni su yt , t = 1...T :
Y Y
P (y1 , y2 , ..., yT |x1 , x2 , ..., xT ) = ( Pt ) (1− Pt ) (5.18)
yt =1 yt =0
Q
dove ( Pt ) indica la produttoria rispetto a tutti le osservazioni in corriispon-
yt =1
Q delle quali yt = 1 e
denza
(1− Pt ) indica la produttoria rispetto a tutti le osservazioni in corriispon-
yt =0
denza delle quali yt = 0.
Ipotizziamo che i termini di disturbo del modello abbiano distribuzione logisti-
ca:
exp(εt ) 1
F (εt ) = = (5.19)
1 + exp(εt ) 1 + exp(−εt )
otteniamo il cosiddetto modello logit
Una variabile casuale logistica ha le seguenti funzione di densità e di riparti-
zione:
ex
f (x) = x ∈ (−∞, +∞)
(1 + ex )2
ex 1 ∂F (x)
F (x) = x
= −x
nb : f (x) =
1+e 1+e ∂x
e le caratteristiche di tali funzioni sono rappresentate, a confronto con quelle di una
variabile casuale normale standardizzata nelle Figure 5.7a e 5.7b.
[Figure 5.7a e 5.7 b qui nel testo]
Notate che una variabile casuale logistica è caratterizzata da maggiore disper-
sione rispetto alla normale standardizzata. Infatti:
E(x) = 0
π2 ∼
V (x) = = 3.28 (> 1)
3
Il comportamento di una variabile casuale logistica è abbastanza simile a quello di
una N (0, 1) (tranne che nelle code).
Per quello che riguarda il nostro modello, l’assunzione di distribuzione logisti-

ca implica:
exp(x0t β) 1
Pt = F (x0t β) = =
1 + exp(x0t β) 1 + exp(−x0t β)
Esplicitando rispetto a exp(x0t β) otteniamo:
Pt
1 + exp(−x0t β) Pt = 1 ⇒ exp(x0t β) =

⇒
1 − Pt

0 Pt prob(yt = 1)
xt β = ln( ) = ln
1 − Pt prob(yt = 0)
Quindi la grandezza x0t β dà il logaritmo del rapporto delle probabilità (”log-odds
ratio”). Si noti che per il modello logit, il log-odds ratio è funzione lineare delle
variabili esplicative xt (nel modello di probabilità lineare è Pt ad essere funzione
lineare delle variabili esplicative).
Problema della stima del modello logit
Si tratta di trovare una curva che interpoli la nuvola dei punti corrispondenti alle os-
servazioni campionarie, come già visto nella Figura 5.4. Con l’ipotesi che i termini
di disturbo siano distribuiti come una logistica, è possibile scrivere la funzione di
verosimiglianza per il campione:
 
Y Y
L = ( Pt )  (1 − Pt ) =
yt =1 yt =0
  
Y 1 Y 1

=  0
 1− =
1 + exp(−xt β) 1 + exp(−x0t β)
yt =1 yt =0
  

Y 1 Y 1
=    (5.20)
1 + exp(−x0t β) 1 + exp(x0t β)
yt =1 yt =0
ma la stima di questo modello si presenta problematica: infatti, la stima di massima

verosimiglianza richiede di considerare la verosimiglianza o la log verosimiglian-
za (ln L) e derivarla rispetto a β. Si ottiene un’espressione che non si riesce ad
esplicitare rispetto a β:
 
X X
L = ( ln Pt ) +  ln(1 − Pt ) =
yt =1 yt =0
X X
= − ln[(1 + exp(−x0t β)]− ln[(1 + exp(x0t β)]
yt =1 yt =0
∂L X 1
= [0] ⇒ · xt + (5.21)
∂β 1 + exp(x0t β)
yt =1
X 1
− · xt = [0] (5.22)
1 + exp(−x0t β)
yt =0
Queste condizioni del primo ordine non possono essere esplicitare rispetto β e oc-
corre utilizzare un metodo di massimizzazione numerica. In ogni caso la funzione
di log verosimiglianza è concava ed ha un unico massimo, quindi non dà problemi
in questo senso. A questo proposito, è necessario partire da un valore iniziale per
la stima numerica, che chiamiamo β̂0 , che in genere è quello che si ricava dalla
stima del modello di probabilità lineare.
5.2.5 Modello Probit

E’ possibile utilizzare una diversa assunzione sulla distribuzione dei termini di
disturbo e ipotizzare che:
εt ∼ N (0, 1)
In questo caso, data l’ipotesi di normalità, il modello viene chiamato probit
p(yt = 1) = p(yt∗ > 0) = Φ(x0t β)
xZ0t β 2
1 x
Φ(x0t β) = √ exp − dx
2π 2
−∞
dove con Φ(·) indichiamo la funzione di ripartizione di una variabile casuale nor-
male standardizzata. La funzione di verosimiglianza per un modello probit è:
Y Y
Φ(x0t β) 1 − Φ(x0t β)

L =
yt =1 yt =0
X X
ln Φ(x0t β)+ ln 1 − Φ(x0t β)

ln L =
yt =1 yt =0
ed anche in questo caso per ottenere la stima di massima verosiglianza è necessario

usare un metodo di massimizzazione numerica.
Come abbiamo visto nelle Figure 5.7a e 5.7b, le funzioni di densità e di ripar-
tizione di una variabile casuale logistica e di una variabile casuale normale sono
molto simili, a parte il comportamento delle code. Per questo motivo, l’assunzione
relativa alla distribuzione dei termini di disturbo è relativamente poco importante
e l’applicazione dei modelli logit e probit allo stesso insieme di dati conduce a
risultati simili, ma dato che nel modello logit si ha
π2
V (εt ) = E(ε2t ) =
3
2
occorre dividere i risultati della stima logit per π3 per poterle confrontare con quel-
le della stima probit (dove invece la varianza dei termini di disturbo è per ipotesi
unitaria.
Un problema ulteriore è che tipicamente la proporzione di osservazioni asso-
ciate a yt = 1 e di quelle associate a yt = 0 possono essere molto sbilanciate tra di
loro; quindi si usano tassi di campionamento diversi per riequilibrare il campione.
Per il modello logit questa procedura ha come unico effetto quello di indurre una
distorsione nel parametro di intercetta che deve essere corretta incrementandola di
log( PP01 ) (P1 è la proporzione delle osservazioni con yt = 1 ritenute e P0 è la pro-
porzione delle osservazioni con yt = 0 ritenute). Le stime degli altri parametri non
sono invece influenzate dalla diversità dei tassi di campionamento.
5.2.6 Effetti di variazioni delle variabili esplicative

Ricordiamo che il MPL stabilisce:
P (yt = 1|xt ) = x0t β
mentre il modello logit stabilisce:
exp(x0t β) 1
P (yt = 1|xt ) = 0 =
1 + exp(xt β) 1 + exp(−x0t β)
ed il modello probit stabilisce:
P (yt = 1|xt ) = Φ(x0t β)
Quindi, chiamando P (yt = 1|xt ) = Pt , possiamo verificare che variazioni delle
variabili esplicative hanno diversi effetti su Pt a seconda del modello di riferimento
 
 βi per il modello di prob. lineare 
∂Pt 
exp(x0t β)

= [1+exp(x0t β)]2
· βi = P t (1 − P )β
t i per il modello logit
∂xit  0

Φ(xt β)·βi per il modello Probit
 
∂Pt
Quindi per il MPL, ∂x it
è costante, cioè non dipende da xt , mentre non è costante
per gli altri due modelli. Si noti che per il modello logit, dato che il log-odds ratio
è:
Pt
ln( ) = x0t β
1 − Pt
abbiamo che:
Pt
∂ ln( 1−P t
)
= βi
∂xit
5.2.7 Indici di bontà di adattamento del modello

Nei modelli dove la variabile dipendente è dicotomica, esiste il problema della
misurazione della bontà di adattamento, indotto dal fatto che yt assume solo valori
0 o 1. Sono state avanzate diverse proposte per misurare quanto il modello spiega
del comportamento della variabile dipendente (per i modelli di regressione lineare
tutte queste misure sono equivalenti):
1) Indice R2 inteso come il quadrato della correlazione tra yt e ŷt .
2) Misure basate sulla somma dei quadrati dei residui.
Nel MRL abbiamo:
RSS
R2 = 1 −
T SS
T
X
0 0
RSS = ε̂ ε̂ = (y − ŷ) (y − ŷ) = (yt − ŷt )2
t=1
T
X T
X
∗0 ∗
T SS = y y = (yt − ȳ) = yt2 − T ȳ 2 =
t=1 t=1
T1 T0
= T1 − T (T1 /T )2 =
T
dove T1 = numero di osservazioni con yt = 1, T0 = numero di osservazioni con
yt = 0 (T0 + T1 = T ). Quindi:
T
T X T 0
R2 = 1 − (yt − ŷt )2 = 1 − ε̂ ε̂
T1 T0 T1 T0
t=1
Questa è la misura proposta da Efron (1978).

Amemiya (1981) suggerisce di definire la somma dei quadrati dei residui in
modo diverso:
T
(yt − ŷt )2
X
ŷt (1 − ŷt )
t=1
in modo tale che ciascun residuo viene ponderato per l’inverso della stima del
proprio errore standard (vale per il modello di probabilità lineare).
3) Misure basate sul rapporto delle verosimiglianze
Per il modello di regressione lineare con termini di disturbo gaussiani:
y = Xβ + ε (5.23)
2
E(ε) = [0] , ε ∼ N (0, σ IT )
sappiamo che possiamo scrivere l’indice R2 come:

2
2 RSS LR T
R =1− =1− (5.24)
T SS LU R
dove LR = massimo della verosimiglianza del modello vincolato ad avere tutti i
parametri di pendenza
uguali a 0, LU R = massimo della verosimiglianza del modello per il modello
non vincolato, dato che sappiamo che:

2 − T2 1 0
L = (2πσ ) exp − 2 ε ε
2σ
Notate che questa interpretazione dell’indice R2 può essere validamente utiliz-

zata per modelli a variabile dipendente qualitativa. Si ricordi che per i modelli a
VDQ (diversi dal MPL) abbiamo che:
 
Y Y
L =( Pt )  (1 − Pt )
yt =1 yt =0
Notate che la verosimiglianza è generata come produttoria di probabilità che sono

tutte < 1; quindi L ≤ 1 e questo ci assicura che:
LR ≤ LU R ≤ 1
da cui:
1 1
≥ ≥1
LR LU R
LR
1≥ ≥ LR
LU R
2
LR T 2
1≥ ≥ LR T
LU R
2
LR T ≤ 1 − R2 ≤ 1
e quindi:
2
0 ≤ R2 ≤ 1 − LR T
A partire da questo tipo di considerazioni, Cragg e Uhler (1970) suggeriscono
di costruire uno ”pseudo R2 ”
2 2
LU R T − LR T
pseudo Rp2 = 2 2
(1 − LU R T )LU R T
5.3. IL MODELLO TOBIT 173
mentre McFadden (1974) propone un’altra misura:
2 ln LU R
RM F =1−
ln LR
Quest’ultima misura non corrisponde ad alcuna misura di R2 nel modello di re-

gressione lineare.
4) Bontà del modello come proporzione di previsioni corrette.
Vediamo quante volte il modello correttamente ”prevede” il comportamento
della variabile dipendente. Associamo ad ogni osservazione una sorta di ”pseudo
previsione” yt∗∗ secondo la seguente regola:
Se ŷt > 0.5 ⇒ yt∗∗ = 1

Se ŷt 6 0.5 ⇒ yt∗∗ = 1
Quindi per ogni osservazione calcoliamo yt − yt∗∗ (”pseudo errore di previsio-

ne). Ovviamente, se yt − yt∗∗ = 0, la previsione è giusta e se yt − yt∗∗ = 1 o se
yt − yt∗∗ = −1, la previsione è sbagliata. Quindi possiamo definire un indice di
bontà del modello basato sul numero di previsioni corrette
2 numero di previsioni corrette

RC = (5.25)
T
che comunque non è molto utile per discriminare tra i modelli
5.3 Il modello Tobit

Nel modello Tobit (Tobin’s probit, Tobin 1958) abbiamo una variabile troncata,
vale a dire osservata solo se positiva:
yt∗ = x0t β + εt se yt∗ > 0

yt =
0 altrimenti
t = 1, 2, ..., T, ε ∼ N (0, σ 2 It )
Si tratta quindi di un modello di regressione gaussiano ”censurato”.

Ad esempio, si consideri un modello per le decisioni di spesa per l’acquisto
di un’automobile, sulla base di un campione di famiglie (si vogliono studiare le
determinanti dell’acquisto di auto). Si ipotizza:
 0
 xt β + εt se yt∗ > 0
yt∗ = (1×k)
 0 per chi non possiede auto
oppure:
x0t β + εt

ore lavorate : Ht =
0
x0t β + εt

salario : Wt =
0
Per stimare questo modello NON è possibile usare lo stimatore OLS utilizzan-
do solo le osservazioni per le quali yt∗ > 0, dato che per utilizzare validamente
tale stimatore occorre che valga E(ε) = [0] e questa proprietà non è soddisfatta in
questo caso. Infatti, in questo modo si considerano solo quelle osservazioni per le
quali εt > −x0t β e quindi:
Z∞
E(εt ) = εt Φ(εt )dεt 6= 0
−x0t β
Si ha quindi una distribuzione troncata per i termini di disturbo, come è evidenziato

dalla Figura 5.8.
Quindi lo stimatore OLS non è utilizzabile perchè porterebbe ad un risultato
distorto:
∗ 0
E(β̂OLS ) = β + (X∗ X∗ )X∗0 E(ε∗ )
(ricorda che E(εt ) 6= 0)
y ∗ = X∗ β + ε∗
(T1 ×1) (T1 ×k)
y∗ = vettore con tutte e sole le osservazioni yt∗ > 0.

X∗ = matrice delle corrispondenti osservazioni sulle variabili esplicative.
ε∗ = vettore con i corrispondenti termini di disturbo
Occorre quindi utilizzare lo stimatore di massima verosimiglianza :
Y 0
1 1 0
Y xβ
L= √ 2
exp − 2 (yt − xt β) × Φ − t (5.26)
2πσ 2σ σ
{yt >0} {yt =0}
Notate che nell’espressione precedente il secondo blocco di fattori corrisponde

a quelle osservazioni con yt = 0, cioè per le quali si ha εt < −x0t β.(con Φ(·)
indichiamo ancora la funzione di ripartizione associata ad una VC N (0, 1)).
Anche nel caso del modello Tobin, la log verosimiglianza non ha condizioni
del primo ordine che possano essere risolte analiticamente:
0
T1 1 X X xβ
ln L = − ln(2π)−T1 ln(σ)− 2 (yt −x0t β)2 + ln Φ − t
2 2σ σ
{yt >0} {yt =0}
5.3. IL MODELLO TOBIT 175
∂ ln L 1 X X 1
= [0] ⇒ 2 xt (yt − x0t β)− xt = [0]
x0 β

∂β σ
{yt >0} {yt =0} σΦ − t
σ
∂ ln L T1 1 X 1
=0⇒− + 2 =0
x0t β

∂σ σ σ
{yt =0} Φ −
σ
Quindi ccorre fare riferimento a metodi di ottimizzazione numerica.
Problema concettuale del modello Tobit
Il modello si basa sull’assunzione che yt∗ possa effettivamente, in linea di principio,

assumere valori negativi che non vengono riportati perchè non osservabili. Negli
esempi visti in precedenza è evidente che yt∗ < 0 non è possibile concettualmente.
Esistono dei rischi connessi all’applicazione acritica del modello tobit. Ad
esempio, nel caso della modellazione del salario percepito, si può pensare come
maggiormente indicato un modello del tipo:
Wt = salario osservato per la t − esima unità campionaria:
WtM se WtM > WtR

Wt =
0 altrimenti
dove:
WM t = x0M t β + εM t = salario di mercato
WRt = x0Rt γ + εRt = salario di ”riserva”
Modello ”strutturale” del tipo visto per l’immigrazione

Qui si osserva WM t quando
WM t − WRt > 0
cioè quando:
0 M0
xM M R0 R M R R0
t β + εt − xt γ − εt > 0 ⇒ εt − εt > xt γ − xt β
quindi Wt = 0 non quando εM M0

t > −xt β (come risulterebbe dall’applicazione
del modello tobit), ma quando
M0
εM R R0
t − εt < xt γ − xt β
Utilizzando il modello tobit si ottengono quindi stime dei parametri inconsitenti.

Differenza tra il modello tobit e modello di regressione troncata

Nel modello di regressione troncata si hanno osservazioni tratte da una distribu-
zione troncata: si osservano le yt∗ solo se maggiori di zero (non si osservano nè la
variabile dipendente, nè i valori dei regressori nel caso in cui yt∗ < 0). Nel modello
tobit, non si osserva la variabile yt∗ se è negativa, ma si osserva il corrispondente
vettore xt di variabili esplicative.
Ad esempio, consideriamo l’esperimento dell’introduzione di una tassa sul red-
dito negativa (sussidio di povertà) per le famiglie a basso reddito nel New Jersey
(anni ’70). Tutte le famiglie con redditto al di sopra della soglia di povertà sono sta-
te pertanto eliminate dal campione. Se si usa lo stimatore OLS sul campione tron-
cato si possono ottenere risultati distorti e non consistenti. di questo possiamo dare
un’interpretazione intuitiva in termini grafici, riferendoci ad un MRL semplice. Si
veda la Figura 5.9 di seguito riportata.
Occorre quindi far riferimento allo stimatore di massima verosimiglianza:
Dominio di yt : (−∞, L] ⇒ εt < L − x0t β
√ 1 exp − 1 2 (yt − x0 β)2

2πσ 2σ t
f (yt | xt ) =
L−x0t β

Φ σ
quindi:
T T
L − x0t β

T 2 1 X 0 2
X
ln L = − ln σ − 2 (yt − xt β) − ln Φ
2 2σ σ
t=1 t=1
Occorre anche in questo caso utilizzare un metodo di massimizzazione numerica.
5.4 Esercizi
1) Dato il seguente modello:
yt∗ = β1 + β2 Dt + εt , t = 1, 2, ..., 100,
yt = 1 se yt∗ > 0
yt = 0 in caso contrario
L’unico regressore, Dt è una variabile dummy con valori nulli o unitari. Scrivete
la funzione di verosimiglianza per il modello sotto le ipotesi che:
a) εt ∼Logistica
b) εt ∼ normale standard
5.4. ESERCIZI 177
Scrivete le condizioni del primo ordine per trovare lo stimatore di massima

verosimiglianza di β1 e β2 nei due casi.
2)Si supponga che un modello di probabilità lineare sia applicata ad una rela-
zione del tipo:
yt = β1 + βx2t + εt

0
dove yt = è una variabile dipendente dicotomica, e x2t è una variabile
1
esplicativa che varia nel continuo. L’ampiezza campionaria è pari a T. Come si
ottiene la stima OLS di questo modello nei termini della media e della varianza
di x2 ? Come possono essere interpretati i risultati? Scrivere la funzione di log-
verosimiglianza del modello di probabilità lineare in questo caso.
3) Le seguenti 20 osservazioni sono tratte da una distribuzione normale ”cen-
surata” (a valori negativi di y si sostituiscono valori nulli )
3.8396, 7.2040, 0, 0, 4.4132, 8.0230, 5.7971, 7.0828,
0, 0.80260, 13.0670, 4.3211, 0, 8.6801, 5.4571, 0, 8.1021,
0, 1.2526, 5.6016
Il modello applicabile è:

µ + εt se µ + εt > 0
yt∗ =
0 altrimenti
εt ∼ N (0, σ 2 )
a) formulate la log-verosimiglianza per questo modello tobit

b) ottenete lo stimatore di massima verosimiglianza di µ e σ 2 .
4) Data la seguente ipotesi comportamentale: l’individuo t − esimo decide
di lavorare (yt = 1) se il suo salario è superiore al salario di riserva (W R ). Si
supponga inoltre che:
W R = costante ∀t (salario di riserva uguale per tutti)

Wt = β1 + β2 x2t + β3 x3t + β4 Dt + εt
x2t = età,
x3t = anni di scuola,

1 se individuo è di sesso maschile
Dt = dummy per sesso =
0 altrimenti
εt ∼ N (0, 1)
Costruire un modello stimabile, ricavare la funzione di log-verosimiglianza e tro-

vare le condizioni del primo ordine per la stima di massima verosimiglianza dei
parametri incogniti. Come cambierebbero le conclusioni se se εt fosse distribuito
come una VC logistica?
5) Spiegare come sia possibile in relazione al modello

y = X β +ε
(T ×1) (T ×k)(k×1)
E(ε) = [0]
E(εε0 ) = σ 2 IT
generare un errore di previsione per yT +1 (conoscendo xT +1 e yT +1 )
6) Dato il MRL:
yt = β1 + β2 pt + β3 zt + β4 rt + εt
dove:
yt = stock di moneta in termini reali
pt = indice dei prezzi
zt = reddito reale
rt = tasso di interesse nominale a breve
Questa equazione è stimata per la Germania dal 1970 al 1994 sulla base di dati
trimestrali.
a) Se si ritiene che l’unificazione (4o trimestre del 1990) abbia influito sul-
l’intercetta del modello, come potrebbe essere corretta la specificazione per tenere
presente questo fenomeno?
b) Se invece si ritiene che tale evento abbia influenzato anche la sensitività della
domanda di moneta rispetto a variazioni del tasso d’interesse, come si modifiche-
rebbe il modello?
c) Come è possibile verificare quest’ultima ipotesi?
d) Come andrebbe verificata invece l’ipotesi che tutti i parametri della relazione
sono stati modificati da quell’evento?
5.5 Soluzioni
1) a) Se εt ∼ VC logistica, allora:
eεt 1
F (εt ) = =
1 + eεt 1 + e−εt
eεt
f (εt ) =
(1 + eεt )2
prob(yt∗ > 0) = prob(β1 + β2 Dt + εt > 0) =

= prob(εt > −β1 − β2 Dt ) = prob(εt > β1 + β2 Dt ) =
= F (β1 + β2 Dt )
(data la proprietà di simmetria della logistica)
5.5. SOLUZIONI 179
quindi abbiamo:
 
Y
p(y1 · · · yT | D1 · · · DT , β1 , β2 ) =  p(yt∗ > 0) ×
{yt =1}
 
Y
 p(yt∗ ≤ 0)
{yt =0}
e la verosimiglianza del campione è:
  
Y 1 Y 1
L=  
1 + exp(−β1 − β2 Dt ) 1 + exp(β1 + β2 Dt )
{yt =1} {yt =0}
X X
ln L = − ln [1 + exp(−β1 − β2 Dt )] − ln[(1 + exp(+β1 + β2 Dt )]
yt =1 yt =0
X T
X
ln L = (β1 + β2 Dt ) − ln(1 + exp(β1 + β2 Dt ))
yt =1 t=1

T
∂ ln L X exp(β1 + β2 Dt )
= 0 ⇒ T1 − =0
∂β1 1 + exp(β1 + β2 Dt )
t=1
∂ ln L
= 0 ⇒
∂β
T
X X exp(β1 + β2 Dt )
Dt − Dt = 0
1 + exp(β1 + β2 Dt )
yt =1 t=1
Si noti che T1 = numero di osservazioni in relazione alle quali yt = 1

b) Se εt ∼ N (0, 1), si ha:
p(yt = 1) = p(yt∗ > 0) = p(εt > −β1 − β2 Dt ) =

= p(εt < β1 + β2 Dt ) = Φ(β1 + β2 Dt )
  
Y Y
L= Φ(β1 + β2 Dt )  [1 − Φ(β1 + β2 Dt )]
{yt =1} {yt =0}
X X
ln L = ln Φ(β1 + β2 Dt ) + ln[1 − Φ(β1 + β2 Dt )]
yt =1 yt =0
e le condizioni del primo ordine sono:
∂ ln L X φ(β1 + β2 Dt ) X φ(β1 + β2 Dt )
=0⇒ − =0
∂β1 Φ(β1 + β2 Dt ) 1 − Φ(β1 + β2 Dt )
yt =1 yt =0
∂ ln L X φ(β1 + β2 Dt ) X φ(β1 + β2 Dt )
=0⇒ Dt − Dt =0
∂β 1 − Φ(β1 + β2 Dt ) 1 − Φ(β1 + β2 Dt )
yt =1 yt =0
Notate che:
∂Φ(β1 + β2 Dt ) ∂Φ(β1 + β2 Dt ) ∂(β1 + β2 Dt )
= · = Φ(β1 + β2 Dt )
∂β1 ∂(β1 + β2 Dt ) ∂β1
∂Φ(β1 + βDt ) ∂Φ(β1 + βdt ) ∂(β1 + βdt )

= · = Φ(β1 + βdt ) · dt
∂β ∂(β1 + βdt ) ∂β
e:
Φ(·) = funzione di ripartizione di una VC N (0, 1)
φ(·) = funzione di densità di una VC N (0, 1)
2) Consideriamo
βb1 = ȳ − β̂2 x̄2
T
1X
x̄2 = x2t
T
t=1
T
1X
ȳ = yt = p = percentuale di 1 nel campione
T
t=1
T
P 1 PT
(yt − ȳ)(x2t − x̄2 ) (yt − ȳ)(x2t − x̄2 )
t=1 T t=1
β̂2 = T
= T
=
P 2
1 P 2
(yt − ȳ) (yt − ȳ)
t=1 T t=1
1 PT 1 P T
yt x2t − x̄2 ȳ − x̄2 ȳ + x̄2 ȳ yt x2t − x̄2 ȳ
T t=1 T t=1
= = ,
Vb (x2 ) Vb (x2 )
Vb (x2 ) = varianza campionaria di x2
5.5. SOLUZIONI 181
Definendo T1 = numero di osservazioni con yt = 1, abbiamo:
T1 1 P T
yt x2t − x̄2 p
T T1 t=1
β̂2 = =
Vb (x2 )
= px̄12 − p px̄02 + (1 − p)x̄02 =

p(1 − p)(x̄12 − x̄02 )

=
V (x)
dove x̄12 è la media delle osservazioni di x2t in relazione alle quali yt = 1, e x̄02 è la
media delle osservazioni su x2t associate a yt = 0. Quindi β̂2 ha il numeratore che
dipende da quanto la media di x2 è diversa tra le osservazioni con yt = 1 e yt = 0:
se x̄12 = x̄02 allora β̂2 = 0. In questo caso allora il modello non spiegherebbe y
sulla base di x2 .
3)In relazione al nostro modello tobit, abbiamo:
yt = 0, εt ∈ (−∞, µ)
εt ∼ N (0, σ 2 )
a)quindi la verosimiglianza è:
 
T
 1 X  Y µ
− 21
L = (2πσ 2 ) exp − 2 (yt − µ)2 · Φ(− ) =
 2σ  σ
yt =1 yt =0
 
T1
 1 X  h µ iT0
= (2πσ 2 )− 2 exp − 2 (yt − µ)2 · Φ(− )
 2σ  σ
yt =1
T1 = numero di osservazioni per cui yt > 0 e T0 = T −T1 . La log verosimiglianza

è:
T1 1 X µ
ln L = − ln(2πσ 2 ) − 2 (yt − µ)2 − T0 ln Φ(− )
2 2σ σ
yt =1
e le condizioni del primo ordine sono:

µ
∂ ln L 1 X T0 φ(− σ )
=0⇒ 2 (yt − µ) + =0
∂µ σ σ Φ(− µ )
yt =1
σ
µ
∂ ln L T1 1 X φ(− ) µ
=0⇒− 2 + 4 (yt − µ)2 − T0 σ − =0
∂σ 2 2σ 2σ µ 2σ 3
yt =1 Φ(− )
σ
E’ quindi necessario utilizzare un metodo numerico per la massimizzazione della

funzione di verosimiglianza
4) Il lavoratore partecipa se Wt > WR , quindi se yt∗ > 0
yt∗ = Wt − WR
yt∗ = (β1 − WR ) + β2 x2t + β3 x3t + β4 Dt + εt
yt∗ = β1∗ + β2 x2t + β3 x3t + β4 Dt + εt
β1∗ = (β1 − W R ) = intercetta del modello
p(yt = 1) = p(yt∗ > 0) = p(εt > −β1 − β2 x2t − β3 x3t − β4 Dt ) =

= Φ(zt )
con zt = β1 + β2 x2t + β3 x3t + β4 Dt = x0t β
(1×4)(4×1)
La funzione di verosimiglianza è:
  
Y Y
L =  p(yt = 1)  p(yt = 0) =
{yt =1} {yt =0}
  
Y Y
=  Φ(zt )  [1 − Φ(zt )] =
{yt =1} {yt =0}
0
zt = xt β
e la funzione di log-verosimiglianza è:

X X
→ ln L = ln Φ(zt ) + ln[1 − Φ(zt )]
yt =1 yt =0
mentre le condizioni del primo ordine sono:
∂ ln L X φ(zt ) X φ(zt )
=0 ⇒ + =0
∂β1 Φ(zt ) 1 − Φ(zt )
yt =1 yt =0
Si noti che:
∂Φ(zt ) ∂Φ(zt ) ∂zt
= · = Φ(zt )
∂β1 ∂zt ∂β1
=0 ⇒ xit + xit = 0, i = 2, 3, 4
∂βi Φ(zt ) 1 − Φ(zt )
yt =1 yt =0
5.5. SOLUZIONI 183
che deriva da:

∂Φ(zt ) ∂Φ(zt ) ∂zt
= · = φ(zt ) · xit
∂βi ∂zt ∂βi
In forma vettoriale abbiamo:
=0 ⇒ xt + xt = 0
∂β Φ(zt ) (4×1) 1 − Φ(zt ) (4×1)
yt =1 yt =0
(4×1)
dove:
P
significa sommatoria rispetto a tutte le osservazioni con yt = 1
yP
t =1
significa sommatoria rispetto a tutte le osservazioni con yt = 0
yt =0
Se εt ∼ logistica, abbiamo:
eεt
F (εt ) =
1 + eεt
eεt
f (εt ) =
(1 + eεt )2
1
1 − F (εt ) =
1 + eεt
La funzione di verosimiglianza è:
  
Y Y
L= F (zt )  [1 − F (zt )]
yt =1 yt =0
e la funzione di log-verosimiglianza è:
X X
ln L = [zt − ln(1 + ezt )] − ln(1 + ezt ) =
yt =1 yt =0
X T
X
= zt − ln(1 + ezt )
yt =1 t=1
Le condizioni del primo ordine per lo stimatore di massima verosimiglianza sono:
T
∂ ln L X X ezt
=0 ⇒ xt − ln · xt = [0]
∂β 1 + ezt
yt =1 t=1
dove zt = x0t β. Occorre utilizzare un metodo di massimizzazione numerica per

ricavare la stima di massima verosimiglianza.
5) Si scrive  
y1
 .. 
∗
y =
 . 

(T +1)×1  yT 
yT +1
e si aggiunge un regressore dt =0 ∀t ∈ [1, T ] e = 1 per t = T + 1 e si aggiunge
l’osservazione T + 1 sulle x.
y∗ = X∗ β∗ +ε∗
(T +1)×(k+1)(k+1)×1

∗ β
β =
γ
β = vettore k × 1 parametri modello di partenza
γ = parametro sulla variabile dummy puntuale.
Si stima allora β ∗ con OLS:
∗ 0 0
β̂OLS = (X∗ X∗ )−1 X∗ y∗
0 0
ottenendo una stima che coincide con β̂OLS = (X X)−1 X y per i primi k elementi
di β, mentre γ̂ è:
γ̂ = yT +1 − ŷT +1
dove:
ŷT +1 = x0T +1 β̂OLS
∗
La stima della varianza dell’errore di previsione è:
Vb (γ̂) = σ̂ 2 qk+1,k+1 ,
qk+1,k+1 = elemento sulla riga k+1, colonna k+1 di Q
0
Q = (X∗ X∗ )−1
6) a) Costruiamo il seguente MRL:
yt = β1 + β2 pt + β3 zt + β4 rt + β5 Dt + εt
dove:
0 fino al 3o trimestre 1990

Dt =
1 oltre
Si stima il MRL con OLS e si verifica la significatività del coefficiente β5 utilizzando
il test t:
βb5
t β5 = q ∼ t95
H0
Vb (βb5 )
5.5. SOLUZIONI 185
dato che T = 100 (osservazioni trimestrali dal 1970:1 al 1994:4), k = 5.

b) Si stima
yt = β1 + β2 pt + β3 zt + β4 rt + β5 Dt + β6 (Dt rt ) + εt
con OLS (la variabile Dt è definita come al punto (a))
c) Si verifica l’ipotesi congiunta:

β5 = 0
H0 :
β6 = 0
contro

β5 6= 0
H1 :
e/o β6 6= 0
con un test LM, di W ald o LR, che hanno una distribuzione sotto H0 χ22 o F2,95 .
d) Si specifica il seguente MRL:
yt = β1 + β2 pt + β3 zt + β4 rt + β5 Dt +
+β6 (Dt pt ) + β7 (Dt zt ) + β8 (Dt rt ) + εt
Si stima il modello con OLS e si verifica l’ipotesi:
H0 : β5 = β6 = β7 = β8 = 0
contro
H1 : β5 6= 0 e/o β6 6= 0 e/o β7 6= 0 e/o β8 6= 0
con test LM, di W ald o LR. La distribuzione di riferimento è χ24 per i test in
forma χ2 e F4,92 per il test di W ald in forma F .

(Ebook - Ita - Economia Amisano, Gianni - Lezioni Di A

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

(Ebook - Ita - Economia Amisano, Gianni - Lezioni Di A

Caricato da

Copyright:

Formati disponibili

Lezioni di Econometria

1 Modelli economici e modelli econometrici 9

3 Richiami di inferenza statistica 43

4 Il modello di regressione lineare 81

4.2.2 Metodo della massima verosimiglianza. . . . . . . . . . . 88

4.16.5 Esercizio 5 . . . . . . . . . . . . . . . . . . . . . . . . . 149

5 Variabili di comodo e variabili troncate 153

Modelli economici e modelli

1.1 Il significato del termine econometria

“obiettivo della Econometric Society è la promozione di studi che

L’econometria quindi si compone dell’unione di matematica, statistica, teoria

1.2 Forma usuale dei modelli econometrici

private, anche le autorità di politica economica (governi e banche centrali) e le isti-

1.3 Modelli econometrici

• un insieme di equazioni comportamentali che collegano tra loro più variabili

Ad esempio, il famoso modello di M. Friedman del comportamento dei consu-

1.4 Aspetti essenziali dell’analisi econometrica

1. Formulare un modello in forma empiricamente verificabile attraverso la scel-

• forma funzionale della relazione. A questo proposito, nella maggior

In questo capitolo esponiamo gli elementi di algebra matriciale e di matematica che

2.1 Operatori sommatoria e produttoria

Le proprietà di questi operatori sono intuitive e facilmente verificabili.

2.2 Matrici e vettori

2.2.1 Tipologia di matrici

aij = aji , ∀i, j

A = {aij } , aij = 0, ∀i < j.

A = {aij } , aij = 0, ∀i > j.

B = A0 = {bij } , bij = aji , , ∀i, j.

La matrice A0 viene quindi ottenuta “trasformando” le colonne di A in righe di A0 .

2.2.2 Operazioni matriciali

Date due matrici A e B, entrambe di dimensioni (m × n), è possibile definire la

Nello stesso modo si definisce la differenza tra due matrici A e B, entrambe di

Dati due vettori (n × 1) a e b, si definisce prodotto interno tra tali vettori la

Date le matrici A, di dimensioni (m×n) e B, di dimensioni (n×p), il prodotto

1. Proprietà distributiva: se A è una matrice (m × n) e B e C sono matrici

2. Proprietà associativa: date le matrici A, B, C di dimensioni opportune, si

Moltiplicazione per una grandezza scalare

C = c · A = A·c = {cij } , cij = c · aij , i = 1, 2, . . . , m, , j = 1, 2, . . . n.

2.2.3 Vettori particolari

Tale vettore se post-moltiplica una matrice A di dimensione (m × n) genera

Il vettore somma di dimensione (m × 1), se trasposto e utilizzato a premolti-

Il vettore estrazione uin , di dimensione (n × 1), è definito come un vettore di ele-

Il vettore estrazione uin , se utilizzato per post-moltiplicare una matrice A di

Se invece il vettore estrazione uim viene trasposto e utilizzato per pre-moltiplicare

2.2.4 Traccia di una matrice quadrata

Le proprietà dell’operatore traccia sono le seguenti:

tr(A · B) = tr(B · A),

2.2.5 Matrici partizionate

In caso di prodotto matriciale tra matrici conformabili per il prodotto all’interno

2.2.6 Il determinante di una matrice quadrata

dove Aij è la matrice che si ottiene a partire da A sopprimendone la riga i-esima e

Data l’espressione con cui si ricava il determinante, risulta particolarmente fa-

Si noti che, date le matrici quadrate (n × n) A e B, si ha:

2.2.7 La matrice aggiunta

(la matrice aggiunta pre-moltiplicata o post-moltiplicata per A genera una matrice

2.2.8 La matrice inversa

(il determinante dell’inversa è pari al reciproco del determinante, quando il deter-

2.2.9 Alcune proprietà rilevanti

(si noti l’inversione di ordine tra i fattori)

• Date due matrici quadrate, di dimensioni (nn) ed invertibili A (mn) e B (np),

(si noti l’inversione di ordine tra i fattori).

• Data una matrice quadrata ed invertibile A (n×n), la trasposta della matrice

(A−1 )0 = (A0 )−1 .