Sei sulla pagina 1di 185

Lezioni di Econometria

Gianni Amisano

Febbraio 1999
2
Premessa

Queste note, che costituiscono il materiale di riferimento per gli studenti del corso
di econometria attivato presso la Facoltà di Economia dell’Università di Brescia,
sono il risultato della composizione di diverse fonti di riferimento.
Un elenco (purtroppo non esaustivo) di tali fonti deve necessariamente comin-
ciare con l’ottimo testo di Maddala (Maddala, 1992: “Introductory Econometrics”)
che a tutt’oggi rappresenta uno dei migliori testi di econometria adatti per un pri-
mo corso. La trattazione di Maddala, carente sotto l’aspetto della rappresentazione
matriciale degli argomenti, è stato integrata facendo riferimento ad altre fonti. Ho
attinto largamente dallo splendido libro di W. Greene (“Econometric Analysis”, 3rd
edition, 1997), dove si trovano trattati ad un ottimo livello teorico una vastissima
gamma di tecniche econometriche. Le parti relative all’analisi delle serie stori-
che sono ispirate alla lettura del libro di J.D.Hamilton (“Time Series Analysis”,
Princeton University Press, 1994).
Queste note si articolano in diverse parti. La prima parte copre tutti gli argo-
menti fondamentali di un primo corso di econometria, mentre la seconda è una par-
te monografica che ricomprende alcuni argomenti particolari e più avanzati. Cia-
scun capitolo di queste note si chiude con un insieme di esercizi svolti che servono
ad aiutare gli studenti nella preparazione per l’esame. Un aspetto complementare
della preparazione all’esame è costituito dalla parallela attività di esercitazione che
sarà svolta in classe utilizzando i software applicativi Gauss e Microfit disponi-
bili presso il laboratorio informatico della Facoltà di Economia dell’Università di
Brescia.
Gli studenti sono caldamente invitati a contattarmi ogni volta che abbiano pro-
blemi di comprensione o di ogni altro tipo. Sono contattabile presso il Diparti-
mento di Scienze Economiche dell’Università di Brescia (via San Faustino 74B)
o tramite e-mail all’indirizzo amisano@eco.unibs.it. Tutto il materiale
distribuito agli studenti sarà depositato alla CLUB (corso Mameli) e disponibile
elettronicamente alla mia pagina web:
(http://www.eco.unibs.it/˜amisano/index.html)
Desidero ringraziare gli studenti del corso di econometria dell’anno accademi-
co 1997/8 e anticipatamente quelli del corrente anno accademico, che mi hanno
segnalato e sicuramente mi segnaleranno molti tra i refusi sicuramente presenti in
queste note.

3
4
Indice

1 Modelli economici e modelli econometrici 9


1.1 Il significato del termine econometria . . . . . . . . . . . . . . . 9
1.2 Forma usuale dei modelli econometrici . . . . . . . . . . . . . . . 10
1.3 Modelli econometrici . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Aspetti essenziali dell’analisi econometrica . . . . . . . . . . . . 12

2 Richiami matematici 13
2.1 Operatori sommatoria e produttoria . . . . . . . . . . . . . . . . . 13
2.2 Matrici e vettori . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Tipologia di matrici . . . . . . . . . . . . . . . . . . . . . 14
2.2.2 Operazioni matriciali . . . . . . . . . . . . . . . . . . . . 16
2.2.3 Vettori particolari . . . . . . . . . . . . . . . . . . . . . . 17
2.2.4 Traccia di una matrice quadrata . . . . . . . . . . . . . . 19
2.2.5 Matrici partizionate . . . . . . . . . . . . . . . . . . . . . 19
2.2.6 Il determinante di una matrice quadrata . . . . . . . . . . 19
2.2.7 La matrice aggiunta . . . . . . . . . . . . . . . . . . . . . 20
2.2.8 La matrice inversa . . . . . . . . . . . . . . . . . . . . . 20
2.2.9 Alcune proprietà rilevanti . . . . . . . . . . . . . . . . . 21
2.2.10 Matrici idempotenti . . . . . . . . . . . . . . . . . . . . . 22
2.2.11 Spazio vettoriale . . . . . . . . . . . . . . . . . . . . . . 22
2.2.12 Base di uno spazio vettoriale . . . . . . . . . . . . . . . . 23
2.2.13 Sottospazio vettoriale . . . . . . . . . . . . . . . . . . . . 23
2.2.14 Rango di una matrice . . . . . . . . . . . . . . . . . . . . 24
2.2.15 Indipendenza lineare di vettori . . . . . . . . . . . . . . . 25
2.2.16 Autovalori e autovettori . . . . . . . . . . . . . . . . . . 25
2.2.17 Serie geometriche di matrici . . . . . . . . . . . . . . . . 27
2.2.18 Matrici definite, semidefinite positive e negative . . . . . . 27
2.2.19 Prodotto di Kronecker (prodotto tensore) . . . . . . . . . 29
2.2.20 L’operatore vec . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Funzioni in più variabili . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.1 Derivate parziali prime e seconde . . . . . . . . . . . . . 31
2.3.2 Alcune semplici regole di derivazione per funzioni in più
variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5
6 INDICE

2.3.3 Ottimizzazione . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.4 Ottimizzazione vincolata . . . . . . . . . . . . . . . . . . 34
2.4 Esercizi su richiami di matematica . . . . . . . . . . . . . . . . . 36
2.5 Soluzioni agli esercizi . . . . . . . . . . . . . . . . . . . . . . . . 37

3 Richiami di inferenza statistica 43


3.1 Variabile casuale . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Distribuzione di probabilità . . . . . . . . . . . . . . . . . . . . . 43
3.3 Funzione di ripartizione . . . . . . . . . . . . . . . . . . . . . . . 44
3.4 Momenti di una variabile casuale . . . . . . . . . . . . . . . . . . 46
3.5 La distribuzione normale . . . . . . . . . . . . . . . . . . . . . . 47
3.6 Inferenza statistica parametrica . . . . . . . . . . . . . . . . . . . 48
3.7 Proprietà degli stimatori . . . . . . . . . . . . . . . . . . . . . . 49
3.7.1 Non distorsione o correttezza . . . . . . . . . . . . . . . . 49
3.7.2 Efficienza . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.7.3 Consistenza . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.7.4 La legge dei grandi numeri (Versione più semplice) . . . . 51
3.7.5 Teorema centrale del limite . . . . . . . . . . . . . . . . . 52
3.8 Variabili casuali in più dimensioni . . . . . . . . . . . . . . . . . 53
3.8.1 La covarianza . . . . . . . . . . . . . . . . . . . . . . . . 54
3.9 Distribuzione normale multivariata . . . . . . . . . . . . . . . . . 55
3.10 Alcune distribuzioni notevoli . . . . . . . . . . . . . . . . . . . . 57
3.10.1 La distribuzione χ2 . . . . . . . . . . . . . . . . . . . . . 57
3.10.2 La distribuzione t di Student . . . . . . . . . . . . . . . . 57
3.10.3 La distribuzione F di Fisher . . . . . . . . . . . . . . . . 59
3.11 La funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . 60
3.12 Stima di massima verosimiglianza . . . . . . . . . . . . . . . . . 62
3.13 Metodo dei momenti . . . . . . . . . . . . . . . . . . . . . . . . 62
3.14 Proprietà degli stimatori ottenuti per campionamento da una distri-
buzione gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.15 Stima per intervallo . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.16 Prova delle ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.17 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.18 Soluzioni agli esercizi . . . . . . . . . . . . . . . . . . . . . . . . 72

4 Il modello di regressione lineare 81


4.1 Concetti fondamentali . . . . . . . . . . . . . . . . . . . . . . . . 81
4.1.1 Il ruolo del termine di disturbo e le sue proprietà . . . . . 82
4.1.2 Ipotesi sui regressori . . . . . . . . . . . . . . . . . . . . 83
4.1.3 Rappresentazione matriciale del modello di regressione li-
neare . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.1.4 Ricapitolando . . . . . . . . . . . . . . . . . . . . . . . . 85
4.2 Stima dei parametri . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.2.1 Metodo dei momenti (MM) . . . . . . . . . . . . . . . . 86
INDICE 7

4.2.2 Metodo della massima verosimiglianza. . . . . . . . . . . 88


4.2.3 Metodo dei minimi quadrati (OLS=ordinary least squares) 90
4.2.4 Aspetti algebrici dello stimatore OLS . . . . . . . . . . . 93
4.2.5 Ricapitolazione sulla stima OLS dei parametri β . . . . . 96
4.2.6 Interpretazioni alternative della stima OLS di un MRL . . 96
4.3 Stima del momento secondo (σ 2 ) . . . . . . . . . . . . . . . . . . 100
4.4 Analisi della varianza . . . . . . . . . . . . . . . . . . . . . . . . 101
4.5 Regressione partizionata . . . . . . . . . . . . . . . . . . . . . . 102
4.6 Anticipazione su test congiunti . . . . . . . . . . . . . . . . . . . 103
4.7 Inferenza statistica sul modello di regressione . . . . . . . . . . . 104
4.7.1 Costruzione di intervalli di confidenza . . . . . . . . . . . 104
4.7.2 Prova delle ipotesi . . . . . . . . . . . . . . . . . . . . . 106
4.7.3 Un utile esempio: il MRL con 3 regressori . . . . . . . . 109
4.7.4 Inferenza statistica nel modello di regressione multipla . . 112
4.7.5 Esempio di regressione multipla con k = 3 regressori . . . 114
4.8 La previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.9 Diversi modi di costruire Test: Test LR, di Wald, LM . . . . . . . 119
4.9.1 Il test LR . . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.9.2 Il test di Wald . . . . . . . . . . . . . . . . . . . . . . . . 121
4.9.3 Test LM (Lagrange Multipliers) (test dei moltiplicatori di
Lagrange) . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.9.4 Ricapitolazione sulle modalità di costruzione dei test . . . 126
4.10 Stima del modello soggetto a vincoli lineari sui parametri . . . . . 127
4.10.1 Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . 129
4.11 Effetti dell’omissione di variabili rilevanti . . . . . . . . . . . . . 131
4.12 Effetti dell’inclusione di variabili irrilevanti . . . . . . . . . . . . 134
4.13 Gradi di libertà e indice R2 . . . . . . . . . . . . . . . . . . . . . 136
4.13.1 Relazione tra test di significatività t, test F e indice R̄2 . . 137
4.14 Test di stabilità del MRL . . . . . . . . . . . . . . . . . . . . . . 138
4.14.1 Test basati sull’analisi della varianza . . . . . . . . . . . . 138
4.14.2 Test previsivo di stabilità . . . . . . . . . . . . . . . . . . 139
4.14.3 Alcuni commenti ai test di stabilità strutturale . . . . . . . 140
4.15 Eserciziario sulla regressione lineare . . . . . . . . . . . . . . . . 141
4.15.1 Esercizio 1 . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.15.2 Esercizio 2 . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.15.3 Esercizio 3 . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.15.4 Esercizio 4 . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.15.5 Esercizio 5 . . . . . . . . . . . . . . . . . . . . . . . . . 143
4.15.6 Esercizio 6 . . . . . . . . . . . . . . . . . . . . . . . . . 143
4.16 Soluzioni agli esercizi . . . . . . . . . . . . . . . . . . . . . . . . 143
4.16.1 Esercizio 1 . . . . . . . . . . . . . . . . . . . . . . . . . 143
4.16.2 Esercizio 2 . . . . . . . . . . . . . . . . . . . . . . . . . 145
4.16.3 Esercizio 3 . . . . . . . . . . . . . . . . . . . . . . . . . 145
4.16.4 Esercizio 4 . . . . . . . . . . . . . . . . . . . . . . . . . 147
8 INDICE

4.16.5 Esercizio 5 . . . . . . . . . . . . . . . . . . . . . . . . . 149


4.16.6 Esercizio 6 . . . . . . . . . . . . . . . . . . . . . . . . . 150

5 Variabili di comodo e variabili troncate 153


5.1 Variabili di comodo come variabili esplicative . . . . . . . . . . . 153
5.1.1 Variabili di comodo a correzione di intercetta . . . . . . . 153
5.1.2 Variabili dummy a correzione di intercetta per trattare dati
con stagionalità . . . . . . . . . . . . . . . . . . . . . . . 155
5.1.3 Variabili dummy a correzione di intercetta per ”outliers” . 156
5.1.4 Variabili dummy a correzione di intercetta e di pendenza . 157
5.1.5 Variabili dummy per provare l’ipotesi di stabilità dei coef-
ficienti di regressione . . . . . . . . . . . . . . . . . . . . 158
5.1.6 Test di Chow del secondo tipo (o test di validità previsiva) 159
5.2 Variabili dummy come variabili dipendenti . . . . . . . . . . . . . 160
5.2.1 Modello di probabilità lineare . . . . . . . . . . . . . . . 161
5.2.2 Alcune anticipazioni sulla stima di modelli con disturbi
eteroschedastici . . . . . . . . . . . . . . . . . . . . . . . 162
5.2.3 Stima del modello di probabilità lineare . . . . . . . . . . 164
5.2.4 Modelli probit e logit . . . . . . . . . . . . . . . . . . . . 165
5.2.5 Modello Probit . . . . . . . . . . . . . . . . . . . . . . . 169
5.2.6 Effetti di variazioni delle variabili esplicative . . . . . . . 170
5.2.7 Indici di bontà di adattamento del modello . . . . . . . . . 171
5.3 Il modello Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
5.5 Soluzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
Capitolo 1

Modelli economici e modelli


econometrici

1.1 Il significato del termine econometria


Il termine econometria significa letteralmente misurazione in economia. Con il
termine econometria ci si riferisce ad una disciplina scientifica basata sull’applica-
zione di metodi statistici e matematici per l’analisi di dati economici con l’intento
di dare riscontro empirico alle teorie economiche.
Nel 1933 viene pubblicato il primo numero della rivista scientifica Econometri-
ca , fondata dalla Econometric Society. Nel primo numero della rivista l’editoriale
stabiliva:

“obiettivo della Econometric Society è la promozione di studi che


unifichino gli aspetti teorico-quantitativo e empirico quantitativo e che
siano caratterizzato dal modo di pensare rigoroso proprio delle scienze
naturali”.

L’econometria quindi si compone dell’unione di matematica, statistica, teoria


economica e di aspetti computazionali per i quali è stato sicuramente rilevante
l’enorme sviluppo delle capacità di calcolo degli elaboratori elettronici avvenuto
negli ultimi venti anni.
L’econometria si basa sullo studio formalizzato di modelli economici. Per mo-
dello economico intendiamo una rappresentazione schematizzata della realtà di un
fenomeno economico, quali ad esempio il comportamento individuale o collettivo
dei consumatori, l’offerta di lavoro, le modalità operative delle autorità di politica
monetaria.
Generalmente, un modello economico fornisce una rappresentazione sempli-
ficata della realtà che intende spiegare. La semplicità del modello è funzionale a
consentire di comunicare facilmente i risultati ottenuti dall’analisi del modello. La
semplicità del modello deriva dall’adozione di ipotesi di partenza semplificatrici,
finalizzate ad astrarre da quegli aspetti della realtà osservata che non sono rilevanti

9
10 CAPITOLO 1. MODELLI ECONOMICI E MODELLI ECONOMETRICI

per il fenomeno che si intende studiare. In sintesi, per modello economico si inten-
de un insieme di assunzioni finalizzate alla descrizione di un particolare fenomeno
economico.
Negli ultimi decenni la teoria economica ha assunto aspetti di crescente forma-
lizzazione. Molto spesso i modelli economici prendono la forma di equazioni che
connettono misurazioni dei fenomeni che si intendono spiegare (ad esempio la di-
soccupazione, il consumo aggregato, i profitti di un settore industriale . . . ) ai valori
assunti da una serie di variabili che si intendono misurare le cause del fenomeno
oggetto di indagine. Quando il modello economico prende la forma di relazioni
matematiche, è possibile utilizzare i dati disponibili sul fenomeno studiato per ve-
rificare la rispondenza del modello stesso alla realtà osservata. La verifica empirica
(sulla base dei dati disponibili) della validità dei modelli economici costituisce uno
degli scopi fondamentali dell’analisi econometrica.

1.2 Forma usuale dei modelli econometrici


In generale, un modello econometrico assume la forma:

yt = f (xt ) + t , t = 1, 2, . . . , T,
dove yt è un vettore (n × 1) di variabili che il modello intende spiegare (variabili
endogene) che si riferiscono all’osservazione t-esima del campione in esame, f è
una funzione che fa dipendere yt da un vettore (k × 1) di variabili esogene xt
(variabili esplicative), e t rappresenta un vettore (n × 1) di termini di disturbo
casuali. La componente f (xt ) viene detta parte sistematica del modello, mentre la
componente t inviene indicata come parte stocastica (o casuale) del modello.
Il più semplice esempio di modello econometrico è il seguente, dove yt , xt e εt
sono tutte grandezze scalari:

yt = α + βxt + εt , t = 1, 2, . . . , T.

Tale modello viene detto modello di regressione lineare semplice: la variabile di-
pendente yt viene fatta dipendere in modo lineare da ulla grandezza esplicativa xt
ed è influenzata dalla variabile casuale εt .
La presenza della componente stocastica implica che il modello debba essere
trattato con tecniche inferenziali. L’aspetto fondamentale è quello della stima, cioè
dell’utilizzazione di un campione di dati osservabili sulle variabili yt e xt per de-
terminare quale sia la configurazione della parte sistematica del modello meglio in
grado di spiegare il comportamento campionario delle variabili endogene.
Accanto allo scopo di verifica empirica dei modelli economici, l’econometria si
rivolge tradizionalmente anche alla produzione di modelli previsivi utilizzati da di-
verse istituzioni. Gli intermediari finanziari, e più in generale ogni impresa produt-
tiva in grado di dedicare risorse alla programmazione delle proprie attività future
trova naturalmente utile disporre di scenari sul valore futuro delle variabili econo-
miche che influiscono sull’andamento dei costi e dei ricavi. Accanto alle istituzioni
1.3. MODELLI ECONOMETRICI 11

private, anche le autorità di politica economica (governi e banche centrali) e le isti-


tuzioni di coordinamento internazionale (Fondo Monetario Internazionale, Banca
Mondiale ecc. . . ) necessitano di disporre di previsioni affidabili sull’andamento di
grandezze economiche di rilievo nazionale o internazionale (cambi, prezzi, entrate
ed uscite del settore pubblico). Tali previsioni possono essere fondate sull’utilizzo
di modelli econometrici adattati ai dati osservati per i fenomeni di interesse.

1.3 Modelli econometrici


Per modello econometrico intendiamo:

• un insieme di equazioni comportamentali che collegano tra loro più variabili


economiche e una struttura di componenti casuali, detti termini di disturbo;
• un insieme di affermazioni relative alla qualità dei dati utilizzati per la stima
del modello: per esempio la presenza o la rilevanza di errori di misurazione
nelle variabili utilizzate;
• la specificazione della distribuzione di probabilità dei disturbi e degli errori
di misurazione nelle variabili utilizzate.

Ad esempio, il famoso modello di M. Friedman del comportamento dei consu-


matori basato sul reddito permanente può essere formalizzato nel modo seguente:

ci = α · yi∗ + εi
yi∗ = yi + ηi
p(εi ) ∼ N (0, σε2 )
p(ηi ) ∼ N (0, ση2 )

In questo esempio la spesa per consumo individuale dell’individuo i-esimo (ci ) vie-
ne ipotizzata proporzionale al reddito permanente di tale individuo (yi∗ ). Inoltre si
ipotizza che le decisioni di consumo individuali siano influenzata da un termine di
disturbo εi che rappresenta le caratteristiche individuali non esplicitamente misu-
rabili dell’individuo i-esimo. Il reddito permanente dell’individuo i-esimo yi∗ non è
osservabile e differisce dal suo livello di reddito corrente (yi ) per via di un termine
casuale ηi che costituisce necessariamente l’errore di misurazione quando si in-
tenda spiegare il comportamento di consumo sulla base del reddito osservabile.Si
ipotizza che i termini di disturbo i e gli errori di misurazione ηi siano variabili
casuali distribuite secondo una legge di distribuzione gaussiana (o Normale). Il
simbolo ∼ indica “si distribuisce come”.
Un altro esempio è dato dalla funzione di domanda di un determinato bene:

qtd = α + β · pt + ut
ut ∼ N (0, σu2 )
12 CAPITOLO 1. MODELLI ECONOMICI E MODELLI ECONOMETRICI

In questo esempio, la quantità domandata del bene all’istante t-esimo (qtd ) viene
ipotizzata dipendere linearmente dal prezzo del bene allo stesso istante (pt ). Inoltre
si ipotizza che la domanda sia influenzata da un termine di disturbo ut distribuito
normalmente.
Nei modelli econometrici i termini di disturbo sono variabili inosservabili che
descrivono l’effetto sulla varibile dipendente di tutto quello che non può essere
ricompreso nella parte sistematica del modello.

1.4 Aspetti essenziali dell’analisi econometrica


Le fasi dell’analisi econometrica sono le seguenti.

1. Formulare un modello in forma empiricamente verificabile attraverso la scel-


ta di alcuni aspetti fondamentali quali:

• forma funzionale della relazione. A questo proposito, nella maggior


parte delle applicazioni econometriche si è soliti ricorrere ad una for-
ma funzionale di tipo lineare. Tale scelta risponde essenzialmente alla
necessità di rendere più semplici gli aspetti computazionali.
• Variabili da inserire: si tratta di definire l’insieme di variabili esplicati-
ve (dette “regressori”) contenute nel vettore xt .
• Struttura probabilistica dei disturbi. Nell’analisi econometrica tradi-
zionale è consuetamente utilizzata l’ipotesi di distribuzione normale
dei termini di disturbo.

2. Stima del modello. I dati disponibili vengono utilizzati per generare stime
del modello econometrico. Nella maggior parte dei casi, la stima si concreta
nell’ottenimento di valori per i parametri del modello.

3. Uso del modello: il modello viene utilizzato per verificare la validità di teorie
economiche, per produrre previsioni, per svolgere simulazioni di politica
economica, cioè per simulare gli effetti di manovre di politiche economiche
alternative.
Capitolo 2

Richiami matematici

In questo capitolo esponiamo gli elementi di algebra matriciale e di matematica che


sono necessari all’analisi econometrica oggetto degli argomenti trattati nel corso.
Gli argomenti sono raggruppati per omogeneità e sono trattati al livello di formaliz-
zazione richiesto dalla loro successiva utilizzazione. Gli studenti sono caldamente
invitati a svolgere molti esercizi per impratichirsi con le operazioni matriciali.

2.1 Operatori sommatoria e produttoria


P
L’operatore sommatoria è indicato con il simbolo e serve ad indicare operazioni
di somma in modo compatto. L’operatore sommatoria è accompagnato da una
coppia di indici che determinano l’insieme degli addendi. Ad esempio:
n
X
ai = a1 + a2 + . . . + an
i=1
Q
L’operatore produttoria è indicato con il simbolo e serve ad indicare ope-
razioni di prodotto in modo compatto. L’operatore produttoria è accompagnato da
una coppia di indici che determinano l’insieme dei fattori. Ad esempio:
n
Y
ai = a1 · a2 · . . . · an
i=1

Le proprietà di questi operatori sono intuitive e facilmente verificabili.

2.2 Matrici e vettori


In questa sezione vengono descritti alcuni elementi fondamentali dell’algebra delle
matrici necessari per la trattazione degli argomenti ricompresi all’interno del corso.
Per matrice si intende un insieme di numeri ordinati su m ≥ 1 righe e n ≥ 1
colonne. Per indicare una matrice si utilizza la notazione:

13
14 CAPITOLO 2. RICHIAMI MATEMATICI

 
a11 a12 . . . a1n
 a21 a22 . . . a2n 
A = {aij } = 
 ... ...

(m×n) ... ... 
an1 an2 . . . ann
Si noti che gli elementi della matrice A sono caratterizzati da due indici, il
primo dei quali identifica la riga ed il secondo identifica la colonna di appartenza.
Ad esempio, l’elemento sulla quarta riga, sesta colonna è indicato con a46 . Una
matrice si dice di ordini m e n quando ha m righe e n colonne.
Per vettore si indica una matrice particolare caratterizzata dall’avere una sola
riga (vettore riga) o una sola colonna (vettore colonna ). Ad esempio:

 
1
 2 
a = 
 4 ,

(4×1)
7
 
b = 4 3 2 5 7
(1×5)

2.2.1 Tipologia di matrici


Una matrice (n × n) si dice quadrata di ordine n quando il numero di righe è pari
al numero delle sue colonne.
Una matrice quadrata A (n × n) si dice simmetrica quando:

aij = aji , ∀i, j


Ad esempio la matrice:
 
1 2 4
A =  2 5 7 
(3×3)
4 7 4
è simmetrica, mentre la matrice
 
1 2 5
A = 2 5 7 
(3×3)
4 7 4
non lo è (confrontate gli elementi a13 e a31 ).
Una matrice quadrata A, di dimensione (n × n) si dice diagonale quando:

A = {aij } , aij = 0, ∀i 6= j.
Ad esempio, la matrice
2.2. MATRICI E VETTORI 15

 
2 0 0
A= 0
 4 0 
0 0 7
è chiaramente diagonale.
Una matrice quadrata A, di dimensione (n × n) si dice triangolare inferiore
quando:

A = {aij } , aij = 0, ∀i < j.


Ad esempio, la matrice
 
3 0 0 0
 4 7 0 0 
A=
 5

5 2 0 
8 5 6 4
è triangolare inferiore.
Una matrice quadrata A, di dimensione (n × n) si dice triangolare superiore
quando:

A = {aij } , aij = 0, ∀i > j.


Ad esempio, la matrice
 
3 4 5 8
 0 7 3 3 
A=
 0

0 2 6 
0 0 0 4
è triangolare superiore.
Una matrice quadrata A, di dimensione (n × n) si dice matrice identità e si
indica In se:

A = {aij } ,
aij = 0, ∀i 6= j,
aii = 1, ∀i.

Ad esempio:
 
1 0 0 0
 0 1 0 0 
I4 = 
 0
.
0 1 0 
0 0 0 1
Data una matrice A di dimensioni (n×m), la matrice B, di dimensione (m×n)
si dice trasposta di A, e si indica con il simbolo A0 ed è definita come:
16 CAPITOLO 2. RICHIAMI MATEMATICI

B = A0 = {bij } , bij = aji , , ∀i, j.

La matrice A0 viene quindi ottenuta “trasformando” le colonne di A in righe di A0 .


Ad esempio:
   
1 2 0 1 4
A= ,A = .
4 3 2 3

2.2.2 Operazioni matriciali


Somma e differenza tra matrici

Date due matrici A e B, entrambe di dimensioni (m × n), è possibile definire la


matrice (m × n) C, definita comme somma di A e B:

C = A + B = {cij } ,
cij = aij + bij , ∀i, j.

Nello stesso modo si definisce la differenza tra due matrici A e B, entrambe di


dimensioni (m × n), la matrice (m × n) C:

C = A − B = {cij } ,
cij = aij − bij , ∀i, j.

Prodotto

Dati due vettori (n × 1) a e b, si definisce prodotto interno tra tali vettori la


grandezza scalare:
n
X
a0 b = b0 a = (ai · bi ) .
i=1

Date le matrici A, di dimensioni (m×n) e B, di dimensioni (n×p), il prodotto


matriciale tra A e B è la matrice C, di dimensione (m × p)definita come:

C = A · B = {cij } ,
n
X
cij = aik · bkj , i = 1, 2, . . . m, j = 1, 2, . . . , p.
k=1

In altri termini C è una matrice il cui elemento generico cij è dato dal prodotto
interno tra la i-esima riga di A e la j-esima colonna di B. Ad esempio:
2.2. MATRICI E VETTORI 17

 
  1 0  
1 3 6 4 21
· 1
 1 =
 .
2 3 4 5 15
0 3
Si noti che l’operazione di prodotto matriciale non è definita per qualsiasi cop-
pia di matrici A e B, ma tali matrici debbono verificare la condizione di confor-
mabilità per il prodotto: il numero di colonne del primo fattore A deve essere pari
al numero di righe del secondo fattore B.
Si noti che ovviamente, A · B in generale è diverso da B · A: in generale
quando il prodotto A · B è possibile non è neppure detto che B · A lo sia.
Il prodotto e la somma matriciale hanno le seguenti proprietà:

1. Proprietà distributiva: se A è una matrice (m × n) e B e C sono matrici


(n × q):
A·(B + C) = A · B + A · C.

2. Proprietà associativa: date le matrici A, B, C di dimensioni opportune, si


ha:

(A + B) + C = A + (B + C),
(A · B) ·C = A· (B · C)

Moltiplicazione per una grandezza scalare


Data la matrice (m × n) A e la grandezza scalare c, è possibile definire la matrice
C, di dimensioni (m × n) derivante dal prodotto scalare di c per A:

C = c · A = A·c = {cij } , cij = c · aij , i = 1, 2, . . . , m, , j = 1, 2, . . . n.

2.2.3 Vettori particolari


Il vettore somma
Si definisca il vettore somma di dimensione (n × 1):
 
1
 1 
in =  
 ... 
1

Tale vettore se post-moltiplica una matrice A di dimensione (m × n) genera


un vettore c (m × 1) che contiene le somme degli elementi sulle singole righe di
A:
n
X
A · in = c = {ci } , ci = aij , i = 1, 2, . . . , m.
j=1
18 CAPITOLO 2. RICHIAMI MATEMATICI

Ad esempio:
 
  1  
1 2 1 4  1  8
·
  = .
3 6 1 0 1  10
1

Il vettore somma di dimensione (m × 1), se trasposto e utilizzato a premolti-


plicare una matrice A di dimensione (m × n), genera un vettore c0 , di dimensione
(1 × n) che contiene le somme degli elementi sulle singole colonne di A:

n
X
i0n 0
· A = c = {cj } , cj = aij , j = 1, 2, . . . , n.
i=1

Il vettore estrazione

Il vettore estrazione uin , di dimensione (n × 1), è definito come un vettore di ele-


menti tutti pari a zero tranne l’elemento i-esimo che è pari a uno. In altri termini è
la colonna i-esima della matrice In :
 
0

 0 

i
 ... 
un =  
 → i-esimo elemento

 1 
 ... 
0

Il vettore estrazione uin , se utilizzato per post-moltiplicare una matrice A di


dimensione (m × n) genera un vettore c di dimensione (n × 1) che coincide con
la i-esima colonna di A. Ad esempio:
 
  0  
1 2 1 4  0  1
A · u34 = ·
 1 = 1 .

3 6 1 0
0

Se invece il vettore estrazione uim viene trasposto e utilizzato per pre-moltiplicare


una matrice A di dimensione (m × n) genera un vettore di dimensione (1 × n) che
coincide con la i-esima riga di A. Ad esempio:
 
  1 0 5 6  
0 0 1  2 0 4 3 = 4 5 5 4 .
4 5 5 4
2.2. MATRICI E VETTORI 19

2.2.4 Traccia di una matrice quadrata


Sia data una matrice quadrata A di dimensione (n × n). Si definice traccia di A
(indicata come tr(A)) la somma degli elementi diagonali di A:

n
X
tr(A) = aii .
i=1

Le proprietà dell’operatore traccia sono le seguenti:

tr(A · B) = tr(B · A),


tr(A · B · C) = tr(C · A · B) = tr(B · C · A),
(invarianza rispetto a permutazioni cicliche),
tr(λ · A) = λ · tr(A), dove λ è una grandezza scalare.

2.2.5 Matrici partizionate


Data la matrice A, di dimensione (m × n), è possibile partizionare tale matrice in
diversi blocchi. Ad esempio:
 
A11 A12
(m1 ×n1 ) (m1 ×n2 )
A=  , m = m1 + m2 , n = n1 + n2
 
A21 A22
(m2 ×n1 ) (m2 ×n2 )

In caso di prodotto matriciale tra matrici conformabili per il prodotto all’interno


delle quali siano stati definiti blocchi conformabili per prodotto, si può ricavare:
   
A11 A12 B11 B12
(m1 ×n1 ) (m1 ×n2 ) (n1 ×p1 ) (n1 ×p2 )
A· B =  · =
   
(mn)(np) A21 A22 B21 B22
(m2 ×n1 ) (m2 ×n2 ) (n2 ×p1 ) (n2 ×p2 )
 
(A11 · B11 + A12 · B21 ) (A11 · B12 + A12 · B22 )
= ,
(A21 · B11 + A22 · B21 ) (A21 · B12 + A22 · B22 )
m1 + m2 = m, n1 + n2 = n, p1 + p2 = p.

2.2.6 Il determinante di una matrice quadrata


Data una matrice quadrata A, di dimensione (n × n), si definisce determinante di
A (e lo si indica con |A|) la quantità scalare:

n
X
|A| = (−1)i+j · aij · |Aij | , (2.1)
j=1
20 CAPITOLO 2. RICHIAMI MATEMATICI

dove Aij è la matrice che si ottiene a partire da A sopprimendone la riga i-esima e


la colonna j-esima. Ad esempio:
 
1 2 4
1 0

3 0

3 1

|A| =  3 1 0 =1·  −2· +4· =
0 1 1 1 1 0
1 0 1
= 1 − 6 − 4 = −9

Data l’espressione con cui si ricava il determinante, risulta particolarmente fa-


cile calcolare il determinante di una matrice triangolare. Infatti se A, di dimensione
(n × n), è triangolare (superiore o inferiore), data la (2.1), allora si ha:
n
Y
|A| = aii
i=1

In altri termini, per una matrice triangolare, il determinante è pari al prodotto degli
elementi diagonali.
Nel caso della matrice identità, è facile mostrare che il determinante è pari a 1:

|In | = 1, ∀n.

Si noti che, date le matrici quadrate (n × n) A e B, si ha:

|A · B| = |A| · |B| .

2.2.7 La matrice aggiunta


Data la matrice quadrata (n × n) A, si definisce A+ ,matrice aggiunta di A, la
matrice che soddisfa:

A+ · A = A · A+ = |A| · In .

(la matrice aggiunta pre-moltiplicata o post-moltiplicata per A genera una matrice


diagonale con elementi tutti pari al determinante di A sulla diagonale).
La matrice A+ viene ottenuta come:
n o
A+ = a+
ij ,

a+
ij = (−1)
i+j
· |Aji | .

2.2.8 La matrice inversa


6 0,si definisce A−1 la matrice inversa
Data la matrice quadrata (n×n) A,con |A| =
tale per cui:
A−1 · A = A · A−1 = In .
Data la matrice quadrata (n × n) A,con |A| =
6 0, si ha:
A = |A|−1
−1
2.2. MATRICI E VETTORI 21

(il determinante dell’inversa è pari al reciproco del determinante, quando il deter-


minante è diverso da zero).
Si noti che è possibile ottenere la matrice inversa di A come:

A−1 = |A|−1 · A+ .

(la matrice inversa può essere calcolata a partire dalla matrice aggiunta dividendo
ciascun elemento della matrice aggiunta per il determinante di A ). Si noti che è
possibile calcolare la matrice inversa solo per matrici con determinante diverso da
zero. Tali matrici vengono per questo motivo dette invertibili. Ad esempio, data la
matrice:  
1 3 5
A =  0 1 0 ,
2 1 0
si ha:
 
0 5 −5
A+ =  0 −10 0  ,
−2 5 1
|A| = −10,
0 − 21 1
 
2
A−1 =  0 1 0 .
1 1 1
5 − 2 − 10

2.2.9 Alcune proprietà rilevanti


• Date due matrici conformabili per prodotto A (m × n) e B (n × p) :

(A · B)0 = B0 · A0

(si noti l’inversione di ordine tra i fattori)

• Date due matrici quadrate, di dimensioni (nn) ed invertibili A (mn) e B (np),


vale:
(A · B)−1 = B−1 · A−1

(si noti l’inversione di ordine tra i fattori).

• Data una matrice quadrata ed invertibile A (n×n), la trasposta della matrice


inversa è uguale all’inversa della trasposta:

(A−1 )0 = (A0 )−1 .

• Data una matrice quadrata ed invertibile A (n × n) ed uno scalare c, si ha:


1
(c · A)−1 = · A−1 , ∀c 6= 0.
c
22 CAPITOLO 2. RICHIAMI MATEMATICI

2.2.10 Matrici idempotenti


La matrice quadrata A (n × n) si dice idempotente se:
Ak = A, ∀k > 0.
In altri termini, moltiplicando per sè stessa la matrice A quante volte si vuole si
ottiene sempre A. Alcuni esempi di matrice idempotente sono i seguenti:
A = [0] ,
(n×n)
A = In ,
 
1 1 ... 1
1 1 1 1 ... 1 
A = in · (i0n · in )−1 · i0n = · in · i0n = · 

.
n n  ... ... ... ... 
1 1 ... 1
Data la matrice (n × k) A tale per cui:
0
A A 6= 0,

si noti che le matrici:

B = A · (A0 · A)−1 · A0 ,
(n×n)

C = In − A · (A0 · A)−1 · A0
(n×n)

sono idempotenti (lo si verifichi moltiplicando ciascuna matrice per se stessa ).

2.2.11 Spazio vettoriale


Si consideri il vettore (k × 1) a:
 
a1
 a2 
a = 
(k×1)  . . . 
ak
può essere inteso come espressione delle coordinate del punto a nello spazio reale
k-dimensionale (Rk ), cosı̀ come da figura (2.2.11) per k = 2. Si noti che qualunque
vettore ottenuto come risultato del prodotto tra uno scalare λ ed il vettore a (a∗ =λ ·
a) rappresenta le coordinate di un punto a∗ che si trova sulla semiretta che unisce
l’origine degli assi e il punto a.
Inoltre si noti (figura 2.2.11) che, dati due vettori (2 × 1) a e b, che la somma
(C) e la differenza (d) tra a e b rappresentano rispettivamente i punti c e d nello
spazio reale bidimensionale.
Definiamo spazio k-dimensionale Rk l’insieme di tutti i vettori reali di dimen-
sione (k × 1).
Le proprietà elementari di Rk sono:
2.2. MATRICI E VETTORI 23

b=2a
5

a
2

0 1 2 3 4 5 6 7 8 9

1. Chiusura rispetto alla somma: dati a ∈ Rk e b ∈ Rk , il vettore derivante


dalla somma c = a + b appartiene a Rk .
2. Chiusura rispetto al prodotto scalare: dato qualunque vettore a ∈ Rk e
qualunque grandezza scalare λ, il vettore a∗ = λ·a appartiene a Rk .

Si definisce spazio vettoriale qualsiasi insieme di vettori chiuso rispetto alla


moltiplicazione scalare ed alla somma.

2.2.12 Base di uno spazio vettoriale


Dato uno spazio vettoriale S, si definisce base di S un insieme di vettori a1 , a2 , . . . , ak
che appartengono a S con la proprietà che qualunque vettore appartenente a S può
essere ottenuto come combinazione lineare di a1 , a2 , . . . , ak :
X
c= λi · ai , ∀c ∈ S.

Ad esempio, per lo spazio vettoriale R2 , i vettori:


   
1 0
a1 = , a2 =
0 1
sono una base dato che qualunque vettore (2 × 1) può essere ottenuto come com-
binazione lineare di a1 e a2 .

2.2.13 Sottospazio vettoriale


Si definisce S(a1 , a2 , . . . , ak ), sottospazio vettoriale associato ad un insieme di
vettori a1 , a2 , . . . , ak lo spazio vettoriale “coperto” da tali vettori: qualunque vetto-
re appartenente a S(a1 , a2 , . . . , ak ) può essere espresso come combinazione lineare
24 CAPITOLO 2. RICHIAMI MATEMATICI

5
c

3 d a

2 b

−2 −1 0 1 2 3 4 5 6 7

di a1 , a2 , . . . , ak :
X
c= λi · ai , ∀c ∈ S(a1 , a2 , . . . , ak ).

Ad esempio, i vettori:
  
1 2
a =  2 ,b =  3 ,
0 0

non coprono R3 . Infatti il vettore:


 
1
c =  2 ,
3

non può essere espresso come combinazione lineare di a e b. Il sottospazio vet-


toriale generato da a e b è invece l’insieme di tutti i vettori appartenenti a R3 che
hanno terzo elemento pari a zero.

2.2.14 Rango di una matrice


Si definisce spazio colonna di una matrice A di dimensione (m × n), lo spazio
vettoriale coperto dai vettori colonna contenuti nella matrice. Si definisce rango
colonna la dimensione di tale spazio vettoriale. Ad esempio, data la matrice:
 
3 8
A=
4 6
2.2. MATRICI E VETTORI 25

ha dimensione pari a 1. Si noti infatti (figura 2.2.11) che sia la prima colonna che
la seconda della matrice A rappresentano punti che giacciono sulla retta passante
dall’origine di R2 e avente inclinazione +2. Qualunque combinazione lineare delle
colonne di A rappresenta punti su tale semiretta.
Si noti che per ogni matrice A (m × n) vale:

Rango riga ≡ Rango colonna,


ossia:

dimensione(spazio riga) ≡ dimensione(spazio colonna).


Si noti inoltre che, date due matrici conformabili per prodotto A (m × n) e B
(n × p), si ha:

rango(A · B) ≤ min(rango(A), rango(B)).

2.2.15 Indipendenza lineare di vettori


Dati n vettori di dimensione (n×1) a1 , a2 , . . . , an , tali vettori si dicono linearmente
indipendenti se:
X n
λ i · ai = 0
i=1

vale solo per:


λ1 = λ2 = . . . = λn = 0.
In altri termini i vettori a1 , a2 , . . . , an sono linearmente indipendenti se nessu-
no tra essi può essere espresso come combinazione lineare degli altri n − 1.
Si noti che data la matrice A (n × n), tale matrice avrà determinante diverso da
zero se e solo se i suoi vettori riga (o, che è lo stesso, i suoi vettori colonna) sono
linearmente indipendenti. Ad esempio, per la matrice:
 
1 15
A=
2 30

ha determinante pari a zero e i suoi vettori colonna (riga) non sono linearmente
indipendenti: ad esempio la seconda riga può essere ottenuta moltiplicando per 2
la prima.

2.2.16 Autovalori e autovettori


Data la matrice A , di dimensione (n × n), il sistema:

A · x = λ · x ⇒ (A − λ · In ) · x = [0]
(n×n) (n×1) (1×1) (n×1) (n×1)
26 CAPITOLO 2. RICHIAMI MATEMATICI

ammette soluzioni x 6= [0] se e solo se:


(n×1)

|A − λ · In | = 0. (2.2)

altrimenti la matrice (A − λ · In ) può essere invertita e l’unica soluzione è x = [0].


Le radici λi (i = 1, 2, . . . , n) dell’equazione (2.2): sono chiamati autovalori.
Le soluzioni xi (i = 1, 2, . . . , n) associate ad ogni autovalore λi :

A · xi = λi · xi , i = 1, 2, . . . , n.

sono detti autovettori.


Ad esempio,per la matrice:
 
1 2 1−λ 2
A = , |A − λ · I2 | = ⇒
2 2 2 2−λ
3 1 √ 3 1 √
−2 − 3λ + λ2 = 0 ⇒ λ1 = + 17, λ2 = − 17.
2 2 2 2

Si noti che la relazioni tra autovalori, autovettori e la matrice A può essere


scritta in modo compatto come:

A · X = X · Λ ,
(n×n) (n×n) (n×n) (n×n)
X = [x1 , x2 , . . . , xn ] ,
 
λ1 0 0 0
 0 λ2 0 0 
Λ= 
 0 0 ... 0


0 0 0 λn

Un utile risultato relativo agli autovalori è il seguente: se tutti gli autovalori


λ1 , λ2 , . . . , λn sono distinti allora gli autovettori x1 , x2 , . . . , xn sono linearmen-
te indipendenti. Data l’indipendenza lineare delle colonne di X (e quindi la sua
invertibilità), è possibile scrivere:

A = X · Λ · X−1 .

Una importante proprietà degli autovalori di una qualunque matrice quadrata


A di dimensioni (n × n) è che il determinante di tale matrice è pari al prodotto dei
suoi autovalori:
Yn
|A| = λi
i=1
2.2. MATRICI E VETTORI 27

2.2.17 Serie geometriche di matrici


Data la matrice quadrata (n × n) A, si definisca la somma:

T
X
ST = In + A + A2 + . . . AT = Ai .
i=0

Pre-moltiplicando ST per A, si ottiene:

T
X +1
2 T +1
A · ST = A + A + . . . A = Ai+1 .
i=0

Sottraendo le due precedenti espressioni tra loro, si ricava:

T
X T
X +1
(In − A) · ST = Ai − Ai+1 = (In − AT +1 ).
i=0 i=0

Se la matrice (In − A) è invertibile (in termini equivalenti, se λ = 1 NON è


autovalore di A), allora è possibile pre-moltiplicare per (In − A)−1 l’espressione
precedente ed ottenere:

ST = (In − A)−1 ·(In − AT +1 ).

È possibile mostrare che che se tutti gli autovalori di A sono minori di 1 in


modulo:
|λi | < 1, i = 1, 2, . . . , n,
allora:
lim AT +1 = [0] ,
T →∞ (n×n)

e quindi:

lim ST = (In − A)−1 .


T →∞

2.2.18 Matrici definite, semidefinite positive e negative


La matrice A simmetrica (n × n) viene detta definita positiva se:

x0 · A · x > 0, ∀ x 6= [0] .
(1×n) (n×n) (n×1) (n×1) (n×1)

A simmetrica (n × n) viene detta semidefinita positiva se:

x0 · A · x ≥ 0, ∀ x 6= [0] .
(1×n) (n×n) (n×1) (n×1) (n×1)
28 CAPITOLO 2. RICHIAMI MATEMATICI

A simmetrica (n × n) viene detta definita negativa se:

x0 · A · x < 0, ∀ x 6= [0] .
(1×n) (n×n) (n×1) (n×1) (n×1)

A simmetrica (n × n) viene detta semi-definita negativa se:

x0 · A · x ≤ 0, ∀ x 6= [0] .
(1×n) (n×n) (n×1) (n×1) (n×1)

Gli autovalori di una matrice positiva sono tutti positivi, dato che:

A · xi = λi · xi ,
x0i · A · xi = λi · x0i · xi >0=⇒λi > 0, i = 1, 2, . . . , n.

Con ragionamenti simili si può mostrare che tutti gli autovalori di matrici se-
midefinite positive sono non-negativi, che tutti gli autovalori di matrici definite
negative sono negative e che tutti gli autovalori di matrici semidefinite negative
sono non positivi. Quindi un modo per verificare le proprietá di definitezza di una
matrice è quello di controllare il segno degli autovalori. Ciò non è molto agevole
per una matrice di dimensioni superiori a (2 × 2), dato che per trovare gli auto-
valori è necessario in tali casi risolvere equazioni di grado superiore al secondo
che non sempre sono risolubili senza l’ausilio di un computer. Per tale motivo è
possibile fare riferimento ad un criterio alternativo, basato sulla verifica del segno
dei minori principali. Per minore principale di ordine i (i = 1, 2, . . . , n) di una
matrice quadrata A (n × n) si intendono i determinanti della sottomatrice ottenuta
considerando solo le prime i righe e i-colonne di A. Una matrice è definita positiva
se tutti i suoi minori principali hanno segno positivo ed è definita negativa se i suoi
minori principali hanno segni alternati a partire da −.

Fattorizzazione di una matrice definita positiva


Qualunque matrice Ω (n × n) definita positiva può essere fattorizzata nel modo
seguente:
Ω = A · D · A0 ,
dove A è triangolare inferiore con elementi diagonali unitari:

aij = 0, ∀j > i, aii = 1, i = 1, 2, . . . , n,

e D è una matrice diagonale con elementi diagonali posiivi:

dij = 0, ∀i 6= j, dii > 0, i = 1, 2, . . . n.

Tale scomposizione è unica.


Da questa scomposizione è possibile ricavare la cosiddetta fattorizzazione di
Choleski di Ω :
2.2. MATRICI E VETTORI 29

Ω = (A · D1/2 ) · (A · D1/2 )0 = P · P0 ,
 √ 
d11 √0 ... 0
0 d22 ... ... 
P = A · D1/2 , D1/2 = 

.
 ... ... . . . √. . . 
0 ... ... dnn

√ √ (n × n)
Si noti che la matrice P, detta fattore di Choleski di Ω, ha dimensione √ed è
triangolare inferiore con elementi diagonali positivi e pari a d11 , d22 , . . . , dnn .

2.2.19 Prodotto di Kronecker (prodotto tensore)


Date due matrici A, di dimensione (m × n) e B, di dimensione (p × q), si definisce
prodotto di Kronecker tra A e B la matrice C, di dimensione (m · p × n · q) :
 
a11 · B a12 · B . . . a1n · B
 a21 · B a22 · B . . . a2n · B 
C = A ⊗ B =  ...
.
(m·p×n·q) (m×n) (p×q) ... ... ... 
an1 · B an2 · B . . . anm · B
Ad esempio:  
  5 6 7
1 2
A= , B =  8 9 10  ,
3 4
11 12 13
 
  5 6 7
1 2
C = A⊗B= ⊗  8 9 10  =
3 4
11 12 13
 
5 6 7 10 12 14

 8 9 10 16 18 20 

 11 12 13 22 24 26 
=  .

 15 18 21 20 24 28 

 24 27 30 32 36 40 
33 36 39 44 48 52

Le più importanti proprietà dell’operatore prodotto di Kronecker sono le se-


guenti:
1) Date le matrici A, di dimensione (m × n) e B, di dimensione (p × q):

(A ⊗ B)0 = A0 ⊗ B0 .
2) Date le matrici A, di dimensione (m × n) ,B, di dimensione (p × q) e C,
di dimensione (r × s):

(A ⊗ B) ⊗ C = A ⊗ (B ⊗ C).
30 CAPITOLO 2. RICHIAMI MATEMATICI

3) Date le matrici A e B, di dimensione (m × n) e C, di dimensione (r × s):

(A + B) ⊗ C = A ⊗ C + B ⊗ C.

4) Date le matrici A (m × n), B (p × q), C (n × r) e D (q × s) :

! !
A ⊗ B · C ⊗ D =(A · C) ⊗ (B · D) = E
(m×n) (p×q) (n×r) (q×s) (m×r) (p×s) (m·p×r·s)

5) Date le matrici quadrate ed invertibili A (m × m) e B (n × n):

(A ⊗ B)−1 = A−1 ⊗ B−1 .

2.2.20 L’operatore vec


Data una matrice (m × n) A :

A = [a1 , a2 , . . . , an ] ,

l’operatore vec trasforma la matrice A in un vettore di dimensione (mn × 1),


allineando uno sopra all’altra le colonne di A:

a1
 a2 
vec(A) = 
 ... .

an

Ad esempio:
 
1 3 5
A = ,
2 4 6
 
1

 2 

 3 
vec(A) = .

 4 

 5 
6

Una proprietà rilevante dell’operatore vec è la seguente: date le matrici con-


formabili per prodotto A (m × n), B (n × p) e C (p × q), è possibile dimostrare
2.3. FUNZIONI IN PIÙ VARIABILI 31

che:
" #
vec A · B · C = d =
(m×n) (n×p) (p×q) (m·q×1)
" #
= Iq ⊗ (A · B) · vec (C)=
(m×p) (p·q×1)

= C0 ⊗ A · vec (B) ,
 
(q·m×p·n) (n·p×1)

= (C0 B0 ) ⊗ Im · vec (A) .


 
(q·m×·n·m) (m·n×1)

2.3 Funzioni in più variabili


Data la grandezza scalare y e il vettore (n × 1) x:

y ∈ R1 ,
 
x1
 x2 
x ∈ 
 ...
,

xn

si definisce funzione Rn → R1 (funzione scalare di un vettore) la funzione:

y = f (x) = f (x1 , x2 , . . . , xn ). (2.3)

Ad esempio, si consideri la funzione di produzione Cobb-Douglas omogenea


di primo grado, che fa dipendere il prodotto Y dall’utilizzazione di capitale (K) e
lavoro (L):

Y = f (K, L) = A · K α · L1−α ,
A > 0, 0 < α < 1.

2.3.1 Derivate parziali prime e seconde


Si definisce la derivata prima parziale della funzione (2.3) rispetto al suo i-esimo
argomento (xi , i = 1, 2, . . . , n) la seguente espressione:

∂f (x)
= fi (x) lim ∆−1 · [f (x1 , . . . , xi + ∆, ..xn ) − f (x1 , . . . , xi , ..xn )] .
∂xi ∆→0

Ad esempio, per la funzione di produzione Cobb-Douglas, la derivata parziale


rispetto al capitale (produttività marginale del capitale) è:

∂f (K, L)
fK (K, L) = = α · A · K α−1 · L1−α .
∂K
32 CAPITOLO 2. RICHIAMI MATEMATICI

Si definisce gradiente il vettore delle derivate prime di una funzione scalare di


un vettore:  ∂f (x)
∂x1
 ∂f (x) 
∇ =
 ∂x2 

(n×1)  . . . 
∂f (x)
∂xn
.Ad esempio, per la funzione lineare:
n
X
0
f (x) = a x + b = ai · xi + b,
(n×1) (1×n) (n×1 (1×1)
i=1

il gradiente è:  
a1
 a2 
∇ = a .
 . . .  =(n×1)

(n×1)
an
Per la funzione di produzione Cobb-Douglas, il gradiente è invece:
" # 
∂f (K,L)
α · A · K α−1 · L1−α

∂K
∇ = ∂f (K,L) = .
(2×1) (1 − α) · A · K α · L−α
∂L

Le derivate seconde di una funzione f (x) scalare di un vettore Rn → R1 sono


definite come:
   
∂f ∂f
2
∂ f ∂ ∂xj ∂ f2 ∂ ∂xi
fij = = , fji = = ,
∂xi ∂xj ∂xi ∂xj ∂xi ∂xj
fij = fji , i = 1, 2, . . . , n, j = 1, 2, . . . , n.
È possibile definire una matrice (n × n) H, chiamata matrice hessiana, che
contiene le derivate parziali seconde della funzione f (x):
 ∂2f ∂2f 2f
. . . ∂x∂1 ∂x
  0 
∂x1 ∂x1 ∂x1 ∂x2 ∂f (x)
 ∂2f 2f ∂2f
n
 ∂ ∂ 50

 ∂x2 ∂x1 ∂x∂2 ∂x . . . ∂x ∂x
∂x
H = n  = = .
2 2

(n×n)  ... ... ... ...  ∂x ∂x
∂2f ∂2f ∂2f
∂xn ∂x1 ∂xn ∂x2 ... ∂xn ∂xn

Si noti che la matrice hessiana è naturalmente simmetrica, dato che:


∂2f ∂2f
= ∀i, j.
∂xi ∂xj ∂xj ∂xi
Ad esempio, per la funzione di produzione Cobb-Douglas. la matrice hessiana
è:
α · (α − 1) · A · K α−2 · L1−α α · (1 − α) · A · K α−1 · L−α
 
H =
(2×2) α · (1 − α) · A · K α−1 · L−α −α · (1 − α) · A · K α · L−α−1
2.3. FUNZIONI IN PIÙ VARIABILI 33

2.3.2 Alcune semplici regole di derivazione per funzioni in più varia-


bili
Si notino le seguenti regole di derivazione per funzioni scalari di vettori.

1. Data la funzione f (x) = a0 · x , il gradiente di tale funzione è:


(1×n) (n×1)

∂f
= a .
∂x (n×1)

2. Data la funzione f (x) = x0 · a , il gradiente di tale funzione è:


(1×n) (n×1)

∂f
= a .
∂x (n×1)

3. Data la funzione f (x) = x0 · A · x , il gradiente di tale funzione è:


(1×n) (n×n) (n×1)

!
∂f 0
= A + A · x
∂x (n×n) (n×n) (n×1)

Se la matrice A è simmetrica, ovviamente il gradiente è:

∂f
= 2· A x
∂x (n×n)(n×1)

2.3.3 Ottimizzazione
Nel caso di una funzione scalare di uno scalare R1 → R1 , y = f (x), la condizione
del primo ordine per avere un massimo o un minimo è:
∂f
= 0,
∂x
mentre le condizioni del secondo ordine sono:
∂2f
> 0 per un min imo,
∂x2
∂2f
< 0 per un massimo.
∂x2
Nel caso di funzione scalare di un vettore Rn → R1 , y = f (x), le condizioni
del primo ordine per avere un massimo o un minimo sono date dal sistema di n
equazioni:
∂f
= ∇ = [0] ,
∂x (n×1)
34 CAPITOLO 2. RICHIAMI MATEMATICI

mentre le condizioni del secondo ordine sono:


H definita positiva per un minimo,
(n×n)
H definita negativa per un massimo.
(n×n)

2.3.4 Ottimizzazione vincolata


Sia data la funzione scalare di un vettore Rn → R1 , y = f (x) e si immagini di
dover massimizzare la funzione rispetto a x sotto un insieme di k vincoli su x:
M ax f (x)
x
 

 c1 (x) = d 1 

c2 (x) = d2
 
con :

 ... 

ck (x) = dk
 
( )
oppure : c(x) = d
(k×1) (k×1)

Un modo di procedere al calcolo del massimo vincolato x∗ è quello di costruire


la funzione lagrangiana:
n
X
L(x, λ) = f (x) + λi · [ci (x) − di ] = f (x) + λ0 · [c(x) − d] ,
i=1
 
λ1
 λ2 
 ... .
λ =  

λk
Gli elementi del vettore (k × 1) λ sono detti moltiplicatori di Lagrange e con-
sentono di tenere in considerazione i vincoli che la soluzione del problema di ot-
timizzazione deve soddisfare. La costruzione della funzione lagrangiana consente
di impostare il problema di ottimizzazione vincolata come un problema di otti-
mizzazione libera, semplicemente specificando le condizioni del primo ordine in
relazione ad un vettore di variabili di scelta di dimensione superiore:
 
x
z = .
(n+k)×1 λ
Le condizioni del primo ordine sono:
 
∂L(x, λ) ∂f (x)  ∂c(x)0
= [0] ⇒ +  · λ = [0] ,
∂x (n×1) ∂x ∂x (k×1) (n×1)
(n×1) (n×k)
" #
∂L(x, λ)
= [0] ⇒ c(x) − d = [0] .
∂λ (k×1) (n×k) (k×1)
2.3. FUNZIONI IN PIÙ VARIABILI 35

Dalla risoluzione del sistema delle condizioni del primo ordine si ricava la
soluzione x∗ che ottimizza la funzione f (x) sotto i vincoli c(x) = d.
Le proprietà dell’ottimo vincolato sono le seguenti:

• la funzione valutata nel punto di massimo (minimo) vincolato x∗ è non su-


periore (non inferiore) alla funzione valutate nel punto di massimo (minimo)
libero x∗∗ :

f (x∗ ) ≤ f (x∗∗ ) nel caso di massimo vincolato,


f (x∗ ) ≥ f (x∗∗ ) nel caso di minimo vincolato.

Infatti:
∂c0 (x)
   
∂f (x)
+ · λ = [0]
∂x x=x∗ ∂x x=x∗ (n×1)
h i
e quindi il gradiente valutato in corrispondenza di x = x∗ , ∂f∂x
(x)
, è
x=x∗
diverso da [0] .
(n×1)

• Quando l’ottimo vincolato coincide con quello vincolato, si ha:

λ = [0] : x∗ = x∗∗ ⇔ λ = [0] .


(k×1) (k×1)

Ad esempio, si consideri il seguente problema di massimizzazione vincolata:

M ax f (x) = a0 · x − x0 · A · x ,
x (1×3) (3×1) (3×1) (3×3) (3×1)
 
x1 − x2 + x3 = 0
con : ,
x1 + x2 + x3 = 0
( )
oppure : C · x = d
(2×3) (3×1) (2×1)

Questo è il caso di ottimizzazione di una funzione quadratica in x con vincoli


lineari (e omogenei, dato che d = [0]). Le condizioni del primo ordine sono:

∂L(x, λ)
= [0] ⇒ (2.4)
∂x (3×1)
a −2· A · x + C0 · λ = [0] , (2.5)
(3×1) (3×3) (3×1) (3×2) (2×1) (3×1)
∂L(x, λ)
= [0] ⇒ (2.6)
∂λ (2×1)

C · x = [0] . (2.7)
(2×3) (3×1) (2×1)
36 CAPITOLO 2. RICHIAMI MATEMATICI

La soluzione di queste due insiemi di equazioni con incognite x e λ fornisce il


massimo vincolato della funzione: esplicitando l’espressione (2.4) rispetto a x si
ottiene:
1
x = · A−1 · a + C0 · λ .

(2.8)
2
Sostituendo quest’ultima espressione nella (2.6) si ottiene:
1 −1
· A−1 · a + C0 · λ = [0] ⇒ λ = − C · A−1 · C0 · C · A−1 · a.


2
Sostituendo quest’ultima espressione nella (2.8) si ottiene finalmente il valore di
x:
1 h −1 i
x = · A−1 · a − C0 · C · A−1 · C0 · C · A−1 · a .
2

2.4 Esercizi su richiami di matematica


1. Per le matrici:  
  2 4
1 3 3
A= ,B =  1 5 
2 4 1
6 2
si calcolino:

A · B,
A 0 · B0 ,
B·A
B0 · A

2. Si espanda il prodotto matriciale:


n h io0
X = A · B + (C · D)0 (E · F)−1 + G · H ,

dove tutte le matrici sono quadrate ed invertibili.

3. Data la matrice:
 
1 4 7
A= 3 2 5 
5 8 8

calcolarne il determinante, la traccia e l’inversa.

4. Si calcoli la scomposizione di Choleski per la matrice:


 
25 7
A= .
7 13
2.5. SOLUZIONI AGLI ESERCIZI 37

5. Quale operazione si compie post-moltiplicando una matrice A (m × n)


per una matrice diagonale Λ di dimensione (n × n)? E se invece la si
pre-moltiplica per una matrice diagonale Γ di dimensione (m × m)?

6. Date le seguenti forme quadratiche:

a) y = x21 − 14 · x1 · x2 + 11 · x22
b) y = 5 · x21 + x22 + 7 · x23 + 4 · x1 · x2 + 6 · x1 · x3 + 8 · x2 · x3 ,

dire se sono positive per tutti i valori di x1 , x2 , x3 .

7. Si calcolino gli autovalori della matrice:


 
2 4 3
A =  4 8 6 .
3 6 5

8. Si risolva, scrivendo la funzione lagrangiana e le condizioni del primo ordi-


ne, il problema di massimizzazione vincolata dell’utilità del consumatore:
 
α β q1
M ax U (q)= q1 · q2 , 0 < α < 1, 0 < β < 1, q = ,
q q2
con il vincolo : p1 · q1 + p2 · q2 = y,

dove q1 e q2 sono le quantità dei beni 1 e 2, p1 e p2 sono i prezzi di tali beni


e y è il reddito monetario dell’individuo.

2.5 Soluzioni agli esercizi


1. Le matrici richieste sono:
 
  2 4  
1 3 3 23 25
A·B= · 1 5 = ,
2 4 1 14 30
6 2
   
1 2   10 11 10
0 0 2 1 6
A ·B = 3
 4 · = 22
 23 26  ,
4 5 2
3 1 10 8 20
   
2 4   10 22 10
1 3 3
B·A= 1
 5 · = 11
 23 8  ,
2 4 1
6 2 10 26 20
B0 · A non conformabili per prodotto.
(2×3) (2×2)

Si noti che:
0
B · A = A 0 · B0 ⇔ (B · A)0 = A0 · B0 .
38 CAPITOLO 2. RICHIAMI MATEMATICI

2. Si espanda il prodotto matriciale:


n h io0
X= A · B + (C · D)0 (E · F)−1 + G · H =
= {A · B · F−1 · E−1 + A · B · G · H+
+D0 · C0 · F−1 · E−1 +D0 · C0 · G · H}0
= E−10 · F−10 · B0 · A0 + H0 · G0 ·B0 ·A0 +
0
+E−10 · F−1 · C · D+H0 · G0 · C · D

3. Per la matrice A abbiamo:

 
1 4 7
A= 3 2 5 
5 8 8

2 5
−4· 3 5 +7· 3 2

|A| = 1 · = −24 + 4 + 98 = 78,
8 8 5 8 5 8
tr(A) = 1 + 2 + 8 = 11,
   1 2 7

−24 24 6 78 39 78
+
A = 1 −27 16  , A−1 = |A|−1 · A+ =  26 1 1
39
5 
78 =
5 4 4
14 12 −10 78 39 39
4 4 1
 
− 13 13 13
1 9 8
=  78 − 26 39
.
7 2 5
39 13 − 39

4. La matrice A è simmetrica e definita positiva. Per trovare gli autovalori di


A si procede nel modo seguente:

25 − λ 7
|A − λ · I2 | = 0 ⇒ = 0 ⇒ (25 − λ) · (13 − λ) − 49 = 0,
7 13 − λ

λ2 − 38 · λ + 276 = 0 ⇒ λ = 19 ± 85 = 19 ± 9.21 : entrambi positivi.

Il calcolo degli autovalori conferma che la matrice sia definita positiva. È


possibile quindi procedere alla scomposizione di Choleski:
 
p11 0
P= , p11 > 0, p22 > 0.
p21 p22
p211
 
0 p11 · p21
A=P·P = .
p11· p21 p221 + p222
2.5. SOLUZIONI AGLI ESERCIZI 39

Quindi uguagliando elemento per elemento le matrici A e P · P0 si ottiene:

p211 = 25 ⇒ p11 = 5
7
p11 · p21 = 7 ⇒ p21 = ,
5
2√
r
49
p221 + p222 = 13 ⇒ p22 = 13 − = 69 .
25 5

Si noti che per calcolare


√ gli elementi diagonali
√ della matrice P si prendono
radici positive 5 e 52 69 (e non -5 e - 13), dato che il fattore di Choleski
per definizione ha elementi diagonali positivi.

5. Post-moltiplicando una matrice A (m × n) per una matrice diagonale Λ di


dimensione (n × n) si ottiene:
   
a11 a12 . . . a1n λ11 0 . . . 0
 a21 a22 . . . a2n   0 λ22 . . . 0 
A · Λ = A∗ =  · =
(m×n)  . . . ... ... ...   ... ... ... ... 
am1 am2 . . . amn 0 0 . . . λnn
 
a11 · λ11 a12 · λ22 . . . a1n · λnn
 a21 · λ11 a22 · λ22 . . . a2n · λnn 
= 
 ... ... ... ... 
am1 · λ11 am2 · λ22 . . . amn · λnn

vale a dire si ricava una matrice A∗ (m × n) che risulta moltiplicando ogni


colonna di A per il corrispondente elemento diagonale di Γ. Se invece si
pre-moltiplica A per una matrice diagonale Γ di dimensione (m × m) si
ottiene:

Γ · A· = A∗∗ =
(m×n)
   
γ11 0 ... 0 a11 a12 . . . a1n
 0 γ22 ... 0   ·  a21 a22 . . . a2n  =
 
=
 ... ... ... ...   ... ... ... ... 
0 0 ... γmm am1 am2 . . . amn
 
a11 · γ11 a12 · γ11 . . . a1n · γ11
 a21 · γ22 a22 · γ22 . . . a2n · γ22 
= 
 ... ... ... ... 
am1 · γnn am2 · γnn ... amn · γnn

vale a dire si ricava una matrice A∗∗ (m × n) che risulta moltiplicando ogni
riga di A per il corrispondente elemento diagonale di Γ.

6. Si scriva (a) come:

y = x0 · A · x = a11 · x21 + 2 · a12 · x1 · x2 + a22 · x22 ,


(1×2) (2×2) (2×1)
40 CAPITOLO 2. RICHIAMI MATEMATICI

con A matrice simmetrica:


 
a11 a12
A= .
a12 a22

In questo caso si ha:  


1 −7
A= ,
−7 11

 
−2.602
con autovalori: λ = 6 ± 74 = . Da ciò si ricava che la
14.602
matrice A non è definita positiva e quindi la forma quadratica (a) non è
positiva per qualunque valore di x1 e x2 .
Per quello che riguarda (b), essa può essere scritta come:

y = x0 · A · x = a11 · x21 + 2 · a12 · x1 · x2 + +2 · a13 · x1 · x3 +


(1×3) (3×3) (3×1)

+2 · a23 · x2 · x3 + a22 · x22 + a33 · x23 ,


 
5 2 3
A= 2 1 4 
3 4 7

Per verificare se A è definita positiva occorrerebbe verificare se tutti i suoi


autovalori sono positivi. Ciò in generale non è molto agevole per una matrice
di dimensioni superiori a (2 × 2), senza l’ausilio di un computer. Per tale
motivo è possibile fare riferimento al segno dei minori principali. Nel caso
della matrice A:

5 > 0,

5 2
= 5 − 4 > 0,
2 1

5 2 3

2 1 4 = −34 < 0.

3 4 7

Da questo si deduce che la matrice A non è definita positiva e quindi che la


forma quadratica (b) non è positiva per qualsiasi valori di x.

7. Gli autovalori della matrice A vengono ottenuti come soluzione all’equazio-


ne:
2−λ 4 3

4
8−λ 6 = 0 ⇒
3 6 5−λ
(2 − λ) [(8 − λ)(5 − λ) − 36]−4 [4 (5 − λ) − 18]+3 [24 − 3 (8 − λ)] = 0 ⇒
−5λ + 15λ2 − λ3 = 0 ⇒ −λ · 5 − 15λ + λ2 = 0 ⇒

2.5. SOLUZIONI AGLI ESERCIZI 41

*

0 +
15− 205
λ= √2 = 0.341
15+ 205
2 = 14.659
Si noti comunque che la seconda colonna di A è pari a due volte la prima
colonna. Questo implica che:

|A| = 0

e quindi, dato che il determinante di una matrice è dato dal prodotto dei suoi
autovalori è ovvio che almeno uno degli autovalori di A sia nullo.

8. La funzione lagrangiana può essere scritta come:

L(q, λ) = u(q) + λ · p0 q − y ,

   
p1 q1
u(q) = q1α · q2β , p = ,q = .
p2 q2

Le condizioni del primo ordine sono:

∂L(q, λ) ∂u(q)
= [0] ⇒ +λ · p = [0] , (2.9)
∂q ∂q (2×1)
(2×1)
∂L(q, λ)
= 0 ⇒ p0 q = y. (2.10)
∂λ
In questo caso conviene scrivere la (2.9) come :

α · q1α−1 · q2β + λ · p1 = 0, (2.11)


β· q1α · q2β−1 + λ · p1 = 0. (2.12)

Si risolva la (2.11) a λ:

α · q1α−1 · q2β
λ=− ,
p1

e si sostituisca tale valore nella (2.12), risolvendo per q1 :


p2 α
q1 = · · q2 . (2.13)
p1 β

Si utilizzino ora la (2.10) e la (2.13) per ottenere le soluzioni in termini di q1


e q2 :
 ∗  " α
#
∗ q1 (α+β)·p1 · y
q = = β .
q2∗ (α+β)·p · y 2
42 CAPITOLO 2. RICHIAMI MATEMATICI

Si noti che con la funzione di utilità specificata le domande q1∗ e q2∗ sono
funzioni lineari del reddito monetario y. Infine si noti che è possibile dare
interpretazione geometrica alle condizioni (2.9):
" ∂u(q)
# ∂u(q)
∂q1 = −λ · p1 ∂q1 p1
∂u(q) ⇒ ∂u(q)
= ,
∂q2 = −λ · p2 p2
∂q2

che stabilisce la condizione di tangenza (uguaglianza delle pendenze) tra la


curva di indifferenza e la retta di bilancio.
Capitolo 3

Richiami di inferenza statistica

3.1 Variabile casuale


Per variabile casuale (VC) intendiamo la misurazione quantitativa del risultato di
un esperimento casuale. Ad esempio, consideriamo il lancio di una moneta che con
probabilità pari a 1/2 fornisce il risultato ”testa” e con la stessa probabilità fornisce
il risultato ”croce”. Immaginiamo di attribuire il valore 0 all’evento testa e il valore
1 all’evento croce. Abbiamo quindi che la variabile casuale X, risultato del lancio
di una moneta, può essere descritta come segue:
 
0 Pr(X = 0) = 1/2
X=
1 Pr(X = 1) = 1/2

In genere si utilizza la notazione X (la lettera maiuscola) per indicare una variabile
casuale e la corrispondente lettera minuscola (x in questo caso) per indicare la
realizzazione di una variabile casuale in un determinato esperimento casuale.
A seconda dell’insieme dei valori che una variabile casuale può assumere (do-
minio o supporto di una variabile casuale) si è soliti distinguere le variabili ca-
suali in assolutamente continue e discrete. Una variabile casuale continua (VCC)
assume valori appartenenti all’insieme dei numeri reali (o a suoi sottoinsiemi):

X : x ∈ A, A ⊆ R
Le variabili casuali discrete (VCD) assumono valori discreti. Ad esempio la va-
riabile casuale numero di risultati ”testa” nel lancio ripetuto 10 volte di una moneta
assume valori discreti compresi tra 0 e 10.

3.2 Distribuzione di probabilità


Per una variabile casuale è importante poter attribuire una misura connessa alla
probabilità del prodursi dei diversi risultati ammissibili. Ciò viene fatto tramite la
specificazione di una distribuzione di probabilità. La distribuzione di probabilità è

43
44 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

diversamente trattata a seconda che si consideri una VCC o una VCD. Nel caso di
una VCD è possibile attribuire ad ogni possibile realizzazione della VC un deter-
minato valore che misura la probabilità del prodursi di quel determinato evento. In
tal caso si parla di probabilità associata al valore x, che indichiamo con f (x):
X
f (x) = pr(X = x), x ∈ A, f (xi ) = 1.
xi ∈A

Per le VCC invece si parla di densità di probabilità assegnata ad ogni punto


appartenente al supporto A della VC e si definisce la probabilità che la VC in
questione assuma valori compresi in un qualunque intervallo come:
Z b
f (x)dx = pr(a ≤ x ≤ b), a ≤ b
a

La funzione f (x) viene detta funzione di densità di probabilità. Si noti quindi


che per una VCC la probabilità di essere uguale ad un determinato valore è per
definizione nulla dato che:
Z x0
prob(X = x0 ) = f (x)dx = 0, ∀x0
x0

In altri termini, la massa di probabilità sottesa da un unico punto è identicamen-


te nulla per ogni punto del supporto di una VCC, a prescindere dall’entità della
densità di probabilità assegnata a tale punto. Questo perchè l’integrale di una qua-
lunque funzione definito su di un intervallo di misura nulla è identicamente uguale
a zero.

3.3 Funzione di ripartizione


Per funzione di ripartizione di una variabile casuale X si intende la funzione che
per ogni valore x appartenente al dominio della variabile casuale assegna una mi-
sura della probabilità che la variabile casuale stessa assuma valori inferiori a x. In
termini formali abbiamo:
Z x
F (x) = pr(X ≤ x) = f (t)dt
−∞

per una VCC e : X


F (x) = pr(X ≤ x) = f (xi )
xi ≤x
per una VCD. Si noti che, ovviamente la funzione di ripartizione, sia per una VCC
che per VCD assume valori compresi nell’insieme [0,1]; in altri termini la funzione
di ripartizione è una funzione A → [0, 1], ed in più valgono le seguenti proprietà:
lim F (x) = 0, lim F (x) = 1.
x→−∞ x→+∞

Le figure (3.1) e (3.2) presentano rispettivamente un esempio di funzione di ripar-


tizione per una VCC e la funzione di ripartizione di una VCD.
3.3. FUNZIONE DI RIPARTIZIONE 45

Figura 3.1: Funzione di ripartizione per VC discreta


F(x)
1

Figura 3.2: Funzione di ripartizione per VC continua


1

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
-3 -2 -1 0 1 2 3
46 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

3.4 Momenti di una variabile casuale


Il valore atteso di una VC è:
X
E(X) = xi f (xi ),
xi ∈A

per una VCD, e:


Z +∞
E(X) = xf (x)dx.
−∞

per una VCC. L’operatore E(·) che definisce l’operatore atteso, dato che si riferi-
sce all’applicazione di un’operazione di sommatoria o di integrale è un operatore
lineare: data la VC x e le costanti a e b, si ha:

E (a + bx) = a + bE(x).

Il valore atteso costituisce la principale misura della posizione di una VC.


Per sintetizzare le caratteristiche principali di una VC si può fare ricorso alla
mediana, vale a dire ad una misura di tendenza centrale. Per mediana si intende
quel valore xmed appartenente al supporto della VC tale per cui:

pr(X < xmed ) = pr(X > xmed ) = 1/2.

La mediana xmed è diversamente definita a seconda che si tratti di VCC o VCD:


Z xmed
1
xmed : f (x)dx = (VCC),
−∞ 2
X 1
xmed : p(xi ) ≤ (VCD).
2
xi ≤xmed

Più in generale è possibile definire quantile di una VC corrispondente al valore di


α, 0 < α < 1, quel valore xα in corrispondenza del quale la massa di probabilità
assegnata a valore minori di xα è pari ad α. In tal senso la mediana di una VC è
chiaramente il quantile corrispondente a α = 1/2.
Un altro concetto rilevante per una VC è la moda. Per moda (o valore modale)
si intende un punto i massimo almeno locale della funzione di probabilità (se VCD)
o della funzione di densità di probabilità per una VCC. Ad esempio, se la funzione
di densità di una VCC X ammette un massimo interno nel punto xmo , tale punto è
valore modale per X ed in corrispondenza di esso abbiamo:
 
∂f (x)
= 0.
∂x x=xmo

A seconda che la VC ammetta uno o più valori modali viene detta unimodale o
multimodale.
3.5. LA DISTRIBUZIONE NORMALE 47

Un’altra importante classe di indicatori sono quelli che forniscono misure di


quanto grande è la variabilità insita nella VC in questione. Tali indicatori sono
detti misure della dispersione e tra esse assume particolare rilievo la varianza: per
varianza della VC X si intende il valore atteso dei quadrati delle deviazioni da
E(X):
Z +∞
v(X) = [x − E (x)]2 f (x)dx (per una VCC),
−∞
X
v(X) = [xi − E (x)]2 p(x) (per una VCD).
xi ∈A

Si noti che sia nel caso di una VCC che di una VCD la varianza può essere
alternativamente espressa come:

v(X) = E(X 2 ) − [E(X)]2 ,

vale a dire come differenza tra il valore atteso del quadrato di X e valore atteso di
X al quadrato. Questa espressione può essere facilmente ottenuta sviluppando il
quadrato [X − E (X)]2 ed applicando il valore atteso a ciascun elemento.
Le proprietà della varianza possono essere facilmente sintetizzate: data la VC
X e le costanti a e b, dalla definizione di varianza di X è possibile ricavare facil-
mente:
v(a + bX) = b2 v(X).
Questo significa che aggiungere una costante ad una VC non ne modifica la va-
rianza e moltiplicare questa VC per una costante b comporta l’ottenimento di una
varianza che è pari a b2 volte quella della VC di partenza: la varianza è infatti un
operatore quadratico.

3.5 La distribuzione normale


In statistica è particolarmente diffuso il riferimento alla VC normale o gaussiana:
una VCC X si distribuisce come una normale o gaussiana con valore atteso µ e
varianza σ 2 (con notazione sintetica X ∼ N (µ, σ 2 )) se la sua funzione di densità
è:  
1 1
f (x) = √ exp − 2 (x − µ)2 , x ∈ R1 .
2πσ 2σ
Nella figura (3.5) viene rappresentata la funzione di densità di una VC X ∼
N (µ, σ 2 ). Si noti che è possibile notare che tale VC ha moda e mediana che coin-
cidono con µ, il valore atteso, e punti di flesso corrispondenti a ±σ. Si noti pure
che la funzione di densità ha un asintoto orizzontale corrispondente all’asse delle
ascisse:
lim f (x) = lim f (x) = 0.
x→−∞ x→+∞
48 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Figura 3.3: Funzione di densità normale con media 0 e varianza 1


0.4
Dens. normale standard

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
-3 -2 -1 0 1 2 3

Una proprietà importante delle VC normali è che qualsiasi trasformazione li-


neare di una VC normale è anch’essa distribuita normalmente. Data infatti X ∼
N (µ, σ 2 ) e qualunque coppia di constanti a e b, abbiamo che:
Y = (a + bX) ∼ N (a + bµ, b2 σ 2 ).
Ad esempio, se consideriamo:
µ 1
a= ,b = ,
σ σ
si ha:
1
(X − µ) ∼ N (0, 1)
Y =
σ
La VC Y viene detta in questo caso normale standardizzata, vale a dire con valore
atteso nullo e varianza unitaria. L’ottenimento di Y a partire di X viene detta
operazione di standardizzazione di un VC normale.

3.6 Inferenza statistica parametrica


L’inferenza statistica parametrica consiste nel ricavare informazioni relative ai pa-
rametri incogniti della distribuzione di una popolazione a partire dall’osservazio-
ne di un campione di ampiezza n (n-pla campionaria) di elementi estratti da tale
popolazione:
x1 , x2 , ..., xn .
3.7. PROPRIETÀ DEGLI STIMATORI 49

L’inferenza può essere condotta con modalità differenti che si possono ricondurre
alle seguenti:

1. Stima puntuale

2. Stima per intervallo (costruzione di intervalli di confidenza o intervalli fidu-


ciari).

3. Prova delle ipotesi.

Per stimatore si intende un valore sintetico delle informazioni contenute nell’n-


pla campionaria. Ad esempio se si considera un campione di ampiezza n:

x1 , x2 , ..., xn ,

uno stimatore possibile (e sensato) è la media campionaria, definita come:


n
1X
xn = xi
n
i=1

Si noti che gli stimatori sono VC in quanto valori sintetici ottenuti sulla base
dell’osservazione di un campione, e ciascuno degli elementi del campione è una
VC.

3.7 Proprietà degli stimatori


3.7.1 Non distorsione o correttezza
Uno stimatore g(x1 , x2 , ...xn ) (con questa notazione si intende sottolineare il fatto
che lo stimatore è una VC ottenuta come funzione delle variabili casuali elementi
del campione) viene detto non distorto o corretto per il parametro θ incognito della
popolazione che si vuole stimare se vale:

E [g(x1 , x2 , ...xn )] = θ

3.7.2 Efficienza
Il concetto di efficienza di uno stimatore, in relazione alla stima di un parametro
incognito θ della popolazione si riferisce alla precisione delle informazione relative
a θ che possono essere ottenute dallo stimatore utilizzato. La proprietà dell’effi-
cienza di uno stimatore è un concetto relativo e pertiene agli stimatori appartenenti
ad una determinata classe. Si considerino ad esempio gli stimatori non distorti.
Lo stimatore g(x1 , x2 , ...xn ) appartenente a tale classe che ha varianza minima
viene detto stimatore efficiente (stimatore MVUE: Minimum Variance Unbiased
Estimator: stimatore corretto a varianza minima).
50 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Nella classe degli stimatori lineari e corretti, lo stimatore più efficiente viene
detto BLUE ( Best Linear Unbiased Estimator, migliore stimatore lineare corretto).
Ad esempio, avendo a disposizione un campione di n = 10 elementi estratti
in modo identico ed indipendente da una popolazione distribuita normalmente con
momenti entrambi incogniti:

xi ∼ N (µ, σ 2 ), i = 1, 2, ..10,
xi k xj ∀i 6= j.

Si considerino gli stimatori:


10
1 X
g10 (x1 , x2 , ...x10 ) = xi ,
10
i=1
7
1X
g7 (x1 , x2 , ...x10 ) = xi ,
7
i=1

Notiamo che entrambi gli stimatori sono corretti:

10 10
1 X 1 X
E [g10 (x1 , x2 , ...x10 )] = E (xi ) = µ = µ,
10 10
i=1 i=1
7
1X
E [g7 (x1 , x2 , ...x10 )] = µ = µ,
7
i=1

ed è possibile mostrare che:


10 10
1 X 1 X 2 1
V [g10 (x1 , x2 , ...x10 )] = V (xi ) = σ = σ2,
100 100 10
i=1 i=1
7 7
1 X 1 X 2 1 2
V [g7 (x1 , x2 , ...x10 )] = V (xi ) = σ = σ .
49 49 7
i=1 i=1

Il più efficiente tra questi due stimatori è quindi g10 (x1 , x2 , ...x10 ), dato che ha va-
rianza più bassa. Si noti che questo non è sorprendente dato che g10 (x1 , x2 , ...x10 )
utilizza tutte le informazioni provienienti dal campione mentre g7 (x1 , x2 , ...x10 )
non assegna alcun ruolo all’informazione proveniente dalle osservazioni x8 , x9 e
x10 .

3.7.3 Consistenza
La consistenza è una proprietà asintotica, vale a dire che riguarda il comportamento
degli stimatori per campioni di grande ampiezza (n → ∞).
3.7. PROPRIETÀ DEGLI STIMATORI 51

Uno stimatore g(·) viene detto consistente per il parametro incognito della
popolazione θ se per ogni coppia di valori  > 0 e δ > 0, esiste un ampiezza
campionaria n0 tale per cui:

prob [|gn − θ| < ε] > 1 − δ, ∀n > n0 .

In altri termini:
lim pr [|gn − θ| < ε] = 1, ∀ε > 0
n→∞
Altre notazioni equivalenti per esprimere la consistenza sono:
p
gn → θ, plim(gn ) → θ

La consistenza di uno stimatore può quindi essere indicata come la convergenza in


probabilità di tale stimatore al valore incognito dei parametri da stimare.
Perchè si abbia consistenza è necessario che:

lim E (gn − θ)2 = 0


n→∞

Uno stimatore distorto può essere consistente purchè sia asintoticamente non di-
storto:
lim E(gn ) = θ.
n→∞

È possibile enumerare le principali proprietà dell’operatore plim:


n n
!
X X
plim ci xi = ci · plim (xi ) ,
i=1 i=1
n n
!
Y Y
plim xi = plim (xi ) ,
i=1 i=1
 
x1 plim (x1 )
plim = , se plim (x2 ) 6= 0,
x2 plim (x2 )

plim (g(x)) = g (plim(x)) se la funzione g (·) è continua in plim(x)

3.7.4 La legge dei grandi numeri (Versione più semplice)


Si consideri un campione di n elementi estratti indipendentemente da una distribu-
zione con valore atteso µ e varianza σ 2 :

x1 , x2 , ...xn ∼ i.i.d.(µ, σ 2 )

Si consideri la media campionaria:


n
1X
xn = xi
n
i=1
52 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

La legge dei grandi numeri ci assicura che la media campionaria converge in


probabilità al valore atteso incognito µ della popolazione:

p lim (xn ) = µ

3.7.5 Teorema centrale del limite


Consideriamo le stesse ipotesi che abbiamo avanzato a proposito della legge dei
grandi numeri, vala a dire che ci sia un campione di n elementi estratti in modo
indipendente dalla stessa popolazione con valore atteso µ e varianza σ 2 :

x1 , x2 , ...xn ∼ i.i.d.(µ, σ 2 )

Se consideriamo la variabile casuale:



n
zn = (xn − µ)
σ
e con f (zn ) indichiamo la sua funzione di densità di probabilità, il teorema centrale
del limite (TCL) afferma che al crescere di n la funzione di densità di zn converge
a quella dellaVC gaussiana standardizzata:

lim f (zn ) = φ(zn )


n→∞

dove φ(·) è la funzione di densità della VC normale standardizzata N (0, 1). Con
notazione del tutto equivalente si può affermare che:

d
zn → z ∼ N (0, 1).

d
La notazione → indica convergenza in distribuzione e si dice che zn converge in
distribuzione ad una VC normale standardizzata. Il TCL si può parimenti enun-
ciare nei termini della funzione di ripartizione: definendo F (zn ) la funzione di
ripartizione di zn , il TCL afferma che al crescere di n la funzione di ripartizione di
zn converge a quella dellaVC gaussiana standardizzata:

lim F (zn ) = Φ(zn )


n→∞

dove Φ(·) è la funzione di ripartizione della VC normale standardizzata N(0,1).


In altri termini, qualunque sia la distribuzione della popolazione X, la VC zn
(la media campionaria standardizzata) ha una distribuzione limite che coincide con
quella della Normale standardizzata. Ad esempio, se consideriamo la seguente VC
(VC bernoulliana):
 
0 con probabilità 1 − p
X=
1 con probabilità p, 0 < p < 1
3.8. VARIABILI CASUALI IN PIÙ DIMENSIONI 53

sappiamo che:

E(X) = p, V (X) = p(1 − p),


p(1 − p)
E(xn ) = p, V (xn ) =
n
Quindi, applicando il TCL si ottiene:

n(xn − p) d
zn = p → N (0, 1)
p(1 − p)

3.8 Variabili casuali in più dimensioni


Si consideri il vettore (2 × 1) x :
 
x1
x=
x2

dove sia x1 che x2 sono due variabili casuali, per semplicità di esposizione conti-
nue. Il vettore x può essere quindi definito una variabile casuale bidimensionale.
Con riferimento ad x è possibile definire:

• La distribuzione congiunta di x1 e x2 :

f (X) = f (x1 , x2 )

• Le distribuzioni marginali di x1 e x2 :
Z +∞
f (x1 ) = f (x1 , x2 )dx2
−∞
Z+∞
f (x2 ) = f (x1 , x2 )dx1
−∞

• Le distribuzioni condizionali di x1 condizionata a x2 e di x2 condizionata ad


x1 :
f (x1 , x2 )
f (x1 |x2 ) =
f (x2 )
f (x1 , x2 )
f (x2 |x1 ) =
f (x1 )

Si ha indipendenza statistica tra x1 e x2 quando la distribuzione condizionata di


x1 dato x2 coincide con la distribuzione marginale di x1 ; oppure, in termini equiva-
lenti quando la distribuzione di x2 condizionata su x1 coincide con la distribuzione
marginale di x2 :

f (x1 |x2 ) = f (x1 ) ⇔ f (x2 |x1 ) = f (x2 ).


54 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Si noti che le due condizioni di cui sopra sono del tutto equivalenti, data la defi-
nizione di densità di probabilità condizionale, e da questo si evince la natura sim-
metrica del concetto di indipendenza statistica: dire che x1 è indipendente da x2
equivale ad affermare che x2 è indipendente da x1 :

f (x1 , x2 )
f (x1 |x2 ) = f (x1 ) ⇒ = f (x1 )
f (x2 )
⇒ f (x1 , x2 ) = f (x1 )f (x2 ),
f (x1 , x2 )
f (x2 |x1 ) = f (x2 ) ⇒ = f (x2 )
f (x1 )
⇒ f (x1 , x2 ) = f (x1 )f (x2 ).

Entrambe le condizioni possono essere riscritte come la condizione che la den-


sità di probabilità congiunta sia pari al prodotto tra le densità marginali per ogni
coppia di valori x1 e x2 appartenenti al dominio di X.

3.8.1 La covarianza
La covarianza misura quanto due variabili casuali tendano ad essere legate tra loro
in modo lineare. La covarianza tra le variabili casuali x1 , x2 è definita come:

Cov(x1 , x2 ) = E {[x1 − E (x1 )] [x2 − E (x2 )]}

è facile mostrare che:

Cov(x1 , x2 ) = E {[x1 − E (x1 )] [x2 − E (x2 )]} =


= E {x1 x2 − x1 E (x2 ) − x2 E (x1 ) + E (x1 ) E (x2 )} =
E(x1 x2 ) − E (x1 ) E (x2 )
p
La
p covarianza tra x1 e x2 assume valori che sono compresi tra − V (x1 )V (x2 )
e + V (x1 )V (x2 ). Per questo è possibile costruire una misura relativa della di-
pendenza lineare tra x1 e x2 opportunamente scalando la covarianza: si costruisce
in questo modo l’indice di correlazione lineare:
Cov(x1 , x2 )
ρ= p
V (x1 )V (x2 )
In assenza di correlazione l’indice ρ sarà pari a zero. Quando due variabili
casuali sono perfettamente correlate in senso positivo l’indice di correlazione sarà
pari a uno e in caso di perfetta correlazione negativa l’indice sarà pari a -1.
La correlazione quindi deve essere intesa come misura della dipendenza lineare
tra due variabili casuali. Si noti che l’indipendenza statistica implica assenza di
correlazione. Infatti date x1 e x2 se x1 e x2 sono indipendenti si avrà:

Cov(x1 , x2 ) = E(x1 x2 ) − E (x1 ) E (x2 ) =


3.9. DISTRIBUZIONE NORMALE MULTIVARIATA 55
Z +∞ Z +∞
= x1 x2 f (x1 , x2 )dx1 dx2 − E (x1 ) E (x2 ) =
−∞ −∞
Z +∞ Z +∞
= x1 x2 f (x1 )f (x2 )dx1 dx2 − E (x1 ) E (x2 ) =
−∞ −∞
Z +∞ Z +∞
= x1 f (x1)dx1 x2 f (x2)dx2 − E (x1 ) E (x2 ) =
−∞ −∞
= E (x1 ) E (x2 ) − E (x1 ) E (x2 ) = 0

L’assenza di correlazione non implica però l’indipendenza statistica tra due


variabili casuali1 : x1 e x2 possono essere non indipendenti in senso statistico ma
con correlazione nulla qualora il legame di dipendenza tra le due variabili sia di
tipo non lineare.

3.9 Distribuzione normale multivariata

La variabile casuale n-variata x, dove x è un vettore (n × 1) di variabili casuali,


ha distribuzione Normale n-variata e si indica tale proprietà come:

 
x1 !
 x2 
x = ∼N µ , Σ
(n×1)  ...  (n×1) (n×n)
xn

dove µ è un vettore (n × 1) i cui singoli elementi sono i valori attesi dei corri-
spondenti elementi di x e Σ è una matrice (n × n) simmetrica almeno semidefinita
positiva:
   
E(x1 ) µ1
 E(x2 )   µ2 
µ =
 ...
=
  ...
,

E(xn ) µn

Σ = E (X − µ) (X − µ)0 =
 

1
Nel caso di due variabili casuali distribuite normalmente, l’assenza di correlazione implica
l’indipendenza statistica. Vedi oltre.
56 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

 h i 
E (x1 − µ1 )2 ... E [(x1 − µ1 ) (xn − µn )]
 
 E [(x2 − µ2 ) (x1 − µ1 )] ... E [(x2 − µ2 ) (xn − µn )] 
= 
 ...
=
 ... ... h i


E [(xn − µn ) (x1 − µ1 )] ... E (xn − µn )2
   
v(x1 ) ... cov(x1 , xn ) σ11 σ12 ... σ1n
 cov(x2 , x1 ) ... cov(x2 , xn )   σ21 σ22 ... σ2n 
= 
 ...
= ,
... ...   ... ... ... ... 
cov(xn , x1 ) ... v(xn ) σn1 σn2 ... σnn
σji = σij ∀i, j.

La funzione di densità di x può essere scritta come:


 n  
1 1
f (x) = √ |Σ|−1/2 exp − (x − µ)0 Σ−1 (x − µ) ,
2π 2
n 1
f (x) : R → R+

Dalla distribuzione congiunta è possibile ottenere le distribuzioni condizionali


e marginali di sottoinsiemi di x. Ad esempio, partizionando il vettore x nel modo:
 
x1
 (n ×1) 
x= 1  , n 1 + n2 = n
x2
(n2 ×1)

Partizionando nello stesso modo il vettore µ e la matrice Σ:


   
µ1 Σ11 Σ12
 (n ×1)   (n1 ×n1 ) (n1 ×n2 ) 
µ =  1 ,Σ = ,
µ2 Σ21 Σ21
(n2 ×1) (n2 ×n1 ) (n2 ×n2 )
0
Σ21 = Σ12

riusciamo a definire le distribuzioni marginali di x1 e x2 :

x1 ∼ N (µ1 , Σ11 ),
x2 ∼ N (µ2 , Σ22 ),

e le distribuzioni condizionali di x1 dato x2 e di x2 dato x1 :

x1 |x2 ∼ N (µ∗1 , Σ∗11 ),


µ∗1 = µ1 + Σ12 Σ−1 ∗ −1
22 (x2 − µ2 ) , Σ11 = Σ11 − Σ12 Σ22 Σ21 ,

x2 |x1 ∼ N (µ∗2 , Σ∗22 ),


µ∗2 = µ2 + Σ21 Σ−1 ∗ −1
11 (x1 − µ1 ) , Σ22 = Σ22 − Σ21 Σ11 Σ12 ,
3.10. ALCUNE DISTRIBUZIONI NOTEVOLI 57

Si noti che nel caso di assenza di correlazione tra x1 e x2 ,quando cioè la


matrice delle covarianze tra gli elementi di x1 e gli elementi di x 2 è nulla:

Σ12 = E (x1 − µ1 ) (x2 − µ2 )0 = [0] ,


 
(n1 ×n2 )

la distribuzione di x1 condizionata a x2 coincide con la distribuzione marginale di


x1 e la distribuzioni di x2 condizionata a x1 coincide con la distribuzione marginale
di x2 :
µ∗2 = µ2 , Σ∗22 = Σ22 , µ∗1 = µ1 , Σ∗11 = Σ11 ,
in altri termini si ha indipendenza statistica tra x1 e x2 . Nel caso in cui trattiamo
una VC n-dimensionale gaussiana, l’assenza di correlazione lineare è sinonimo di
indipendenza statistici tra i blocchi di x che hanno covarianze nulle.

3.10 Alcune distribuzioni notevoli


3.10.1 La distribuzione χ2
Date n variabili casuali indipendenti ed identicamente distribuite come normali
standardizzate:
n
Y
x1 , x2 , ...xn , f (x1 , x2 , ..., xn ) = f (xi ),
i=1
xi ∼ N (0, 1), i = 1, 2, ..., n,

la VC ottenuta come somma di queste variabili al quadrato ha distribuzione χ2n


(chi-quadro con n gradi di libertà):
n
X
z= x2i ∼ χn , z ∈ R1+ .
i=1

Si noti che dal modo in cui ricaviamo la distribuzione χ2 è possibile dedurre che
a partire da due VC z1 e z2 indipendenti aventi entrambe distribuzione χ2 rispet-
tivamente con n1 e n2 gradi di libertà, la VC risultante dalla somma è anch’essa
distribuita come una χ2 con n = n1 + n2 gradi di libertà:

z1 ∼ χ2n1 , z2 ∼ χ2n2 ⇒ z = z1 + z2 ∼ χ2n1 +n2 .


Una distribuzione χ2k con k gradi di libertà assume valori solamente positivi ed ha
una funzione di densità con le proprietà descritte dalla Figura (3.4).

3.10.2 La distribuzione t di Student


Data una VC x, distribuita come una normale standardizzata:

x ∼ N (0, 1)
58 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Figura 3.4: Funzione di densità di VC χ2


0.2
4 gdl
8 gdl
0.18

0.16

0.14

0.12

0.1

0.08

0.06

0.04

0.02

0
0 2 4 6 8 10 12 14 16 18 20

e data una seconda VC y indipendente da x e distribuita come una χ2n :

f (x, y) = f (x)f (y), y ∼ χ2n

si definisca la VC:
x
z=p
y/n

La VC Z è distribuita come una t di Student con n gradi di libertà:

Z ∼ tn .

La distribuzione t di Student, la cui funzione di densità è rappresentata nella


Figura (3.5) per diversi valori di n, è chiaramente molto simile ad una distribuzione
gaussiana standardizzata, vale a dire è simmetrica intorno a zero e assegna densità
di probabilità molto bassi a valori distanti da zero. Confrontandola con la distribu-
zione Gaussiana standardizzata, è possibile concludere che la densità t di Student
tende ad assegnare densità di probabilità più alte ai valori sulle code rispetto alla
distribuzione normale standardizzata. Per questo motivo si dice che la distribuzio-
ne t di Student ha le ”code spesse” (fat tails nella dizione inglese). Le proprietà
3.10. ALCUNE DISTRIBUZIONI NOTEVOLI 59

Figura 3.5: Funzione di densità di VC t di Student


0.4
2 gdl
80 gdl

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
-3 -2 -1 0 1 2 3

essenziali della distribuzione t di Student sono le seguenti:


E(Z) = 0,
n
v(Z) = E(Z 2 ) = ,
n−2
se n > 2, altrimenti la varianza non esiste,
lim f (Z) = φ(Z).
n→∞
Quindi al crescere del numero dei gradi di libertà la distribuzione converge in
distribuzione a quella di una VC normale standardizzata.

3.10.3 La distribuzione F di Fisher


Date due variabili casuali X1 e X2 statisticamente indipendenti tra loro ed entram-
be distribuite come χ2 rispettivamente con n1 e n2 gradi di libertà:
X1 ∼ χ2n , X2 ∼ χ2n , f (x1 , x2 ) = f (x1 )f (x2 ),
1 2

la VC Z:
X1 /n1
Z= ∼ Fn1 ,n2
X2 /n2
si distribuisce come una F di Fisher con n1 gradi di libertà al numeratore e n2
gradi libertà al denominatore. Ovviamente il supporto di z è limitato a R1+ , dato
che si tratta del rapporto tra grandezze necessariamente positive. Le proprietà della
funzione di densità della distribuzione F sono rappresentate nella figura (3.6).
60 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Figura 3.6: Funzione di densità di VC F di Fischer


0.9
3-50 gdl
8-50 gdl
0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

3.11 La funzione di verosimiglianza


Sia x1 , x2 , ..., xn un campione di n elementi estratti in modo indipendente ed iden-
ticamente dalla stessa popolazione (indicati come IID, cioè distribuiti identica-
mente e indipendentemente) la cui densità indichiamo con f (x, θ) ad indicare che
tale densità è descritta dal vettore (k × 1) di parametri incogniti θ:

x1 , x2 , ...xn ∼ IID, f (xi , θ),i = 1, 2, ..., n.

Data l’ipotesi di indipendenza tra i diversi elementi del campione possiamo scrivere
la funzione di densità del campione come:
n
Y
f (x1 , x2 , ...xn , θ) = f (xi , θ)
i=1

Ad esempio, se la popolazione fosse distribuita normalmente con valore atteso


µ e varianza σ 2 , potremmo scrivere:
n
( )  
−n/2 −n 1 X 2 µ
f (x1 , x2 , ...xn , θ) = (2π) σ exp − 2 (xi − µ) , θ =
2σ σ
i=1

Questa è la funzione di densità dell’n − pla campionaria sulla base dei parametri
della popolazione µ e σ. Questa funzione può essere vista sotto un diverso punto
3.11. LA FUNZIONE DI VEROSIMIGLIANZA 61

Figura 3.7: Funzione di verosimiglianza di µ


0.012

0.01

0.008

0.006

0.004

0.002

0
-3 -2 -1 0 1 2 3

Si assume che σ 2 sia noto e pari a 1.

di vista, cioè come una funzione del valore dei parametri stessi e quindi come
funzione di verosimiglianza:
n
( )
−n/2 −n 1 X 2
L(x1 , x2 , ...xn , θ) = (2π) σ exp − 2 (xi − µ) . (3.1)

i=1

Questa funzione esprime la verosimiglianza che l’n-pla campionaria osservata sia


stata estratta in modo IID da una distribuzione normale con parametri µ e σ 2 . Ad
esempio, dato il campione di ampiezza n = 5:

x1 = 1.2, x2 = 1.4, x3 = 1.6, x4 = 0.8, x5 = 0.4,

assumendo per semplicità che σ sia noto e pari a 1, possiamo calcolare in relazione
a diversi valori di µ il valore di (3.1) (si veda la figura 3.7) ed effettivamente si
ha che la verosimiglianza calcolata in corrispondenza di µ = 0.5 è pari a 0.0027,
e calcolata in corrispondenza di µ = 3 è pari a (6.318) × 10−7 , indicando in
questo modo che il valore µ = 0.5 è molto più verosimile del valore µ = 3. In
altri termini, sulla base del campione analizzato, è molto più verosimile che i dati
osservati siano stati generati da una distribuzione normale con valore atteso pari a
0.5, che da una distribuzione normale con valore atteso pari a 3.
62 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

3.12 Stima di massima verosimiglianza


Dato un certo campione x1 , x2 , ...xn estratti a una determinata popolazione di cui
si conosce la forma funzionale della funzione di densità f (x, θ), che dipende da un
vettore di parametri incogniti θ, la stima di massima verosimiglianza consiste nel
cercare quei valori dei parametri del modello che rendono l’estrazione de campione
osservato il più possibile verosimile. In altri termini, si massimizza la funzione di
verosiglianza rispetto ai parametri da stimare:

M ax L(x1 , x2 , ...xn , θ).


θ

La soluzione θb viene indicata come stimatore di massima verosimiglianza di θ.


Spesso si ricorre all’espediente di massimizzare il logaritmo della funzione di
verosimiglianza, la cosiddetta funzione di log-verosimiglianza, al fine di ottenere
condizioni del primo ordine più semplici. Si ricordi infatti che se una funzione
viene sottoposta ad una trasformazione monotonica conserva i punti di massimo e
di minimo della funzione di partenza. Ad esempi per il caso di un campione di n
elementi estratti in modo IID da una popolazione normale N (µ, σ 2 ), la funzione
di log-verosimglianza è:
n
n 1 X
log L(x1 , x2 , ...xn , µ, σ 2 ) = − log (2π) − n log(σ) − 2 (xi − µ)2 .
2 2σ
i=1

Le condizioni del primo ordine sono quindi:


n
∂ log L(x1 , x2 , ...xn , µ, σ 2 ) 2 X
= 0⇒ (xi − µ) = 0
∂µ 2σ 2
i=1
n
1X
⇒ µ
b = xn , xn = xi
n
i=1
n
∂ log L(x1 , x2 , ...xn , µ, σ 2 ) n 1 X
= 0⇒− + 3 (xi − µ)2 = 0
∂σ σ σ
i=1
n
1X
b2 =
⇒ σ b)2
(xi − µ
n
i=1

Si noti che lo stimatore del valore atteso µ è non distorto e consistente:

σ2
E(xn ) = µ, v(xn ) =
n

3.13 Metodo dei momenti


Il medodo dei momenti è una modalità di stima che è utilizzata quando l’interes-
se del ricercatore è concentrato sull’ottenimento di stime consistenti. Il metodo
3.14. PROPRIETÀ DEGLI STIMATORI OTTENUTI PER CAMPIONAMENTO DA UNA DISTRIBUZIONE GA

dei momenti consiste nell’uguagliare i momenti teorici della distribuzione da cui


proviene i campione ai momenti campionari. Dato che i momenti teorici della po-
polazione dipendono dai parametri incogniti della popolazione, si risolve rispetto
ai parametri incogniti e si ottiene una stima dei parametri della popolazione. Ad
esempio, supponiamo di avere:

x1 , x2 , ...xn ∼ I.I.D., f (xi , θ)i = 1, 2, ..., n.

e la popolazione si distribuisce come una t- di Student con ν gradi di libertà e ν è


incognito. Sapendo che per una variabile casuale z distribuita come una t di Student
con ν gradi di libertà vale:
ν
E(z) = 0, V (z) = , ∀ν > 2,
ν−2
è possibile per stimare ν ricavare la varianza campionaria e uguagliarla alla va-
rianza della popolazione, ed ottenere una stima di ν esplicitando rispetto a tale
parametro:
ν S2
S2 = ⇒ νb = 2 2
ν−2 S −1

3.14 Proprietà degli stimatori ottenuti per campionamen-


to da una distribuzione gaussiana
Supponiamo di avere un campione di n elementi x1 , x2 , ..., xn estratti in modo
IID da una popolazione avente distribuzione normale N (µ, σ 2 ). Si ricordino le
definizioni di media e di varianza campionaria:
n
1X
xn = xi ,
n
i=1
n
1 X
S2 = b)2
(xi − µ
n−1
i=1

Abbiamo visto che è facile definire le proprietà della media campionaria e stabilire
che:
σ2
 
xn ∼ N µ,
n
e quindi è possibile standardizzare xn ottenendo:

n
(xn − µ) ∼ N (0, 1) .
σ
D’altro canto è possibile mostrare che S 2 si distribuisce indipendentemente da
xn e che:
S2
(n − 1) 2 ∼ χ2n−1
σ
64 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Quindi è possibile ricavare che vale:


√ √
n
σ (xn − µ) n
q = (xn − µ) ∼ tn−1
2
(n − 1) Sσ2 /(n − 1) S

Quindi si può standardizzare anche quando non si conosce σ utilizzandone una


sua stima corretta ed in questo modo si ottiene una VC la cui distribuzione è nota
e tabulata.
Nel caso in cui il campione fosse estratto in modo IID da una distribuzione
non normale, abbiamo visto che al crescere di n possiamo contare sul risultato
fornito dal teorema centrale del limite:

n
lim f (zn ) = φ(zn ), zn = (xn − µ)
n→∞ σ
e quindi possiamo ritenere che per n sufficientemente grande (per molti problemi
comuni n > 100 osservazioni), si abbia:

n
(xn − µ) ≈ N (0, 1)
S
dove con il simbolo ≈ si indica ”si distribuisce approssimativamente come”. quin-
di per n sufficientemente grande possiamo ritenenre valida√
il risultato di normalità
n
della media campionaria asintoticamente alla grandezza S (xn − µ) verrà consi-
derata come distribuita normalmente dato che la distribuzione t di Student converge
in distribuzione alla Normale standardizzata al crescere di n.

3.15 Stima per intervallo


Volendo stimare un parametro incognito θ sulla base di un campione di ampiezza
n, x1 , x2 , ..., xn , si immagini di costruire due funzioni dell’n-pla campionaria:

g1 (x1 , x2 , ..., xn ), g1 (·) : Rn → R1 ,


g2 (x1 , x2 , ..., xn ), g2 (·) : Rn → R1

con la proprietà:

pr [g1 (x1 , x2 , ..., xn ) ≤ θ ≤ g2 (x1 , x2 , ..., xn )] = α,

dove il valore di α è dato ed è denominato livello di confidenza o fiduciario. L’in-


tervallo definito dalle funzioni g1 (·) e g2 (·) viene detto intervallo fiduciario o di
confidenza.
Ad esempio ,dato il campione:

x1 , x2 , ..., xn ∼ IIDN (µ, σ 2 )


3.15. STIMA PER INTERVALLO 65

Figura 3.8: Quantili corrispondenti al 5% e al 95% per una VC χ219


0.07

0.06

0.05

0.04

0.03

0.02

0.01

0
0 5 10 15 20 25 30 35 40 45 50

se abbiamo:
n = 20, xn = 5, S 2 = 9
ricordando che:
S2
(n − 1) ∼ χ2n−1
σ2
e scegliendo ad esempio α=0.90 (90% ), si ha che:

S2
 
P r zn−1 (0.05) ≤ (n − 1) 2 ≤ zn−1 (0.95) = 0.90 ⇒
σ
2 S2
 
S 2
P r (n − 1) ≤ σ ≤ (n − 1) = 0.90 ⇒
zn−1 (0.95) zn−1 (0.95)
 
9 2 9
P r (19) ≤ σ ≤ (19) = 0.90 ⇒
30.144 10.117
2
 
P r 5.67 ≤ σ ≤ 16.90 = 0.90

dove zn−1 (0.05) = 10.117 e zn−1 (0.95) = 30.144 sono i quantili corrispondenti
rispettivamente a 0.05 e 0.95 di una variabile casuale χ219 che sono ricavabili dalla
consultazione delle tavole statistica della distribuzione χ2 . (si veda la Figura 3.8).
Dalla considerazione precedente si ricava che:
" #
S2 S 2
P r (n − 1)  ≤ σ 2 ≤ (n − 1)  =α
zn−1 1−α2 zn−1 1 − 1−α 2

In questo modo si ottiene l’intervallo di confidenza al livello di confidenza α per la


varianza nel caso in cui il campione sia di elementi IID estratti da una popolazione
66 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

normale. Per dimostrare di aver capito il concetto di intervallo fiduciario il lettore


dovrebbe provare a costruire un intervallo di confidenza al livello 95% per il valore
atteso incognito della popolazione µ.

3.16 Prova delle ipotesi


Supponiamo di avere un campione x1 , x2 , ..., xn di elementi tratti da una popola-
zione distribuita normalmente con valore atteso µ e varianza σ 2 , dal quale si siano
ricavati i seguenti indicatori sintetici:

xn = 0.52, Sn2 = 0.09, n = 20.

Si immagini che il ricercatore formuli un’ipotesi relativa al parametro incognito


µ formalizzata come la congettura che µ sia pari ad un determinato valore µ0 (ad
esempio µ0 = 3). Per ipotesi statistica parametrica (nell’accezione di Neyman e
Pearson, gli statistici che hanno formulato lo schema concettuale della prova delle
ipotesi) si intende quindi un’affermazione relativa ad un certo parametro incognito
della popolazione. Si possono avere ipotesi puntuali (come ad esempio µ = 0.6),
oppure ipotesi che riguardino un intervallo di valori per un parametro incognito,
come ad esempio:
0.55 ≤ µ ≤ 0.60.
Si possono avere ipotesi semplici che riguardano un singolo parametro della popo-
lazione e ipotesi composte che riguardano più parametri congiuntamente.
Per prova delle ipotesi si intende una procedura statistica per verificare se una
determinata ipotesi possa essere accettata o meno. La procedura di prova delle ipo-
tesi si basa sulla formulazione di un’ipotesi di interesse, chiamata ipotesi nulla (in-
dicata comeH0 ) e di un’ipotesi alternativa (indicata comeH1 ) che viene specificata
appunto come alternativa a H0 . Ad esempio l’ipotesi:

H0 : µ = 0.6

può essere provata avendo come riferimento l’ipotesi alternativa:

H1 : µ = 0.7.

La prova statistica di ipotesi è quindi un criterio decisionale per scegliere tra H0


e H1 . In connessione ad entrambe scelte è possibile commettere due tipi distinti
di errore. Il primo tipo di errore consiste nel rifiutare H0 quando l’ipotesi H0
è vera. Il secondo tipo di errore consiste nel rifiutare H1 quando l’ipotesi H1 è
vera. Immaginiamo di utilizzare un determinato criterio per scegliere tra accettare
o meno H0 e si definiscano α come probabilità dell’errore di prima specie e β la
probabilità dell’errore di seconda specie. Il complemento a uno della probabilità
dell’errore di seconda specie viene chiamato potenza del test (1 − β) e misura la
probabilità di correttamente rifiutare un’ipotesi nulla H0 non vera.
3.16. PROVA DELLE IPOTESI 67

Figura 3.9: Distribuzioni sotto H0 e H1 di una statistica utilizzata per condurre


prova di ipotesi

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
−2 0 2 4 6
La figura sulla destra rappresenta la distribuzione sotto H0 mentre la figura sulla sinistra rappresen-
ta la distribuzione sotto H1 . La semiretta verticale corrisponde al valore critico utilizzato. Quindi
l’area alla destra di tale valore, sottesa alla distribuzione sotto H0 è pari ad α (errore di prima spe-
cie), mentre l’area alla sinistra di tale valore, sottesa alla distribuzione sotto H1 è pari ad β (errore
di seconda specie)
68 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Figura 3.10: Esempio sulla prova di ipotesi sul valore atteso: test a una coda

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
−4 −3 −2 −1 0 1 2 3 4

Neyman e Pearson propongono un criterio per decidere quando accettare o


rifiutare H0 in modo tale che scelto α, la probabilità dell’errore di prima specie si
minimizza β, la probabilità dell’errore di seconda specie. Ad esempio, nella Figura
(3.9) notiamo le distribuzioni sotto H0 e H1 di una statistica utilizzata per condurre
prova delle ipotesi.
A proposito dell’esempio riportato all’inizio di questa sezione, ipotizzando che
sia soggetta a prova l’ipotesi H0 : µ = µ0 contro H1 : µ > µ0 , sappiamo che:

√ xn − µ
n ∼ N (0, 1),
σ
S2 √ xn − µ
(n − 1) 2 ∼ χ2n−1 ⇒ τ = n ∼ tn−1
σ S

Quindi possiamo ricavare:

pr (τ ≤ a) = 0.95
√ xn − µ
 
n−1
⇒ pr n ≤ t0.05 H0 = 0.95
S
√ xn − µ0
 
n−1
⇒ pr n ≤ t0.05 = 0.95.
S
3.16. PROVA DELLE IPOTESI 69

Figura 3.11: Esempio sulla prova di ipotesi sul valore atteso: test a due code

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
−4 −3 −2 −1 0 1 2 3 4

In questo contesto è quindi possibile utilizzare criterio per condurre la prova


delle ipotesi la seguente regola: se la VC:
√ xn − µ0
n
S
risulta minore di tn−1
0.05 si accetta H0 ; viceversa si rifiuta H0 . Si noti che tale criterio
è connesso naturalmente ad una probabilità dell’errore di prima specie pari a α =
0.05.
Nel nostro caso abbiamo:
√ xn − µ0 √ 0.52 − 0.6
n = 20 = −1.1926,
S 0.3
tn−1
0.05 = 1.729,

ed quindi è possibile accettare H0 (si veda Figura 3.10).


Nel caso l’ipotesi alternativa fosse stata specificata come: H1 : µ 6= µ0 , avrem-
mo ricavato:
√ xn − µ
 
n−1 n−1
pr −t0.025 ≤ n ≤ t0.025 H0 = 0.95 ⇒
S
√ xn − µ0
 
n−1 n−1
pr −t0.025 ≤ n ≤ +t0.025 = 0.95.
S
In questo modo si costruisce una criterio decisionale in base al quale i punti:
−tn−1 n−1
0.025 , t0.025 ⇒ −2.093, +2.093
70 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

costituiscono gli estremi di un intervallo all’interno del quale se cade la VC:


√ xn − µ0
n
S
si perviene all’accettazione di H0 , avendo probabilità di errore di prima specie pari
a α = 0.05 (si veda la figura 3.11). Nel nostro esempio abbiamo:
√ xn − µ0
n = −1.1926,
S
e quindi si accetta H0 . In questo caso si parla di test a due code mentre per il test
utilizzato per verificare H0 contro H1 : µ > µ0 si parla di test ad una coda.

3.17 Esercizi
1. Data la seguente distribuzione normale bivariata:
     
x1 µ1 σ11 σ12
x= ∼ N [µ, Σ] , µ = ,=
x2 µ2 σ12 σ22

Dimostrare che la distribuzione marginale di x1 e la distribuzione condizio-


nale di x2 dato x1 sono normali. (esercizio difficile ma istruttivo).

2. Dato il seguente campione di elementi estratti in modo IID da una distribu-


zione normale con momenti µ e σ 2 :

x1 = 1.3, x2 = 2.1, x3 = 0.4, x4 = 1.3, x5 = 0.5,


x6 = 0.2, x7 = 1.8, x8 = 2.5, x9 = 1.9, x10 = 3.2.

(a) si calcolino media, mediana e varianza campionaria.


(b) Si verifichino le seguenti ipotesi:

H0 : µ = 2,
H0 : µ = 0.7,
H0 : σ 2 = 0.5,

(per le ipotesi sul valore atteso si calcolino i test a una coda e quelli a
due code).
(c) Si trovino gli intervalli di confidenza al 95% per µ e σ 2 .

3. Dato un campione di ampiezza n estratto da una popolazione avente la se-


guente distribuzione:

f (x) = λ exp(−λx), x ∈ R1+ , λ > 0.


3.17. ESERCIZI 71

(a) Si scriva la funzione di verosimiglianza del campione e si ricavi lo sti-


matore di massima verosimiglianza di λ. Quale stimatore si otterrebbe
utilizzando il metodo dei momenti?

4. Dato il vettore (p × 1) x:
x ∼ N (µ, Ω)

(a) ottenere una trasformazione lineare di x che sia distribuita nel seguente
modo:
y ∼ N (0, Ip ).

5. Immaginamo di avere a disposizione un programma che genera estrazioni


da una distribuzione che può assumere solo valori pari a uno o a zero con
probabilità rispettivamente pari a p e 1 − p (distribuzione bernoulliana:
x = 1 con probabilità pari a p, 0 ≤ p ≤ 1
x = 0 con probabilità pari a 1-p.
Descrivere come sarebbe possibile ottenere estrazioni casuali da una di-
stribuzione normale standardizzata, sfruttando le note proprietà di grandi
campioni.
6. È estratto un campione di 30 elementi IID da una distribuzione incognita.
Si ipotizzi che in relazione al campione osservato si abbia:
30
1 X
x30 = xi = 0.07,
30
i=1
30
1 X
S2 = (xi − x30 )2 = 0.112.
29
i=1

Calcolare un intervallo di confidenza approssimativo al 95% per il valore


atteso incognito della popolazione facendo riferimento al teorema centrale
del limite.
7. Il vettore di variabili casuali x, di dimensione (3 × 1), si distribuisce nel
modo seguente:
 
x1
x =  x2  ∼ N (µ, Ω)
x3
Si descriva la distribuzione delle seguenti variabili casuali:
z1 = x1 + x2 + x3 ,
z2 = x1 − x2 − x3 ,
y = P−1 (x − µ) ,
P = fattore di Choleski di Ω.
72 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

8. Dato il vettore di variabili casuali:


     
x1 µ1 σ11 σ12
x= ∼ N [µ, Σ] , µ = ,=
x2 µ2 σ12 σ22

Ricavare la fattorizzazione di Choleski di Σ e darne un’interpretazione in


termini di regressione. (esercizio difficile ma istruttivo).

3.18 Soluzioni agli esercizi


1. Si consideri:
 2  
1 −1/2 1 0 −1
f (x1 , x2 ) = √ |Σ| exp − (x − µ) Σ (x − µ) ,
2π 2
Z +∞  
−1 1 σ22 −σ12
f (x1 ) = f (x1 , x2 )dx2 , Σ = ,
−∞ ∆ −σ12 σ11
2
∆ = |Σ| = σ11 σ22 − σ12

La parte esponenziale della funzione di densità può essere scritta come:


 
1  2 2

exp − y σ22 − 2σ12 y1 y2 + y2 σ11 ,
2∆ 1
y1 = x1 − µ1 , y2 = x2 − µ2

è possibile trasformare i termini dove appare y2 nello sviluppo di un quadra-


 2
to, aggiungendo e togliendo la quantità √σσ1212 y1 :
( "  2  2 #)
1 σ 12 σ 12
exp − y 2 σ22 − √ y1 + √ y1 − 2σ12 y1 y2 + y22 σ11 =
2∆ 1 σ12 σ12
( " 2  #)
σ12 2
 
1 2 σ12
exp − y σ22 − √ y1 + σ11 y2 − .
2∆ 1 σ11 σ11

Si noti che la quantità:


(  2 )
σ11 σ12
exp − y2 −
2∆ σ11

descrive la parte esponenziale di una variabile casuale normale con valore


atteso pari a σσ12
11
e varianza pari a σ∆11 e quindi:
( 2 )
+−∞
Z  r
σ11 σ12 ∆
exp − y2 − dx2 = 2π
−∞ 2∆ σ11 σ11
3.18. SOLUZIONI AGLI ESERCIZI 73

Dato che: Z +∞
f (x1 ) = f (x1 , x2 )dx2 =
−∞

 2 r  
1 −1/2 ∆ 1 2
 2
= √ |∆| 2π · exp − σ11 σ22 − σ12 y1 =
2π σ11 2∆σ11
   
1 1 2
√ exp − (x1 − µ1 ) ,
2πσ11 2σ11

si può concludere che x1 ∼ N (µ1 , σ11 ).


Ora veniamo alla distribuzione di x2 condizionata su x1 :
 2
f (x1 , x2 ) |∆|−1/2
√1

f (x1 |x2 ) = =   ×
f (x2 ) −1/2
√1 σ
2π 11

y12
 
1 2 2

exp − y σ22 − 2σ12 y1 y2 + y2 σ11 +
2∆σ11 1 2σ11
 
1 2
−1/2
= √ σ11 σ22 − σ12 ×

 
1  2 2 2 2 2

exp − y σ11 σ22 − 2σ11 σ12 y1 y2 + y2 σ11 − y1 (σ11 σ22 − σ12 ) =
2∆σ11 1
( )
  2
1 2
 −1/2 [y 2 − (σ 12 /σ )y
11 1 ]
= √ σ11 σ22 − σ12 exp − 2 /σ )
2π 2(σ22 − σ12 11

Quindi, ricordando le definizioni di y1 e y2 possiamo concludere che:


 
σ12 2
x1 |x2 ∼ N µ2 + (x1 − µ1 ) , σ22 − σ12 /σ11 .
σ11

2. (a) In relazione ai dati, si ha:

10
1 X
x10 = xi = 1.52,
10
i=1
10
1 X
S2 = (xi − x10 )2 = 0.9418,
9
i=1

S = S 2 = 0.97.

La stima della mediana è tra i valori 1.3 e 1.8.


74 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

(b) Per la verifica dell’ipotesi µ = 2 si ottiene:

x −2 1.52 − 2
p10 =p == −1.5641
S 2 /10 0.9418/10

Il valore critico al 5% del test a due code è t90.025 = 2.262 .


Quindi il test conduce all’accettazione di H0 . Se si considera il test ad
una coda:
H0 : µ = 2, contro H1 : µ < 2,
il valore critico è -t90.05 = −1.833 ed anche in questo caso si accetta
H0 .
Considerando la prova dell”ipotesi:

H0 : µ = 0.7controH1 : µ 6= 0.7,

si ottiene:
x10 − 0.7 1.52 − 0.7
p =p = 2.672.
2
S /9 0.9418/10
Dato che il valore critico per il test è ancora ±t90.025 = ±2.262,si rifiuta
H0 . A maggior ragione, se si considera l’ipotesi alternativa:

H1 : µ > 0.7,

dato che il valore critico è t90.05 = 1.833, si arriva al rifiuto di H0 .


Passando alla prova delle ipotesi sulla varianza:

H0 : σ 2 = 0.5, contro H1 : σ 2 6= 0.5,

si ricordi che :
S2
(n − 1) ∼ χ2n−1
σ2
Quindi se vale H0 si ha:

S2
z = (n − 1) ∼ χ2n−1 .
0.5

Possiamo definire, sulla base della distribuzione χ29 di riferimento:

pr(b < z < a|H0 ) = α = 0.05

In questo modo si definiscono a e b (si veda la figura 3.12). Dalla tavola


della distribuzione χ29 si ricava:

a = 2.70, b = 19.0.
3.18. SOLUZIONI AGLI ESERCIZI 75

Figura 3.12: Test a due code per la varianza; distribuzione di riferimento χ29 , α =
0.05

0.12

0.1

0.08

0.06

0.04

0.02

0
0 5 10 15 20 25 30

Figura 3.13: Test a una coda per la varianza; distribuzione di riferimento χ29 , α =
0.05

0.12

0.1

0.08

0.06

0.04

0.02

0
0 5 10 15 20 25 30
76 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

In questo contesto abbiamo:


0.9418
z=9 = 16.952,
0.5
e quindi si accetta H0 . Se invece si considera come ipotesi alternativa:

H1 : σ 2 > 0.5,

dalla tavola della distribuzione χ29 di riferimento si determina il valore


c = 16.9 che soddisfa (figura 3.13):

pr(z > c|H0 ) = α = 0.05

Quindi in questo esercizio il test ad una coda comporta il rifiuto di H0 .


(c) Per costruire l’intervallo di confidenza per µ, si ricordi che:
xn − µ
τ=p ∼ tn−1
S 2 /n

quindi è possibile determinare il valore t90.025 = 2.262 (si veda la figura


3.13) tale per cui: pr(−t90.025 < τ < t90.025 ) = 0.95 = 1 − α. Quindi
l’intervallo di confidenza viene ottenuto come:
h p p i
x10 − t90.025 S 2 /10, x10 + t90.025 S 2 /10, = [0.8258, 2.2142].

Per quello che riguarda l’intervallo di confidenza per σ 2 , ricordiamo


che:
S2
z = (n − 1) 2 ∼ χ2n−1
σ
e quindi possiamo determinare a e b in modo tale che:

pr(a ≤ z ≤ b) = 0.95 = 1 − α, a = 2.70, b = 19.0,

o, in termini equivalenti:

pr(2.70 ≤ z ≤ 19.0) =
 
8.476
pr 2.70 ≤ ≤ 19.0 =
σ2
σ2
 
1 1
pr ≤ ≤ =
19.0 8.476 2.70
 
8.476 2 8.476
pr ≤σ ≤ =
19.0 2.70
2

pr 0.44611 ≤ σ ≤ 3.1393 = 0.95

Quindi l’intervallo di confidenza al 95% per σ 2 è dato da [0.44611,


3.1393].
3.18. SOLUZIONI AGLI ESERCIZI 77

3. La verosimiglianza del campione (funzione di densità congiunta degli ele-


menti del campione) è:
n
Y n
X
n
f (x1 , x2 , ..., xn ) = f (xi ) = (λ) exp(−λ xi )
i=1 i=1

e quindi la log-verosimiglianza è:


n
X
logL = nlog(λ) − λ xi
i=1

e la stima di λ di massima verosimiglianza è:


n
∂logL n X b = Pnn b= 1 .
=0⇒ − xi = 0 ⇒ λ ⇒λ
∂λ λ i=1 xi xn
i=1

Per ottenere lo stimatore ottenuto utilizzando il metodo dei momenti, è ne-


cessario ricavare in primo luogo il valore atteso della distribuzione:
Z +∞ Z +∞
1
E(x) = xf (x)dx = λ xexp(−λx)dx =
0 0 λ
Uguagliando il momento teorico al momento campionario e risolvendo per
λ si ottiene lo stimatore derivante dal metodo dei momenti:
1 b= 1
= xn ⇒ λ
λ xn

che quindi coincide con lo stimatore di massima verosimiglianza.

4. Definendo P il fattore di Choleski di Ω:

Ω = PP0

sappiamo che:
P−1 ΩP−10 = Ip .
Quindi si ha che:

z = P−1 (x − µ),
E(z) = P−1 [E(x) − µ] = [0] ,
E(zz0 ) = P−1 ΩP−10 = Ip .

Da questo notiamo che la variabile z si distribuisce come una normale p-


dimensionale standardizzata:

z ∼N (0, Ip ).
78 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

5. Ricordando che, grazie al teorema centrale del limite, possiamo dire:


xn − E(x) d
q → N (0, 1),
v(x)
n

qualunque sia la distribuzione della popolazione da cui sono estratti gli ele-
menti del campione. Quindi, dato che per una VC bernoulliana abbiamo:

E(x) = 0 · (1 − p) + 1 · p = p,
v(x) = E(x2 ) − (E(x))2 = p − p2 = p(1 − p),

grazie al teorema centrale del limite possiamo scrivere:


x −p
qn ≈ N (0, 1)
p(1−p)
n

Quindi è possibile estrarre n = 10000 (un numero altissimo) di elementi


IID da unaq bernoulliana e calcolare la media delle realizzazioni, sottrarre p e
dvidere per p(1−p)
10000 . La variabile ottenuta è approssimativamente distribuita
come una normale.

6. Per il TCL, possiamo dire che:


x30 − E(x)
p ≈ N (0, 1),
σ 2 /n
S2
(n − 1) 2 ≈ χ2n−1 .
σ
quindi il rapporto si distribuisce approssimativamente come una normale:
x30 −E(x)
√ 2
σ /n x30 − E(x)
q = p 'z
2
(n − 1) Sσ2 /(n − 1) S 2 /n

In relazione alla distribuzione normale è possibile determinare il quantile


z0.025 = 1.96 in corrispondenza del quale abbiamo:
" #
x30 − E(x)
pr −1.96 ≤ p ≤ 1.96 = 0.95 ⇒
S 2 /n
h p p i
2 2
pr x30 − 1.96 S /n ≤ µ ≤ x30 + 1.96 S /n = 0.95 ⇒
h p p i
pr 0.07 − 1.96 0.112/30 ≤ µ ≤ 0.07 + 1.96 0.112/30 = 0.95 ⇒

pr [−0.0498 ≤ µ ≤ 0.1898] = 0.95.


Questo definisce un intervallo di confidenza approssimativo costruito per µ.
3.18. SOLUZIONI AGLI ESERCIZI 79

7. Definendo:
0
z1 = a1 x ,
(3×1) (3×1)
 
1
a1 =  1 
1

si ricava che:

z1 ∼ N (a01 µ, a01 Ωa1 ),


a01 Ωa1 = ω11 + ω22 + ω33 + 2ω12 + 2ω13 + 2ω23 .

Definendo:
0
z2 = a2 x ,
(3×1) (3×1)
 
1
a2 =  −1 
−1

si ricava che:

z2 ∼ N (a02 µ, a02 Ωa2 ),


a02 Ωa2 = ω11 + ω22 + ω33 − 2ω12 − 2ω13 + 2ω23 .

Per quanto riguarda la variabile casuale y, è facile concludere che:

y ∼ N ( 0 , I3 )
(3×1)

8. La fattorizzazione di Choleski di Σ di ottiene ricavando la matrice P con le


seguenti proprietà:
 
p11 0
P = , p11 > 0, p22 > 0,
p21 p22
p211
   
0 p11 p21 σ11 σ12
PP = Σ ⇒ = .
p21 p11 p222 + p211 σ12 σ22

Quindi, risolvendo l’uguaglianza appena scritta è facile trovare i valori degli


elementi di P corrispondenti:

r
σ12 σ12
p11 = σ11 , p21 = √ , p22 = σ22 −
σ11 σ11
Si definisca ora la variabile casuale bidimensionale:

z = P−1 (x − µ) ∼ N (0, I2 )
80 CAPITOLO 3. RICHIAMI DI INFERENZA STATISTICA

Dato che si ha:


p−1
 
−1 −1 + 11 0
P = |P| P = p21
− p11 p22 p−1
22

la variabile casuale z è:

p−1
   
z1 11 (x1 − µ1 )
z= = p21 −1
z2 − p11 p22 (x1 − µ1 ) + p22 (x2 − µ2 )

Notate che:
x1 − µ1
z1 ∼ N (0, 1) ⇒ √ ∼ N (0, 1),
σ11
 
1 σ12
z2 ∼ N (0, 1) ⇒ (x2 − µ2 ) − (x1 − µ1 ) ∼ N (0, 1).
p22 σ11

Quindi σ11 z1 dà i termini di disturbo di una regressione di x1 su una co-
stante (con coefficiente pari a µ1 ) e tali termini di disturbo hanno varianza
pari a σ11 , mentre p22 z2 esprime i termini di disturbo di una relazione di
regressione lineare di (x2 − µ2 ) su (x1 − µ1 ) la cui varianza è pari a:
σ12
p222 = σ22 − .
σ11
Capitolo 4

Il modello di regressione lineare

4.1 Concetti fondamentali


In un modello di regressione lineare, una variabile yt , chiamata variabile dipenden-
te o endogena è ipotizzata dipendere in modo lineare, tramite un vettore (k × 1) di
parametri:  
β1
 β2 
β= 
 ... 
βk
da un insieme di k variabili x1t , x2t , . . . , xkt che vengono dette variabili esplicative
o regressori. In aggiunta si ipotizza che la variabile yt sia influenzata da un termine
stocastico εt :
k
X
yt = βi xit + εt , t = 1, 2, . . . T,
i=1
k
X
βi xit = parte sistematica del modello
i=1
εt = parte stocastica del modello

Immaginiamo di avere a disposizioni T osservazioni su tutte le variabili che ap-


paiono nel modello e di chiederci come stimare i parametri incogniti del model-
lo. Ad esempio, supponiamo di fare riferimento ad una semplice formulazione
dell’equazione del consumo:

yt = β1 + β2 x2t + β3 x3t + εt, t = 1, . . . , T,


yt = consumo all’istante t ,
x1t = 1∀t (termine costante della regressione),
x2t = reddito disponibile all’istante t ,
x3t = stock di ricchezza finanziaria all’istante t

81
82 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Figura 4.1: Rappresentazione grafica di una relazione di regressione semplice teo-


rica
(β1 = 3.0, β2 = 0.5, T = 4 osservazioni)

9
(x23 = 3.2, y3 = 7.7)
8

7 (x21 = 4.5, y1 = 6.35)


ε3 = 3.1
6 ε1 = 1.1 ε2 = −2.2
5
(x22 = 6.5, y2 = 5.25)
4

3 ε4 = −2.1

2 (x24 = 2.2, y4 = 2.0)

0
0 1 2 3 4 5 6 7

In questo capitolo cercheremo di capire in quale modo è possibile stimare i


parametri incogniti del modello

4.1.1 Il ruolo del termine di disturbo e le sue proprietà


I motivi dell’inserimento di un termine di disturbo stocastico nel modello di regres-
sione lineare possono essere sintetizzati come segue:

1. Il termine di disturbo εt rappresenta un elemento di asistematicità connesso


al comportamento umano;

2. inoltre, il termine di disturbo può essere interpretato come la descrizione


dell’effetto congiunto di un numero elevato di variabili che producono effetti
su yt ma che non sono suscettibili di misurazione e quindi non inseribili nella
parte sistematica del modello;

3. infine, possono essere presenti errori di misurazione tra le variabili.

Graficamente (si veda la figura 4.1), possiamo rappresentare facendo riferimen-


to alla regressione semplice (numero di regressori k = 2, x1t = 1, ∀t):

yt = β1 + β2 x2t + εt, t = 1, . . . , T,
4.1. CONCETTI FONDAMENTALI 83

si nota che ciascun termine εt ha l’effetto di indurre la corrispondente osservazione


sulla variabile dipendente a deviare dalla relazione teorica che lega yt a x1t e x2t ,
cioè dalla retta di regressione.
Nel modello di regressione lineare a ciascuna osservazione associamo un ter-
mine di errore o termine di disturbo εt con le seguenti proprietà:


 E(εt ) = 0, ∀t
E(εt εs ) = 0, ∀t 6= s (assenza di correlazione) (4.1)
E(ε2t ) = σ 2 , ∀t. (costanza della varianza o omoschedasticità

A queste assunzioni di solito si aggiunge l’ipotesi di normalità dei disturbi che


vedremo non essere strettamente necessaria alla stima puntuale del modello:

εt ∼ N (0, σ 2 ), t = 1, 2, . . . , T. (4.2)

4.1.2 Ipotesi sui regressori


Nel caso più semplice, i regressori del modello x1t , x2t , . . . , xkt , t = 1, 2, . . . , k,
sono assunti non stocastici oppure si ipotizza di considerarli come variabili casuali
e di lavorare con la distribuzione condizionale di yt dati x1t , x2t , . . . , xkt :
k
X
yt = βi xit + εt ,
i=1

k
X
E(yt |x1t, x2t, . . . , xkt ) = βi xit
i=1

Nella versione più semplice del MRL, le ipotesi avanzate sui regressori sono:
1) E(xit εs ) = 0, ∀i, t, s (esogenità stretta dei regressori)
cioè non si ha correlazione tra i regressori ed i termini di disturbo. Particolarmente
rilevante è l’ipotesi di assenza di simultaneità:

E(xit εt ) = 0, ∀i, t (4.3)

2) Definendo la matrice X di dimensioni (T × k) :


 
x11 x21 ... xk1
 x12 x22 ... xk2 
X =
 ...
 (4.4)
... ... ... 
x1T x2T ... xkT
si ipotizza:
ρ(X) = k (4.5)
vale a dire i diversi regressori devono essere linearmente indipendenti.
84 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

4.1.3 Rappresentazione matriciale del modello di regressione lineare


Consideriamo il MRL con k regressori in forma matriciale:
y = X β + ε
(T ×1) (T ×k)(k×1) (T ×1)

Ogni riga della rappresentazione è un’osservazione distinta:


k
X
yt = βi xit + εt = x0t β+εt , (4.6)
i=1
x0t
 
= x1t x2t . . . xkt , t = 1, 2, . . . , T (4.7)
(1×k)

Con l’ipotesi di normalità dei termini di disturbo posso scrivere il modello di


regressione (4.3) nei termini della distribuzione di yt dati x1t , x2t , . . . , xkt :
Xk
(yt |x1t , x2t , . . . , xkt ) ∼ N ( βi xit + εt , σ 2 )
i=1
 #2 
T k
 T "
1  1 X X 
f (y|X) = √ exp − 2 yt − βi xit
2πσ  2σ 
t=1 i=1

oppure in termini matriciali:


T
 T ( )
1 1 X
f (y|X) = √ exp − 2 ε 0 ε
2πσ 2σ (1×T ) (T ×1)
t=1

Si noti che l’inclusione di un termine d’intercetta nel modello (si prenda il caso
più semplice di un modello con soli due regressori, uno dei quali è il termine di
intercetta: x1t = 1, ∀t):

yt = β1 + β2 x2t + εt , t = 1, 2, . . . , T

si può rendere in termini matriciali scrivendo:

y = X β + ε ,
(T ×1) (T ×2)(2×1) (T ×1)
 
1 x21
 1 x22 
X = 
 ...

... 
1 x2T
Ricapitolando, dato il MRL:
k
X
yt = βi xit + εt , t = 1, 2, . . . , T
i=1
4.1. CONCETTI FONDAMENTALI 85

l’obiettivo è quello di ottenere una stima:


 
β̂1
 β̂2 
β̂ =  
 ... 
β̂2
dei parametri incogniti del modello:
 
β1
 β2 
β = 
 ... 
βk
Sulla base di tale stima puntuale dei parametri è possibile:
a) “prevedere” yT +j :
X k
ŷT +j = β̂i xiT +j
i=1
disponendo di informazioni o avanzando ipotesi sui valori di xiT +j , i = 1, 2, . . . , k, j =
1, 2, . . . ..
b) fare ulteriore inferenza sul valore dei parametri. Ad esempio, prendiamo il
semplice modello dove spieghiamo il consumo privato (y) in relazione al reddito
disponibile (x2 ) ed alla spesa pubblica (x3 ):
yt = β1 + β2 x2t + β3 x3t + εt
Possiamo, ad esempio, verificare la compatibilità dell’ipotesi di equivalenza
ricardiana (neutralità della spesa pubblica) con una semplice prova delle ipotesi:
H0 : β3 = 0
H1 : β3 6= 0
Immaginiamo che il valore stimato di β3 , β̂3 sia pari a 0.07. Quanto questo
valore è statisticamente vicino a zero? A domande di questo tipo è possibile ri-
spondere facendo riferimento alla prova delle ipotesi e alla costruzione di intervalli
di confidenza. È possibile inoltre costruire intervalli di confidenza intorno alle
previsioni sulla variabile dipende, oltre che intorno alle stime dei parametri.

4.1.4 Ricapitolando
Assunzioni del modello lineare di regressione classico:
a) linearità della relazione:

k
X
yt = βi xit + εt , t = 1, 2, . . . T.
i=1
y = Xβ + ε
86 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

b) ipotesi sui termini di disturbo:

E(εt ) = 0, ∀t,
E(ε2t ) = v(εt ) = σ 2 , ∀t,
E(εt εt−j ) = 0, ∀j 6= 0

cioè:
εt ∼ i.i.d(0, σ 2 ), ∀t.
Spesso si assume l’ipotesi di normalità dei termini di disturbo (che non è stretta-
mente necessaria per la stima puntuale dei parametri):

εt ∼ N (0, σ 2 ), ∀t.

c) Ipotesi sui regressori x1t , x2t , . . . xkt :


Nella formulazione più semplice del MRL si ipotizza che i regressori siano non
stocastici oppure variabili casuali ortogonali (non correlate) rispetto ai termini di
errore:

E(xit εs ) = 0, ∀i, t, s (esogenità stretta dei regressori)


Una condizione meno stringente è quella che richiede l’assenza di simultaneità
tra ciascuno dei regressori ed i termini di disturbo:

E(xit εt ) = 0, ∀i, t (assenza di simultaneità)

In più si richiede l’indipendenza lineare tra le colonne di X:

ρ(X) = k

4.2 Stima dei parametri


4.2.1 Metodo dei momenti (MM)
Come abbiamo visto consiste nell’uguagliare i momenti campionari con quelli
della popolazione; i momenti rilevanti in questo caso sono quelli che esprimono
l’assenza di simultaneità tra i termini di disturbo e i regressori:

E(xit εt ) = 0, ∀i, t

Prendiamo un semplice esempio con due regressori:

yt = β1 + β2 x2t + εt

In questo caso i momenti teorici sono:

E(εt x1t ) = 0
E(εt x2t ) = 0
4.2. STIMA DEI PARAMETRI 87

che hanno come equivalenti campionari:


T T
1X 1X
1) εt x1t = 0⇒ (yt − β1 − β2 x2t ) = 0 ⇒
T T
t=1 t=1
− −
⇒ y −β1 − β2 x2 = 0,
T T
− 1X − 1X
y = yt , x 2 = x2t
T T
t=1 t=1
T T
1 X 1 X
2) εt x2t = 0⇒ (yt − β1 − β2 x2t )x2t = 0 ⇒
T T
t=1 t=1

⇒ S(y, x2 ) − β1 x2 −β2 S(x2 , x2 ) = 0,
T T
1X 1X 2
S(y, x2 ) = yt x2t , S(x2 , x2 ) = x2t ,
T T
t=1 t=1

da cui si ricava sostituendo la prima nella seconda:

− −
β̂1 = y −β2 x2 ,
− − −
0 =S(y, x2 ) − ( y −β2 x2 ) x2 −β2 S(x2 , x2 )
ĉ(y, x2 )
⇒ β̂2 = (4.8)
v̂(x2 )

Passiamo ora al MRL con k regressori. I momenti teorici sono:

E(xit εt ) = 0, i = 1, 2, . . . , k.

I corrispondenti momenti campionari sono:


 T 
1 P
T x1t εt 
t=1

 
 T
1 P

1 0

T x2t εt 
X ε = t=1

T (k×T ) (T ×k)  

 ... 

 T 
1 P
T xkt ε t
t=1

Uguagliando i momenti campionari (intesi come funzioni dei parametri incogniti


contenuti in β) ai corrispondenti momenti della popolazione (tutti pari a zero), si
ottiene:

X0 (y − Xβ) = 0
X0 y − X0 Xβ = 0 (4.9)
88 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Ricordando l’assunzione che:


ρ(X) = k
possiamo ricavare che:
ρ(X0 X) = k
per cui si può invertire la matrice X0 X ed ottenere:

β̂M M = (X0 X)−1 X0 y (4.10)

Come utile esercizio, verificate che con k = 2 e un primo regressore dato


dal termine di intercetta (x1t = 1, ∀t), utilizzando la (4.10) si ottiene l’espressio-
ne (4.8) per β̂1 e β̂2 vista prima nell’esempio a due variabili. La relazione (4.9)
esprime le cosiddette equazioni normali.
Si noti che in tutta l’applicazione del metodo dei momenti si sono utilizzate
solo le seguenti proprietà:
- la linearità della relazione di regressione y = Xβ + ε;
- l’ortogonalità di X rispetto ai termini di disturbo (assenza di simultaneità):

E(xit ετ ), ∀i, t, τ.

4.2.2 Metodo della massima verosimiglianza.


Si utilizzano tutte le proprietà sui termini di disturbo, anche quella relativa alla
normalità dei termini di disturbo:

E(εt ) = 0, ∀t,
E(ε2t ) = σ 2 , ∀t,
E(εt ετ ) = 0, ∀t 6= τ,
εt ∼ N (0, σ 2 ), ∀t.

In questo modo è possibile scrivere la verosimiglianza associata al MRL:


T
( )
1 T 1 X 2
L = (√ ) exp − 2 (yt − β1 x1t − . . . − βk xkt ) =
2πσ 2σ
t=1
 
1 T 1 0
= (√ ) exp − 2 (y − Xβ) (y − Xβ)
2πσ 2σ

Della funzione di verosimiglianza è possibile prendere il logaritmo, in questo


modo ottenendo:

T 1
log L = − log(2π) − T log σ − 2 (y − Xβ)0 (y − Xβ)
2 2σ
Per massimizzare la verosimiglianza possiamo ottenere le condizioni del primo
ordine rispetto a β e σ, i parametri del modello:
4.2. STIMA DEI PARAMETRI 89

∂ log L 1 ∂ 
(y − Xβ)0 (y − Xβ) = 0

= 0→−
∂β 2 ∂β
∂ log L T 1
= 0 → − + 3 (y − Xβ)0 (y − Xβ) = 0
∂σ σ σ
Utilizzando il primo blocco delle condizioni del primo ordine otteniamo:
∂(β 0 X0 Xβ) ∂ 0 0
− (β X y + y0 Xβ) = 0 ⇒
∂β ∂β
2(X0 X)β − 2(X0 y) = 0
Ricordando che ρ(X) = k e quindi che:

ρ(X0 X) = k ⇐⇒ X0 X 6= 0

possiamo esplicitare rispetto a β ed ottenere lo stimatore di massima verosimi-


glianza:

β̂M L = (X0 X)−1 X0 y (4.11)


Notate che è lo stesso stimatore che si ottiene applicando il metodo dei momenti.
Sostituendo β̂M L nel secondo blocco delle condizioni del primo ordine (la derivata
prima della logverosimiglianza rispetto a σ) e risolvendo rispetto a σ 2 si ottiene
anche uno stimatore per la varianza:
1
σ
bM2
L = (y − Xβ̂ M L )0 (y − Xβ̂ M L ) =
T
T
1 0 1X 2
= εb εb = εbt , (4.12)
T T
t=1
εb = y − Xβ̂ M L = y − X(X0 X)−1 X0 y
Notate che è possibile confermare che la soluzioni associate alle condizioni del
primo ordine, cioè la (4.11) e la (4.12), definiscono un punto di massimo per la
funzione di logverosimiglianza. Questo può essere verificato calcolando la matrice
hessiana in corrispondenza della soluzione:
2
H(βbM L , σ
bM L) =

− σ12 X0 X 2
(X0 Xβ − X0 y)
 
= σ3 =
2
σ3
(β 0 X0 X − y0 X) T
σ2
− 3 σ14 ε0 ε (βbM L ,b
σM2
L)

− σ12 X0 X 2
(X0 Xβ − X0 y)
 
= σ3 =
2
σ3
(β 0 X0 X − y0 X) T 2 1 0
σ4 (σ − 3 T ε ε) (βbM L ,b
σM2
L)

− σb21 X0 X 1 0
   
0 − σb2 X X 0
ML (k×1) = ML (k×1) (4.13)
−2T

00 σ
T
4 (−2b
σM2 )
L 00 σ 2
(1×k) bM L (1×k) bM L
90 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Figura 4.2: retta di regressione interpolante una nuvola di punti

4.5

4.4

4.3

4.2

4.1

3.9

3.8

3.7
1.4 1.6 1.8 2 2.2 2.4 2.6 2.8

È evidente che la matrice hessiana, calcolata in corrispondenza della stima di


massima verosimiglianza sia definita negativa.

4.2.3 Metodo dei minimi quadrati (OLS=ordinary least squares)


Supponiamo di avere T osservazioni relative ad una misura del consumo aggregato
yt e ad una misura del reddito disponibile x2t .di volere stimare una relazione di
regressione lineare del tipo:
yt = β1 + β2 x2t + εt , t = 1, 2, . . . , T.
Si veda la figura 4.2: ogni punto sul grafico rappresenta un’osservazione su yt e
x2t .
Il metodo di stima OLS consiste nel trovare una retta che interpoli la nuvola
di punti in modo tale da minimizzare la somma dei quadrati degli errori commessi
interpolando linearmente la nuvola di punti.
Supponiamo per esempio T = 4 osservazioni, in relazione a ciascuna di queste
osservazioni si definisce un errore di interpolazione:
y1 − (β1 + β2 x21 )
y2 − (β1 + β2 x22 )
y3 − (β1 + β2 x23 )
y4 − (β1 + β2 x24 )
4.2. STIMA DEI PARAMETRI 91

La stima della relazione di regressione consiste nel trovare la configurazione


dei parametri β1 e β2 (intercetta e coefficiente angolare) che consenta di minimiz-
zare la somma dei quadrati degli errori di interpolazione:
T
X
min (yt − β1 − β2 x2t )2
β1 ,β2
t=1

In termini più generali, sulla base del MRL con k regressori:


k
X
yt = βi xit + εt , t = 1, 2, . . . , T
i=1

si minimizza la funzione obiettivo somma dei quadrati degli errori di interpolazio-


ne:
T
X
Q= (ε2t )
t=1

oppure in termini matriciali:

Q = (y − Xβ)0 (y − Xβ) = y0 y − β 0 X0 y − y0 Xβ + β 0 X0 Xβ

rispetto al vettore dei parametri β:

min (y − Xβ)0 (y − Xβ)


β

Ricaviamo le condizioni del primo ordine

∂Q
= [0] ⇒ −2X0 y + 2X0 Xβ = 0
∂β k×1
Da cui si ottiene facilmente:

β̂OLS = (X0 X)−1 X0 y (4.14)


Si noti che:
β̂OLS = β̂M L = β̂M M

Proprietà dello stimatore OLS


(a) Quando si hanno regressori non stocastici, lo stimatore OLS è non distorto.
Infatti:

h −1 i h −1 0 i
E(β̂) = E X0 X X0 y = E X0 X X (Xβ + ε) =
= β + (X0 X)−1 X0 E(ε) = β
92 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Nel caso in cui abbiamo regressori stocastici, per conservare la proprietà di non
distorsione di βb occorre ipotizzare:

E(X0 ε) = 0

(b) La matrice di varianze e covarianze dello stimatore OLS è:


h −1 0 0 i
V ar(β̂) = E(β̂ − β)(β̂ − β)0 = E X0 X X εε X(X0 X)−1

A questo punto, ricordando le assunzioni sui termini di disturbo:

E(εt ) = 0, ∀t,
E(εt ετ ) = 0, ∀t 6= τ,
E(ε2t ) = σ 2 , ∀t

oppure in forma compatta:

E(ε) = 0,
E(εε0 ) = σ 2 IT

Quindi la matrice di varianze e covarianze dello stimatore OLS è:


b = (X0 X)−1 X0 σ 2 IT X(X0 X)−1 = σ 2 (X0 X)−1
V (β)

Notate che con l’ipotesi aggiuntiva:


1 0
lim (X X) = Q
T →∞ T (k×k)

dove Q è una matrice di rango pieno che può essere interpretata come matrice di
varianza e covarianza dei regressori, otteniamo:
 0 −1
2 XX Q−1
lim V (β̂) = lim σ T = lim σ 2 = [0]
T →∞ T →∞ T T →∞ T
che equivale a dire che lo stimatore di minimi quadrati è consistente.
(c) lo stimatore OLS è il più efficiente nella classe degli stimatori lineari non
distorti (teorema di Gauss-Markov), se valgono le ipotesi canoniche sui termini di
disturbo (E(ε) = 0 e E(εε0 ) = σ 2 I).
Infatti, si consideri un qualsiasi stimatore lineare non distorto

β̃ = C y ,
(k×T )(T ×1)

E(β̃) = β = CXβ + CE(ε)

quindi la matrice C , perchè β̃ sia non distorto,deve soddisfare:

CX = Ik
4.2. STIMA DEI PARAMETRI 93

e la matrice di varianze e covarianze di β̃ è:

V ar(β̃) =σ 2 CC0 (4.15)

Si definisca ora:
D = C − (X0 X)−1 X0
in modo tale che la (4.15) può essere riscritta come:
h ih i0
2 0 −1 0 −1
V ar(β̃) =σ D + (X X) D + (X X)
Si ricordi che:

CX = Ik = DX + (X0 X)−1 X0 X = DX + Ik

che implica:
DX = 0
e quindi possiamo scrivere la (??) come:

V ar(β̃) = σ 2 D0 D + σ 2 (X0 X)−1 = σ 2 DD0 + V ar(β̂OLS )

oppure:
V ar(β̃) − V ar(β̂OLS ) = σ 2 DD0
Quindi la differenza tra le due matrici di varianza e covarianze è σ 2 DD0 e D0 D è
definita positiva:
x0 D0 Dx > 0,∀ x 6= [0]
(k×1)

In questo modo si è dimostrato che lo stimatore OLS è più efficiente di qualunque


altro stimatore lineare non distorto.

4.2.4 Aspetti algebrici dello stimatore OLS


(1) Si considerino i residui dell’equazione stimata utilizzando lo stimatore OLS:
0
ε̂ = y − Xβ̂ = y − X(X X)−1 X0 y =
h i
= IT − X(X0 X)−1 X0 y = (4.16)
h i
= IT − X(X0 X)−1 X0 (Xβ + ε) =
= Xβ + ε − X(X0 X)−1 X0 Xβ − X(X0 X)−1 X0 Xε = (4.17)
h i
IT − X(X0 X)−1 X0 ε (4.18)

Notate che:
X0 ε̂ = X0 y − (X0 X)(X0 X)−1 X0 y = 0 (4.19)
L’espressione appena riportata vale sempre. In termini geometrici descrive l’orto-
gonalità dei residui OLS rispetto allo spazio coperto dalle colonne di X.
94 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Se la regressione include una costante, la prima riga di X0 (colonna di X) sarà


una colonna di elementi pari a 1. Quindi, ricordando la (4.19) possiamo scrivere:

0 XT
u1k X0 ε̂ =L0 ε̂ = ε̂t = 0 (4.20)
t=1

dove u1k è il vettore estrazione di dimensione (k × 1) con primo elemento pari a 1:

u10
 
k = 1 0 ... ... 0
(1×k)

Notate che la (4.20) implica che in questo caso, quando cioè la regressione include
un termine di intercetta, i residui hanno media campionaria pari a zero.
(2) Calcoliamo il valore atteso del vettore dei residui facendo riferimento alla
(4.18):  
E(ε̂) = IT − X(X0 X)−1 X0 E(ε) = 0

e quindi concludiamo che il valore atteso dei residui è nullo. La matrice di varianze
e covarianze dei residui è:

V ar(ε̂) = E(ε̂ε̂0 ) =
   
= IT − X(X0 X)−1 X0 E(εε0 ) IT − X(X0 X)−1 X0 =
 
= σ 2 IT − X(X0 X)−1 X0 (4.21)
 
dato che E(εε0 ) = σ 2 IT ,e σ 2 IT − X(X0 X)−1 X0 è matrice idempotente.
(3) Riprendendo le equazioni normali dei minimi quadrati:
0
(X0 X)β̂ − X y = 0

possiamo premoltiplicare per un idoneo vettore estrazione:

0 0
1
u1k X0 Xβ̂ = uk X0 y
Se la prima colonna di X è una colonna di 1, si ha:
0 0
i Xβ̂ = i y, (4.22)
(1×T ) (1×T )
 0
i = 1 1 ... 1

e quindi, premoltiplicando entrambi i membri della (4.22) per T −1 , si ottiene:

x̄0 β̂ =ȳ (4.23)


(1×k)
4.2. STIMA DEI PARAMETRI 95

Figura 4.3: retta di regressione stimata con termine di intercetta (punto


A=baricentro)

4.5

y A
valore di y

3.5

2.5 x2

2
0 0.5 1 1.5 2
valore di x2

dove:

T
 
T
 
 P  1
x
1  t=1 2t
 
1 x2 
x̄ = ( i0 X)0 = 
 
= ,
T  ...
T  ... 
 

 PT  xk
xkt
t=1
T
1 1 X
ȳ = ( i0 y) = yt .
T T
t=1

Si noti che x̄ è il vettore delle medie campionarie dei regressori e ȳ è la media cam-
pionaria della variabile dipendente. Quindi la relazione (4.23) indica che la retta di
regressione (iperpiano di regressione se k > 2) passa per il baricentro campionario,
cioè passa per il punto nello spazio k dimensionale con coordinate date dalle me-
die campionarie delle grandezze che appaiono nella relazione di regressione. Ciò
avviene solo se il MRL comprende un termine di intercetta.
Nel caso della regressione semplice:

yt = β1 + β2 x2t + εt , t = 1, 2 . . . , T
96 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

abbiamo:
ȳ = β̂1 + β̂2 x̄2
come evidenziato dal grafico 4.3.

4.2.5 Ricapitolazione sulla stima OLS dei parametri β


La stima OLS coincide con la stima di massima verosimiglianza (M L=maximum
likelihood) e quella che si ottiene grazie all’applicazione del metodo dei momenti
(M M ).La stima OLS non richiede alcuna assunzione sulla forma della distribuzio-
ne dei termini di disturbo.

4.2.6 Interpretazioni alternative della stima OLS di un MRL


Una prima possibile interpretazione della stima del MRL è nei termini di proiezio-
ne. Prendiamo i valori stimati y
b:
0
ŷ = Xβ̂ = X(X X)−1 X0 y (4.24)

È possibile definire la matrice X(X0 X)−1 X0 come la matrice di proiezione sullo


spazio coperto dalle colonne di X. Quindi y b è la proiezione di y sullo spazio
coperto dalle colonne di X e il vettore dei residui:

y = IT − X(X0 X)−1 X0 y
 
εb = y−b

dà la distanza di y dalla proiezione sullo spazio coperto dalle colonne di X. Fa-
cendo un esempio per il quale sia possibile dare una semplice rappresentazione
grafica, ipotizziamo un MRL con un solo regressore:

yt = β1 x1t + εt , t = 1, ..T

Immaginiamo di avere solo T = 2 osservazioni:


   
2 1
y= ,x =
4 1
È chiaro che:
β̂ = (x0 x)−1 x0 y =3

 
3
y
b = β̂x =
3
 
−1
ε̂ = y − y
b=
1

Vediamo quindi che y


b esprime la proiezione ortogonale di y sullo spazio co-
perto da x.
4.2. STIMA DEI PARAMETRI 97

Figura 4.4: regressione stimata come proiezione ortogonale


7

5
y
4
^y
3

x
1

0 1 2 3 4 5 6 7 8 9

−1

−2
98 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

a) Un’altra interpretazione della stima OLS del MRL è la seguente. Supponia-


mo di avere:
y = Xβ + ε
dove la prima colonna di X è il termine di intercetta. Ricordando le equazioni
normali dei Minimi Quadrati:
0
(X0 X)β̂ = X y

possiamo scrivere:
1 10 1 10 0
uk X0 X β̂ =

u Xy⇒
T T k
1 0 1 0
i Xβ̂ = iy⇒
T T
x 0 β̂ = ȳ,
(1×k)

x̄0 =
 
1 x̄2 . . . x̄k

oppure in termini equivalenti:


k
X
β̂i x̄i = ȳ
i=1

con x̄1 = 1, e quindi:


k
X
β̂1 = ȳ− β̂i x̄ (4.25)
i=2
Utilizzando l’espressione (4.25) possiamo riscrivere il modello come:

Xk
ŷt − ȳ = β̂(xit − x̄i )
i=2

oppure in termini matriciali:

y∗ = X∗ β ∗ +ε∗ ,
 
y1 − y
 y2 − y 
y∗ =  ...
,

yT − y
 
(x21 − x̄2 ) ... (xk1 − x̄k )
(x22 − x̄2 ) ... (xk2 − x̄k ) 
X∗

=  =
[T ×(k−1)]  ... ... (xk3 − x̄k ) 
(x2T − x̄2 ) ... (xk4 − x̄k )
 
= x∗2 ... x∗k
(T ×1) (T ×1)
4.2. STIMA DEI PARAMETRI 99

Si definisca allora:  
yt
 x2t 
zt =  
 ... 
(k×1)
xkt
e si ipotizzi che tutte le variabili siano distribuite normalmente:

zt ∼ N (µ, Σ),
 
µ1  0

 (1×1)  σ11 σ21
(1×k)
µ =  −−  , Σ =  ,
   
σ21 Σ22
µ2
 
(k×1) (k×k)
(k×1)

 
x2t
µ1 = E(yt ), µ2 = E  . . .  ,
xkt
0
σ11 = V ar(yt ), σ12 = Cov(yt [x2t . . . ..xkt ])
 
x2t
Σ22 = V ar . . . 

xkt

Notate che, per le proprietà della distribuzione normale, è possibile immediata-


mente ricavare la distribuzione di yt condizionata sui valori di xt :

(yt |x2t . . . xkt ) ∼ N (µ∗1 , σ11



)
  
x2t
E(yt |x2t . . . xkt ) = µ∗1 = µ1 + σ12
0
Σ−1
22
 . . .  − µ2  ,
xkt

V ar(yt |x2t . . . xkt ) = σ11 0
= σ11 − σ12 Σ−1
22 σ21

Se vogliamo stimare i momenti della distribuzione condizionale di yt , dati x2t . . . xkt ,


sulla base di T osservazioni disponibili su tutte le variabili, possiamo utilizzare gli
equivalenti campionari dei momenti della popolazione:

T
1 X 1
µ̂1 = ȳ, σ̂11 = (yt − ȳ)2 = y∗0 y∗ ,
T T
t=1
T
0 1 X  
σ
b12 = (yt − ȳ) (x2t − x̄2 ) . . . . . . (xkt − x̄k ) =
T
t=1
1 ∗0 ∗ 1
= y X , Σ22 = X∗0 X∗
T T
100 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Quindi la stima dei momenti della distribuzione condizionale di yt è:


   
x2t x̄2
b∗1 = ȳ + (y∗0 X∗ )(X∗0 X∗ )−1  . . .  −  . . . 
µ
xkt x̄k

e quindi:
h i
ŷt − ȳ = [(x2t − x̄2 ) . . . (xkt − x̄k )] (X∗0 X∗ )−1 X∗0 y∗ ,
b ∗ = X∗ β̂
y

e la stima della varianza condizionale di y è:


h i
∗ −1
σ
b11 = V ar(yt |x2t . . . xkt ) = y∗0 y∗ −y∗0 X∗ (X∗0 X∗ ) X∗0 y∗ =
h i
∗0 ∗ −1 ∗0
= y IT − X (X X ) X y∗
∗0 ∗

4.3 Stima del momento secondo (σ 2 )


Abbiamo visto che la scelta più naturale per la stima della varianza dei termini di
disturbo è data da:
2 1 0
σ̂M L = ε̂ ε̂
T
Tale stimatore deriva dalla massimizzazione della funzione di verosimiglianza.
Purtroppo questo stimatore è distorto. Infatti, applicando l’operatore valore atteso
abbiamo:
1
2
E(σM L) = E(ε0 Mε) = (nb: M = IT −X(X0 X)−1 X0 )
T
1
E(tr Mε0 ε =
 
= (nb: tr(ABC) = tr(BCA))
T
1 σ2
= tr(Mσ 2 IT ) = (tr [M])
T T
dove:

tr(M) = tr(IT ) − tr(X(X0 X)−1 X0 ) =


= T − tr((X0 X)−1 (X0 X)) =
= T − tr(Ik ) =
= T −k

e quindi:
2 T −k 2
E(σ̂M L) = σ
T
4.4. ANALISI DELLA VARIANZA 101

T −k
Quindi questo stimatore è distorto ma consistente, dato che T tende a 1 al
crescere di T . Si noti che lo stimatore
1
2
σ̂OLS = ε̂0 ε̂
T −k
è chiaramente non distorto. Quindi:

2 1 0
σ̂M L = ε̂ ε̂ distorto ma consistente
T
1
2
σ̂OLS = ε̂0 ε̂ non distorto e consistente
T −k
2
Il denominatore di σ̂OLS , cioè la grandezza T −k, viene chiamata numero dei gradi
di libertà della regressione.

4.4 Analisi della varianza


Quanto della variabilità di y è spiegata dalla retta (iperpiano) di regressione?

y0 y = T SS Total Sum of Squares


0
= (Xβ̂ + ε̂) (Xβ̂ + ε̂) =
0 0
= β̂ 0 X0 Xβ̂ + β̂ X0 ε̂ + ε̂0 Xβ̂ + ε̂ ε̂

Ricordando che:
X0 ε̂ = 0
otteniamo:

0
y0 y = β̂ 0 X0 Xβ̂ + ε̂ ε̂ ⇒
T SS = ESS + RSS (4.26)

dove:

ESS = β̂ 0 X0 Xβ̂ =Explained Sum of Squares =


= somma dei quadrati “spiegata”
RSS = ε̂0 ε̂ =Residual Sum of Squares=
= somma dei quadrati dei residui

Quanto più alto è ESS rispetto a T SS, tanto migliore è la spiegazione della varia-
bilità di y fornita dalla regressione. Possiamo definire un indice basato sulla scom-
posizione (4.26). Questo indice, chiamato RU 2
C = indice di bontà di adattamento è
definito come:
2 ESS RSS
RU C = =1−
T SS T SS
102 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Questo indice viene definito “non centrato” (uncentered), dato che indica quanto
della variabilità complessiva di y, misurata come somma dei quadrati dei valori
di y, viene spiegata dalla relazione di regressione. Quando il MRL ha un termine
di intercetta (ad esempio x1t = 1, ∀t),una misura alternativa di adattamento si ha
scrivendo il MRL nei termini seguenti:

y∗ =. X∗ β∗ + u
(T ×1) (T ×(k−1))((k−1)×1) (T ×1)

dove y∗ e X∗ raccolgono le deviazioni dalla rispettiva media di colonna (cam-


pionarie) e β ∗ comprende tutti i parametri escluso quello associato al termine di
2 “centrato” (centered):
intercetta. È possibile definire un indice RC

2 ESS β̂ ∗0 X∗0 X∗ β̂ ∗
RC = =
T SS y∗0 y∗
In questo modo si ottiene un indice di bontà di adattamento, sempre compre-
so tra 0 e 1, che indica quanto della variabilità complessiva di y, misurata come
somma dei quadrati delle deviazioni dei valori di yt dalla media campionaria, vie-
ne spiegata dalla relazione di regressione in base alla variabilità campionaria dei
regressori diversi dal termine di intercetta.

4.5 Regressione partizionata


Il contenuto di questa sottosezione è rilevante per l’interpretazione dei coefficienti
stimati di un MRL.
Si immagini di avere un MRL del tipo:

y = X β + ε
(T ×1) (T ×k)(k×1) (T ×1)

Immaginiamo di partizionare la matrice X e il vettore β nei termini seguenti:


 
X = X1 X2
 
β1
β=
β2
dove gli oggetti definiti hanno le seguenti dimensioni:

X1 , X2 , β1 , β1 , k1 + k2 = k
(T ×k1 ) (T ×k2 ) (k1 ×1) (k1 ×1)

Ora, applichiamo la partizione appena descritta alle equazioni normali dei MQ:

X0 Xβ̂ = X0 y ⇒
X01 X1 X01 X2
     0 
β̂1 X1 y
= (4.27)
X02 X1 X02 X2 β̂2 X02 y
4.6. ANTICIPAZIONE SU TEST CONGIUNTI 103

È possibile risolvere il primo blocco delle equazioni (4.27) rispetto a βb1 :


h i
β̂1 = (X01 X1 )−1 y − X2 β̂2 (1◦ blocco)

Sostituendo questa soluzione nel secondo blocco di (4.27) si ottiene:

X02 X1 (X01 X1 )−1 X01 (y − X2 β̂2 ) + (X02 X2 β̂2 ) = X02 y.

Ora posso raccogliere tra loro i termini dove appare β̂2 e portare gli altri a sinistra,
ottenendo:
h i
X02 IT − X1 (X01 X1 )−1 X2 β̂2 = X02 y − X02 X1 (X01 X1 )−1 X01 y ⇒
h i h i
X02 IT − X1 (X01 X1 )−1 X2 β̂2 = X02 IT −X1 (X01 X1 )−1 X01 y (4.28)

La matrice:
IT −X1 (X01 X1 )−1 X01 = M1
è chiaramente simmetrica e idempotente. Per cui posso scrivere la (4.28) come:

X02 M1 β̂2 = X02 M1 y

Definendo:

M1 X2 = X∗2 residui della regressione di X2 su X1



M1 y = y residui della regressione di y su X1

si può scrivere la (4.28) come:

β̂2 = (X∗0 ∗ −1 ∗0 ∗
2 X2 ) X2 y (4.29)

Quindi, la stima di β̂2 è equivalente a quella che si otterrebbe regredendo prelimi-


narmente X2 e y dall’effetto di X1 tramite regressioni preliminari. I coefficienti di
regressione stimati hanno quindi il significato di vere e proprie derivate parziali.

4.6 Anticipazione su test congiunti


Facciamo riferimento ad un MRL dove il primo dei regressori è un termine di
intercetta:
y = Xβ + ε
oppure nella sua formulazione alternativa

y∗ = X∗ β ∗ +u

dove siano rispettate le ipotesi sui termini di disturbo:

ε ∼ N (0, σ 2 IT )
104 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Quando è vera la seguente ipotesi nulla:

H0 : β2 = β3 = . . . = βk = 0

(quando cioè il comportamento di y non è influenzato dai regressori diversi dal


termine di intercetta), è possibile descrivere la distribuzione di RSS quando sia
diviso per σ 2 (varianza teorica dei termini di disturbo):

RSS ε0 ε
2
= (IT −X1 (X01 X1 )−1 X01 ) ∼ χ2T −1 (4.30)
σ σ σ
Nello stesso modo, quando è vera H0 abbiamo:

ESS 1
= 2 βb∗0 X∗0 X∗ βb ∼ χ2k−1 (4.31)
σ2 σ

con ESS
σ2
indipendente da RSS σ2
. Sulla base di tutto ciò possiamo definire una gran-
dezza costruita come rapporto tra (4.30) e (4.31), ognuna divisa per il proprio nu-
mero di gradi di libertà, ed in questo modo ottenere una grandezza distribuita come
una variabile casuale F di Fisher:

ESS/(k − 1) Rc2 /(k − 1)


= ∼ Fk−1,T −k (4.32)
RSS/(T − k) (1 − Rc2 )/(T − k)
che può essere utilizzata per provare l’ipotesi:

H0 : β2 = β3 = . . . = βk = 0 (4.33)
H1 : β2 6= β3 6= . . . 6= βk 6= 0

Notate che l’ipotesi (4.33) è l’ipotesi che la regressione non abbia alcun potere
esplicativo, ed è evidente che il test F utilizzato sia ovviamente una funzione cre-
scente dell’indice Rc2 : quando la regressione ha basso potere esplicativo (basso
Rc2 ), il test F calcolato sarà vicino a zero, mentre quando l’indice calcolato è vicino
a 1, allora il valore calcolato per il test F tende ad essere molto grande.

4.7 Inferenza statistica sul modello di regressione


4.7.1 Costruzione di intervalli di confidenza
Se sono valide le ipotesi sui termini di disturbo che sintetizziamo in questo modo:

ε ∼ N (0, σ 2 IT )

è facile mostrare che:

β̂ ∼ N (β, σ 2 Q) (4.34)
0 −1
Q = (X X)
4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 105

Figura 4.5: distribuzione per la stima di β, opportunamente standardizzata, e


relativi quantili corrispondenti a α/2. (Nella figura T − k = 20, α = 0.05)
0.4

0.35

0.3

0.25

0.2

0.15

0.1
t(α/2)
0.05 −t(α/2)

0
−4 −3 −2 −1 0 1 2 3 4

quando X sia non stocastico, (o condizionatamente rispetto a X). Questo risultato


di normalità è immediato dato che β̂ è ottenuto come k combinazioni lineari della
variabile casuale T −dimensionale ε distribuita normalmente:
0
β̂ = (X X)−1 X0 y = β + (X0 X)−1 X0 ε
Sulla base di questo risultato possiamo scrivere:
β̂i − βi
√ ∼ N (0, 1), qii = elemento diagonale i-esimo di Q
σ qii
Sappiamo pure che:
RSS
∼ χ2T −k
σ2
e che è indipendente dalla distribuzione di β.
b In termini equivalenti:

σ̂ 2
∼ χ2T −k
(T − k)
σ2
Quindi posso costruire una variabile casuale distribuita come una t di Student con
T − k gradi di libertà
β̂i − βi
σ(q )1/2 β̂i − βi
s ii = ∼ tT −k (4.35)
2
(T − k) σ̂σ2 σ̂qii 1/2
T −k
106 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

e, utilizzando questo risultato distributivo, è possibile ricorrere ai valori tabulati


dei quantili della distribuzione t di Student con T − k gradi di libertà per definire
intervalli che soddisfano:
( )
β̂i − βi
p −t(α/2) ≤ ≤ −t(α/2) = 1 − α (4.36)
σ̂(qii )1/2

come si evince dalla figura 4.5.


Notate che in questo modo è possibile definire l’intervallo fiduciario per βi
centrato intorno alla sua stima puntuale e associato ad un livello fiduciario pari ad
α: n √ √ o
P β̂i − t(α/2) [σ̂ qii ] ≤ βi ≤ β̂i + t(α/2) [σ̂ qii ] = 1 − α
 √   √ 
I termini β̂i − t(α/2) σ̂ qii e β̂i + t(α/2) σ̂ qii costituiscono quindi gli estremi
di tale intervallo fiduciario.

4.7.2 Prova delle ipotesi


Supponiamo che vi sia interesse per la verifica dell’ipotesi semplice che riguarda
il parametro βi :

H0 : βi = β0i
H1 : βi 6= β0i (4.37)

dove per β0i si intende un determinato valore. Ad esempio, se β0i = 0, l’ipotesi


nulla contempla la mancanza di potere esplicativo di xit su yt . Si noti che la (4.37)
definisce un’ipotesi alternativa bilaterale.
Fissando la probabilità dell’errore di prima specie:

pr(rifiuto H0 | H0 vero) = α

possiamo utilizzare il risultato distributivo (4.35) per definire il criterio che defi-
nisce la regione di accettazione e la regione di rifiuto di H0 (si veda la figura 4.6)
basato sulla probabilità dell’errore di prima specie scelto:
( )
β̂i − β0i
p −t(α/2) > > t(α/2 ) = α
σ̂qii 1/2
Come si evince dalla figura, il test da utilizzare è a due code e si sostanzia nel
seguente criterio decisionale: si calcoli:

β̂i − β0i
σ̂qii 1/2
Se tale valore è compreso tra −t(α/2) e t(α/2) , si accetta H0 , altrimenti si rifiuta
H0 . Notate che esiste una dualità interpretativa tra costruzione dell’intervallo di
4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 107

Figura 4.6: test a due code per verificare H0 : β0 = 0, contro H0 : β0 6= 0


0.4

0.35

0.3

0.25

0.2

0.15

0.1
probabilità pari a probabilità pari a
α /2 α /2
0.05

0
−4 −3 −2 −1 0 1 2 3 4
se il valore calcolato del test cade in questo
intervallo, accetto l’ipotesi nulla

confidenza e prova delle ipotesi: se il test conduce all’accettazione di H0 , allora


l’intervallo fiduciario corrispondente ad un livello fiduciario pari a 1 − α conterrà
il valore puntuale βio ipotizzato vero sotto H0 , e viceversa.
Supponiamo ora che l’ipotesi alternativa H1 sia ora unilaterale, ad esempio:

H1 : βi > β0i .

Fissando la probabilità dell’errore di prima specie:

pr(rifiuto H0 | H0 vero) = α

possiamo utilizzare il risultato distributivo (4.35) per definire il criterio che defi-
nisce la regione di accettazione e la regione di rifiuto di H0 (si veda la figura 4.7)
basato sulla probabilità dell’errore di prima specie scelto:
( )
β̂i − β0i
p > t(α ) = α
σ̂qii 1/2

Come si evince dalla figura, il test da utilizzare è a una coda e si sostanzia nel
seguente criterio decisionale: si calcoli:

β̂i − β0i
σ̂qii 1/2
108 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Figura 4.7: test a una coda per verificare H0 : β0 = 0, contro H0 : β0 > 0


0.4

0.35

0.3

0.25

0.2

0.15

0.1
probabilità pari a
α
0.05

0
−4 −3 −2 −1 0 1 2 3 4
se il valore calcolato del test cade nell’intervallo
a sinistra del quantile, accetto l’ipotesi nulla

Se tale valore è minore di t(α/2) , si accetta H0 , altrimenti si rifiuta H0 . Lasciamo


trovare al lettore, come semplice esercizio, la regione critica corrispondente al test
che verifica H0 contro:
H1 : βi < β0i .

Un esempio
Supponiamo che in relazione ad un MRL stimato si abbia:

βbi = 0.05,
p
b2 · qii = 0.02,
σ
T = 66, k = 6

e supponiamo di voler verificare:

H0 : βi = 0 contro
H1 : βi 6= 0

con probabilità dell’errore di prima α = 5%.


Dalle tavole della distribuzione t di Student con T − k = 60 gradi di libertà, si
trova il quantile:
tα/2 = 2.00
4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 109

L’intervallo di confidenza al 95% è dato da:


1/2 1/2
[β̂i − tα/2 σ̂qii , β̂i − tα/2 σ̂qii ] =
[0.05 − 2.00 · 0.02, 0.05 + 2.00 · 0.02] = [0.01, 0.09]

Il valore calcolato del test è:

β̂i 0.05
1/2
= = 2.5
σ̂qii 0.02

che confrontato con il valore critico tα/2 = 2.00 conduce a rifiutare H0 .Se avessi-
mo come ipotesi alternativa:
H1 : βi > 0
scegliendo come probabilità di errore di prima specie α = 0.05, il quantile rilevante
della distribuzione è:
tα = 1.671
Dato che il valore calcolato del test (2.5) è maggiore di tα anche il test ad una coda
comporta il rifiuto di H0 .

4.7.3 Un utile esempio: il MRL con 3 regressori


Supponiamo di avere il seguente MRL:

yt = β1 + β2 x2t + β2 x3t + εt , t = 1, 2, . . . , T
x1t = 1, ∀t.

oppure in termini matriciali:

y = X β +ε,
(T ×3)(3×1)
   
1 x21 x31 β1
X =  ... ... . . .  , β =  β2 
1 x2T x3T β3

In questo caso abbiamo quindi 3 regressori, di cui uno è il termine di intercetta.


Consideriamo ora le equazioni normali dei minimi quadrati:
0
X0 Xβ̂ = X y
Possiamo utilizzare anche un’altra notazione. Definiamo la somma dei quadrati
degli errori come:

XT
Q= (yt − β1 − β2 x2t − β3 x3t )2
t=1
110 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Differenziando rispetto ai parametri β1 , β2 , β3 otteniamo:


T T T
∂Q 1 X 1 X 1 X
= 0 ⇒ βb1 = yt − β̂2 x2t − β̂3 x3t
∂β1 T T T
t=1 t=1 t=1
⇒ βb1 = ȳ − x̄2 β̂2 − x̄3 β̂3 (prima equazione dei MQ)

dove:
T
1 X
ȳ = yt media campionaria di y
T
t=1
T
1 X
x̄2 = x2t media campionaria di x2
T
t=1
T
1 X
x̄3 = x3t media campionaria di x3
T
t=1

T T T T
∂Q X X X X
=0⇒ x2t yt = βb1 x2t + β̂2 x22t + β̂3 x2t x3t
∂β2
t=1 t=1 t=1 t=1

Nella relazione precedente, sostituiamo l’espressione per βb1 :


T T
! !
X X
2 2
x2t yt − T ȳx̄2 = β̂2 x2t − T x̄2 +
t=1 t=1
T
!
X
+β̂3 x2t x3t − T x̄2 x̄3
t=1

cioè:
S2y = β̂2 S22 + β̂3 S23 2a equazione dei M Q
dove:
T
X
S2y = x2t yt − T ȳx̄2 (T volte la covarianza campionaria tra y e x2 )
t=1
XT
S22 = x22t − T x̄22 (T volte la varianza campionaria di x2 )
t=1
T
X
S23 = x2t x3t − T x̄2 x̄3 (T volte la covarianza campionaria tra x2 e x3 )
t=1

Differenziando Q rispetto a β̂3 (e sostituendo βb1 ) otteniamo:


∂Q
= 0 ⇒ S3y = β̂2 S23 + β̂3 S33 3a equazione dei M Q
∂ β̂3
4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 111

con:
XT
S3y = x3t yt − T x̄3 ȳ
t=1

Ora, è possibile risolvere la 2◦ e la 3◦ equazione dei M Q per ottenere:


S33 S2y − S23 S3y
β̂2 =

S23 S3y − S23 S2y
β̂3 = ,

2
∆ = S22 S33 − S23

e infine si ottiene anche un espressione per il coefficiente di intercetta stimato:

βb1 = ȳ − β̂2 x̄2 − β̂3 x̄3

Le soluzioni cosı̀ ricavate per gli stimatori OLS di β1 , β2 , β3 sono del tutto equiva-
lenti a quelli ottenuti facendo riferimento alla usuale notazione matriciale:

β̂ = (X0 X)−1 X0 y
(3×1)

Si noti che:
XT
T SS = Syy = (yt − ȳ)2 = y∗0 y∗ ,
t=1
ESS = β̂2 S2y + β̂3 S3y = β̂ ∗0 X∗0 y∗ =
= β̂ ∗0 X∗0 X∗ β̂ ∗ ,
 
β1
β∗ =
β2

dato che:

X∗0 y∗ = X∗0 (X∗ β̂ +ε̂),
X∗0 ε̂ = 0

A questo punto possiamo scrivere la somma dei quadrati dei residui della regres-
sione stimata come:

RSS = Syy − β̂2 S2y − β̂3 S3y = y∗0 y∗ −β̂ X∗0 X∗ β̂ ∗ = ε̂0 ε̂
e l’indice R2 come:

ESS β̂2 S2y + β̂3 S3y


R2 = = (coefficiente di determinazione multipla).
T SS Syy

mentre l’indice R è detto anche coefficiente di correlazione multipla.


112 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

4.7.4 Inferenza statistica nel modello di regressione multipla


Si ricordi che, sotto le ipotesi canoniche sui termini di disturbo, compresa l’ipotesi
di normalità, abbiamo che:
β̂ ∼ N β, σ 2 (X0 X)−1


Si consideri ora il modello di regressione con:


yt = β1 + β2 x2t + β3 x3t + εt , t = 1, 2, .., T
y = X β +ε
(T ×3)(3×1)

oppure:
y∗ = X∗ β ∗ +u,
 
∗ β2
β =
β3
e quindi avremo:
β̂ ∗ ∼ N β ∗ , σ 2 (X∗0 X∗ )−1


 −1  
 ∗0 ∗ −1 S22 S23 1 S22 −S23
X X = = ,
2 −S23 S33
 
S22 S33 S23 S33 1 − r23
2
S23
2
r23 = (coefficiente di correlazione campionario tra x2 e x3 )
S22 S33
Quindi possiamo scrivere le varianze e covarianze dei singoli coefficienti stimati
come:
σ2
V ar(β̂2 ) = 2 ), (4.38)
S22 (1 − r23
σ2
V ar(β̂3 ) = 2 ), (4.39)
S33 (1 − r23
σ 2 r23
2
Cov(β̂2 , β̂3 ) = 2 ), (4.40)
S23 (1 − r23
σ2
V ar(βb1 ) = + x̄22 V ar(β̂2 ) + 2x̄2 x̄3 Cov(β̂2 , β̂3 ) +
T
+x̄23 V ar(β̂3 ) (4.41)
Le seguenti considerazioni sembrano degne di nota:
2 .
1. Si noti che le varianze di β̂2 e β̂3 crescono al crescere di r23
2. La variabile casuale:
RSS
∼ χ2(T −3)
σ2
può essere utilizzata per costruire intervalli di confidenza per σ 2 .
4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 113

Figura 4.8: intervallo fiduciario per β2 e β3

β3

stima puntuale di β3

intervallo fiduciario
per β2 e β3
stima puntuale di
β2

β2

3. Standardizzando opportunamente gli stimatori dei singoli parametri otte-


niamo variabili casuali distribuite come t di Student con T − 3 gradi di
libertà:
βb1 − β1
1/2
∼ t(T −3)
σ̂q11
βb2 − β2
1/2
∼ t(T −3)
σ̂q22
β̂3 − β3
1/2
∼ t(T −3)
σ̂q33
Questi risultati distributivi possono essere utilizzati per costruire intervalli di
confidenza per β1 , β2 e β3 .
4. La variabile casuale:
1
F = [S22 (βb2 − β2 )2 + 2S23 (βb2 − β2 )(βb3 − β3 ) +
2σ̂ 2
S33 (βb3 − β3 )2 ] (4.42)
si distribuisce come una variabile casuale F di Fisher:
F ∼ F2,(T −3)
Questo risultato distributivo può essere utilizzato come riferimento per co-
struire intervalli di confidenza per β2 e β3 . Ad esempio, facendo riferimento
114 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

alla Figura 4.8, possiamo definire un’ellisse, che corrisponde ad una curva
di livello delle funzioni di densità F2,(T −3) tale per cui i punti ricompresi
nell’ellisse definiscono un intervallo con massa di probabilità = 1 − α (ad
esempio = 0.95), cioè:
Z Z
f (β1 , β2 )dβ1 dβ2 = 0.95
β1 ,β2 ∈A

Alternativamente, la grandezza F definita nella (4.42) può essere utilizzata per


verificare l’ipotesi nulla:
H0 : β1 = β2 = 0
contro:
H1 : β1 e/o β2 6= 0
In tal caso la grandezza F viene calcolata in corrispondenza di H0 :
ESS/2
F = =
RSS/(T − 3)
1 h 2 2
i
= S 22 (β̂2 ) + 2S 23 β̂2 β̂3 + S 33 (β̂3 )
2σ̂ 2
In questo caso l’esame della tavola per la distribuzione F2,T −2 fornisce il valore
critico di riferimento alla probabilità dell’errore di prima specie scelta.

4.7.5 Esempio di regressione multipla con k = 3 regressori


Immaginiamo di avere una funzione di produzione specificata in logaritmi:

yt = β1 + β2 x2t + β3x3t + εt , t = 1, 2, . . . , T

dove:

y = log(prodotto)
x2 = log(lavoro)
x3 = log(k)

Abbiamo dati relativi a 23 imprese (T = 23) che possono essere riassunti come
segue:  
x̄2 = 10 x̄3 = 5 ȳ = 12
 S22 = 12 S23 = 8 S33 = 12 
S2y = 10 S3y = 8 Syy = 10

1. Calcolare β̂1 , β̂2 , β̂3 e le stime dei rispettivi errori standard.


2. Trovare gli intervalli di confidenza al 95% per β1 , β2 , β3 ,e provare le ipotesi
separate β2 = 0 e β3 = 0 (con livello di confidenza pari a 95% e probabilità
dell’errore di prima specie al 5%)
4.7. INFERENZA STATISTICA SUL MODELLO DI REGRESSIONE 115

3. Trovare la regione di confidenza al 95% per β2 e β3


4. Verificare l’ipotesi (con probabilità d’errore di prima specie al 5%):

H0 : β2 = 1, β3 = 0

Soluzioni:

1. equazioni normali:
β̂1 = ȳ − β̂2 x̄2 − β̂3 x̄3
S22 β̂2 + S23 β̂3 = S2y
S23 β̂2 + S33 β̂3 = S3y

β̂1 = 4
β̂2 = 0.7
β̂3 = 0.2

ESS β̂2 S2y + β̂3 S3y


Rc2 = = = 0.86
T SS Syy
da cui

RSS = Syy (1 − Rc2 ) = 1.4


RSS
b2 =
σ = 0.07
(T − 3)
2
S23 64
2
r12 = = = 0.4444
S22 S33 144
da cui (applicando le formule (4.41-??)):
3 2
V ar(β̂2 ) = σ
20
3 2
V ar(β̂3 ) = σ
20
−σ 2
Cov(β̂2 , β̂3 ) =
10
V ar(β̂1 ) = 8.7935σ 2 (varianze e covarianze teoriche)

Sostituisci ora σ 2 con σ̂ 2 (stima della varianza di εt ) e prendi le redici


quadrate delle varianze stimate cioè gli errori standard stimati
q
V̂ (β̂2 ) = SE(β̂2 ) = 0.102
q
V̂ (β̂3 ) = SE(β̂3 ) = 0.102
q
V̂ (β̂1 ) = SE(β̂1 ) = 0.78
116 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

L’equazione di regressione stimata diventa (errori standard in parentesi sotto


i coefficienti stimati):

ŷt = 4 + 0.7 x2t + 0.2 x3t


(0.78) (0.102) (0.102)
2
σ̂ = 0.07
2
R = 0.86

2. Per costruire intervalli di confidenza

β̂i − βi
∼ t(T −k) , i = 1, 2, 3
SE(β̂i )

Nel nostro caso (con α = 0.05, T = 23, k = 3), la distribuzione di riferi-


mento è una t di Student con 20 gradi di libertà e quindi t(α/2) = t(0.025) =
2.086. Pertanto gli intervalli di confidenza sono ottenuti come:

βb1 ± SE(βb1 ) · 2.086 = [2.37, 5.63]


β̂2 ± SE(β̂2 ) · 2.086 = [0.49, 0.91]
β̂3 ± SE(β̂3 ) · 2.086 = [−0.01, 0.41]

I test delle ipotesi:

H0 : βi = 0
H1 : βi 6= 0, i = 2, 3 con α = 5%

sono ottenuti facendo riferimento a:

β̂i − βi0
∼ t20 ,
SE(β̂i )
βi0 = 0, i = 2, 3

La regione di accettazione di H0 è ovviamente definita dall’intervallo:

[−t(α/2) , t(α/2) ] = [−t(0.025 , t(0.025) ] = [−2.086, 2.086]

I valori calcolati di tali test sono:

β̂2 − 0 0.7
= = 6.9 ⇒ Rifiuto H0
SE(β̂2 ) 1.02
β̂3 − 0 0.2
= = 1.9 ⇒ Accetto H0
SE(β̂3 ) 1.02
4.8. LA PREVISIONE 117

3. Costruisci:

(βb∗ − β ∗ )0 X∗0 X∗ (βb∗ − β ∗ )/(k − 1)


∼ Fk−1,T −k
RSS/(T − k)

cioe:
h i
S22 (β̂2 − β2 )2 + 2S23 (β̂2 − β2 )(β̂3 − β3 ) + S33 (β̂3 − β3 ) ≤ 3.49(2σ 2 ) ⇒
12(0.7 − β2 )2 + 16(0.7 − β2 )(0.2 − β3 ) + 12(0.2 − β3 )2 ≤ 3.49(2 · 0.07) ⇒
 

4
(β2 − 0.7)2 + (β2 − 0.7)(β3 − 0.2) + (β3 − 0.2)2 ≤ 0.041
3
che definisce la superficie delimitata da un’ellisse centrata sul punto:
 
∗ 0.7
β =
b
0.2

4. Per la verifica dell’ipotesi congiunta:

H0 : β2 = 1, β3 = 0 contro
H1 : β2 6= 1, e/o β3 6= 0

si costruisce il test F :
1 h 2 2
i
F = S 22 β̂2 + 2S 23 β̂2 β̂3 + S 33 β̂3 = 4.3
2σ 2
Consultando la tavola della distribuzione F2,20 si ottiene che il valore critico
al 5% è:
f (0.05) = 3.49
che confrontato con il valore calcolato del test (4.3) comporta il rifiuto di
H0 .

4.8 La previsione
Supponiamo di avere un MRL stimato del tipo

ŷ = Xβ̂

Immaginiamo che le osservazioni (t = 1, . . . , T ) sulle quali si basa la stima del


modello siano riferite a diversi istanti temporali, da un inizio del campione nel pas-
sato (t = 1) ad un istante che corrisponde al presente (t = T , fine del campione).
È possibile utilizzare il MRL stimato per prevedere l’andamento futuro di y :

ŷT +1 =x0T +1 β̂ previsione un passo in avanti


(1×k)
118 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Ovviamente, per poter utilizzare il modello a fini estrapolativi, occorre poter for-
mulare un’ipotesi relativa al valore futuro dei regressori. Tale ipotesi si chiama
scenario della previsione:

x0T +1 = x1,T +1 . . . xk,T +1


 

L’attività di previsione comporta necessariamente che vengano compiuti degli er-


rori. Ipotizzando che non esista incertezza sullo scenario (cioè si ipotizza che
xT +1 sia conosciuto con certezza), l’errore di previsione viene definito come:

εbT +1|T = yT +1 − ŷT +1 = x0T +1 β + εT +1 − x0T +1 β̂ =


= x0T +1 (β − β̂) + εT +1

Notate che l’errore di previsione ha due componenti: la prima componente legata


al fatto che β non è conosciuto e deve essere stimato (x0T +1 (β − β̂)), e la seconda
componente che è invece connessa alla presenza di un termine di disturbo stoca-
stico ed imprevedibile (εT +1 ). L’errore di previsione ha comunque valore atteso
nullo (se la stima dei parametri è non distorta):

E(yT +1 − ŷT +1 ) = x0T +1 E(β − β̂) + E(εT +1 )

e la varianza dell’errore di previsione è data da:

εT +1|T ) = x0T +1 V ar(β̂)xT +1 + σ 2 =


V ar(b
= σ 2 1 + x0T +1 (X0 X)−1 xT +1
  

Ad esempio, consideriamo il MRL semplice:

yt = β1 + β2 x2t + εt , t = 1, 2, . . . T

possiamo scrivere la varianza dell’errore di previsione come:

εT +1|T ) = σT2 +1|T = V ar(yT +1 − ŷT +1 ) =


V ar(b
(x2T +1 − x̄2 )2
 
2 1
= σ 1+ + ,
T Sxx
T
X T
X
Sxx = (x2t − x2 )2 , x2 = x2t
t=1 t=1

Si noti che l’errore di previsione εbT +1|T = yT +1 −ŷT +1 = x0T +1 (β−β̂) è una com-
binazione lineare di variabili casuali normali (εT +1 , β − β̂) se i termini di disturbo
sono normali, per cui avrà una distribuzione normale e quindi posso scrivere:
yT +1 − ŷT +1
∼ tT −k ,
σ
bT +1|T
bT2 +1|T b2 1 + x0T +1 (X0 X)−1 xT +1
 
σ = σ (4.43)
4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM 119

Figura 4.9:
previsione puntuale e interv. fiduciario

previsione
7 puntuale

6 estremo fiduciario
superiore
5

4
media camp. estremo fiduciario
di x2 inferiore
3

2
0 1 2 3 4 5 6 7
valore dello scenario

Sulla base di questo risultato distributivo è possibile costruire un intervallo


fiduciario intorno alla previsione puntuale. Nel caso della regressione semplice,
abbiamo un intervallo fiduciario ad un livello fiduciario pari a 1 − α definito nel
modo seguente:

[ŷT +1 ± t(α/2) · σ
bT +1|T ]

Quindi notiamo che, a parità di ogni altra circostanza, quanto più mi allontano
dalla media campionaria x2 , tanto più la previsione di yT +1 diventa incerta: è
accompagnata da un intervallo fiduciario la cui ampiezza cresce con il crescere di
x2T +1 da x2 . Si veda a questo proposito la Figura 4.9.

4.9 Diversi modi di costruire Test: Test LR, di Wald, LM


4.9.1 Il test LR
Il primo test che descriviamo viene chiamato LR (rapporto delle verosimiglianze =
likelihood ratio). Questo test ha validità in grandi campioni ed è basato sulla stima
di massima verosimiglianza. Si immagini di voler provare l’ipotesi che i parametri
del modello soddisfino un certo insieme di restrizioni. Si definisca θ il vettore di
120 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

parametri del modello (nel MRL θ = [β 0 σ 2 ]0 ) e chiamiamo:

massimo di L sotto le restrizioni


λ = =
massimo di L non vincolato
L(θ̂R )
= (R = restricted, U R = un − restricted)
L(θ̂U R )

È possibile mostrare che:


(a)
φLR = −2 log λ ∼ χ2q (4.44)
H0

cioè che la distribuzione asintotica di −2 log λ sotto H0 è χ2q dove q = numero di


restrizioni imposte sul modello vincolato. Ad esempio, consideriamo il MRL:

y = X β + ε = X1 β1 + X2 β2 + ε
(T ×k) (T ×k1 ) (T ×k2 )

per il quale supponiamo siano verificate le seguenti ipotesi sui termini di disturbo:

ε ∼ N (0, σ 2 IT )

Immaginiamo di avere come ipotesi nulla:

H0 : β2 = 0 (k2 vincoli di uguaglianza a zero)

La stima del modello non vincolato tramite massima verosimiglianza è:

β̂ = (X0 X)−1 X0 y,
1 0
b2 =
σ εb εb
T
In corrispondenza di tale valore, la funzione di verosimiglianza assume il valore:
 T    T  
1 1 1 T
2
L(β̂, σ̂ ) = √ exp − 2 ε̂0 ε̂ = √ exp −
2πσ̂ 2σ̂ 2πσ̂ 2

La stima del modello vincolato è invece basata su di una formulazione del MRL
sulla quale sono stati imposti i vincoli che caratterizzano H0 :

y = X1 β1 +εR

i cui parametri stimati sono:

(X01 X1 )−1 X01 y


" #
β̂R = 0 ,
(k2 ×1)

2 1 0
σ
bR = εb εbR
T R
4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM 121

e il valore della verosimiglianza calcolato in corrispondenza di questo massimo


vincolato è:
 T  
2 1 1 0
L(β̂R , σ̂R ) = √ exp − 2 ε̂R ε̂R =
2πσ̂R 2σ̂R
 T  
1 T
= √ exp −
2πσ̂R 2

Quindi posso costruire la variabile casuale definita dalla (4.44) come:


2
σ̂R
L(θ̂R )
φLR = −2 log = T log( ) = T [log RRSS − log U RSS]
L(θ̂U R ) σ̂ 2

dato che:
1 0 U RSS
σ̂ 2 = εb εb =
T T
2 1 0 RRSS
σ̂R = εb εbR =
T R T
U RSS = somma dei quadrati dei residui
del modello U R (non vincolato,unrestricted)
RRSS = somma dei quadrati dei residui
del modello R(vincolato,restricted)

Il modo in cui è costruito il test implica che sia necessario stimare separatamente
il modello vincolato ed il modello non vincolato.

4.9.2 Il test di Wald


Supponiamo che le consuete ipotesi sul MRL abbiamo condotto ad ottenere la
stima dei parametri del primo ordine che ha la seguente proprietà:

β̂ ∼ N (β, σ 2 (X0 X)−1 )

Immaginiamo di voler provare l’ipotesi:

H0 : β2 = 0
H1 : β2 6= 0

dove β2 è un sottoinsieme di β. Si consideri la stima di β̂2 (ottenuta sulla base


del modello di partenza non vincolato, vale a dire su cui non sono stati imposti i
vincoli che caratterizzano H0 ) e si definisca:
 
0 −1 Q11 Q12
(X X) = [Q] =
Q21 Q22
122 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Grazie alle proprietà della distribuzione gaussiana, sappiamo che:

β̂2 −β 2 ∼ N (0, σ 2 Q22 ) (4.45)

Definiamo allora P2 la fattorizzazione di Choleski di Q22 :

P2 P02 = Q22
Ik2 = P−1 −10
2 Q22 P2

Possiamo ora standardizzare la distribuzione di βb2 utilizzando la seguente trasfor-


mazione della (4.45):
1 −1
P (β̂ 2 −β 2 ) ∼ N (0, Ik2 ) (4.46)
σ 2
che sotto l’ipotesi nulla H0 : β2 = 0 diventa:
1 −1
P (β̂ 2 ) ∼ N (0, Ik2 )
σ 2
Facendo la somma dei quadrati degli elementi del vettore:
1 −1
z= P (β̂ 2 )
σ 2
ottengo chiaramente una grandezza distribuita come una χ2k2 :
 0  
0 1 −1 1 −1
zz= P (β̂ 2 ) P (β̂ 2 )
σ 2 σ 2
1 0 −1
= β̂ Q β̂2 ∼ χ2k2
σ 2 2 22 H0

Ovviamente nella formulazione della statistica appena descritta appare la gran-


dezza σ 2 che in genere è sconosciuta. Occorre quindi stimare questo parametro,
in genere utilizzando lo stimatore di massima verosimiglianza, e la statistica di
riferimento sarà:
1 a
φW = 2 β̂20 Q−1 2
22 β̂2 ∼ χk2
σ
bM L H0

Nel caso più generale dell’imposizione sotto H0 di q vincoli lineari indipendenti


sui parametri del primo ordine:

H0 : R β=d
(q×k)
ρ(R) = q

ricordando che:
β̂ ∼ N (β, σ 2 (X0 X)−1 )
possiamo ricavare la distribuzione sotto H0 della grandezza (Rβ̂ − d):

(Rβ̂ − d) ∼ N (0, σ 2 R(X0 X)−1 R0 )


4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM 123

e quindi possiamo costruire il test:


1 0 −1 (a)
φW = 2 (Rβ̂ − d) R(X0 X)−1 R0 (Rβ̂ − d) ∼ χ2q
σ̂M L H0

Prendiamo come esempio più semplice un MRL dove tutte le variabili appaiono
espresse in termini di deviazioni dalle rispettive medie campionarie:
y∗ = X∗ β ∗ +u
e supponiamo che l’ipotesi nulla sia quella che implica l’assenza assoluta di potere
esplicativo da parte della regressione:
H0 : β∗ = 0
R = Ik−1
d = [0]
(k−1)×1

Possiamo quindi costruire un test di Wald come:


0
β̂ ∗ X∗0 X∗ β̂ ∗ H0 2
φW = 2 ∼ χk−1
σ̂M L (a)

Notate che questa statistica si può esprimere in termini equivalenti come:


0 ∗
β̂ ∗ X̃0 X̃β̂ Rc2
 
ESS
φW = 2 = U RSS = T 2
(test di Wald in forma χ2 )
σ̂M L ( T ) 1 − R c
ESS
nb : Rc2 =
T SS
Una formulazione alternativa del test di Wald è la seguente:
ESS/(k − 1) (RRSS − U RSS)/k − 1
fW = = ∼ Fk−1,T −k
U RSS/(T − k) U RSS/T − k
In questo caso la distribuzione di riferimento sotto H0 è una F di Fisher con k − 1
e T − k gradi di libertà. Si noti che l’equivalente test LR della medesima ipotesi è:
 
RRSS
φLR = T log
U RSS
Per questo esempio abbiamo:
RRSS = ỹ0 ỹ
U RSS = ε̂0 ε̂
(dato che azzeriamo i coefficienti associati a tutti i regressori diversi dall’intercetta
sotto H0 ) e quindi:  0 
ỹ ỹ
φLR = T log 0
ε̂ ε̂
Si noti che per ottenere il test di Wald, in via generale, è necessario stimare solo il
modello non vincolato.
124 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

4.9.3 Test LM (Lagrange Multipliers) (test dei moltiplicatori di La-


grange)
Stimiamo il MRL:
y = Xβ + ε
sottoposto ai vincoli:
R β =d
(q×k)(k×1)
q<k

ρ(R) = q

Dobbiamo quindi massimizzare la logverosimiglianza:


log L
sotto i vincoli:
Rβ = d
Il primo passo è quello di costruire la funzione lagrangiana:
log L + λ0 (R β − d)
∂ log L
+ R0 λ = 0 (4.47)
∂θ
dove con θ indichiamo il vettore che contiene tutti i parametri del modello:
 
β
θ =
(k+1)×1 σ2
Ovviamente, il gradiente, calcolato in corrispondenza della configurazione di
θ che massimizza la logverosimiglianza sotto i vincoli imposti (θbR ) non è zero ma
è pari a −R0 λ, come si evince dalla (4.47). Se i vincoli non fossero stringenti,
allora il punto di massimo vincolato θbR coinciderebbe con il punto di massimo
non vincolato θbU R e quindi avremmo che il gradiente è nullo. In questo caso
infatti, il vettore di moltiplicatori di Lagrange λ è un vettore di dimensioni (q × 1)
di zeri. Quanto più i vincoli sono stringenti, tanto più il gradiente calcolato in
corrispondenza di θbR tenderà ad essere diverso da zero.
È possibile costruire un test dell’ipotesi nulla

H0 : R β = d
basato sulla seguente domanda: il gradiente della funzione di logverosimiglian-
za, calcolato in corrispondenza di θbR è significativamente diverso da 0? Si può
dimostrare che, sotto H0 (e date le ipotesi consuete sul modello, compresa quel-
la di normalità dei termini di disturbo), possiamo descrivere la distribuzione del
gradiente:  
∂ log L (θ)   
γ(θ̂R ) = ∼ N 0 , I θ̂R
∂θ θ=θ̂R
4.9. DIVERSI MODI DI COSTRUIRE TEST: TEST LR, DI WALD, LM 125

dove " #
  ∂ 2 log (θ)
I θ̂R = −E
∂ θ ∂ θ0
θ̂R

si intende la matrice di informazione calcolata in corrispondenza di θ̂R , cioè il va-


lore atteso della matrice Hessiana delle derivate seconde (cambiate di segno) della
logverosimiglianza calcolata in corrispondenza della stima di massima verosimi-
glianza sotto H0 .
Dato questo risultato distributivo, posso definire una grandezza scalare definita
come:
0
h  i −1
φ = γ(θ̂R ) I θ̂R γ(θ̂R ) (4.48)

e questa grandezza è asintoticamente distribuita sotto H0 come una variabile ca-


suale χ2q , con q gradi di libertà:

H
φ ∼0 χ2q (4.49)
(a)

Ad esempio, consideriamo il MRL:

y = Xβ + ε = X1 β1 + X2 β2 + ε
ε ∼ N 0 , σ2I

H0 : β2 = 0
H1 : β2 6= 0

calcoliamo le derivate prime e seconde della funzione di logverosimiglianza:

∂ log L 1 0 0

= − −2X y + 2X Xβ
∂β 2σ 2
2
∂ log L X0 X
= − 2
∂β ∂β 0 σ
con:
 
β̂1 R
β̂R =
0
XX0
I(θ̂R ) =
σ̂R2
∂ log L(σ̂R ) 1  0 0

= 2 X y − XX β̂R
∂ σ̂R σ̂R

È possibile mostrare (solo un con un po’ di algebra e buona volontà) che vale:

RSS − U RSS
test LM = φLM =
RSS/T
126 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Figura 4.10: Logiche di costruzione di test a confronto

log L
S’

test LR
Test LM

test di Wald
S

β0 β non vinc. β

L’inclinazione di SS 0 è alla base della costruzione del test LM

Ad esempio, nel caso del test di bontà della regressione:


H0 : β2 = · · · = βk = 0
contro
H1 : β2 6= 0, e/o β3 6= 0, e/o βk 6= 0
il test LM è:
φLM = T · Rc2
dato che in questo caso abbiamo:
RSS = T SS = y∗0 y∗
in generale, il test LM è basato sulla stima del modello ristretto

4.9.4 Ricapitolazione sulle modalità di costruzione dei test


Prendiamo come riferimento la Figura 4.10 dove, in relazione ad un modello mol-
to semplice con un unico parametro da stimare β, rappresentiamo la logverosi-
miglianza in corrispondenza dei diversi valori di β e definiamo β̂M L la stima di
4.10. STIMA DEL MODELLO SOGGETTO A VINCOLI LINEARI SUI PARAMETRI127

massima verosimiglianza non vincolata. Supponiamo che l’ipotesi nulla sia:

H0 : β = 0
H1 : β 6= 0

Ovviamente in questo semplice contesto (in cui c’è un solo parametro) il ”massi-
mo vincolato” della verosimiglianza coincide con la funzione di verosimiglianza
calcolata in corrispondenza di β = β0
Ricapitolando, quindi:
test LR = basato sulla distanza tra log L(β̂M L ) e log L(β0 )
test di Wald = basato sulla distanza tra β0 e β̂M L
test LM = basato sulla pendenza di log L in β0 (quindi dalla misura di quanto
il gradiente è diverso da zero in β0 ).
È possibile dimostrare che i tre test sono legati da una semplice relazione: per
qualsiasi ipotesi nulla ed in relazione a qualsiasi MRL, si ha:

φW ≥ φLR ≥ φLM
e quindi può succedere che un’ipotesi sia rifiutata da W e accettata da LR, LM,per
esempio

4.10 Stima del modello soggetto a vincoli lineari sui para-


metri
Supponiamo di avere un modello di regressione lineare del tipo:

y = Xβ + ε

per il quale valgono tutte le ipotesi consuete su termini di disturbo e regressori. Im-
maginiamo che esistano ragioni per ritenere che valgano i seguenti vincoli lineari
sui parametri:

R β = d , (4.50)
(q×k)(k×1) (q×1)

ρ(R) = q

Ad esempio, supponiamo di avere un MRL:

yt = β1 + β2 x2t + β3 x3t + β4 x4t + β5 x5t + εt , t = 1, . . . T

dove le variabili hanno il seguente significato:


yt = consumo
x2t = reddito disponibile
x3t = spesa pubblica
128 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

x4t = stock di ricchezza privata


x5t = debito pubblico
In una sua semplice formalizzazione, l’ipotesi di equivalenza ricardiana (la
spesa pubblica, dato che prima o poi necessita di un suo finanziamento tramite
maggiori tasse implica che il consumatore razionale anticipi l’incremento delle tas-
se e quindi consideri spesa pubblica alla stregua di riduzione di reddito disponibile
e debito pubblico come riduzione della ricchezza) implica che:
β3 = −β2 ,
β5 = −β4
Questi sono due vincoli imposti sullo spazio parametrico che possiamo rappresen-
tare in termini matriciali come:
Rβ = d,
 
β1
 β2     
,R = 0 1 1 0 0 ,d = 0
 
β =  β3
  0 0 0 1 1 0
 β4 
β5
Ora vediamo un modo possibile per stimare il modello in modo tale che rispetti
vincoli lineari del tipo (4.50): questo metodo è chiamato metodo dei minimi qua-
drati vincolati (è possibile anche definire uno stimatore di massima verosimiglianza
vincolata):

min ε0 ε
β
soggetta ai vincoli:Rβ = d
Per risolvere questo problema siamo attrezzati: costruiamo la funzione lagrangia-
na e ricaviamo le condizioni del primo ordine rispetto ai parametri del modello e
rispetto ai moltiplicatori di Lagrange

L = ε0 ε + 2λ0 (Rβ − d) (4.51)


∂L
= 0 ⇒ −2X0 y + 2X0 Xβ + 2R0 λ = 0 (4.52)
∂β
∂L
= 0 ⇒ Rβ − d = 0 (4.53)
∂λ
Ora, esplicitiamo (4.52) rispetto a β, chiamando la soluzione βbR :
βbR = (X0 X)−1 (X0 y − R0 λ) (4.54)
Sostituiamo ora la (4.54) nella (4.53) ottenendo:
R β̂ R = d ⇒
0 −1
R(X X) (X y − R0 λ) = d ⇒
0

R(X0 X)−1 X0 y − d = R(X0 X)−1 R0 λ ⇒


4.10. STIMA DEL MODELLO SOGGETTO A VINCOLI LINEARI SUI PARAMETRI129

h −1 ih i
λ = R X0 X R0 RβbU R − d (4.55)

βbU R = stima non vincolata =


−1 0
= X0 X Xy (4.56)

Notate che quando il vincolo è esattamente verificato dalla stima non vincolata,
dalla espressione per λ riportata qui sopra si evince che il vettore dei moltiplicatori
di Lagrange è nullo (i vincoli non sono stringenti: il punto di massimo vincolato
coincide con quello di massimo libero):

Rβ̂ U R − d = 0 ⇒ λ = 0
Ora risostituiamo la (4.55) nella (4.54):

 i
−1 h −1 0 i−1 h
β̂R = X0 X X0 y − R0 R X0 X R · Rβ̂ U R − d (4.57)

La formula vista sopra fornisce un modo per ottenere la stima del MRL sotto i
vincoli che caratterizzano l’ipotesi nulla H0 . Per verificare:

H0 : Rβ = d
contro
H1 : Rβ 6= d

sono disponibili tutti i test descritti alla sezione precedente:

(RRSS − U RSS)

 φW = T
 ∼ χ2q
test di Wald= U RSS
(RRSS − U RSS)/q
 fW =
 ∼ Fq , T −k
U RSS/(T  − k)
RRSS
test LR = φLR = T log ∼ χ2q
U RSS
(RRSS − U RSS)
test LM = φLM = T ∼ χ2q
RRSS

4.10.1 Alcuni esempi


Prendiamo come primo esempio una funzione di domanda di investimenti:

It = β1 + β2 Rt + β3 Πt + εt
It = domanda di investimento
Rt = tasso di interesse nominale
Πt =tasso di inflazione
ipotesi: β3 = −β2
130 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Per verificare l’ipotesi nulla:

H0 : β3 = −β2 ,
contro
H0 : β3 6= −β2

è possibile lavorare con uno qualsiasi dei test visti. Possiamo stimare il modello
non vincolato ottenendo U RSS. Per ricavare RSS in questo caso è facile: basta
stimare direttamente un modello che soddisfi implicitamente il vincolo imposto,
vale a dire:
It = β1 + β2 (Rt − Πt ) + εRt (4.58)
Nel modello precedente definiamo un nuovo regressore Rt − Πt , tasso di interesse
reale. In questo modo, la regressione stimata (4.58) ha una somma dei quadrati dei
residui che è esattamente RSS.
Come secondo esempio, si consideri la seguente funzione di produzione in
logaritmi:

yt = β1 + β2 lt + β3 kt + εt
Si supponga di voler provare l’ipotesi di rendimenti costanti di scala:

H0 : β2 + β3 = 1
contro
H1 : β2 + β3 6= 1

Si noti che, se sono valide tutte le ipotesi consuete su termini di disturbo e regresso-
ri allora sappiamo che la stima OLS non ristretta del modello si distribuisce come
una variabile casuale normale k-variata:

βb ∼ N (β, σ 2 (X0 X)−1 )

e quindi la variabile casuale β̂2 + β̂3 − 1 (somma di due variabili casuali normali-1)
sotto H0 si distribuisce nel modo seguente:

β̂2 + β̂3 − 1 = r0 βb − 1 ∼ N [0, ω] ,


ω 2 = var(β̂2 + β̂3 − 1) = r0 σ 2 Qr =
= σ 2 (q22 + 2q23 + q33 ) =
= var(βb2 ) + var(βb3 ) + 2cov(βb2 , βb3 ),
Q = (X0 X)−1 , r = 0 1 1 ,
 

b2 = σ
ω b2 (q22 + 2q12 + q11 ) (controparte stimata di ω)

Quindi opportunamente standardizzando β̂2 + β̂3 −1 si ottiene una variabile casuale


la cui distribuzione sotto H0 è nota:
4.11. EFFETTI DELL’OMISSIONE DI VARIABILI RILEVANTI 131

 
β̂2 + β̂3 − 1
τ = = ∼ tT −3 , (4.59)
ω H0

b
p
ω
b = b2 = σ
ω b (q22 + 2q12 + q11 ) = (4.60)
r
RSS p
= (q22 + 2q12 + q11 ) (4.61)
T −3
È quindi possibile ottenere il valore calcolato della statistica τ e confrontar-
lo con il valore critico della distribuzione t di Student, scegliendo la probabilità
dell’errore di prima specie.
In questo esempio (come nel precedente) è semplice fare prova delle ipotesi
perchè abbiamo una sola restrizione. È però anche possibile costruire il test Wald
nella sua forma F :
(RRSS − U RSS)/q
fW =
U RSS/(T − k)
Per ottenere la RRSS (dalla stima del modello vincolato) è possibile:
• applicare M Q vincolati
• trasformare la relazione di regressione ipotizzando che valga H0 :
yt = β1 + β2 lt + (1 − β2 )kt + εRt ⇒
yt − kt = β1 + β2 (lt − kt ) + εRt
Y  L
Quindi ottengo un MRL in cui regredisco log K su log K e un termine di
intercetta. Utilizzo OLS e ottengo la RSS. Si noti che il test fW e il test τ descritto
nella (4.59) conducono a conclusioni equivalenti, dato che il valore di questi test
sono legati dalla seguente relazione:

fW = (τ )2

in altri termini: il F è il quadrato del test τ , quando c’è un solo vincolo.

4.11 Effetti dell’omissione di variabili rilevanti


Supponiamo che il modello “vero” sia:

y = Xβ + ε = X1 β1 + X2 β2 + ε
(T ×k1 ) (T ×k2 )

Supponiamo di escludere dall’analisi X2 ,perchè non ne disponiamo di una misu-


razione affidabile oppure perchè non sappiamo di doverlo inserire. Quindi, invece
di stimare il modello “vero”, stimo il seguente MRL:

y = X1 β1 + u (4.62)
β̂1 s = (X01 X1 )−1 X01 y (4.63)
132 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Il vettore dei parametri β1 è stimato sulla base del modello “scorretto”. Il valore
atteso di β̂1 s è quindi:

E(β̂1 s ) = (X01 X1 )−1 X01 (X1 β1 + X2 β2 + ε)


= β1 + (X01 X1 )−1 X01 X2 β2 ⇒

E(β̂1 s ) − β1 = distorsione = (X01 X1 )−1 X01 X2 β2

Si noti che il termine (X01 X1 )−1 X01 X2 dà la stima dei coefficienti della regressione
OLS di X2 su X1 . Si noti che:

βb1s − β1s = (X01 X1 )−1 X01 ε (4.64)

e quindi la matrice di varianze e covarianze di βb1s è:


h i
V (β̂1 s ) = E (β̂1 s − E(β̂1 s ))(β̂1 s − E(β̂1 s ))0 = σ 2 (X01 X1 )−1 (4.65)

Quindi, gli effetti dell’esclusione di X2 sono che in questo modo:

• si ottiene una stima distorta (a meno che sia X01 X2 = 0, cioè che X01 e X2
siano ortogonali)

• la varianza teorica di β̂1 s è sicuramente minore di quella associata alla stima


del modello completo.

Ma cosa si può dire della stima della varianza di β̂1 s ? Per capire meglio si
consideri il caso in cui il MRL ”vero” abbia due variabili esogene oltre al termine
di intercetta:
yt = β1 + β2 x2 t + β3 x3 t + εt

ed invece venga stimato un modello “scorretto”:

yt = β1 + β2 x2 t + ut

Notiamo immediatamente che:

σ2
V ar(β̂2 s ) = (varianza teorica),
S22
T
X
S22 = (x2 t − x̄2 )2
t=1

mentre la varianza teorica della stima di β2 sulla base del modello “vero” è:
4.11. EFFETTI DELL’OMISSIONE DI VARIABILI RILEVANTI 133

σ2
V ar(β̂2 ) = 2 )S ,
(1 − r23 22
T
1 P
T (x2t − x2 )(x3t − x3 )
2 t=1 cov(x
c 2 , x3 )
r23 =  T  T =
1 v ar(x2 )d
v ar(x3 )
(x2t − x2 )2 T1 (x3t − x3 )2
P P d
T
t=1 t=1

quindi, se r12 2 > 0 (cioè se x1 e x2 non sono ortogonali), allora avremo:

V (β̂1 ) > V (β̂1 s )

Quanto detto vale per le varianze teoriche. Ora consideriamo le controparti stimate:

σ̂ 2
vd
ar(β̂2 ) = 2 )
S22 (1 − r23
σ̂s2
vd
ar(β̂2 s ) =
S22
Prendiamo il rapporto di tali varianze:

vd
ar(β̂2 ) σ̂s2 2

= 2
· 1 − r23
vd
ar(β̂2 s ) σ̂

quindi se σ̂s2 è molto superiore a σ̂ 2 , cioè se il contributo di x2 alla spiegazione di


y, una volta che sia già inserito x1 , è molto rilevante, più di quanto non sia l’entità
della correlazione di x1 e x2 , allora la stima del modello completo ha varianza
stimata minore.
Ad esempio, se consideriamo un’equazione di domanda di beni alimentari:

yt = β1 + β2 x2 t + β3 x3t + εt , t = 1, . . . , T
dove:
y = quantità domandata
x2 = prezzo del bene
x3 = reddito
(dati riportati sul libro di Maddala)
Stimiamo un modello dove viene omesso il reddito e stimiamo il modello
”scorretto”:

ybt = 89.97 + 0.107 x2t ,


(11.85) (0.118)
σ̂ = 2.338
134 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Notate che β̂2 s ha il segno sbagliato (positivo); ricordiamo infatti che abbiamo
indicato l’entità della distorsione teorica come:
h i
∗ −1 ∗ 0 ∗
E(β̂2 s ) − β2 = (x∗0 x
2 2 ) x 2 3 β3 =
x (4.66)
cov(x
c 2 , x3 )
= β3 (4.67)
vd
ar(x2 )
Dall’esame della espressione precedente, possiamo concludere che, dato che β3 ,
coefficiente del reddito è ragionevolmente positivo, e dato che il termine (x∗0 ∗ −1 ∗0 ∗
2 x2 ) x2 x3
ha lo stesso segno della correlazione tra prezzi e reddito (x2 e x3 ), presumibilmente
positiva, la distorsione della stima di β2 è ragionevolmente positiva.
Tutte queste supposizioni sono confermate dall’esame del modello completo
stimato:

ybt = 92.05 − 0.142 x2t + 0.236 x3t ,


(5.84) (0.067) (0.031)
σ̂ = 1.952

Notate che l’errore standard di β̂1 è diminuito: il contributo di x3t alla spiegazione
di yt è superiore all’entità della correlazione di x2t e x3t .

4.12 Effetti dell’inclusione di variabili irrilevanti


Supponiamo che il modello “vero” sia:

y = X1 β1 +ε
(T ×k1 )(k1 ×1)

e che si stimi invece il modello:

y = X1 β1 + X2 β2 +u
(T ×k1 )(k1 ×1) (T ×k2 )(k2 ×1)

In altri termini, siamo in una situazione in cui il vettore di parametri veri è:

β1
β=
0
La stima del modello “scorretto” è:
 
β̂1 s
β̂s = = (X0 X)−1 X0 y
β̂2 s

che è non distorta. Questo significa che il valore atteso di β̂s è:
   
h i β̂1 s β1
E β̂s = E =β=
β̂2 s 0
4.12. EFFETTI DELL’INCLUSIONE DI VARIABILI IRRILEVANTI 135

La matrice di varianze e covarianze della stima del modello “scorretto è:


 
2 0 −1 2 2 Q11 Q1 2
V (β̂s ) = σ (X X) = σ Q = σ
Q2 1 Q2 2

e quindi:

V (β̂s ) = σ 2 Q11
mentre la matrice di varianze e covarianze di β̂1 (stima di β1 sulla base del modello
“vero”):
V (β̂1 ) = σ 2 (X01 X1 )−1
È possibile dimostrare che la matrice di varianze e covarianze di β̂1 s differisce da
quella di β̂1 per una matrice definita positiva. Quindi la stima del modello scorretto
è inefficiente.
Ad esempio, se il modello vero è:

yt = β1 + β2 x2t + εt

e viene invece stimato:

yt = β1 + β2 x2t + β3 x3t + ut

Possiamo confrontare le varianze:

σ2
V ar(β̂2s ) = 2 )S
(1 − r23 22
σ 2
V ar(β̂2 ) =
S22
quindi:
2
V ar(β̂2s ) > V ar(β̂2 ) se r23 >0
Anche per le controparti stimate generalmente vale:

Vdar(β̂2s ) > Vd ar(β̂2 ),


b2
σ
Vdar(β̂2 ) = ,
S22
bs2
σ
Vdar(β̂2s ) = 2 )S
(1 − r23 22

anche se è vero che σbs2 < σb2 (c’è una variabile esplicativa in più nel modello
scorretto) ma il contributo di x3t alla spiegazione di yt è ragionevolmente molto
basso.
Notate che:
E(b σs2 ) = σ 2
136 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Quindi se il modello è sovraparametrizzato, la stima di σ rimane non distorta, anche


se meno efficiente (PROVA: fatelo come esercizio).
Come succede alla stima dei parametri rilevanti quando dalla regressione si
esclude un parametro irrilevante? La risposta è che in grandi campioni la stima
non cambia affatto, dato che comunque le stime sono non distorte e consistenti.
Per MRL stimati in base a campioni di ampiezza finita esiste il risultato provato
da Leamer (1975): si supponga di essere interessati a βj e che il regressore xi sia
irrilevante. Indichiamo con β̂j la stima di βj sulla base del modello in cui appare
anche xi . Leamer prova che, escludendo dalla regressione xj dalla regressione, si
ottiene una una stima che è vincolata a stare nell’intervallo β̂j ± ti sj , dove:
sj = errore standard di β̂j
ti = test t di βi = 0

4.13 Gradi di libertà e indice R2


In un MRL, quando viene incrementato il numero dei regressori inclusi, a prescin-
dere dalla effettiva capacità eplicative dei regressori aggiunti su y, si ottiene un
incremento nell’indice R2 :

RSS T SS
σ̂ 2 = = (1 − R2 )
T −k T −k

Si definisce allora un indice che chiamiamo R̄2 (R2 ”adjusted”):


 
2 RSS/(T − k) T −1
R̄ = 1 − = 1 − (1 − Rc2 )
T SS/(T − 1) T −k

che “penalizza” l’inserimento di regressori. Si noti che:

 T SS  T SS
1 − R̄2 · = 1 − Rc2 · = σ̂ 2
T −1 T −k

al crescere di R̄2 (o di R2 ) diminuisce σ̂ 2 .


È possibile che si verifichi il caso in cui 1 − R̄2 > 1, cioè R̄2 < 0. Questo si
ha quando:

T −k
(1 − Rc2 ) > ,⇒
T −1
k
Rc2 <
T −1

Ad esempio, con T = 21 e k = 2, se R2 < 0.1 si avrà R̄2 < 0


4.13. GRADI DI LIBERTÀ E INDICE R2 137

4.13.1 Relazione tra test di significatività t, test F e indice R̄2


Se una variabile esplicativa xi , con coefficiente stimato pari a β̂i e con test t > 1,
viene esclusa dalla regressione, allora diminuisce R̄2 . (Ovviamente, sarebbe bello
se R̄2 diminuisse con l’esclusione di variabili con coefficiente significativo, cioè
con t > 2 !). Più in generale, se x1t , . . . , xrt sono r grandezze il cui test F di
esclusione congiunta (H0 : β1 = β2 = · · · = βr = 0) è > 1, allora l’esclusione di
tali grandezze comporta una diminuzione dell’indice R̄2 .
Dimostrazione:
2 RRSS
σ̂R = → stima varianza nel modello ristretto
T −k+r

U RSS
σ̂U2 R = → stima varianza nel modello non ristretto
T −k
2 − (T − k)σ̂ 2
 
(RRSS − U RSS)/r (T − k + r) σ̂R U R /r
F = =
U RSS/(T − k) (T − k)σ̂U2 R /(T − k)
(RSSR − RSSU R )/r
Risolvi per F = :
RSSU R /(T − k)

2 − (T − k)σ̂ 2
 
(T − k + r) σ̂R U R /r
F = ,
σ̂U2 R
2
(T − k + r) σ̂R (T − k)
F = 2 −
r σ̂U R r

definisci
T −k
=a
r
quindi:
T −k T −k+r
+1= =a+1
r r
Sostituendo nell’espressione per F :

σ̂R2
F = (a + 1) −a
σ̂U2 R

e quindi:
2
σ̂R a+F
2 = ,
σ̂U R a+1
T −k
a =
r
quindi se F è maggiore di 1, escludendo x1 , . . . , xr si ottiene un aumento della
varianza stimata del modello ristretto, vale a dire una diminuzione di R̄2 , dato
che:
138 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

 
2 2 T SS
(relazione inversa tra σ̂ 2 eR̄2 )

σ̂ 1 − R̄ (4.68)
T −1
e viceversa se F < 1.

4.14 Test di stabilità del MRL


Sono test di costanza dei parametri. Abbiamo due tipi diversi di test: test basati
sull’analisi della varianza e test previsivi.

4.14.1 Test basati sull’analisi della varianza


Supponiamo di poter distinguere all’interno del campione due sottoinsiemi di os-
servazioni (T = T1 + T2 ) in relazione ai quali abbiamo:
(1) (1) (1)
yt = β1 x1t + β2 x2t + · · · + βk xkt + εt , t = 1, 2, . . . , T1

(2) (2) (2)


yt = β1 x1t + β2 x2t + · · · + βk xkt + εt , t = T1 + 1, . . . , T1 + T2

Possiamo costruire un test di stabilità dei parametri:


n
(1) (2)
H0 : βi = βi i = 1, 2, . . . , k

Sotto H0 tutti i parametri sono uguali per tutte le osservazioni periodo campionarie
(ampiezza campionaria completa è T1 + T2 )
Ora, stimiamo il MRL separatamente nei due sotto-campioni ottenendo:

• RSS1 = somma quadrati residui equazione stimata con t = 1 . . . T1 .

• RSS2 = somma quadrati residui equazione stimata con t = T1 +1 . . . T1 +2.

Ricordiamo che:

RSS1 /σ 2 ∼ χ2T1 −k ,
RSS2 /σ 2 ∼ χ2T2 −k

Sotto H0 i parametri sono costanti su tutto il campione. Quindi è possibile stimare


il MRL sotto H0 :

yt = β1 x1t + · · · + βk xkt + εt , t = 1, 2, . . . , T1 , T1 + 1, . . . , T1 + T2

ottenendo la somma dei quadrati dei residui:

RRSS = ε̂0 ε̂
4.14. TEST DI STABILITÀ DEL MRL 139

da intendere come somma dei quadrati dei residui del modello vincolato (stiamo
stimando il MRL sotto i vincoli che caratterizzano H0 ). Ricordiamo anche che:

RRSS
∼ χ2T1 +T2 −k
σ2
La somma dei quadrati dei residui del modello non vincolato è

U RSS = RSS1 + RSS2 ,


U RSS ∼ χ2T1 +T2 −2k

Quindi è possibile costruire il test di Wald in forma F come

(RRSS − U RSS)/k
fW =
U RSS/(T1 + T2 − 2k)

dove:
k = numero vincoli imposti per ottenere il modello ristretto
T1 + T2 − 2k = T − 2k = gradi di libertà del modello U R
Questo test è basato sull’analisi della varianza ed è chiamato test di Chow del
primo tipo.

4.14.2 Test previsivo di stabilità


Quando T2 < k non è possibile stimare separatamente il MRL nel secondo sot-
tocampione. Allora si utilizza la seguente idea per costruire un test alternativo di
stabilità basato sulla capacità previsiva del modello: se il modello è stabile, è possi-
bile stimarlo utilizzando solo le osservazioni che appartengono al primo sottocam-
pione (t = 1, . . . T1 ). Sulla base di questa stima, possiamo utilizzare il modello in
”previsione” per il sotto-campione dato dalle osservazioni T1 + 1, . . . , T1 + T2 e
ottenere errori non sistematici, vale a dire con valore atteso nullo. Specifichiamo
quindi un’ipotesi nulla in base alla quale gli errori di previsione relativi al secondo
sottocampione hanno tutti valore atteso nullo:

H0 : E(b
εT1 +1|T1 ) = E(b
εT1 +2|T1 ) = . . . = E(b
εT1 +T2 |T1 ) = 0,
contro
εT1 +1|T1 ) 6= 0, e/o E(b
H1 : E(b εT1 +2|T1 ) 6= 0, e/o E(b
εT1 +T2 |T1 ) 6= 0

Il test di questa ipotesi è costruito definendo:


RSS = somma dei quadrati dei residui ottenuti stimando il modello con tutte
le osservazioni (t = 1, 2, . . . , T1 + T2 ).
RSS1 = somma dei quadrati dei residui ottenuti stimando il modello con le
osservazioni appartenenti al primo sotto-campione (t = 1, 2, . . . , T1 ).
Queste due somme dei quadrati possono essere utilizzate per costruire un test
di Wald in forma F :
140 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

(RSS − RSS1 )/T2


fW = ∼ FT ,T −k (4.69)
RSS1 /(T1 − k) H0 2 1
Per giustificare la costruzione di questo test occorre fare riferimento all’uso e al
significato delle delle variabili di comodo (variabili dummy) nei modelli econome-
trici (vedi capitolo 5). Il test descritto dalla (4.69) è detto test di Chow del secondo
tipo.

4.14.3 Alcuni commenti ai test di stabilità strutturale


Per quanto riguarda il test di Chow del primo tipo, tale test è basato sull’assun-
zione implicita che la varianza dei termini di disturbo sia uguale nei due sotto-
campioni, mentre invece è possibile che anche tale parametro sia diverso nei due
sotto-campioni:

E(ε2t ) = σ12 , t = 1, 2, . . . , T1 ,
E(ε2t ) = σ22 , t = T1 + 1, T1 + 2, . . . , T1 + T2

Occorre quindi verificare l’ipotesi:

H0 : σ12 = σ22
H1 : σ12 6= σ22

Ricordando che:

RSS1 /σ12 ∼ χ2T1 −k


RSS2 /σ22 ∼ χ2T2 −k

posso costruire un test per verificare H0 basato sul rapporto delle due grandezze
sopra indicate:

(RSS1 /σ12 )
  " (RSS1 ) #
f =  T1 −k 2  = (RSS T1 −k
(RSS2 /σ2 ) 2)
T2 −k T2 −k
H0
2
 
σ̂1
= ∼ FT1 −k, T2 −k (4.70)
σ̂22 (H0 )

quindi, utilizzando la tavola della distribuzione FT1 −k, T2 −k , si determinano i quan-


tili a e b in modo tale che:

p {a ≤ F ≤ b} = 1 − α
scegliendo α = probabilità errore di prima specie. Quindi si calcola il test f defi-
nito dalla (4.70) e si verifica se cade all’interno o all’esterno dell’intervallo [a, b].
4.15. ESERCIZIARIO SULLA REGRESSIONE LINEARE 141

Nel primo caso si accetta H0 , nel secondo si rifiuta H0 ( test a 2 code)

2) A proposito del test di Chow del secondo tipo, se i parametri sono costanti , il
valore atteso degli errori di previsione è zero; ma se i parametri non sono costanti,
potrebbe comunque darsi che gli errori di precisione abbiano valore atteso nullo
Quindi questo test è più che altro un test di non distorsione delle previsioni.

4.15 Eserciziario sulla regressione lineare


4.15.1 Esercizio 1
Data la seguente funzione di produzione stimata in logaritmi:

log yt = 1, 37+ 0, 632 log kt + 0, 452 log Lt ,


(0,257) (0,219)
T = 40,
Rc2 = 0.98
b2 = 0.01,
σ
b βb2 , βb3 ) = −0.044
Cov(

si provino le seguenti ipotesi:


a) Ci sono rendimenti costanti di scala
b) β2 =β3
Si calcolino R̄2 e gli intervalli di confidenza per β̂2 e β̂3 , sia quelli individuali
che quello congiunto.

4.15.2 Esercizio 2
Sia data la seguente regressione stimata:

ŷt = 2.20 + 0.104 x2t + 3.48 x3t + 0.34 x4t ,


(3.4) (0.005) (2.2) (0.15)
T = 80,
ESS = 112.5
RSS = 19.5

a) quali regressori sono singolarmente significativi al 5%?


b) calcolare R2 e R̄2
142 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

4.15.3 Esercizio 3
Siano dati due campioni con le seguenti informazioni:

Campione 1 Campione 2
Ti 20 25
xi2 20 23
yi 25 28 ,
i
S22 80 100
S2y 120 150
Syy 200 250
n.b. :
1 X
xi2 = x2t , i = 1, 2
Ti
campione i
1 X
yi = yt , i = 1, 2
Ti
campione i
X
i
S22 = (x2t − x2 )2 , i = 1, 2
campione i
X
i
S2y = (x2t − x2 )(yt − y), i = 1, 2
campione i
X
i
Syy = (yt − y)2 , i = 1, 2
campione i

a) stimare una regressione lineare di y su di una costante (termine di intercetta)


e x2 per ogni campione separatamente e per il campione esteso che combina tutte
le osservazioni.
b) Quali sono le ipotesi sotto le quali la regressione combinata (con 45 osser-
vazioni) è valida?
c) Spiegare in quale modo sia possibile verificare l’ipotesi di validità di tali
assunzioni.

4.15.4 Esercizio 4
Sia data la seguente regressione stimata:

ŷt = 2.0 + 3.5 x2t − 0.7 x3t + 2.0 x4t ,


(0.62) (1.842) (0.318) (1.333)
2
T = 26, R = 0.982

Stimando il modello sotto la restrizione:

β2 = β3

si è ottenuto:
4.16. SOLUZIONI AGLI ESERCIZI 143

ŷt = 1.5 + 3.0 (x2t + x3t )− 0.6 x4t ,


(0.54) (1.111) (0.250)

R2 = 0.876

a) verificare la validità del vincolo β2 = β3 in tutti i modi possibili.


b) se ometto la variabile x3t dalla regressione di partenza, cosa succede a R̄2 ?
E perchè?

4.15.5 Esercizio 5
Per il MRL:

yt = β1 x1t + β2 x2t + β3 x3t + εt


abbiamo indicazioni di teoria economica che affermano che:

β1 + β2 = α,
β1 + β3 = −α

dove α è un parametro sconosciuto.


Trovare lo stimatore BLUE di α e la sua varianza, stabilendo accuratamente le
ipotesi che occorre utilizzare.

4.15.6 Esercizio 6
Ricavare la matrice di varianza e covarianza dello stimatore ottenuto utilizzando
minimi quadrati vincolati e confrontarla con quella della stima OLS non vincolata.
Come è possibile confrontarle? (NB: stiamo parlando di matrici teoriche!)

4.16 Soluzioni agli esercizi


4.16.1 Esercizio 1
a) Ipotesi di rendimenti costanti di scala:

H0 : β2 + β3 = 1
contro
H1 : β2 + β3 6= 1

Ricordiamo che:

β̂2 + β̂3 − 1 ∼ N (0, V ar(β̂2 + β̂3 − 1))


Ho
144 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

Quindi costruisco il rapporto:


β̂2 + β̂3 − 1 0, 632 + 0, 452 − 1
h i1 = h i1 =
2 2
V ar (β̂2 + β̂3 − 1) V ar (β̂2 ) + V ar(β̂3 ) + 2Cov (β̂2 , β̂3 )
0, 084 0, 084
= 2 2
= = 3, 230
[(0, 257) + (0, 219) + 2(−0, 044)] 0, 026
valore critico t37 ∼= 2, 021 al 95% (test a 2 code) (disponibile t40 ): rifiuto H0 !
b) H0 : β2 − β3 = 0
β̂2 − β̂3 0, 632 − 0, 452
h i1 = h i1 =
2 2
V ar (β̂2 − β̂3 ) V ar (β̂2 ) + V ar(β̂3 ) − 2Cov(β̂2 , β̂3 )
−0, 82
= = −4, 059 → rifiuto H0 (valore critico ∼ = 2.021)
0, 202
2 −1
R = 1 − (1 − R2 ) TT −k = 1 − 0.02 3937 = 0.9789
Intervallo di confidenza per β2 al 95%:

β̂2 ± se (β̂2 ) · t α2 ⇒ 0, 632 ± (0, 257)(2, 021) ⇒


⇒ [0, 112 ; 1, 151]

Intervallo di confidenza per β3 al 95%

β̂3 ± se (β̂3 ) · t α2 ⇒ 0, 452 ± (0, 219)(2, 021) ⇒


⇒ [0, 009 ; 0, 894]

Intervallo
h congiunto: tutti i valori di β2 e β3 tali per cui: i
Skk (β2 − β̂2 )2 + 2Skl (β2 − β̂2 )(β3 − β̂3 ) + Sll (β3 − β̂3 )2 < f2, 37
f2, 37 = quartile al 95% della distribuzione F2, 37 ∼ = 3, 23 F (2, 40 )
e:
Skk = Tt=1 (kt − k̄)2 kt = log Kt
P
PT
Skl = t=1 (kt − k̄)(lt − ¯l) lt = log Lt
Sll = Tt=1 (lt − ¯l)2
P

quindi nel modello y b ∗ = X∗ β̂ ∗


(T ×2)(2×1)
 
β̂2
β̂ ∗ =
β̂
 3
.. ..

. . 
X∗ =  ¯l 

 tk − k̄ l t −
.. ..

. .
−1 
(0, 257)2 (−0, 044)
 
∗ 2 ∗0 ∗ −1 2 Skk Skl
V(β̂ ) = σ̂ (X X ) = σ̂ =
Skl Sll (−0, 044) (0, 219)2
4.16. SOLUZIONI AGLI ESERCIZI 145

Ma si conosce anche σ̂ 2 = 0, 01, e quindi si possono ricavare Skk , SkL e SLL


come: −1
(0, 257)2 (−0, 044)
  
Skk SkL 1
= 2
SkL SLL σ̂ (−0, 044) (0, 219)2
da utilizzare nella costruzione dell’intervallo di confidenza ?congiunto per β2
e β3 .

4.16.2 Esercizio 2
a) sono quelli i cui test t sono maggiori del valore critico del test a 2 code:

H0 : βi
H1 : βi 6= 0
sulla base di una distribuzione t di Student con 76 gradi di libertà. Il valore critico
è approssimativamente 2,00 (vedi sulla tavola della t di Student il valore più vicino
è 60). Quindi:
βb1 2, 20
t β1 = = = 0, 647 → non significativo
se (β1 )
b 3, 4
β̂2 0, 104
t β2 = = = 20, 8 → significativo
se (β̂2 ) 0, 005
β̂3 3, 48
tβ3 = = = 1, 58 → non significativo
se (β̂3 ) 2, 2
β̂4 0, 34
t β4 = = = 2, 26 → significativo
se (β̂4 ) 0, 15
b)
ESS 112, 5
R2 = = = 0, 82
T SS 19, 5 + 112, 5
T −1 79
R̄2 = 1 − (1 − R2 ) = 1 − (0, 148) = 0, 846
T −k 76

4.16.3 Esercizio 3
Stima del modello nel primo sotto-periodo:

yt = β1 + β2 x2t + εt , t = 1, 2, . . . , 20

1
S2y 120
β̂21 = 1 = = 1, 5,
S22 80
βb11 = ȳ − β̂21 x12 = 25 − (1, 5)(20) = −5
1

Stima del modello nel secondo sotto-periodo:


146 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

2
S2y 150
βb22 = 2 = = 1.5
S22 100
βb12 = ȳ − β̂22 x22 = 28 − 23(1.5) = −6.5
2

Stima del campione esteso (con 45 osservazioni):


20
X 2
x22t = S22
1
+ 20 x̄12 = 80 + 20(20)2 = 8080,
t=1
45
X 2
x22t = S22
2
+ 20 x̄22 = 100 + 25(23)2 = 13325,
t=21
 2
20 45
x2i x2i 
P P
20 45  +
− 45  t=1 t=21
X X

S22 = x22t + x2t  =
 
 45 
t=1 t=21

 2
20x̄1 + 25x̄2
= 21405 − 45 =
45
= 21405 − 21125 = 280
20
1 + T x̄1 ȳ 1 = 120 + 20 · 20 · 25 = 10120
P
x2t yt = S2y 1 2
t=1
45
2 + T x̄2 ȳ 2 = 150 + 25 · 23 · 28 = 16250
P
x2t yt = S2y 2 2
t=21
20 45 20x̄1 + 25x̄2 20ȳ 1 + 25ȳ 2
  

P P
S2y = x2t yt + x2t yt − 45 =
t=1 t=21 45 45
= 26370 − 45 · [(21, 667) (26, 667)] = 369, 275
20
yt2 = Syy
1 + T (ȳ 1 )2 = 200 + 20(25)2 = 12700
P
1
t=1
45
yt2 = Sy2 + T1 (ȳ 2 )2 = 250 + 25(28)2 = 19850
P
t=21
2
20 45 T1 ȳ 1 + T2 ȳ 2

∗ 2 2
P P
Syy = yt + yt − 45 =
t=1 t=21 45
20 · 25 + 25 · 28 2
 
= 12700 + 19850 − 45 =
45
= 32550 − 32000 = 550
Quindi per tutto il campione ho:
T = 45
x∗2 = 21, 667
ȳ ∗ = 26, 667
S22∗ = 280

S2y∗ = 369, 275


4.16. SOLUZIONI AGLI ESERCIZI 147

Syy∗ = 550

da cui si∗ottiene la stima:


S2y
β̂2∗ = ∗ = 1, 319
S22
β̂1 = ȳ ∗ − β̂2∗ x∗2 = 26, 667 − 1, 319 · 21, 667 = −1, 912

b)
 Devono valere le seguenti ipotesi:
1 2
 β1 = β1
β 1 = β22
 22
σ1 = σ22
c) Si verificano queste ipotesi costruendo un test, ad esempio il test fW :

(RRSS − U RSS)/k
fW =
U RSS/(T − 2k)

dove:
RRSS = somma quadrati residui modello stimato con 45 osservazioni
∗ − β̂ ∗ S ∗ = 550 − 369, 275 · 1, 319 = 62, 926
=Syy 2y
T SS ESS
U RSS = RSS1 + RSS2 =
= Syy1 − β̂ 1 S 1 + S 2 − β̂ 2 S 2 =
1 2y yy 1 2y
= 200 − (1, 5)(120) + 250 − (1, 5)(150) = 45
(62, 926 − 45)/2 8, 963
fW = = = 8, 166
45/(45 − 4) 1, 097
Il valore critico della F2, 41 al 5% ∼ = 3, 23 (F2 40 è disponibile sulle tavole) →
rifiuto H0 !
L’altra ipotesi H0 : σ12 = σ22 si verifica costruendo il test in forma F :
σ̂12 RSS1 /(T1 − k)
2 = ∼ FT −k, T2 −k
σ̂2 RSS2 /(T2 − k) (H0 ) 1
σ̂12 20/18
= = 1, 022
σ̂22 25/23
Il valore critico è: F18, 23 ∼
= 2, 05 (disponibile per F20, 23 )
accetta H0 : σ1 = σ2 contro σ12 > σ22
2 2

Ma la prima ipotesi (β11 = β12 , β21 = β22 ) è stata rifiutata, per cui non è legittimo
combinare tutte le 45 osservazioni.

4.16.4 Esercizio 4
a) H0 : β2 = β3
H1 : β2 6= β3
Il test di Wald in forma F è:
(RSS − U RSS)/q
fW = =
U RSS/(T − k)
Ora, moltiplico numeratore e denominatore per T SS:
2 )−(1−R2 )
(1−RR
( RSS−U
T SS
RSS
)/q q
U

= U RSS
= 1−RU 2
T SS /(T − k)
T −k
148 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

dove:
RU 2 = R2 modello non ristretto

RR 2 = R2 modello ristretto

Quindi:
0, 106/1
fW = = 129, 555
0, 018/(26 − 4)
Il valore critico della distribuzione di riferimento è: F1, 22 = 4, 30 al 5%.
Quindi il test suggerisce il rifiuto di H0 .
Calcoliamo ora il test di Wald in forma χ2 :
T · [RRSS − U RSS]
φW = =
U RSS
2 2
 
T · 1 − RR − (1 − RU )
= 2) =
(1 − RU
0.106
= 26 · = 153. 111
0.018
Il valore critico della distribuzione χ21 = 3.84 al 5%. Quindi anche questo test
conduce al rifiuto di H0 .
Si noti che è possibile costruire anche il test t come:

β̂2 − β̂3
∼ t2 2
i 1 (H
0)
h
2
V (β̂2 ) + V (β̂3 ) − 2Cov(β̂2 β̂3 )
b b d

che è la radice quadrata del test fW calcolato in precedenza.


Ora calcoliamo il test LR :
 
RRSS
φLR = T log =
U RSS
 2 
1 − RR 0.124
= 26 log 2 = 26 · log( )=
1 − RU 0.018
= 50. 178

mentre il valore critico (χ21 ) è 3.84.Quindi anche questo test porta al rifiuto di H0 .
Ora calcoliamo il test LM
RSS − U RSS
φLM = T =
 RSS
2 − R2 )

T · (RU R
= 2) =
(1 − RR
 
0.106
= 26 = 22.226
0.124

Quindi anche utilizzando questo test, si conclude che occorre rifiutare H0 (il valore
critico della distribuzione rilevante sotto H0 (χ21 ) è 3.84)
Si noti che in relazione alla prova delle ipotesi svolta in questo esercizio abbia-
mo riscontrato:
4.16. SOLUZIONI AGLI ESERCIZI 149

φW ≥ φLR ≥ φLM
(153.11 > 50.178 > 22.226)
come abbiamo visto nella parte teorica.
b) Se ometto x2t dalla regressione, dato che il test t di significatività di tale pa-
0.7
rametro è − = −2.201, che in valore assoluto è > 1, l’indice R̄2 è destinato
0.318
a scendere.

4.16.5 Esercizio 5
Basta esprimere il modello nei termini del parametro incognito α, sostituendo:

β2 = α − β1 ,
β3 = −α − β1
quindi sotto H0 :
yt = β1 x1t + (α − β1 )x2t + (−α − β1 )x3t + ut ⇒
yt = β1 (x1t − x2t − x3t ) + α(x2t − x3t ) + ut
Definiamo:

z1t = x1t − x2t − x3t


z2t = x2t − x3t
e stimiamo il MRL:
yt = β1 x1t + αz2t + ut
La stima OLS di α̂ sulla base di questo modello è BLUE se, oltre a valere l’ipotesi
nulla

β2 = α − β1
H0 :
β3 = −α − β1
si ha che tutte le condizioni usuali sui termini di disturbo e sui regressori sono
rispettate:

E(ut ) = 0, ∀t
E(ut uτ ) = 0, ∀t 6=τ
E(u2t ) = σ 2 , ∀t
ρ(Z) = 2
E( Z0 u) = 0
150 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE

4.16.6 Esercizio 6
Calcoliamo la stima corrispondente all’applicazione dei MQ vincolati:
n −1 h io
β̂R = (X0 X)−1 X0 y − R0 R(X0 X)−1 R0

Rβ̂ U R − d =
−1 h i
= β̂U R − (X0 X)−1 R0 R(X0 X)−1 R0

Rβ̂ U R − d =
Per comodità chiamiamo:
−1
(X0 X)−1 R0 R(X0 X)−1 R0

= H
(k×q)

quindi:
h i
β̂R = β̂U R − H Rβ̂ U R − d
E(β̂R ) = β − H(Rβ − d)
quindi β̂R è non distorto solo quando vale H0 (quando R0 β = d). Ora calcoliamo
la distorsione di β̂R :
h i
β̂R − E(β̂R ) = β̂U R − H Rβ̂ U R − d − β − H(Rβ − d) =
= (β̂U R − β) − HR(β̂U R − β) =
= (Ik − HR)(β̂U R − β) =
(Ik − HR)(X0 X)−1 X0 ε
Usando questa espressione possiamo calcolare la matrice di varianze e covarianze
di β̂R :
V ar(β̂R ) = E[(β̂R − E(β̂R ))(β̂R − E(β̂R ))0 ] =
= E[(Ik − HR)(X0 X)−1 X0 εε0 X(X0 X)−1 (Ik − R0 H0 ) =
= σ 2 [(Ik − HR)(X0 X)−1 (Ik − R0 H0 )] =
= σ 2 [(X0 X)−1 − HR(X0 X)−1 − (X0 X)−1 R0 H0 +
+HR(X0 X)−1 R0 H0 ]
Ricordando la definizione di H :
H = (X0 X)−1 R0 [R(X0 X)−1 R0 ]−1
otteniamo:
V (β̂R ) = σ 2 {(X0 X)−1 −
−(X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 −
−(X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 +
+(X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 ·
·R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 }
= σ 2 {(X0 X)−1 −
−(X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 R(X0 X)−1 }
4.16. SOLUZIONI AGLI ESERCIZI 151

Ricordiamoci che la varianza di β̂U R è:

V (β̂U R ) = σ 2 (X0 X)−1

e quindi:

V (β̂U R ) − V (β̂R ) = σ 2 (X0 X)−1 R0 [R(X0 X)−1 R0 ]−1 ·


·R(X0 X)−1

ed è facilmente dimostrabile che questa matrice è definita positiva.


152 CAPITOLO 4. IL MODELLO DI REGRESSIONE LINEARE
Capitolo 5

Variabili di comodo e variabili


troncate

5.1 Variabili di comodo come variabili esplicative


5.1.1 Variabili di comodo a correzione di intercetta
Consideriamo per semplicità il MRL semplice, e supponiamo che esistano due
sottocampioni in corrispondenza di ciascuno dei quali il termine di intercetta possa
essere diverso:

(1)
yt = β1 + β2 x2t + εt t = 1.....T1 (5.1)
(2)
yt = β1 + β2 x2t + εt t = T1 + 1........T1 + T2 (5.2)
In termini esattamente equivalenti possiamo indicare il modello di cui sopra come:
(1) (2) (1)
yt = β1 + (β1 − β1 )Dt + β2 x2t + εt , t = 1, 2, ..., T1 + T2 (5.3)
introducendo una variabile di comodo (o variabile dummy) che chiamiamo Dt :
Dt = 0 ∀t ∈ [1, T1 ]
Dt = 1 ∀t ∈ [T1 + 1, T1 + T2 ]
Se esistono tre diversi ”regimi” (vale a dire tre diversi sottocampioni in relazione a
ciascuno dei quali si immagina che il termine di intercetta possa essere diverso):
(1)
yt = β1 + β2 x2t + εt ,t = 1.....T1
(2)
= β1 + β2 x2t + εt , t = T1 + 1........T1 + T2
(3)
= β1 + β2 x2t + εt , t = T1 + T2 + 1........T1 + T2 + T3
è possibile dare rappresentazione equivalente a questo MRL definendo due distinte
variabili di comodo:
(1) (2) (1) (3) (1)
yt = β1 + (β1 − β1 )D1t + (β1 − β1 )D2t + εt

153
154 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

con

0 t ∈ [1, T1 ] o t ∈ [T1 + T2 + 1......T1 + T2 + T3 ]
D1t =
1 t ∈ [T1 + 1, T1 + T2 ]

0 t ∈ [1, T1 + T2 ]
D2t =
1 t ∈ [T1 + T2 + 1......T1 + T2 + T3 ]

Una variabile di comodo (che indichiamo con VDC) è quindi una particolare va-
riabile che assume valori pari a 0 o a 1.
Possiamo fare il seguente esempio: la Figura 5.1a riporta l’andamento di con-
sumo e reddito (in logaritmi) aggregati per l’Italia nel periodo 1920-1996. Si nota
che per gli anni relativi alla Seconda Guerra Mondiale (1940-45), la relazione che
lega le due variabili sembra modificata. Infatti, se esaminiamo la Figura 5.1b, che
riporta il diagramma a dispersione per tale coppia di variabili, notiamo un grup-
po di osservazioni che ”sembrano” essere disomogenee rispetto alle altre. Tali
osservazioni si riferiscono agli anni 1940-45.
[Figura 5.1a qui nel testo]
[Figura 5.1b qui nel testo]
Sulla base di queste considerazioni, stimiamo il MRL:

(1) (2) (1)


yt = β1 + (β1 − β1 )Dt + β2 x2t + εt (5.4)

0 t = 1920.....1939, 1946.....1996
Dt =
1 t = 1940.....1945

in cui yt è il logaritmo del consumo e x2t è il logaritmo del reddito. Per questo
modello, la matrice dei regressori è
 
1 0 x2,1920
 1 0 x2,1921 
 
 1 0 x2,1922 
 
 ... ... ... 
 
 
 
X = 1 1 x2,1940
 

(T ×3) 
 ... ... ...


 1 1 x2,1945
 

 
 
 
 ... ... ... 
1 0 x2,1996

dove gli anni dal 1940 al 1945 sono anni di guerra e la seconda colonna della ma-
trice X è una variabile dummy. Specificando un MRL come quello descritto dalla
(5.4), introducendo una VDC del tipo appena descritto, si opera una correzione sul
termine di intercetta, come la Figura 5.1c chiaramente illustra.
[Figura 5.1c qui nel testo]
5.1. VARIABILI DI COMODO COME VARIABILI ESPLICATIVE 155

Notate che se effettivamente la relazione che si vuole modellare presenta delle


discontinuità che richiedono una correzione del termine di intercetta e tale cor-
rezione non viene apportata, è possibile ottenere risultati distorti e inconsistenti,
anche per quello che riguarda i coefficienti di pendenza del MRL: si tratta infatti
della conseguenza dell’omissione di una variabile rilevante (in questo caso la VDC
necessaria ad apportare la correzione necessaria). Si veda a questo proposito la
Figura 5.2
[Figura 5.2 qui nel testo]

5.1.2 Variabili dummy a correzione di intercetta per trattare dati con


stagionalità
Molte variabili macroeconomiche presentano marcate dinamiche stagionali. Con-
sideriamo, per esempio, una relazione di regressione lineare tra log consumo (y) e
log reddito (x2 ), sulla base di dati trimestrali non destagionalizzati:
yt = α1 + α2 D2t + α3 D3t + α4 D4t + β2 x2t + εt (5.5)
dove si ha:
D2t = variabile dummy pari a 1 solo nel 2◦ trimestre
D3t = variabile dummy pari a 1 solo nel 3◦ trimestre
D4t = variabile dummy pari a 1 solo nel 4◦ trimestre
Si ha quindi la seguente matrice dei regressori:
 
1 0 0 0 x21
 1 1 0 0 x22 
 
 1 0 1 0 x23 
X = 
(T ×5)  1 1 0 1 x24
 

 ... ... ... ... ... 
1 ... ... ... x2t
Notate che il MRL appena descritto può essere scritto in termini esattamente
equivalenti come:
yt = γ1 D1t + γ2 D2t + γ3 D3t + γ4 D4t + β2 x2t + εt
ma non è possibile stimare il MRL:
yt = δ0 + δ1 D1t + δ2 D2t + δ3 D3t + δ4 D4t + β2 x2t + εt
perchè la matrice dei regressori in questo caso è:
 
1 1 0 0 0 x21
 1 0 1 0 0 x22 
 
 1 0 0 1 0 x23 
X = 
(T ×6)  1 0 0 0 1 x24
 

 ... ... ... ... ... ... 
... ... ... ... ... ...
156 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

che NON ha rango pieno! Infatti la 1◦ colonna è la somma delle colonne 2,3,4 e 5.
Nel caso in cui si abbia un MRL che utilizzi dati mensili non destagionalizzati,
allora avremmo :

yt = α1 + α2 D2t + ..... + α12 D12t + β2 x2t + εt

dove: Dit è una variabile dummy che è pari a 1 nel mese i-esimo (i = 1, ....., 12).

5.1.3 Variabili dummy a correzione di intercetta per ”outliers”


Supponiamo che nel campione a disposizione, una osservazione sia chiaramente
”anomala” (ad esempio, si veda la Figura 5.3).
[Figura 5.3 qui nel testo]
L’osservazione anomala viene chiamata outlier (cioè che giace fuori) e si tratta
di un’osservazione connessa ad un evento particolare, non modellabile esplicita-
mente, che rende tale osservazione completamente disomogenea rispetto alle altre.
Ad esempio, supponiamo che nella Figura 5.3 l’osservazione anomala sia quella
relativa a t = T ∗ . Definiamo ora una VDC definita come segue:

per t = T ∗

1
Dt =
0 t 6= T ∗

e inseriamo questa VDC nel MRL:

yt = β1 + β2 x2t + β3 Dt + εt (5.6)

La matrice dei regressori diventa:


 
1 0 x21

 1 0 x22 


 ... ... ... 

X=
 1 1 x2T ∗ 


 1 0 x2T ∗ +1 
 ⇒ t = T∗
 1 ... ... 
1 0 x2T

Stimando il MRL risultante:


y = Xβ + ε
 
β1
β =  β2 
β3
è possibile mostrare (basta fare riferimento alle usuali proprietà del modello di re-
gressione partizionata che abbiamo visto nel Capitolo 4) che il coefficiente stimato
relativo alla VDC è pari alla distanza dell’outlier dalla retta di regressione stimata.
Quindi, in corrispondenza dell’outlier, si ha ε̂T ∗ = 0. Inoltre è possibile dimostrare
5.1. VARIABILI DI COMODO COME VARIABILI ESPLICATIVE 157

che la stima del MRL risultante è esattamente equivalente a quella del MRL sen-
za introdurre tra i regressori la VDC e eliminando contestualmente dal campione
l’osservazione anomala:

yt = β1 + β2 x2t + εt , (5.7)
∗ ∗
t = 1, 2, ...T − 1, T + 1, ..., T

Per questo motivo, si può concludere che βb3 coincide con l’errore di previsione di
yT ∗ ottenuto utilizzando la stima del MRL (5.7) e la varianza di βb3 coincide con la
la varianza di tale errore di previsione. In termini un pò meno formali, l’uso della
VDC, che viene chiamata anche variabile di comodo ad impulso (è uguale a uno
in corrispondenza di una sola osservazione), in questo casoequivale a ”fare fuori”
l’outlier.

5.1.4 Variabili dummy a correzione di intercetta e di pendenza


Se riteniamo che il MRL sia:
(1) (1)
yt = β1 + β2 x2t + εt t = 1...T1
(2) (2)
yt = β1 + β2 x2t + εt t = T1 + 1.....T1 + T2
T = T1 + T2 (5.8)

cioè se riteniamo che entrambi i coefficienti del primo ordine siano diversi nei due
sottocampioni, possiamo scrivere in termini esattamente equivalenti:
(1) (2) (1)
yt = β1 + (β1 − β1 )Dt + β2 x2t + (5.9)
(2) (1)
+(β2 − β2 )(Dt · x2t ) + εt ,
t = 1, 2, ...T1 , T1 + 1, ...T1 + T2

dove: 
0 ∀t ∈ [1, T1 ]
Dt =
1 ∀t ∈ [T1 + 1, T1 + T2 ]
Quindi in questo MRL si operano congiuntamente una correzione di intercetta e
una correzione della pendenza. Notate che a questo fine è necessario definire una
nuova variabile esplicativa la cui singola osservazione t-esima è data dal prodotto
tra Dt e x2t . La matrice dei regressori del MRL diventa quindi:
 
1 0 x21 0
 1 0 x22 0 
 
 ... ... ... ... 
 
 1 0 x2T1 0 
X = 
(T ×4)  1 1 x2T1 +1 x2T1 +1 


 1 1 ... ... 
 
 ... ... ... ... 
1 1 x2T1 +T2 x2T1 +T2
158 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

5.1.5 Variabili dummy per provare l’ipotesi di stabilità dei coefficienti


di regressione
Supponiamo di avere un MRL con k regressori per il quale riteniamo che si abbia:
(1) (1) (1)
yt = β1 + β2 x2t + ... + βk xkt + εt t = 1.....T1
(2) (2) (2)
yt = β1 + β2 x2t + ... + βk xkt + εt t = T1 + 1.....T1 + T2

cioè si hanno e tutti i parametri del primo ordine del modello hanno una configu-
razione diversa in relazione a due distinti sottocampioni. Alternativamente, posso
scrivere in modo compatto:

   
(1) (2) (1) (1) (2) (1)
yt = β1 + β1 − β1 Dt + β2 x2t + β2 − β2 (Dt · x2t ) +
 
(1) (2) (1)
+... + βk xkt + βk − βk (Dt · xkt ) + εt ,
t = 1, 2, ..., T1 + T2

con: 
0 ∀t ∈ [1, T1 ]
Dt =
1 ∀t ∈ [T1 + 1, T1 + T2 ]
Quindi procedo alla stima del seguente MRL:

yt = δ1 + δ2 x2t + ... + δk xkt + δk+1 Dt + δk+2 D(x2 )t + (5.10)


+... + δ2k D(xk ) + εt , (5.11)
t = 1, 2, ..., T1 + T2 ,

dove:

D(xj )t = Dt · xjt ,
j = 2, 3, ..., k,
t = 1, 2, ..., T

Ovviamente i parametri del modello (5.10) hanno il seguente significato:


(1) (1) (1)
δ1 = β1 , δ2 = β2 , ..., δk = βk ,
(2) (1) (2) (1)
δk+1 = β1 − β1 , δk+2 = β2 − β2 , ...,
(2) (1)
δ2k = βk − βk ,

Notate che è possibile provare l’ipotesi:

H0 : δk+1 = δk+2 = δ2k = 0


contro
H1 : δk+1 6= 0, e/o δk+2 6= 0, e/o δ2k 6= 0
5.1. VARIABILI DI COMODO COME VARIABILI ESPLICATIVE 159

In altri termini, l’ipotesi nulla H0 significa che i parametri non cambiano ma si


mantengono costanti per tutto il campione. Per verificare tale ipotesi è possibile
utilizzare qualunque tra i test visti nel capitolo 4; ad esempio il test fW è costruito
come:
(RRSS − U RSS)/k
fW = (5.12)
U RSS/(T − 2k)
dove URSS è la somma dei quadrati dei residui del modello (5.10) stimato (mo-
dello non vincolato), mentre RRSS è la somma dei quadrati dei residui dello stesso
modello stimato sotto H0 . Notate che il test appena descritto è molto simile al test
di Chow del 1◦ tipo visto nel capitolo 4, con la differenza che la stima del modello
non vincolato si basa sull’ipotesi che la varianza dei termini di disturbo sia la stessa
nei due sottoperiodi.

5.1.6 Test di Chow del secondo tipo (o test di validità previsiva)


Questo test si utilizza per verificare la stabilità strutturale del MRL. Il test si basa
sul principio che il modello stimato con t = 1, ..., T1 , in assenza di modificazioni
dei parametri, dovrebbe generare previsioni per t = T1 + 1, ..., T1 + T2 con errori
associati che hanno valore atteso nullo. Se invece si ipotizza che tali errori di
previsione abbiano valore atteso diverso da zero, occorre inserire in corrispondenza
di ciascuna osservazione del 2◦ sottocampione una variabile dummy puntuale; il
modello non vincolato diventa allora:

yt = β1 + β2 x2t + ... + βk xkt + γ1 D1 t + γ2 D2t + (5.13)


+... + γT2 DT2 t + εt , (5.14)
t = 1, 2, ..., T1 + T2

dove Dit è una dummy che assume valore unitario solo in corrispondenza di t =
i, (i = T1 + 1, ..., T1 + T2 ). Vengono quindi stimati T2 parametri aggiuntivi che
hanno l’effetto di eliminare le ultime T2 osservazioni (ricordatevi l’effetto che ha
l’inclusione di una VDC ad impulso: ε̂t = 0, t = T1 + 1, T1 + 2, ..., T1 + T2 )
La somma dei quadrati dei residui del modello (5.13) stimato è quindi:

TX
1 +T2 XT1
ε̂2t = ε̂2t (5.15)
t=1 t=1

e la stima del modello non vincolato equivale alla stima del modello:

yt = β1 + β2 x2t + ... + βk xkt + εt , (5.16)


t = 1, 2, ...., T1

Notate che, con l’inserimento delle VDC puntuali, dalla stima del modello (5.13)
è possibile ottenere direttamente gli errori di previsione e le stime delle varianze
160 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

degli errori di previsione, rispettivamente come:

ebT1 +1|T1 = yT1 +1 − ybT1 +1|T1 = γ


bk+1 ,

Vb ebT1 +1|T1 = Vb (b γk+1 )

E’ possibile definire l’ipotesi nulla:

H0 : γ1 = γ2 = ... = γT2 = 0
contro
H0 : γ1 6= 0 e/o γ2 6= 0 e/o ... 6= 0 e/o γT2 6= 0

Questo test, chiamato test di validità previsiva o test di Chow del secondo tipo,
può essere costruito confrontando RRSS e URSS, rispettivamente ottenuti come
somma dei quadrati dei residui del modello (5.16) stimato sulla base dell’intero
campione (t = 1, 2, ..., T1 + T2 ), e somma dei quadrati dei residui dello stesso
modello stimato con i dati relativi al sottocampione (t = 1, 2, ..., T1 ), che a sua
volta è equivalente alla somma dei quadrati dei residui del modello (5.13) stimato.

5.2 Variabili dummy come variabili dipendenti


Vi sono importanti applicazioni econometriche dove è necessario modellare feno-
meni che si sostanziano in scelte dicotomiche (o comunque discrete):

yt = 0,
oppure
yt = 1,
t = 1, 2, ..., T

Rilevanti esempi sono ad esempio, la partecipazione al mercato del lavoro, l’acqui-


sto di una casa di proprietà, la scelta di quotarsi in borsa ecc...
Il modello econometrico di riferimento dovrebbe spiegare quali sono le circo-
stanze che determinano, i valori osservati su yt :

yt = f (1, x2t ...xkt , εt ), (5.17)


t = 1, 2, ..., T

Notate che il suffisso t indica la t-esima osservazione relativa al campione. In gene-


re, in questi contesti applicativi le diverse osservazioni si riferiscono a diverse unità
(individui, imprese, famiglie) osservate ad un dato istante temporale. Ad esempio,
possiamo immaginare di avere un campione di T imprese, alcune delle quali sono
quotate in borsa (yt = 1) ed altre no (yt = 0) e le variabili xit ...xkt costituiscono
la misurazione dei fattori ritenuti rilevanti per determinare la scelta dell’impresa.
Per stimare un modello del tipo (5.17) è possibile utilizzare due possibili ap-
procci alternativi:
5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 161

1) Modello di probabilita’ lineare: nel modello di probabilita’ lineare (MPL):

k
X
yt = βi xit + εt = x0t β + εt , t = 1, 2, ..., T,
i=1
E(εt ) = 0, ∀t,

la variabile dipendente yt viene fatta dipendere in modo lineare da un insieme di k


variabili esplicative
(2) Approccio basato sull’esistenza di una variabile latente yt∗ che non è possi-
bile osservare (o misurare) tale per cui:

se yt∗ > 0

1
yt =
0 se yt∗ ≤ 0

Questo approccio è alla base dei modelli logit e probit. Ora vedremo questi due
approcci separatamente.

5.2.1 Modello di probabilità lineare


Il MPL è basato sulla regressione lineare:

yt = x0t β + εt
(1×k)

con:
E(εt ) = 0, ∀t

E(yt |xt ) = x0t β, ∀t


Si noti che:

0
E(yt |xt ) = prob(yt = 1|xt ) perchè yt può assumere solo valori pari a
1

Quindi il MPLdà una probabilità condizionata su xt in termini lineari. Notate che,


0
dato che yt = , εt può assumere solo due valori:
1

−x0t β

(se yt = 0)
εt =
1 − x0t β (se yt = 1)

cioè il termine di disturbo è una variabile casuale discreta. Il MRL implica che:

p(yt = 1|xt ) = x0t β


p(yt = 0|xt ) = 1 − x0t β
162 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

e quindi:

E(εt |xt ) = −x0t β · p(yt = 0|xt ) + 1 − x0t β · p(yt = 1|xt ) =




= −x0t β · 1 − x0t β + 1 − x0t β · x0t β = 0


 

2 2
−x0t β· 1 − x0t β + 1 − x0t β · x0t β =

V (εt ) =
= x0t β · 1 − x0t β = E(yt ) · [1 − E(yt )]


Quindi, la varianza di εt non è costante per le diverse osservazioni: siamo in pre-


senza di eteroschedasticità. Il prossimo paragrafo contiene alcune anticipazioni
sulla stima di modelli con eteroschedasticità.

5.2.2 Alcune anticipazioni sulla stima di modelli con disturbi etero-


schedastici
Immaginiamo di avere un MRL del tipo:

y = Xβ + ε,
E(ε) = [0] .
 
ω11 0 ... 0
0 ω22 ... ... 
E(ε0 ε) = Ω = 

,
 ... ... ... 0 
0 ... 0 ωT T
V (εt ) = σt2 = ωtt , t = 1, 2, .., T

In questo caso il miglior stimatore è quello dei ”Minimi Quadrati Ponderati” (WLS=weighted
least squares), che si ottiene in questo modo: si definisce:
 1/2 
ω11 0 ... 0
1/2
 0 ω22 ... ... 
 
P= 
 ... ... ... 0 
1/2
0 ... 0 ωT T

tale che:

PP0 = P2 = Ω
IT = P−1 ΩP−1 =
= P−1 ΩP−10 ,
 −1/2 
ω11 0 ... 0
−1/2
 0 ω22 ... ...
 
P−1 = 


 ... ... ... 0 
−1/2
0 ... 0 ωT T
5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 163

Inoltre, si definiscono:

y∗ = P−1 y
X∗ = P−1 X
ε∗ = P−1 ε

Notate che premoltiplicare y e X per P−1 equivale a ponderare ciascuna osser-


−1/2
vazione per ωtt . Per questo motivo si parla di Minimi Quadrati Ponderati. A
questo punto si può verificare che il modello ponderato:

y ∗ = X ∗ β + ε∗ ,
E(ε∗ ) = [0],
E(ε∗ ε∗0 ) = P−1 ΩP−10 = IT

ha quindi termini di disturbo omoschedastici. Lo stimatore WLS è

β̂wls = (X∗0 X∗ )−1 X∗0 y∗ = (X0 P−1 P−10 X)−1 X0 P−1 P−10 y =
= (X0 Ω−1 X)−1 X0 Ω−1 y

e questo stimatore è non distorto ed è il più efficiente nella classe degli stimatori
lineari e non distorti (stimatore BLUE):
h i
E(β̂wls ) = E (X0 Ω−1 X)−1 X0 Ω−1 (Xβ + ε) = β (Non distorto)
h i
V (β̂wls ) = E (X0 Ω−1 X)−1 X0 εε0 X(X0 Ω−1 X)−1 =
= (X0 Ω−1 X)−1 X0 Ω−1 X(X0 Ω−1 X)−1 =
= (X0 Ω−1 X)−1

Purtroppo questo stimatore non è praticabile perchè di norma Ω (e quindi P)


non è nota. Occorre stimarla in qualche modo venga (vedi capitolo 6).
Se invece si usa lo stimatore OLS sul modello di partenza:

y = Xβ + ε

si ottiene:
β̂OLS = (X0 X)−1 X0 y
con le seguenti proprietà:

E(β̂OLS ) = (X0 X)−1 X0 (Xβ + ε) = β Non distorto


h i
V (β̂OLS ) = E (β̂OLS −β)(β̂ OLS −β)0 =
h i
= E (X0 X)−1 X0 ε0 εX(X0 X)−1 =
= (X0 X)−1 X0 ΩX(X0 X)−1
164 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

Quindi β̂OLS è meno efficiente di β̂GLS e che la stima OLS della varianza delle
stime è distorta e inconsistente. Quindi, se uso OLS in presenza di eteroscheda-
sticità le stime dei parametri in β sono non distorte ma inefficienti, e le stime degli
errori standard associati sono del tutto insoddisfacenti (distorte e inconsistenti). Si
veda il capitolo 6 per i dettagli.

5.2.3 Stima del modello di probabilità lineare


Ritornando al modello di probabilità lineare, dato che sappiamo che:

V (εt ) = E(yt ) [1 − E(yt )] (eteroschedasticità)

possiamo utilizzare la seguente procedura a 2 stadi:


(1) Si stima:
yt = x0t β + εt
usando OLS,e si ricavano i valori adattati di yt : ŷt = x0t β̂OLS .
(2) Si costruisce la matrice dei pesi:
 
[ŷ1 (1 − ŷ1 )]−1/2 0 ... 0
0 [ŷ2 (1 − ŷ2 )]−1/2 ... ...
 
b −1 = 
P

 ... ... ... 0
 

0 ... 0 [ŷT (1 − ŷT )]−1/2

che è ovviamente una stima consistente di P. Questa matrice stimata viene utiliz-
zata per ottenere lo stimatore WLS:

b −1 X)−1 X0 Ω
βbW LS = (X0 Ω b −1 y,

b =P b0
bP

Questo approccio presenta alcuni problemi:


(a) Per qualche osservazione, la grandezza ŷt (1 − ŷt ) potrebbe anche essere
negativo (se ŷt > 1 oppure se ŷt < 0) per campioni finiti (in grandi campioni
p
questa circostanza si verifica raramente, dato che β̂OLS è consistente e quindi ŷt ⇒
yt )
(b) i termini di errore sono non gaussiani e questo complica molto l’inferenza,
dato che sappiamo costruire intervalli fiduciari e fare prova delle ipotesi solo in
presenza di termini di disturbo normali.
In ogni caso, il problema più grave è comunque quello che E(yt |xt ) = x0t β
potrebbe giacere al di fuori dell’intervallo [0, 1]. Ricordate infatti che E(yt |xt ) ≡
p(yt = 1|xt ), ma un MPL potrebbe implicare probabilità assurde (cioè negative o
maggiori di uno) per determinate osservazioni: si veda ad esempio la Figura 5.4
dove abbiamo riportato un diagramma a dispersione con yt variabile dicotomica e
x2 come unico regressore (oltre il termine di intercetta). Le osservazioni su yt sono
quindi pari o a zero o a 1. Ad esempio, le osservazioni che abbiano valori di x2
5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 165

pari a x2a o x2b sono associate ad una probabilità stimata rispettivamente negativa
e superiore ad uno.
[Figura 5.4 qui nel testo]
E’ chiaro che sarebbe molto meglio poter interpolare le osservazioni campio-
nari con una curva non lineare, come è ben evidenziato dalla figura 5.4, piuttosto
che con una retta.

5.2.4 Modelli probit e logit


Questi modelli sono basati sull’assunzione che esista una variabile inosservabile yt∗
che viene determinata da un certo insieme di regressori x1 ... xk nel solito modo:

yt∗ = x0t β + εt ,
t = 1, 2, ..., T
E(εt ) = 0, ∀t

Questa grandezza non è però osservabile, e si osserva invece la variabile dipendente


yt :
1 se yt∗ > 0

yt =
0 se yt∗ ≤ 0
La variabile latente yt∗ può essere interpretata come ”propensione” o ”abilità” ad
assumere valore yt = 1 (abilità a trovare lavoro, trovare casa, essere quotati in bor-
sa) oppure come costo opportunità di yt = 0.Si noti che se yt∗ viene moltiplicata per
qualsiasi costante non nulla, il modello non cambia (problema di identificazione):

λyt∗ = λx0t β + λεt


yt∗∗ = x0t β ∗ + ε∗t

Per questo motivo si utilizza la convenzione di ”normalizzare” il modello in modo


tale da avere un termine di disturbo εt che ha varianza unitaria:

E(ε2t ) = σ 2 = 1

Definiamo ora:

Pt = prob(yt = 1) = prob(yt∗ > 0) =


= prob(x0t β + εt > 0) = prob(εt > −x0t β) =
= 1 − prob(εt < −x0t β) = 1 − F (−x0t β)

dove con F (·) indichiamo la funzione di ripartizione della variabile casuale εt :

Zh
F (h) = f (εt )dεt
−∞
166 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

Se si ipotizza che la funzione di densità di εt sia simmetrica intorno a zero, [f (−h) = f (h)],
allora abbiamo:
F (−x0t β) = 1 − F (x0t β)
come si evince dalla Figura 5.5
[Figura 5.5 qui nel testo]
Quindi possiamo scrivere:

Pt = prob(yt = 1) = F (x0t β)

Si noti che, ovviamente, dato che F (·) è una funzione di ripartizione, Pt è vincolato
ad essere compreso tra 0 e 1 :

lim F (x0t β) = 0,
x0t β⇒−∞

lim F (x0t β) = 1
x0t β⇒+∞

Si veda a questo proposito la Figura 5.6


[Figura 5.6 qui nel testo]

Esempio di modello logit strutturale (Nakosteen e Zimmer, 1980)


Si consideri un modello di migrazione :

1 se l0 individuo t-esimo emigra



yt = , t = 1, 2, ...T
0 se l0 individuo t-esimo non emigra
Si definiscono:

ytR∗ = xR0
t β + εR
t
(1×k)

ytR∗ = salario medio atteso


che t rimanendo nel suo paese si attenderebbe di ricevere

e si fa dipendere tale salario da un vettore di variabili esplicative xR


t (età, raz-
za, educazione, sesso dell’individuo, occupazione e reddito aggregati del paese
di partenza). Si definisce:

ytM ∗ = xM
t
0
γ + εM
t
(1×h)

yM t
= salario atteso che t si attende di ricevere emigrando

che dipende dal vettore xM t (caratteristiche personali, cioè età, educazione, sesso
ecc e alcuni indicatori macro economici del paese di arrivo).
Il singolo individuo t-esimo compie la scelta di emigrare se:

ytM ∗ − ytR∗ > c∗


c∗ = costo di emigrazione (difficilmente misurabile)
5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 167

Si definisce quindi il modello:

yt∗ = ytM ∗ − ytR∗ − c∗


yt∗ = x0t δ + εt
xt = unione degli insiemi di variabili esplicative per ytM ∗ e ytR∗
εt = εM R
t − εt

e quindi:
yt = 1 se yt∗ > 0
A questo punto è possibile scrivere la funzione di verosimiglianza delle T
osservazioni su yt , t = 1...T :
Y Y
P (y1 , y2 , ..., yT |x1 , x2 , ..., xT ) = ( Pt ) (1− Pt ) (5.18)
yt =1 yt =0
Q
dove ( Pt ) indica la produttoria rispetto a tutti le osservazioni in corriispon-
yt =1

Q delle quali yt = 1 e
denza
(1− Pt ) indica la produttoria rispetto a tutti le osservazioni in corriispon-
yt =0
denza delle quali yt = 0.
Ipotizziamo che i termini di disturbo del modello abbiano distribuzione logisti-
ca:
exp(εt ) 1
F (εt ) = = (5.19)
1 + exp(εt ) 1 + exp(−εt )
otteniamo il cosiddetto modello logit
Una variabile casuale logistica ha le seguenti funzione di densità e di riparti-
zione:
ex
f (x) = x ∈ (−∞, +∞)
(1 + ex )2
ex 1 ∂F (x)
F (x) = x
= −x
nb : f (x) =
1+e 1+e ∂x
e le caratteristiche di tali funzioni sono rappresentate, a confronto con quelle di una
variabile casuale normale standardizzata nelle Figure 5.7a e 5.7b.
[Figure 5.7a e 5.7 b qui nel testo]
Notate che una variabile casuale logistica è caratterizzata da maggiore disper-
sione rispetto alla normale standardizzata. Infatti:

E(x) = 0
π2 ∼
V (x) = = 3.28 (> 1)
3
Il comportamento di una variabile casuale logistica è abbastanza simile a quello di
una N (0, 1) (tranne che nelle code).
168 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

Per quello che riguarda il nostro modello, l’assunzione di distribuzione logisti-


ca implica:

exp(x0t β) 1
Pt = F (x0t β) = =
1 + exp(x0t β) 1 + exp(−x0t β)

Esplicitando rispetto a exp(x0t β) otteniamo:

Pt
1 + exp(−x0t β) Pt = 1 ⇒ exp(x0t β) =
 

1 − Pt
 
0 Pt prob(yt = 1)
xt β = ln( ) = ln
1 − Pt prob(yt = 0)

Quindi la grandezza x0t β dà il logaritmo del rapporto delle probabilità (”log-odds
ratio”). Si noti che per il modello logit, il log-odds ratio è funzione lineare delle
variabili esplicative xt (nel modello di probabilità lineare è Pt ad essere funzione
lineare delle variabili esplicative).

Problema della stima del modello logit

Si tratta di trovare una curva che interpoli la nuvola dei punti corrispondenti alle os-
servazioni campionarie, come già visto nella Figura 5.4. Con l’ipotesi che i termini
di disturbo siano distribuiti come una logistica, è possibile scrivere la funzione di
verosimiglianza per il campione:

 
Y Y
L = ( Pt )  (1 − Pt ) =
yt =1 yt =0
  
Y 1 Y  1

=  0
 1− =
1 + exp(−xt β) 1 + exp(−x0t β)
yt =1 yt =0
  
 
Y 1 Y 1
=    (5.20)
1 + exp(−x0t β) 1 + exp(x0t β)
yt =1 yt =0

ma la stima di questo modello si presenta problematica: infatti, la stima di massima


verosimiglianza richiede di considerare la verosimiglianza o la log verosimiglian-
za (ln L) e derivarla rispetto a β. Si ottiene un’espressione che non si riesce ad
5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 169

esplicitare rispetto a β:
 
X X
L = ( ln Pt ) +  ln(1 − Pt ) =
yt =1 yt =0
X X
= − ln[(1 + exp(−x0t β)]− ln[(1 + exp(x0t β)]
yt =1 yt =0
∂L X 1
= [0] ⇒ · xt + (5.21)
∂β 1 + exp(x0t β)
yt =1
X 1
− · xt = [0] (5.22)
1 + exp(−x0t β)
yt =0

Queste condizioni del primo ordine non possono essere esplicitare rispetto β e oc-
corre utilizzare un metodo di massimizzazione numerica. In ogni caso la funzione
di log verosimiglianza è concava ed ha un unico massimo, quindi non dà problemi
in questo senso. A questo proposito, è necessario partire da un valore iniziale per
la stima numerica, che chiamiamo β̂0 , che in genere è quello che si ricava dalla
stima del modello di probabilità lineare.

5.2.5 Modello Probit


E’ possibile utilizzare una diversa assunzione sulla distribuzione dei termini di
disturbo e ipotizzare che:
εt ∼ N (0, 1)
In questo caso, data l’ipotesi di normalità, il modello viene chiamato probit

p(yt = 1) = p(yt∗ > 0) = Φ(x0t β)

xZ0t β  2
1 x
Φ(x0t β) = √ exp − dx
2π 2
−∞

dove con Φ(·) indichiamo la funzione di ripartizione di una variabile casuale nor-
male standardizzata. La funzione di verosimiglianza per un modello probit è:
Y Y 
Φ(x0t β) 1 − Φ(x0t β)

L =
yt =1 yt =0
X X
ln Φ(x0t β)+ ln 1 − Φ(x0t β)
 
ln L =
yt =1 yt =0

ed anche in questo caso per ottenere la stima di massima verosiglianza è necessario


usare un metodo di massimizzazione numerica.
Come abbiamo visto nelle Figure 5.7a e 5.7b, le funzioni di densità e di ripar-
tizione di una variabile casuale logistica e di una variabile casuale normale sono
170 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

molto simili, a parte il comportamento delle code. Per questo motivo, l’assunzione
relativa alla distribuzione dei termini di disturbo è relativamente poco importante
e l’applicazione dei modelli logit e probit allo stesso insieme di dati conduce a
risultati simili, ma dato che nel modello logit si ha
π2
V (εt ) = E(ε2t ) =
3
2
occorre dividere i risultati della stima logit per π3 per poterle confrontare con quel-
le della stima probit (dove invece la varianza dei termini di disturbo è per ipotesi
unitaria.
Un problema ulteriore è che tipicamente la proporzione di osservazioni asso-
ciate a yt = 1 e di quelle associate a yt = 0 possono essere molto sbilanciate tra di
loro; quindi si usano tassi di campionamento diversi per riequilibrare il campione.
Per il modello logit questa procedura ha come unico effetto quello di indurre una
distorsione nel parametro di intercetta che deve essere corretta incrementandola di
log( PP01 ) (P1 è la proporzione delle osservazioni con yt = 1 ritenute e P0 è la pro-
porzione delle osservazioni con yt = 0 ritenute). Le stime degli altri parametri non
sono invece influenzate dalla diversità dei tassi di campionamento.

5.2.6 Effetti di variazioni delle variabili esplicative


Ricordiamo che il MPL stabilisce:
P (yt = 1|xt ) = x0t β
mentre il modello logit stabilisce:
exp(x0t β) 1
P (yt = 1|xt ) = 0 =
1 + exp(xt β) 1 + exp(−x0t β)
ed il modello probit stabilisce:
P (yt = 1|xt ) = Φ(x0t β)
Quindi, chiamando P (yt = 1|xt ) = Pt , possiamo verificare che variazioni delle
variabili esplicative hanno diversi effetti su Pt a seconda del modello di riferimento
 
 βi per il modello di prob. lineare 
∂Pt 
exp(x0t β)

= [1+exp(x0t β)]2
· βi = P t (1 − P )β
t i per il modello logit
∂xit  0

Φ(xt β)·βi per il modello Probit
 

∂Pt
Quindi per il MPL, ∂x it
è costante, cioè non dipende da xt , mentre non è costante
per gli altri due modelli. Si noti che per il modello logit, dato che il log-odds ratio
è:
Pt
ln( ) = x0t β
1 − Pt
abbiamo che:
Pt
∂ ln( 1−P t
)
= βi
∂xit
5.2. VARIABILI DUMMY COME VARIABILI DIPENDENTI 171

5.2.7 Indici di bontà di adattamento del modello


Nei modelli dove la variabile dipendente è dicotomica, esiste il problema della
misurazione della bontà di adattamento, indotto dal fatto che yt assume solo valori
0 o 1. Sono state avanzate diverse proposte per misurare quanto il modello spiega
del comportamento della variabile dipendente (per i modelli di regressione lineare
tutte queste misure sono equivalenti):
1) Indice R2 inteso come il quadrato della correlazione tra yt e ŷt .
2) Misure basate sulla somma dei quadrati dei residui.
Nel MRL abbiamo:

RSS
R2 = 1 −
T SS

T
X
0 0
RSS = ε̂ ε̂ = (y − ŷ) (y − ŷ) = (yt − ŷt )2
t=1

T
X T
X
∗0 ∗
T SS = y y = (yt − ȳ) = yt2 − T ȳ 2 =
t=1 t=1
T1 T0
= T1 − T (T1 /T )2 =
T
dove T1 = numero di osservazioni con yt = 1, T0 = numero di osservazioni con
yt = 0 (T0 + T1 = T ). Quindi:

T
T X T 0
R2 = 1 − (yt − ŷt )2 = 1 − ε̂ ε̂
T1 T0 T1 T0
t=1

Questa è la misura proposta da Efron (1978).


Amemiya (1981) suggerisce di definire la somma dei quadrati dei residui in
modo diverso:
T 
(yt − ŷt )2
X 

ŷt (1 − ŷt )
t=1

in modo tale che ciascun residuo viene ponderato per l’inverso della stima del
proprio errore standard (vale per il modello di probabilità lineare).
3) Misure basate sul rapporto delle verosimiglianze
Per il modello di regressione lineare con termini di disturbo gaussiani:

y = Xβ + ε (5.23)
2
E(ε) = [0] , ε ∼ N (0, σ IT )

sappiamo che possiamo scrivere l’indice R2 come:


172 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

 2
2 RSS LR T
R =1− =1− (5.24)
T SS LU R
dove LR = massimo della verosimiglianza del modello vincolato ad avere tutti i
parametri di pendenza
uguali a 0, LU R = massimo della verosimiglianza del modello per il modello
non vincolato, dato che sappiamo che:
 
2 − T2 1 0
L = (2πσ ) exp − 2 ε ε

Notate che questa interpretazione dell’indice R2 può essere validamente utiliz-


zata per modelli a variabile dipendente qualitativa. Si ricordi che per i modelli a
VDQ (diversi dal MPL) abbiamo che:
 
Y Y
L =( Pt )  (1 − Pt )
yt =1 yt =0

Notate che la verosimiglianza è generata come produttoria di probabilità che sono


tutte < 1; quindi L ≤ 1 e questo ci assicura che:

LR ≤ LU R ≤ 1

da cui:
1 1
≥ ≥1
LR LU R

LR
1≥ ≥ LR
LU R

 2
LR T 2
1≥ ≥ LR T
LU R
2
LR T ≤ 1 − R2 ≤ 1
e quindi:
2
0 ≤ R2 ≤ 1 − LR T
A partire da questo tipo di considerazioni, Cragg e Uhler (1970) suggeriscono
di costruire uno ”pseudo R2 ”
2 2
LU R T − LR T
pseudo Rp2 = 2 2
(1 − LU R T )LU R T
5.3. IL MODELLO TOBIT 173

mentre McFadden (1974) propone un’altra misura:

2 ln LU R
RM F =1−
ln LR

Quest’ultima misura non corrisponde ad alcuna misura di R2 nel modello di re-


gressione lineare.
4) Bontà del modello come proporzione di previsioni corrette.
Vediamo quante volte il modello correttamente ”prevede” il comportamento
della variabile dipendente. Associamo ad ogni osservazione una sorta di ”pseudo
previsione” yt∗∗ secondo la seguente regola:

Se ŷt > 0.5 ⇒ yt∗∗ = 1


Se ŷt 6 0.5 ⇒ yt∗∗ = 1

Quindi per ogni osservazione calcoliamo yt − yt∗∗ (”pseudo errore di previsio-


ne). Ovviamente, se yt − yt∗∗ = 0, la previsione è giusta e se yt − yt∗∗ = 1 o se
yt − yt∗∗ = −1, la previsione è sbagliata. Quindi possiamo definire un indice di
bontà del modello basato sul numero di previsioni corrette

2 numero di previsioni corrette


RC = (5.25)
T
che comunque non è molto utile per discriminare tra i modelli

5.3 Il modello Tobit


Nel modello Tobit (Tobin’s probit, Tobin 1958) abbiamo una variabile troncata,
vale a dire osservata solo se positiva:

yt∗ = x0t β + εt se yt∗ > 0



yt =
0 altrimenti
t = 1, 2, ..., T, ε ∼ N (0, σ 2 It )

Si tratta quindi di un modello di regressione gaussiano ”censurato”.


Ad esempio, si consideri un modello per le decisioni di spesa per l’acquisto
di un’automobile, sulla base di un campione di famiglie (si vogliono studiare le
determinanti dell’acquisto di auto). Si ipotizza:
 0
 xt β + εt se yt∗ > 0
yt∗ = (1×k)
 0 per chi non possiede auto
oppure:
174 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

x0t β + εt

ore lavorate : Ht =
0

x0t β + εt

salario : Wt =
0
Per stimare questo modello NON è possibile usare lo stimatore OLS utilizzan-
do solo le osservazioni per le quali yt∗ > 0, dato che per utilizzare validamente
tale stimatore occorre che valga E(ε) = [0] e questa proprietà non è soddisfatta in
questo caso. Infatti, in questo modo si considerano solo quelle osservazioni per le
quali εt > −x0t β e quindi:
Z∞
E(εt ) = εt Φ(εt )dεt 6= 0
−x0t β

Si ha quindi una distribuzione troncata per i termini di disturbo, come è evidenziato


dalla Figura 5.8.
[Figura 5.8 qui nel testo]
Quindi lo stimatore OLS non è utilizzabile perchè porterebbe ad un risultato
distorto:

∗ 0
E(β̂OLS ) = β + (X∗ X∗ )X∗0 E(ε∗ )
(ricorda che E(εt ) 6= 0)

y ∗ = X∗ β + ε∗
(T1 ×1) (T1 ×k)

y∗ = vettore con tutte e sole le osservazioni yt∗ > 0.


X∗ = matrice delle corrispondenti osservazioni sulle variabili esplicative.
ε∗ = vettore con i corrispondenti termini di disturbo
Occorre quindi utilizzare lo stimatore di massima verosimiglianza :

Y      0 
1 1 0
Y xβ
L= √ 2
exp − 2 (yt − xt β) × Φ − t (5.26)
2πσ 2σ σ
{yt >0} {yt =0}

Notate che nell’espressione precedente il secondo blocco di fattori corrisponde


a quelle osservazioni con yt = 0, cioè per le quali si ha εt < −x0t β.(con Φ(·)
indichiamo ancora la funzione di ripartizione associata ad una VC N (0, 1)).
Anche nel caso del modello Tobin, la log verosimiglianza non ha condizioni
del primo ordine che possano essere risolte analiticamente:

  0 
T1 1 X X xβ
ln L = − ln(2π)−T1 ln(σ)− 2 (yt −x0t β)2 + ln Φ − t
2 2σ σ
{yt >0} {yt =0}
5.3. IL MODELLO TOBIT 175

∂ ln L 1 X X 1
= [0] ⇒ 2 xt (yt − x0t β)−  xt = [0]
x0 β

∂β σ
{yt >0} {yt =0} σΦ − t
σ

∂ ln L T1 1 X 1
=0⇒− + 2  =0
x0t β

∂σ σ σ
{yt =0} Φ −
σ

Quindi ccorre fare riferimento a metodi di ottimizzazione numerica.

Problema concettuale del modello Tobit

Il modello si basa sull’assunzione che yt∗ possa effettivamente, in linea di principio,


assumere valori negativi che non vengono riportati perchè non osservabili. Negli
esempi visti in precedenza è evidente che yt∗ < 0 non è possibile concettualmente.
Esistono dei rischi connessi all’applicazione acritica del modello tobit. Ad
esempio, nel caso della modellazione del salario percepito, si può pensare come
maggiormente indicato un modello del tipo:
Wt = salario osservato per la t − esima unità campionaria:

WtM se WtM > WtR



Wt =
0 altrimenti

dove:
WM t = x0M t β + εM t = salario di mercato

WRt = x0Rt γ + εRt = salario di ”riserva”

Modello ”strutturale” del tipo visto per l’immigrazione


Qui si osserva WM t quando

WM t − WRt > 0

cioè quando:

0 M0
xM M R0 R M R R0
t β + εt − xt γ − εt > 0 ⇒ εt − εt > xt γ − xt β

quindi Wt = 0 non quando εM M0


t > −xt β (come risulterebbe dall’applicazione
del modello tobit), ma quando

M0
εM R R0
t − εt < xt γ − xt β

Utilizzando il modello tobit si ottengono quindi stime dei parametri inconsitenti.


176 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

Differenza tra il modello tobit e modello di regressione troncata


Nel modello di regressione troncata si hanno osservazioni tratte da una distribu-
zione troncata: si osservano le yt∗ solo se maggiori di zero (non si osservano nè la
variabile dipendente, nè i valori dei regressori nel caso in cui yt∗ < 0). Nel modello
tobit, non si osserva la variabile yt∗ se è negativa, ma si osserva il corrispondente
vettore xt di variabili esplicative.
Ad esempio, consideriamo l’esperimento dell’introduzione di una tassa sul red-
dito negativa (sussidio di povertà) per le famiglie a basso reddito nel New Jersey
(anni ’70). Tutte le famiglie con redditto al di sopra della soglia di povertà sono sta-
te pertanto eliminate dal campione. Se si usa lo stimatore OLS sul campione tron-
cato si possono ottenere risultati distorti e non consistenti. di questo possiamo dare
un’interpretazione intuitiva in termini grafici, riferendoci ad un MRL semplice. Si
veda la Figura 5.9 di seguito riportata.
[Figura 5.9 qui nel testo]
Occorre quindi far riferimento allo stimatore di massima verosimiglianza:
Dominio di yt : (−∞, L] ⇒ εt < L − x0t β

√ 1 exp − 1 2 (yt − x0 β)2



2πσ 2σ t
f (yt | xt ) =
L−x0t β
 
Φ σ

quindi:

T T
L − x0t β
 
T 2 1 X 0 2
X
ln L = − ln σ − 2 (yt − xt β) − ln Φ
2 2σ σ
t=1 t=1

Occorre anche in questo caso utilizzare un metodo di massimizzazione numerica.

5.4 Esercizi
1) Dato il seguente modello:

yt∗ = β1 + β2 Dt + εt , t = 1, 2, ..., 100,

yt = 1 se yt∗ > 0
yt = 0 in caso contrario

L’unico regressore, Dt è una variabile dummy con valori nulli o unitari. Scrivete
la funzione di verosimiglianza per il modello sotto le ipotesi che:
a) εt ∼Logistica
b) εt ∼ normale standard
5.4. ESERCIZI 177

Scrivete le condizioni del primo ordine per trovare lo stimatore di massima


verosimiglianza di β1 e β2 nei due casi.
2)Si supponga che un modello di probabilità lineare sia applicata ad una rela-
zione del tipo:

yt = β1 + βx2t + εt

0
dove yt = è una variabile dipendente dicotomica, e x2t è una variabile
1
esplicativa che varia nel continuo. L’ampiezza campionaria è pari a T. Come si
ottiene la stima OLS di questo modello nei termini della media e della varianza
di x2 ? Come possono essere interpretati i risultati? Scrivere la funzione di log-
verosimiglianza del modello di probabilità lineare in questo caso.
3) Le seguenti 20 osservazioni sono tratte da una distribuzione normale ”cen-
surata” (a valori negativi di y si sostituiscono valori nulli )
3.8396, 7.2040, 0, 0, 4.4132, 8.0230, 5.7971, 7.0828,
0, 0.80260, 13.0670, 4.3211, 0, 8.6801, 5.4571, 0, 8.1021,
0, 1.2526, 5.6016
Il modello applicabile è:

µ + εt se µ + εt > 0
yt∗ =
0 altrimenti

εt ∼ N (0, σ 2 )

a) formulate la log-verosimiglianza per questo modello tobit


b) ottenete lo stimatore di massima verosimiglianza di µ e σ 2 .
4) Data la seguente ipotesi comportamentale: l’individuo t − esimo decide
di lavorare (yt = 1) se il suo salario è superiore al salario di riserva (W R ). Si
supponga inoltre che:

W R = costante ∀t (salario di riserva uguale per tutti)


Wt = β1 + β2 x2t + β3 x3t + β4 Dt + εt
x2t = età,
x3t = anni di scuola,

1 se individuo è di sesso maschile
Dt = dummy per sesso =
0 altrimenti
εt ∼ N (0, 1)

Costruire un modello stimabile, ricavare la funzione di log-verosimiglianza e tro-


vare le condizioni del primo ordine per la stima di massima verosimiglianza dei
parametri incogniti. Come cambierebbero le conclusioni se se εt fosse distribuito
come una VC logistica?
178 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

5) Spiegare come sia possibile in relazione al modello


y = X β +ε
(T ×1) (T ×k)(k×1)

E(ε) = [0]

E(εε0 ) = σ 2 IT
generare un errore di previsione per yT +1 (conoscendo xT +1 e yT +1 )
6) Dato il MRL:
yt = β1 + β2 pt + β3 zt + β4 rt + εt
dove:
yt = stock di moneta in termini reali
pt = indice dei prezzi
zt = reddito reale
rt = tasso di interesse nominale a breve
Questa equazione è stimata per la Germania dal 1970 al 1994 sulla base di dati
trimestrali.
a) Se si ritiene che l’unificazione (4o trimestre del 1990) abbia influito sul-
l’intercetta del modello, come potrebbe essere corretta la specificazione per tenere
presente questo fenomeno?
b) Se invece si ritiene che tale evento abbia influenzato anche la sensitività della
domanda di moneta rispetto a variazioni del tasso d’interesse, come si modifiche-
rebbe il modello?
c) Come è possibile verificare quest’ultima ipotesi?
d) Come andrebbe verificata invece l’ipotesi che tutti i parametri della relazione
sono stati modificati da quell’evento?

5.5 Soluzioni
1) a) Se εt ∼ VC logistica, allora:

eεt 1
F (εt ) = =
1 + eεt 1 + e−εt
eεt
f (εt ) =
(1 + eεt )2

prob(yt∗ > 0) = prob(β1 + β2 Dt + εt > 0) =


= prob(εt > −β1 − β2 Dt ) = prob(εt > β1 + β2 Dt ) =
= F (β1 + β2 Dt )
(data la proprietà di simmetria della logistica)
5.5. SOLUZIONI 179

quindi abbiamo:

 
Y
p(y1 · · · yT | D1 · · · DT , β1 , β2 ) =  p(yt∗ > 0) ×
{yt =1}
 
Y
 p(yt∗ ≤ 0)
{yt =0}

e la verosimiglianza del campione è:

  
Y 1 Y 1
L=  
1 + exp(−β1 − β2 Dt ) 1 + exp(β1 + β2 Dt )
{yt =1} {yt =0}

X X
ln L = − ln [1 + exp(−β1 − β2 Dt )] − ln[(1 + exp(+β1 + β2 Dt )]
yt =1 yt =0

X T
X
ln L = (β1 + β2 Dt ) − ln(1 + exp(β1 + β2 Dt ))
yt =1 t=1

Le condizioni del primo ordine sono:


T
∂ ln L X exp(β1 + β2 Dt )
= 0 ⇒ T1 − =0
∂β1 1 + exp(β1 + β2 Dt )
t=1

∂ ln L
= 0 ⇒
∂β
T
X X exp(β1 + β2 Dt )
Dt − Dt = 0
1 + exp(β1 + β2 Dt )
yt =1 t=1

Si noti che T1 = numero di osservazioni in relazione alle quali yt = 1


b) Se εt ∼ N (0, 1), si ha:

p(yt = 1) = p(yt∗ > 0) = p(εt > −β1 − β2 Dt ) =


= p(εt < β1 + β2 Dt ) = Φ(β1 + β2 Dt )

  
Y Y
L= Φ(β1 + β2 Dt )  [1 − Φ(β1 + β2 Dt )]
{yt =1} {yt =0}
180 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

X X
ln L = ln Φ(β1 + β2 Dt ) + ln[1 − Φ(β1 + β2 Dt )]
yt =1 yt =0

e le condizioni del primo ordine sono:

∂ ln L X φ(β1 + β2 Dt ) X φ(β1 + β2 Dt )
=0⇒ − =0
∂β1 Φ(β1 + β2 Dt ) 1 − Φ(β1 + β2 Dt )
yt =1 yt =0

∂ ln L X φ(β1 + β2 Dt ) X φ(β1 + β2 Dt )
=0⇒ Dt − Dt =0
∂β 1 − Φ(β1 + β2 Dt ) 1 − Φ(β1 + β2 Dt )
yt =1 yt =0

Notate che:
∂Φ(β1 + β2 Dt ) ∂Φ(β1 + β2 Dt ) ∂(β1 + β2 Dt )
= · = Φ(β1 + β2 Dt )
∂β1 ∂(β1 + β2 Dt ) ∂β1

∂Φ(β1 + βDt ) ∂Φ(β1 + βdt ) ∂(β1 + βdt )


= · = Φ(β1 + βdt ) · dt
∂β ∂(β1 + βdt ) ∂β
e:
Φ(·) = funzione di ripartizione di una VC N (0, 1)
φ(·) = funzione di densità di una VC N (0, 1)
2) Consideriamo

βb1 = ȳ − β̂2 x̄2

T
1X
x̄2 = x2t
T
t=1
T
1X
ȳ = yt = p = percentuale di 1 nel campione
T
t=1

T
P 1 PT
(yt − ȳ)(x2t − x̄2 ) (yt − ȳ)(x2t − x̄2 )
t=1 T t=1
β̂2 = T
= T
=
P 2
1 P 2
(yt − ȳ) (yt − ȳ)
t=1 T t=1
1 PT 1 P T
yt x2t − x̄2 ȳ − x̄2 ȳ + x̄2 ȳ yt x2t − x̄2 ȳ
T t=1 T t=1
= = ,
Vb (x2 ) Vb (x2 )
Vb (x2 ) = varianza campionaria di x2
5.5. SOLUZIONI 181

Definendo T1 = numero di osservazioni con yt = 1, abbiamo:

T1 1 P T
yt x2t − x̄2 p
T T1 t=1
β̂2 = =
Vb (x2 )
= px̄12 − p px̄02 + (1 − p)x̄02 =
 

p(1 − p)(x̄12 − x̄02 )


=
V (x)

dove x̄12 è la media delle osservazioni di x2t in relazione alle quali yt = 1, e x̄02 è la
media delle osservazioni su x2t associate a yt = 0. Quindi β̂2 ha il numeratore che
dipende da quanto la media di x2 è diversa tra le osservazioni con yt = 1 e yt = 0:
se x̄12 = x̄02 allora β̂2 = 0. In questo caso allora il modello non spiegherebbe y
sulla base di x2 .
3)In relazione al nostro modello tobit, abbiamo:

yt = 0, εt ∈ (−∞, µ)
εt ∼ N (0, σ 2 )

a)quindi la verosimiglianza è:

 
T
 1 X  Y µ
− 21
L = (2πσ 2 ) exp − 2 (yt − µ)2 · Φ(− ) =
 2σ  σ
yt =1 yt =0
 
T1
 1 X  h µ iT0
= (2πσ 2 )− 2 exp − 2 (yt − µ)2 · Φ(− )
 2σ  σ
yt =1

T1 = numero di osservazioni per cui yt > 0 e T0 = T −T1 . La log verosimiglianza


è:

T1 1 X µ
ln L = − ln(2πσ 2 ) − 2 (yt − µ)2 − T0 ln Φ(− )
2 2σ σ
yt =1

e le condizioni del primo ordine sono:


µ
∂ ln L 1 X T0 φ(− σ )
=0⇒ 2 (yt − µ) + =0
∂µ σ σ Φ(− µ )
yt =1
σ

µ
∂ ln L T1 1 X φ(− )  µ 
=0⇒− 2 + 4 (yt − µ)2 − T0 σ − =0
∂σ 2 2σ 2σ µ 2σ 3
yt =1 Φ(− )
σ
182 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

E’ quindi necessario utilizzare un metodo numerico per la massimizzazione della


funzione di verosimiglianza
4) Il lavoratore partecipa se Wt > WR , quindi se yt∗ > 0

yt∗ = Wt − WR

yt∗ = (β1 − WR ) + β2 x2t + β3 x3t + β4 Dt + εt

yt∗ = β1∗ + β2 x2t + β3 x3t + β4 Dt + εt

β1∗ = (β1 − W R ) = intercetta del modello

p(yt = 1) = p(yt∗ > 0) = p(εt > −β1 − β2 x2t − β3 x3t − β4 Dt ) =


= Φ(zt )
con zt = β1 + β2 x2t + β3 x3t + β4 Dt = x0t β
(1×4)(4×1)

La funzione di verosimiglianza è:

  
Y Y
L =  p(yt = 1)  p(yt = 0) =
{yt =1} {yt =0}
  
Y Y
=  Φ(zt )  [1 − Φ(zt )] =
{yt =1} {yt =0}
0
zt = xt β

e la funzione di log-verosimiglianza è:


X X
→ ln L = ln Φ(zt ) + ln[1 − Φ(zt )]
yt =1 yt =0

mentre le condizioni del primo ordine sono:

∂ ln L X φ(zt ) X φ(zt )
=0 ⇒ + =0
∂β1 Φ(zt ) 1 − Φ(zt )
yt =1 yt =0

Si noti che:
∂Φ(zt ) ∂Φ(zt ) ∂zt
= · = Φ(zt )
∂β1 ∂zt ∂β1

∂ ln L X φ(zt ) X φ(zt )
=0 ⇒ xit + xit = 0, i = 2, 3, 4
∂βi Φ(zt ) 1 − Φ(zt )
yt =1 yt =0
5.5. SOLUZIONI 183

che deriva da:


∂Φ(zt ) ∂Φ(zt ) ∂zt
= · = φ(zt ) · xit
∂βi ∂zt ∂βi
In forma vettoriale abbiamo:

∂ ln L X φ(zt ) X φ(zt )
=0 ⇒ xt + xt = 0
∂β Φ(zt ) (4×1) 1 − Φ(zt ) (4×1)
yt =1 yt =0
(4×1)

dove:
P
significa sommatoria rispetto a tutte le osservazioni con yt = 1
yP
t =1
significa sommatoria rispetto a tutte le osservazioni con yt = 0
yt =0
Se εt ∼ logistica, abbiamo:

eεt
F (εt ) =
1 + eεt

eεt
f (εt ) =
(1 + eεt )2

1
1 − F (εt ) =
1 + eεt
La funzione di verosimiglianza è:
  
Y Y
L= F (zt )  [1 − F (zt )]
yt =1 yt =0

e la funzione di log-verosimiglianza è:

X X
ln L = [zt − ln(1 + ezt )] − ln(1 + ezt ) =
yt =1 yt =0

X T
X
= zt − ln(1 + ezt )
yt =1 t=1

Le condizioni del primo ordine per lo stimatore di massima verosimiglianza sono:

T
∂ ln L X X ezt
=0 ⇒ xt − ln · xt = [0]
∂β 1 + ezt
yt =1 t=1

dove zt = x0t β. Occorre utilizzare un metodo di massimizzazione numerica per


ricavare la stima di massima verosimiglianza.
184 CAPITOLO 5. VARIABILI DI COMODO E VARIABILI TRONCATE

5) Si scrive  
y1
 .. 

y =
 . 

(T +1)×1  yT 
yT +1
e si aggiunge un regressore dt =0 ∀t ∈ [1, T ] e = 1 per t = T + 1 e si aggiunge
l’osservazione T + 1 sulle x.

y∗ = X∗ β∗ +ε∗
(T +1)×(k+1)(k+1)×1
 
∗ β
β =
γ
β = vettore k × 1 parametri modello di partenza
γ = parametro sulla variabile dummy puntuale.
Si stima allora β ∗ con OLS:

∗ 0 0
β̂OLS = (X∗ X∗ )−1 X∗ y∗
0 0
ottenendo una stima che coincide con β̂OLS = (X X)−1 X y per i primi k elementi
di β, mentre γ̂ è:

γ̂ = yT +1 − ŷT +1
dove:
ŷT +1 = x0T +1 β̂OLS

La stima della varianza dell’errore di previsione è:

Vb (γ̂) = σ̂ 2 qk+1,k+1 ,
qk+1,k+1 = elemento sulla riga k+1, colonna k+1 di Q
0
Q = (X∗ X∗ )−1

6) a) Costruiamo il seguente MRL:

yt = β1 + β2 pt + β3 zt + β4 rt + β5 Dt + εt
dove:
0 fino al 3o trimestre 1990

Dt =
1 oltre
Si stima il MRL con OLS e si verifica la significatività del coefficiente β5 utilizzando
il test t:

βb5
t β5 = q ∼ t95
H0
Vb (βb5 )
5.5. SOLUZIONI 185

dato che T = 100 (osservazioni trimestrali dal 1970:1 al 1994:4), k = 5.


b) Si stima

yt = β1 + β2 pt + β3 zt + β4 rt + β5 Dt + β6 (Dt rt ) + εt
con OLS (la variabile Dt è definita come al punto (a))
c) Si verifica l’ipotesi congiunta:

β5 = 0
H0 :
β6 = 0
contro

β5 6= 0
H1 :
e/o β6 6= 0
con un test LM, di W ald o LR, che hanno una distribuzione sotto H0 χ22 o F2,95 .
d) Si specifica il seguente MRL:

yt = β1 + β2 pt + β3 zt + β4 rt + β5 Dt +
+β6 (Dt pt ) + β7 (Dt zt ) + β8 (Dt rt ) + εt

Si stima il modello con OLS e si verifica l’ipotesi:

H0 : β5 = β6 = β7 = β8 = 0
contro
H1 : β5 6= 0 e/o β6 6= 0 e/o β7 6= 0 e/o β8 6= 0

con test LM, di W ald o LR. La distribuzione di riferimento è χ24 per i test in
forma χ2 e F4,92 per il test di W ald in forma F .

Potrebbero piacerti anche