Sei sulla pagina 1di 102

Econometria

Corso CLEC – Prof. Castagnetti – A.A. 2016/17


Luca Biglieri

1. Introduzione
L'econometria è la disciplina che si occupa della misurazione economica in vari ambiti, dalla finanza alla politica
economica, passando per le decisioni nei contesti aziendali.
Utilizzando una definizione più ampia, si può definire l'econometria come la scienza sociale in cui gli strumenti
dell'economia teorica, della matematica e dell'inferenza statistica sono applicati ai fenomeni economici.
All'atto pratico, si può dire che l'econometria è utile quando si vuole vagliare la consistenza di una teoria, quando si
vuole elaborare una valutazione quantitativa dell'efficacia delle manovre di politica economica o quando si vuole
quantificare una relazione tra diverse variabili in vista di una decisione di impresa.

Un esempio di applicazione dell'econometria riguarda il Capital Asset Pricing Model (CAPM), un modello che viene
utilizzato per stimare la differenza tra il rendimento atteso di un'attività rischiosa e il rendimento di un'attività priva di
rischi (come può essere, ad esempio, un bond statunitense). Il modello si presenta come segue:

𝐸 𝑟# − 𝑟% = 𝛽 𝐸 𝑟# − 𝐸 𝑟(

La differenza tra il rendimento atteso dell'attività rischiosa e il rendimento dell'attività risk-free viene quindi definito
come una funzione della differenza tra il rendimento atteso dell'attività rischiosa e il rendimento atteso del mercato (un
indice globale).
Il compito dell'econometria riguarderà la stima del coefficiente 𝛽, tramite il quale si può stimare l'extra-rendimento
dell'attività rischiosa: l'econometria andrà quindi a stimare questo coefficiente per verificare la validità della teoria o, se
necessario, ad aggiungere al modello ulteriori variabili significative.

Un altro esempio relativo al campo delle politiche pubbliche riguarda l'introduzione di un provvedimento volto a ridurre
il fumo, come ad esempio un'accisa sulle sigarette: l'econometria si occuperà di calcolare l'elasticità al prezzo della
domanda di sigarette per stimare l'incidenza dell'imposta.
In un contesto del genere, si aprirebbe però un problema di causalità: occorre infatti che la relazione studiata sia
unidirezionale (in questo caso, che il prezzo influenzi la domanda, e non viceversa), mentre in questo problema si può
porre un problema di causalità circolare (le lobby dei fumatori possono portare a una riduzione del prezzo, ovvero si
avrebbe che la domanda influenza il prezzo e che il prezzo non è da considerare come una variabile indipendente).

Un ulteriore esempio può riguardare una proposta di riduzione delle dimensioni delle classi elementari con il fine di
migliorare il rendimento scolastico.
Per quanto l'assunto di base possa essere vero (più una classe è piccola più il rendimento degli studenti migliora), una
proposta del genere comporterebbe, se attuata, dei notevoli costi per il personale e le strutture: bisogna misurare i
benefici di tale politica per confrontarli con i costi. Inoltre, bisogna ricordare che il rendimento scolastico non dipende
solamente dalla dimensione della classe: si devono quindi controllare (mantenere costanti, ceteris paribus) le altre
variabili per poi procedere a misurare la relazione considerata.

Ragionando sui dati che vengono analizzati, occorre ricordare che l'econometria analizza dati economici, che per
definizione sono non sperimentali (non prodotti in laboratorio), ma osservazionali. Operando con questo tipo di dati,
bisogna procedere tramite la procedura dell'esperimento controllato casualizzato: si devono formare un gruppo di
controllo, le cui caratteristiche non mutano nel corso dell'esperimento, e un gruppo di trattamento, in cui degli individui
presi a caso dalla popolazione vengono resi oggetto di un cambiamento. In questo modo, esaminando i cambiamenti
riportati sul secondo gruppo e confrontandoli con le caratteristiche degli elementi del primo, si possono analizzare i
risultati dell'esperimento.

L'utilizzo di dati non sperimentali, inoltre, fa sì che l'econometria debba affrontare anche i problemi che sorgono nelle
stime di effetti causali avendo a disposizione dati di questo tipo: tali problemi comprendono, ad esempio, i fattori

1

Luca Biglieri

omessi e i fenomeni di causalità simultanea, ma anche la confusione che si può generare tra correlazione e causalità
(due concetti che non coincidono).
Un esempio dei problemi che possono sorgere in questo senso è rappresentato da una ricerca di Gary Becker, Nobel per
l'economia che sviluppò un modello di massimizzazione dell'utilità relativo alla scelta individuale di dedicarsi a
un'attività criminale: partendo dal presupposto secondo cui il crimine porta ricavi economici ma comporta vari costi (dal
costo-opportunità dell'attività onesta non svolta al possibile costo derivante da un arresto o da una condanna), la
decisione di ogni individuo che decide di intraprendere una carriera criminale dipende da costi e benefici. Si può quindi
impostare un modello di questo tipo:

𝑦 = 𝑓 𝑥, , 𝑥. , … , 𝑥0

Dove 𝑦 rappresenta il numero di ore spese da un individuo per svolgere attività criminali, mentre le 𝑥 indicano fattori
quali i guadagni derivanti da tali attività, i guadagni derivanti da attività legali (costo-opportunità), la probabilità di
essere arrestati, l'età, la condanna attesa, eccetera.
Tramite l'econometrica, si possono stimare gli impatti delle 𝑥 su 𝑦 e la stima diventa ancora più efficace se si esaminano
i dati aggregati, considerando ad esempio il numero dei delitti invece delle ore spese in attività illegali. Inoltre, potrebbe
essere conveniente escludere dal modello alcune variabili difficili da osservare, come ad esempio il "salario" corrisposto
a chi svolge attività criminali.
In modo più preciso, si potrà arrivare dunque a descrivere il modello come segue:

𝑦 = 𝛽, + 𝛽. 𝑤𝑎𝑔𝑒 + 𝛽6 𝑜𝑡ℎ𝑖𝑛𝑐 + 𝛽= 𝑓𝑟𝑒𝑞𝑎𝑟𝑟 + 𝛽? 𝑓𝑟𝑒𝑞𝑐𝑜𝑛𝑣 + 𝛽A 𝑎𝑣𝑔𝑠𝑒𝑛 + 𝛽C 𝑎𝑔𝑒 + 𝜀

Dove le variabili sopra elencate vengono riportate unitamente a vari parametri econometrici che descrivono la direzione
e l'intensità delle relazioni tra queste variabili e la 𝑦; si nota, in fondo, anche la presenza di un termine residuale di
errore, che rappresenta l'influenza dei fattori non osservati e che non potrà mai essere eliminato completamente.

Per quanto riguarda i dati utilizzati per l'analisi econometrica, si può distinguere tra:

- Serie storiche, dati per una singola unità raccolti in periodi diversi;
- Cross-section, dati per diverse unità in uno stesso periodo;
- Panel, o dati longitudinali, dati per diverse unità in diversi periodi.

2

Luca Biglieri

2. Richiami di Statistica
2.1 Problema Empirico

2.1.1 Presentazione del Problema e del Procedimento

Si possono utilizzare gli strumenti della statistica inferenziale per risolvere un problema empirico, quale può essere, ad
esempio, la determinazione degli effetti della riduzione del numero degli studenti nelle classi sul rendimento scolastico
degli studenti stessi.

Poniamo quindi di considerare una popolazione di 𝑛 = 420 distretti scolastici, per ciascuno dei quali vengono raccolti
dati significativi per due variabili, ovvero il punteggio medio in un test e il rapporto medio tra studenti e insegnanti nelle
classi (𝑆𝑇𝑅, Students-Teachers Ratio).
Dall'analisi separata di tali variabili, si può ricavare la tabella che segue:

Questa sintesi, tuttavia, non permette di mostrare alcun tipo di relazione tra le variabili considerate, che sono infatti
ordinate indipendentemente, ma si limita a calcolare alcuni indici fondamentali (media, deviazione standard, percentili
e mediana) per ciascuna di esse.
Allo stesso modo, neanche una rappresentazione in forma di nuvola di punti permette di mostrare una relazione tra le
due variabili:

Per ottenere una rappresentazione valida della relazione tra le variabili considerate, occorrerà quindi procedere in
modo diverso:

- Innanzitutto, bisogna confrontare i punteggi medi nei test in distretti con diverso STR, calcolando quindi il
punteggio medio per i distretti con rapporto studenti/insegnanti basso e quello per i distretti con un rapporto
alto: occorre quindi fare una stima operando su due campioni diversi estratti dalla popolazione di riferimento.

3

Luca Biglieri

- In seguito, si può fare un test di ipotesi, ovvero un test statistico volto a verificare l'ipotesi nulla che il punteggio
medio nei due campioni considerati sia uguale (ipotesi che può essere scritta come 𝐻L : ∆ = 0, dove ∆
rappresenta la differenza tra i punteggi medi registrati nei due campioni).

- Infine, si può stimare un intervallo di confidenza per la differenza tra i punteggi medi nei due campioni, ovvero
una regione di valori che contiene, con una data probabilità (livello di confidenza) il valore della variabile per la
popolazione, che in questo caso corrisponde alla differenza tra le medie (∆).

2.1.2 Stima

L'analisi della media e della deviazione standard riferita ai due diversi campioni (in cui le classi dei distretti con 𝑆𝑇𝑅 <
20 sono considerate "piccole" e quelle dei distretti con 𝑆𝑇𝑅 ≥ 20 sono definite "grande") fornisce i seguenti risultati:

Definendo la variabile ∆ come la differenza tra i punteggi medi ai test nei due diversi campioni e sapendo che la media
, 0
per un campione sarà rappresentabile come 𝑌 = ∙ #T, 𝑌# , dove 𝑛 indica la dimensione del campione, potremo
0
affermare che:
0_`aabcd 0efghi`
1 1
∆ = 𝑌U#VVWXY − 𝑌Z[\0]# = ∙ 𝑌# − ∙ 𝑌#
𝑛U#VVWXY 𝑛Z[\0]#
#T, #T,

Osservando i dati della tabella, si nota come ∆ = 7,4: occorre capire se questo valore possa risultare significativo,
associandolo a una misura dell'errore.

2.1.3 Test di Differenza tra le Medie

Passando alla verifica dell'ipotesi nulla 𝐻L : ∆ = 0, impostiamo la statistica test 𝑡 relativa alla differenza tra le medie
come segue:

𝑌U#VVWXY − 𝑌Z[\0]# 𝑌U#VVWXY − 𝑌Z[\0]#


𝑡= =
. . 𝑠. 𝑒. (𝑌U#VVWXY − 𝑌Z[\0]# )
𝑆U#VVWXY 𝑆Z[\0]#
+
𝑛U#VVWXY 𝑛Z[\0]#

Al denominatore, troviamo l'errore standard della differenza tra le medie (ovvero del termine al numeratore), espressa
come somma della stima della varianza campionaria di ciascuno dei due campioni; si nota come, con un
campionamento casuale e variabili indipendenti, non serve inserire in questo termine anche la covarianza, che risulta
infatti nulla.

La varianza campionaria può essere espressa come:


0
.
1
𝑆 = ∙ 𝑌# − 𝑌 .
𝑛−1
#T,

4

Luca Biglieri

Il termine 𝑛 − 1 al denominatore della frazione indica i gradi di libertà: dal momento che la varianza campionaria
contiene 𝑌, la media campionaria, che è una stima della media della popolazione (𝜇o ), viene rimosso un grado di libertà.

Approfondimento: Varianza campionaria come stimatore corretto (non distorto) della varianza della
popolazione.

Prendendo un campione, lo si può utilizzare per stimare dei parametri della popolazione da cui esso è stato
estratto. Il campione, tuttavia, è solo uno dei tanti possibili: per avere una stima corretta, si deve introdurre
uno stimatore, ovvero una variabile calcolata per molti campioni diversi e che, in media, risulti corretta.

Uno stimatore, dunque, viene definito non distorto quando il suo valore atteso equivale al valore della
variabile da stimare; di seguito, dimostriamo come si può arrivare a dire che la varianza campionaria 𝑆 . può
essere definita uno stimatore non distorto della varianza della popolazione, 𝜎 . = 𝐸 𝑌 − 𝐸 𝑌 . , ovvero
come si può dimostrare che 𝐸 𝑆 . = 𝜎 . .

Partendo dalla definizione di varianza campionaria, esprimiamo il suo valore atteso:


0
.
1 .
𝐸 𝑆 =𝐸 ∙ 𝑌# − 𝑌
𝑛−1
#T,

Sapendo che la frazione e la sommatoria possono anche essere portati fuori dal calcolo del valore atteso, in
quanto non sono riferiti direttamente alla variabile, passiamo a studiare nel dettaglio 𝐸 𝑌# − 𝑌 . .
Sommando e sottraendo all'interno della parentesi la media della popolazione, si ottiene:
. .
𝐸 𝑌# − 𝑌 = 𝐸 𝑌# − 𝜇 − 𝑌 − 𝜇

Svolgiamo il quadrato del binomio nella parentesi:


. . .
𝐸 𝑌# − 𝑌 = 𝐸 𝑌# − 𝜇 + 𝑌−𝜇 − 2 𝑌# − 𝜇 𝑌 − 𝜇

A questo punto, sfruttiamo una delle proprietà del valore atteso e scomponiamo il termine in parentesi in
tre valori attesi diversi ("il valore atteso della somma è uguale alla somma dei valori attesi"):
. . .
𝐸 𝑌# − 𝑌 = 𝐸 𝑌# − 𝜇 +𝐸 𝑌−𝜇 − 2 ∙ 𝐸 𝑌# − 𝜇 𝑌 − 𝜇

Riconoscendo in queste scritture le formule della varianza e della covarianza, avremo dunque che:

𝐸 𝑌# − 𝑌 .
= 𝜎o. + 𝜎o. − 2𝜎o` ,o

Il valore atteso del quadrato della differenza tra la variabile e la media campionaria sarà quindi pari alla
somma della varianza della variabile e della varianza della media campionaria, a cui va sottratto il doppio
della covarianza tra variabile e media campionaria.

A questo punto, esplicitiamo la scrittura della covarianza, partendo dalla sua formula di base:

𝜎o` ,o = 𝐸 𝑌# − 𝜇 𝑌 − 𝜇

Esplicitiamo in questa scrittura la media campionaria:


0
qT, 𝑌q
𝜎o` ,o = 𝐸 𝑌# − 𝜇 −𝜇
𝑛

5

Luca Biglieri

A questo punto, notiamo che, per 𝑖 = 𝑗, i due termini nelle parentesi tonde risulteranno uguali e si avrà che
, .
𝜎o` ,o = ∙ 𝐸 𝑌# − 𝜇 ; per 𝑖 ≠ 𝑗, invece, le due scritture saranno diverse.
0
Nel complesso, tenendo conto sia dei casi in cui i due indici sono uguali che di quelli in cui sono diversi,
avremo che:
0
1 .
1
𝜎o` ,o = ∙ 𝐸 𝑌# − 𝜇 + ∙ 𝐸 𝑌# − 𝜇 𝑌q − 𝜇
𝑛 𝑛
#tq

Riconoscendo le formule di varianza e covarianza, si potrà scrivere:


0
1 1
𝜎o` ,o = ∙ 𝜎o. + ∙ 𝜎o` ,ou
𝑛 𝑛
#tq

A questo punto, se supponiamo di estrarre campioni casuali e indipendenti, potremo dire che la covarianza
tra le due variabili 𝑌# , 𝑌q sarà nulla; ridurremo quindi la scrittura precedente come segue:

1 .
𝜎o` ,o = ∙𝜎
𝑛 o

Ora, torniamo all'inizio della dimostrazione e alla scrittura di 𝐸 𝑆 . : con i passaggi effettuati finora,
potremo sostituire all'interno della parentesi quadra il termine 𝐸 𝑌# − 𝑌 . , tenendo anche conto di come
abbiamo definito la covarianza.
0 0
.
1 .
1
𝐸 𝑆 =𝐸 ∙ 𝑌# − 𝑌 = ∙ 𝐸 𝑌# − 𝑌 .
𝑛−1 𝑛−1
#T, #T,

0
1
𝐸 𝑆 .
= ∙ 𝜎o. + 𝜎o. − 2𝜎o` ,o
𝑛−1
#T,

0
1 1 . 1
𝐸 𝑆 .
= ∙ 𝜎o. + ∙ 𝜎o − 2 ∙ 𝜎o.
𝑛−1 𝑛 𝑛
#T,

Nel passaggio precedente, abbiamo anche sostituito alla varianza della media campionaria, 𝜎o. , il termine
,
∙ 𝜎o. : dimostreremo nel prossimo approfondimento come è possibile arrivare a questa conclusione.
0

Svolgendo la sommatoria, si ottiene:

1 1 1 1
𝐸 𝑆. = ∙ 𝑛𝜎o. + 𝑛 ∙ 𝜎o. − 2𝑛 ∙ 𝜎o. = ∙ 𝑛𝜎o. + 𝜎o. − 2𝜎o.
𝑛−1 𝑛 𝑛 𝑛−1
1
𝐸 𝑆. = ∙ 𝑛 − 1 𝜎o.
𝑛−1

𝐸 𝑆 . = 𝜎o.

Si è così dimostrato che la varianza campionaria può essere considerata uno stimatore non distorto della
varianza della popolazione.

6

Luca Biglieri

vwx
Approfondimento: Dimostrazione del valore della varianza della media campionaria, 𝜎o. = .
0

Per arrivare a dimostrare la scrittura sopra citata per la varianza della media campionaria, iniziamo ad
esplicitarne la formula all'interno del calcolo della sua varianza:
0
1
𝑉𝑎𝑟 𝑌 = 𝑉𝑎𝑟 ∙ 𝑌#
𝑛
#T,

Portiamo il termine frazionario al di fuori della varianza, elevandolo al quadrato:


0
1
𝑉𝑎𝑟 𝑌 = . ∙ 𝑉𝑎𝑟 𝑌#
𝑛
#T,

A questo punto, svolgiamo la sommatoria per comprendere come trattare il termine tra parentesi a cui
applicare la varianza:

1
𝑉𝑎𝑟 𝑌 = ∙ 𝑉𝑎𝑟 𝑌, + 𝑌. + ⋯ + 𝑌0
𝑛.

La varianza della somma di variabili tra parentesi sarà pari alla somma delle varianze, a cui vanno sommate
le covarianze incrociate moltiplicate per due di tutte le variabili; ponendo che 𝑉𝑎𝑟 𝑌, = 𝑉𝑎𝑟 𝑌. = ⋯ =
𝑉𝑎𝑟 𝑌0 = 𝜎o. , si ha che:

1
𝑉𝑎𝑟 𝑌 = ∙ 𝜎o. + 𝜎o. + ⋯ + 𝜎o. + 2𝐶𝑜𝑣 𝑌, , 𝑌. + ⋯ + 2𝐶𝑜𝑣 𝑌0|, , 𝑌0
𝑛.
1
𝑉𝑎𝑟 𝑌 = ∙ 𝑛 ∙ 𝜎o. + 2𝐶𝑜𝑣 𝑌, , 𝑌. + ⋯ + 2𝐶𝑜𝑣 𝑌0|, , 𝑌0
𝑛.

Supponendo di estrarre campioni casuali e indipendenti, tutte le covarianze potranno essere considerate
nulle. Avremo quindi:

1
𝑉𝑎𝑟 𝑌 = ∙ 𝑛 ∙ 𝜎o.
𝑛.

𝜎o.
𝑉𝑎𝑟 𝑌 =
𝑛

Tornando alla statistica test e inserendo i dati dalla tabella, si ricava che:

𝑌U#VVWXY − 𝑌Z[\0]# 657,4 − 650 7,4


𝑡= = = = 4,05
. . 19,4 17,9 1,83
𝑆U#VVWXY 𝑆Z[\0]# +
+ 238 182
𝑛U#VVWXY 𝑛Z[\0]#

Ponendo un livello di significatività del 5% per l'ipotesi nulla e facendo riferimento alla distribuzione normale standard
(𝑡~𝑁 (0,1)), osserviamo che, in tale distribuzione, −1,96 e 1,96 sono i valori che lasciano nelle code della distribuzione
il 5% della probabilità: dal momento che 𝑡 = 4,05 > 1,96, possiamo dire che è improbabile che la variabile assuma
questo valore, pertanto si rifiuta l'ipotesi nulla che le medie dei punteggi nei due diversi campioni coincidano.

7

Luca Biglieri

2.1.3 Intervallo di Confidenza

Possiamo infine rappresentare un intervallo di confidenza che, in base ai dati osservati, indichi l'intervallo di valori in cui
è probabile che ricada il valore della variabile ∆; la probabilità desiderata, nel nostro caso, è del 95%, pertanto
imposteremo l'intervallo come segue:

𝑌U#VVWXY − 𝑌Z[\0]# ± 1,96 ∙ 𝑆𝐸 𝑌U#VVWXY − 𝑌Z[\0]#

7,4 ± 1,96 ∙ 1,83

L'intervallo di confidenza con probabilità 95% è quindi (3,8132; 10,9868): il valore nullo, ∆ = 0 non è compreso,
pertanto, con un livello di significatività del 5%, l'ipotesi nulla che la differenza tra i punteggi medi sia uguale a zero può
essere rifiutata.

2.2 Elementi di Probabilità

2.2.1 Popolazione, Variabile Casuale, Distribuzione

La popolazione è l'insieme di tutte le possibili unità di interesse; nell'esempio considerato al paragrafo precedente, la
popolazione era composta da tutti i distretti scolastici.
L'ampiezza di una popolazione si indica con la lettera 𝑁 e solitamente si considerano popolazioni infinitamente grandi
(approssimando, potremo dire che 𝑁 → ∞).

Uno spazio campionario è l'insieme di tutti i possibili risultati di un esperimento casuale.


Un evento è definito come un sottoinsieme di uno spazio campionario.

Una variabile casuale è la rappresentazione numerica di un risultato casuale; nell'esempio del paragrafo precedente,
abbiamo osservato due variabili casuali, ovvero il rapporto studenti-insegnanti e il punteggio medio al test.

La distribuzione di probabilità indica le probabilità dei diversi valori di una variabile casuale discreta che si verificano in
una popolazione (ad esempio, 𝑃𝑟[𝑌 = 650]), oppure le probabilità di un insieme dei valori di una variabile casuale
continua (ad esempio, 𝑃𝑟[640 ≤ 𝑌 ≤ 660]).
Nel contesto di una distribuzione di probabilità, si potrà identificare anche la funzione di ripartizione, che indica, per
una variabile casuale, la probabilità che essa assuma un valore inferiore rispetto a una certa soglia (ad esempio, 𝑃𝑟[𝑌 ≤
650]).

2.2.2 Momenti di una Distribuzione, Correlazione

La media di una variabile casuale è il suo valore atteso, ovvero la sua aspettativa, su ripetute realizzazioni della variabile
stessa: 𝐸 𝑌 = 𝜇o .

La varianza è una misura della dispersione quadratica della distribuzione di una variabile casuale rispetto alla sua media:
𝐸 𝑌 − 𝜇o . = 𝜎o. .

La deviazione standard è pari alla radice quadrata della varianza: 𝜎o = 𝜎o. .

8

Luca Biglieri

Il momento 𝑟-esimo non centrato della distribuzione di una variabile casuale è rappresentato dalla formula 𝐸 𝑌 [ : la
media, 𝐸[𝑌], rappresenta il momento primo non centrato della distribuzione della variabile (𝑟 = 1), mentre la varianza,
𝐸 𝑌 − 𝜇o . , rappresenta il momento secondo centrato della distribuzione della variabile.

L'asimmetria di una distribuzione di una variabile casuale si può rappresentare come il rapporto tra il momento terzo
Ž o|•w •
centrato della distribuzione e la deviazione standard elevata alla terza: .
vw•
Se una distribuzione presenta un valore di asimmetria nullo, essa sarà simmetrica; un valore positivo indicherà invece
una distribuzione con una "coda" destra lunga, mentre un valore negativo indicherà una distribuzione con una "coda"
sinistra lunga.

La curtosi di una distribuzione di una variabile casuale è rappresentata dal rapporto tra il momento quarto centrato
Ž o|•w ‘
della distribuzione e la deviazione standard elevata alla quarta: .
vw‘
La curtosi permette di misurare la massa nelle code della distribuzione e, di conseguenza, la presenza di eventuali
outlier: se la curtosi assume un valore pari a 3, si ha una distribuzione normale; se la curtosi è maggiore di 3, si ha una
distribuzione leptocurtica, ovvero in cui le code risultano particolarmente "pesanti".

Supponendo che due variabili casuali (𝑋, 𝑍) abbiano una distribuzione congiunta, si può definire la covarianza di queste
due variabili come una misura della loro associazione lineare; le unità di 𝐶𝑜𝑣 𝑋, 𝑍 = 𝜎”,• sono le unità di 𝑋 per le unità
di 𝑍.
Si definisce la covarianza come 𝜎”,• = 𝐸 𝑋 − 𝜇” 𝑍 − 𝜇• ; una covarianza nulla indica che le due variabili sono
indipendentemente distribuite (ma non necessariamente viceversa), mentre un valore di covarianza positivo indica una
relazione positiva tra le due variabili e un valore negativo indica una relazione negativa tra di esse.
Si può notare come la covarianza di una variabile con sé stessa sia uguale alla varianza di tale variabile: 𝜎”,” =
𝐸 𝑋 − 𝜇” 𝑋 − 𝜇” = 𝐸 𝑋 − 𝜇” .
= 𝜎”. .

Il coefficiente di correlazione tra due variabili casuali (𝑋, 𝑍) viene calcolato a partire dalla covarianza e rappresenta una
v—,˜
misura di associazione lineare: 𝜌”,• = 𝐶𝑜𝑟𝑟 𝑋, 𝑍 = .
v— v˜

9

Luca Biglieri

Questo coefficiente non risente dell'unità di misura delle due variabili e assume unicamente i valori compresi tra −1 e
+1 (−1 ≤ 𝜌 ≤ +1); un valore nullo indica l'assenza di associazione lineare tra le due variabili, un valore pari a +1 indica
un'associazione lineare positiva perfetta e un valore pari a −1 indica un'associazione lineare negativa perfetta.

Dalla figura si nota come un coefficiente di correlazione nullo possa indicare non solo l'assenza di una relazione tra le
due variabili (figura c), ma anche la presenza di un tipo di associazione diversa da quella lineare (come quella quadratica,
figura d).
Nel caso di correlazione lineare, inoltre, occorre ricordare che la pendenza della retta che approssima la relazione tra le
variabili non influenza in alcun modo il coefficiente di correlazione.

Parlando di correlazione, bisogna poi ricordare che correlazione non significa causalità: la causalità va determinata in
condizioni in cui tutte le altre variabili restano fisse (ceteris paribus), non solo tramite l'analisi della correlazione tra
quelle prese in esame.
Si possono verificare casi in cui, ad esempio, si ha un legame di causalità tra le due variabili considerate (𝑋 → 𝑌), oppure
anche il legame opposto (𝑌 → 𝑋); questo avviene con i salari e il numero di ore lavorate: si può ritenere che l'aumento
dei salari porti all'aumento delle ore lavorate, oppure che l'aumento delle ore lavorate porti gli individui ad avere salari
più alti.
In altri casi, si può avere che 𝑋 → 𝑌 e, contemporaneamente, che 𝑌 → 𝑋, come avviene per l'inflazione e l'offerta di
moneta: le variazioni della prima portano a variazioni della seconda variabile, e viceversa.
Oppure, si possono verificare casi in cui è una terza variabile a provocare il mutamento delle due considerate (𝑍 →
𝑋, 𝑍 → 𝑌) e in cui manchi, pertanto, un legame di causalità diretto del tipo 𝑋 → 𝑌: un caso di questo genere può essere
rappresentato dal legame tra il rendimento scolastico (𝑋), la frequentazione di scuole private (𝑌) e il reddito (𝑍).
In tutti i casi presentati sopra, si può dire che sarà certamente possibile esaminare la correlazione tra le variabili in
esame, ma che non sarà possibile fare affermazioni riguardo ai legami di causalità che intercorrono tra esse perché non
vale l'ipotesi fondamentale di ceteris paribus.

Un altro problema riguardante la correlazione riguarda l'aggregazione dei dati: la correlazione tra dati aggregati e dati
individuali, infatti, può essere diversa e può portare a commettere errori; facendo riferimento all'esempio del paragrafo
precedente, i dati relativi ai distretti non possono essere utilizzati per fare delle previsioni sulla performance nei test
10

Luca Biglieri

scolastici di un singolo individuo.
A questo proposito, è bene ricordare che la correlazione su dati aggregati risulta sempre maggiore rispetto a quella su
dati individuali e che il segno delle correlazioni su dati aggregati e individuali può anche variare.
L'approccio per il quale si utilizzano, nelle analisi di correlazione, i dati aggregati invece di quelli individuali viene detto
ecological correlation.

2.2.3 Distribuzione Condizionata, Valore Atteso e Varianza

La distribuzione condizionata di una variabile casuale 𝑌 rispetto a un'altra variabile casuale 𝑋 rappresenta la
distribuzione della prima variabile dato il valore (o i valori) assunti dalla seconda, che quindi viene considerata fissa,
determinata e non più stocastica.
Si può esprimere la probabilità condizionata come segue:

Pr 𝑌 = 𝑦, 𝑋 = 𝑥
Pr 𝑌 = 𝑦 𝑋 = 𝑥 =
Pr[𝑋 = 𝑥]

Dove la probabilità al denominatore rappresenta la probabilità marginale per 𝑋 = 𝑥.

Il valore atteso condizionato o media condizionata si esprime come 𝐸 𝑌 𝑋 = 𝑥 .


Per una variabile casuale discreta, si ha:
0

𝐸 𝑌𝑋=𝑥 = 𝑦# ∙ Pr [𝑌 = 𝑦# |𝑋 = 𝑥]
#T,

Per una variabile casuale continua, si ha:
•ž
𝐸 𝑌𝑋=𝑥 = 𝑦 ∙ 𝑓o|” (𝑦|𝑥) 𝑑𝑦

La varianza condizionata, per una variabile casuale discreta, si esprime come:


0
.
𝑉𝑎𝑟 𝑌 𝑋 = 𝑥 = 𝑌# − 𝐸 𝑌 𝑋 = 𝑥 ∙ Pr 𝑌 = 𝑦# 𝑋 = 𝑥
#T,

Nell'esempio considerato ai paragrafi precedenti, in cui le variabili casuali considerate erano il punteggio medio ai test e
il rapporto studenti/docenti, si possono impostare i valori attesi condizionati 𝐸[𝑃𝑢𝑛𝑡𝑒𝑔𝑔𝑖𝑜 𝑡𝑒𝑠𝑡|𝑆𝑇𝑅 < 20] per le classi
piccole e 𝐸[𝑃𝑢𝑛𝑡𝑒𝑔𝑔𝑖𝑜 𝑡𝑒𝑠𝑡|𝑆𝑇𝑅 ≥ 20].
La variabile identificata come ∆, ovvero la differenza tra i punteggi medi nei due gruppi di classi, può quindi essere
intesa come una differenza tra due medie condizionate; la media condizionata, in effetti, viene spesso utilizzata per
impostare le medie di gruppo, ovvero per misurare il valore atteso di una variabile in due campioni che differiscono per
una certa caratteristica.

Una proprietà del valore atteso condizionato prevede che, se 𝐸 𝑋 𝑍 è costante (ovvero se 𝑋 non dipende da 𝑍), allora
si ha che 𝐶𝑜𝑣 𝑋, 𝑍 = 𝐶𝑜𝑟𝑟 𝑋, 𝑍 = 0 (ma non viceversa).
La condizione 𝐸 𝑋 𝑍 = 𝑘, dunque, può essere considerata sufficiente per affermare che 𝐶𝑜𝑣 𝑋, 𝑍 = 𝐶𝑜𝑟𝑟 𝑋, 𝑍 = 0,
mentre la condizione 𝐶𝑜𝑣 𝑋, 𝑍 = 𝐶𝑜𝑟𝑟 𝑋, 𝑍 = 0 è da considerarsi necessaria perché 𝐸 𝑋 𝑍 = 𝑘: se la covarianza tra
11

Luca Biglieri

le due variabili casuali non è nulla, il valore atteso condizionato non potrà essere costante.
Vedremo la dimostrazione della proprietà 𝐸 𝑋 𝑍 = 𝑘 => 𝐶𝑜𝑣 𝑋, 𝑍 = 𝐶𝑜𝑟𝑟 𝑋, 𝑍 = 0 nel prossimo paragrafo,
dopo aver esposto la legge dei valori attesi iterati.

2.2.4 Legge dei Valori Attesi Iterati

La legge dei valori attesi iterati afferma che, date due variabili casuali continue 𝑋, 𝑌, se il valore atteso di 𝑌 è finito
(𝐸 𝑌 < ∞), allora si avrà che 𝐸 𝑌 = 𝐸” 𝐸 𝑌 𝑋 : il valore atteso di 𝑌 sarà uguale al valore atteso rispetto a 𝑋 del
valore atteso di 𝑌 condizionato rispetto a 𝑋.

Di seguito, la dimostrazione della legge dei valori attesi iterati.


Per definizione, il valore atteso di una variabile casuale continua è pari all'integrale definito tra (−∞, +∞) del prodotto
tra i valori della variabile e la sua funzione di densità:
•ž
𝐸[𝑌] = 𝑦 ∙ 𝑓(𝑦) 𝑑𝑦

Introducendo la seconda variabile casuale 𝑋, la funzione di densità marginale di 𝑌 potrà essere espressa come la
funzione di densità congiunta delle due variabili, integrata per 𝑋:
•ž
𝑓(𝑦) = 𝑓(𝑦, 𝑥) 𝑑𝑥

•ž •ž
𝐸[𝑌] = 𝑦 ∙ 𝑓(𝑦, 𝑥) 𝑑𝑥 𝑑𝑦
|ž |ž

Possiamo a questo punto riscrivere la funzione di densità congiunta 𝑓(𝑦, 𝑥) come il prodotto tra la funzione di densità
condizionata 𝑓o|” 𝑦 𝑥 e la funzione di densità marginale di 𝑋, dal momento che:

𝑓 𝑦, 𝑥
𝑓o|” 𝑦 𝑥 = => 𝑓 𝑦, 𝑥 = 𝑓o|” 𝑦 𝑥 ∙ 𝑓” 𝑥
𝑓” 𝑥
•ž •ž
𝐸[𝑌] = 𝑦 ∙ 𝑓o|” 𝑦 𝑥 ∙ 𝑓” 𝑥 𝑑𝑥 𝑑𝑦
|ž |ž

A questo punto, invertiamo l'ordine di integrazione come segue:


•ž •ž
𝐸 𝑌 = 𝑦 ∙ 𝑓o|” 𝑦 𝑥 𝑑𝑦 𝑓” 𝑥 𝑑𝑥
|ž |ž

Il termine all'interno delle parentesi corrisponde alla definizione data, nel paragrafo precedente, del valore atteso
condizionato per una variabile casuale continua; potremo quindi sostituire:
•ž
𝐸 𝑌 = 𝐸[𝑌|𝑋] ∙ 𝑓” 𝑥 𝑑𝑥

Sostituendo in questa formulazione la scrittura del valore atteso rispetto a 𝑋, si può infine ottenere che:

𝐸 𝑌 = 𝐸” 𝐸 𝑌 𝑋

12

Luca Biglieri

Come volevasi dimostrare.

Approfondimento: Dimostrazione di 𝐸 𝑌 𝑋 = 𝑘 => 𝐶𝑜𝑣 𝑌, 𝑋 = 𝐶𝑜𝑟𝑟 𝑌, 𝑋 = 0.

Partendo dalla formula classica della covarianza, si può raggiungere la sua formulazione semplificata:

𝐶𝑜𝑣 𝑌, 𝑋 = 𝐸 𝑌 − 𝐸 𝑌 𝑋−𝐸 𝑋

𝐶𝑜𝑣(𝑌, 𝑋) = 𝐸[(𝑌𝑋 − 𝑌 ∙ 𝐸(𝑋) − 𝑋 ∙ 𝐸(𝑌) + 𝐸(𝑋) ∙ 𝐸(𝑌)]

𝐶𝑜𝑣(𝑌, 𝑋) = 𝐸(𝑌𝑋) − 𝐸(𝑌)𝐸(𝑋) − 𝐸(𝑋)𝐸(𝑌) + 𝐸(𝑋)𝐸(𝑌)

𝐶𝑜𝑣(𝑌, 𝑋) = 𝐸[𝑌𝑋] − 𝐸[𝑌]𝐸[𝑋]

Per la legge dei valori attesi iterati, 𝐸 𝑌 = 𝐸” 𝐸 𝑌 𝑋 , è possibile affermare che 𝐸 𝑌𝑋 = 𝐸” 𝐸 𝑌𝑋 𝑋 ; si


può sostituire questa scrittura nella covarianza, sia nel primo che nel secondo termine:

𝐶𝑜𝑣(𝑌, 𝑋) = 𝐸” 𝐸 𝑌𝑋 𝑋 − 𝐸” 𝐸 𝑌 𝑋 ∙ 𝐸[𝑋]

Per ipotesi, 𝐸 𝑌 𝑋 = 𝑘; sostituiamo:

𝐶𝑜𝑣(𝑌, 𝑋) = 𝐸” 𝐸 𝑌𝑋 𝑋 − 𝐸” 𝑘 ∙ 𝐸[𝑋]

Nel primo termine, dal momento che nel valore atteso condizionato la variabile 𝑋 è considerata fissa, è
possibile portarla fuori dal valore atteso stesso:

𝐶𝑜𝑣(𝑌, 𝑋) = 𝐸” 𝑋 ∙ 𝐸 𝑌 𝑋 − 𝐸” 𝑘 ∙ 𝐸[𝑋]

Ancora una volta, per ipotesi, 𝐸 𝑌 𝑋 = 𝑘; sostituiamo:

𝐶𝑜𝑣(𝑌, 𝑋) = 𝐸” 𝑋 ∙ 𝑘 − 𝐸” 𝑘 ∙ 𝐸[𝑋]

Nel secondo termine, ricordiamo che il valore atteso di una costante è la costante stessa: 𝐸” 𝑘 = 𝑘. Si può
sostituire:

𝐶𝑜𝑣(𝑌, 𝑋) = 𝐸” 𝑋 ∙ 𝑘 − 𝑘 ∙ 𝐸[𝑋]

Nel primo termine, infine, si può portare la costante fuori dal valore atteso:

𝐶𝑜𝑣(𝑌, 𝑋) = 𝑘 ∙ 𝐸” 𝑋 − 𝑘 ∙ 𝐸[𝑋] = 0

Come volevasi dimostrare.

2.2.5 Campionamento Casuale Semplice

Si parla di campionamento casuale semplice quando viene scelto a caso un individuo dalla popolazione considerata per
formare un campione; prima della scelta del campione, la variabile da osservare (𝑌) viene supposta casuale, perché
anche l'individuo selezionato è casuale, mentre dopo la scelta del campione sarà possibile osservare il valore della
variabile, che corrisponderà dunque a un numero.
Dal campionamento casuale semplice risulta un data-set 𝑌, , 𝑌. , … , 𝑌0 in cui 𝑌# indica la realizzazione della variabile
casuale per l'𝑖-esimo individuo considerato.

13

Luca Biglieri

Considerando due individui all'interno del campione casuale così formato, si potrà dire che il valore di 𝑌, non contiene
alcun tipo di informazioni riguardo al valore di 𝑌. : si può dire che 𝑌, e 𝑌. , in un campione casuale semplice, sono
indipendenti e identicamente distribuite perché provengono dalla medesima popolazione (ovvero dalla medesima
distribuzione) ma sono indipendenti l'una dall'altra.
Più in generale, facendo riferimento all'intero data-set, tutte le variabili 𝑌, , 𝑌. , … , 𝑌0 sono da considerarsi indipendenti
e identicamente distribuite (in breve, i.i.d.).

2.3 Stima

2.3.1 Stimatori e Stime

Uno stimatore è una qualsiasi statistica (ovvero una regola, una funzione) che permette di stimare un parametro della
popolazione; si tratta di una funzione dei dati estratti da un campione che permette di ricavare il momento
corrispondente per la popolazione da cui il campione è stato estratto.
La stima è un particolare valore realizzato dallo stimatore.

Uno stimatore si basa su alcuni principi fondamentali, che ne caratterizzano le proprietà: si parlerà infatti di correttezza
dello stimatore, di sufficienza, di efficienza e di invarianza.
Le caratteristiche di queste proprietà, con i loro significati più specifici, verranno analizzate nei prossimi paragrafi, dopo
l'introduzione di ulteriori concetti sul tema della stima.

Per quanto uno stimatore possa essere corretto, efficiente e preciso, esisterà sempre un errore di stima, misurabile
come la differenza tra lo stimatore stesso e il parametro che esso deve stimare. Nel caso della media campionaria,
stimatore per la media della popolazione, l'errore di stima sarà quindi espresso come 𝑌 − 𝜇o .

Nei prossimi paragrafi, analizzeremo più nel dettaglio lo stimatore media campionaria, esaminandone le proprietà
fondamentali e la distribuzione.

2.3.2 Correttezza ed Efficienza di uno Stimatore

Uno stimatore si dice corretto o non distorto quando il suo valore atteso è uguale al parametro della popolazione che
deve stimare; facendo riferimento alla distribuzione dello stimatore, si può dire che, in media, tale distribuzione deve
essere uguale al valore della popolazione.
Lo stimatore media campionaria viene considerato uno stimatore corretto della media della popolazione perché 𝐸 𝑌 =
𝜇o ; nel paragrafo seguente questa affermazione verrà dimostrata.

Uno stimatore si dice efficiente rispetto a un altro stimatore per il medesimo parametro della popolazione se ha una
varianza minore: se esistono due stimatori 𝑌, 𝑌 per lo stesso parametro e se 𝑉𝑎𝑟 𝑌 > 𝑉𝑎𝑟 𝑌 , il secondo verrà
considerato più efficiente.

2.3.3 Distribuzione Campionaria di 𝒀, Valore Atteso e Varianza

Analizzando la distribuzione campionaria di 𝑌, si potranno osservare le proprietà di questo stimatore e si potrà


comprendere il motivo per cui esso rappresenta uno stimatore adatto per la media della popolazione.

14

Luca Biglieri

Innanzitutto, occorre ricordare che 𝑌 è una variabile casuale: gli individui che fanno parte di un campione sono casuali,
pertanto il data-set 𝑌, , 𝑌. , … , 𝑌0 sarà anch'esso casuale; la media campionaria rappresenta una funzione del data-set e
sarà, di conseguenza, anch'essa casuale.
Si parla di distribuzione campionaria di 𝑌 riferendosi alla distribuzione di 𝑌 su diversi possibili campioni con la
medesima dimensione, 𝑛.
Inoltre, si potrà dire che il valore atteso e la varianza della variabile casuale 𝑌 corrispondono al valore atteso e alla
varianza della sua distribuzione campionaria.

Supponiamo di considerare, come esempio, che la variabile 𝑌 possa assumere solo i valori 0 e 1 (variabile di Bernoulli),
con la distribuzione di probabilità 𝑃𝑟[𝑌 = 0] = 0,22, 𝑃𝑟[𝑌 = 1] = 0,78.
Il suo valore atteso sarà dunque pari a 𝐸[𝑌] = 0 ∙ 𝑃𝑟[𝑌 = 0] + 1 ∙ 𝑃𝑟[𝑌 = 1] = 𝑃𝑟[𝑌 = 1] = 0,78 = 𝜇o , mentre la sua
.
varianza sarà pari a 𝑉𝑎𝑟 𝑌 = 𝐸 𝑌−𝐸 𝑌 = 𝑃𝑟[𝑌 = 0] ∙ 𝑃𝑟[𝑌 = 1] = 0,78 ∙ 0,22 = 0,1716.

Passiamo a considerare la variabile media campionaria per tale variabile casuale: la distribuzione campionaria di 𝑌
dipenderà dalla dimensione del campione, 𝑛. Se consideriamo 𝑛 = 2, avremo che:

0,22. , 𝑦 = 0
Pr 𝑌 = 𝑦 = 2 ∙ 0,22 ∙ 0,78, 𝑦 = 0,5
0,78. , 𝑦 = 1

Potremo considerare 𝑌 uno stimatore corretto della media della popolazione solo se vale la condizione 𝐸 𝑌 = 𝜇o =
0,78: andiamo a calcolare il valore atteso di 𝑌.

𝐸 𝑌 = 0 ∙ 0,22. + 0,5 ∙ 2 ∙ 0,22 ∙ 0,78 + 1 ∙ 0,78. = 0,22 ∙ 0,78 + 1 ∙ 0,78.

𝐸 𝑌 = 0,78

Nel nostro esempio, abbiamo confermato empiricamente come la media campionaria possa essere considerata uno
stimatore non distorto della media della popolazione.

Usciamo ora dal nostro esempio, per calcolare il valore atteso e la varianza della media campionaria per una qualsiasi
variabile casuale 𝑌# i.i.d. caratterizzata da una distribuzione qualsiasi, non per forza bernoulliana.
Definendo un campione casuale come 𝑌, , 𝑌. , … , 𝑌0 , la media campionaria assumerà la seguente forma:
0
1
𝑌= ∙ 𝑌#
𝑛
#T,

Il suo valore atteso sarà pari a:


0
1
𝐸 𝑌 = ∙ 𝐸 𝑌#
𝑛
#T,

0
1
𝐸 𝑌 = ∙ 𝜇o
𝑛
#T,

1
𝐸 𝑌 = ∙ 𝑛𝜇o
𝑛

𝐸 𝑌 = 𝜇o

Per quanto riguarda la varianza, si può calcolare come segue:


15

Luca Biglieri

0
1 .
𝑉𝑎𝑟 𝑌 = 𝑉𝑎𝑟 ∙ 𝑌# = 𝐸 𝑌−𝐸 𝑌
𝑛
#T,

.
𝑉𝑎𝑟 𝑌 = 𝐸 𝑌 − 𝜇o

𝑉𝑎𝑟 𝑌 = 𝐸 𝑌 . − 𝜇o.

Analizzando il primo termine, si ha che:

0 .
1
𝐸 𝑌. = 𝐸 ∙ 𝑌#
𝑛
#T,

0 .
.
1
𝐸 𝑌 = .∙𝐸 𝑌#
𝑛
#T,

0
1
𝐸 𝑌 .
= .∙𝐸 𝑌#. + 𝑌# ∙ 𝑌q
𝑛
#T, # q
#tq

0
1
𝐸 𝑌. = .∙ 𝐸 𝑌#. + 𝐸 𝑌# ∙ 𝑌q
𝑛
#T, # q
#tq

1
𝐸 𝑌. = ∙ 𝑛 𝜎o. + 𝜇o. + 𝑛 𝑛 − 1 𝜇o.
𝑛.

𝜎o.
𝐸 𝑌. = + 𝜇o.
𝑛

Di conseguenza:

𝜎o.
𝑉𝑎𝑟 𝑌 = 𝐸 𝑌 . − 𝜇o. = + 𝜇o. − 𝜇o.
𝑛

𝜎o.
𝑉𝑎𝑟 𝑌 =
𝑛

Le formulazioni appena ricavate per il valore atteso e la varianza della media campionaria ci permettono di osservare
come:

- La media campionaria sia uno stimatore non distorto della media della popolazione, dal momento che 𝐸 𝑌 =
𝜇o ;
- La varianza della media campionaria sia inversamente proporzionale alla dimensione del campione, 𝑛; in modo
opposto, si può dire quindi che la dispersione della distribuzione (la varianza), ovvero l'incertezza campionaria
,
associata con 𝑌, è proporzionale a : se il campione ha dimensioni più elevate, si riduce l'incertezza.
0

Si può definire lo stimatore 𝑌 con la sigla BLUE (Best Linear Unbiased Estimator): tale stimatore rappresenta lo stimatore
lineare corretto (𝐸 𝑌 = 𝜇o ) migliore (con la varianza più piccola) per la media della popolazione.

16

Luca Biglieri

2.3.4 Legge dei Grandi Numeri e Teorema del Limite Centrale

Se il campione considerato ha dimensioni ridotte, la distribuzione campionaria di 𝑌 è difficile da analizzare; se 𝑛


aumenta, invece, la varianza della distribuzione diminuisce (per quanto appena detto al paragrafo precedente) e
l'incertezza si riduce: di conseguenza, sarà più facile stimare la forma della distribuzione.

In particolare, si potrà dire che:

- Per la legge dei grandi numeri, all'aumentare di 𝑛, la distribuzione diventerà sempre più centrata su 𝜇o ;
- Per il teorema del limite centrale, all'aumentare di 𝑛, la distribuzione di 𝑌 − 𝜇o si potrà approssimare con una
distribuzione normale.

Andiamo ora a spiegare più nel dettaglio queste due affermazioni.

La legge dei grandi numeri è strettamente legata alla proprietà di consistenza di uno stimatore: uno stimatore si dice
consistente se la probabilità che esso ricada entro un intervallo del vero valore della popolazione tende a 1
all'aumentare della dimensione del campione (oppure, equivalentemente, se la probabilità che lo stimatore si discosti
dal parametro da stimare tende a 0 all'aumentare della dimensione del campione).
La legge dei grandi numeri è una formalizzazione di questo concetto. Riferendosi alla media campionaria, si può dire
che, se 𝑌, , 𝑌. , … , 𝑌0 sono i.i.d., se 𝐸 𝑌# = 𝜇o e se 𝜎o. < ∞ (ovvero se la varianza della popolazione è finita), allora 𝑌 è
uno stimatore consistente della media della popolazione se:

lim Pr 𝑌 − 𝜇o < 𝜀 = 1
0→ž

, U U
0
Una scrittura equivalente di questa legge è #T, 𝑌# 𝐸 𝑌# = 𝜇o => 𝑌 𝜇o : si dice che 𝑌 converge in probabilità a
0
𝜇o ; si può scrivere anche, equivalentemente, 𝑝𝑙𝑖𝑚 𝑌 = 𝜇o .
Analogamente, si può dire che, per 𝑛 → ∞, 𝑉𝑎𝑟 𝑌 = 0, il che implica esattamente quanto affermato dalla legge dei
grandi numeri.
17

Luca Biglieri

Il teorema del limite centrale afferma che, se 𝑌, , 𝑌. , … , 𝑌0 sono i.i.d. e se 𝜎o. < ∞ (ovvero se la varianza della
popolazione è finita), allora, quando 𝑛 è grande, la distribuzione della media campionaria 𝑌 è bene approssimata da una
distribuzione normale.
In altri termini, si può dire che, con 𝑛 sufficientemente elevato, la distribuzione di 𝑌 si presenta come segue:

𝜎o.
𝑌~𝑁 𝜇o ,
𝑛

Procedendo per gradi, si potrà ottenere prima la distribuzione di 𝑌 − 𝜇o (normale con media nulla) e poi quella della
media campionaria standardizzata, che assumerà la forma di una normale standard:

𝜎o.
𝑌 − 𝜇o ~𝑁 0,
𝑛

𝑛 𝑌 − 𝜇o ~𝑁 0, 𝜎o.

𝑌 − 𝜇o 𝑌 − 𝜇o
= 𝜎o ~𝑁 0,1
𝜎o.
𝑛 𝑛

]
Si noti che, al posto del segno di approssimazione ~, si può utilizzare il segno di "convergenza in distribuzione" : ne
] vwx
deriva che 𝑌 𝑁 𝜇o , .
0

Come affermato dal teorema, maggiore è la dimensione del campione (𝑛), migliore sarà l'approssimazione della
distribuzione campionaria come distribuzione normale.

La dimensione del campione necessaria per ottenere un'approssimazione corretta della distribuzione normale varia a
seconda della distribuzione delle variabili 𝑌# : per la media campionaria, ad esempio, la distribuzione risulterà normale
solo se 𝑌# ~𝑁 𝜇o , 𝜎o. , per ogni valore di 𝑛.

18

Luca Biglieri

Riepilogando quanto detto in questo paragrafo, si può dire quindi che, se 𝑌, , 𝑌. , … , 𝑌0 sono i.i.d. e se 𝜎o. < ∞:

- La distribuzione esatta di 𝑌 è complessa e dipende dalla distribuzione della popolazione;


- Quando 𝑛 è grande, la distribuzione campionaria si semplifica e arriva a convergere in probabilità verso la media
U
della popolazione: 𝑌 𝜇o ;
- Quando 𝑛 è grande, la media campionaria standardizzata è approssimata efficacemente tramite una normale
o|•w
standard: ¨w ~𝑁 0,1 .
h

2.3.5 Stima dei Minimi Quadrati

Lo stimatore 𝑌 viene utilizzato nella stima di 𝜇o per vari motivi: come già visto, è uno stimatore corretto, efficiente e
consistente di tale parametro; inoltre, è anche lo stimatore dei minimi quadrati della media della popolazione, ovvero
lo stimatore che minimizza la somma dei quadrati dei residui.
Indichiamo tale somma come segue:
0

𝑌 : min 𝑌# − 𝑚 .
(
#T,

Dove 𝑌# − 𝑚 rappresenta la deviazione tra la realizzazione della variabile 𝑖-esima e la stima, 𝑚, ovvero il residuo per la
𝑖-esima osservazione.

Si vuole trovare, al posto di 𝑚, lo stimatore che minimizza la sommatoria dei quadrati dei residui: svolgiamo il problema
di minimizzazione scrivendo la condizione del primo ordine, per ricavare che tale stimatore sarà la media campionaria 𝑌.

0 0
.
𝑑 #T, 𝑌# − 𝑚
= −2 𝑌# − 𝑚 = 0
𝑑𝑚
#T,

𝑛𝑚 = 𝑌#
#T,

0
1
𝑚= ∙ 𝑌# = 𝑌
𝑛
#T,

2.3.6 Efficacia di 𝒀: Confronto con Altri Stimatori

Chiudiamo l'analisi della stima con un confronto tra la media campionaria e altri possibili stimatori della media della
popolazione: sapendo che 𝑌 ha la varianza minore di tutti gli altri possibili stimatori di tale parametro, effettuiamo
questa verifica rispetto allo stimatore "prima osservazione", 𝑌, .

Sappiamo che, poiché 𝑌, , 𝑌. , … , 𝑌0 sono i.i.d. con media 𝜇o , 𝐸 𝑌, = 𝜇o : la prima osservazione è, in questo caso, uno
stimatore corretto.
Allo stesso modo, possiamo dire che, poiché 𝑌, , 𝑌. , … , 𝑌0 sono i.i.d. con varianza 𝜎o. , 𝑉𝑎𝑟 𝑌, = 𝜎o. : possiamo quindi
vwx
affermare che 𝑌 è uno stimatore più efficace della prima osservazione, dal momento che 𝑉𝑎𝑟 𝑌 = < 𝜎o. = 𝑉𝑎𝑟 𝑌, .
0

19

Luca Biglieri

Confrontiamo ora la media campionaria con un altro stimatore, 𝑌, che rappresenta una media ponderata con pesi
, 6
alternati: le osservazioni dispari hanno peso , mentre le osservazioni pari hanno peso pari a .
. .
, , 6 , 6 , , 6
Avremo che 𝑌 = ∙ 𝑌 + 𝑌. + 𝑌6 + 𝑌= + ⋯ , da cui deriva un valore atteso pari a 𝐸 𝑌 = ∙𝐸 𝑌 + 𝑌. +
0 . , . . . 0 . , .
, 6 , , 6 , 6 ,
𝑌 + 𝑌= + ⋯ = ∙ 𝜇 + 𝜇o + 𝜇o + 𝜇o + ⋯ = ∙ 𝑛𝜇o = 𝜇o : lo stimatore è corretto.
. 6 . 0 . o . . . 0
, , 6 , 6
Passiamo ora alla varianza: 𝑉𝑎𝑟 𝑌 = ∙ 𝜎. + 𝜎o. + 𝜎o. + 𝜎o. + ⋯ , supponendo che 𝐶𝑜𝑣 𝑌# , 𝑌q = 0, ∀𝑖, 𝑗,
0x . o . . .
, ? . ? vwx vwx
essendo 𝑌, , 𝑌. , … , 𝑌0 i.i.d. Si potrà quindi dire che 𝑉𝑎𝑟 𝑌 = x ∙ 𝑛 ∙ 𝜎o = > = 𝑉𝑎𝑟[𝑌]: la media campionaria
0 = = 0 0
è uno stimatore più efficace di questa media ponderata.

2.4 Verifica di Ipotesi

2.4.1 Test di Ipotesi, Livello di Significatività, P-Value con Varianza Nota

Una ipotesi statistica è una congettura riguardante la distribuzione di una o più variabili casuali; un'ipotesi si dirà
semplice se specifica completamente la distribuzione delle variabili considerate, mentre sarà composta se non la
specifica completamente.
Ad esempio, considerando una variabile casuale 𝑌~𝑁 0, 𝜎 . , la cui media è nota e la cui varianza non è conosciuta, si
potrà dire che l'ipotesi 𝐻L : 𝜎 . = 3 è un'ipotesi semplice, che va a definire completamente la distribuzione di 𝑌, mentre
l'ipotesi 𝐻L : 𝜎 . > 3 è composta, dal momento che non definisce completamente il momento mancante della
distribuzione.

Un test statistico è una regola, una procedura utilizzata per decidere se rifiutare o non rifiutare un'ipotesi.
All'interno del test, si troveranno sempre un'ipotesi nulla, 𝐻L , e un'ipotesi alternativa, 𝐻, , che devono essere tra di loro
esclusive: se l'ipotesi nulla è vera, per forza l'ipotesi alternativa deve essere falsa, e viceversa.
Un esempio di verifica di ipotesi riguardante la media di una variabile potrà assumere le seguenti forme:

𝐻L : 𝐸 𝑌 = 𝜇o,L ; 𝐻, : 𝐸 𝑌 > 𝜇o,L

𝐻L : 𝐸 𝑌 = 𝜇o,L ; 𝐻, : 𝐸 𝑌 < 𝜇o,L

𝐻L : 𝐸 𝑌 = 𝜇o,L ; 𝐻, : 𝐸 𝑌 ≠ 𝜇o,L

Nei primi due casi, si parla di ipotesi alternative unilaterali, ovvero che considerano solamente il caso in cui il valore
atteso della variabile sia maggiore o minore di un certo valore 𝜇o,L ; nell'ultimo caso, si ha un'ipotesi bilaterale, che
contempla contemporaneamente sia il caso in cui il valore atteso risulta maggiore che quello in cui risulta minore del
valore 𝜇o,L .

Il livello di significatività di un test statistico rappresenta la probabilità predeterminata di rifiutare l'ipotesi nulla in
modo errato, quando essa invece è corretta. Uno dei valori più comuni del livello di significatività, che di solito si indica
con 𝛼, è 𝛼 = 0,05.
Quando si rifiuta erroneamente l'ipotesi nulla corretta, si parla di errore di primo tipo: il livello di significatività
rappresenta appunto la probabilità di commettere un errore di questo genere. Si commette invece un errore di secondo
tipo quando non si rifiuta un'ipotesi nulla errata: in questo caso, si potrà introdurre un altro indicatore, detto potenza
del test, che è dato da 1 − 𝛽 , dove 𝛽 è la probabilità che venga commesso un errore di secondo tipo; solitamente, si
vuole svolgere un test statistico dalla potenza elevata, quindi risulta opportuno ridurre la possibilità di commettere un
errore di questo genere.

20

Luca Biglieri

Il p-value rappresenta la probabilità di ricavare una statistica sfavorevole all'ipotesi nulla almeno quanto il valore
effettivamente calcolato con i dati, supponendo che l'ipotesi nulla sia corretta.
vx
Consideriamo, ad esempio, la variabile casuale 𝑌~𝑁 𝜇, e impostiamo un test la cui ipotesi nulla sia 𝐻L : 𝜇 = 𝜇o,L .
0
Estraendo un campione, si potrà osservare un valore della variabile casuale, detto 𝑌 \V¬ : il p-value potrà essere definito
come la probabilità di ottenere un valore della variabile casuale che sia lontano dal centro della distribuzione sotto
l'ipotesi nulla (𝜇 = 𝜇o,L ) quanto il valore osservato, 𝑌 \V¬ ; esso rappresenta, dunque, il "peso" delle code della
distribuzione della variabile casuale, partendo dal valore 𝑌 \V¬ .
Formalizzando quanto appena detto, possiamo calcolare il p-value come segue:

𝑃𝑟-® 𝑌 − 𝜇o,L > 𝑌 \V¬ − 𝜇o,L

Per calcolare il p-value, sarà necessario conoscere la distribuzione della variabile casuale 𝑌 sotto l'ipotesi nulla; nel
vx
nostro caso, ad esempio, per 𝐻L : 𝜇 = 𝜇o,L la variabile assumerà la distribuzione 𝑌~𝑁 𝜇o,L , .
0
Tuttavia, si può semplificare la questione, in termini generali, se si considera un campione di grandi dimensioni: per il
teorema del limite centrale, infatti, sappiamo che, se 𝑛 è grande, la variabile casuale convergerà in distribuzione a una
distribuzione normale. In particolare:

]
𝑛∙ 𝑌−𝜇 𝑁 0, 𝜎 .
]
𝐻L : 𝜇 = 𝜇o,L => 𝑛 ∙ 𝑌 − 𝜇o,L 𝑁 0, 𝜎 .

𝑌 − 𝜇o,L ]
𝑛∙ 𝑁 0, 1
𝜎.

𝑌 − 𝜇o,L ]
𝜎 𝑁 0, 1
𝑛

Sapendo questo, si potrà applicare lo stesso procedimento al p-value:

𝑃𝑟-® 𝑌 − 𝜇o,L > 𝑌 \V¬ − 𝜇o,L

𝑌 − 𝜇o,L 𝑌 \V¬ − 𝜇o,L


𝑃𝑟-® 𝜎 > 𝜎
𝑛 𝑛

Avendo quindi nei due valori assoluti due variabili casuali standardizzate, approssimabili come una 𝑁 0, 1 , potremo
indicare il p-value, ovvero le "code" della distribuzione, utilizzando la funzione di ripartizione della normale standard,
indicata come Φ:

𝑌 \V¬ − 𝜇o,L
2Φ − 𝜎
𝑛

21

Luca Biglieri

Dopo il prossimo paragrafo, in cui si introduce il tema della verifica di ipotesi con varianza ignota, passeremo a
introdurre le regole che permettono di utilizzare il valore del p-value per rifiutare o non rifiutare un'ipotesi nulla
durante un test statistico.

2.4.2 P-Value con Varianza Ignota

Quando la varianza della variabile casuale non è nota, si può utilizzare uno stimatore consistente per approssimarla nel
contesto di una verifica di ipotesi; lo stimatore che si utilizza per la varianza della popolazione è la varianza
campionaria:
0
1
𝑆o. = ∙ 𝑌# − 𝑌 .
𝑛−1
#T,

Approfondimento: 𝑆o. come stimatore consistente della varianza della popolazione.


U
Dimostriamo di seguito perché, se 𝑌, , 𝑌. , … , 𝑌0 sono i.i.d. e se 𝐸 𝑌 = < ∞, allora 𝑆o. 𝜎o. .
Iniziamo definendo la formulazione della varianza campionaria:
0
1
𝑆o. = ∙ 𝑌# − 𝑌 .
𝑛−1
#T,

Analizziamo ora separatamente il termine che si trova tra parentesi; in particolare, sommiamo e sottraiamo
la media della popolazione, per poi svolgere il quadrato che si trova all'interno della parentesi:
. . . .
𝑌# − 𝑌 = 𝑌# − 𝜇 − 𝑌 − 𝜇 = 𝑌# − 𝜇 + 𝑌−𝜇 − 2 𝑌# − 𝜇 𝑌 − 𝜇

Inseriamo quanto ottenuto nella formula della varianza campionaria:


0
1
𝑆o. = ∙ 𝑌# − 𝜇 .
+ 𝑌−𝜇 .
− 2 𝑌# − 𝜇 𝑌 − 𝜇
𝑛−1
#T,

A questo punto, si può scomporre la sommatoria in tre sommatorie distinte:

22

Luca Biglieri

0 0 0
1 2 1
𝑆o. = ∙ 𝑌# − 𝜇 .
− ∙ 𝑌# − 𝜇 𝑌 − 𝜇 + ∙ 𝑌−𝜇 .

𝑛−1 𝑛−1 𝑛−1
#T, #T, #T,

Nella seconda e nella terza sommatoria, notiamo che il termine 𝑌 − 𝜇 non è indicizzato a 𝑖 e può quindi
essere portato fuori dalle sommatorie come segue:
0 0
1 2 𝑛
𝑆o. = ∙ 𝑌# − 𝜇 .
− ∙ 𝑌−𝜇 ∙ 𝑌# − 𝜇 + ∙ 𝑌 − 𝜇 .
𝑛−1 𝑛−1 𝑛−1
#T, #T,

0
Ragioniamo ora sulla sommatoria #T, 𝑌# − 𝜇 ; possiamo dire che:
0 0 0
𝑛
𝑌# − 𝜇 = 𝑌# − 𝑛𝜇 = ∙ 𝑌# − 𝑛𝜇 = 𝑛𝑌 − 𝑛𝜇 = 𝑛(𝑌 − 𝜇)
𝑛
#T, #T, #T,

Possiamo sostituire nel secondo termine questo risultato:


0
1 2𝑛 𝑛
𝑆o. = ∙ 𝑌# − 𝜇 .
− ∙ 𝑌−𝜇 .
+ ∙ 𝑌 − 𝜇 .
𝑛−1 𝑛−1 𝑛−1
#T,

0
1 𝑛
𝑆o. = ∙ 𝑌# − 𝜇 .
− ∙ 𝑌 − 𝜇 .
𝑛−1 𝑛−1
#T,

Introduciamo ora la variabile casuale 𝑊# = 𝑌# − 𝜇 . ; possiamo riscrivere la varianza campionaria come:


0
1 𝑛
𝑆o. = ∙ 𝑊# − ∙ 𝑌 − 𝜇 .
𝑛−1 𝑛−1
#T,

0
𝑛 1 𝑛
𝑆o. = ∙ ∙ 𝑊# − ∙ 𝑌 − 𝜇 .
𝑛−1 𝑛 𝑛−1
#T,

0 , 0 0
Da questa scrittura, passiamo a studiare separatamente i 4 termini , ∙ #T, 𝑊# , 0|,, 𝑌 − 𝜇 . .
0|, 0

0
1. Se poniamo 𝑛 → ∞, ricaviamo facilmente che lim = 1;
0→ž 0|,

.
2. Per la legge dei grandi numeri, sapendo che 𝐸 𝑊# = 𝐸 𝑌# − 𝜇 = 𝜎 . e che 𝑉𝑎𝑟 𝑊# < ∞
, U
0
(perché 𝐸 𝑌 = < ∞ per ipotesi), potremo dire che ∙ #T, 𝑊# 𝐸 𝑊# = 𝜎 . , per 𝑛 → ∞;
0

0
3. Se poniamo 𝑛 → ∞, ricaviamo facilmente che lim = 1;
0→ž 0|,

U
4. Per la legge dei grandi numeri, per 𝑛 → ∞, abbiamo che 𝑌 𝜇. Di conseguenza, per 𝑛 → ∞,
𝑌 − 𝜇 . = 0.

Mettendo insieme i quattro risultati appena esposti, tornando alla varianza campionaria, avremo che:

23

Luca Biglieri

0
𝑛 1 𝑛
𝑆o. = ∙ ∙ 𝑊# − ∙ 𝑌 − 𝜇 .
𝑛−1 𝑛 𝑛−1
#T,

U
𝑆o. 1 ∙ 𝜎 . − 1 ∙ 0
U
𝑆o. 𝜎 ., 𝑛 → ∞

Ovvero, la varianza campionaria è uno stimatore consistente della varianza della popolazione.

Sapendo che la varianza campionaria è uno stimatore consistente per 𝜎 . , quando quest'ultimo parametro è ignoto si
potrà utilizzare 𝑆 . come suo stimatore.
Il p-value, in questi casi, assumerà dunque la seguente forma:

𝑌 − 𝜇o,L 𝑌 \V¬ − 𝜇o,L


𝑃𝑟-® >
𝑆o 𝑆o
𝑛 𝑛

o|•w,®
Si potrà quindi dire che la statistica-test 𝑡 = ±w , per 𝑛 grande, sarà distribuita come una normale standard:
h

𝑌 − 𝜇o,L ]
𝑡= 𝑁(0, 1), 𝑛 → ∞
𝑆o
𝑛

Pertanto, anche con varianza ignota si potrà esprimere il p-value tramite la funzione di ripartizione della normale
standard:

𝑌 − 𝜇o,L 𝑌 \V¬ − 𝜇o,L


𝑃𝑟-® > = 𝑃𝑟-® 𝑡 > 𝑡 \V¬ = 2Φ − 𝑡 \V¬
𝑆o 𝑆o
𝑛 𝑛

2.4.3 Rifiutare o Non Rifiutare l'Ipotesi Nulla

Dopo aver visto, nei due paragrafi precedenti, come calcolare il p-value con varianza nota o ignota, formalizziamo ora i
criteri tramite i quali si può utilizzare tale valore per arrivare a rifiutare o a non rifiutare un'ipotesi nulla 𝐻L .

Il primo passo consiste nel fissare il livello di significatività 𝛼, che solitamente assume i valori 𝛼 = 0,05, 𝛼 = 0,1 o 𝛼 =
0,01.
Stabilito questo livello, si passa ad analizzare il p-value, ovvero il peso delle code della distribuzione: se 𝑝 − 𝑣𝑎𝑙𝑢𝑒 ≤ 𝛼,
significa che il valore osservato della variabile si trova nella coda della distribuzione, ovvero nell'"area di rifiuto"
dell'ipotesi nulla, e si potrà quindi rifiutare 𝐻L per questa osservazione.
Se, invece, 𝑝 − 𝑣𝑎𝑙𝑢𝑒 > 𝛼, il valore osservato si trova al centro della distribuzione, più vicino alla media, nell'"area di
non rifiuto": l'ipotesi nulla non verrà quindi rifiutata per questa osservazione.

In modo alternativo, si può decidere di confrontare il valore della statistica-test calcolata partendo dai dati
dell'osservazione e il valore critico della distribuzione in corrispondenza del livello di significatività scelto.
Poniamo, ad esempio, che si fissi un livello 𝛼 = 0,05: il valore critico della distribuzione, ovvero il valore tale che le due

24

Luca Biglieri

code della distribuzione, sommate, diano 0,05 (0,025 nella coda sinistra e 0,025 in quella destra, per simmetria), è pari
a 1,96.
o ga² |•w,®
Potremo quindi affermare che, se la statistica-test 𝑡 \V¬ = ±w è tale che 𝑡 \V¬ ≥ 1,96, si potrà rifiutare l'ipotesi
h

nulla, dal momento che il valore osservato si trova nella coda della distribuzione; viceversa, se 𝑡 \V¬ < 1,96, l'ipotesi
nulla non verrà rifiutata perché il valore osservato si trova nella "regione di non rifiuto".

Rispetto ai due diversi metodi di rifiuto/non rifiuto dell'ipotesi nulla, occorre ricordare che il p-value rappresenta un
indicatore più informativo rispetto al valore di 𝑡 \V¬ : il p-value, infatti, permette di fare a meno del valore critico della
distribuzione e può essere confrontato immediatamente con i vari livelli di significatività che possono essere scelti,
fornendo informazioni dirette e immediate riguardo al "peso" delle code della distribuzione.
Si deve inoltre ricordare che scegliere un livello di significatività più ridotto, come 𝛼 = 0,01 (ovvero, tenere un
approccio più conservativo), comporta un costo: il livello di significatività è collegato alla potenza del test statistico e, al
ridursi di 𝛼, si riduce anche quest'ultima; per non sacrificare del tutto la potenza del test, sarà quindi opportuno evitare
di ridurre 𝛼 ai minimi termini.

2.4.4 Distribuzione 𝒕 di Student

Se si considerano campioni di grandi dimensioni, con 𝑛 → ∞, la statistica-test potrà essere definita come 𝑡 \´µ (𝑡
asintotica), con una distribuzione approssimabile con la normale standard.
Se il campione considerato ha dimensioni più ridotte, invece, la statistica-test sarà indicata con 𝑡 %#0#¬\ , caratterizzata da
un valore uguale alla statistica asintotica ma da una distribuzione diversa, la distribuzione 𝒕 di Student con (𝑛 − 1)
gradi di libertà.

Più formalmente, possiamo dire che, se 𝑌# ~𝑁 𝜇, 𝜎 . , 𝑖 = 1, 2, … , 𝑛 (assunzione di normalità), allora la statistica 𝑡 %#0#¬\ ,
data dal rapporto tra una variabile casuale con distribuzione normale standard e la radice del rapporto tra una
.
distribuzione 𝜒Z]X e i suoi gradi di libertà (𝑔𝑑𝑙) sarà distribuita come una 𝑡 di Student con 𝑔𝑑𝑙 gradi di libertà:

𝑁 0, 1
𝑡 %#0#¬\ = ~𝑡 Z]X
.
𝜒Z]X
𝑔𝑑𝑙

La distribuzione avrà una media nulla e una varianza variabile, a seconda delle dimensioni del campione considerato; se
𝑛 → ∞, la varianza di questa distribuzione tenderà a 1 e la 𝑡 di Student potrà essere approssimata con una normale
]
standard, 𝑁(0, 1): 𝑡0|, 𝑁(0, 1), 𝑛 → ∞.

o|•®
Facciamo un esempio pratico di questa distribuzione, considerando al numeratore la variabile casuale ~𝑁 0, 1 e
¨x
h
·x .
al denominatore la variabile casuale 𝑛 − 1 ∙ ~𝜒0|, .
vx
Il rapporto tra la prima variabile e la radice della seconda divisa per i propri gradi di libertà sarà dunque distribuito come
una 𝑡 di Student:

25

Luca Biglieri

𝑌 − 𝜇L
𝜎.
𝑛
𝑡 %#0#¬\ = ~𝑡0|,
𝑆.
𝑛−1 ∙ .
𝜎
𝑛−1

𝑌 − 𝜇L
𝑡 %#0#¬\ = ~𝑡0|,
𝑆.
𝑛

In quest'ultima formulazione, risultato della semplificazione della prima, notiamo che compare una formula identica alla
o|•®
statistica-test asintotica con varianza ignota, , caratterizzata però da una diversa distribuzione: se il campione non è
±x
h

sufficientemente grande, dunque, la distribuzione della statistica-test sarà una 𝑡 di Student e non una normale
standard; inoltre, varieranno anche il p-value e il valore critico della distribuzione.

2.4.5 Intervallo di Confidenza

Un intervallo di confidenza al livello di confidenza (1 − 𝛼), dove 𝛼 rappresenta il livello di significatività di un test
statistico, rappresenta l'intervallo che contiene il vero valore del parametro della popolazione da stimare nell'(1 − 𝛼)%
dei campioni ripetuti.
L'intervallo di confidenza rappresenta dunque la zona di non rifiuto dell'ipotesi nulla in un test, ovvero il centro della
distribuzione, escludendo le code.

Considerando un test statistico volto a stimare il valore della media della popolazione, possiamo dire che l'intervallo di
confidenza per 𝜇o è l'insieme dei valori di 𝜇o non rifiutati da un test di ipotesi con livello di significatività pari ad 𝛼.
Poniamo che 𝛼 = 5%; l'intervallo di confidenza si presenterà come segue:

𝑌 − 𝜇o,L
𝜇o : ≤ 1,96 = 𝜇o : 𝑡 ≤ 1,96
𝑆o
𝑛

Dove 1,96 rappresenta il valore critico della distribuzione normale standard per 𝛼 = 0,05.
Svolgendo, si possono ricavare le seguenti formulazioni alternative dell'intervallo:

𝜇o : − 1,96 ≤ 𝑡 ≤ 1,96

𝑆o 𝑆o
𝜇o : − 1,96 ∙ ≤ 𝑌 − 𝜇o,L ≤ 1,96 ∙
𝑛 𝑛

𝑆o 𝑆o
𝜇o : − 𝑌 − 1,96 ∙ ≤ −𝜇o,L ≤ −𝑌 + 1,96 ∙
𝑛 𝑛

𝑆o 𝑆o
𝜇o : 𝑌 − 1,96 ∙ ≤ 𝜇o,L ≤ 𝑌 + 1,96 ∙
𝑛 𝑛

26

Luca Biglieri

3. Il Modello di Regressione Lineare Semplice
3.1 Introduzione
La regressione lineare permette di stimare la pendenza della retta di regressione, ovvero l'effetto atteso su una
variabile 𝑌 in seguito a una variazione unitaria di un'altra variabile 𝑋. Lo scopo ultimo della regressione è la stima
dell'effetto causale su 𝑌 della variazione unitaria di 𝑋: nell'effettuare una regressione, si assume che sussista una
relazione causale 𝑋 → 𝑌 e si cerca di quantificare tale relazione.
Per arrivare a conoscere la pendenza della retta di regressione, occorre utilizzare una serie di strumenti propri
dell'inferenza statistica: occorre innanzitutto costruire una retta, partendo dai dati, per stimare la pendenza della
regressione, sfruttando uno stimatore OLS (stimatore dei minimi quadrati ordinari); in seguito, bisognerà impostare un
problema di verifica di ipotesi, con l'ipotesi nulla che la pendenza della retta sia nulla; infine, si dovrà costruire un
intervallo di confidenza appropriato per la pendenza della retta.

Nel modello di regressione lineare, si lavora utilizzando una retta di regressione: si cerca di adattare una retta ai dati,
ovvero alle osservazioni delle variabili considerate, arrivando a una formulazione del tipo 𝑌 = 𝛽L + 𝛽, 𝑋 e trovando con
una stima i valori dei parametri 𝛽L , 𝛽, (intercetta e pendenza) che permettano di soddisfare alcuni requisiti. Occorre
infatti ricordare che 𝛽L , 𝛽, sono parametri della popolazione, che non possono essere conosciuti perfettamente ma che
dovranno essere stimati 𝛽L , 𝛽, .
Per arrivare a stimare efficacemente questi parametri, si utilizzeranno i dati dei campioni, assumendo a priori che
sussista una relazione tra le variabili considerate; per l'𝑖-esimo campione considerato, la retta di regressione assumerà
la seguente forma:

𝑌# = 𝛽L + 𝛽, 𝑋# + 𝑢# , 𝑖 = 1, 2, . . . , 𝑛

Dove 𝑋 indica la variabile indipendente (regressore), 𝑌 è la variabile dipendente, 𝛽L , 𝛽, rappresentano le stime dei valori
esatti di intercetta e pendenza e 𝑢# indica l'errore per la singola osservazione, ovvero la differenza tra il valore osservato
nell' 𝑖-esima osservazione e la media di tutte le osservazioni; questo errore è costituito da vari fattori omessi, diversi dal
regressore, che influenzano 𝑌, e dall'errore nella misura di 𝑌.

3.2 Gli Stimatori OLS

27

Luca Biglieri

Per stimare i parametri 𝛽L , 𝛽, partendo dai dati, si utilizzerà il metodo dei minimi quadrati ordinari (in inglese ordinary
least squares, OLS), che avevamo già visto nel capitolo precedente considerando la media campionaria come stimatore
della media della popolazione. In quell'occasione, avevamo visto che 𝑌 poteva essere considerato lo stimatore OLS di 𝜇o
perché permetteva di minimizzare la somma dei quadrati degli errori della stima:
0

min 𝑌# − 𝑚 .
(
#T,

Ponendo la condizione del primo ordine e annullando la derivata prima rispetto a 𝑚, si notava infatti come la media
campionaria fosse lo stimatore che permetteva di minimizzare l'errore.

In questo caso, procederemo allo stesso modo: imposteremo il problema di minimizzazione per 𝛽L e 𝛽, , cercando di
minimizzare la somma dei quadrati degli errori che, in questo caso, saranno singolarmente pari a 𝑢# = 𝑌# − 𝛽L − 𝛽, 𝑋# .
Impostiamo dunque il problema; lo stimatore OLS sarà dato da:
0 0

min 𝑢#. = min 𝑌# − 𝛽L − 𝛽, 𝑋# .


¸® ,¸¹ ¸® ,¸¹
#T, #T,

3.2.1 Stimatore OLS dell'Intercetta

Dovremo impostare la condizione del primo ordine per ciascuno dei due parametri da stimare; partiamo da 𝛽L :

0 0 0
.
𝑑 #T, 𝑌# − 𝛽L − 𝛽, 𝑋#
=2 𝑌# − 𝛽L − 𝛽, 𝑋# ∙ (−1) = − 2 𝑌# − 𝛽L − 𝛽, 𝑋# = 0
𝑑𝛽L
#T, #T,

𝑌# − 𝛽L − 𝛽, 𝑋# = 0
#T,

Scomponiamo la sommatoria in tre parti, dividendo poi ciascuna delle parti per 𝑛:
0 0

𝑌# − 𝑛 ∙ 𝛽L − 𝛽, ∙ 𝑋# = 0
#T, #T,

0 0
1 1
𝛽L = ∙ 𝑌# − 𝛽, ∙ ∙ 𝑋#
𝑛 𝑛
#T, #T,

Riconoscendo le formule della media campionaria, scriviamo la forma definitiva di questo stimatore:

𝜷𝟎 = 𝒀 − 𝜷𝟏 ∙ 𝑿

Una volta ricavato lo stimatore di 𝛽, , potremo sostituirlo in questa formula per trovare una scrittura alternativa di 𝛽L .

3.2.2 Stimatore OLS della Pendenza

Passiamo ora all'altra condizione del primo ordine:

28

Luca Biglieri

0 0
.
𝑑 #T, 𝑌# − 𝛽L − 𝛽, 𝑋#
=2 𝑌# − 𝛽L − 𝛽, 𝑋# ∙ −𝑋# = 0
𝑑𝛽,
#T,

𝑌# − 𝛽L − 𝛽, 𝑋# ∙ 𝑋# = 0
#T,

A questo punto, sostituiamo 𝛽L dentro a questa formula (paragrafo 3.2.1):


0

𝑌# − (𝑌 − 𝛽, ∙ 𝑋) − 𝛽, 𝑋# ∙ 𝑋# = 0
#T,

𝑌# − 𝑌 − 𝛽, 𝑋# − 𝑋 ∙ 𝑋# = 0
#T,

Scomponiamo la sommatoria:
0 0

𝑌# − 𝑌 ∙ 𝑋# − 𝛽, ∙ 𝑋# − 𝑋 ∙ 𝑋# = 0
#T, #T,

A questo punto, aggiungiamo due termini, ciascuno dei quali è uguale a zero:

0 0 0 0 0
- #T, 𝑌# − 𝑌 ∙ 𝑋 = 𝑋 ∙ #T, 𝑌# − 𝑌 = 𝑋 ∙ #T, 𝑌# − 𝑛𝑌 = 𝑋 ∙ #T, 𝑌# − 𝑛𝑌 = 𝑋 ∙ 𝑛𝑌 − 𝑛𝑌 = 0;
0

0 0 0 0 0
- 𝛽, ∙ #T, 𝑋# − 𝑋 ∙ 𝑋 = 𝛽, ∙ 𝑋 ∙ #T, 𝑋# − 𝑋 = 𝛽, ∙ 𝑋 ∙ #T, 𝑋# − 𝑛𝑋 = 𝛽, ∙ 𝑋 ∙ #T, 𝑋# − 𝑛𝑋 = 𝛽, ∙ 𝑋 ∙
0
1
𝑛𝑋 − 𝑛𝑋 = 0.

Aggiungere questi due termini ci permette di modificare la struttura dell'equazione, senza cambiarne il risultato;
potremo quindi scrivere:
0 0 0 0

𝑌# − 𝑌 ∙ 𝑋# − 𝑌# − 𝑌 ∙ 𝑋 − 𝛽, ∙ 𝑋# − 𝑋 ∙ 𝑋# + 𝛽, ∙ 𝑋# − 𝑋 ∙ 𝑋 = 0
#T, #T, #T, #T,

Potremo ora raccogliere:


0 0
.
𝑌# − 𝑌 𝑋# − 𝑋 − 𝛽, ∙ 𝑋# − 𝑋 = 0
#T, #T,

0 0
.
𝛽, ∙ 𝑋# − 𝑋 = 𝑌# − 𝑌 𝑋# − 𝑋
#T, #T,

Da cui risulterà lo stimatore OLS della pendenza:


𝒏
𝒊T𝟏 𝒀𝒊 − 𝒀 𝑿𝒊 − 𝑿
𝜷𝟏 = 𝒏 𝟐

𝒊T𝟏 𝑿𝒊 − 𝑿


1
Come regola generale, si può ricordare che, data una qualsiasi variabile casuale 𝑍, si ha che 0
#T, 𝑍# − 𝑍 = 0, per il
procedimento esposto nei due casi sopra.
29

Luca Biglieri

Riconoscendo le formule della covarianza campionaria e della varianza campionaria, potremo quindi riscrivere 𝛽, come
segue:

𝑺𝑿𝒀
𝜷𝟏 =
𝑺𝟐𝑿

Di conseguenza, sostituendo questo risultato nello stimatore dell'intercetta 𝛽L , otteniamo quanto segue:

𝑺𝑿𝒀
𝜷𝟎 = 𝒀 − 𝜷𝟏 ∙ 𝑿 = 𝒀 − ∙ 𝑿
𝑺𝟐𝑿

3.2.3 Valori Previsti e Residui della Regressione

Conoscendo gli stimatori 𝛽L , 𝛽, , si possono ricavare anche gli stimatori per i valori previsti della variabile dipendente (𝑌# )
e per i residui della regressione (𝑢# ).

Per quanto riguarda i valori previsti, ovvero i valori che si trovano esattamente sulla retta di regressione stimata, si avrà
che:

𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝑿𝒊

Raggruppando tutti i valori di 𝑌# per le 𝑛 osservazioni, si potrà ottenere un vettore (𝑛×1) dei valori previsti:

𝑌,
𝑌.
...
𝑌0

Passando ai residui, ovvero alla stima degli errori della regressione, si può dire che 𝑢# = 𝑌# − 𝑌# : il residuo è pari alla
differenza tra il valore effettivo della variabile da stimare e la sua stima, ricavata dalla retta di regressione. Otteniamo
dunque che:

𝒖𝒊 = 𝒀𝒊 − 𝜷𝟎 − 𝜷𝟏 𝑿𝒊

Anche in questo caso, sarà possibile ricavare un vettore (𝑛×1) dei residui:

𝑢,
𝑢.

...
𝑢0

3.3 Proprietà dei Residui della Regressione


Riportiamo nei seguenti paragrafi tre proprietà fondamentali dei residui che fanno parte del modello di regressione
lineare, con le relative dimostrazioni.

3.3.1 Media Campionaria dei Residui: 𝒖 = 𝟎


30

Luca Biglieri

La prima proprietà degli stimatori della regressione lineare afferma che la media campionaria dei residui è nulla, dal
, 0 0
momento che la sommatoria dei residui stessi è pari a 0: 𝑢 = ∙ #T, 𝑢# = 0 perchè #T, 𝑢# = 0.
0
Bisogna ricordare che questa proprietà è valida se e solo se la regressione include l'intercetta 𝛽L : in alcuni casi, infatti,
tale parametro (ovvero, porre 𝑋 = 0) può non avere un significato, quindi l'intercetta non fa parte del modello di
regressione. Vedremo in seguito come questa proprietà rappresenta una base per le misure di bontà della regressione,
anch'esse utilizzabili se la regressione include l'intercetta.

Dimostrazione: 𝑢 = 0.

Prendiamo la definizione del residuo: 𝑢# = 𝑌# − 𝑌# = 𝑌# − 𝛽L − 𝛽, 𝑋# , svolgendo anche lo stimatore del


valore previsto.
A questo punto, svolgiamo il parametro 𝛽L e inseriamolo nell'equazione:

𝑢# = 𝑌# − (𝑌 − 𝛽, ∙ 𝑋) − 𝛽, 𝑋#

𝑢# = 𝑌# − 𝑌 − 𝛽, 𝑋# − 𝑋

Passiamo alla sommatoria:


0 0

𝑢# = 𝑌# − 𝑌 − 𝛽, 𝑋# − 𝑋
#T, #T,

0 0 0

𝑢# = 𝑌# − 𝑌 − 𝛽, 𝑋# − 𝑋
#T, #T, #T,

0
Seguendo la regola descritta nella nota a piè di pagina nel paragrafo 3.2.2, notiamo che #T, 𝑌# − 𝑌 =
0
#T, 𝑋# − 𝑋 = 0, da cui deriva per costruzione che:

𝑢# = 0
#T,

0
1
𝑢= ∙ 𝑢# = 0
𝑛
#T,

3.3.2 Media Campionaria della Variabile e Media Campionaria dei Valori Previsti: 𝒀 = 𝒀

La seconda proprietà qui descritta afferma che la media campionaria della variabile dipendente è uguale alla media
campionaria dei suoi valori previsti: 𝑌 = 𝑌 .
Geometricamente, questo significa che la retta di regressione passa per il valore medio di 𝑌.

Dimostrazione: 𝑌 = 𝑌 .

Partiamo dalla definizione di residuo, 𝑢# = 𝑌# − 𝑌# , da cui si può ricavare la seguente formulazione della
variabile dipendente:

𝑌# = 𝑌# + 𝑢#

Facendo la media sia a sinistra che a destra dell'uguale, ricaviamo dunque che:
31

Luca Biglieri

0 0
1 1
𝑌= ∙ 𝑌# = ∙ 𝑌# + 𝑢#
𝑛 𝑛
#T, #T,

0 0
1 1
𝑌= ∙ 𝑌# + ∙ 𝑢#
𝑛 𝑛
#T, #T,

, 0
Per la proprietà dimostrata al paragrafo precedente, sappiamo che ∙ #T, 𝑢# = 0; di conseguenza,
0
ricaviamo che:
0
1
𝑌= ∙ 𝑌#
𝑛
#T,

𝑌 = 𝑌


𝒏
3.3.3 Residui Ortogonali ai Regressori: 𝒊T𝟏 𝑿𝒊 𝒖𝒊 = 𝟎

La terza proprietà degli stimatori della regressione lineare afferma che i residui sono ortogonali ai regressori, ovvero che
la sommatoria dei prodotti di regressori e rispettivi residui è uguale a 0: 0#T, 𝑋# 𝑢# = 0.
0
Dimostrazione: #T, 𝑋# 𝑢# = 0.
0
Partiamo dalla prima proprietà, #T, 𝑢# = 0, possiamo dire che:
0 0 0 0 0 0

𝑋# 𝑢# = 𝑋# 𝑢# − 𝑋 ∙ 𝑢# = 𝑋# 𝑢# − 𝑋 ∙ 𝑢# = 𝑢# 𝑋# − 𝑋
#T, #T, #T, #T, #T, #T,

Dal momento che 𝑋 ∙ 0#T, 𝑢# = 0.


Prendendo singolarmente 𝑋# 𝑢# , possiamo inoltre dire che:

𝑋# 𝑢# = 𝑋# 𝑌# − 𝛽L − 𝛽, 𝑋#

Da cui deriva che la sommatoria sarà pari a:


0 0

𝑋# 𝑢# = 𝑌# − 𝛽L − 𝛽, 𝑋# 𝑋#
#T, #T,

0 0
A questo punto, per quanto detto all'inizio di questa dimostrazione #T, 𝑋# 𝑢# = #T, 𝑢# 𝑋# − 𝑋 ,
riscriviamo in modo alternativo:
0 0

𝑋# 𝑢# = 𝑌# − 𝛽L − 𝛽, 𝑋# 𝑋# − 𝑋
#T, #T,

Sostituiamo ora lo stimatore 𝛽L :


0 0

𝑋# 𝑢# = 𝑌# − (𝑌 − 𝛽, ∙ 𝑋) − 𝛽, 𝑋# 𝑋# − 𝑋
#T, #T,

32

Luca Biglieri

0 0

𝑋# 𝑢# = 𝑌# − 𝑌 − 𝛽, ∙ 𝑋# − 𝑋 𝑋# − 𝑋
#T, #T,

0 0
.
𝑋# 𝑢# = 𝑌# − 𝑌 𝑋# − 𝑋 − 𝛽, ∙ 𝑋# − 𝑋
#T, #T,

0 0 0

𝑋# 𝑢# = 𝑌# − 𝑌 𝑋# − 𝑋 − 𝛽, ∙ 𝑋# − 𝑋 .
#T, #T, #T,

Sostituiamo ora lo stimatore 𝛽, :


0 0 0 0
#T, 𝑌# − 𝑌 𝑋# − 𝑋
𝑋# 𝑢# = 𝑌# − 𝑌 𝑋# − 𝑋 − 0 .
∙ 𝑋# − 𝑋 .
#T, #T, #T, 𝑋# − 𝑋 #T,

0 0 0

𝑋# 𝑢# = 𝑌# − 𝑌 𝑋# − 𝑋 − 𝑌# − 𝑌 𝑋# − 𝑋
#T, #T, #T,

𝑋# 𝑢# = 0
#T,

3.4 Misure di Bontà della Regressione


Esistono due statistiche di regressione che forniscono delle misure di bontà dell'adattamento ai dati della regressione
stessa:

- L'indice 𝑹𝟐 rappresenta un coefficiente di determinazione per la regressione lineare: esso indica la frazione (la
percentuale) della varianza di 𝑌 che viene spiegata dalla regressione, ovvero dalla varianza dei valori previsti.
Come vedremo nel paragrafo successivo, se e solo se la regressione comprende anche l'intercetta si avrà che
0 ≤ 𝑅 . ≤ 1 e, in particolare, 𝑅 . = 1 indica un perfetto adattamento (relazione lineare perfetta tra le due
variabili), mentre 𝑅 . = 0 indica una completa assenza di adattamento.

- L'errore standard della regressione (𝑺𝑬𝑹) rappresenta l'errore standard del residuo e fornisce una misura della
distanza di 𝑌# da 𝑌# .

3.4.1 La Statistica 𝑹𝟐

Per arrivare a definire la statistica 𝑅 . della regressione lineare, dobbiamo definire altre tre statistiche:

- 𝑇𝑆𝑆 (Total Sum of Squares) rappresenta una stima della varianza di 𝑌;


- 𝑆𝑆𝑅 (Sum of Squared Residuals) rappresenta la somma dei quadrati delle differenze tra i residui e la media
campionaria dei residui stessi;
- 𝐸𝑆𝑆 (Explained Sum of Squares) rappresenta la somma dei quadrati delle differenze tra i valori previsti e la
media campionaria dei valori previsti.

Più formalmente, avremo che:


33

Luca Biglieri

0

𝑇𝑆𝑆 = 𝑌# − 𝑌 .
#T,

0 0
. .
𝑆𝑆𝑅 = 𝑢# − 𝑢 = 𝑌# − 𝑌#
#T, #T,

0
.
𝐸𝑆𝑆 = 𝑌# − 𝑌
#T,

Facendo riferimento alle proprietà viste in precedenza, e sapendo in particolare che 𝑌 = 𝑌 e che 𝑢 = 0, potremo
riscrivere in modo alternativo gli ultimi due indicatori:
0 0 0
. .
𝑆𝑆𝑅 = 𝑢# − 𝑢 = 𝑌# − 𝑌# = 𝑢#.
#T, #T, #T,

0 0
. .
𝐸𝑆𝑆 = 𝑌# − 𝑌 = 𝑌# − 𝑌
#T, #T,

A questo punto, partiamo dal 𝑇𝑆𝑆 e rielaboriamolo in modo da arrivare, alla fine, a una formulazione di 𝑅 . .
Avendo 𝑇𝑆𝑆 = 0#T, 𝑌# − 𝑌 . , possiamo sommare e sottrarre il valore previsto:
0 0
. .
𝑇𝑆𝑆 = 𝑌# − 𝑌 = 𝑌# − 𝑌# + 𝑌# − 𝑌
#T, #T,

Svolgendo il quadrato del binomio, otteniamo che:


0 0 0
. .
𝑇𝑆𝑆 = 𝑌# − 𝑌# + 𝑌# − 𝑌 +2∙ 𝑌# − 𝑌# 𝑌# − 𝑌
#T, #T, #T,

Riconosciamo nella prima sommatoria la sommatoria dei quadrati dei residui e, nella seconda, sappiamo che possiamo
sostituire 𝑌 con 𝑌:
0 0 0
.
𝑇𝑆𝑆 = 𝑢#. + 𝑌# − 𝑌 +2∙ 𝑌# − 𝑌# 𝑌# − 𝑌
#T, #T, #T,

Abbiamo quindi individuato in questa formulazione 𝑆𝑆𝑅 ed 𝐸𝑆𝑆:


0

𝑇𝑆𝑆 = 𝑆𝑆𝑅 + 𝐸𝑆𝑆 + 2 ∙ 𝑌# − 𝑌# 𝑌# − 𝑌


#T,

Studiamo ora il doppio prodotto; anche qui, notiamo che la prima parentesi tonda equivale al residuo:
0 0 0 0

2∙ 𝑌# − 𝑌# 𝑌# − 𝑌 =2∙ 𝑢# ∙ 𝑌# − 𝑌 =2∙ 𝑢# 𝑌# − 2 ∙ 𝑢# 𝑌
#T, #T, #T, #T,

0 0 0

2∙ 𝑌# − 𝑌# 𝑌# − 𝑌 =2∙ 𝑢# 𝑌# − 2𝑌 ∙ 𝑢#
#T, #T, #T,

34

Luca Biglieri

Sapendo che 0#T, 𝑢# = 0, semplifichiamo:
0 0

2∙ 𝑌# − 𝑌# 𝑌# − 𝑌 =2∙ 𝑢# 𝑌#
#T, #T,

Proseguiamo svolgendo lo stimatore dei valori previsti, 𝑌# :


0 0

2∙ 𝑌# − 𝑌# 𝑌# − 𝑌 =2∙ 𝑢# ( 𝛽L + 𝛽, 𝑋# )
#T, #T,

0 0 0

2∙ 𝑌# − 𝑌# 𝑌# − 𝑌 = 2𝛽L ∙ 𝑢# + 2𝛽, ∙ 𝑢# 𝑋#
#T, #T, #T,

Per la proprietà della sommatoria dei residui e per la proprietà dell'ortogonalità tra residui e regressore, possiamo
quindi dire che il doppio prodotto dell'equazione originaria è nullo:
0

2∙ 𝑌# − 𝑌# 𝑌# − 𝑌 = 0
#T,

Di conseguenza, per le proprietà dei residui, ci rimane che:

𝑇𝑆𝑆 = 𝑆𝑆𝑅 + 𝐸𝑆𝑆

Detto questo, possiamo esplicitare la statistica 𝑅 . come segue:

𝟐
𝒏
𝑬𝑺𝑺 𝒊T𝟏 𝒀𝒊 − 𝒀
𝑹𝟐 = = 𝒏 𝟐

𝑻𝑺𝑺 𝒊T𝟏 𝒀𝒊 − 𝒀

Sapendo che 𝑇𝑆𝑆 = 𝑆𝑆𝑅 + 𝐸𝑆𝑆, inoltre, potremo ricavare la formulazione alternativa:
𝒏 𝟐
𝑻𝑺𝑺 − 𝑺𝑺𝑹 𝑺𝑺𝑹 𝒊T𝟏 𝒖𝒊
𝑹𝟐 = =𝟏− =𝟏− 𝒏 𝟐

𝑻𝑺𝑺 𝑻𝑺𝑺 𝒊T𝟏 𝒀𝒊 − 𝒀

Si può notare come il valore di 𝑅 . risulti compreso tra 0 e 1 𝑅 . ∈ 0, 1 solo se la regressione comprende anche
l'intercetta; inoltre, in quel caso, 𝑅 . non potrà superare il valore di 1 perché 𝐸𝑆𝑆 ≤ 𝑇𝑆𝑆.

Se 𝑅 . assume un valore elevato, gran parte della variabilità di 𝑌 è spiegata dal modello di regressione; nel caso-limite, si
avrà 𝑅 . = 1 quando 𝐸𝑆𝑆 = 𝑇𝑆𝑆 e, di conseguenza, 𝑆𝑆𝑅 = 0, ovvero quando le osservazioni si trovano esattamente
lungo la retta di regressione stimata.
Quando 𝑅 . = 0, invece, si ha 𝐸𝑆𝑆 = 0: si ottiene questo risultato quando 𝛽, = 0, ovvero quando la retta di regressione
stimata ha un'inclinazione piatta e viene stimata unicamente l'intercetta. In questo caso, si avrà 𝑌# = 𝑌: il valore
previsto, 𝑌# sarà uguale per tutti gli individui nel campione e coinciderà con l'intercetta della retta di regressione.

3.4.2 L'Errore Standard della Regressione

Il 𝑆𝐸𝑅 (Standard Error of Regression), o errore standard della regressione, misura la dispersione della distribuzione dei
residui e rappresenta (quasi) l'errore standard campionario dei residui stessi.
La sua formulazione è la seguente:

35

Luca Biglieri

0
1 . 1
𝑆𝐸𝑅 = ∙ 𝑢# − 𝑢 = ∙ 𝑆𝑆𝑅
𝑛−2 𝑛−2
#T,

Dal momento che 𝑢 = 0 per la proprietà dei residui, come già visto al paragrafo precedente, una formulazione
alternativa del 𝑆𝐸𝑅 sarà:

0
1
𝑆𝐸𝑅 = ∙ 𝑢# .
𝑛−2
#T,

Si può notare come il termine sotto radice venga diviso per 𝑛 − 2, e non per 𝑛: questo è dovuto al fatto che, per arrivare
a questa formulazione, è stato necessario stimare due parametri 𝛽L , 𝛽, e pertanto sono stati applicati due gradi di
libertà, che vengono sottratti al denominatore. Per 𝑛 grande, la differenza tra la divisione per 𝑛 e per 𝑛 − 2,
intuitivamente, si assottiglia.
Va ricordato che l'unità di misura del 𝑆𝐸𝑅 è l'unità di 𝑢, che coincide con quella della variabile 𝑌: l'errore standard della
regressione va a misurare la dimensione media del residuo, ovvero l'errore medio commesso dalla retta di regressione.

Esiste un'altra misura dell'errore standard della regressione, detta 𝑅𝑀𝑆𝐸 (Root Mean Squared Error), che si presenta in
modo molto simile al 𝑆𝐸𝑅; l'unica differenza consiste nella divisione, sotto radice, del 𝑆𝑆𝑅 per 𝑛 invece che per 𝑛 − 2:

0
1 .
1
𝑅𝑀𝑆𝐸 = ∙ 𝑢# = ∙ 𝑆𝑆𝑅
𝑛 𝑛
#T,

Per quanto detto appena sopra, per campioni grandi con 𝑛 elevato 𝑆𝐸𝑅 e 𝑅𝑀𝑆𝐸 convergono.

3.5 Assunzioni dei Minimi Quadrati Ordinari


Presentiamo di seguito tre assunzioni sotto le quali gli stimatori dei minimi quadrati ordinari rappresentano degli
stimatori adeguati per i parametri 𝛽L , 𝛽, .
Dato il modello di regressione lineare semplice 𝑌# = 𝛽L + 𝛽, 𝑋# + 𝑢# , 𝑖 = 1, 2, . . . , 𝑛, le tre assunzioni sono le seguenti:

1. La distribuzione di 𝑢# condizionata a 𝑋# ha media nulla: 𝐸 𝑢# 𝑋# = 0.


Dal momento che 𝑢# rappresenta l'errore, ovvero l'influenza di altri fattori omessi dal modello nella relazione
tra 𝑌# e 𝑋# , l'assunzione esclude che l'errore sia correlato con il regressore e implica che lo stimatore 𝛽, sia non
distorto.

2. 𝑋# , 𝑌# sono indipendenti e identicamente distribuite, 𝑖 = 1, 2, . . . , 𝑛.
Questo significa che 𝑋# , 𝑌# sono ottenute tramite campionamento casuale semplice e fornisce anche la
distribuzione campionaria di 𝑢.

3. Gli outlier sono rari, sia per 𝑋 che per 𝑌.
Tecnicamente, questo significa che 𝐸 𝑋 = < ∞, 𝐸 𝑌 = < ∞, ovvero entrambe le variabili hanno momenti quarti
finiti. Questa assunzione è necessaria perché gli outlier possono risultare privi di senso per lo stimatore 𝛽, .

36

Luca Biglieri

3.5.1 Prima Assunzione: 𝑬 𝒖𝒊 𝑿𝒊 = 𝟎

La prima assunzione dei minimi quadrati ordinari afferma che la distribuzione di 𝑢# condizionata a 𝑋# ha media nulla:
𝐸 𝑢# 𝑋# = 0.
Si tratta di un'assunzione fondamentale che, formalmente, indica che la retta di regressione debba passare per la media
di tutte le distribuzioni di 𝑌 per i vari valori di 𝑋.

In un esperimento casualizzato ideale, la variabile 𝑋 viene assegnata casualmente a individui diversi, mentre tutte le
altre caratteristiche individuali degli stessi individui (ovvero tutte le altre variabili non osservate dal modello, riassunte
dall'errore della regressione) sono distribuite in modo indipendente da 𝑋: in altri termini, 𝑢 e 𝑋 sono indipendenti.
Si può quindi affermare che, in un esperimento casualizzato ideale, vale l'assunzione 𝐸 𝑢# 𝑋# = 0 e questo ci porta a
dire che 𝐶𝑜𝑣 𝑢# , 𝑋# = 0, ovvero che residui e regressore non sono correlati (questo perché, come dimostrato al
paragrafo 2.2.4, 𝐸 𝑌 𝑋 = 𝑘 => 𝐶𝑜𝑣 𝑌, 𝑋 = 𝐶𝑜𝑟𝑟 𝑌, 𝑋 = 0); in un esperimento reale o con dati non sperimentali,
tuttavia, l'assunzione potrebbe anche non risultare valida.
Concludendo, si può quindi dire che il regressore 𝑋 non spiega in alcun modo le variabili non osservate nel modello.

3.5.2 Seconda Assunzione: 𝑿𝒊 , 𝒀𝒊 i.i.d.

La seconda assunzione prevede che 𝑋# , 𝑌# siano indipendenti e identicamente distribuite, 𝑖 = 1, 2, . . . , 𝑛.


Questa assunzione si verifica automaticamente se l'individuo esaminato viene estratto dalla popolazione tramite il
campionamento casuale semplice: le unità, infatti, sono estratte da una medesima popolazione e questo implica che
ciascuna unità sia distribuita in modo identico alle altre, per ogni 𝑖 = 1, 2, . . . , 𝑛; inoltre, il campionamento casuale
semplice implica che le varie unità siano scelte a caso, ovvero distribuite indipendentemente l'una dall'altra.
Tutto questo sta a significare, nella pratica, che la conoscenza di 𝑋q , 𝑌q non fornisce alcuna informazione aggiuntiva
riguardo alle caratteristiche di 𝑋# , 𝑌# .

Questa assunzione non vale in presenza di esperimenti in cui non vengono estratti individui tramite campionamento
casuale semplice; inoltre, se si opera con dati panel o con serie temporali (quando si registrano dati in periodi diversi per
una stessa unità), si possono incontrare campionamenti non i.i.d.

37

Luca Biglieri

3.5.3 Terza Assunzione: Outlier Rari, 𝑬 𝑿𝟒 < ∞, 𝑬 𝒀𝟒 < ∞

La terza assunzione afferma che gli outlier sono rari, sia per 𝑋 che per 𝑌, ovvero che entrambe le variabili abbiano
momenti quarti finiti (𝐸 𝑋 = < ∞, 𝐸 𝑌 = < ∞).

Un outlier rappresenta un valore estremo per una variabile che influenza fortemente i risultati della regressione: per
garantire la precisione di quest'ultima, occorre quindi supporre che questi valori estremi vengano esclusi e che 𝑋 e 𝑌
siano limitate; a livello tecnico, questo si traduce nel supporre che le due variabili abbiano momenti quarti finiti.

Nella figura si nota l'influenza dell'outlier che trascina, se viene considerato, la retta di regressione verso l'alto,
falsandone il risultato.
Molto spesso, gli outlier sono il risultato di errori di misurazione che, pertanto devono essere esclusi dal dataset
considerato per elaborare il modello di regressione.

3.5.4 Implicazioni della Prima Assunzione OLS

La prima assunzione, 𝐸 𝑢# 𝑋# = 0, può essere definita come la più importante, in quanto ha alcune implicazioni
piuttosto significative.
Ad esempio, si può dire che, per la prima assunzione, la funzione di regressione è pari al valore atteso condizionato di 𝑌#
dato 𝑋# : 𝐸 𝑌# 𝑋# = 𝛽L + 𝛽, 𝑋# .

Dimostrazione: 𝐸 𝑌# 𝑋# = 𝛽L + 𝛽, 𝑋# .

Definiamo la funzione di regressione come 𝑌# = 𝛽L + 𝛽, 𝑋# + 𝑢# ; il suo valore atteso condizionato rispetto a


𝑋# sarà:

𝐸 𝑌# 𝑋# = 𝐸 𝛽L + 𝛽, 𝑋# + 𝑢# 𝑋#

𝐸 𝑌# 𝑋# = 𝐸 𝛽L 𝑋# + 𝐸 𝛽, 𝑋# 𝑋# + 𝐸 𝑢# 𝑋#

Scomponendo il valore atteso condizionato della somma nella somma dei tre valori attesi condizionati.
Sapendo che il primo valore atteso è il valore atteso di una costante, svolgendo il secondo e tenendo conto,
per il terzo, della prima assunzione (𝐸 𝑢# 𝑋# = 0), otteniamo che:

𝐸 𝑌# 𝑋# = 𝛽L + 𝑋# 𝐸 𝛽, 𝑋# + 0

38

Luca Biglieri

𝐸 𝑌# 𝑋# = 𝛽L + 𝛽, 𝑋#

Il risultato sopra descritto e ottenuto tramite la dimostrazione sta a indicare che la retta di regressione rappresenta, in
media, la migliore spiegazione di 𝑌# , dato 𝑋# .

Un'altra implicazione significativa della prima assunzione riguarda la correlazione tra l'errore della regressione e il
regressore: come già accennato al paragrafo 3.5.1, infatti, si può dire che, assumendo che 𝐸 𝑢# 𝑋# = 0, si esclude
automaticamente che i fattori 𝑢# siano correlati con i fattori 𝑋# (ovvero, 𝐶𝑜𝑣 𝑢# , 𝑋# = 0) per la legge delle aspettative
iterate.

Dimostrazione: se 𝐸 𝑢# 𝑋# = 0, allora 𝐶𝑜𝑣 𝑢# , 𝑋# = 0.

Partiamo dalla formula alternativa della covarianza tra due variabili, per la quale la covarianza è pari al
valore atteso del prodotto delle due variabili considerate, meno il prodotto dei due valori attesi:

𝐶𝑜𝑣 𝑢# , 𝑋# = 𝐸 𝑢# ∙ 𝑋# − 𝐸 𝑢# 𝐸 𝑋#

Per quanto riguarda il secondo termine, possiamo annullarlo applicando la legge delle aspettative iterate.
Sappiamo infatti che:

𝐸 𝑢# = 𝐸” 𝐸 𝑢# 𝑋#

Ma, per la prima assunzione, 𝐸 𝑢# 𝑋# = 0; ne deriva che:

𝐸 𝑢# = 𝐸” 0 = 0

Ovvero, se il valore atteso condizionato è nullo, lo sarà anche il valore atteso non condizionato.
Pertanto, la formula della covarianza si semplifica:

𝐶𝑜𝑣 𝑢# , 𝑋# = 𝐸 𝑢# ∙ 𝑋#

Anche qui, applichiamo la legge delle aspettative iterate:

𝐸 𝑢# ∙ 𝑋# = 𝐸” 𝐸 𝑢# ∙ 𝑋# |𝑋#

𝐸 𝑢# ∙ 𝑋# = 𝐸” 𝑋# ∙ 𝐸 𝑢# |𝑋#

𝐸 𝑢# ∙ 𝑋# = 𝐸” 0 = 0

Sempre per la prima assunzione.


Pertanto:

𝐶𝑜𝑣 𝑢# , 𝑋# = 𝐸 𝑢# ∙ 𝑋# = 0

La dimostrazione appena vista ci permette dunque di osservare come, per la prima assunzione OLS, l'errore atteso degli
errori sia nullo (𝐸 𝑢# = 𝐸” 𝐸 𝑢# 𝑋# ) e come non vi sia correlazione tra errori e regressore.

Inoltre, sempre ragionando sugli errori della regressione, definito il modello come 𝑌# = 𝛽L + 𝛽, 𝑋# + 𝑢# , si può ricavare
che:

𝑢# = 𝑌# − 𝛽L + 𝛽, 𝑋#

Per la prima implicazione vista sopra, possiamo riscrivere come:

𝑢# = 𝑌# − 𝐸 𝑌# 𝑋#
39

Luca Biglieri

Questo significa che, quando 𝑢# > 0, si ha che 𝑌# > 𝐸 𝑌# 𝑋# ; viceversa, quando avviene che 𝑢# < 0, si ha che 𝑌# <
𝐸 𝑌# 𝑋# .

Facendo infine riferimento alla seconda implicazione, è piuttosto difficile affermare che in ogni situazione la
correlazione tra errori e regressore sia nulla
Prendiamo un esempio concreto, introducendo il modello di regressione 𝑊# = 𝛽L + 𝛽, 𝑋# + 𝑢# , dove la variabile
dipendente 𝑊 indica il reddito e il regressore 𝑋 rappresenta il livello di istruzione. In questo caso, porre 𝐸 𝑢# 𝑋# = 0
sembrerebbe poco plausibile: in particolare, i fattori omessi dal modello che rientrerebbero nell'errore della
regressione, come ad esempio le capacità personali degli individui considerati, sembrerebbero avere una correlazione
positiva sia con il regressore che con la variabile dipendente.
Questo modello di regressione rappresenta una semplificazione dell'equazione del reddito di Mincer, la quale, pur
considerando un numero di regressori maggiore, omette comunque il fattore delle abilità individuali.

3.6 Distribuzione Campionaria degli Stimatori OLS

Gli stimatori OLS 𝛽L , 𝛽, sono calcolati per un campione di dati estratto casualmente e, per questo motivo, vanno
considerati anch'essi come variabili casuali con una distribuzione di probabilità (distribuzione campionaria) che descrive
i loro valori nei diversi campioni possibili: un campione diverso porta a una diversa stima di 𝛽, e questa è l'origine
dell'"incertezza campionaria" di tale stimatore.
Per questo motivo, per procedere ai passaggi successivi (quantificare l'incertezza campionaria, usare 𝛽, per verificare
l'ipotesi 𝛽, = 0, costruire un intervallo di confidenza per tale ipotesi), occorre innanzitutto determinare la distribuzione
campionaria degli stimatori OLS.

Nel determinare la distribuzione campionaria degli stimatori OLS, occorre tenere come riferimento quanto viene
riepilogato dalle tre assunzioni dei minimi quadrati ordinari:

- Popolazione, gruppo di interesse;


- Variabili casuali 𝑋 (regressore) e 𝑌 (variabile dipendente);
- Distribuzione congiunta di 𝑌, 𝑋, assumendo che la funzione di regressione sia lineare, che 𝐸 𝑢# 𝑋# = 0 (prima
assunzione) e che 𝐸 𝑋 = < ∞, 𝐸 𝑌 = < ∞ (terza assunzione);
- Raccolta dei dati mediante campionamento casuale semplice: 𝑋# , 𝑌# indipendenti e identicamente distribuite,
𝑖 = 1, 2, . . . , 𝑛 (seconda assunzione).

3.6.1 Media della Distribuzione Campionaria di 𝜷𝟏

Per quanto appena detto, sappiamo che 𝛽, , in quanto variabile casuale, sarà caratterizzato da una distribuzione
campionaria. Dovremo quindi studiarne la media 𝐸[𝛽, ] in modo tale che, se 𝐸 𝛽, = 𝛽, , lo stimatore OLS possa essere
considerato corretto (non distorto).

Per la definizione ricavata al paragrafo 3.2.2, sappiamo che lo stimatore OLS della pendenza si presenta come segue:
0
#T, 𝑌# − 𝑌 𝑋# − 𝑋
𝛽, = 0 .

#T, 𝑋# − 𝑋

40

Luca Biglieri

Consideriamo il numeratore e andiamo a sostituire il termine 𝑌# − 𝑌 utilizzando la definizione del modello di
regressione lineare. Sappiamo infatti che:

𝑌# = 𝛽L + 𝛽, 𝑋# + 𝑢#

𝑌 = 𝛽L + 𝛽, 𝑋 + 𝑢

Pertanto, otteniamo che:

𝑌# − 𝑌 = 𝛽, 𝑋# − 𝛽, 𝑋 + 𝑢# − 𝑢

𝑌# − 𝑌 = 𝛽, 𝑋# − 𝑋 + 𝑢# − 𝑢

Sostituiamo quanto ricavato nell'equazione dello stimatore:


0
#T, 𝛽, 𝑋# − 𝑋 + 𝑢# − 𝑢 𝑋# − 𝑋
𝛽, = 0 .

#T, 𝑋# − 𝑋

Scomponiamo ora la frazione in due parti separate:


0 . 0
#T, 𝛽, 𝑋# − 𝑋 #T, 𝑢# − 𝑢 𝑋# − 𝑋
𝛽, = 0 .
+ 0 .

#T, 𝑋# − 𝑋 #T, 𝑋# − 𝑋

0 . 0
#T, 𝑋# − 𝑋 #T, 𝑢# − 𝑢 𝑋# − 𝑋
𝛽, = 𝛽, 0 .
+ 0 .

#T, 𝑋# − 𝑋 #T, 𝑋# − 𝑋

0
#T, 𝑢# − 𝑢 𝑋# − 𝑋
𝛽, = 𝛽, + 0 .

#T, 𝑋# − 𝑋

Applichiamo ora l'operatore valore atteso:


0
#T, 𝑢# − 𝑢 𝑋# − 𝑋
𝐸 𝛽, = 𝐸 𝛽, + 𝐸 0 .

#T, 𝑋# − 𝑋

0
#T, 𝑢# − 𝑢 𝑋# − 𝑋
𝐸 𝛽, = 𝛽, + 𝐸 0 .

#T, 𝑋# − 𝑋

Operiamo ora sul numeratore della frazione; svolgendo la moltiplicazione, ricaviamo che:
0 0 0

𝑢# − 𝑢 𝑋# − 𝑋 = 𝑋# − 𝑋 𝑢# − 𝑋# − 𝑋 𝑢
#T, #T, #T,

0 0 0

𝑢# − 𝑢 𝑋# − 𝑋 = 𝑋# − 𝑋 𝑢# − 𝑢 𝑋# − 𝑋
#T, #T, #T,

0
Ma abbiamo già visto come #T, 𝑋# − 𝑋 = 0; possiamo quindi semplificare:
0 0

𝑢# − 𝑢 𝑋# − 𝑋 = 𝑋# − 𝑋 𝑢#
#T, #T,

Di conseguenza, il valore atteso dello stimatore sarà:

41

Luca Biglieri

0
#T, 𝑋# − 𝑋 𝑢#
𝐸 𝛽, = 𝛽, + 𝐸 0 .

#T, 𝑋# − 𝑋

A questo punto, applichiamo al termine a destra la legge delle aspettative iterate, condizionando per tutte le 𝑋:

0
#T, 𝑋# − 𝑋 𝑢#
𝐸 𝛽, = 𝛽, + 𝐸” 𝐸 0 .
|𝑋, , 𝑋. , … , 𝑋0
#T, 𝑋# − 𝑋

Le sommatorie possono essere portate fuori dal valore atteso, dal momento che si sta condizionando per tutte le 𝑋:

0
#T, 𝑋# − 𝑋
𝐸 𝛽, = 𝛽, + 𝐸” 0 .
∙ 𝐸 𝑢# 𝑋, , 𝑋. , … , 𝑋0
#T, 𝑋# − 𝑋

Per le assunzioni dei minimi quadrati ordinari, sappiamo che 𝑋# , 𝑌# sono indipendenti: questo significa che 𝑢# è
indipendente da tutti gli 𝑋# . Di conseguenza, avremo che 𝐸 𝑢# 𝑋, , 𝑋. , … , 𝑋0 = 𝐸 𝑢# 𝑋# :
0
#T, 𝑋# − 𝑋 ∙ 𝐸 𝑢# 𝑋#
𝐸 𝛽, = 𝛽, + 𝐸” 0 .

#T, 𝑋# − 𝑋

Per la prima assunzione, sappiamo che 𝐸 𝑢# 𝑋# = 0. Di conseguenza, il secondo addendo a destra dell'uguale si annulla
e otteniamo che:

𝑬 𝜷𝟏 = 𝜷𝟏

Abbiamo così dimostrato che lo stimatore OLS della pendenza è corretto.

3.6.2 Media della Distribuzione Campionaria di 𝜷𝟎

Procediamo ora in modo simile per calcolare la media dello stimatore dell'intercetta nella regressione lineare semplice,
ovvero 𝐸[𝛽L ] in modo tale che, se 𝐸 𝛽L = 𝛽L , anche questo stimatore OLS possa essere considerato corretto (non
distorto).

Per definizione (paragrafo 3.2.1), lo stimatore OLS dell'intercetta si presenta come segue:

𝛽L = 𝑌 − 𝛽, ∙ 𝑋

Calcoliamo il valore atteso:

𝐸 𝛽L = 𝐸 𝑌 − 𝛽, ∙ 𝑋

Sapendo che 𝑌 = 𝛽L + 𝛽, 𝑋 + 𝑢, sostituiamo:

𝐸 𝛽L = 𝐸 𝛽L + 𝛽, 𝑋 + 𝑢 − 𝛽, ∙ 𝑋

𝐸 𝛽L = 𝐸 𝛽L + 𝐸 𝛽, 𝑋 + 𝐸 𝑢 − 𝐸 𝛽, ∙ 𝑋

𝐸 𝛽L = 𝛽L + 𝛽, 𝐸 𝑋 + 𝐸 𝑢 − 𝐸 𝛽, ∙ 𝑋

Nell'ultimo valore atteso, applichiamo la legge dei valori attesi iterati, ponendo 𝐸 𝛽, ∙ 𝑋 = 𝐸” 𝐸 𝛽, ∙ 𝑋 𝑋 , dove 𝑋 =
𝑋, , 𝑋. , … , 𝑋0 :

42

Luca Biglieri

𝐸 𝛽L = 𝛽L + 𝛽, 𝐸 𝑋 + 𝐸 𝑢 − 𝐸” 𝐸 𝛽, ∙ 𝑋 𝑋

Possiamo in questo modo portare 𝑋 fuori dal valore atteso più interno:

𝐸 𝛽L = 𝛽L + 𝛽, 𝐸 𝑋 + 𝐸 𝑢 − 𝐸” 𝑋 ∙ 𝐸 𝛽, 𝑋

Sapendo che 𝐸 𝛽, = 𝛽, (paragrafo 3.6.1) e che tale risultato vale anche per il valore atteso condizionato, sostituiamo:

𝐸 𝛽L = 𝛽L + 𝛽, 𝐸 𝑋 + 𝐸 𝑢 − 𝐸” 𝑋 ∙ 𝛽,

𝐸 𝛽L = 𝛽L + 𝛽, 𝐸 𝑋 + 𝐸 𝑢 − 𝛽, ∙ 𝐸” 𝑋

Il secondo termine e il quarto si annullano:

𝐸 𝛽L = 𝛽L + 𝐸 𝑢

Esplicitiamo ora la media campionaria degli errori:


0
1
𝐸 𝛽L = 𝛽L + 𝐸 𝑢#
𝑛
#T,

0
1
𝐸 𝛽L = 𝛽L + 𝐸 𝑢#
𝑛
#T,

Al paragrafo 3.5.4 abbiamo però dimostrato che 𝐸 𝑢# = 0; otteniamo dunque:

𝑬 𝜷𝟎 = 𝜷𝟎

Abbiamo così dimostrato che lo stimatore OLS dell'intercetta è corretto.

3.6.3 Nota sulla Correttezza degli Stimatori OLS

Dimostrata la correttezza degli stimatori OLS 𝛽L , 𝛽, , possiamo dire che, se uno stimatore è corretto condizionatamente
a una variabile, lo sarà anche non condizionatamente, per la legge dei valori attesi iterati.
Supponiamo, ad esempio, di considerare 𝛽, ; il valore atteso di tale stimatore, per la legge dei valori attesi iterati, si
potrà scrivere come segue:

𝐸 𝛽, = 𝐸” 𝐸 𝛽, 𝑋

Da questa formulazione deriva che, se 𝐸 𝛽, 𝑋 = 𝛽, , ovvero se lo stimatore è corretto condizionatamente, si avrà che:

𝐸 𝛽, = 𝐸” 𝛽,

𝐸 𝛽, = 𝛽,

Ovvero, lo stimatore sarà corretto anche non condizionatamente.

3.6.4 Distribuzione Asintotica di 𝜷𝟏


43

Luca Biglieri

Per ricavare la distribuzione asintotica dello stimatore OLS della pendenza della regressione lineare semplice, partiamo
dalla formula utilizzata nel ricavare la media di questo stimatore:
0
#T, 𝑢# − 𝑢 𝑋# − 𝑋
𝛽, = 𝛽, + 0 .

#T, 𝑋# − 𝑋

0
#T, 𝑋# − 𝑋 𝑢#
𝛽, − 𝛽, = 0 .

#T, 𝑋# − 𝑋

Definendo 𝑣# = 𝑋# − 𝑋 𝑢# , potremo poi ricavare la formulazione alternativa:


0
#T, 𝑣#
𝛽, − 𝛽, = 0 .

#T, 𝑋# − 𝑋

Analizzando questa scrittura, notiamo come il denominatore della frazione sia pari allo stimatore campionario della
, 0
varianza, moltiplicato per 𝑛 − 1 (infatti, 𝑆”. = ∙ #T, 𝑋# − 𝑋 . ), mentre il numeratore, essendo un prodotto di
0|,
variabili casuali (sia 𝑋# che 𝑋 che 𝑢# sono variabili casuali), sarà anch'esso una variabile casuale.
Le sommatorie, dunque, rappresentano delle somme di variabili casuali indipendenti e identicamente distribuite: si
potrà modificare dunque la formulazione, andando a considerare le loro medie e applicando, in seguito, il teorema del
limite centrale (verificando che le sue condizioni siano rispettate).

Riscriviamo quindi 𝛽, − 𝛽, esplicitando le medie delle variabili casuali a destra dell'uguale; dividiamo quindi sia il
numeratore che il denominatore per 𝑛:

1 0
∙ #T, 𝑣#
𝛽, − 𝛽, = 𝑛
1 0 .
∙ 𝑋# − 𝑋
𝑛 #T,

Operiamo poi sul solo denominatore, moltiplicandolo e dividendolo per (𝑛 − 1), in modo da identificare al suo interno
la formula della varianza campionaria:

1 0
∙ #T, 𝑣#
𝛽, − 𝛽, = 𝑛
𝑛−1 1
∙ ∙ 0#T, 𝑋# − 𝑋 .
𝑛 𝑛−1

A questo punto, andiamo a considerare un campione di grandi dimensioni, calcolando i limiti per 𝑛 → ∞:
0|, , 0
- Al denominatore, troviamo che lim = 1, mentre lim ∙ #T, 𝑋# − 𝑋 .
= 𝑝𝑙𝑖𝑚 𝑆”. = 𝜎”. , ovvero
0→ž 0 0→ž 0|,
U
𝑆”. 𝜎”. (ovvero, la varianza campionaria è uno stimatore consistente della varianza della popolazione;
dimostrazione al paragrafo 2.4.2).
Da questo risulta dunque che, per 𝑛 → ∞, il denominatore convergerà in probabilità a 𝜎”. .

, 0 , 0
- Al numeratore, dobbiamo considerare ∙ #T, 𝑣# = ∙ #T, 𝑋# − 𝑋 𝑢# ; andremo a calcolarne il valore per
0 0
𝑛 → ∞ utilizzando il teorema del limite centrale.

Operiamo quindi sul numeratore, verificando che esso soddisfi le condizioni per applicare il teorema del limite centrale.
Notiamo innanzitutto che le variabili 𝑣# sono variabili casuali indipendenti e identicamente distribuite, dal momento che
anche le variabili 𝑋# , 𝑌# hanno queste caratteristiche.
Inoltre, la media di 𝑣# risulta nulla, per la legge delle aspettative iterate e per la prima assunzione degli stimatori OLS:
44

Luca Biglieri

𝐸 𝑣# = 𝐸 𝑋# − 𝑋 𝑢#

𝐸 𝑣# = 𝐸” 𝐸 𝑋# − 𝑋 𝑢# 𝑋#

𝐸 𝑣# = 𝐸” 𝑋# − 𝑋 ∙ 𝐸 𝑢# 𝑋#

𝐸 𝑣# = 𝐸” 𝑋# − 𝑋 ∙ 0

𝐸 𝑣# = 0

La varianza di 𝑣# , infine, può essere considerata finita perché si applica la disuguaglianza di Cauchy-Schwartz2:

𝜎Ê. = 𝑉𝑎𝑟 𝑋# − 𝑋 𝑢#

𝜎Ê. = 𝐸 𝑋# − 𝑋 . 𝑢#.

.
𝜎Ê. = 𝐸 𝑋# − 𝑋 . 𝑢#. ≤ 𝐸 𝑋# − 𝑋 . . ∙ 𝐸 𝑢#.

𝜎Ê. ≤ 𝐸 𝑋# − 𝑋 = ∙ 𝐸 𝑢#=

Per la terza assunzione OLS, 𝐸 𝑋 = < ∞, 𝐸 𝑌 = < ∞, quindi entrambe le radici sono finite. Ne deriva che:

𝜎Ê. < ∞

Le condizioni per l'applicazione del teorema del limite centrale, dunque, sono rispettate.

Verificate le condizioni, applichiamo il teorema sul numeratore. Possiamo dire, in virtù del teorema del limite centrale,
che:
0
1 ]
𝑛∙ ∙ 𝑣# 𝑁 𝐸 𝑣# , 𝑉𝑎𝑟 𝑣#
𝑛
#T,

0
1 ]
𝑛∙ ∙ 𝑣# 𝑁 0, 𝜎Ê.
𝑛
#T,

0
1 ] 𝜎Ê.
∙ 𝑣# 𝑁 0,
𝑛 𝑛
#T,

vËx
Il numeratore di 𝛽, − 𝛽, , dunque, converge in distribuzione a una normale 0, .
0

Sapendo la convergenza in distribuzione del numeratore e la convergenza in probabilità del denominatore a 𝜎”. ,
utilizziamo il teorema di Cramer-Slutsky3. Sapendo che, data una generica variabile 𝑋 ~ 𝑁 0, 𝜎 . , si ha che
” L vx vx
~ 𝑁 , = 𝑁 0, , otteniamo nel nostro caso che:
V V Vx Vx


2
Disuguaglianza di Cauchy-Schwartz: date le variabili casuali 𝑋, 𝑌, 𝐸 𝑋𝑌 ≤ 𝐸 𝑋 . ∙ 𝐸 𝑌 . .
3 U ]
Teorema di Cramer-Slutsky. Date due variabili casuali 𝑋0 , 𝑌0 tali che 𝑋0 𝑐, costante, e 𝑌0 𝑌, variabile casuale, si ha che:
]
- 𝑋0 ∙ 𝑌0 𝑐 ∙ 𝑌
”h ] V oh ] o
- ,
oh o ”h V
45

Luca Biglieri

𝟏 𝒏 𝝈𝟐𝒗
∙ 𝒊T𝟏 𝒗𝒊 𝒅
𝜷𝟏 − 𝜷𝟏 = 𝒏 𝑵 𝟎, 𝒏
𝒏−𝟏 𝟏 𝝈𝟐𝑿
𝟐
∙ ∙ 𝒏 𝑿 −𝑿 𝟐
𝒏 𝒏 − 𝟏 𝒊T𝟏 𝒊

Questa formula rappresenta quindi una delle possibili formulazioni della distribuzione asintotica dello stimatore della
pendenza, che può essere esplicitata anche nei seguenti modi:

] 𝜎Ê.
𝑛 𝛽, − 𝛽, 𝑁 0,
𝜎”. .

𝝈𝟐𝒗
𝒅 𝒏
𝜷𝟏 𝑵 𝜷𝟏 , 𝟐

𝝈𝟐𝑿

L'ultima di queste formulazioni, in cui lo stimatore OLS della pendenza viene isolato, rappresenta la distribuzione
asintotica di 𝛽, vera e propria.

¨x
Ë
h vËx
Osservando la varianza della distribuzione asintotica, x x
= x x , si nota come la varianza di 𝛽, diminuisca
v— 0 v—
all'aumentare di 𝑛, ma anche all'aumentare di 𝜎”. : quanto più i dati sono numerosi e variabili nell'ascissa, tanto più lo
stimatore della pendenza della retta di regressione sarà efficiente.
La relazione inversa tra 𝜎”. e la varianza di 𝛽, può essere notata anche dalla seguente figura:

Una retta di regressione risulterà più precisa nello stimare la dispersione dei punti neri, che hanno una maggiore
dispersione lungo l'asse orizzontale, mentre fornirà una stima meno efficiente se si considerano i punti grigi, che hanno
una 𝜎”. minore.

3.6.5 Consistenza di 𝜷𝟏


]
- 𝑋0 + 𝑌0 𝑐 + 𝑌
]
- 𝑋0 − 𝑌0 𝑐 − 𝑌
46

Luca Biglieri

U
Dimostriamo ora che 𝛽, è uno stimatore consistente di 𝛽, , ovvero che 𝛽, 𝛽, (che equivale a scrivere che 𝑝𝑙𝑖𝑚 𝛽, =
𝛽, ).

Partiamo dalla formulazione già utilizzata nei paragrafi precedenti:


0
#T, 𝑋# − 𝑋 𝑢#
𝛽, − 𝛽, = 0 .

#T, 𝑋# − 𝑋

1 0
∙ #T, 𝑋# − 𝑋 𝑢#
𝛽, − 𝛽, = 𝑛
𝑛−1 1
∙ ∙ 0#T, 𝑋# − 𝑋 .
𝑛 𝑛−1

Facendo riferimento a questa scrittura, dovremo dimostrare che 𝑝𝑙𝑖𝑚 𝛽, − 𝛽, = 0, una formulazione equivalente a
𝑝𝑙𝑖𝑚 𝛽, = 𝛽, per poter affermare che lo stimatore della pendenza è consistente.

0|, ,
Procederemo utilizzando le proprietà del 𝑝𝑙𝑖𝑚4, sapendo che, al denominatore, abbiamo che 𝑝𝑙𝑖𝑚 ∙ ∙
0 0|,
0
#T, 𝑋# − 𝑋 .
= 𝜎”. .
, 0
Dobbiamo calcolare, prima di andare avanti, il 𝑝𝑙𝑖𝑚 del numeratore, ovvero 𝑝𝑙𝑖𝑚 ∙ #T, 𝑋# − 𝑋 𝑢# =
0
, 0
𝑝𝑙𝑖𝑚 ∙ #T, 𝑣# e lo faremo utilizzando la legge dei grandi numeri, dopo aver verificato che le sue condizioni siano
0
soddisfatte:

- Dalla legge delle aspettative iterate e dalla prima assunzione OLS, ricaviamo che 𝐸 𝑣# = 0 (dimostrato al
paragrafo 3.6.4);
- Dalla terza assunzione OLS e dal teorema di Cauchy-Schwartz, ricaviamo che 𝜎Ê. < ∞ (dimostrato al paragrafo
3.6.4).

Le condizioni risultano soddisfatte, pertanto si può applicare la legge dei grandi numeri al numeratore:
0
1 U
∙ 𝑣# 𝐸 𝑣# = 0
𝑛
#T,

, 0
O, in altri termini, 𝑝𝑙𝑖𝑚 ∙ #T, 𝑣# = 0.
0

Di conseguenza, per le proprietà del 𝑝𝑙𝑖𝑚, otteniamo che:

1 0 1 0
∙ #T, 𝑋# − 𝑋 𝑢# 𝑝𝑙𝑖𝑚
∙ #T, 𝑋# − 𝑋 𝑢#
𝑝𝑙𝑖𝑚 𝛽, − 𝛽, = 𝑝𝑙𝑖𝑚 𝑛 = 𝑛
𝑛−1 1 𝑛−1 1
∙ ∙ 0 𝑋 −𝑋 . 𝑝𝑙𝑖𝑚 ∙ ∙ 0 𝑋 −𝑋 .
𝑛 𝑛 − 1 #T, # 𝑛 𝑛 − 1 #T, #

𝟎
𝒑𝒍𝒊𝒎 𝜷𝟏 − 𝜷𝟏 = = 𝟎
𝝈𝟐𝑿

Che, come detto sopra, è una formulazione equivalente a:


4 U U
Proprietà del 𝑝𝑙𝑖𝑚. Se, date due variabili casuali 𝑋0 , 𝑌0 , si ha che 𝑝𝑙𝑖𝑚 𝑋0 = 𝑐 (𝑋0 𝑐) e che 𝑝𝑙𝑖𝑚 𝑌0 = 𝑑 (𝑌0 𝑑), allora:
- 𝑝𝑙𝑖𝑚 𝑋0 + 𝑌0 = 𝑐 + 𝑑
- 𝑝𝑙𝑖𝑚 𝑋0 − 𝑌0 = 𝑐 − 𝑑
- 𝑝𝑙𝑖𝑚 𝑋0 ∙ 𝑌0 = 𝑐 ∙ 𝑑
” V
- 𝑝𝑙𝑖𝑚 h =
oh ]
47

Luca Biglieri

𝒑𝒍𝒊𝒎 𝜷𝟏 = 𝜷𝟏

Possiamo quindi affermare che 𝛽, rappresenta uno stimatore consistente per 𝛽, .

48

Luca Biglieri

4. Inferenza nel Modello di Regressione Lineare Semplice
4.1 Statistica-Test e Verifica di Ipotesi nel Modello di Regressione
La statistica inferenziale, all'interno del modello di regressione lineare semplice, è uno strumento utile per stimare la
pendenza della retta di regressione: disponendo dei dati estratti da un campione (che sono viziati da incertezza
campionaria), si dovrà procedere identificando una popolazione e fornendo per essa un opportuno stimatore, di cui
bisognerà derivare la distribuzione campionaria. Dalla varianza dello stimatore si potrà poi estrarre il suo errore
´¬#(\¬W[Y|Ê\XW[Y #UW¬#ÓÓ\¬W
standard, che verrà usato per costruire le statistiche-test (𝑡 = ) utili per la verifica di ipotesi e
·Ž ]YXXW ´¬#(\¬W[Y
per la costruzione di intervalli di confidenza.

Nel caso della regressione lineare, il parametro della popolazione che andrà stimato tramite l'inferenza sarà 𝛽, , la
∆o
pendenza della retta di regressione. Questo parametro rappresenta l'impatto della variazione di 𝑋 su 𝑌 𝛽, = , da
∆”
studiare tenendo in considerazione le tre assunzioni degli stimatori OLS.
Nel capitolo precedente, abbiamo ricavato la distribuzione asintotica dello stimatore di questo parametro e sappiamo,
dunque, che, per 𝑛 → ∞, si ha che:

] 𝜎Ê.
𝛽, 𝑁 𝛽, ,
𝑛 𝜎”. .

Dove 𝑣# = 𝑋# − 𝑋 𝑢# .
Utilizzando questa distribuzione, si potrà impostare un problema di verifica di ipotesi del tipo 𝐻L : 𝛽, = 𝛽,,L contro la
bilaterale 𝐻, : 𝛽, ≠ 𝛽,,L . Solitamente, nell'ambito della regressione lineare, si pone 𝛽,,L = 0: in questo caso, accettare
l'ipotesi nulla significa affermare che la retta di regressione ha una pendenza nulla, ovvero che 𝑋 non ha alcun impatto
su 𝑌.
La statistica-test, in questo contesto, si presenterà dunque come segue:

𝛽, − 𝛽,,L
𝑡=
𝑆𝐸 𝛽,

Ottenuta tale statistica e fissato un livello di significatività per il test (ad esempio, del 5%), si potrà rifiutare l'ipotesi
nulla se 𝑡 > 1,96 o, in alternativa, se il p-value risulterà minore del livello di significatività fissato, come visto nei
capitoli precedenti riguardo alle regole generali della verifica di ipotesi.
Se si fissa come ipotesi nulla 𝛽, = 0, sarà conveniente, nel contesto della regressione, rifiutare l'ipotesi nulla, dal
momento che essa sta a rappresentare un caso in cui la retta di regressione non ha alcun significato.

4.2 Verifica di Ipotesi nella Regressione Lineare Semplice

4.2.1 L'Errore Standard di 𝜷𝟏 e Costruzione della Statistica-Test

Nel capitolo precedente abbiamo visto come, per un campione di grandi dimensioni, la varianza dello stimatore 𝛽,
assuma la seguente forma:

𝜎Ê.
𝜎¸. =
¹ 𝑛 𝜎”. .

O, esplicitando 𝑣# = 𝑋# − 𝑋 𝑢# :

49

Luca Biglieri

𝑉𝑎𝑟 𝑋# − 𝑋 𝑢#
𝜎¸. =
¹ 𝑛 𝜎”. .

Partendo da qui, ricaviamo lo stimatore della varianza di 𝛽, , dal momento che l'errore standard di 𝛽, , ovvero la variabile

che serve per costruire la statistica-test, si presenta come 𝑆𝐸(𝛽, ) = 𝜎¸. .


¹

Questo stimatore si ricaverà come segue:

1 𝑆𝑡𝑖𝑚𝑎𝑡𝑜𝑟𝑒 𝑑𝑖 𝜎Ê.
𝜎¸. = ∙
¹ 𝑛 𝑆𝑡𝑖𝑚𝑎𝑡𝑜𝑟𝑒 𝑑𝑖 𝜎”. .

Ovvero, si avrà che:

1 0
1 𝑛−2∙ #T, 𝑋# − 𝑋 . 𝑢#.
𝜎¸. = ∙ .
¹ 𝑛 1 0 .
∙ 𝑋# − 𝑋
𝑛 #T,

𝟏
𝟏 ∙ 𝒏 𝒗𝟐
𝝈𝟐𝜷 = ∙ 𝒏 − 𝟐 𝒊T𝟏 𝒊
𝟏 𝒏 𝟏 𝒏 𝟐
∙ 𝒊T𝟏 𝑿𝒊 − 𝑿 𝟐
𝒏

Dove 𝑣# = 𝑋# − 𝑋 𝑢# e 𝑢# = 𝑌# − 𝛽L − 𝛽, 𝑋# ; da questa formulazione si nota il perché, allo stimatore del numeratore,


siano stati tolti due gradi di libertà: sono presenti due stimatori, 𝛽L e 𝛽, , per i due coefficienti del modello.

L'errore standard di 𝛽, , dunque, si presenterà come:

1
1 ∙ 0 𝑣.
𝑆𝐸(𝛽, ) = 𝜎¸. = ∙ 𝑛 − 2 #T, #
¹ 𝑛 1 0 .
∙ #T, 𝑋# − 𝑋 .
𝑛

Si tratta di una formula all'apparenza molto complicata, che tuttavia viene calcolata automaticamente dai software di
regressione.
¸¹ |¸¹,®
Inoltre, data la statistica-test 𝑡 = , si potrà dire che:
·Ž ¸¹

𝛽, − 𝛽,,L
𝑡=
1 0 .
1 ∙ #T, 𝑣#
∙ 𝑛−2
𝑛 1 0
.
∙ 𝑋# − 𝑋 .
𝑛 #T,

] vËx
Sapendo, dal capitolo precedente, che 𝛽, − 𝛽, 𝑁 0, x x , potremo affermare che, sotto l'ipotesi nulla 𝐻L : 𝛽, =
0 v—
𝛽,,L , la distribuzione della statistica-test sarà una normale standard:

]
𝛽, − 𝛽,,L 𝑁 0, 𝜎¸.
¹

𝛽, − 𝛽,,L ]
𝑁 0,1
𝜎¸.
¹

50

Luca Biglieri

]
𝑡 𝑁 0,1

4.2.2 Esempio di Verifica di Ipotesi su 𝜷𝟏

Data la statistica test costruita e distribuita come detto al paragrafo precedente, per risolvere un problema di verifica di
ipotesi riguardante il parametro 𝛽, si dovrà seguire il procedimento standard: vengono fissate le due ipotesi 𝐻L : 𝛽, =
𝛽,,L , 𝐻, : 𝛽, ≠ 𝛽,,L (solitamente con 𝛽,,L = 0), viene fissato il livello di significatività desiderato (𝛼, solitamente 𝛼 = 5%)
e si procede confrontando 𝑡 con il valore critico della distribuzione per tale livello di significatività (con ipotesi 𝐻,
bilaterale e 𝛼 = 5%, si rifiuta 𝐻L se 𝑡 > 1,96.

Vediamo un esempio pratico, riprendendo la relazione tra rapporto studenti/insegnanti nelle classi e punteggio medio
nei test. Supponiamo che, dopo l'analisi dei dati, si ricavi il seguente modello di regressione:

698.9 2.28
𝑝𝑢𝑛𝑡 = − ∙ 𝑆𝑇𝑅
(10.4) (0.52)

Dove 698.9 = 𝛽L , −2.28 = 𝛽, e i termini tra parentesi rappresentano gli errori standard di 𝛽L , 𝛽, .

Sapendo che la relazione tra le due variabili considerate è negativa, impostiamo il problema di verifica di ipotesi
ponendo 𝐻L : 𝛽, = −1, 𝐻, : 𝛽, ≠ −1; si tratta di un'ipotesi diversa da quella classica della regressione, con 𝛽,,L = 0, ma
può avere senso se, come in questo caso, il significato economico e/o teorico sottostante al modello lo prevede.
Innanzitutto, calcoliamo la statistica-test:

𝛽, − 𝛽,,L
𝑡=
𝑆𝐸 𝛽,

−2.28 − 1
𝑡= = −6,3
0.52

Fissato un livello di significatività del 5%, confronteremo il valore assoluto della statistica-test con il valore critico della
distribuzione per il livello di significatività scelto:

𝑡 = 6.3 > 1.96

Pertanto, al livello di significatività del 5%, l'ipotesi nulla 𝐻L : 𝛽, = −1 viene rifiutata.

Consideriamo ora un test unilaterale generico, con 𝐻L : 𝛽, = 0, 𝐻, : 𝛽, < 0.


Anche in questo caso, si procederà alla costruzione della statistica-test:

𝛽, − 𝛽,,L 𝛽, − 0
𝑡= =
𝑆𝐸 𝛽, 𝑆𝐸 𝛽,

𝛽, ]
𝑡= 𝑁 0,1
𝑆𝐸 𝛽,

In questo caso, la regione di rifiuto della distribuzione normale standard della statistica-test comprenderà solamente la
coda sinistra e, per 𝛼 = 5%, il valore critico corrisponderà a −1,645.
Di conseguenza, calcolata 𝑡 in base ai valori stimati di 𝛽, e del suo errore standard, si rifiuterà l'ipotesi nulla se 𝑡 ≤
−1,645, mentre l'ipotesi nulla non verrà rifiutata per 𝑡 ≥ −1,645.

51

Luca Biglieri

4.3 Intervalli di Confidenza per 𝜷𝟏


Fissato un determinato livello di confidenza (pari a 1 − 𝛼, dove 𝛼 è il livello di significatività del test di ipotesi),
l'intervallo di confidenza all' 1 − 𝛼 % per il parametro 𝛽, rappresenta l'insieme di tutti i valori di 𝛽, che non possono
essere rifiutati in un test bilaterale con il livello di significatività 𝛼.
Equivalentemente, l'intervallo di confidenza può essere definito come l'intervallo che contiene, per un livello di
confidenza dell' 1 − 𝛼 %, il vero valore di 𝛽, .

¸¹ |¸¹,®
Considerando la statistica-test 𝑡 = che, per grandi campioni, è distribuita come una normale standard,
·Ž ¸¹
l'intervallo di confidenza di tale variabile per un livello di significatività del 5% sarà quindi dato dall'intervallo interno ai
due valori critici della distribuzione per tale 𝛼. Questo intervallo, che equivale alla regione di non rifiuto di un test di
ipotesi con tale 𝛼, sarà dunque il seguente:

−1,96 ≤ 𝑡 ≤ 1,96

Svolgendo, si può arrivare a determinare anche l'intervallo di confidenza per il valore ipotizzato del parametro 𝛽, :

𝛽, − 𝛽,,L
−1,96 ≤ ≤ 1,96
𝑆𝐸 𝛽,

−1,96 ∙ 𝑆𝐸 𝛽, ≤ 𝛽, − 𝛽,,L ≤ 1,96 ∙ 𝑆𝐸 𝛽,

−1,96 ∙ 𝑆𝐸 𝛽, − 𝛽, ≤ −𝛽,,L ≤ 1,96 ∙ 𝑆𝐸 𝛽, − 𝛽,

1,96 ∙ 𝑆𝐸 𝛽, + 𝛽, ≥ 𝛽,,L ≥ −1,96 ∙ 𝑆𝐸 𝛽, + 𝛽,

−1,96 ∙ 𝑆𝐸 𝛽, + 𝛽, ≤ 𝛽,,L ≤ 1,96 ∙ 𝑆𝐸 𝛽, + 𝛽,

Possiamo quindi dire che, fissato 𝛼 e ricavato (1 − 𝛼), l'intervallo di confidenza per il valore ipotizzato del parametro 𝛽,
sarà ricavabile conoscendo il valore dello stimatore 𝛽, e il suo errore standard, oltre al valore critico della distribuzione
normale standard per il livello di confidenza desiderato.

Riprendiamo l'esempio numerico del paragrafo precedente, in cui avevamo −2.28 = 𝛽, , 0.52 = 𝑆𝐸 𝛽, .
L'intervallo di confidenza per 𝛽,,L al livello di confidenza (1 − 𝛼) = 95% sarà dunque pari a:

−1,96 ∙ 0.52 − 2.28 ≤ 𝛽,,L ≤ 1,96 ∙ 0.52 − 2.28

−3,30 ≤ 𝛽,,L ≤ −1,26

−3,30; −1,26

O, in alternativa:

[−2,28 ± 1,96 ∙ 0,52]

Questo significa che il valore vero di 𝛽, sarà compreso in −3,30; −1,26 al 95% di confidenza; si nota anche come un
test di ipotesi con 𝐻L : 𝛽, = 0 possa essere automaticamente rifiutato per 𝛼 = 5%, dal momento che il valore 0 non è
compreso nell'intervallo di confidenza per tale livello di significatività.

52

Luca Biglieri

Si può utilizzare l'intervallo di confidenza anche per fornire una stima più concreta dell'effetto di una ∆𝑋 in termini di
∆𝑌; sapendo che ∆𝑋 produce ∆𝑌 = 𝛽, ∆𝑋 e che la stima di tale variazione sarà pari a ∆𝑌 = 𝛽, ∆𝑋, si può ricavare
l'intervallo di confidenza stimato per ∆𝑌 moltiplicando per ∆𝑋 quello ricavato sopra:

−1,96 ∙ 𝑆𝐸 𝛽, ∆𝑋 + 𝛽, ∆𝑋 ≤ 𝛽,,L ∆𝑋 ≤ 1,96 ∙ 𝑆𝐸 𝛽, ∆𝑋 + 𝛽, ∆𝑋

Sempre ponendo 1 − 𝛼 = 95%.


Riprendendo l'esempio pratico visto sopra, avremo dunque:

−3,30∆𝑋; −1,26∆𝑋

Il che significa che, per una variazione ∆𝑋 = −2, l'effetto stimato su ∆𝑌 risulterà interno al seguente intervallo:

−3,30 ∙ −2 ; −1,26 ∙ −2 = 2,52; 6,60

4.4 Regressione con 𝑿 Variabile Binaria


In alcuni casi, il regressore può essere una variabile binaria (detta anche variabile dummy), ovvero può assumere
1
solamente due valori; solitamente, questa variabile si manifesta come 𝑋 = .
0
Finora, all'interno del modello di regressione, 𝛽, stava ad indicare la pendenza della retta; cambiando la natura del
regressore, cambieranno anche l'interpretazione del modello e il significato di 𝛽, .

Partendo dal consueto modello di regressione 𝑌# = 𝛽L + 𝛽, 𝑋# + 𝑢# , notiamo che esso potrà assumere due forme, a
seconda del valore di 𝑋:

- Se 𝑋 = 0, 𝑌# = 𝛽L + 𝑢# ;
- Se 𝑋 = 1, 𝑌# = 𝛽L + 𝛽, + 𝑢# .

Calcolando le medie di 𝑌# condizionate a 𝑋 nei due casi, notiamo che.

- Se 𝑋 = 0, 𝐸 𝑌# 𝑋# = 0 = 𝛽L ;
- Se 𝑋 = 1, 𝐸 𝑌# 𝑋# = 1 = 𝛽L + 𝛽, .

Di conseguenza, possiamo notare che, in questo caso, 𝛽, rappresenta la differenza tra le due medie condizionate, e non
più la pendenza:

𝛽, = 𝐸 𝑌# 𝑋# = 1 − 𝐸 𝑌# 𝑋# = 0

Riprendiamo l'esempio pratico già visto in precedenza e poniamo che 𝑌# rappresenti il punteggio nel test scolastico; il
1, 𝑆𝑇𝑅 ≤ 20
regressore sarà rappresentato dalla variabile 𝐷# = .
0, 𝑆𝑇𝑅 > 20
La regressione si presenterà come segue:

650 7,4
𝑌# = + 𝐷
(1,3) (1,8) #

In questo caso, il parametro stimato 𝛽, = 7,4 rappresenterà la differenza tra le due medie condizionate per i due diversi
valori del regressore, e non più la pendenza della retta; di conseguenza, anche un test di ipotesi con 𝐻L : 𝛽, = 0 andrà
ad ipotizzare che non vi siano differenze tra le medie, non che la retta di regressione abbia inclinazione nulla.

53

Luca Biglieri

Per quanto riguarda l'errore standard di 𝛽, , esso sarà calcolato come la radice della somma dei due rapporti tra la
varianza e la dimensione campionaria nei due casi distinti dal cambio di valore del regressore:

𝑆Õ.` TL 𝑆Õ.` T,
𝑆𝐸 𝛽, = +
𝑛Õ` TL 𝑛Õ` T,

Tramite questo valore, si potranno costruire statistiche-test e intervalli di confidenza, esattamente come nel caso della
regressione con variabile non binaria.

4.5 Eteroschedasticità e Omoschedasticità

4.5.1 Definizioni

L'errore 𝑢, nel modello di regressione lineare semplice, si dice omoschedastico quando 𝑉𝑎𝑟[𝑢|𝑋 = 𝑥] è costante,
ovvero quando la varianza della distribuzione di 𝑢 condizionata al regressore 𝑋 è indipendente da 𝑋; in caso contrario,
ovvero quando 𝑉𝑎𝑟[𝑢|𝑋 = 𝑥] non è costante e la varianza della distribuzione dell'errore condizionata al regressore
dipende dal regressore stesso (ovvero è funzione di 𝑋), l'errore si dice eteroschedastico.

La figura sopra rappresenta un caso di errore omoschedastico: si può notare come, per la prima assunzione OLS, si ha
𝐸[𝑢|𝑋] = 0, mentre, per quanto riguarda la varianza condizionata dell'errore, ovvero l'ampiezza della distribuzione,
essa risulta costante per ogni valore di 𝑋 (condizione di omoschedasticità).

54

Luca Biglieri

La seconda figura, invece, rappresenta un errore eteroschedastico: anche qui vale la prima assunzione OLS (𝐸[𝑢|𝑋] =
0), ma la varianza della distribuzione aumenta all'aumentare del valore del regressore, risultando quindi una funzione di
𝑋.
Un esempio pratico di un caso simile può essere rappresentato ponendo 𝑋 = anni di istruzione e 𝑌 =
retribuzione oraria media: la distribuzione dell'errore, in questo caso, risulterà più ampia per valori elevati del
regressore.

Fino a questo momento, abbiamo assunto l'eteroschedasticità degli errori nei modelli di regressione analizzati;
assumendo il contrario, ovvero l'omoschedasticità degli errori, si può invece dimostrare il teorema di Gauss-Markov,
che prevede che, in presenza di errori omoschedastici, lo stimatore OLS sia il più efficiente tra tutti gli stimatori lineari
corretti (stimatore BLUE, Best Linear Unbiased Estimator).

4.5.2 Assunzione di Omoschedasticità e Varianza di 𝜷𝟏

Assumere l'omoschedasticità per l'errore 𝑢 significa affermare, per definizione, che 𝑉𝑎𝑟 𝑢# 𝑋# = 𝜎ß. costante, non
dipendente da 𝑖 (al contrario, in caso di eteroschedasticità, si avrà 𝑉𝑎𝑟 𝑢# 𝑋# = 𝜎ß.` ).
In presenza di omoschedasticità, la distribuzione asintotica di 𝛽, si semplifica. Sappiamo infatti che:

1 0
0
#T, 𝑋# − 𝑋 𝑢#
0
#T, 𝑣#
∙ #T, 𝑣#
𝛽, − 𝛽, = = = 𝑛
0
#T, 𝑋# − 𝑋
. 0
𝑋# − 𝑋 . 1 0 .
#T, ∙ 𝑋# − 𝑋
𝑛 #T,

Con 𝑣# = 𝑋# − 𝑋 𝑢# .
Si potrà studiare, come già visto nei paragrafi precedenti, la distribuzione asintotica del denominatore:
0 0
1 .
𝑛−1 1
∙ 𝑋# − 𝑋 = ∙ ∙ 𝑋# − 𝑋 .
𝑛 𝑛 𝑛−1
#T, #T,

0
1 .
𝑛−1 .
∙ 𝑋# − 𝑋 = ∙ 𝑆”
𝑛 𝑛
#T,

𝑛−1 .
lim ∙ 𝑆” = 𝜎”.
0→ž 𝑛

55

Luca Biglieri

0
1 U
∙ 𝑋# − 𝑋 .
𝜎”.
𝑛
#T,

Al numeratore, invece, si ha che:


0 0
1 1
∙ 𝑣# = ∙ 𝑋# − 𝑋 𝑢#
𝑛 𝑛
#T, #T,

U
Sappiamo che 𝑋 𝜇” ; di conseguenza:
0 0
1 1
∙ 𝑣# ≅ ∙ 𝑋# − 𝜇” 𝑢#
𝑛 𝑛
#T, #T,

In modo asintoticamente equivalente.


Proseguiamo verificando le condizioni del teorema del limite centrale:

- 𝐸 𝑋# − 𝜇” 𝑢# = 𝐸” 𝐸 𝑋# − 𝜇” 𝑢# 𝑋# = 𝐸” 𝑋# − 𝜇” 𝐸 𝑢# 𝑋# = 0, per la prima assunzione OLS;


- 𝑉𝑎𝑟 𝑋# − 𝜇” 𝑢# = 𝐸 𝑋# − 𝜇” . 𝑢#. , perché 𝐸 𝑋# − 𝜇” 𝑢# = 0.
𝑉𝑎𝑟 𝑋# − 𝜇” 𝑢# = 𝐸 𝑋# − 𝜇” . 𝑢#. = 𝐸” 𝐸 𝑋# − 𝜇” . 𝑢#. |𝑋# = 𝐸” 𝑋# − 𝜇” . 𝐸 𝑢#. |𝑋# .
Ma, per ipotesi di omoschedasticità, 𝐸 𝑢#. |𝑋# = 𝜎ß. , costante.
Quindi, 𝑉𝑎𝑟 𝑋# − 𝜇” 𝑢# = 𝐸” 𝑋# − 𝜇” . 𝜎ß. = 𝜎ß. ∙ 𝐸 𝑋# − 𝜇” .
= 𝜎ß. 𝜎”. < ∞; inoltre, da questo deriva
váx
che 𝜎¸. = x .
¹ 0v—

Dalla seconda condizione si può ricavare la formulazione della varianza di 𝛽, con omoschedasticità:

𝝈𝟐𝒖
𝝈𝟐𝜷 =
𝟏 𝒏𝝈𝟐𝑿

Applichiamo quindi il teorema del limite centrale al numeratore:


0 0
1 1 ]
𝑛∙ ∙ 𝑋# − 𝜇” 𝑢# = 𝑛 ∙ ∙ 𝑣# 𝑁 0, 𝜎ß. 𝜎”.
𝑛 𝑛
#T, #T,

Abbiamo così ricavato la distribuzione asintotica del numeratore.

Mettiamo insieme numeratore e denominatore, usando il teorema di Cramer-Slutsky, per ricavare la distribuzione
asintotica di 𝛽, :

] 𝜎ß. 𝜎”. 𝜎ß.


𝑛 ∙ 𝛽, − 𝛽, 𝑁 0, = 𝑁 0,
𝜎”. . 𝜎”.

] 𝜎ß.
𝛽, − 𝛽, 𝑁 0,
𝑛𝜎”.

𝒅 𝝈𝟐𝒖
𝜷𝟏 𝑵 𝜷𝟏 ,
𝒏𝝈𝟐𝑿

Se non si conosce la varianza di 𝑋, si potrà utilizzare lo stimatore più appropriato, ovvero la varianza campionaria:

56

Luca Biglieri

0
1
𝜎”. = ∙ 𝑋# − 𝑋 .
= 𝑆”.
𝑛−1
#T,

Allo stesso modo, se non si conosce la varianza dell'errore, si potrà usare uno stimatore; sapendo che 𝑢# = 𝑌# − 𝑌# , si
ricava che tale stimatore è pari a:
0 .
#T, 𝑢#
𝜎ß. = = 𝑆ß.
𝑛−2

Con due gradi di libertà dal momento che, in 𝑢# , sono compresi due stimatori, 𝛽L e 𝛽, .

4.6 Il Teorema di Gauss-Markov

4.6.1 Condizioni

Il teorema di Gauss-Markov permette di affermare che, in presenza di alcune condizioni, lo stimatore OLS è lo stimatore
lineare corretto più efficiente che si possa ricavare per la pendenza nel modello di regressione lineare semplice (ovvero,
𝛽, ha la varianza minore di tutti i possibili stimatori lineari corretti di 𝛽, ).
Elenchiamo di seguito le condizioni necessarie perché valga tale teorema:

1. 𝐸 𝑢# 𝑋, , … , 𝑋0 = 0, 𝑖 = 1, 2, . . . , 𝑛: il valore atteso dell'errore condizionato ad ogni possibile valore di 𝑋 deve


essere nullo.
Questa condizione deriva dalla seconda e dalla prima assunzione OLS: la seconda assunzione (variabili
indipendentemente e identicamente distribuite) prevede che 𝐸 𝑢# 𝑋, , … , 𝑋0 = 𝐸 𝑢# 𝑋# , mentre la prima
assunzione afferma che 𝐸 𝑢# 𝑋# = 0.

2. 𝑉𝑎𝑟 𝑢# 𝑋, , … , 𝑋0 = 𝜎ß. < ∞, 𝑖 = 1, 2, . . . , 𝑛: si tratta dell'assunzione di omoschedasticità, l'unica condizione
veramente stringente tra le tre necessarie per il teorema di Gauss-Markov.
La varianza degli errori, dunque, viene supposta finita, in base alla terza assunzione OLS (rarità degli outlier).

3. 𝐸 𝑢# 𝑢q 𝑋, , … , 𝑋0 = 0, ∀𝑖 ≠ 𝑗, 𝑖, 𝑗 = 1, 2, . . . , 𝑛: assenza di autocorrelazione tra gli errori, anch'essa dipendente
dalla seconda assunzione OLS.
Notiamo come si debba porre ∀𝑖 ≠ 𝑗: se si ha che 𝑖 = 𝑗, l'espressione equivale a quella della varianza
condizionata dell'errore.

4.6.2 Dimostrazione: Confronto delle Varianze degli Stimatori

Definite le tre condizioni e supponendo che esse vengano rispettate, prendiamo lo stimatore OLS 𝛽, : dovremo ricavarne
la varianza, in modo da confrontarla con quella di un altro qualsiasi stimatore lineare corretto della pendenza, in modo
da dimostrarne l'efficienza.
Abbiamo che:
0 0 0
#T, 𝑋# − 𝑋 (𝑌# − 𝑌) #T, 𝑋# − 𝑋 𝑌# #T, 𝑋# − 𝑋 𝑌
𝛽, = 0 .
= 0 − 0
#T, 𝑋# − 𝑋 #T, 𝑋# − 𝑋 . #T, 𝑋# − 𝑋 .
0
#T, 𝑋# − 𝑋 𝑌# 𝑌 ∙ 0#T, 𝑋# − 𝑋
𝛽, = 0 − 0
#T, 𝑋# − 𝑋 . #T, 𝑋# − 𝑋
.

57

Luca Biglieri

Con 0#T, 𝑋# − 𝑋 = 0, semplifichiamo:

0 0
#T, 𝑋# − 𝑋 𝑌#
𝛽, = 0 = 𝑎# 𝑌#
#T, 𝑋# − 𝑋 .
#T,

”` |”
Ponendo che 𝑎# = h : 𝑎# è dunque inteso come uno stimatore lineare legato alle variabili 𝑋# e rappresenta un
`â¹ ”` |” x
"peso" assegnato all'𝑖-esima osservazione di 𝑌.
h
`â¹ ”` |” ß`
Sapendo dai paragrafi precedenti che 𝛽, − 𝛽, = h x e che 𝐸 𝛽, = 𝛽, , possiamo procedere con il calcolo della
`â¹ ”` |”
varianza condizionata dello stimatore:
. .
𝑉𝑎𝑟 𝛽, |𝑋, , … , 𝑋0 = 𝐸 𝛽, − 𝐸 𝛽, 𝑋, , … , 𝑋0 = 𝐸 𝛽, − 𝛽, 𝑋#

0 .
#T, 𝑋# − 𝑋 𝑢#
𝑉𝑎𝑟 𝛽, |𝑋# = 𝐸 0 . 𝑋#
#T, 𝑋# − 𝑋

0 . .
𝐸 #T, 𝑋# − 𝑋 𝑢# 𝑋#
𝑉𝑎𝑟 𝛽, |𝑋# =
𝐸[ 0#T, 𝑋# − 𝑋 = 𝑋#

Portando fuori dal valore atteso condizionato tutti i termini legati alla variabile 𝑋, otteniamo:

0
#T, 𝑋# − 𝑋 . ∙ 𝐸 𝑢#. 𝑋#
𝑉𝑎𝑟 𝛽, |𝑋# = 0 =

#T, 𝑋# − 𝑋

Semplificando, si ricava:

𝐸 𝑢#. 𝑋#
𝑉𝑎𝑟 𝛽, |𝑋# = 0 .

#T, 𝑋# − 𝑋

E, per l'assunzione di omoschedasticità, si può scrivere che:


0
𝜎ß.
𝑉𝑎𝑟 𝛽, |𝑋# = 0 .
= 𝜎ß. ∙ 𝑎#.
#T, 𝑋# − 𝑋
#T,

Questa, dunque, è la varianza dello stimatore OLS, che andrà confrontata con quella dell'altro generico stimatore
lineare corretto della pendenza.

Andiamo ora a considerare un altro stimatore lineare corretto, non OLS, per la pendenza:

𝛽, ≠ 𝛽,
0

𝛽, = 𝑎# 𝑌#
#T,

Dove 𝑎# rappresentano i pesi assegnati alle variabili, tali che 𝑎# ≠ 𝑎# , 𝑖 = 1, … , 𝑛.


Sarà possibile riscrivere lo stimatore 𝛽, esplicitando la definizione del modello di regressione lineare, con 𝑌# = 𝛽L +
𝛽, 𝑋# + 𝑢# :

58

Luca Biglieri

0

𝛽, = 𝑎# 𝛽L + 𝛽, 𝑋# + 𝑢#
#T,

0 0 0

𝛽, = 𝛽L 𝑎# + 𝛽, 𝑎# 𝑋# + 𝑎# 𝑢#
#T, #T, #T,

Andiamo ora a ricavare il valore atteso condizionato di questo stimatore:


0 0 0
𝐸 𝛽, 𝑋, , … , 𝑋0 = 𝛽L 𝐸 #T, 𝑎# 𝑋, , … , 𝑋0 + 𝛽, 𝐸 #T, 𝑎# 𝑋# 𝑋, , … , 𝑋0 + 𝐸 #T, 𝑎# 𝑢# 𝑋, , … , 𝑋0

Per quanto riguarda l'ultimo valore atteso condizionato, possiamo dire che, per la prima assunzione OLS:
0 0
0
𝐸 #T, 𝑎# 𝑢# 𝑋, , … , 𝑋0 = 𝑎# ∙ 𝐸 𝑢# 𝑋, , … , 𝑋0 = 𝑎# ∙ 𝐸 𝑢# 𝑋# = 0
#T, #T,

Abbiamo potuto estrarre la sommatoria degli 𝑎# fuori dal valore atteso condizionato perché gli 𝑎# sono funzioni delle 𝑋# .
Di conseguenza, ci resta che:
0 0
𝐸 𝛽, 𝑋, , … , 𝑋0 = 𝛽L 𝐸 #T, 𝑎# 𝑋, , … , 𝑋0 + 𝛽, 𝐸 #T, 𝑎# 𝑋# 𝑋, , … , 𝑋0

Dal momento che ci occorre che 𝛽, sia uno stimatore corretto, occorre porre che 𝐸 𝛽, 𝑋, , … , 𝑋0 = 𝛽, ; questo è
possibile se si stabiliscono due vincoli ben precisi:
0
- #T, 𝑎# = 0;
0
- #T, 𝑎# 𝑋# = 1.

In questo modo, infatti, si ottiene che:

𝐸 𝛽, 𝑋, , … , 𝑋0 = 𝛽L 𝐸[0] + 𝛽, 𝐸[1] = 𝛽,

Fissato il valore atteso di 𝛽, , impostiamo il calcolo della sua varianza condizionata:

. .
𝑉𝑎𝑟 𝛽, 𝑋, , … , 𝑋0 = 𝐸 𝛽, − 𝐸 𝛽, 𝑋, , … , 𝑋0 = 𝐸 𝛽, − 𝛽, 𝑋#

Per i vincoli imposti, notiamo però che:


0 0 0

𝛽, = 𝛽L 𝑎# + 𝛽, 𝑎# 𝑋# + 𝑎# 𝑢#
#T, #T, #T,

𝛽, = 𝛽, + 𝑎# 𝑢#
#T,

𝛽, − 𝛽, = 𝑎# 𝑢#
#T,

Quindi, potremo riscrivere la formula del calcolo della varianza come:


. 0 .
𝑉𝑎𝑟 𝛽, 𝑋, , … , 𝑋0 = 𝐸 𝛽, − 𝛽, 𝑋# = 𝐸 #T, 𝑎# 𝑢# 𝑋#

59

Luca Biglieri

A questo punto, si dovranno svolgere la sommatoria e il quadrato, esplicitandoli come la somma dei quadrati e dei
doppi prodotti:

𝑉𝑎𝑟 𝛽, 𝑋, , … , 𝑋0 = 𝐸 𝑎,. 𝑢,. + 𝑎.. 𝑢.. + ⋯ + 𝑎0. 𝑢0. + 2𝑎, 𝑎. 𝑢, 𝑢. + 2𝑎, 𝑎6 𝑢, 𝑢6 + ⋯ |𝑋#

Scomponiamo ora i singoli valori attesi condizionati, estraendo da essi le variabili che sono funzioni delle 𝑋# :

𝑉𝑎𝑟 𝛽, 𝑋, , … , 𝑋0 = 𝑎,. 𝐸 𝑢,. 𝑋# + 𝑎.. 𝐸 𝑢.. 𝑋# + ⋯ + 𝑎0. 𝐸 𝑢0. 𝑋# + 2𝑎, 𝑎. 𝐸 𝑢, 𝑢. 𝑋# +. ..

Riconosciamo, per quanto riguarda i primi termini, la formulazione della varianza degli errori, per ipotesi costante e
uguale a 𝜎ß. ; nei doppi prodotti, invece, sappiamo che, per l'ipotesi di indipendenza, il valore atteso del prodotto
incrociato degli errori condizionato al regressore sarà nullo.
Potremo quindi affermare che:

𝑉𝑎𝑟 𝛽, 𝑋, , … , 𝑋0 = 𝑎,. 𝜎ß. + 𝑎.. 𝜎ß. + ⋯ + 𝑎0. 𝜎ß. + 2𝑎, 𝑎. ∙ 0 + 2𝑎, 𝑎6 ∙ 0+. ..

𝑉𝑎𝑟 𝛽, 𝑋, , … , 𝑋0 = 𝜎ß. (𝑎,. + 𝑎.. +. . . +𝑎0. )


0

𝑉𝑎𝑟 𝛽, 𝑋, , … , 𝑋0 = 𝑉𝑎𝑟 𝛽, 𝑋# = 𝜎ß. 𝑎#.


#T,

Ricavata così la varianza di questo stimatore alternativo, dovremo confrontarla con quella dello stimatore OLS.

Definiamo innanzitutto la differenza tra i pesi dei due stimatori:

𝑎# − 𝑎# = 𝑑#

Riprendendo la formulazione della varianza condizionata dello stimatore alternativo, esprimiamo come segue la
sommatoria dei quadrati dei pesi:
0 0 0

𝑎#. = 𝑎# + 𝑑# .
= 𝑎#. + 𝑑#. + 2𝑎# 𝑑#
#T, #T, #T,

0 0 0 0

𝑎#. = 𝑎#. + 𝑑#. +2 𝑎# 𝑑#


#T, #T, #T, #T,

”` |”
Sapendo che 𝑎# = h , sostituiamo:
`â¹ ”` |” x

0 0 0 0
#T, 𝑋# − 𝑋 𝑑#
𝑎#. = 𝑎#. + 𝑑#. + 2 0 .

#T, #T, #T, #T, 𝑋# − 𝑋

0 0 0 0 0
#T, 𝑋# 𝑑# − #T, 𝑋𝑑#
𝑎#. = 𝑎#. + 𝑑#. + 2 0 .

#T, #T, #T, #T, 𝑋# − 𝑋

0 0 0 0 0
#T, 𝑋# 𝑑# − 𝑋 #T, 𝑑#
𝑎#. = 𝑎#. + 𝑑#. + 2 0 .

#T, #T, #T, #T, 𝑋# − 𝑋

Sostituiamo ora la differenza tra i pesi:

60

Luca Biglieri

0 0 0 0
#T, 𝑋# 𝑎# − 𝑎# − 𝑋 0#T, 𝑎# − 𝑎#
𝑎#. = 𝑎#. + 𝑑#. + 2 0 .

#T, #T, #T, #T, 𝑋# − 𝑋

0 0 0 0 0 0 0
#T, 𝑋# 𝑎# − #T, 𝑋# 𝑎# − 𝑋 #T, 𝑎# +𝑋 #T, 𝑎#
𝑎#. = 𝑎#. + 𝑑#. + 2 0 .

#T, #T, #T, #T, 𝑋# − 𝑋

Per i vincoli imposti, sappiamo che:


0
- #T, 𝑋# 𝑎# = 1;
0
- #T, 𝑋# 𝑎# = 1;
0
- #T, 𝑎# = 0;
0
- #T, 𝑎# = 0.

Di conseguenza:
0 0 0
1−1−0+0
𝑎#. = 𝑎#. + 𝑑#. + 2 0 .

#T, #T, #T, #T, 𝑋# − 𝑋

0 0 0

𝑎#. = 𝑎#. + 𝑑#.


#T, #T, #T,

Pertanto, possiamo riformulare la varianza condizionata dello stimatore alternativo:


0 0 0

𝑉𝑎𝑟 𝛽, 𝑋# = 𝜎ß. 𝑎#. = 𝜎ß. 𝑎#. + 𝑑#.


#T, #T, #T,

0 0

𝑉𝑎𝑟 𝛽, 𝑋# = 𝜎ß. 𝑎#. + 𝜎ß. 𝑑#.


#T, #T,

Riconosciamo la formulazione della varianza condizionata dello stimatore OLS:


0

𝑉𝑎𝑟 𝛽, 𝑋# = 𝑉𝑎𝑟 𝛽, 𝑋# + 𝜎ß. 𝑑#.


#T,

Di conseguenza, possiamo dire che:


0

𝑉𝑎𝑟 𝛽, 𝑋# − 𝑉𝑎𝑟 𝛽, 𝑋# = 𝜎ß. 𝑑#.


#T,

𝑽𝒂𝒓 𝜷𝟏 𝑿𝒊 > 𝑽𝒂𝒓 𝜷𝟏 𝑿𝒊

Dal momento che il termine 𝜎ß. 0#T, 𝑑#. è senza dubbio positivo (prodotto di quadrati) a meno che i pesi utilizzati per i
due stimatori siano uguali (𝑎# − 𝑎# , 𝑖 = 1, 2, . . . , 𝑛, un'ipotesi che non avrebbe senso volendo confrontare due stimatori
diversi), possiamo quindi dire che la varianza dello stimatore OLS sarà sempre minore rispetto a quella di un altro
generico stimatore lineare corretto, se valgono le assunzioni del teorema di Gauss-Markov; tale teorema, pertanto,
risulta dimostrato e lo stimatore OLS è detto BLUE (Best Linear Unbiased Estimator).

61

Luca Biglieri

4.7 Assunzione di Normalità degli Errori
Introduciamo ora una quinta assunzione all'interno del modello di regressione lineare semplice, ovvero l'assunzione di
normalità degli errori, secondo la quale 𝑢# 𝑋# ha una distribuzione normale, per ogni 𝑖 = 1, . . . , 𝑛:

𝑢# 𝑋# ~ 𝑖. 𝑖. 𝑑. 𝑁 0, 𝜎ß.

Questa nuova assunzione, se viene rispettata, "ingloba" tutte quelle viste in precedenza, aggiungendo la caratteristica
relativa alla distribuzione degli errori; complessivamente, dunque, le assunzioni OLS al completo si presentano come
segue:

1. 𝐸 𝑢# 𝑋# = 0, 𝑖 = 1, 2, … , 𝑛;
2. 𝑋# , 𝑌# 𝑖. 𝑖. 𝑑. , 𝑖 = 1, 2, … , 𝑛;
3. Gli outlier sono rari: 𝐸 𝑋 = < ∞, 𝐸 𝑌 = < ∞;
4. Omoschedasticità degli errori: 𝑉𝑎𝑟 𝑢# 𝑋# = 𝐸 𝑢#. 𝑋# = 𝜎ß. , costante;
5. Normalità degli errori: 𝑢# 𝑋# ~ 𝑖. 𝑖. 𝑑. 𝑁 0, 𝜎ß. , 𝑖 = 1, 2, . . . , 𝑛.

La quinta assunzione ha alcune implicazioni significative: quando essa è valida, infatti, lo stimatore OLS diventa lo
stimatore consistente con la minore varianza asintotica possibile; inoltre, assumendo la normalità condizionata degli
errori, si può utilizzare la statistica-test 𝑡 anche quando si ha a che fare con campioni finiti.

Consideriamo le generiche variabili 𝑍# 𝑖. 𝑖. 𝑑. distribuite normalmente:

𝑍# ~ 𝑁 𝜇• , 𝜎•.

Moltiplicando tali variabili per i pesi non stocastici 𝑎# , ricaviamo la seguente distribuzione:
0 0 0

𝑎# 𝑍# ~ 𝑁 𝑎# 𝜇• , 𝑎#. 𝜎•.
#T, #T, #T,

Non considerando, nella varianza, le covarianze, che si annullano per l'ipotesi di indipendenza tra le variabili.
Prendiamo ora in considerazione lo stimatore OLS:
0
#T, 𝑋# − 𝑋 𝑢#
𝛽, − 𝛽, = 0 .

#T, 𝑋# − 𝑋

In cui, per la quinta assunzione, si ha 𝑢# 𝑋# ~ 𝑖. 𝑖. 𝑑. 𝑁 0, 𝜎ß. , 𝑖 = 1, 2, . . . , 𝑛.


Di conseguenza, avremo che:
0 .
#T, 𝑋# − 𝑋
𝛽, − 𝛽, 𝑋# ~ 𝑁 0, 0 =
∙ 𝜎ß.
#T, 𝑋# − 𝑋

𝜎ß.
𝛽, − 𝛽, 𝑋# ~ 𝑁 0, 0 .

#T, 𝑋# − 𝑋

Ovvero ricaviamo una distribuzione esatta, non asintotica, per lo stimatore OLS.

váx
Da questa distribuzione possiamo ricavare la statistica-test 𝑡, dividendo a sinistra per l'errore standard h e
`â¹ ”` |” x

ricavando così una normale standard:

62

Luca Biglieri

𝛽, − 𝛽,
𝑡= ~ 𝑁(0, 1)
𝜎ß.
0 .
#T, 𝑋# − 𝑋

Nel caso di un test di ipotesi con 𝐻L : 𝛽, = 𝛽,,L , si avrà che:

𝛽, − 𝛽,,L
𝑡= ~ 𝑁(0, 1)
𝜎ß.
0 .
#T, 𝑋# − 𝑋

Nel caso in cui la varianza dell'errore 𝜎ß. non sia conosciuta, si può utilizzare uno stimatore, ricavando per la statistica-
test una distribuzione 𝑡 di Student (ricordiamo che tale distribuzione è data dal rapporto tra una normale standard e la
radice di una distribuzione 𝜒 . divisa per i suoi gradi di libertà).
¸¹ |¸¹,®
In questo caso, sapendo che è caratterizzata da una distribuzione normale standard, procediamo a dividerla
¨x
á

h — æ— x
`â¹ `
h x h x
`â¹ ß` , `â¹ ß`
per x ∙ : x è distribuita come una 𝜒 . con 𝑛 − 2 gradi di libertà e, per quanto detto sopra, dividendo la
vá 0|. vá
normale standard per la radice di questa funzione, divisa a sua volta per 𝑛 − 2, si potrà ricavare una 𝑡 di Student.

Innanzitutto, calcoliamo la nuova elaborazione della statistica-test, per isolare lo stimatore della varianza dell'errore:

𝛽, − 𝛽,,L 𝛽, − 𝛽,,L
𝜎ß. 𝜎ß.
0 . 0 .
#T, 𝑋# − 𝑋 #T, 𝑋# − 𝑋
𝑡= = ~ 𝑡(0|.)
0 .
#T, 𝑢# 1 𝑆ß.

.
𝜎ß 𝑛−2 𝜎ß.

Semplificando il numeratore e il denominatore, si può eliminare il termine 𝜎ß. ; ricaviamo dunque che:

𝛽, − 𝛽,,L
𝑡= ~ 𝑡(0|.)
𝑆ß.
0 .
#T, 𝑋# − 𝑋

Questa statistica-test è uguale, nella forma, a quella asintotica; tuttavia, la quinta assunzione fa sì che essa possa essere
utilizzata anche per campioni finiti, sfruttando le proprietà della distribuzione 𝑡 di Student: sappiamo infatti che, per
]
𝑛 → ∞, 𝑡(0|ç) 𝑁 0,1 .

63

Luca Biglieri

5. Il Modello di Regressione Lineare Multipla
5.1 La Distorsione da Variabili Omesse

5.1.1 Definizione e Condizioni

Nel modello di regressione ci sono sempre delle variabili omesse che portano ad avere l'errore 𝑢: tali variabili
influenzano l'andamento di 𝑌 ma non sono incluse nel modello e, in alcuni casi, possono portare a una distorsione degli
stimatori OLS. In generale, si può dire che 𝑢# incorpora tutti i fattori responsabili della differenza tra 𝑌# e 𝑌# .

La prima assunzione OLS, 𝐸 𝑢# 𝑋# = 0, garantisce comunque, anche in presenza di variabili omesse, alcune proprietà
importanti per la regressione (correttezza, efficienza, consistenza degli stimatori); i problemi si presentano quando tale
assunzione non vale, ovvero quando 𝐸 𝑢# 𝑋# ≠ 0: in questo caso, che si verifica quando non si considerano nella
regressione alcune variabili significative, il modello risulta distorto.

Prendiamo per esempio il modello 𝑡𝑒𝑠𝑡 = 𝛽L + 𝛽, 𝑆𝑇𝑅 su cui abbiamo lavorato fin dall'inizio: in questo modello, se non
si considera una possibile variabile significativa come la percentuale di alunni che non hanno come lingua madre
l'inglese, il risultato sarà certamente falsato.
I distretti scolastici con più immigrazione e una più alta percentuale di studenti di diversa lingua madre, infatti, sono
solitamente anche più poveri, e questo porta a un aumento del valore di 𝑆𝑇𝑅: se si trascura questa variabile
originariamente omessa nel modello, lo stimatore 𝛽, finirà per sovrastimare l'impatto di 𝑆𝑇𝑅 sul punteggio del test, dal
momento che questo regressore contiene anche l'effetto della variabile omessa (stimabile a sua volta con un nuovo
coefficiente, che chiameremo 𝛽. ). Di conseguenza, 𝛽, potrebbe essere distorto (𝐸 𝛽, ≠ 𝛽, ).

Lo stimatore OLS è non distorto se le assunzioni vengono rispettate; per quanto riguarda la distorsione da variabili
omesse, si può dire che essa si presenti se e solo se valgono le due seguenti condizioni:

- La variabile omessa deve essere una determinante della variabile dipendente;


- La variabile omessa deve essere correlata con la variabile inclusa (regressore).

Se anche una sola di queste due condizioni non viene soddisfatta, non si può parlare di distorsione da variabili omesse;
facendo un esempio concreto, sempre legato al modello 𝑡𝑒𝑠𝑡 = 𝛽L + 𝛽, 𝑆𝑇𝑅, la variabile "orario del test" non soddisfa
la seconda condizione (non è correlata con il rapporto studenti/docenti nelle classi), mentre la variabile "area di
parcheggio della scuola" non soddisfa la prima (non è una determinante del punteggio medio nel test): pertanto,
nessuna di queste due variabili può causare una distorsione da variabili omesse se non viene inclusa nel modello.

5.1.2 Implicazioni della Distorsione da Variabili Omesse

Quando valgono le due condizioni sopra elencate, dunque, si ha che 𝐸 𝑢# 𝑋# ≠ 0 e che, di conseguenza, 𝐶𝑜𝑣 𝑢# , 𝑋# ≠
0 (paragrafo 3.5.4). Da questo derivano due implicazioni significative:

- 𝐸 𝛽, |𝑋# ≠ 𝛽, : lo stimatore OLS non è più corretto, diventa distorto;


- Lo stimatore OLS diventa non consistente: si annullano le proprietà asintotiche valide sotto la prima assunzione.

Per quanto riguarda la prima implicazione, si ha che:


0
#T, 𝑋# − 𝑋 𝑌# − 𝑌
𝛽, = 0 .

#T, 𝑋# − 𝑋

64

Luca Biglieri

Con 𝑌# = 𝛽L + 𝛽, 𝑋# + 𝑢# , 𝑌 = 𝛽L + 𝛽, 𝑋 + 𝑢, si ha che 𝑌# − 𝑌 = 𝛽, 𝑋# − 𝑋 + 𝑢# − 𝑢 ; di conseguenza:
0
#T, 𝑋# − 𝑋 𝛽, 𝑋# − 𝑋 + 𝑢# − 𝑢
𝛽, = 0 .

#T, 𝑋# − 𝑋

0 . 0 0
#T, 𝑋# − 𝑋 #T, 𝑋# − 𝑋 𝑢# 𝑢∙ #T, 𝑋# − 𝑋
𝛽, = 𝛽, 0 .
+ 0 .
− 0
#T, 𝑋# − 𝑋 #T, 𝑋# − 𝑋 #T, 𝑋# − 𝑋 .
0
#T, 𝑋# − 𝑋 𝑢#
𝛽, = 𝛽, + 0 .

#T, 𝑋# − 𝑋

Quindi, passando al valore atteso condizionato:

0
#T, 𝑋# − 𝑋 𝑢#
𝐸 𝛽, 𝑋# = 𝛽, + 𝐸 0 . 𝑋#
#T, 𝑋# − 𝑋

0
#T, 𝑋# − 𝑋
𝐸 𝛽, 𝑋# = 𝛽, + 0 .
𝐸 𝑢# 𝑋#
#T, 𝑋# − 𝑋

Possiamo quindi concludere che, con 𝐸 𝑢# 𝑋# ≠ 0, il secondo termine a destra non si annulla e da ciò deriva che
𝐸 𝛽, |𝑋# ≠ 𝛽, .

Per quanto riguarda la seconda implicazione, andiamo a studiare la distribuzione asintotica di 𝛽, partendo dalla
formulazione già vista nei capitoli precedenti:

1 0
0
#T, 𝑋# − 𝑋 𝑢#
∙ #T, 𝑋# − 𝑋 𝑢#
𝛽, − 𝛽, = = 𝑛
0
#T, 𝑋# − 𝑋
. 𝑛−1 1
∙ ∙ 0#T, 𝑋# − 𝑋 .
𝑛 𝑛−1

Studiamo ora asintoticamente numeratore e denominatore, partendo dal primo di questi; aggiungendo e sottraendo 𝜇”
nella parentesi, ricaviamo che:
0 0 0
1 1 1
∙ 𝑋# − 𝑋 𝑢# = ∙ 𝑋# − 𝜇” 𝑢# − ∙ 𝑋 − 𝜇” 𝑢#
𝑛 𝑛 𝑛
#T, #T, #T,

U U , U
0
Dal momento che, per 𝑛 → ∞, 𝑋 𝜇” , avremo che 𝑋 − 𝜇” 0; inoltre, ∙ #T, 𝑢# 0 perché 𝐸 𝑢# = 0.
0
Da queste due affermazioni deriviamo che il secondo termine a destra dell'uguale converge in probabilità a 0; potremo
pertanto scrivere:
0 0
1 1
∙ 𝑋# − 𝑋 𝑢# = ∙ 𝑋# − 𝜇” 𝑢#
𝑛 𝑛
#T, #T,

Notiamo che il valore atteso del termine in sommatoria equivale alla covarianza tra l'errore e il regressore: 𝐸 𝑋# −
𝜇” 𝑢# − 𝐸 𝑢# = 𝐸 𝑋# − 𝜇” 𝑢# = 𝜎”ß ; sappiamo anche che, dal momento che 𝐸 𝑢# |𝑋# ≠ 0, tale covarianza sarà
diversa da 0: 𝜎”ß ≠ 0.
Conoscendo il valore atteso di questo termine, procediamo a calcolarne la varianza: se essa dovesse risultare finita,
potremo calcolare la convergenza in probabilità del numeratore tramite la legge dei grandi numeri.
Abbiamo che:

𝑉𝑎𝑟 𝑋# − 𝜇” 𝑢# = 𝐸 𝑋# − 𝜇” . 𝑢#.

65

Luca Biglieri

Per la terza assunzione OLS, sappiamo che i momenti quarti di 𝑋 e 𝑌 sono finiti; di conseguenza, sarà finito anche il
momento quarto di 𝑢. Pertanto, per il teorema di Cauchy-Schwartz, possiamo dire che la varianza appena definita sarà
finita:

𝑉𝑎𝑟 𝑋# − 𝜇” 𝑢# = 𝐸 𝑋# − 𝜇” . 𝑢#. < ∞

Possiamo quindi applicare la legge dei grandi numeri:


0
1 U
∙ 𝑋# − 𝜇” 𝑢# 𝐸 𝑋# − 𝜇” 𝑢# = 𝜎”ß
𝑛
#T,

Il numeratore, dunque, converge in probabilità alla covarianza tra errore e regressore.

Passiamo al denominatore, che si comporta esattamente come nei capitoli precedenti:


0
𝑛−1 1 𝑛−1 . U
∙ ∙ 𝑋# − 𝑋 .
= ∙ 𝑆” 𝜎”.
𝑛 𝑛 𝑛
#T,

Di conseguenza, mettendo insieme il comportamento del numeratore e del denominatore, otteniamo che:
U 𝜎”ß
𝛽, − 𝛽,
𝜎”.

Osserviamo che, per definizione, 𝛽, non è più definibile come uno stimatore consistente di 𝛽, : perché valga la
U U
consistenza dello stimatore, si dovrebbe infatti avere che 𝛽, − 𝛽, 0 e che 𝛽, 𝛽, .
v—á
Inoltre, riscrivendo in modo equivalente il termine x , notiamo che:
v—

𝜎”ß 𝜎ß 𝜎”ß
= ∙
𝜎”. 𝜎” 𝜎” 𝜎ß

𝜎”ß 𝜎ß
= ∙𝜌
𝜎”. 𝜎” ”ß

Di conseguenza, possiamo dire che la convergenza in probabilità si può presentare come segue:
U 𝜎ß
𝛽, 𝛽, + ∙𝜌
𝜎” ”ß

Il segno del termine ∙ 𝜌”ß indica se si ha una sottostima o una sovrastima da parte dello stimatore: si ha una
v—

sovrastima se il segno di 𝛽, è uguale al segno di ∙ 𝜌”ß , mentre si ha una sottostima se i segni di questi due elementi
v—
sono differenti tra loro. È importante ricordare che si può affermare a priori quale sia il segno della distorsione
(sovrastima o sottostima) solo se ci si trova in un modello di regressione lineare semplice.
I fenomeni della sovrastima e della sottostima dipendono dunque dal coefficiente di correlazione tra errore e
regressore: si può dimostrare che il segno di 𝜌”ß è uguale al segno del prodotto tra la covarianza tra il regressore e la
variabile omessa e la covarianza tra la variabile dipendente e la variabile omessa; questa relazione si può indicare quindi
come segue:

segno 𝜌”ß = segno 𝐶𝑜𝑣 𝑋, 𝑍 ∙ 𝐶𝑜𝑣 𝑍, 𝑌

Indicando con 𝑍 la variabile omessa.

66

Luca Biglieri

Riprendendo l'esempio pratico di prima, indichiamo con 𝑍 la percentuale di studenti non madrelingua, mentre 𝑋 e 𝑌
indicheranno sempre rispettivamente 𝑆𝑇𝑅 e punteggio medio al test.
Dal momento che 𝐶𝑜𝑣 𝑋, 𝑍 avrà segno positivo e 𝐶𝑜𝑣 𝑍, 𝑌 avrà segno negativo, potremo dire che 𝜌”ß avrà anch'esso
segno negativo; dal momento che 𝛽, < 0, tale parametro fornirà una sovrastima dell'effetto del regressore a causa
della distorsione causata dalla variabile omessa.

5.1.3 Risolvere il Problema della Distorsione

Una volta riconosciuta una variabile omessa che provoca una distorsione di 𝛽, , si può risolvere questo problema
valutando l'impatto della 𝑋 (quello che in origine era l'unico regressore) tenendo ferma la variabile omessa.

Nella tabella, notiamo come i due campioni originari (𝑆𝑇𝑅 < 20 e 𝑆𝑇𝑅 ≥ 20) siano stati considerati prima nel loro
complesso (prima riga, in grassetto) e, in seguito (righe in basso), dividendoli in 4 diverse categorie, considerando 4
diverse classi per la variabile omessa.
Possiamo notare come, a parità di percentuale di studenti non madrelingua, la differenza di performance tra classi con
diverso 𝑆𝑇𝑅 diventa molto minore: osservando l'ultima colonna, che rappresenta la statistica-test ricavabile in ciascun
caso, possiamo notare come, se non si considera la variabile omessa (prima riga), un test di ipotesi porterà certamente a
rifiutare l'ipotesi nulla che non vi sia differenza tra i punteggi medi ai test per classi con diverso 𝑆𝑇𝑅, mentre, se si
considera la variabile omessa, la statistica-test assumerà valori molto più bassi, permettendo di non rifiutare tale ipotesi
nulla per alcuni livelli di significatività.

Negli esperimenti non controllati, dunque, il modo migliore per eliminare la distorsione da variabili omesse è introdurre
le variabili omesse nel modello, a patto che siano osservabili; pertanto, può risultare conveniente passare da un modello
di regressione lineare semplice a un modello di regressione lineare multipla:

𝑌# = 𝛽L + 𝛽, 𝑋,# + 𝛽. 𝑋.# + 𝑢#

5.2 Le Misure di Bontà della Regressione Multipla


Consideriamo il modello di regressione lineare multipla con due regressori, i cui stimatori sono calcolati, come nel caso
della regressione semplice, tramite il metodo dei minimi quadrati ordinari espresso come segue:
0

𝛽L , 𝛽, , 𝛽. = 𝑎𝑟𝑔 min 𝑌# − (𝛽L + 𝛽, 𝑋,# + 𝛽. 𝑋.# ) .


¸® ,¸¹ ,¸x
#T,

67

Luca Biglieri

Anche in questo caso, dunque, il metodo OLS serve a minimizzare la somma dei quadrati delle differenze tra i valori
attuali di 𝑌# e i valori previsti 𝑌# .

Se analizziamo le misure di bontà della regressione e, in particolare, l'indice 𝑅 . , notiamo come tale indice aumenta se si
introducono dei regressori aggiuntivi: possiamo dire che 𝑅 . è una funzione crescente del numero di regressori, che
indicheremo con 𝑘.
Per questo motivo, nel caso della regressione lineare multipla si preferisce utilizzare l'indice 𝑅 . corretto, che si misura
come segue:

𝑛−1 𝑆𝑆𝑅
𝑅. = 1 −
𝑛 − 𝑘 − 1 𝑇𝑆𝑆
0|,
La frazione indica il termine di penalizzazione, in cui 𝑛 è il numero delle osservazioni (dimensione campionaria)
0|ç|,
e 𝑘 il numero di regressori, tali che 𝑛 >> 𝑘. Notiamo come, se aumentano i regressori, aumenta il valore del termine di
penalizzazione, che trascina verso il basso il valore dell'indice.
0 . 0 .
Nel contempo, però, l'aggiunta di regressori fa sì che il termine 𝑆𝑆𝑅 = #T, 𝑌# − 𝑌# = #T, 𝑢# si riduca, facendo
aumentare il valore di 𝑅 . : possiamo quindi affermare che, aggiungendo regressori al modello, l'indice di bontà della
regressione 𝑅 . aumenta se e solo se i regressori aggiuntivi spiegano abbastanza la variazione della variabile dipendente
da compensare la penalizzazione.
0|,
Si può inoltre dire che, per costruzione, 𝑅 . < 𝑅 . e che, per 𝑛 → ∞, → 1, così che 𝑅 . → 𝑅 . .
0|ç|,

5.3 Le Assunzioni OLS per il Modello di Regressione Lineare Multipla


In modo più generale, considerando 𝑘 regressori, possiamo esprimere il modello di regressione lineare multipla come
segue:

𝑌# = 𝛽L + 𝛽, 𝑋,# + 𝛽. 𝑋.# +. . . +𝛽. 𝑋ç# + 𝑢#

Anche questo modello, come quello di regressione lineare semplice, prevede la presenza di alcune assunzioni legate al
metodo dei minimi quadrati ordinari:

1. 𝐸 𝑢# 𝑋,# = 𝑥, , … , 𝑋ç# = 𝑥ç = 0.
Questa assunzione ha la medesima interpretazione della prima assunzione OLS nella regressione lineare
semplice; la differenza sta nel fatto che, in questo caso, il valore atteso dell'errore viene condizionato per tutti i
regressori del modello.
Se questa regressione non vale, si presenta un caso di distorsione da variabili omesse: se una variabile omessa è
presente nel termine d'errore ed è correlata a un regressore incluso nel modello, allora questa assunzione non
vale, si ha distorsione e lo stimatore OLS diventa non corretto e non consistente. Per risolvere questo problema,
come già accennato, conviene includere la variabile omessa nel modello.

2. 𝑋,# , 𝑋.# , … , 𝑋ç# , 𝑌# 𝑖. 𝑖. 𝑑.
Questa assunzione, come nel modello di regressione lineare semplice, è automaticamente soddisfatta se i dati
vengono raccolti tramite campionamento casuale semplice.

= =
3. 𝐸 𝑋,# < ∞, … , 𝐸 𝑋ç# < ∞, 𝐸 𝑌#= < ∞: gli outlier sono improbabili.
Anche questa assunzione, estesa a tutti i regressori, ha il medesimo significato della terza assunzione del

68

Luca Biglieri

modello di regressione lineare semplice.

4. Assenza di collinearità perfetta.
Si ha collinearità perfetta quando uno dei regressori è una funzione lineare esatta degli altri: questa quarta
assunzione impone che i regressori siano linearmente indipendenti.

69

Luca Biglieri

6. Elementi di Algebra Lineare
Riprendiamo in questo capitolo alcuni concetti fondamentali di algebra lineare (vettori, matrici, spazi vettoriali) utili per
affrontare le proprietà del modello di regressione lineare multipla e altri argomenti successivi.

6.1 Vettori

6.1.1 Operazioni tra Vettori

I vettori si indicano con una lettera minuscola e, solitamente, vengono rappresentati sotto forma di vettore-colonna. Se
non specificato altrimenti, si ha dunque che:

𝑎,
𝑎

𝑛×1 =
𝑎0

Per trasformare il vettore appena visto in un vettore-riga, si utilizza il simbolo ′:

𝑎ë
= 𝑎, ... 𝑎0
1×𝑛

Nella parentesi sotto il nome del vettore si indica il suo ordine, con il numero delle righe seguito dal numero delle
colonne; questa notazione vale anche per le matrici.

Per quanto riguarda le operazioni tra vettori, ricordiamo il prodotto interno, che ha come primo elemento un vettore-
riga e come secondo elemento un vettore-colonna:

𝑎, 0

𝑎 𝑎 = 𝑎,
ë ... 𝑎0 ∙ ⋮ = 𝑎, 𝑎, + 𝑎. 𝑎. + ⋯ + 𝑎0 𝑎0 = 𝑎#.
𝑎0 #T,

𝑏, 0

𝑎 ë 𝑏 = 𝑎, ... 𝑎0 ∙ ⋮ = 𝑎, 𝑏, + 𝑎. 𝑏. + ⋯ + 𝑎0 𝑏0 = 𝑎# 𝑏#
𝑏0 #T,

Notiamo come il prodotto interno tra due vettori dia come risultato uno scalare.

Diverso è invece il caso del prodotto esterno, che ha come primo elemento un vettore-colonna e come secondo
𝑎 𝑎ë
elemento un vettore-riga: in questo caso, 𝑛×1 ∙ dà come risultato una matrice (indicata con una lettera
1×𝑛
maiuscola) 𝐴 di ordine 𝑛×𝑛 .

Il prodotto interno può aiutare a identificare alcune proprietà dei vettori: si definiscono vettori ortogonali due vettori
tali che 𝑎 ë 𝑏 = 0.
Un vettore, invece, si dice ortonormale se 𝑎 ë 𝑎 = 1.

Il prodotto per uno scalare di un vettore dà come risultato un vettore in cui tutti gli elementi di quello di partenza
vengono moltiplicati per lo scalare stesso:

𝑎, 𝑐 ∙ 𝑎,
𝑐 ∙ ⋮ = ...
𝑎0 𝑐 ∙ 𝑎0

70

Luca Biglieri

Il modulo di un vettore (detto anche norma) si misura con la radice della somma dei quadrati dei suoi elementi:

𝑎 = 𝑎#.
#T,

6.1.2 Vettori Linearmente Indipendenti

Dati 𝑘 vettori 𝑎(#) , 𝑖 = 1, 2, . . . , 𝑘 di ordine 𝑛×1 i cui elementi appartengono all'insieme dei numeri reali, e dati 𝑘
scalari 𝑐# 𝜖 𝑹, tali vettori si dicono linearmente indipendenti se la combinazione lineare ç#T, 𝑐# 𝑎# = 0 solamente se 𝑐# =
0 per ogni 𝑖.
In questa definizione, occorre ricordare che lo 0 non indica uno scalare nullo, ma un vettore di ordine 𝑛×1 i cui
elementi sono tutti nulli.
Una definizione alternativa afferma che, se un insieme di vettori 𝑎(#) , 𝑖 = 1, 2, . . . , 𝑘 sono mutualmente ortogonali
(𝑎#ë 𝑎q = 0, ∀𝑖 ≠ 𝑗), tali vettori sono anche linearmente indipendenti.

6.1.3 Spazi Vettoriali e Basi

Una collezione non vuota di elementi 𝑉 si dice spazio vettoriale nel campo dei numeri reali se sono definite su 𝑉 le due
operazioni seguenti:

𝑎, 𝑏, 𝑎, + 𝑏,
- Addizione vettoriale: 𝑎 + 𝑏 = ⋮ + ⋮ = ... ;
𝑎0 𝑏0 𝑎0 + 𝑏0
𝑎, 𝑐 ∙ 𝑎,
- Moltiplicazione scalare: 𝑐 ∙ ⋮ = ⋮ .
𝑎0 𝑐 ∙ 𝑎0

Dato uno spazio vettoriale 𝑉, un insieme di vettori 𝑣, , 𝑣. , … , 𝑣0 ⊂ 𝑉 si dice base di tale spazio vettoriale se tali vettori
sono un sistema di generatori di 𝑉, ovvero se, partendo da questi vettori, tramite l'addizione vettoriale e la
moltiplicazione scalare, si possono ricavare tutti gli elementi di 𝑉, e se 𝑣, , 𝑣. , … , 𝑣0 sono linearmente indipendenti.
Ad esempio, lo spazio vettoriale 𝑹. (insieme di tutti i vettori di ordine 2×1 composti da elementi appartenenti
1 0 3 0
all'insieme dei numeri reali) ammette come base , ma anche .
0 1 0 3

Riguardo alle basi degli spazi vettoriali, ricordiamo due teoremi fondamentali:

- Teorema dell'esistenza di una base: ogni spazio vettoriale ammette l'esistenza di una base;
- Teorema di non unicità delle basi: ogni spazio vettoriale ammette infinite basi.

6.2 Matrici

6.2.1 Definizioni e Operazioni

Le matrici si indicano con lettere maiuscole e si possono rappresentare come segue:

71

Luca Biglieri

𝑎,, ... 𝑎,0
𝐴
= ⋮ ⋱ ⋮ = 𝑎#q
𝑚×𝑛 𝑎(, ... 𝑎(0

Dove il primo numero a pedice di ciascun elemento indica il numero della riga e il secondo numero indica la colonna.

La trasposizione di una matrice permette di trasformare le colonne in righe, e viceversa; facendo riferimento alla
matrice vista sopra, si avrà infatti che:

𝑎,, ... 𝑎(,


𝐴′
= ⋮ ⋱ ⋮ = 𝑎q#
𝑛×𝑚 𝑎,0 ... 𝑎(0

Una matrice si dice simmetrica se 𝐴 = 𝐴′.

Si parla di matrice diagonale se ci sono elementi diversi da 0 solamente sulla diagonale principale, come nell'esempio
seguente:

1 0 0
𝐴= 0 2 0
0 0 3

Più formalmente, si può scrivere che una matrice è diagonale se 𝑎#q = 0, ∀𝑖 ≠ 𝑗.

Una matrice identità è una matrice quadrata (con 𝑚 = 𝑛), simmetrica, diagonale e se 𝑎,, = 𝑎.. = ⋯ = 𝑎çç = 1. La
matrice identità di ordine 𝐿 (con 𝑚 = 𝑛 = 𝐿) si indica con 𝐼ó .

Una matrice si dice nulla quando tutti i suoi elementi sono uguali a 0.

Una matrice si dice idempotente quando 𝐴 ∙ 𝐴 = 𝐴; un esempio di matrice idempotente è la matrice identità, di
qualsiasi ordine.

Per quanto riguarda le operazioni che coinvolgono le matrici, ricordiamo:

𝑎,, . . . 𝑎(, 𝑐 ∙ 𝑎,, . . . 𝑐 ∙ 𝑎(,


- Prodotto con uno scalare: 𝑐 ∙ ⋮ ⋱ ⋮ = ⋮ ⋱ ⋮ = 𝑐 ∙ 𝑎#q ;
𝑎,0 . . . 𝑎(0 𝑐 ∙ 𝑎,0 . . . 𝑐 ∙ 𝑎(0

𝑎,, . . . 𝑎(, 𝑏,, . . . 𝑏(, 𝑎,, + 𝑏,, . . . 𝑎(, + 𝑏(,
- Addizione tra matrici: ⋮ ⋱ ⋮ + ⋮ ⋱ ⋮ = ⋮ ⋱ ⋮ , solo se le due
𝑎,0 . . . 𝑎(0 𝑏,0 . . . 𝑏(0 𝑎,0 + 𝑏,0 . . . 𝑎(0 + 𝑏(0
matrici hanno lo stesso ordine.
𝐴 𝐵 𝐶
Si può dire che + = ;
𝑚×𝑛 𝑚×𝑛 𝑚×𝑛

𝐴 𝐵
- Prodotto tra matrici: × si può svolgere solo se le due matrici sono conformabili, ovvero se il
𝑚×𝑛 𝑛×𝑘
numero di colonne della prima è uguale al numero di righe della seconda. Il risultato sarà una terza matrice,
𝐶
, con tante righe quante ne ha la prima e tante colonne quante ne ha la seconda; tale matrice sarà così
𝑚×𝑘
formata: 𝑐#q = 0´T, 𝑎#´ 𝑏´q .
Solitamente, 𝐴𝐵 ≠ 𝐵𝐴 e, in molti casi, l'operazione inversa non si può svolgere per mancanza di conformabilità
tra le due matrici, se cambiate di posto.

72

Luca Biglieri

Le operazioni con le matrici prevedono inoltre le seguenti proprietà:

- 𝐴𝐵 |, = 𝐵 |, 𝐴|, ;
- 𝐴𝐵𝐶 |, = 𝐶 |, 𝐵 |, 𝐴|, ;
- (𝐴𝐵)′ = 𝐵′𝐴′;
- (𝐴𝐵𝐶)′ = 𝐶′𝐵′𝐴′.

6.2.2 Rango, Traccia e Determinante

Il rango-colonna (o rango-riga) di una matrice indica il numero massimo di vettori-colonna (o vettori-riga) linearmente
indipendenti all'interno di tale matrice. Il rango-riga è uguale al rango-colonna e si indica con 𝑟(𝐴).
Se la matrice 𝐴 è di ordine 𝑚×𝑛 , il rango di tale matrice sarà al massimo pari al minore tra il numero di righe e di
colonne: 𝑟(𝐴) ≤ 𝑚𝑖𝑛 (𝑚, 𝑛). Se 𝑟(𝐴) = 𝑚𝑖𝑛 (𝑚, 𝑛), si dice che la matrice ha rango pieno.

𝑋
Il concetto di rango sarà utile nel modello di regressione lineare multipla, nell'esame della matrice dei regressori ,
𝑛×𝑘
dove 𝑛 è il numero delle osservazioni (la dimensione del campione) e 𝑘 il numero dei regressori: in questo caso, se si ha
rango pieno, si ha che 𝑟(𝑋) = 𝑘 e si può affermare che i regressori siano linearmente indipendenti.

𝐴
Se la matrice quadrata ha rango pieno, ovvero 𝑟(𝐴) = 𝑚, si dice che tale matrice è non singolare: questo
𝑚×𝑚
implica che il suo determinante sarà diverso da 0 (𝑑𝑒𝑡(𝐴) = |𝐴| ≠ 0) e che tale matrice sia invertibile; esisterà dunque
una matrice inversa 𝐴|, tale che 𝐴𝐴|, = 𝐼.
𝐴 𝐵
Un'altra proprietà del rango permette di affermare che, date e , il loro prodotto darà una terza matrice
𝑝×𝑞 𝑞×𝑟
𝐶
tale che 𝑟 𝐶 ≤ min 𝑟 𝐴 , 𝑟 𝐵 .
𝑝×𝑟

La traccia di una matrice è data dalla somma degli elementi che si trovano sulla sua diagonale principale: 𝑡𝑟 𝑎 =
0
#T, 𝑎## .
La traccia prevede le seguenti proprietà:

- 𝑡𝑟(𝐴 + 𝐵) = 𝑡𝑟(𝐴) + 𝑡𝑟(𝐵);


- 𝑡𝑟(𝐴𝐵) = 𝑡𝑟(𝐵𝐴), se 𝐵𝐴 è possibile;
- 𝑡𝑟(𝐴𝐵𝐶) = 𝑡𝑟(𝐶𝐴𝐵) = 𝑡𝑟(𝐵𝐶𝐴): permutazione della traccia.

6.2.3 Matrici Partizionate a Blocchi

𝐴
Data una matrice , è possibile rappresentarla come composta dalle sottomatrici che essa contiene; in questo
𝑚×𝑛
caso, 𝐴 viene definita partizionata a blocchi:

𝐴,, 𝐴,.
𝐴 𝑚, ×𝑛, 𝑚, ×𝑛.
=
𝑝×𝑞 𝐴., 𝐴..
𝑚. ×𝑛, 𝑚. ×𝑛.

Notiamo come, in una stessa colonna di 𝐴, le sotto-matrici devono avere lo stesso numero di colonne e, in una stessa
riga di 𝐴, essa debbano avere lo stesso numero di righe.

73

Luca Biglieri

𝐴 𝐵
Consideriamo ora due matrici partizionate a blocchi in modo conforme, e . Possiamo definire come
𝑚×𝑛 𝑚×𝑛
segue le operazioni di addizione e moltiplicazione tra matrici:

𝐴 𝐵 𝐴 + 𝐵,, 𝐴,. + 𝐵,.


+ = ,,
𝑚×𝑛 𝑚×𝑛 𝐴., + 𝐵., 𝐴.. + 𝐵..

𝐴 𝐵 𝐴 𝐵 + 𝐴,. 𝐵., 𝐴,, 𝐵,. + 𝐴,. 𝐵..


∙ = ,, ,,
𝑚×𝑛 𝑚×𝑛 𝐴., 𝐶,, + 𝐴.. 𝐶., 𝐴., 𝐵,. + 𝐴.. 𝐵..

Nel caso della moltiplicazione, notiamo che essa sarà possibile solo se il numero delle righe delle sottomatrici di 𝐵 è
uguale al numero delle colonne delle sottomatrici di 𝐴.

Si ha una matrice diagonale partizionata a blocchi quando solo le sottomatrici della diagonale principale della matrice
sono non nulle:

𝐴,, 0
𝐴=
0 𝐴..

Infine, una proprietà riguardante il determinante di una matrice diagonale partizionata a blocchi: se 𝐴,. = 0 e/o 𝐴., =
0, si ha che 𝐴 = 𝐴,, ∙ 𝐴.. .

6.2.4 Autovalori e Autovettori: Teoria

𝐴 𝑥
Siano dati la matrice quadrata , lo scalare 𝜆 e il vettore non nullo 𝑚×1 ; sia inoltre dato il sistema di equazioni
𝑚×𝑚
𝐴𝑥 = 𝜆𝑥.
Se la relazione descritta da tale sistema di equazioni è valida, lo scalare 𝜆 si dice autovalore della matrice 𝐴, mentre il
vettore 𝑥 si dice autovettore della medesima matrice. L'autovettore 𝑥, inoltre, non è unico se si può dire che, dato 𝑥
(autovettore) e dato uno scalare 𝑐, anche il vettore 𝑐𝑥 è un autovettore della matrice 𝐴; si impone invece un
autovettore unico se la condizione 𝑥′𝑥 = 1 è rispettata.

Gli autovalori e gli autovettori di una matrice, dunque, occorre verificare la validità della relazione 𝐴𝑥 − 𝜆𝑥 = 0, dove 0
rappresenta il vettore nullo di ordine (𝑚×1). Raccogliendo, tale relazione può essere espressa anche come (𝐴 −
𝜆𝐼)𝑥 = 0.
Notiamo subito come, se il vettore 𝑥 fosse nullo (𝑥 = 0), risolverebbe la relazione; tuttavia, questa soluzione non ci
interessa. Per verificare l'equazione, occorre soddisfare la condizione 𝑑𝑒𝑡(𝐴𝑥 − 𝜆𝑥) = 0, detta equazione
caratteristica. Se tale equazione non fosse soddisfatta e avessimo 𝑑𝑒𝑡(𝐴𝑥 − 𝜆𝑥) ≠ 0, questo implicherebbe l'esistenza
della matrice inversa 𝐴𝑥 − 𝜆𝑥 |, e si avrebbe quanto segue:

|,
𝐴𝑥 − 𝜆𝑥 (𝐴𝑥 − 𝜆𝑥) = 𝐼
|, |,
𝐴𝑥 − 𝜆𝑥 𝐴𝑥 − 𝜆𝑥 𝑥 = 0 𝐴𝑥 − 𝜆𝑥

𝐼𝑥 = 0

Questa soluzione prevede che 𝑥 = 0, una soluzione che, come detto, non ci interessa: 𝑥 ≠ 0 è una condizione da porre
nel calcolo degli autovettori.

Per ottenere da queste condizioni un autovettore non nullo che risolva l'equazione, dovremo dunque risolvere
l'equazione caratteristica 𝑑𝑒𝑡(𝐴𝑥 − 𝜆𝑥) = 0. Tale equazione fornirà un polinomio con grado pari all'ordine della
matrice 𝐴 (nel nostro caso, 𝑚) le cui soluzioni saranno gli autovalori della matrice stessa.
74

Luca Biglieri

Utilizzando gli autovalori così trovati per risolvere la relazione (𝐴 − 𝜆𝐼) 𝑥 = 0, si potranno ricavare anche gli autovettori
non nulli della matrice considerata.

Prima di esporre un esempio di calcolo di autovalori e autovettori, definiamo alcune proprietà:

𝐴
- Se ha gli autovalori 𝜆, , 𝜆. , … , 𝜆( , il suo determinante sarà pari a 𝐴 = ( #T, 𝜆# ;
𝑚×𝑚
𝐴
- Se ha gli autovalori 𝜆, , 𝜆. , … , 𝜆( , la sua traccia sarà pari a 𝑡𝑟 𝐴 = (#T, 𝜆# .
𝑚×𝑚

Dalle proprietà appena esposte notiamo come, se 𝜆# = 0, 𝑖 = 1, . . . , 𝑚, allora |𝐴| = 0 e la matrice risulta singolare e non
invertibile.

6.2.5 Autovalori e Autovettori: Un Esempio di Calcolo

𝐴 1 2
Sia data la matrice = . Per calcolarne gli autovalori, impostiamo l'equazione caratteristica 𝑑𝑒𝑡(𝐴 − 𝜆𝐼) =
2×2 3 2
0, da cui ricaveremo 𝑚 = 2 autovalori, 𝜆, , 𝜆. .

1−𝜆 2
(𝐴 − 𝜆𝐼) =
3 2−𝜆

det 𝐴 − 𝜆𝐼 = 1 − 𝜆 2 − 𝜆 − 6 = 𝜆. − 3𝜆 − 4 = 0

(𝜆 − 4)(𝜆 + 1) = 0

𝜆, = −1; 𝜆. = 4

Abbiamo così ricavato i due autovalori della matrice 𝐴; di conseguenza, per le proprietà sopra descritte, possiamo anche
dire che:

- det 𝐴 = 𝜆, 𝜆. = −4;
- 𝑡𝑟 𝐴 = 𝜆, + 𝜆. = 3.

Passiamo ora a ricavare gli autovettori, risolvendo l'equazione (𝐴 − 𝜆𝐼) 𝑥 = 0 separatamente per i due autovalori
trovati.
Impostiamo per prima cosa il procedimento con 𝜆 = 𝜆, = −1.

(𝐴 − 𝜆𝐼) 𝑥 = 0 => (𝐴 + 𝐼) 𝑥 = 0

1 − −1 2 𝑥,
3 2 − −1 𝑥. = 0

2 2 𝑥,
= 0
3 3 𝑥.

Da questa formulazione, ricaviamo un sistema di due equazioni:

2𝑥, + 2𝑥. = 0

3𝑥, + 3𝑥. = 0

Dal sistema ricaviamo che, per 𝜆, , 𝑥, = −𝑥. ; l'autovettore generico che ne risulta sarà dunque:

𝑥,
𝑥 = −𝑥
,

75

Luca Biglieri

Imponendo una normalizzazione per ottenere un autovettore unico per questo autovalore, possiamo imporre che:

𝑥′𝑥 = 1
𝑥
[𝑥, −𝑥, ] −𝑥, = 1
,

(T.

𝑥,. + 𝑥,. = 1 => 𝑥#. = 1


#T,

1
𝑥, = ±
2
, ,

. .
Da cui deriviamo i due autovettori , , , per 𝜆, = −1.

. .

Lo stesso procedimento può essere applicato per 𝜆. = 4:

(𝐴 − 𝜆𝐼) 𝑥 = 0 => (𝐴 − 4𝐼) 𝑥 = 0

1−4 2 𝑥,
= 0
3 2 − 4 𝑥.
−3 2 𝑥,
= 0
3 −2 𝑥.
−3𝑥, + 2𝑥. = 0

3𝑥, − 2𝑥. = 0

2 3
𝑥, = 𝑥. => 𝑥. = 𝑥,
3 2
𝑥,
𝑥= 3
𝑥,
2
𝑥,
3
𝑥′𝑥 = 1 => [𝑥, 𝑥 ] 3 = 1
2 , 𝑥,
2
9 13 . 4
𝑥,. + 𝑥,. = 1 => 𝑥, = 1 => 𝑥,. =
4 4 13
2
𝑥, = ±
13
. .

,6 ,6
Da cui deriviamo i due autovettori 6 , 6 per 𝜆. = 4.

,6 ,6

6.2.6 Matrici Idempotenti

76

Luca Biglieri

𝐴
Data una matrice quadrata , tale matrice si dice idempotente se 𝐴 ∙ 𝐴 = 𝐴.
𝑚×𝑚
Se una matrice è idempotente, gli unici autovalori che essa può avere sono 0 e 1; un caso particolare è dato dalla
matrice-identità 𝐼, l'unica matrice idempotente invertibile, che ha come autovalore unicamente lo 0.

Una proprietà delle matrici idempotenti riguarda la loro traccia e il loro rango: se 𝐴 è idempotente, infatti, si ha che
𝑡𝑟(𝐴) = 𝑟(𝐴). Per la matrice-identità, che per definizione ha rango pieno, si può dire che 𝑡𝑟(𝐼) = 𝑟(𝐼) = 𝑚.

6.2.7 Forma Quadratica, Matrici Definite e Semidefinite

𝐴 𝑥
Dati una matrice quadrata e un vettore 𝑚×1 , si definisce forma quadratica la moltiplicazione 𝑥′𝐴𝑥; tale
𝑚×𝑚
moltiplicazione dà come risultato uno scalare: osservando gli ordini dei vari elementi da moltiplicare, si nota infatti che
la forma quadratica ha ordine 1×𝑚 𝑚×𝑚 𝑚×1 = 1×1 .

Preso un generico vettore 𝑥 si può calcolare la forma quadratica della matrice 𝐴 per arrivare a definirla in uno dei
seguenti modi:

- Definita positiva, se 𝑥′𝐴𝑥 > 0, ∀𝑥 ≠ 0;


- Semidefinita positiva, se 𝑥′𝐴𝑥 ≥ 0, ∀𝑥;
- Definita negativa, se 𝑥′𝐴𝑥 < 0, ∀𝑥 ≠ 0;
- Semidefinita negativa, se 𝑥 ë 𝐴𝑥 ≤ 0, ∀𝑥.

𝑋
Nel contesto del modello di regressione lineare multipla, si avrà a che fare con la matrice dei regressori , dove 𝑛
𝑛×𝑘
rappresenta la dimensione campionaria e 𝑘 il numero dei regressori. Data tale matrice, la forma 𝑋′𝑋 renderà una
matrice 𝑘×𝑘 ; se 𝑟(𝑋′𝑋) = 𝑘, ovvero se questa matrice avrà rango pieno, allora essa sarà definita positiva, perché,
𝑐
dato il vettore-colonna 𝑘×1 , si avrà che 𝑐′(𝑋′𝑋) 𝑐 > 0, ∀𝑐 ≠ 0.
La dimostrazione di questo risultato si ottiene "scomponendo" la moltiplicazione che costituisce la forma quadratica.
Abbiamo infatti che:

𝑣′
𝑐′𝑋′ =
1×𝑘
𝑣
𝑐𝑋 = 𝑘×1

Da cui deriva che:


ç
ë ë
𝑐 𝑋𝑋 𝑐=𝑣𝑣= ë
𝑣#. > 0
#T,

6.2.8 Derivate tra Matrici e Vettori

Consideriamo la funzione 𝑓 𝑥 , dove 𝑥 è un vettore di ordine 𝑛×1 : tale funzione sarà definita come 𝑓 𝑥 : 𝑹0 → 𝑹,
ovvero passa dalla dimensione del vettore a uno scalare.
La derivata di tale funzione rispetto al vettore 𝑥 sarà pari a un vettore (gradiente) composto dalle derivate della
funzione per ciascun elemento del vettore 𝑥:

77

Luca Biglieri

𝑑𝑓 𝑥
𝑑𝑥,
𝑑𝑓 𝑥 𝑑𝑓 𝑥
= 𝑑𝑥.
𝑑𝑥

𝑑𝑓 𝑥
𝑑𝑥0

Alternativamente, la derivata della funzione rispetto al vettore-riga 𝑥′ restituisce un vettore-riga composto dai
medesimi elementi:

𝑑𝑓 𝑥 𝑑𝑓 𝑥 𝑑𝑓 𝑥 𝑑𝑓 𝑥
ë
= ...
𝑑𝑥 𝑑𝑥, 𝑑𝑥. 𝑑𝑥0

𝑎 𝑥
Dati i due vettori 𝑚×1 , 𝑚×1 , consideriamo la derivata del prodotto 𝑎′𝑥 (il cui risultato è uno scalare) rispetto al
vettore-colonna 𝑥 e al vettore-riga 𝑥′:

𝑑𝑎′𝑥
= 𝑎
𝑑𝑥

𝑑𝑎′𝑥
= 𝑎′
𝑑𝑥′

Si può quindi affermare, quale regola generale, che la derivata di uno scalare per un vettore-colonna (riga) ha come
risultato un vettore-colonna (riga).

𝐴 𝑥
Dati la matrice quadrata e il vettore 𝑚×1 , consideriamo la derivata del prodotto 𝐴𝑥 (il cui risultato è un
𝑚×𝑚
vettore di ordine 𝑚×1 ) rispetto al vettore- riga 𝑥′ e la derivata del prodotto 𝑥′𝐴 (il cui risultato è un vettore di ordine
1×𝑚 ):

𝑑𝐴𝑥
= 𝐴
𝑑𝑥′

𝑑𝑥′𝐴
= 𝐴′
𝑑𝑥

Consideriamo, infine, la derivata della forma quadratica 𝑥 ë 𝐴𝑥 rispetto al vettore-colonna 𝑥:

𝑑𝑥′𝐴𝑥
= (𝐴 + 𝐴′) 𝑥
𝑑𝑥
]öë÷ö
Notiamo da questa formulazione come, se 𝐴 è simmetrica, allora = 2𝐴𝑥.

78

Luca Biglieri

7. Regressione Lineare Multipla in Rappresentazione Matriciale
7.1 Notazione Matriciale del Modello
Finora abbiamo considerato il modello di regressione lineare multipla nella sua rappresentazione lineare con 𝑘
regressori:

𝑌# = 𝛽L + 𝛽, 𝑋,# + 𝛽. 𝑋.# +. . . +𝛽. 𝑋ç# + 𝑢# , 𝑖 = 1, . . . , 𝑛

Passiamo ora a una scrittura più compatta, utilizzando matrici e vettori; definiamo dunque i seguenti elementi:

𝑦,
𝑦
- = ⋮ , vettore-colonna delle variabili dipendenti;
𝑛×1
𝑦0

𝑋,ë 1 𝑥,, . . . 𝑥ç,
𝑋
- = ⋮ = 1 ⋮ ⋱ ⋮ , matrice dei regressori: si nota che il numero delle colonne è
𝑛× 𝑘 + 1 ë . . . 𝑥ç0
𝑋0 1 𝑥,0
𝑘 + 1 in modo da comprendere anche l'intercetta e che l'intercetta è pari a 1 per tutte le osservazioni;

𝛽L
𝛽 𝛽
- = , , vettore-colonna dei coefficienti;
𝑘 + 1 ×1 ⋮
𝛽ç

𝑢,
𝑢
⋮ , vettore-colonna degli errori.
- 𝑛×1 =
𝑢0

Possiamo dire che 𝑦 è il vettore che contiene tutte le informazioni sulla variabile dipendente, mentre 𝑋 è la matrice che
raccoglie le informazioni sulle variabili esplicative; ciascuna colonna di 𝑋 fornisce informazioni su una di queste variabili,
ovvero su un regressore.

Definiti questi elementi, possiamo esplicitare la forma matriciale del modello di regressione lineare multipla come
segue:

𝒚 = 𝑿𝜷 + 𝒖

Dove il prodotto tra la matrice dei regressori e il vettore dei coefficienti fornisce un vettore-colonna di ordine 𝑛×1
espresso come segue:

𝑋,ë 𝛽
𝑋𝛽 = ⋮
𝑋0ë 𝛽

7.2 Assunzioni OLS nel Modello in Forma Matriciale


Riprendiamo le assunzioni OLS già viste per il modello di regressione lineare multipla nel capitolo 5, riscrivendole per
adattarle al modello in forma matriciale.

79

Luca Biglieri

1. 𝐸 𝑦# 𝑋# = 𝑋#ë 𝛽.
La media condizionale di 𝑦# ai vettori-colonna della matrice 𝑋 (ovvero ai singoli regressori del modello) per l'𝑖-
esima osservazione è lineare. Questo significa che la funzione di regressione è uguale alla media condizionale
della variabile dipendente.
Questa formulazione dell'assunzione è equivalente a scrivere 𝐸 𝑢# 𝑋# = 0: sappiamo infatti che 𝑢# = 𝑦# −
𝐸 𝑦# 𝑋# = 𝑦# − 𝑋#ë 𝛽, di conseguenza possiamo scrivere che 𝐸 𝑢# 𝑋# = 𝐸 𝑦# − 𝑋#ë 𝛽 𝑋# = 𝐸 𝑦# 𝑋# −
𝐸 𝑋#ë 𝛽 𝑋# = 𝑋#ë 𝛽 − 𝑋#ë 𝛽 = 0.

2. Campionamento casuale semplice: 𝑦# , 𝑋#ë 𝑖. 𝑖. 𝑑.
Per ogni osservazione 𝑖 viene estratto dalla popolazione un vettore 𝑦# , 𝑋#ë in modo indipendente.
Questa seconda assunzione implica che 𝑋# sia indipendente da 𝑋q e che 𝑦# sia indipendente sia da 𝑋# che da 𝑋q :
pertanto, riprendendo la prima assunzione, possiamo scrivere che 𝐸 𝑦# 𝑋, , … , 𝑋0 = 𝑋#ë 𝛽 e che
𝐸 𝑦# 𝑋, , … , 𝑋0 , 𝑦, , … , 𝑦0 = 𝑋#ë 𝛽.

𝑋
3. La matrice dei regressori ha rango-colonna pieno: 𝑟(𝑋) = 𝑘 + 1, con 𝑛 >> 𝑘 + 1.
𝑛× 𝑘 + 1
Facendo riferimento alla definizione di rango, questa assunzione implica che tutti i regressori siano linearmente
indipendenti.

4. La quarta assunzione è composta da alcune proprietà degli errori.
La prima proprietà deriva dalle prime due assunzioni: 𝐸 𝑢 𝑋 = 0.
La seconda proprietà permette di rappresentare la matrice condizionata di varianze e covarianze:
𝑢, 𝑢,. 𝑢, 𝑢. . . . 𝑢, 𝑢0
𝐸 𝑢𝑢 𝑋 = 𝐸 ⋮ [𝑢, . . . 𝑢0 ]|𝑋 = 𝐸
ë
⋮ ⋮ ⋱ ⋮ |𝑋 = 𝜎ß. 𝐼0
𝑢0 𝑢0 𝑢, 𝑢0 𝑢. . . . 𝑢0.
Questa proprietà vale se c'è omoschedasticità, ovvero se 𝐸 𝑢#. 𝑋 = 𝜎ß. .
Rappresenteremo dunque la matrice 𝜎ß. 𝐼0 come segue:
1 … 0 𝜎ß. … 0
. .
𝜎ß 𝐼0 = 𝜎ß ∙ ⋮ ⋱ ⋮ = ⋮ ⋱ ⋮ = 𝐸 𝑢𝑢 ë 𝑋
0 … 1 0 … 𝜎ß.
Notiamo come, sulla diagonale principale, si trovi la varianza condizionata dell'errore (𝜎ß. ), mentre, al di fuori di
tale diagonale, si trovano le covarianze (𝐸 𝑢# 𝑢q 𝑋 , 𝑖 ≠ 𝑗) nulle per la seconda assunzione.
Questa quarta assunzione, dunque, ingloba l'assunzione di omoschedasticità e l'assenza di covarianza tra gli
errori; inoltre, per la legge delle aspettative iterate, si può dire che:
𝐸 𝑢 = 𝐸 𝐸 𝑢 𝑋 = 0
𝐸[𝑢𝑢′] = 𝐸[𝐸[𝑢𝑢′|𝑋]] = 𝜎ß. 𝐼0
Passando così dal valore atteso condizionato a quello non condizionato.

7.3 Ricavare lo Stimatore OLS


Come già accennato nel capitolo 5, si può utilizzare il metodo dei minimi quadrati ordinari per ricavare gli stimatori dei
valori dei coefficienti che compongono il vettore 𝛽 quali soluzioni del seguente problema:
0

min 𝑌# − (𝛽L + 𝛽, 𝑋,# +. . . +𝛽ç 𝑋ç# ) .


¸® ,¸¹ ,...,¸ù
#T,

80

Luca Biglieri

0 .
In questa scrittura, la funzione-obiettivo 𝑓 𝛽L , 𝛽, , … , 𝛽ç = #T, 𝑌# − 𝛽L + 𝛽, 𝑋,# + ⋯ + 𝛽ç 𝑋ç# è la somma dei
quadrati dei residui.

𝛽
Utilizzando la notazione matriciale, potremo ricavare tramite il metodo OLS il vettore degli stimatori,
𝑘 + 1 ×1
impostando il problema di minimizzazione come segue:

𝛽
≡ 𝑎𝑟𝑔 min(𝑦 − 𝑋𝛽)′(𝑦 − 𝑋𝛽) = 𝑎𝑟𝑔 min 𝑢′𝑢
𝑘 + 1 ×1 ¸ ¸

ë
Dal momento che 𝑢 = 𝑦 − 𝑋𝛽, 𝑦 − 𝑋𝛽 𝑦 − 𝑋𝛽 rappresenta la somma dei quadrati dei residui.

Svolgendo la formula sopra, ricaviamo:

𝛽 ≡ 𝑎𝑟𝑔 min 𝑦 ë 𝑦 − 𝛽 ë 𝑋 ë 𝑦 − 𝑦 ë 𝑋𝛽 + 𝛽 ë 𝑋 ë 𝑋𝛽
¸

In questa formulazione possiamo notare come ciascuno degli elementi dentro la parentesi sia uno scalare di ordine
1×1 (si può dimostrare osservando gli ordini di ciascuno degli elementi, che risulta dalle moltiplicazioni tra vettori e
matrici); inoltre, l'ultimo elemento, 𝛽 ë 𝑋 ë 𝑋𝛽, rappresenta la forma quadratica della matrice 𝑋 ë 𝑋.
Osservando i due elementi al centro della parentesi, si nota come siano l'uno l'opposto dell'altro: 𝛽 ë 𝑋 ë 𝑦 = 𝑦 ë 𝑋𝛽 ë .
Essendo questi due elementi degli scalari, si può dire quindi che 𝛽 ë 𝑋 ë 𝑦 = 𝑦 ë 𝑋𝛽, da cui deriva che:

𝛽 ≡ 𝑎𝑟𝑔 min 𝑦 ë 𝑦 − 2 ∙ 𝛽 ë 𝑋 ë 𝑦 + 𝛽 ë 𝑋 ë 𝑋𝛽
¸

Ora, per proseguire nella minimizzazione, ricaviamo la condizione del primo ordine e poniamo la derivata rispetto a 𝛽
uguale a 0:

𝑑 ë
𝑦 𝑦 − 2 ∙ 𝛽 ë 𝑋 ë 𝑦 + 𝛽 ë 𝑋 ë 𝑋𝛽 = 0
𝑑𝛽

Separiamo le tre derivate che ne risultano, svolgendole:

0 − 2𝑋′𝑦 + 2(𝑋′𝑋)𝛽 = 0

(𝑋′𝑋)𝛽 = 𝑋′𝑦

Ora, riprendiamo la terza assunzione, secondo la quale 𝑟(𝑋) = 𝑘 + 1, rango pieno. Questo significa che la matrice
(𝑋′𝑋) è invertibile, ovvero esiste 𝑋 ë 𝑋 |, .
Applichiamo questo risultato premoltiplicando da entrambi i lati l'equazione appena ricavata per questa matrice
inversa:

𝑋 ë𝑋 |,
(𝑋′𝑋)𝛽 = 𝑋 ë 𝑋 |,
𝑋′𝑦

A sinistra, 𝑋 ë 𝑋 |,
𝑋 ë 𝑋 = 𝐼:

𝐼𝛽 = 𝑋 ë 𝑋 |,
𝑋′𝑦

Da cui si ricava, infine, che:

𝜷𝑶𝑳𝑺
= 𝑿ë 𝑿 |𝟏
𝑿ë 𝒚
𝒌 + 𝟏 ×𝟏

81

Luca Biglieri

Analizzando la forma di questo stimatore, si può notare un'analogia con il modello di regressione lineare semplice: il
termine 𝑋 ë 𝑋 |, , infatti, rappresenta una stima della matrice di varianza e covarianza dei regressori, mentre il termine
𝑋′𝑦 è una stima della covarianza tra regressori e variabile dipendente; nel complesso, dunque, la struttura di 𝛽þó·
·—w
ricorda lo stimatore della pendenza della regressione lineare semplice, 𝛽, = x .
·—

7.4 Proprietà dello Stimatore OLS nella Regressione Lineare Multipla

7.4.1 Non Distorsione

Abbiamo ricavato lo stimatore 𝛽þó· . Procediamo ora con il calcolo del suo valore atteso condizionato (e, applicando poi
la legge dei valori attesi iterati, anche non condizionato): se ricaveremo che 𝐸 𝛽þó· 𝑋 = 𝛽, potremo affermare che tale
stimatore è non distorto.

Partiamo dalla formulazione appena ricavata al paragrafo precedente, esprimendo poi 𝑦 come da definizione del
modello di regressione lineare multipla in notazione matriciale (𝑦 = 𝑋𝛽 + 𝑢):

𝛽þó· = 𝑋 ë 𝑋 |,
𝑋 ë𝑦 = 𝑋 ë𝑋 |,
𝑋 ë 𝑋𝛽 + 𝑢

Svolgiamo il prodotto 𝑋 ë 𝑋𝛽 + 𝑢 , arrivando a semplificare il primo termine ottenuto identificando una formulazione
della matrice-identità:

𝛽þó· = 𝑋 ë 𝑋 |,
(𝑋 ë 𝑋)𝛽 + 𝑋 ë 𝑋 |,
𝑋′𝑢

𝛽þó· = 𝐼𝛽 + 𝑋 ë 𝑋 |,
𝑋′𝑢

𝛽þó· = 𝛽 + 𝑋 ë 𝑋 |,
𝑋′𝑢

Arrivati a questo punto, calcoliamo il valore atteso condizionato:

𝐸 𝛽þó· 𝑋 = 𝛽 + 𝐸 𝑋 ë 𝑋 |,
𝑋 ë𝑢 𝑋

Come avveniva nel modello di regressione lineare semplice e, in generale, applicando il valore atteso condizionato,
possiamo portare al di fuori di esso i termini legati a 𝑋:

𝐸 𝛽þó· 𝑋 = 𝛽 + 𝑋 ë 𝑋 |,
𝑋 ë𝐸 𝑢 𝑋

A questo punto, sapendo dalla prima assunzione OLS che 𝐸 𝑢 𝑋 = 0, risulta intuitiva la semplificazione che porta a
dimostrare la non distorsione dello stimatore:

𝑬 𝜷𝑶𝑳𝑺 𝑿 = 𝜷

Tramite la legge dei valori attesi iterati, inoltre, possiamo dimostrare che anche il valore atteso non condizionato di 𝛽þó·
equivale a 𝛽:

𝐸 𝛽þó· = 𝐸” 𝐸 𝛽þó· 𝑋 = 𝛽

Da questi risultati, possiamo ricavare anche il valore atteso condizionato del termine 𝑋𝛽:

𝐸 𝑋𝛽 𝑋 = 𝑋 𝐸 𝛽 𝑋 = 𝑋𝛽

82

Luca Biglieri

Inoltre, la proprietà di non distorsione è utile per trovare il valore atteso condizionato del vettore degli errori:

𝐸 𝑢 𝑋 = 𝐸 𝑦 − 𝑋𝛽 𝑋 = 𝐸[𝑦|𝑋] − 𝐸[𝑋𝛽|𝑋]

𝐸 𝑢 𝑋 = 𝑋𝛽 − 𝑋 𝐸 𝛽 𝑋

𝐸 𝑢 𝑋 = 𝑋𝛽 − 𝑋𝛽 = 0

7.4.2 Calcolo della Varianza di 𝜷𝑶𝑳𝑺

Per calcolare la varianza condizionata dello stimatore OLS, ripartiamo dalla formulazione ricavata al paragrafo
precedente:

𝛽þó· = 𝛽 + 𝑋 ë 𝑋 |,
𝑋′𝑢

A questo punto, applichiamo la consueta formula della varianza (valore atteso del quadrato della differenza tra la
variabile e il suo valore atteso), adattandola alla notazione matriciale:
ë
𝑣𝑎𝑟 𝛽 𝑋 = 𝐸 𝛽−𝐸 𝛽 𝑋 𝛽−𝐸 𝛽 𝑋 𝑋

Sapendo che 𝐸 𝛽þó· 𝑋 = 𝛽, possiamo semplificare:

ë
𝑣𝑎𝑟 𝛽 𝑋 = 𝐸 𝛽−𝛽 𝛽−𝛽 𝑋

A questo punto, ricaviamo i due termini tra parentesi. Dalla prima relazione riportata in questo paragrafo, ricaviamo
facilmente che 𝛽 − 𝛽 = 𝑋 ë 𝑋 |,
𝑋′𝑢, il primo termine tra parentesi; il secondo termine sarà pari al primo trasposto:
ë
𝛽 − 𝛽 = 𝑋 ë 𝑋 |, 𝑋 ë 𝑢 ë = 𝑢 ë 𝑋 𝑋 ë 𝑋 |,
.
Possiamo quindi sostituire:

𝑣𝑎𝑟 𝛽 𝑋 = 𝐸 𝑋 ë 𝑋 |,
𝑋′𝑢𝑢 ë 𝑋 𝑋 ë 𝑋 |,
𝑋

Portiamo fuori dal valore atteso condizionato i termini espressi in funzione di 𝑋:

𝑣𝑎𝑟 𝛽 𝑋 = 𝑋 ë 𝑋 |,
𝑋′ 𝐸 𝑢𝑢 ë 𝑋 𝑋 𝑋 ë 𝑋 |,

Ma dalla quarta assunzione sappiamo che 𝐸 𝑢𝑢 ë 𝑋 = 𝜎ß. 𝐼0 :

𝑣𝑎𝑟 𝛽 𝑋 = 𝑋 ë 𝑋 |,
𝑋′ 𝜎ß. 𝐼0 𝑋 𝑋 ë 𝑋 |,

𝑣𝑎𝑟 𝛽 𝑋 = 𝑋 ë 𝑋 |,
𝑋′ 𝜎ß. 𝑋 𝑋 ë 𝑋 |,

Eliminando, nella moltiplicazione, la matrice-identità che funge da elemento neutro.

Ora, cambiamo l'ordine dei fattori spostando la 𝑋 prima della varianza dell'errore:

𝑣𝑎𝑟 𝛽 𝑋 = 𝑋 ë 𝑋 |,
𝑋′𝑋 𝑋 ë 𝑋 |,
𝜎ß.

Notiamo che 𝑋 ë 𝑋 |,
𝑋′𝑋 = 𝐼; si può quindi semplificare:

𝑣𝑎𝑟 𝛽 𝑋 = 𝐼 𝑋 ë 𝑋 |, .
𝜎ß

83

Luca Biglieri

𝒗𝒂𝒓 𝜷 𝑿 = 𝝈𝟐𝒖 𝑿ë 𝑿 |𝟏

Abbiamo così ricavato la formulazione della varianza condizionata del vettore degli stimatori rispetto alla matrice dei
regressori.
Tale risultato sarà una matrice di ordine 𝑘 + 1 × 𝑘 + 1 , la matrice di varianza e covarianza del vettore degli
stimatori:

𝑣𝑎𝑟 𝛽L 𝑐𝑜𝑣 𝛽L , 𝛽, . . . 𝑐𝑜𝑣 𝛽L , 𝛽ç


𝑣𝑎𝑟 𝛽 𝑋
= ⋮ ⋮ ⋱ ⋮
𝑘+1 × 𝑘+1
𝑐𝑜𝑣 𝛽ç , 𝛽L 𝑐𝑜𝑣 𝛽ç , 𝛽, . .. 𝑣𝑎𝑟 𝛽ç

In questa matrice, sulla diagonale principale troviamo la varianza di ciascun elemento del vettore degli stimatori, 𝛽# ,
mentre al di fuori della diagonale troviamo le covarianze tra gli elementi di 𝛽, ovvero tra uno stimatore e l'altro
(𝑐𝑜𝑣 𝛽# , 𝛽q , 𝑖 ≠ 𝑗).

Partendo dalla varianza condizionata appena ricavata, si può utilizzare la legge della scomposizione della varianza per
arrivare alla varianza non condizionata, 𝑣𝑎𝑟 𝛽 :

𝑣𝑎𝑟 𝛽 = 𝐸 𝑣𝑎𝑟 𝛽 𝑋 + 𝑣𝑎𝑟 𝐸 𝛽 𝑋

𝑣𝑎𝑟 𝛽 = 𝐸 𝜎ß. 𝑋 ë 𝑋 |,
+ 𝑣𝑎𝑟 𝛽

𝑣𝑎𝑟 𝛽 = 𝜎ß. ∙ 𝐸 𝑋 ë 𝑋 |,
+ 0

𝒗𝒂𝒓 𝜷 = 𝝈𝟐𝒖 ∙ 𝑬 𝑿ë 𝑿 |𝟏

7.5 Le Matrici di Proiezione

7.5.1 Definizioni e Proprietà

Definiamo ora due particolari matrici costruite a partire dalla matrice dei regressori 𝑋, dette matrici di proiezione e
chiamate 𝑃” e 𝑀” , tali che:

- 𝑃” = 𝑋 𝑋 ë 𝑋 |, 𝑋 ë ;
- 𝑀” = 𝐼0 − 𝑃” = 𝐼0 − 𝑋 𝑋 ë 𝑋 |,
𝑋 ë .

Entrambe queste matrici sono per definizione simmetriche e idempotenti; questo significa che:

𝑃” = 𝑃”ë ; 𝑀” = 𝑀”ë

𝑃” 𝑃” = 𝑃” ; 𝑀” 𝑀” = 𝑀”

L'idempotenza della matrice 𝑃” si può dimostrare come segue:

𝑃” 𝑃” = 𝑋 𝑋 ë 𝑋 |,
𝑋 ë𝑋 𝑋 ë𝑋 |,
𝑋 ë

Poiché si ha che 𝑋 ë 𝑋 |,
𝑋 ë 𝑋 = 𝐼, avremo che:

𝑃” 𝑃” = 𝑋𝐼 𝑋 ë 𝑋 |,
𝑋 ë = 𝑋 𝑋 ë𝑋 |,
𝑋 ë = 𝑃”

In modo simile, si può dimostrare che 𝑃” 𝑋 = 𝑋:

84

Luca Biglieri

𝑃” 𝑋 = 𝑋 𝑋 ë 𝑋 |,
𝑋 ë 𝑋 = 𝑋𝐼 = 𝑋

Per quanto riguarda l'ordine della matrice 𝑃” , possiamo dedurlo osservando l'ordine delle matrici che compongono il
prodotto:

𝑃” 𝑋 𝑋 ë 𝑋 |, 𝑋ë
=
𝑛×𝑛 𝑛× 𝑘 + 1 𝑘+1 × 𝑘+1 𝑘 + 1 ×𝑛

Da questa formulazione e dalle regole del rango delle matrici, possiamo ricavare anche il rango della matrice 𝑃” :

𝑟 𝑃” ≤ min 𝑟 𝑋 , 𝑟 𝑋 ë 𝑋 |,
, 𝑟 𝑋ë

𝑟 𝑃” = 𝑘 + 1

7.5.2 Matrici di Proiezione nel Modello di Regressione

La matrice di proiezione 𝑃” , all'interno del modello di regressione lineare multipla, permette di rappresentare i valori
stimati della variabile dipendente; esprimendo il vettore dei valori previsti e svolgendo l'espressione del vettore 𝛽,
ricaviamo infatti:

𝑦 = 𝑋𝛽 = 𝑋 𝑋 ë 𝑋 |,
𝑋 ë𝑦

Togliendo le parentesi, possiamo evidenziare in questa espressione la formulazione di 𝑃” :

𝒚 = 𝑿 𝑿ë 𝑿 |𝟏
𝑿ë 𝒚 = 𝑷𝑿 𝒚

Il significato della matrice 𝑃” è legata a questa formulazione: essa fornisce la migliore spiegazione della variabile
dipendente 𝑦, conoscendo la matrice 𝑋 utilizzata per costruire 𝑃” .

In generale, data una determinata matrice 𝑍 che assume la funzione di matrice dei regressori, si potrà ricavare la
matrice di proiezione 𝑃• = 𝑍 𝑍 ë 𝑍 |, 𝑍 ë che fornirà la migliore spiegazione di 𝑦 conosciuta 𝑍; la formulazione 𝑦 = 𝑃• 𝑦,
dunque, equivale al modello di regressione lineare multipla:

𝑦 = 𝑃• 𝑦 = 𝛽L + 𝛽, 𝑍, + 𝛽. 𝑍. + ⋯ + 𝛽ç 𝑍ç

Dove 𝑦 = 𝛽L + 𝛽, 𝑍, + 𝛽. 𝑍. + ⋯ + 𝛽ç 𝑍ç + 𝑢.

Al contrario, l'altra matrice di proiezione definita al paragrafo precedente, 𝑀” , quando viene premoltiplicata a 𝑌
permette di ricavare i residui del modello di regressione:

𝑴𝑿 𝒚 = 𝒖

Di seguito svolgiamo la dimostrazione di questo risultato:

𝑀” 𝑦 = 𝑀” (𝑋𝛽 + 𝑢) = 𝑀” 𝑋𝛽 + 𝑀” 𝑢

Notiamo la presenza del termine 𝑀” 𝑋, che è uguale a 0:

𝑀” 𝑋 = 𝐼0 − 𝑃” 𝑋 = 𝑋 − 𝑋 𝑋 ë 𝑋 |,
𝑋 ë 𝑋 = 𝑋 − 𝑋 = 0

Possiamo quindi eliminare il primo termine dell'equazione:

𝑀” 𝑦 = 𝑀” 𝑢 = 𝑢
85

Luca Biglieri

Alternativamente, possiamo dimostrare questo risultato partendo dalla definizione del vettore dei residui, 𝑢:

𝑢 = 𝑦 − 𝑋𝛽 = 𝑦 − 𝑋 𝑋 ë 𝑋 |,
𝑋 ë𝑦

𝑢 = 𝑦 − 𝑋 𝑋 ë𝑋 |,
𝑋 ë 𝑦

Raccogliendo 𝑌, si ottiene:

𝑢 = 𝐼0 − 𝑋 𝑋 ë 𝑋 |,
𝑋 ë 𝑦

𝑢 = 𝐼0 − 𝑃” 𝑌 = 𝑀” 𝑦

Possiamo dedurre da questi passaggi due proprietà della matrice 𝑀” :

- 𝑀” 𝑦 = 𝑀” 𝑢 = 𝑢;
- 𝑀” 𝑋 = 0.

La matrice 𝑀” , moltiplicata ad un'altra matrice, rappresenta la parte di tale matrice che non viene spiegata, conoscendo
𝑋: notiamo, nel primo caso, come la parte di 𝑦 che non viene spiegata conoscendo 𝑋 equivale ai residui, mentre, nel
secondo caso, la parte di 𝑋 che non è spiegata conoscendo la stessa 𝑋 è nulla.

7.5.3 Lo Stimatore della Varianza degli Errori: Notazione Vettoriale

Rappresentare i residui della regressione come 𝑢 = 𝑀” 𝑢 permette di ricavare lo stimatore della varianza degli errori,
estendendo quello della regressione lineare semplice alla regressione multipla.
Tale stimatore si presenta come segue:

𝒏 𝟐
𝒊T𝟏 𝒖𝒊
𝑺𝟐𝒖 =
𝒏−𝒌−𝟏

Dove 𝑘 rappresenta il numero dei regressori: questo elemento è l'unico che differenzia lo stimatore rispetto a quello
della regressione semplice.

In notazione vettoriale, possiamo rappresentare lo stimatore come segue:

𝑢′𝑢
𝑆ß. =
𝑛−𝑘−1

Il prodotto interno tra i due vettori al numeratore è l'equivalente, in tale notazione, alla sommatoria dei quadrati dei
residui.
Sapendo che 𝑢 = 𝑀” 𝑢, possiamo poi riscrivere:

𝑢 ë 𝑀”ë 𝑀” 𝑢
𝑆ß. =
𝑛−𝑘−1

Inoltre, sapendo che la matrice 𝑀” è simmetrica e idempotente, avremo che 𝑀′” 𝑀” = 𝑀” 𝑀” = 𝑀” , da cui deriva:

𝒖′𝑴𝑿 𝒖
𝑺𝟐𝒖 =
𝒏−𝒌−𝟏

Quest'ultima formulazione è quella definitiva in forma vettoriale, valida purché valga l'assunzione di omoschedasticità.

86

Luca Biglieri

7.5.4 Lo Stimatore della Varianza degli Errori: Correttezza

Possiamo dimostrare che lo stimatore della varianza degli errori appena ricavato è corretto condizionatamente, ovvero
che 𝐸 𝑆ß. 𝑋 = 𝜎ß. , con 𝜎ß. = 𝐸 𝑢#. 𝑋 , ∀𝑖 = 1, … , 𝑛.
Per arrivare a questa dimostrazione, sfrutteremo le due seguenti proprietà della traccia:

- 𝑡𝑟(𝑎) = 𝑎, se 𝑎 è uno scalare;


- 𝑡𝑟(𝐴𝐵𝐶) = 𝑡𝑟(𝐵𝐶𝐴) = 𝑡𝑟(𝐶𝐴𝐵): proprietà di permutazione della traccia.

Partendo dalla formulazione dello stimatore ricavata al paragrafo precedente, impostiamo il suo valore atteso
condizionato:

𝑢 ë 𝑀” 𝑢
𝐸 𝑆ß. 𝑋 = 𝐸 𝑋
𝑛−𝑘−1

Notiamo che al numeratore compare una forma quadratica, che è per definizione uguale a uno scalare; per la prima
proprietà della traccia sopra elencata, potremo dire che 𝑢 ë 𝑀” 𝑢 = 𝑡𝑟 𝑢 ë 𝑀” 𝑢 , ricavando che:

𝐸 𝑡𝑟 𝑢 ë 𝑀” 𝑢 𝑋
𝐸 𝑆ß. 𝑋 =
𝑛−𝑘−1
,
Portando la costante fuori dal valore atteso.
0|ç|,

Applichiamo ora la proprietà di permutazione per cambiare l'ordine degli elementi in parentesi:

𝐸 𝑡𝑟 𝑀” 𝑢𝑢′ 𝑋
𝐸 𝑆ß. 𝑋 =
𝑛−𝑘−1

A questo punto, sapendo che la traccia è una sommatoria, portiamola fuori dal valore atteso:

𝑡𝑟 𝐸 𝑀” 𝑢𝑢 ë 𝑋
𝐸 𝑆ß. 𝑋 =
𝑛−𝑘−1

Dal momento che 𝑀” è un termine legato a 𝑋, possiamo portare fuori dal valore atteso condizionato anche questa
matrice:

𝑡𝑟 𝑀” 𝐸 𝑢𝑢 ë 𝑋
𝐸 𝑆ß. 𝑋 =
𝑛−𝑘−1

A questo punto, applichiamo l'assunzione di omoschedasticità, per la quale 𝐸 𝑢𝑢 ë 𝑋 = 𝜎ß. 𝐼0 :

𝑡𝑟 𝑀” 𝜎ß. 𝐼0 𝑡𝑟 𝑀” 𝜎ß. 𝜎ß. 𝑡𝑟 𝑀”


𝐸 𝑆ß. 𝑋 = = =
𝑛−𝑘−1 𝑛−𝑘−1 𝑛−𝑘−1

Nell'ultimo passaggio, abbiamo portato 𝜎ß. fuori dal calcolo della traccia perché, per definizione, la traccia di una
matrice moltiplicata per uno scalare è uguale al prodotto tra tale scalare e la traccia della matrice.

Per costruzione, però, sappiamo che 𝑡𝑟 𝑀” = 𝑛 − 𝑘 − 1; troviamo infatti che:

𝑀” = 𝐼0 − 𝑃” = 𝐼0 − 𝑋 𝑋 ë 𝑋 |,
𝑋 ë

𝑡𝑟 𝑀” = 𝑡𝑟 𝐼0 − 𝑡𝑟 𝑋 𝑋 ë 𝑋 |,
𝑋 ë = 𝑛 − 𝑡𝑟 𝑋 𝑋 ë 𝑋 |,
𝑋 ë = 𝑛 − 𝑡𝑟 𝑋 ë 𝑋 |,
𝑋 ë𝑋

𝑡𝑟 𝑀” = 𝑛 − 𝑡𝑟 𝐼ç•, = 𝑛 − 𝑘 + 1

87

Luca Biglieri

𝑡𝑟 𝑀” = 𝑛 − 𝑘 − 1

Questo risultato ci permette di semplificare facilmente il calcolo del valore atteso dello stimatore, dimostrandone tra
l'altro la correttezza:

𝜎ß. 𝑡𝑟 𝑀” 𝜎ß. (𝑛 − 𝑘 − 1)
𝐸 𝑆ß. 𝑋 = =
𝑛−𝑘−1 𝑛−𝑘−1

𝑬 𝑺𝟐𝒖 𝑿 = 𝝈𝟐𝒖

Dimostrata la correttezza condizionata dello stimatore, è possibile applicare la legge dei valori attesi iterati per arrivare
a dimostrarne anche la correttezza non condizionata:

𝐸 𝑆ß. = 𝐸” 𝐸 𝑆ß. 𝑋 = 𝐸” 𝜎ß.

𝑬 𝑺𝟐𝒖 = 𝑬𝑿 𝝈𝟐𝒖 = 𝝈𝟐𝒖

7.6 Il Modello Partizionato

7.6.1 Scopo e Definizione

Il modello partizionato è uno strumento utile per ricavare gli stimatori per dei sottoinsiemi di parametri inclusi nel
vettore 𝛽.
Poniamo, ad esempio, di considerare il modello di regressione lineare multipla 𝑦 = 𝛽L + 𝛽, 𝑥, + 𝛽. 𝑥. + 𝛽6 𝑥6 + 𝑢 in
cui 𝑘 + 1, il numero dei regressori, è uguale a 4. In questo contesto, lo stimatore 𝛽, , ricavabile attraverso il modello
partizionato, fornirà informazioni riguardo alla variazione di 𝑦 al variare di 𝑥, , tenendo costanti i valori per gli altri
regressori, 𝑥. e 𝑥6 .

In notazione matriciale, il modello sopra descritto si presenterà come 𝑦 = 𝑋𝛽 + 𝑢. Per procedere a stimare dei singoli
parametri, ovvero dei sottoinsiemi di 𝛽, si dovrà procedere al partizionamento delle variabili, come segue:

𝑋 = 𝑋, 𝑋.

𝛽,
𝛽=
𝛽.

𝑋, 𝑋.
Dove e sono delle sottomatrici con uguale numero di righe e numeri di colonne pari a 𝑘, e 𝑘. , tali che
𝑛×𝑘, 𝑛×𝑘.
𝛽,
𝑘, + 𝑘. = 𝑘 + 1 (la prima sottomatrice comprende 𝑘, regressori, la seconda comprende i 𝑘. restanti), e dove e
𝑘, ×1
𝛽.
rappresentano due sottovettori dell'originario vettore 𝛽 che comprendono rispettivamente i coefficienti per i
𝑘. ×1
regressori contenuti in 𝑋, e 𝑋. .

In modo completo, dando risalto agli ordini delle variabili del modello, si potrà quindi riscrivere il modello come segue:

𝑦 𝑋, 𝛽, 𝑋. 𝛽. 𝑢
= + + 𝑛×1
𝑛×1 𝑛×𝑘, 𝑘, ×1 𝑛×𝑘. 𝑘. ×1

7.6.2 Ricavare lo Stimatore 𝜷𝟏


88

Luca Biglieri

Utilizzando le matrici di proiezione, possiamo arrivare a una formulazione dello stimatore 𝛽, che permette di valutare
l'influenza di una singola variabile (o di un sottoinsieme di variabili) su 𝑦, tenendo costanti gli altri regressori.
Partiamo dalla seguente formula:

𝑦 = 𝑃” 𝑦 + 𝑀” 𝑦 = 𝑃” 𝑦 + 𝐼 − 𝑃” 𝑦

Sapendo che 𝑃” 𝑦 = 𝑦, vettore dei valori previsti, riscriveremo:

𝑦 = 𝑦 + 𝐼 − 𝑃” 𝑦

𝑦 = 𝑋, 𝛽, + 𝑋. 𝛽. + 𝐼 − 𝑃” 𝑦

Svolgendo semplicemente il vettore dei valori previsti.


Sappiamo inoltre che 𝑀” 𝑦 è pari al vettore dei residui; possiamo quindi formulare:

𝑦 = 𝑋, 𝛽, + 𝑋. 𝛽. + 𝑢

Notando che questa notazione equivale a dire che 𝑦 − 𝑦 = 𝑢.

Definiamo ora una nuova matrice, 𝑀”x , che, in un modello partizionato, rappresenta la parte non spiegata della
variabile postmoltiplicata ad essa, conoscendo 𝑋. . Tale matrice è definita come segue:

𝑀”x = 𝐼 − 𝑋. 𝑋.ë 𝑋. |,
𝑋.ë

Ora, ripartiamo dal modello 𝑦 = 𝑋, 𝛽, + 𝑋. 𝛽. + 𝑀” 𝑦 e premoltiplichiamo da entrambi i lati per 𝑋,ë 𝑀”x ; otteniamo:

𝑋,ë 𝑀”x 𝑦 = 𝑋,ë 𝑀”x 𝑋, 𝛽, + 𝑋,ë 𝑀”x 𝑋. 𝛽. + 𝑋,ë 𝑀”x 𝑀” 𝑦

A questo punto, possiamo semplificare identificando i seguenti costrutti:

- 𝑀”x 𝑋. = 𝐼 − 𝑋. 𝑋.ë 𝑋. |,
𝑋.ë 𝑋. = 𝑋. − 𝑋. 𝑋.ë 𝑋. |,
𝑋.ë 𝑋. = 𝑋. − 𝑋. 𝐼 = 𝑋. − 𝑋. = 0, nel secondo termine a
destra dell'uguale;
- 𝑋,ë 𝑀”x 𝑀” = 𝑀” 𝑀”x 𝑋, = 0: 𝑀”x 𝑋, rappresenta la parte di 𝑋, che non viene spiegata dalla conoscenza di 𝑋. ,
ovvero è pari ai residui; 𝑀” 𝑀”x 𝑋, , dunque, rappresenta la parte di tali residui che non viene spiegata dalla
conoscenza di 𝑋. Ma la conoscenza di 𝑋 spiega completamente tali residui, quindi l'espressione 𝑀” 𝑀”x 𝑋, ,
equivalente a 𝑋,ë 𝑀”x 𝑀” , si annulla nell'ultimo termine a destra dell'uguale.

Per queste due semplificazioni, riscriveremo:

𝑋,ë 𝑀”x 𝑦 = 𝑋,ë 𝑀”x 𝑋, 𝛽,

Ovvero, isolando lo stimatore:

|𝟏
𝜷𝟏 = 𝑿ë𝟏 𝑴𝑿𝟐 𝑿𝟏 𝑿ë𝟏 𝑴𝑿𝟐 𝒚

La scrittura appena ricavata rappresenta dunque lo stimatore OLS per il sottovettore dei primi 𝑘, coefficienti, ovvero dei
coefficienti legati ai primi 𝑘, regressori.

Lo stimatore 𝛽, può essere inteso come il risultato di una stima a due stadi:

1. Si stima 𝑋, rispetto a 𝑋. ;
2. Si usano i residui del primo stadio (𝑀”x 𝑋, ) come regressori rispetto a 𝑦.

89

Luca Biglieri

Svolgendo 𝛽, e sfruttando la proprietà di idempotenza della matrice 𝑀”x , ricaviamo infatti:

|,
𝛽, = 𝑋,ë 𝑀”x 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑦

Ponendo 𝑋,ë 𝑀”x = 𝑍′, potremo riscrivere:

|,
𝛽, = 𝑍′𝑍 𝑍′𝑦

Questa scrittura indica la formula dello stimatore con 𝑍 come matrice dei regressori, ma 𝑍 rappresenta la parte di 𝑋,
non spiegata dalla conoscenza di 𝑋. : i residui del primo stadio della stima vengono utilizzati come regressori nel
secondo stadio. In questo modo, lo stimatore potrà rivelare l'impatto di una variabile "depurato" dall'effetto degli altri
regressori.

Lo stesso procedimento potrà essere applicato per ricavare lo stimatore 𝛽. ; partendo da 𝑦 = 𝑋, 𝛽, + 𝑋. 𝛽. + 𝑀” 𝑦 e


premoltiplicando da entrambi i lati per 𝑋.ë 𝑀”¹ (con 𝑀”¹ = 𝐼 − 𝑋, 𝑋,ë 𝑋, |, 𝑋,ë ), otteniamo il seguente stimatore:

|,
𝛽. = 𝑋.ë 𝑀”¹ 𝑋. 𝑋.ë 𝑀”¹ 𝑦

Seguendo gli stessi passaggi intermedi.

7.6.3 Varianza dello Stimatore 𝜷𝟏

Partiamo dalla formulazione dello stimatore appena ricavata per trovarne la varianza condizionata. Innanzitutto, dato
|,
𝛽, = 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑦, svolgiamo 𝑦 usando la definizione del modello partizionato:

|,
𝛽, = 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑋, 𝛽, + 𝑋. 𝛽. + 𝑢

Svolgendo i prodotti, troviamo:


|, |, |,
𝛽, = 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑋, 𝛽, + 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑋. 𝛽. + 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑢

|, |,
𝛽, = 𝛽, + 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑋. 𝛽. + 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑢

Nel secondo termine a destra, troviamo il termine 𝑀”x 𝑋. : esso rappresenta la parte di 𝑋. che non è possibile spiegare
conoscendo 𝑋. . Intuitivamente, questo termine sarà nullo e sarà possibile effettuare la seguente semplificazione:
|,
𝛽, = 𝛽, + 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑢

ë
A questo punto, impostiamo la varianza condizionata 𝑣𝑎𝑟 𝛽, 𝑋 = 𝐸 𝛽, − 𝐸 𝛽, 𝛽, − 𝐸 𝛽, |𝑋 .
Per scrivere diversamente questa formula, calcoliamo il valore atteso condizionato dello stimatore, verificando tra
l'altro che esso è corretto:
|,
𝐸 𝛽, |𝑋 = 𝐸 𝛽, + 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑢|𝑋

Tirando fuori dal valore atteso la costante e i valori espressi in funzione di 𝑋, abbiamo che:
|,
𝐸 𝛽, |𝑋 = 𝛽, + 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝐸 𝑢|𝑋 = 𝛽,

Perché, per la prima assunzione OLS, 𝐸 𝑢|𝑋 = 0.


90

Luca Biglieri

Sostituiamo questo risultato nella formula della varianza:
ë ë
𝑣𝑎𝑟 𝛽, 𝑋 = 𝐸 𝛽, − 𝐸 𝛽, 𝛽, − 𝐸 𝛽, |𝑋 = 𝐸 𝛽, − 𝛽, 𝛽, − 𝛽, |𝑋

|, |,
Sapendo che 𝛽, = 𝛽, + 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑢, ricaviamo facilmente che 𝛽, − 𝛽, = 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑢; pertanto:

|, |,
𝑣𝑎𝑟 𝛽, 𝑋 = 𝐸 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑢𝑢 ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑋, |𝑋

Estraiamo ancora una volta le variabili espresse in funzione di 𝑋 dal valore atteso condizionato:
|, |,
𝑣𝑎𝑟 𝛽, 𝑋 = 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝐸 𝑢𝑢 ë |𝑋 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑋,

Sappiamo che 𝐸 𝑢𝑢 ë |𝑋 = 𝜎ß. 𝐼0 , per l'assunzione di omoschedasticità; andiamo a sostituire questo risultato:

|, |,
𝑣𝑎𝑟 𝛽, 𝑋 = 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝜎ß. 𝐼0 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑋,

|, |, .
𝑣𝑎𝑟 𝛽, 𝑋 = 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑋, 𝜎ß

|, |,
Ora, esaminiamo il termine 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑀”x 𝑋, = 𝑋,ë 𝑀”x 𝑋, 𝑋,ë 𝑀”x 𝑋, per l'idempotenza di 𝑀”x . Si può
notare come questo prodotto restituisca come risultato la matrice-identità, rendendo possibile la semplificazione:

|𝟏 𝟐
𝒗𝒂𝒓 𝜷𝟏 𝑿 = 𝑿ë𝟏 𝑴𝑿𝟐 𝑿𝟏 𝝈𝒖

Quella appena ottenuta è la formulazione più compatta della varianza dello stimatore OLS condizionata alla matrice dei
regressori.

Tramite il medesimo procedimento, si potrà ricavare anche la varianza dello stimatore OLS 𝛽. :
|, .
𝑣𝑎𝑟 𝛽. 𝑋 = 𝑋.ë 𝑀”¹ 𝑋. 𝜎ß

7.7 Collinearità Perfetta


All'interno del modello di regressione lineare multipla, si ha collinearità perfetta quando i regressori non sono
linearmente indipendenti, ovvero quando un regressore è una funzione lineare esatta degli altri.
La collinearità perfetta si presenta, solitamente, quando il modello di regressione presenta delle variabili dummy, spesso
utilizzate in economia per identificare dati stagionali (trimestri, mesi, eccetera). Prendiamo come esempio il seguente
modello:

𝐶# = 𝛽L + 𝛽, 𝐷,# + 𝛽. 𝐷.# + 𝛽6 𝐷6# + 𝛽= 𝑋=# + 𝑢#

Dove le variabili 𝐷 sono delle dummy che tengono conto di dati trimestrali, tali che:

0, altrimenti
𝐷,# =
1, se il dato è relativo al primo trimestre

0, altrimenti
𝐷.# =
1, se il dato è relativo al secondo trimestre

0, altrimenti
𝐷6# =
1, se il dato è relativo al terzo trimestre

91

Luca Biglieri

La matrice dei regressori, in questo modello, sarà 𝑋 di ordine 𝑇× 𝑘 + 1 + 3 , dove 𝑇 è il numero delle osservazioni,
𝑘 + 1 è il numero delle variabili non dummy e 3 è il numero delle variabili binarie incluse nell'equazione. Poniamo di
avere 𝑇 = 8 osservazioni, ciascuna proveniente da un diverso trimestre: la matrice 𝑋 che deriva da questo set di
osservazioni avrà come prima colonna un vettore composto da 8 unità (intercetta) e, nelle tre colonne in fondo, le 3
variabili dummy.

In questo caso, la collinearità perfetta non si presenta perché abbiamo incluso 3 variabili binarie e non 4: se avessimo
0, altrimenti
incluso una quarta variabile dummy, del tipo 𝐷=# = , avremmo notato che
1, se il dato è relativo al quarto trimestre
𝐷, + 𝐷. + 𝐷6 + 𝐷= avrebbe dato come combinazione lineare la prima colonna della matrice 𝑋, generando così il
problema della collinearità.
Possiamo quindi dire che, se il modello include l'intercetta e prevede la presenza di variabili dummy, sarà necessario
escludere una di queste ultime (o, in alternativa, escludere l'intercetta).

Si parla di quasi-collinearità perfetta o di multicollinearità (detta anche collinearità imperfetta) quando c'è un'elevata
correlazione tra due o più regressori: si può verificare un caso di questo genere quando il modello di regressione
presenta un indice 𝑅 . molto elevato e quando, contemporaneamente, le statistiche-test presentano valori molto bassi.

92

Luca Biglieri

8. Distribuzione di 𝜷 e Inferenza nella Regressione Lineare Multipla


8.1 Distribuzioni di Vettori e Matrici: Introduzione

8.1.1 Distribuzioni Fondamentali e Proprietà

Dato un vettore 𝑣 di ordine (𝑚×1) i cui elementi sono tutti variabili casuali, si può dire che tale vettore si distribuisce
come una distribuzione normale multivariata:

𝑣 𝜇Ê ΣÊ
𝑚×1 ~ 𝑁 ,
𝑚×1 𝑚×𝑚

Dove 𝜇Ê indica il vettore-colonna formato dai valori attesi degli elementi di 𝑣, mentre ΣÊ è la matrice di varianza e
covarianza degli elementi di 𝑣, tale che ΣÊ = 𝐸 𝑣 − 𝜇Ê 𝑣 − 𝜇Ê ë .

Definiti il vettore di elementi scalari (deterministici, non casuali) 𝑑 di ordine (𝑎×1) e la matrice deterministica 𝐴 di
ordine (𝑎×𝑚), si ha che:

𝑑 + 𝐴𝑣 ~ 𝑁 𝑑 + 𝐴𝜇Ê , 𝐴ΣÊ 𝐴ë

Dato 𝑣 ~ 𝑁 𝜇Ê , ΣÊ , inoltre, la forma quadratica 𝑣 − 𝜇Ê ë ΣÊ|, 𝑣 − 𝜇Ê si distribuisce come una chi-quadrato con gradi
di libertà pari al rango della matrice ΣÊ :
.
𝑣 − 𝜇Ê ë ΣÊ|, 𝑣 − 𝜇Ê ~ 𝜒[\0ZW (Ë
.
= 𝜒(

Dal momento che ΣÊ , per definizione, ha rango pieno.

Inoltre, se si considera un vettore 𝑢 di ordine (𝑚×1) i cui elementi sono tutti variabili casuali distribuite come una
normale standard, si potrà ricavare la seguente distribuzione multivariata:

𝑢 ~ 𝑁 0, 𝐼(

Sempre facendo riferimento a tale vettore, data una matrice 𝐶 simmetrica e idempotente (come le matrici di proiezione
𝑃” e 𝑀” ), la forma quadratica 𝑢′𝐶𝑢 si distribuirà come una chi-quadrato con gradi di libertà pari al rango di tale matrice:
.
𝑢′𝐶𝑢 ~ 𝜒[\0ZW )

8.1.2 Il Teorema del Limite Centrale Multivariato

Consideriamo 𝑛 vettori di variabili casuali 𝑤, , … , 𝑤0 di ordine (𝑚×1) e il vettore 𝑐 di ordine (𝑚×1) composto da scalari
qualsiasi.
Se il valore atteso di ciascuno di questi vettori è pari a 𝜇* (𝐸 𝑤# = 𝜇* , ∀𝑖 = 1, . . . , 𝑛), se la varianza di ciascuno di essi è
pari a Σ* (𝑣𝑎𝑟 𝑤# = Σ* , ∀𝑖 = 1, . . . , 𝑛) e se la varianza 𝑣𝑎𝑟 𝑐 ë 𝑤# = 𝑣𝑎𝑟 𝑐, 𝑤#, + 𝑐. 𝑤#. + ⋯ + 𝑐0 𝑤#0 = 𝑐,. 𝜎*. `¹ +
⋯ + 𝑐0. 𝜎*. `h + 2𝑐, 𝑐. 𝜎*`¹ 𝜎*`x + ⋯ è maggiore di zero ed è finita ∀𝑖 = 1, . . . , 𝑛, allora si ha che:
0
1
𝑤= 𝑤#
𝑛
#T,

]
𝑛 (𝑤 − 𝜇* ) 𝑁(0, Σ* )

93

Luca Biglieri

8.2 Distribuzione di 𝜷 in Campioni Finiti


Si può ricavare la distribuzione dello stimatore OLS in campioni finiti introducendo una nuova assunzione riguardante la
distribuzione degli errori; in particolare, si dovrà affermare che la distribuzione condizionata degli errori sia
approssimabile come una normale, come segue:

𝑢|𝑋 ~ 𝑁(0, 𝜎ß. 𝐼)

Questa assunzione ingloba anche quella di omoschedasticità, dal momento che la varianza degli errori viene supposta
costante.

Data questa assunzione, riprendiamo la scrittura 𝛽 = 𝑋 ë 𝑋 |,


𝑋 ë 𝑦 già ricavata nel capitolo precedente e svolgiamo il
termine 𝑦:

𝛽 = 𝑋 ë𝑋 |,
𝑋 ë𝑦 = 𝑋 ë𝑋 |,
𝑋 ë 𝑋𝛽 + 𝑢

𝛽 = 𝑋 ë𝑋 |,
𝑋 ë 𝑋𝛽 + 𝑋 ë 𝑋 |,
𝑋 ë 𝑢

𝛽 = 𝛽 + 𝑋 ë𝑋 |,
𝑋 ë 𝑢

Semplificando il primo termine a destra perché comprende la matrice-identità.


A questo punto, poiché 𝑢|𝑋 ~ 𝑁 (0, 𝜎ß. 𝐼), possiamo applicare le proprietà della distribuzione multivariata (in
particolare, la proprietà 𝑑 + 𝐴𝑣 ~ 𝑁 𝑑 + 𝐴𝜇Ê , 𝐴ΣÊ 𝐴ë ):

𝛽 − 𝛽 𝑋 ~ 𝑁 0, 𝑋 ë 𝑋 |,
𝑋 ë 𝜎ß. 𝐼𝑋 𝑋 ë 𝑋 |,

𝛽 − 𝛽 𝑋 ~ 𝑁 0, 𝑋 ë 𝑋 |,
𝑋 ë𝑋 𝑋 ë𝑋 |, .
𝜎ß

𝜷 − 𝜷 𝑿 ~ 𝑵 𝟎, 𝑿ë 𝑿 |𝟏 𝟐
𝝈𝒖

Quest'ultima formula, ottenuta tramite la solita semplificazione, rappresenta la distribuzione dello stimatore OLS in
campioni finiti.

8.3 Distribuzione Asintotica di 𝜷

8.3.1 Definizione della Distribuzione Asintotica

La distribuzione asintotica dello stimatore OLS, rispetto a quella finita, prevede la presenza di assunzioni sugli errori più
generali, meno restrittive.
Volendo esprimere subito il risultato di tale distribuzione, che verrà dimostrato nel paragrafo seguente, si ha che:

𝒅
𝒏(𝜷 − 𝜷) 𝑵(𝟎, 𝚺 𝒏 𝜷|𝜷 )

Dove Σ 0 ¸|¸ , termine generico che esprime la varianza di questa distribuzione, rappresenta la matrice di varianza e
covarianza asintotica. Tale matrice sarà rappresentabile anche come segue:

Σ 0 ¸|¸ = 𝑄”|, ΣÊ 𝑄”|,

94

Luca Biglieri

Dove 𝑄” = 𝐸 𝑥# 𝑥#ë , con 𝑥# è il vettore di ordine (𝑘 + 1×1) che comprende tutti i regressori per l'𝑖-esima osservazione,
e dove ΣÊ = 𝐸 𝑣# 𝑣#ë , con 𝑣# = 𝑥# 𝑢# , con 𝑢# (scalare) che rappresenta l'errore per l'𝑖-esima osservazione.
Alternativamente, svolgendo il prodotto, si può dunque rappresentare ΣÊ = 𝐸 𝑥# 𝑢# 𝑥#ë 𝑢#ë .

8.3.2 Dimostrazione della Distribuzione Asintotica

Per dimostrare la formulazione appena vista per la distribuzione asintotica, partiamo dalla seguente scrittura, già vista
nei paragrafi precedenti:

𝛽 − 𝛽 = 𝑋 ë𝑋 |,
𝑋 ë 𝑢

Moltiplicando e dividendo da entrambi i lati per il numero delle osservazioni, 𝑛, otteniamo:


|,
𝑋 ë𝑋 𝑋 ë𝑢
𝛽−𝛽 =
𝑛 𝑛

Notiamo che, nel primo termine a destra, avere 𝑛 al denominatore in una parentesi elevata a −1 equivale a moltiplicare
questo termine per 𝑛.
Moltiplicando da entrambi i lati per la radice di 𝑛, poi, ricaviamo:
|,
𝑋 ë𝑋 𝑋 ë𝑢
𝑛(𝛽 − 𝛽) = 𝑛
𝑛 𝑛

|,
” -”
A questo punto, studiamo separatamente i termini a destra dell'uguale, partendo dal primo, .
0
” -” , , 0 ë
Sappiamo che = 𝑋 ë𝑋 = #T, 𝑥# 𝑥# , dove 𝑥# rappresenta il vettore-colonna che comprende tutti i regressori per
0 0 0
l'𝑖-esima osservazione.
Introducendo i vettori di estrazione 𝑒që ed 𝑒X , costruiti in modo tale da avere l'elemento 1 nel 𝑗-esimo (o 𝑙-esimo) posto e
l'elemento nullo 0 altrove, possiamo estrarre dalla matrice appena descritta l'elemento di posto (𝑗, 𝑙) e si potrà
riscrivere la matrice come segue:
0
𝑋 ë𝑋 1 ë
= 𝑒q 𝑥# 𝑥#ë 𝑒X
𝑛 𝑛
#T,

0
𝑋 ë𝑋 1
= 𝑥q# 𝑥X#
𝑛 𝑛
#T,

Dove 𝑥q# , 𝑥X# non rappresentano più dei vettori, ma singoli elementi della matrice.

Se, per la seconda assunzione OLS, sappiamo che il vettore 𝑥# è i.i.d., possiamo dire che anche i suoi elementi avranno
questa proprietà; di conseguenza, 𝑥q# 𝑥X# potrà essere considerato come una variabile casuale i.i.d. (in quanto prodotto
di variabili casuali i.i.d.).
Inoltre, per la terza assunzione OLS, abbiamo che 𝐸 𝑥#= < ∞, da cui deriva che tutti gli elementi del vettore hanno
momenti quarti finiti. Pertanto, per la disuguaglianza di Cauchy-Schwarz, avremo che:

𝐸 𝑥q#. 𝑥X#. ≤ 𝐸 𝑥q#= 𝐸 𝑥X#= < ∞

95

Luca Biglieri

Abbiamo quindi dimostrato che lo scalare 𝑥q# 𝑥X# è i.i.d. e che ha varianza (momento secondo) finito. Queste sono le
condizioni per l'applicazione della legge dei grandi numeri, che ci permetterà dunque di dire che:
0
1 U
𝑥q# 𝑥X# 𝐸 𝑥q# 𝑥X#
𝑛
#T,

” -”
Considerando la matrice nel suo complesso, questo equivale a dire che:
0

𝑋 ë𝑋 U
𝐸 𝑥# 𝑥#ë = 𝑄”
𝑛

Estendendo l'applicazione della legge dei grandi numeri, dal momento che essa vale per tutti gli elementi della matrice.
Per proseguire nella dimostrazione, assumeremo che la matrice così ricavata, 𝑄” , sia finita e definita positiva.
|,
” -” ” -ß
Abbiamo dunque studiato la prima parte a destra dell'uguale nell'equazione 𝑛 𝛽 − 𝛽 = 𝑛 . Passiamo
0 0
” -ß , 0
ora a studiare la seconda parte, 𝑛 = 𝑛 #T, 𝑥# 𝑢# , per la quale ci servirà applicare il teorema del limite centrale.
0 0
Verifichiamo dunque le condizioni di questo teorema:

- 𝐸 𝑥# 𝑢# = 𝐸 𝑢# = 0, per la prima assunzione OLS;


- 𝑥# 𝑢# i.i.d., per la seconda assunzione OLS, in quanto prodotto di variabili casuali i.i.d.;
- Dato il vettore 𝑐 ∈ 𝑹ç•, , 𝐸 𝑐 ë 𝑣# .
= 𝐸 𝑐 ë 𝑥# 𝑢 # .
= 𝐸 𝑐 ë 𝑥# . 𝑢#. ≤ 𝐸 𝑐 ë 𝑥# = 𝐸 𝑢# = , per Cauchy-Schwartz.
Per la terza assunzione OLS, 𝐸 𝑐 ë 𝑥# =
< ∞: pertanto, 𝐸 𝑐 ë 𝑣# .
< ∞, la varianza della variabile considerata è
finita.

Le condizioni sono soddisfatte e possiamo applicare il teorema del limite centrale:


0
1 ]
𝑛 𝑥# 𝑢 # 𝑁 0, ΣÊ
𝑛
#T,

Mettendo insieme i due risultati, possiamo quindi dire che:


|,
𝑋 ë𝑋 𝑋 ë𝑢
𝑛(𝛽 − 𝛽) = 𝑛
𝑛 𝑛

|,
𝑋 ë𝑋 U
𝑄”|,
𝑛

𝑋 ë𝑢 ]
𝑛 𝑁 0, ΣÊ
𝑛

Applicando il teorema di Cramer-Slutsky, si avrà che:

]
𝑛 𝛽−𝛽 𝑁 0, 𝑄”|, ΣÊ 𝑄”|, ë

” -”
Ma 𝑄”|, è simmetrica, in quanto 𝑝𝑙𝑖𝑚 derivato dalla matrice simmetrica ; potremo dunque arrivare alla formulazione
0
definitiva della distribuzione asintotica:

𝒅
𝒏 𝜷−𝜷 𝑵 𝟎, 𝑸|𝟏 |𝟏
𝑿 𝚺𝒗 𝑸𝑿

96

Luca Biglieri

𝒅
𝒏 𝜷−𝜷 𝑵 𝟎, 𝚺 𝒏 𝜷|𝜷

8.3.3 Stimatore della Varianza della Distribuzione Asintotica ed Errore Standard

Abbiamo ricavato, nella precedente dimostrazione, la formulazione della varianza della distribuzione asintotica dello
stimatore OLS, che è pari a Σ 0 ¸|¸ = 𝑄”|, ΣÊ 𝑄”|, . In questo paragrafo, descriveremo gli stimatori che si possono
utilizzare per ciascun termine di tale varianza e ricaveremo di conseguenza lo stimatore per la varianza stessa.

” -”
Innanzitutto, ricordando che 𝑄” = 𝐸 𝑥# 𝑥#ë , potremo affermare che la matrice è uno stimatore consistente di 𝑄” :
0
” -” U
nel paragrafo precedente, infatti, siamo arrivati a dimostrare che 𝐸 𝑥# 𝑥#ë = 𝑄” . Pertanto, lo stimatore del
0
|,
” -”
termine 𝑄”|, presente nella formula della varianza sarà l'inversa della matrice appena descritta, ovvero .
0

Passiamo ora al termine al centro dell'espressione della varianza, ΣÊ : lo stimatore consistente per questa matrice è il
, 0 ë .
cosiddetto stimatore di White, definito come ΣÊ = #T, 𝑥# 𝑥# 𝑢# , uno stimatore robusto all'eteroschedasticità.
0|ç|,

Mettendo insieme i due passaggi appena descritti, potremo riscrivere la distribuzione asintotica esprimendo, invece
della varianza, il suo stimatore:
|, |,
] 𝑋 ë𝑋 𝑋 ë𝑋
𝑛 𝛽−𝛽 𝑁 0, ΣÊ
𝑛 𝑛

|, |,
” -” ” -”
Lo stimatore ΣÊ , per la sua particolare struttura, viene detto anche "stimatore sandwich".
0 0

]
Sempre partendo dalla distribuzione asintotica 𝑛 𝛽 − 𝛽 𝑁 0, 𝑄”|, ΣÊ 𝑄”|, , possiamo ricavare l'errore standard
della distribuzione.
Supponiamo di considerare la funzione lineare 𝑐′𝛽: la sua distribuzione sarà approssimabile come una normale
multivariata, del tipo 𝑐 ë 𝛽~ 𝑁 𝑐 ë 𝛽, 𝑐 ë Σ¸ 𝑐 . Ora, poniamo che tale vettore 𝑐′ sia pari al vettore di estrazione 𝑒#ë (che ha
l'elemento 1 al posto 𝑖 e l'elemento 0 altrove): si avrà che 𝑒#ë 𝛽 = 𝛽# ~ 𝑁 𝑒#ë 𝛽, 𝑒#ë Σ¸ 𝑒# . Abbiamo così ricavato la varianza
di un sottovettore del vettore dei coefficienti, ovvero la varianza di uno o più stimatori OLS preso distintamente.
Avendo la varianza, si potrà ottenere facilmente la formulazione dell'errore standard:

𝑺𝑬 𝜷𝒊 = 𝒆ë𝒊 𝚺𝜷 𝒆𝒊

8.3.4 Verifica di Ipotesi e Intervalli di Confidenza per un Coefficiente

Facciamo ora un esempio più concreto: supponiamo di impostare un test di ipotesi con ipotesi nulla 𝐻L : 𝛽. = 0 e di
voler calcolare la statistica-test appropriata.
Innanzitutto, descriveremo il vettore 𝑐′ come il vettore di estrazione 𝑒.ë , con l'elemento 1 al secondo posto e 0 altrove;
dopodiché, facendo riferimento alla distribuzione asintotica, scriveremo che:

]
𝑛 𝑐′𝛽 − 𝑐′𝛽 𝑁 0, 𝑐′ Σ 0 ¸|¸ 𝑐

97

Luca Biglieri

]
𝑛 𝑐 ë 𝛽. − 𝑐 ë 𝛽. 𝑁 0, 𝑣𝑎𝑟 𝛽.

Ma sotto l'ipotesi nulla, 𝛽. = 0:

]
𝑛 𝑐 ë 𝛽. − 0 𝑁 0, 𝑣𝑎𝑟 𝛽.

Potremo ricavare dalla distribuzione appena scritta una distribuzione normale standard, dividendo per l'errore standard
pari alla radice della varianza:

𝑛 𝑐 ë 𝛽. − 0 ]
𝑁 0, 1
𝑣𝑎𝑟 𝛽.

𝑛 𝑐 ë 𝛽. − 0 ]
𝑁 0, 1
𝑐′ Σ 0 ¸|¸ 𝑐

0 V - ¸x |L
La statistica-test appena ricavata per l'ipotesi nulla sopra riportata, , sarà la statistica 𝑡\´#0¬W¬#V\ , distribuita
Vë ( h 0æ0 V

come una normale standard, che potrà utilizzata per verificare l'ipotesi stessa in modo analogo a quello descritto nei
capitoli precedenti.

Allo stesso modo, potremo impostare l'intervallo di confidenza usando la solita procedura. Volendo stimare un certo
coefficiente 𝛽ç e fissato 𝛼 = 5%, tale intervallo sarà pari a:

1
𝛽ç ± 1,96 ∙ 𝑒çë Σ 0 ¸|¸ 𝑒ç
𝑛

Dove 𝑒çë indica il vettore di estrazione per il coefficiente 𝛽ç .

8.4 Verifica di Ipotesi per Più Coefficienti e Test F

8.4.1 Verifica di Ipotesi per Più Coefficienti

Il modello di regressione lineare multipla permette di svolgere test di ipotesi anche ponendo più condizioni
contemporaneamente che riguardino più di un coefficiente.
Consideriamo, ad esempio, il modello 𝑦# = 𝛽L + 𝛽, 𝑥,# + 𝛽. 𝑥.# + ⋯ + 𝛽ç 𝑥ç# + 𝑢# e impostiamo il seguente test di
ipotesi:

𝐻L : 𝛽, = 0 e 𝛽. = 0

𝐻, : 𝛽, ≠ 0 oppure 𝛽. ≠ 0 oppure β, , β. ≠ 0

Notiamo come l'ipotesi nulla sia composta da due singole ipotesi che devono essere congiuntamente valide, mentre
perché l'ipotesi alternativa sia accettabile basta che una sola delle tre ipotesi comprese nella stessa sia verificata.
In un test di questo genere, non è possibile procedere facendo due test di ipotesi singoli distinti, perché questo
porterebbe ad avere un livello di confidenza diverso da quello stabilito (maggiore o minore di quello stabilito a seconda
della covarianza tra le statistiche-test che si ricaverebbero procedendo in tal modo).

98

Luca Biglieri

Quando si affronta un problema di verifica di ipotesi come quello mostrato sopra, occorre utilizzare la statistica-test 𝐹
espressa in forma matriciale. Riscriveremo dunque l'ipotesi nulla come segue:

𝐻L : 𝑅𝛽 = 𝑟

Dove 𝛽 è il vettore dei coefficienti di ordine 𝑘 + 1 ×1 e 𝑅 è la matrice che contiene i vincoli, le restrizioni sui
parametri che si vogliono verificare, di ordine 𝑞× 𝑘 + 1 e rango pieno (𝑟(𝑅) = 𝑞 ≤ 𝑘 + 1), i cui elementi
rifletteranno il peso dei parametri da verificare nell'ipotesi nulla; 𝑞 rappresenta il numero delle restrizioni che si
vogliono testare. 𝑟, infine, è un vettore di ordine 𝑞×1 che contiene i risultati dell'equazione: per come imposteremo il
problema, 𝑟 sarà un vettore nullo.

Supponiamo, ad esempio, di porre il seguente test di verifica di ipotesi:

𝐻L : 𝛽, + 𝛽. = 0

𝐻, : 𝛽, + 𝛽. ≠ 0

Questo problema è caratterizzato da una restrizione (𝑞 = 1) che riguarda due parametri, 𝛽, , 𝛽. . Poniamo che il numero
totale dei coefficienti del vettore 𝛽 da noi considerato sia 5; potremo riscrivere gli elementi del problema come segue:

𝛽L
𝛽,
𝛽 = 𝛽.
𝛽6
𝛽=

𝑅= 0 1 1 0 0

La matrice 𝑅 (che in questo caso, con 𝑞 = 1, è un vettore-riga), presenta questi elementi perché, nell'ipotesi nulla, i
coefficienti 𝛽L , 𝛽6 , 𝛽= non sono presenti (sono moltiplicati per 0), mentre i coefficienti 𝛽, , 𝛽. sono presenti e moltiplicati
per 1.

L'equazione in notazione matriciale che corrisponde all'ipotesi nulla sarà dunque:

𝑅𝛽 = 𝑟

𝛽L
𝛽,
0 1 1 0 0 ∙ 𝛽. = 0
𝛽6
𝛽=

𝛽, + 𝛽. = 0

Lo stesso procedimento può essere seguito anche per problemi diversi; poniamo di avere:

𝐻L : 𝛽, = 2𝛽. e 𝛽6 = 𝛽=

𝐻, : 𝛽, ≠ 2𝛽. oppure 𝛽6 ≠ 𝛽= oppure entrambe

In questo caso, abbiamo due restrizioni (𝑞 = 2) e avremo:

99

Luca Biglieri

0 1 −2 0 0
𝑅=
0 0 0 1 −1
𝛽L
𝛽,
𝛽 = 𝛽.
𝛽6
𝛽=

0
𝑟=
0

Da cui deriva:

𝛽, −2𝛽. 0
=
𝛽6 −𝛽= 0

Notiamo come, nella matrice 𝑅, ogni riga corrisponda all'espressione di una restrizione descritta nell'ipotesi nulla.

Un terzo esempio può essere il seguente:

𝐻L : 𝛽, = 𝛽. = 𝛽6 = 0

Dove abbiamo tre restrizioni su tre parametri. Di conseguenza avremo:

0 1 0 0 0
𝑅= 0 0 1 0 0
0 0 0 1 0
𝛽L
𝛽,
𝛽 = 𝛽.
𝛽6
𝛽=

0
𝑟= 0
0

Da cui deriva:

𝛽, 0
𝛽. = 0
𝛽6 0

8.4.2 La Statistica-Test F e il Test F

Impostato un problema di verifica di ipotesi come al paragrafo precedente, potremo scrivere la statistica-test 𝐹, ovvero
la statistica-test più appropriata per risolvere tale problema, come segue:
ë |𝟏
𝑹𝜷 − 𝒓 𝑹𝚺𝜷 𝑹ë 𝑹𝜷 − 𝒓
𝑭=
𝒒

Questa statistica-test è una forma quadratica, ovvero uno scalare, e, se viene moltiplicata per 𝑞, ha una distribuzione
chi-quadrato con gradi di libertà pari al numero delle restrizioni imposte, 𝑞:
100

Luca Biglieri

]
𝑞𝐹 𝜒5.

Per ricavare e dimostrare la formulazione appena vista della statistica-test, partiamo dalla distribuzione asintotica dello
stimatore:

]
𝑛 𝛽−𝛽 𝑁 0, Σ 0 ¸|¸

Moltiplicando per la matrice 𝑅, otteniamo:

]
𝑛 𝑅𝛽 − 𝑅𝛽 𝑁 0, 𝑅Σ 0 ¸|¸ 𝑅′

Ora, poniamo l'ipotesi nulla 𝐻L : 𝑅𝛽 = 𝑟. Sotto tale ipotesi, riscriveremo:

]
𝑛 𝑅𝛽 − 𝑟 𝑁 0, 𝑅Σ 0 ¸|¸ 𝑅′

]
Applichiamo adesso un particolare teorema, per il quale, se 𝑛 𝑋0 − 𝜇” 𝑁 0, Σ”” , allora:

] .
ë |,
𝑛 𝑋0 − 𝜇” Σ”” 𝑋0 − 𝜇” 𝜒[\0ZW (——

Questo ci permette di scrivere che:

ë |, ]
𝑛 𝑅𝛽 − 𝑟 𝑅Σ 0 ¸|¸ 𝑅ë 𝑅𝛽 − 𝑟 𝜒5.

|, |,
” -” ” -”
Usiamo ora lo stimatore consistente per Σ 0 ¸|¸ , ovvero lo stimatore sandwich Σ 0 ¸|¸ = ΣÊ :
0 0
inserendo questo stimatore nell'equazione, si potrà ricavare la statistica-test 𝐹, a cui sarà associato un determinato
valore (da confrontare con il valore critico della distribuzione chi-quadrato) e un p-value che permetterà di rifiutare o
non rifiutare l'ipotesi nulla per il livello di significatività desiderato.
Occorre ricordare che la distribuzione chi-quadrato non è simmetrica: questo significa che il test di ipotesi impostato
utilizzando questa statistica-test sarà per forza unilaterale.

101