Sei sulla pagina 1di 79

Introduzione alleconometria

Appunti del corso


1
Semestre Autunnale 2012
1
Questi appunti sono tratti dalle lezioni di Econometria tenute dal Professor Pietro
Balestra allUniversit`a della Svizzera Italiana negli anni 1996-2005. Gli autori Patrick
Gagliardini e Claudio Ortelli ringraziano Sandro Petrillo per il materiale fornito. La
responsabilit`a di eventuali errori `e unicamente degli autori.
Indice
1 Analisi economica ed econometrica 3
1.1 Scopo delleconometria . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Dal modello teorico al modello empirico . . . . . . . . . . . . . . 3
1.2.1 Il modello teorico . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.2 I dati (le osservazioni) . . . . . . . . . . . . . . . . . . . . 6
1.2.3 Il modello empirico (o econometrico) . . . . . . . . . . . . 6
1.2.4 Il principio della stima . . . . . . . . . . . . . . . . . . . . 7
1.2.5 Induzione statistica: test dipotesi . . . . . . . . . . . . . 9
1.2.6 Il costo di un bambino: applicazione . . . . . . . . . . . . 10
2 La regressione semplice 13
2.1 Il modello e le ipotesi . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 Ipotesi sulle variabili esplicative . . . . . . . . . . . . . . . 13
2.1.2 Ipotesi sugli errori . . . . . . . . . . . . . . . . . . . . . . 14
2.1.3 Ipotesi sulla relazione tra variabili esplicative ed errori . . 14
2.2 La stima del modello . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1 Stima dei coecienti di regressione . . . . . . . . . . . . . 15
2.2.2 Stima di
2
. . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.3 Qualit` a della stima . . . . . . . . . . . . . . . . . . . . . . 20
2.2.4 Un esempio numerico . . . . . . . . . . . . . . . . . . . . 22
2.3 Induzione statistica . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.1 Idea generale . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.2 La normalit` a e le sue conseguenze . . . . . . . . . . . . . 24
2.3.3 Il test dellipotesi b = b
0
. . . . . . . . . . . . . . . . . . . 25
2.3.4 Ripresa dellesempio numerico . . . . . . . . . . . . . . . 26
3 Complementi di analisi multivariata 27
3.1 Algebra lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1 Autovalori e autovettori . . . . . . . . . . . . . . . . . . . 27
3.1.2 Diagonalizzazione di una matrice simmetrica . . . . . . . 31
3.1.3 Matrici idempotenti . . . . . . . . . . . . . . . . . . . . . 35
3.1.4 Forme quadratiche . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Statistica multivariata . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.1 Vettori e matrici aleatori . . . . . . . . . . . . . . . . . . 42
3.2.2 Matrice delle varianze-covarianze di un vettore aleatorio . 44
3.2.3 Trasformazioni lineari . . . . . . . . . . . . . . . . . . . . 46
3.2.4 Valore atteso di una forma quadratica . . . . . . . . . . . 48
3.2.5 Matrice di covarianze . . . . . . . . . . . . . . . . . . . . 48
1
3.2.6 Vettore aleatorio normale . . . . . . . . . . . . . . . . . . 49
3.3 La derivata vettoriale . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.1 Funzione scalare di n variabili . . . . . . . . . . . . . . . . 49
3.3.2 Il vettore gradiente . . . . . . . . . . . . . . . . . . . . . . 50
4 Il modello di regressione multipla 53
4.1 Il modello e le ipotesi . . . . . . . . . . . . . . . . . . . . . . . . 53
4.1.1 Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.1.2 Scrittura generale . . . . . . . . . . . . . . . . . . . . . . 54
4.1.3 Scrittura matriciale . . . . . . . . . . . . . . . . . . . . . 54
4.1.4 Le ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2 La stima del modello . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.1 Lo stimatore dei minimi quadrati . . . . . . . . . . . . . . 56
4.2.2

nella regressione semplice . . . . . . . . . . . . . . . . . 57
4.2.3 Propriet` a di

. . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.4 Stima di
2
. . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.5 Stima corretta della matrice delle varianze-covarianze di

61
4.2.6 R
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3 Induzione statistica . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3.1 Ipotesi di normalit` a e sue conseguenze . . . . . . . . . . . 63
4.3.2 Test di unipotesi semplice . . . . . . . . . . . . . . . . . . 64
4.3.3 Ipotesi multipla . . . . . . . . . . . . . . . . . . . . . . . . 66
4.4 La previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4.1 Il problema . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4.2 Un previsore naturale . . . . . . . . . . . . . . . . . . . . 70
4.4.3 Lerrore di previsione . . . . . . . . . . . . . . . . . . . . 70
4.4.4 Ecienza del previsore . . . . . . . . . . . . . . . . . . . . 70
4.4.5 Un primo test di cambiamento strutturale . . . . . . . . . 71
5 Le variabili qualitative 73
5.1 Specicazione I . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.2 Specicazione II . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.3 Regressione con due o pi` u variabili qualitative . . . . . . . . . . . 76
2
Capitolo 1
Analisi economica ed
econometrica
Leconometria si occupa di descrivere in termini quantitativi le relazioni che
intercorrono tra le variabili economiche. Essa non `e una disciplina a se stante,
ma parte dellanalisi economica: ogni problema economico diventa econometrico
quando vogliamo analizzarlo da un punto di vista quantitativo.
1.1 Scopo delleconometria
Leconometria si pregge tre scopi:
i) la modellizzazione e la quanticazione delle relazioni economiche
ii) la verica delle ipotesi e delle conclusioni della teoria economica
iii) la previsione
Al ne di raggiungere tali obiettivi, leconometria fa capo, da un lato, alla teoria
economica (scelta delle variabili esplicative, forma funzionale delle relazioni,
dinamiche causali, ...), dallaltro, ai dati empirici (osservazioni della realt` a). Il
confronto tra teoria economica e dati empirici `e reso possibile dai metodi di
induzione statistica.
1.2 Dal modello teorico al modello empirico
1.2.1 Il modello teorico
Esempio 1. La funzione di consumo
Enunciato: la parte del reddito di una famiglia consacrata al consumo di
beni alimentari diminuisce quando il reddito aumenta.
Poniamo:
A : spesa alimentare della famiglia
R : reddito della famiglia
A
R
: parte del reddito consacrata allalimentazione
3
Osservazione dei fatti Metodi di induzione Teoria economica
Econometria
Scopi
1. Quantificazione delle relazioni economiche (Stima)
2. Verificare le ipotesi teoriche del modello (Test)
3. Previsione
Figura 1.1: Schema degli scopi delleconometria
Abbiamo allora:
A
R
quando R

d(
A
R
)
dR
< 0

e
A/R
< 1
dove e
A/R
`e lelasticit`a della spesa alimentare A rispetto al reddito R.
1
Curva di Engel: A = f(R). Che forma darle?
La pi` u semplice `e la forma lineare
A = a +bR (1.1)
dove a e b sono dei parametri. Lelasticit`a
e
A/R
=
dA
dR
R
A
= b
R
a +bR
non `e costante (`e funzione del reddito). Pi` u il reddito `e alto e pi` u e
A/R
tende a 1.
1
Ricordiamo che lelasticit`a e
A/R
`e denita da: e
A/R
=
dA
dR
R
A
. Lultima equivalenza nel
testo deriva da:
d(
A
R
)
dR
=
dA
dR
R
dR
dR
A
R
2
=
dA
dR
RA
R
2
=
dA
dR
1
R

A
R
2
< 0
dA
dR
1
R
<
A
R
2

dA
dR
R
A
<
1.
4
Una forma pi` u utilizzata `e la log-lineare (`e la sola dove lelasticit` a `e
costante ed `e la pendenza della curva):
log A = + log R (1.2)
e
A/R
=
Esempio 2. La funzione di produzione di un settore industriale
K : capitale
L : lavoro
Q : la produzione, con Q = f(K, L)
Cobb-Douglas: Q = AK

con 0 < , < 1 (A una costante)


Assumiamo rendimenti di scala costanti
2
: + = 1. Si ha:
Q = AK

L
1
= AK

LL

= A
_
K
L
_

L
=
Q
L
= A
_
K
L
_

dove
Q
L
rappresenta il prodotto per lavoratore, mentre
K
L
il capitale per lavora-
tore. Deduciamo:
log
Q
L
= log A+log
K
L
= a +log
K
L
(1.3)
Le equazioni 1.1, 1.2 e 1.3 sono esattamente della stessa forma, che si pu`o
scrivere in termini generali come:
y = a +bx
ed `e chiamato modello lineare nei parametri (a, b).
Chiamiamo:
y: la variabile spiegata (o endogena o dipendente);
x: la variabile esplicativa (o esogena -data- o indipendente);
a, b: parametri.
Implicitamente si ammette una causalit` a diretta (x determina y, in simboli
x y.
2
Questo signica che, ad esempio, se moltiplichiamo per 2 i fattori K e L, anche la
produzione Q raddoppia.
5
1.2.2 I dati (le osservazioni)
Leconomia non `e una scienza sperimentale. I dati sono quindi losservazione di
fatti reali.
Nellesempio 1, abbiamo bisogno di dati riguardanti A (la spesa alimentare
della famiglia) e R (il reddito). Questi dati sono forniti da inchieste (ad
esempio, in Svizzera tramite lUcio Federale di Statistica) sulla base di
un campione di n famiglie. Notiamo questi dati con le coppie
(A
i
, R
i
) i = 1, 2, . . . , n
Questi dati saranno utilizzati direttamente per lequazione 1.1, oppure
trasformati in logaritmo per la specicazione 1.2.
Si tratta di dati trasversali: n individui (in senso lato) osservati allo stesso
tempo.
Nellesempio 2, che concerne un solo settore industriale, i dati sono crono-
logici (annuali, mensili, trimestrali, . . . ): lo stesso individuo osservato a
pi` u momenti nel tempo. Nellesempio
(Q
t
, K
t
, L
t
) t = 1, 2, . . . , n
Da questi forniamo:
y
t
= log
_
Q
t
L
t
_
x
t
= log
_
K
t
L
t
_
In genere, rappresentiamo i dati del campione gi`a convenientemente trasfor-
mati con le coppie
(y
i
, x
i
) i = 1, . . . , n
1.2.3 Il modello empirico (o econometrico)
Il problema di fondo
Il modello teorico, nel nostro caso y = a+bx, `e una descrizione semplicata
della realt`a. Mette in risalto la relazione fondamentale che esiste tra la
variabile x e la variabile y.
`
E cos` che nel nostro esempio 1 il reddito `e
il determinante principale della spesa per lalimentazione. Tutti gli altri
fattori che potrebbero inuenzare la spesa alimentare sono considerati
costanti.
Quando si cerca di confrontare il modello teorico con la realt` a non si pu` o
ammettere che tutti gli altri fattori sono costanti, perche il comportamento
di un individuo caratterizzato dalle sue preferenze, gusti, . . . , dierisce da
quello di un altro individuo.
`
E questa linterpretazione probabilistica delle
leggi economiche, descritta magistralmente da Haavelmo in una mono-
graa del 1944 per la quale ha ottenuto il premio Nobel e che costituisce
a tuttoggi le fondamenta dellapproccio econometrico.
Questi fattori individuali, in gran parte non osservabili, assumono il ruo-
lo di una variabile aleatoria latente che deve essere inclusa nel modello
teorico.
6
Linclusione della variabile latente
Per lindividuo i, il modello teorico:
y
i
= a +bx
i
non descrive completamente il suo comportamento, dato che le sue speci-
cit` a (oltre x
i
) non sono esplicitamente prese in considerazione. Per col-
mare la dierenza tra comportamento teorico (a +bx
i
) e comportamento
osservato (y
i
), bisogna aggiungere al modello una variabile aleatoria (non
osservabile), che riassume linuenza su y
i
di tutti i fattori individuali non
esplicitamente inclusi nel modello.
Vale dunque la relazione:
y
i
= a +bx
i
+
i
(1.4)
dove a +bx
i
`e il comportamento teorico, o medio (la parte non stocastica
del modello), mentre
i
`e una variabile aleatoria non osservabile che tra-
duce linuenza di tutti i fattori individuali non esplicitamente considerati
nel modello.
Interpretazione su un graco
x b a y .
i

) , (
i i
y x
) , (
j j
y x
j

j
x
j
y
i

: differenza tra il modello teorico e le osservazioni


y
x
Modello teorico
Figura 1.2: Dierenza tra il modello teorico e le osservazioni
Il modello (1.4) `e chiamato modello econometrico. Per completarne la
specicazione, bisogna precisare alcune caratteristiche della distribuzione
della variabile aleatoria
i
(vedi capitolo 2).
1.2.4 Il principio della stima
Il modello econometrico `e un modello statistico. I metodi di stima per i parametri
sconosciuti a e b sono i metodi proposti dalla statistica matematica.
7
Un metodo largamente diuso `e quello dei minimi quadrati, che per il mod-
ello in esame studieremo a fondo nel capitolo 2. Qui ne diamo unillustrazione
in un caso semplice.
Supponiamo che il numero di persone in una famiglia, y, sia una variabile aleato-
ria di valore atteso a, sconosciuto.
Osserviamo n famiglie, vale a dire gli n valori
y
1
, y
2
, . . . , y
n
Per la famiglia i il valore osservato y
i
non sar` a esattamente uguale al valore
atteso a. Vale dunque il modello econometrico:
y
i
= a +
i
dove
i
rappresenta lo scarto tra il valore osservato y
i
e il parametro a
3
.
Se scegliamo un valore per a, diciamo a
0
, lo scarto tra il comportamento os-
servato (y
i
) e il comportamento teorico (a
0
) `e dato da:
(y
i
a
0
)
La somma dei quadrati degli scarti, che notiamo SS, vale:
SS =
n

i=1
(y
i
a
0
)
2
Per ogni scelta di a
0
, il valore di SS cambia. Il principio dei minimi quadrati
consiste nello scegliere a
0
in modo tale da minimizzare SS:
min
a0
SS
Ponendo a zero la derivata prima:
d

(y
i
a
0
)
2
da
0
=

d(y
i
a
0
)
2
da
0
=

2(y
i
a
0
)(1) = 2

y
i
+ 2na
0
2

y
i
+ 2na
0
= 0 a
0
=
1
n

y
i
= y
Per essere sicuri che si tratta di un minimo, la derivata seconda dovrebbe essere
positiva:
d
2
SS
da
2
0
= 2n > 0 =min Ok!
In generale designamo lo stimatore dei minimi quadrati del parametro a con a.
In questo modello abbiamo quindi trovato:
a = y
vale a dire la media delle osservazioni y
i
nel campione.
3
Notiamo che questo modello `e un caso particolare del nostro modello generale y
i
= a +
bx
i
+
i
, quando b = 0.
8
Nel modello generale y
i
= a+bx
i
+
i
, gli stimatori dei minimi quadrati a e

b
possono essere derivati in modo analogo, come vedremo nel prossimo capitolo
4
.
I valori degli stimatori a e

b (la stima) variano da campione a campione. Sono
dunque delle variabili aleatorie. Come per ogni variabile aleatoria possiamo
calcolare il valore atteso e la varianza.
Il valore atteso di

b:
E(

b)
ci permette di vericare se lo stimatore `e corretto.

b `e corretto quando:
E(

b) = b
La sua varianza e il suo scarto quadratico medio, notato s(

b) (la radice
quadrata della varianza), ci danno unindicazione sulla precisione con la
quale il parametro `e stimato. Pi` u s(

b) `e piccolo (rispetto al valore del


parametro) e migliore `e la precisione della stima. Inoltre, come vedremo,
essa ci permetter` a di condurre dei test sul valore del parametro. Di regola,
quando si presentano i risultati di una regressione, si danno i parametri
stimati e sotto, in parentesi, lo scarto quadratico medio s(

b).
Esempi di stima della curva di Engel
log A = a +b log R
Esempio 3. Dati di King (UK - 1688). Stima eettuata da Richard Stone
log A = 0.4056 + 0.77 log R
Esempio 4. USA: 12500 famiglie (Honthakker)
log A = costante + 0.692 log R + altre variabili
Esempio 5. CH: 7803 osservazioni (Heussi)
log A = costante + 0.74 log R + altre variabili
Da notare che in tutti questi risultati lelasticit`a `e sempre inferiore a 1.
1.2.5 Induzione statistica: test dipotesi
Consideriamo il parametro b sconosciuto. Ci interessa sapere se possiamo am-
mettere che il parametro b sia uguale a un certo valore, per esempio b = 1.
Ad esempio, se b `e lelasticit`a della spesa alimentare rispetto alla spesa totale,
vogliamo vericare se questa elasticit`a vale 1.
Per grandi campioni, un intervallo di condenza che contiene con probabilit` a
95 % il vero valore di b `e dato da:

b 2s(

b) b

b + 2s(

b)
Per rispondere alla domanda se b = 1, determiniamo questo intervallo:
4
Nel modello y
i
= a + bx
i
+
i
in generale a = y.
9
se il valore 1 si trova nellintervallo, allora accettiamo lipotesi che b = 1;
se il valore 1 si trova al di fuori dellintervallo, allora riutiamo lipotesi
b = 1
Esempio 3 Dati di King, modello log-lineare

b = 0.77 elasticit`a
(0.025) scarto quadratico medio
Intervallo per b:
0.77 2(0.025) b 0.77 + 2(0.025)
0.72 b 0.82
Non contiene b = 1, dunque riuto lipotesi b = 1 ad un livello di signicativit` a
del 95%.
Esempio 4 (Honthakker)
b = 1? (legge di Engel)

b = 0.692
(0.002)
Il numero di persone N nel nucleo familiare `e un fattore determinante
(signicativo) della spesa alimentare?
Chiamiamo c il parametro della variabile log N:
log A = a +b log R +c log N
se c = 0 = la variabile non `e signicativa
se c = 0, lo `e
Il test che ci interessa `e il test c = 0.
Dalla stima: c = 0.221
(0.002)
Lintervallo a 95%:
0.221 0.004 c 0.221 + 0.004
0.217 c 0.225
non contiene c = 0 = la variabile N `e signicativa.
1.2.6 Il costo di un bambino: applicazione
Constatazione: una coppia con un bambino spende proporzionalmente di pi` u
per lalimentazione, labbigliamento, lalloggio (spese necessarie) che una coppia
senza bambini.
`
E utile raggruppare le spese in 2 grandi categorie:
le spese necessarie, N: alimentazione, abbigliamento, alloggio
10
N
B
0 bambini
1 bambino
N1
N0
B
*
B
**
le altre spese, L: spese di lusso
Portiamo su un graco le curve di Engel (qui lineari) per una coppia senza
bambini e una coppia con un bambino. Per un livello di spesa totale N + L
(reddito) che chiameremo B

, la coppia con un bambino ha una proporzione


N
B

pi` u elevata che quella dellaltra coppia:


questo si vede immediatamente dalla pendenza delle 2 rette che
partono dallorigine.
La coppia con un bambino, per uno stesso livello di reddito, ha dunque meno
a disposizione per le spese discrezionarie (di lusso); ha quindi meno libert` a di
scelta.
Per godere dello stesso grado di libert` a -o tenore di vita- dovrebbe beneciare
di un budget totale pi` u elevato che B

.
Per determinare questo livello si introduce il concetto di isoproporzionalit` a:
due coppie godono dello stesso tenore di vita, mediamente, se consacrano la
stessa proporzione alle spese di necessit` a.
Sul graco questo livello `e dato dallincrocio della retta che parte dallorig-
ine (per la coppia senza bambino) con la curva di Engel della coppia con un
bambino: lo indicheremo con B

.
Il costo del bambino, per un livello di reddito B

di una coppia senza bambini,


`e dato da:
B

11
Esempio 6. Ci basiamo sulla stima seguente:
N = 10

000 + 0.5B 0 bambini


N = 12

400 + 0.5B 1 bambino


N = 14

400 + 0.5B 2 bambini


Il livello medio del budget di una famiglia senza bambini in Svizzera si aggira
attorno a B = 50

000.
Per B = 50

000 otteniamo:
N. di bambini N P=N/B
0 35000 0.70
1 37400 0.748
2 39400 0.788
Constatiamo che allo stesso livello di reddito B, la proporzione P delle spese
necessarie sul totale cresce con il numero di bambini.
Calcoliamo ora il budget B necessario anche una coppia con un bambino abbia
lo stesso tenore di vita che quella senza bambini.
Vale la relazione:
N
1
B
= 0.7 ;
12

400 + 0.5B
B
= 0.7
=B = 62

000
Il costo del primo bambino: 62

000 50

000 = 12

000
Per il secondo:
N
2
B
= 0.7
14

400 + 0.5B
B
= 0.7
=B = 72

000
Il costo del secondo bambino: 72

000 62

000 = 10

000.
Si constata che il secondo bambino costa un po meno del primo, ci sono
economie di scala. Queste economie di scala valgono no al terzo bambino,
a partire dal quarto i costi aumentano.
12
Capitolo 2
La regressione semplice
2.1 Il modello e le ipotesi
Il modello di regressione semplice `e dato da:
y
i
= a +bx
i
+
i
i = 1, 2, . . . , n
dove:
y
i
: `e la variabile spiegata (endogena) per losservazione o lindividuo i,
osservata
x
i
: `e la variabile esplicativa (esogena), osservata
a, b: sono dei parametri sconosciuti, da stimare

i
: `e una variabile aleatoria non osservabile (latente), che riassume lin-
uenza su y
i
di tutti i fattori individuali (specicit` a) che non sono esplici-
tamente inclusi nel modello
n: `e la numerosit` a del campione
Per completare la descrizione del modello `e indispensabile adottare delle ipotesi
concernenti:
la natura delle variabili esplicative (solo x nel nostro caso)
le caratteristiche della distribuzione della variabile aleatoria
la relazione tra variabili esplicative ed errori
2.1.1 Ipotesi sulle variabili esplicative
H1:
a) Le variabili x
i
sono non stocastiche (dei numeri certi), osservate senza errore
b) Nel campione esistono almeno due valori diversi per x
i
.
13
2.1.2 Ipotesi sugli errori
H2:
a) E(
i
) = 0, i
In media leetto di tutte le variabili non incluse nel modello `e nullo. In
altre parole, il primo momento della distribuzione di
i
esiste, `e identico
per tutti gli individui, ed `e uguale a 0.
b) Secondo momento:
E(
2
i
) = V (
i
) =
2
, i
La varianza `e costante per ogni individuo: omoschedasticit`a degli
errori
E(
i

j
) = Cov(
i
,
j
) = 0 i = j
Assenza di correlazione tra gli errori di 2 individui diversi.
A volte si postula unipotesi pi` u forte, lindipendenza tra gli errori,
che implica una covarianza nulla.
2.1.3 Ipotesi sulla relazione tra variabili esplicative ed er-
rori
H3: Le variabili esplicative x
i
e gli errori
i
sono mutualmente indipendenti.
Osservazione: questa terza ipotesi `e fondamentale. Quando si ammette che le
variabili esplicative sono non-aleatorie [come si assume in H1 a)], lindipen-
denza rispetto agli errori `e automaticamente soddisfatta. Qualora le vari-
abili esplicative siano aleatorie (come capita quasi sempre in pratica), tutti
i risultati ottenuti con lipotesi di non-aleatoriet`a delle variabili esplicative
restano valevoli, purche sia ammessa lipotesi di indipendenza rispetto agli
errori. Sviluppiamo i risultati nel caso di variabili esplicative non aleatorie
per ragioni di comodit` a di calcolo.
Dalle ipotesi H1 H2 H3 si deduce:
Il valore atteso
E(y
i
) = E(a +bx
i
+
i
) = a +bx
i
+E(
i
) = a +bx
i
Il valore atteso di y
i
corrisponde quindi alla parte sistematica a+bx
i
. Esso
non `e costante, ma dipende da x
i
.
La varianza
V (y
i
) = E[(y
i
E(y
i
))
2
] = E[(a +bx
i
+
i
a bx
i
)
2
] = E(
2
i
) =
2
La covarianza
Cov(y
i
, y
j
) = E[(y
i
E(y
i
))(y
j
E(y
j
))] = E(
i

j
) = Cov(
i
,
j
) = 0 i = j
Le variabili y
i
sono di stessa varianza (omoschedasticit`a) e non corre-
late.
14
2.2 La stima del modello
I parametri sconosciuti sono:
i coecienti di regressione: a e b
la varianza degli errori:
2
2.2.1 Stima dei coecienti di regressione
(i) Il principio dei minimi quadrati
Se scegliamo dei valori specici per a e b, notati a
0
e b
0
, lo scarto tra:
il valore osservato per lindividuo i, e cio`e y
i
e il valore ottenuto sulla retta di regressione, e cio`e a
0
+b
0
x
i
`e per denizione:
(y
i
a
0
b
0
x
i
)
La somma dei quadrati degli scarti, notata SS, `e dunque:
SS =

(y
i
a
0
b
0
x
i
)
2
Il principio dei minimi quadrati consiste nello scegliere a
0
e b
0
in tale modo
che SS sia minimo. Dunque il problema da risolvere `e
min
a0,b0
SS
(ii) La soluzione
Uguagliamo a 0 le due derivate parziali:
SS
a
0
=

(y
i
a
0
b
0
x
i
)
2
a
0
=

2(y
i
a
0
b
0
x
i
)(1) = 0 (2.1)
SS
b
0
=

[2(y
i
a
0
b
0
x
i
)(x
i
)] = 0 (2.2)
Dallequazione (2.1):

y
i
+na
0
+b
0

x
i
= 0 a
0
= y b
0
x (2.3)
Dalla (2.2):

y
i
x
i
+a
0

x
i
+b
0

x
2
i
= 0
Introducendo la (2.3) per a
0
:

y
i
x
i
+ ( y b
0
x)

x
i
+b
0

x
2
i
= 0
e risolvendo:
b
0
_

x
2
i
x

x
i
_
. .
=mxx=

(xi x)
2
=
_

(y
i
x
i
)
_
y

x
i
. .
=mxy=

(xi x)(yi y)
15
b
0
m
xx
= m
xy
b
0
=
m
xy
m
xx
Indichiamo con a e

b la soluzione ottenuta. Si ha:

b =
m
xy
m
xx
=

(x
i
x)y
i

(x
i
x)
2
a = y

b x
Gli stimatori a e

b sono detti stimatori dei minimi quadrati.
(iii) Propriet` a degli stimatori

b e a
In questa sezione vogliamo mostrare che gli stimatori dei minimi quadrati
a e

b sono delle funzioni lineari rispetto alle variabili aleatorie y
i
. Notare
questa caratteristica `e di grande importanza: calcolare valore atteso e
varianza di uno stimatore lineare `e immediato e non richiede particolari
strumenti matematici ma solo un po dattenzione.
P1 Sono stimatori lineari rispetto alla variabile aleatoria osservabile y
i
,
vale a dire sono combinazioni lineari degli y
i
del campione. Infatti:

b =

(x
i
x)y
i
m
xx
=

(x
i
x)
m
xx
y
i
=

w
i
y
i
(una somma ponderata degli y
i
)
a = y

b x =
1
n

y
i
x

w
i
y
i
=

(
1
n
xw
i
)y
i
=

v
i
y
i
Notiamo:


w
i
= 0

w
i
x
i
=

(x
i
x)x
i
m
xx
= 1


v
i
= 1

v
i
x
i
= x x = 0

w
2
i
=

_
(x
i
x)
m
xx
_
2
=

(x
i
x)
2
m
2
xx
=
m
xx
m
2
xx
=
1
m
xx

v
2
i
=

_
1
n
xw
i
_
2
=

_
1
n
2
+ x
2
w
2
i
2
1
n
xw
i
_
=
=
1
n
+ x
2
1
m
xx

2
n
x

w
i
=
1
n
+
x
2
m
xx


v
i
w
i
=

_
1
n
w
i
xw
2
i
_
=
x
m
xx
16
P2 Sono corretti
E(

b) = E(

w
i
y
i
) =

w
i
E(y
i
) =

w
i
(a +bx
i
)
= a

w
i
+b

w
i
x
i
= b
E( a) = E(

v
i
y
i
) = a

v
i
+b

v
i
x
i
= a
P3 Le loro vere varianze sono
V (

b) = V (

w
i
y
i
) =

V (w
i
y
i
)
=

w
2
i
V (y
i
) =
2

w
2
i
=
2
/m
xx
V ( a) =
2

v
2
i
=
2
_
1
n
+
x
2
m
xx
_
Cov( a,

b) = Cov
_

w
i
y
i
,

v
i
y
i
_
=
2

w
i
v
i
=

2
x
m
xx
P4 Sono BLUE (Best Linear Unbiased Estimator), vale a dire sono gli
stimatori di varianza minima nella classe degli stimatori lineari e cor-
retti.
Mostriamo questa propriet` a per

b (un argomento simile vale per a).
Principio della dimostrazione: se b

`e uno stimatore corretto qualsiasi


di b, nella classe degli stimatori lineari, mostriamo che:
V (b

) V (

b)
Allora:
b

lineare: b

=

c
i
y
i
E(b

) =

c
i
E(y
i
) =

c
i
(a +bx
i
) = a

c
i
+b

c
i
x
i
V (b

) = V (

c
i
y
i
) =

c
2
i
V (y
i
) =
2

c
2
i
b

`e corretto se e solo se
E(b

) = b
_
c
i
= 0

c
i
x
i
= 1
Poniamo: c
i
= w
i
+d
i
, d
i
= c
i
w
i
, w
i
= peso dei minimi quadrati
Dalle due condizioni:
1.

c
i
= 0

(w
i
+d
i
) = 0

w
i
+

d
i
= 0

d
i
= 0
2.

c
i
x
i
= 1

(w
i
+d
i
)x
i
=

w
i
x
i
+

d
i
x
i
= 1

d
i
x
i
= 0
17
Esplicitiamo V (b

) :
V (b

) =
2

c
2
i
=
2

(w
i
+d
i
)
2
=
2

(w
2
i
+2w
i
d
i
+d
2
i
) =
=
2

w
2
i
. .
=V (

b)
+2
2

w
i
d
i
. .
?
+
2

d
2
i
. .
0
Abbiamo:

w
i
d
i
=

_
x
i
x
m
xx
_
d
i
=
1
m
xx
_

x
i
d
i
. .
=0
x

d
i
. .
=0
_

_ = 0
Quindi per ogni b

corretto, vale: V (b

) V (

b)
_
V (b

) = V (

b) + quantit` a positiva o nulla


_
Abbiamo luguaglianza quando

d
2
i
= 0 d
i
= 0 i
c
i
= w
i
+d
i
= w
i
b

=

b
Ci` o dimostra che lo stimatore BLUE `e unico, e corrisponde ai
minimi quadrati.
2.2.2 Stima di
2
(i) Lidea generale
Osserviamo che
2
= V (
i
) = E(
2
i
).
Se gli errori fossero osservabili, uno stimatore evidente di
2
sarebbe la
media degli
2
i
del campione:

2
=
1
n

2
i
Questo non `e uno stimatore perche gli errori veri non sono osservabili.
Lidea `e di fare lo stesso tipo di operazione con gli errori stimati.
(ii) Gli errori stimati
y
i
: valore osservato
y
i
= a +

bx
i
= y

b x +

bx
i
= y +

b(x
i
x): valore dato dalla retta
di regressione (valore stimato, o previsto, di y
i
)
Lerrore stimato
i
`e per denizione

i
= y
i
y
i
= (y
i
y)

b(x
i
x)
Notiamo le due propriet` a seguenti:
18



i
=

(y
i
y)
. .
=0

(x
i
x)
. .
=0
= 0
Questa `e una propriet` a generale di un modello di regressione con
costante.


i
x
i
=

(y
i
y)x
i
. .
=mxy

(x
i
x)x
i
. .
=mxx
= m
xy


b
..
=
mxy
mxx
m
xx
= m
xy

m
xy
m
xx
m
xx
= 0
Anche questa `e una propriet` a generale della regressione: il vettore di
errori calcolati `e ortogonale (90
o
) a ogni vettore di variabile esplica-
tiva.
(iii) La somma dei quadrati degli errori, notata SS (Sum of Squares)
SS =


2
i
=

_
(y
i
y)

b(x
i
x)
_
2
=

(y
i
y)
2
. .
=myy
2

(y
i
y)(x
i
x)
. .
=mxy
+

b
2

(x
i
x)
2
. .
=mxx
= m
yy
2

bm
xy
+

b
2
m
xx
Ora:

b
2
m
xx
=

b

bm
xx
=

b
m
xy
m
xx
m
xx
=

bm
xy
SS = m
yy

bm
xy
Formula per il calcolo
= m
yy

b
2
m
xx
Formula per calcolare E(SS)
(iv) Valore atteso di SS e stimatore corretto di
2
Partiamo da:
SS = m
yy

b
2
m
xx
Notiamo:
y
i
y = (a +bx
i
+
i
) (a +b x + ) = b(x
i
x) + (
i
)
m
yy
=

(y
i
y)
2
= b
2
_

(x
i
x)
2
_
+2b

(x
i
x)(
i
)+

(
i
)
2
Quindi:
SS =

(
i
)
2
. .
A
+2b

(x
i
x)(
i
)
. .
B
(

b
2
b
2
)m
xx
. .
C
Analizziamo ora i valori attesi dei tre termini di questa espressione
19


(
i
)
2
=

2
i
n
2
E(A) = E
_

(
i
)
2
_
=

E(
2
i
) nE(
2
)
= n
2
nV ( )
..
=

2
n
= (n 1)
2
E(B) = 2bE[

(x
i
x)(
i
)] = 2b

(x
i
x) E(
i
)
. .
=0
= 0
E(C) = m
xx
E(

b
2
b
2
)
E(

b
2
b
2
) = E(

b
2
) b
2
_
b = E(

b) b
2
=
_
E(

b)
_
2
_
= E(

b
2
) [E(

b)]
2
= V (

b) =

2
m
xx
In totale:
E(SS) = (n 1)
2


2
m
xx
m
xx
= (n 2)
2
Uno stimatore corretto di
2
sar` a dunque

2
=
SS
n2
dove:
n 2: gradi di libert` a (per la stima di SS)
n: numero di osservazioni
2: numero di parametri stimati (a e b)
(v) Stima delle varianze degli stimatori a e

b
Vere varianze Varianze stimate
V (

b) =

2
mxx

V (

b) =

2
mxx
Stima corretta
V ( a) =
2
_
1
n
+
x
2
mxx
_

V ( a) =
2
_
1
n
+
x
2
mxx
_
Stima corretta
Cov( a,

b) =
2 x
mxx

Cov( a,

b) =
2 x
mxx
Stima corretta
Gli scarti quadratici medi stimati sono deniti da:
s(

b) =
_

V (

b)
s( a) =
_

V ( a)
2.2.3 Qualit`a della stima
In che proporzione il nostro modello spiega la variabile y che ci interessa?
Vogliamo vedere in che proporzione la variabilit` a di y nel campione `e spiegata
dal nostro modello (potere esplicativo del modello).
Deniamo i termini del problema:
20
La variabilit` a (o variazione) totale della variabile in esame (y):
SST =

(y
i
y)
2
= m
yy
(Una misura di come y varia indipendentemente dal modello)
La variabilit` a spiegata dal modello (o dalla regressione):
SSR =

( y
i

y)
2
=

b
2
(x
i
x)
2
=

b
2
m
xx
=

bm
xy
[abbiamo usato y
i
= a +

bx
i
,

y = a +

b x y
i

y =

b(x
i
x)]
La variabilit` a residua (o non spiegata):
SS =


2
i
= m
yy

bm
xy
Constatiamo:
1. Le tre quantit` a SST, SSR e SS sono non-negative ( 0 perche sono
somme di quadrati)
2. SSR+SS = SST
`
E la scomposizione della variabilit` a totale nelle sue due componenti: quel-
la spiegata dal modello e la residua.
Ne consegue che una misura della qualit`a della stima `e data dalla pro-
porzione della variabilit` a totale spiegata dal modello. Questa proporzione,
chiamata coeciente di determinazione e notata R
2
, `e data da:
R
2
=
SSR
SST
=
SST SS
SST
= 1
SS
SST
= 1
SS
m
yy
R
2
`e compreso tra 0 e 1
R
2
0 quando SSR = 0

b = 0, il modello non spiega nulla


R
2
1 quando SS = 0 adeguatezza perfetta (mai)
Se in un modello stimato si ha R
2
= 0.8, diciamo che l80% della vari-
azione di y `e spiegata dal modello.
La radice quadrata di R
2
`e chiamata coeciente di correlazione. Il segno
di

R
2
= R `e dato dal segno di

b.
21
2.2.4 Un esempio numerico
Le osservazioni
x
i
y
i
10 9.5
12 11.6
14 13.7
13 11.9
11 11.3
60 58
22
Lelaborazione dei dati
n = 5, x =
60
5
= 12, y = 11.6
x
i
x y
i
y
-2 -2.1
0 0
2 2.1
1 0.3
-1 -0.3
0 0
m
xx
=

(x
i
x)
2
= 4 + 4 + 1 + 1 = 10
m
xy
=

(x
i
x)(y
i
y) = 4.2 + 4.2 + 0.3 + 0.3 = 9
m
yy
=

(y
i
y)
2
= 9
Gli stimatori

b =
mxy
mxx
=
9
10
= 0.9
a = y

b x = 11.6 0.9 12 = 0.8


SS = m
yy

b
2
m
xx
= m
yy

bm
xy
= 9 0.9(9) = 0.9

2
=
SS
n2
=
0.9
3
= 0.3
V (

b) =

2
mxx
=
0.3
10
= 0.03 s(

b) =

0.03 = 0.173
V ( a) =
2
_
1
n
+
x
mxx
_
= 0.3
_
1
5
+
12
2
10
_
= 0.3 14.6 = 4.38
s( a) =

4.38 = 2.09
R
2
= 1
SS
myy
= 1
0.9
9
= 1 0.1 = 0.9
Qualche verica delle propriet` a
I valori stimati: y
i
= a +

bx
i
= 0.8 + 0.9x
i
y
i
y
i

i
x
i
9.8 9.5 -0.3 10
11.6 11.6 0 12
13.4 13.7 0.3 14
12.5 11.9 -0.6 13
10.7 11.3 0.6 11
Presentazione dei risultati della stima
y
i
= 0.8
(2.09)
+ 0.9
(0.173)
x
i
23
2.3 Induzione statistica
2.3.1 Idea generale
Linduzione statistica, o i test di ipotesi, concernono i parametri della regres-
sione. Di gran lunga, nel modello semplice, il parametro dinteresse `e il parametro
b, la pendenza. Svilupperemo i test per b, ma la procedura `e esattamente analoga
per il parametro a.
Un primo test `e il test di signicativit`a. La variabile x non spiega niente
quando b = 0. Si testa dunque lipotesi:
b = 0
Quando la si accetta, x (oppure b), non `e signicativo. Nel caso contrario,
`e signicativo.
Un secondo esempio. Supponiamo che le nostre variabili siano espresse in
logaritmi e che quindi b sia lelasticit`a. Ci interessa sapere se possiamo
ammettere che lelasticit`a `e unitaria. Testiamo quindi lipotesi:
b = 1
I due esempi sono dei casi speciali dellipotesi generale:
H
0
: b = b
0
dove b
0
`e un valore dato (nel primo esempio b
0
= 0, nel secondo esempio b
0
= 1).
Questa ipotesi `e chiamata ipotesi nulla (o mantenuta) e viene testata contro
lipotesi alternativa:
H
a
: b = b
0
Siccome b `e sconosciuto, adottiamo la strategia seguente per condurre il test:
stimiamo b con

b e poi compariamo

b a b
0
vale a dire compariamo

b b
0
a 0
Se

b b
0
`e vicino a 0, accettiamo lipotesi H
0
che b = b
0
;
Se

b b
0
non `e vicino a zero, riutiamo H
0
.
Come sapere se la quantit` a

b b
0
`e o no vicina a zero? Bisogna usare uno
standard di misura. Questo standard `e fornito dalla legge normale.
2.3.2 La normalit`a e le sue conseguenze
In aggiunta alle ipotesi H
1
, H
2
e H
3
del modello di regressione, ammettiamo
ora la normalit` a degli errori:

i
N(0,
2
)
Con lipotesi di normalit` a, gli errori
i
(e anche le osservazioni y
i
) non sono
soltanto non-correlati, ma addirittura indipendenti.
24
Deduciamo:
y
i
= a +bx
i
+
i
N(a +bx
i
,
2
)
Dato che una combinazione lineare di variabili normali `e anchessa una
variabile normale:

b =

w
i
y
i
N
_
b,

2
m
xx
_
Si dimostra che:
SS

2

2
n2
e che SS `e indipendente da a e

b.
Con la normalit` a a e

b sono pure gli stimatori di massimo di verosimiglian-
za (Maximum Likelihood, ML). Per
2
, per` o, lo stimatore di massimo di
verosimiglianza `e
SS
n
(stimatore distorto).
2.3.3 Il test dellipotesi b = b
0
Sotto lipotesi nulla (b = b
0
):

b N
_
b
0
,

2
m
xx
_
e quindi la variabile:
Z =

b b
0
_
V (

b)
=

b b
0
_

2
mxx
N(0, 1)
Se
2
fosse conosciuta, la quantit`a Z sarebbe calcolabile e potrebbe essere uti-
lizzata immediatamente per fare il test. Il test sarebbe un test normale. La vari-
abile Z N(0, 1) in 95% dei casi assumer`a un valore compreso nellintervallo
(1.96, 1.96). Per un test al livello del 5%, se:
|Z| < 1.96 : accetto H
0
|Z| > 1.96 : riuto H
0
Siccome
2
non `e dato, possiamo sostituirlo con una stima
2
, formando la
quantit` a:
t =

b b
0
_

2
mxx
=

b b
0
_

2

2

2
mxx
=

bb0

2
/mxx
_

2

2
=
Z
_
SS

2
(n2)

N(0, 1)
_

2
n2
/(n 2)
la quale `e distribuita secondo la legge di Student con n 2 gradi di libert` a.
Il test si far`a come nel caso della legge normale con la sola dierenza che il valore
critico per il test (1.96 al 5% per la legge normale) `e un valore che dipende dai
gradi di libert` a. Ad esempio, al 5%, questi sono i valori critici:
25
gradi di libert` a valore critico t

al 5%
3 3.182
10 2.228
30 2.042
100 1.984
1.960
Notare che la legge normale `e una student con inniti gradi di libert` a.
Il criterio di decisione `e:
|t| < t

: accetto H
0
|t| > t

: riuto H
0
Inne, un intervallo di ducia al 95% per il vero parametro b `e dato da:

b t

s(

b) b

b +t

s(

b)
2.3.4 Ripresa dellesempio numerico

b = 0.9 s(

b) = 0.173
Test di signicativit` a: H
0
: b = 0.
|t| = |

b 0
s(

b)
| = 5.20 > t

= 3.182
`e signicativo: si riuta quindi lipotesi b = 0
Test: H
0
: b = 1
|t| = |

b 1
s(

b)
| = |
0.1
0.173
| = 0.578 < t

Si accetta H
0
.
Intervallo di condenza al 95%
t

s(

b) = 3.182s(

b) = 0.55
0.9 0.55 b 0.9 + 0.55
0.35 b 1.45
Si noti che b = 0 non `e contenuto in questo intervallo, infatti lipotesi
b = 0 `e stata riutata.
26
Capitolo 3
Complementi di analisi
multivariata
3.1 Algebra lineare
3.1.1 Autovalori e autovettori
(i) Il problema
Data una matrice quadrata A di ordine n, ci chiediamo se `e possibile
trovare un vettore X non nullo e uno scalare (un numero) tale che:
AX = X , X = 0
`e chiamato autovalore di A e X lautovettore associato a .
Notiamo che se X `e autovettore associato a , cos` lo sar` a anche il vettore
cX (con c = 0).
Infatti A(cX) = cAX = cX = (cX)
Limportanza di questa osservazione `e che possiamo sempre scegliere au-
tovettori di lunghezza unitaria (una lunghezza comoda per il calcolo).
Esempio 7. Sia A =
_
1 1
4 2
_
.
X
1
=
_
1
1
_
AX
1
=
_
2
2
_
= 2X
1
Quindi = 2 `e un autovalore di A e X
1
il suo autovettore.
X
2
=
_
1
4
_
AX
2
=
_
3
12
_
= 3
_
1
4
_
= 3X
2
= 3 `e un autovalore di A e X
2
lautovettore associato.
27
(ii) La soluzione generale
Partendo dalla relazione fondamentale, otteniamo successivamente
AX X = 0 , X = 0
(A I)X = 0 , X = 0
Questa espressione non `e altro che un sistema omogeneo con:
n equazioni
n variabili
con matrice dei coecienti (A I)
Ora sappiamo che un sistema omogeneo ammette soluzioni non triviali
(X = 0) quando il rango della matrice dei coecienti `e pi` u piccolo di n
rango(A I) < n

(A I) singolare

|A I| = 0
Il determinante |AI| `e un polinomio di grado n in chiamato polinomio
caratteristico della matrice A. Abbiamo quindi mostrato che gli autovalori
della matrice A sono le soluzioni dellequazione caratteristica |AI| = 0.
Nellesempio 7:
|A I| = (1 )(2 ) 4 =
2
+ 2 6 =
2
+ 6
Lequazione caratteristica |A I| = 0 ha come soluzione

2
+ 6 = 0

2
+ 3 2 6 = 0
( + 3) 2( + 3) = 0
( + 3)( 2) = 0

1
= 3 e
2
= 2
Nel caso generale (matrice A di ordine n), lequazione caratteristica am-
mette n soluzioni, che noteremo

1
,
2
, . . . ,
n
Per` o:
non tutte le soluzioni sono necessariamente reali (sono sempre per` o
reali per matrici simmetriche);
non tutte le soluzioni sono necessariamente distinte (di valore diver-
so).
28
Se lautovalore

appare n

volte, diciamo che la molteplicit` a di

`e n

.
Per ogni autovalore di A, gli autovettori associati a sono le soluzioni
del sistema
(A I)X = 0
Nellesempio 7:
per = 2
La matrice dei coecienti diventa
(A 2I) =
_
1 1
4 4
_
(A 2I)X
1
=
_
1 1
4 4
_
X
1
= 0
X
1
=
_
1
1
_
per = 3
(A + 3I) =
_
4 1
4 1
_
(A + 3I)X
2
=
_
4 1
4 1
_
X
2
= 0
X
2
=
_
1
4
_
Si pu` o dimostrare che:
1. per ogni autovalore

di molteplicit` a n

, si possono trovare almeno


uno e al massimo n

autovettori linearmente indipendenti associati


a

(per matrici simmetriche, esattamente n

)
2. autovettori associati ad autovalori distinti sono linearmente indipen-
denti (vedi esempio) (per matrici simmetriche sono addirittura or-
togonali)
(iii) Un primo esempio di diagonalizzazione
Sia A una matrice quadrata di ordine n e
1
,
2
, . . .
n
i suoi autovalori.
Sia inoltre la matrice diagonale avente gli n autovalori sulla diagonale
principale
=
_

2
.
.
.

n
_

_
Denizione 1. Si dice che la matrice quadrata A `e diagonalizzabile se
esiste una matrice non singolare B tale che:
B
1
AB = .
29
Non tutte le matrici quadrate sono diagonalizzabili. Si pu`o per` o di-
mostrare che:
quando tutti gli autovalori di A sono distinti, la matrice A `e diago-
nalizzabile;
una matrice simmetrica `e sempre diagonalizzabile. Per di pi` u, B `e
addirittura una matrice ortogonale.
Ritorniamo allesempio 7 per illustrare il procedimento generale. Abbiamo
trovato 2 autovalori distinti

1
= 2
e

2
= 3
Costruiamo la matrice B che ha per colonne i due autovettori associati
rispettivamente a
1
e
2
B =
_
1 1
1 4
_
|B| = 5
(B non singolare, poiche X
1
e X
2
sono linearmente indipendenti)
Calcoliamo:
AB =
_
1 1
4 2
_ _
1 1
1 4
_
=
_
2 3
2 12
_
=
_
1 1
1 4
_ _
2 0
0 3
_
= B
AB = B B
1
AB = B
1
B =
Quando A `e diagonalizzabile, `e facile dimostrare due propriet` a notevoli
(che valgono per` o anche quando A non `e diagonalizzabile)
P1:

i
= trA
Infatti, per la commutativit` a della traccia
B
1
AB =
tr(B
1
AB) = tr
tr(BB
1
A) =

i
trA =

i
30
P2:

n
i=1

i
= |A|
Infatti
|B
1
AB| = ||
|B
1
||A||B| =
n

i=1

i
|A| =
n

i=1

i
(iv) Analisi completa del caso particolare n = 2 (vedi serie desercizi)
= 0 |A I| = 0 |A| = 0
A =
_
6 12
2 4
_

1
= 0
2
= 10
3.1.2 Diagonalizzazione di una matrice simmetrica
Ricordiamo che la matrice quadrata A `e simmetrica quando
A

= A
dove A

`e la trasposta di A
(i) Propriet` a degli autovalori e degli autovettori di una matrice simmetrica
P1: Tutti gli autovalori di una matrice simmetrica sono reali (non ci sono
autovalori complessi).
Ci limitiamo a provarlo al caso n = 2:
A =
_
a
11
a
12
a
21
a
22
_
Gli autovalori:
|A I| = det
_
a
11
a
12
a
12
a
22

_
= (a
11
)(a
22
) a
2
12
=
=
2
(a
11
+a
22
) +a
11
a
22
a
2
12
= 0

1,2
=
(a
11
+a
22
)

2
dove
= (a
11
+a
22
)
2
4a
11
a
22
+ 4a
2
12
=
= a
2
11
+ 2a
11
a
22
+a
2
22
4a
11
a
22
. .
+4a
2
12
0
= (a
11
a
22
)
2
+ 4a
2
12
0
Siccome 0, le due soluzioni sono reali.
31
P2: Autovettori associati a autovalori distinti, sono ortogonali fra di loro.
Infatti, supponiamo che abbiamo due autovettori X
1
e X
2
:
_
AX
1
=
1
X
1
X
1
= 0
AX
2
=
2
X
2
X
2
= 0
Deduciamo:
_
X

2
AX
1
=
1
X

2
X
1
X

1
AX
2
=
2
X

1
X
2
Trasponendo la seconda equazione:
_
X

2
AX
1
=
1
X

2
X
1
X

2
A

X
1
=
2
X

2
X
1
Poiche A = A

, prendendo la dierenza delle due equazioni si ha:


0 = (
1

2
)
. .
=0 quando 1=2
(X

2
X
1
)
X

2
X
1
= 0 ortogonali
P3: Per ogni autovalore

di A di molteplicit` a n

si possono trovare
esattamente n

autovettori linearmente indipendenti associati a

(che `e sempre possibile ortogonalizzare).


(ii) Matrici ortogonali
La matrice quadrata C `e detta ortogonale quando le sue colonne (e le
sue righe) sono ortogonali tra di loro e di lunghezza unitaria.
Per C matrice ortogonale di ordine n, scriviamo:
C = [c
1
c
2
. . . c
n
]
(c
1
`e la prima colonna della matrice, c
n
la n-esima colonna) e si ha:
c

i
c
i
= 1 i, c

i
c
j
= 0 i = j
Consideriamo la trasposta:
C

=
_

_
c

1
c

2
.
.
.
c

n
_

_
e calcoliamo il prodotto
C

C = [c

i
c
j
] =
_

_
1
1 0
0
.
.
.
1
_

_
= I
32
Siccome C

C = I e dato che linversa di una matrice `e unica, C

`e linver-
sa di C. Potremmo quindi denire una matrice ortogonale nel seguente
modo:
Denizione 2. C `e ortogonale se C
1
= C

.
Notiamo |C

C| = |I| |C

||C| = 1 |C|
2
= 1 |C| = 1
Esempio 8. n = 2
C =
_
12
13

5
13
5
13
12
13
_
Esempio 9. n = 3
C =
_
_
3

2 8 3

2
4

2 6 4

2
5

2 0 5

2
_
_
(iii) Il teorema fondamentale
Teorema: Per ogni matrice simmetrica A esiste una matrice ortogonale
C che la diagonalizza:
C

AC =
dove = diag(
1
, . . . ,
n
).
Per dimostrare il teorema, supponiamo dapprima che gli n autovalori di
A sono distinti:
Ac
i
=
i
c
i
c
i
`e lautovettore (normalizzato) di A associato a
i
.
Per la propriet` a P2, gli autovettori c
i
sono ortogonali fra di loro (e di
lunghezza unitaria). Di conseguenza la matrice:
C = [c
1
. . . c
n
]
`e ortogonale. Otteniamo:
AC = A[c
1
. . . c
n
] = [Ac
1
. . . Ac
n
] = [
1
c
1
. . .
n
c
n
]
= [c
1
. . . c
n
]
_

2
.
.
.

n
_

_
= C
C

AC = C

C = ,
e il teorema `e dimostrato in questo caso. La dimostrazione `e simile quando
uno o pi` u autovalori hanno molteplicit` a superiore a 1, grazie alla propriet` a
P3.
33
Mostriamo ora esplicitamente il procedimento tramite un esempio.
Esempio 10.
A =
_
_
2 1 1
1 2 1
1 1 2
_
_
simmetrica
tr A = 6
|A| = 0
rg(A) = 2
Autovalori:
|AI| = det
_
_
2 1 1
1 2 1
1 1 2
_
_
= det
_
_
1 1
2 1
1 2
_
_
= det
_
_
1 1
0 3 0
0 0 3
_
_
= (3 )
2
= 0

1
= 3 molteplicit`a = 2

2
= 0 molteplicit`a = 1
Autovettori:
per
1
= 3
(A 3I)X = 0
_
_
1 1 1
1 1 1
1 1 1
_
_
X = 0
X
1
=
_
_
1
1
0
_
_
X
2
=
_
_
1
1
2
_
_
Due soluzioni linearmente indipendenti che abbiamo scelto or-
togonali. Ora le normalizzeremo:
c
1
=
_
_
1/

2
1/

2
0
_
_
c
2
=
_
_
1/

6
1/

6
2/

6
_
_
per = 0
AX = 0
_
_
2 1 1
1 2 1
1 1 2
_
_
_
_
x
1
x
2
x
3
_
_
= 0
rg = 2 1 sola soluzione linearmente indipendente
X
3
=
_
_
1
1
1
_
_
c
3
=
_
_
1/

3
1/

3
1/

3
_
_
34
La matrice ortogonale C che diagonalizza A `e:
C = [c
1
c
2
c
3
] =
_
_
1/

2 1/

6 1/

3
1/

2 1/

6 1/

3
0 2/

6 1/

3
_
_
e si verica:
C

AC = =
_
_
3
3
0
_
_
3.1.3 Matrici idempotenti
(i) Denizione ed esempi
Denizione 3. La matrice quadrata M `e idempotente quando:
MM = M
Esempio 11.
X =
_
3
4
_
Y =
_
1
1
_
X

Y = 1
M = XY

=
_
3
4
_
[1 1] =
_
3 3
4 4
_
MM =
_
3 3
4 4
_ _
3 3
4 4
_
=
_
3 3
4 4
_
= M
Alternativamente:
MM = X Y

X
..
=1
Y

= XY

= M
Esempio 12.
M =
_
_
2/3 1/3 1/3
1/3 2/3 1/3
1/3 1/3 2/3
_
_
; MM = M
(ii) Propriet` a
P1: La sola matrice idempotente dordine n e non-singolare `e la matrice
identit` a I.
Infatti:
M idempotente: MM = M (3.1)
M non-singolare: M
1
M = I (3.2)
Pre-moltiplichiamo la (3.2) per M
1
:
M
1
M
. .
=I
M = M
1
M
IM = I
M = I
35
P2: Gli autovalori di una matrice idempotente possono assumere solo 2
valori: zero e uno.
Infatti:
MX = X, X = 0 (3.3)
MMX = MX
MX =
2
X (3.4)
La dierenza (3.4)-(3.4):
0 = X
2
X
0 = (1 )X
X = 0 (1 ) = 0
=
_
0
1
Per le altre propriet` a, assumiamo che M sia simmetrica. Siccome M
`e simmetrica, esiste una matrice ortogonale C che la diagonalizza:
C

MC =
`e la matrice diagonale aventi gli autovalori (1 e 0) sulla diagonale
principale. Quanti sono gli autovalori unitari? Basta contarli: sono
dati dalla somma della diagonale di :
numero autovalori unitari = tr
= tr C

MC
= tr CC

..
=I
M
= tr M
P3: Il numero di autovalori unitari `e uguale alla traccia di M.
Esempio 12 (continuato): tr M =
6
3
= 2
2 autovalori unitari
1 autovalore nullo
Si osseva pure che il rango della matrice `e anchesso uguale al
numero di autovalori unitari. Ma il rango della matrice `e:
rg() = rg(C

MC) = rg(M)
poiche C `e non singolare. Deduciamo cos`:
P4: Il rango di una matrice idempotente `e uguale alla sua traccia (e uguale
al numero di autovalori unitari).
Esempio 12 (continuato):
M =
_
_
2/3 1/3 1/3
1/3 2/3 1/3
1/3 1/3 2/3
_
_
36
tr M = 2
2 autovalori unitari
1 autovalore nullo
Abbiamo osservato che M =
1
3
A, dove A era la matrice dellesempio
10 di diagonalizzazione di una matrice simmetrica. Avevamo trovato
C

AC = =
_
_
3
3
0
_
_
La matrice ortogonale C diagonalizza pure M. Infatti:
C

MC =
1
3
C

AC =
1
3
=
_
_
1
1
0
_
_
Le prime due colonne di C sono autovettori di M (anche di A)
associati a = 1. Si verica facilmente che
[c
1
c
2
]
. .
(32)
_
c

1
c

2
_
. .
(23)
= c
1
c

1
+c
2
c

2
= M
3.1.4 Forme quadratiche
(i) Esempi e denizione
Esempio 13. La funzione seguente (di due variabili):
f(x
1
, x
2
) = 3x
2
1
+ 4x
1
x
2
7x
2
2
+ 5x
1
2x
2
+ 4
`e una funzione quadratica:
i primi tre termini sono di grado 2
i due successivi sono di grado 1
lultimo (la costante) di grado 0
Denizione 4. Una forma quadratica (FQ) nelle n variabili x
1
, . . . , x
n
`e
una funzione quadratica nelle n variabili i cui termini sono tutti di grado
2.
Esempio 13 (continuato). La funzione f non `e quindi una forma quadrat-
ica.
Esempio 14. q = x
2
1
7x
2
2
+16x
1
x
3
4x
2
x
3
`e una forma quadratica (FQ)
nelle tre variabili x
1
, x
2
, x
3
.
(ii) Rappresentazione di una forma quadratica con una matrice simmetrica
Designiamo con
X il vettore (colonna) delle n variabili
A la matrice simmetrica dordine n avente
37
sulla diagonale principale in posizione (i, i) lelemento a
ii
che `e
il coeciente di x
2
i
al di fuori della diagonale principale, in posizione (i, j) e (j, i)
lelemento a
ij
= a
ji
che `e la met`a del coeciente del termine
x
i
x
j
La forma quadratica ha lespressione seguente:
q = X

(1xn)
A
(nxn)
X
(nx1)
che `e unica. La matrice simmetrica A `e chiamata matrice della forma
quadratica.
Nellesempio 14
X =
_
_
x
1
x
2
x
3
_
_
A =
_
_
1 0 8
0 7 2
8 2 0
_
_
q = X

AX = [x
1
x
2
x
3
]
_
_
1 0 8
0 7 2
8 2 0
_
_
_
_
x
1
x
2
x
3
_
_
= [x
1
+8x
3
, 7x
2
2x
3
, 8x
1
2x
2
]
_
_
x
1
x
2
x
3
_
_
= x
2
1
+8x
3
x
1
7x
2
2
2x
3
x
2
+8x
1
x
3
2x
2
x
3
= x
2
1
7x
2
2
+16x
1
x
3
4x
2
x
3
Le propriet` a della FQ sono le propriet` a della matrice simmetrica A che la
denisce.
Esempio 15. Se A = I
q = X

IX = X

X =

x
2
i
> 0 X = 0
Esempio 16. Se A = D = diag(d
1
, . . . , d
n
)
q = X

DX =

d
i
x
2
i
> 0 X = 0 quando ogni d
i
> 0
(iii) Forme quadratiche denite
A
1
=
_
5 1
1 1
_
A
2
=
_
1 2
2 4
_
q
1
= X

A
1
X = 5x
2
1
+x
2
2
2x
1
x
2
= 4x
2
1
+x
2
1
+x
2
2
2x
1
x
2
= 4x
2
1
+ (x
1
x
2
)
2
0
q
1
= 0 quando x
1
= 0 e x
1
= x
2
= 0 q
1
> 0 X = 0
q
2
= X

A
2
X = x
2
1
+ 4x
2
2
+ 4x
1
x
2
= (x
1
+ 2x
2
)
2
0
q
2
= 0 quando x
1
+ 2x
2
= 0 x
1
= 2x
2
esiste un X = 0 (es. x
2
= 1 e x
1
= 2) per il quale q
2
= 0
38
Denizione 5. La FQ X

AX (rispettivamente la matrice simmetrica A) `e


detta:
denita positiva se X

AX > 0 , X = 0
semi-denita positiva se X

AX 0 , X, ed esiste almeno un
X = 0 tale che X

AX = 0
denita negativa se X

AX < 0 , X = 0
semi-denita negativa se X

AX 0 , X, ed esiste almeno un
X = 0 tale che X

AX = 0
Linsieme delle forme quadratiche denite positive e semi-denite positive
`e chiamato insieme delle FQ non-negative.
(iv) Analisi della matrice B

B e della FQ corrispondente
Data una matrice qualsiasi B di ordine (n k) formiamo la matrice
A
(kxk)
= B

(kxn)
B
(nxk)
A `e simmetrica. Infatti
A

= (B

B)

= B

(B

= B

B = A
Lespressione q = X

AX `e dunque una FQ in k variabili


Cosa possiamo dire di questa FQ?
q = X

AX = X

BX
Consideriamo la trasformazione
Y = B
(nxk)
X
(kx1)
(Y

= X

)
q = Y

Y =

y
2
i
> 0 , Y = 0
In ogni caso q `e denita non-negativa. Inoltre, essa `e denita positiva
rispetto a Y . Ora, se esiste un X = 0 per cui Y = 0, la FQ `e
semi-denita positiva.
Y = 0 B
..
(nk)
X
..
(k1)
= 0
Questo `e un sistema omogeneo di n equazioni in k variabili. Ammette
soluzioni non triviali quando rg(B) < k.
Quindi:
rg(B) = k q `e denita positiva
rg(B) < k q `e semi-denita positiva
39
(v) Il teorema fondamentale
Teorema:
La matrice simmetrica A (rispettivamente la forma quadratica X

AX) `e
denita positiva se e solo se:
(i) tutti gli autovalori di A sono strettamente positivi;
(ii) esiste una matrice non singolare P tale che PAP

= I;
(iii) esiste una matrice non singolare Q tale che A = Q

Q
Le tre condizioni sono equivalenti.
Prova:
Condizione (i):
Sucienza
Supponiamo che tutti gli autovalori di A sono positivi:
i
> 0 i.
Consideriamo la FQ
q = X

AX
sapendo che C

AC = , = diag(
i
).
Utilizziamo la trasformazione non-singolare
X = CY
q = X

AX = Y

AC
. .
=
Y = Y

Y =

i
y
2
i
> 0. Y = 0 X = 0
q `e denita positiva
Necessit`a
Supponiamo un autovalore
i
0 e sia X
i
lautovettore associato
AX
i
=
i
X
i
, X
i
= 0
Per tale X
i
la FQ `e:
X

i
AX
i
=
i
X

i
X
i
. .
>0
0
Poiche esiste un X
i
= 0 tale che
q 0
la FQ non `e positiva denita.
Condizione (ii):
Sucienza
se PAP

= I la FQ
X

A X
..
X=P

Y
= Y

PAP

Y = Y

Y =

y
2
i
> 0 , Y = 0 X = 0
`e denita positiva
40
Necessit`a
Supponiamo A denita positiva. Possiamo allora scrivere:
C

AC = =
1/2

1/2
dove diag(
_

i
) =
1/2
, diag
_
1

i
_
=
1/2
Quindi abbiamo:

1/2
C

. .
P
AC
1/2
. .
P

= I
Condizione (iii)
Sucienza
Supponiamo che A = Q

Q
Consideriamo la FQ:
X

AX = X

. .
Y

QX
..
Y
= Y

Y =

y
2
i
> 0 , Y = 0 X = 0
quindi `e denita positiva.
Necessit`a
Supponiamo che A denita positiva
C

AC = =
1/2

1/2
,
1/2
= diag(
_

i
) ,
1/2
= diag
_
1

i
_
Poiche C `e ortogonale deduciamo:
A = C
1/2
. .
Q

1/2
C

. .
Q
Osservazioni
1. La matrice A denita positiva `e necessariamente non-singolare
2. Se A `e denita positiva a
ii
> 0 i
Infatti, sappiamo che X

AX > 0 , X = 0. Scegliendo:
X =
_

_
0
.
.
.
1
.
.
.
0
_

_
con la i-esima posizione = 1, si ha X

AX = a
ii
> 0
3. La matrice A `e semi-denita positiva se e solo se tutti gli autovalori sono
non negativi con almeno un autovalore nullo.
41
3.2 Statistica multivariata
3.2.1 Vettori e matrici aleatori
(i) Esempi e denizioni
Esempio 17. Consideriamo due attributi delle famiglie ticinesi:
x
1
il reddito della famiglia (annuo, in migliaia di franchi)
x
2
il numero di persone nel nucleo familiare
Si tratta di due variabili aleatorie che possiamo riunire nel vettore
X =
_
x
1
x
2
_
.
Diremo quindi che X `e un vettore aleatorio a due componenti.
Esempio 18. x
1
, . . . , x
n
sono n osservazioni estratte da una popolazione
di media c e varianza
2
. Linsieme delle osservazioni
X =
_

_
x
1
x
2
.
.
.
x
n
_

_
formano un vettore aleatorio.
Esempio 19. Nella regressione, il vettore degli n errori
=
_

2
.
.
.

n
_

_
`e un vettore aleatorio.
Denizione 6. Un vettore X (rispettivamente la matrice W) le cui com-
ponenti sono variabili aleatorie `e chiamato vettore (matrice) aleatorio.
(ii) Valore atteso
Denizione 7. Il valore atteso del vettore aleatorio X (della matrice aleato-
ria W) `e il vettore (la matrice) dei valori attesi dei suoi elementi. Lo
notiamo con
E(X) =
_

_
E(x
1
)
E(x
2
)
.
.
.
E(x
n
)
_

_
E(W) = [E(w
ij
)]
42
Esempio 17 (continuato). E(x
1
) = 60

000 =
1
, E(x
2
) = 2.1 =
2
E(X) =
_

1

2
_
=
_
60

000
2.1
_
Esempio 18 (continuato).
= E(X) =
_

_
c
c
.
.
.
c
_

_
(n1)
= c
(11)
_

_
1
1
.
.
.
1
_

_
(n1)
= cS
Esempio 19 (continuato).
E() =
_

_
0
0
.
.
.
0
_

_
= 0
(iii) Propriet` a del valore atteso
Dalle propriet` a abituali delloperatore E si deducono:
P1 : E(A) = A con A vettore (o matrice) di costanti (propriet` a triviale)
P2 : Linearit` a:
E(X
1
+X
2
) = E(X
1
) +E(X
2
)
X
1
e X
2
vettori (o matrici) di uguale dimensione.
P3 : Moltiplicazione per matrici di costanti
X vettore (n 1) aleatorio E(X) =
(n1)
A matrice (mn) di costanti (non aleatorie)
E(AX) = AE(X) = A
W: matrice (mn) aleatoria
A: matrice p m di costanti
B: matrice n q di costanti
E(AWB
. .
(pq)
) = AE(W)B
(iv) Vettore degli scarti al valore atteso e vettore degli scarti alla media
Sia X un vettore aleatorio con E(X) =
(n1)
Il vettore degli scarti al valore atteso `e per denizione il vettore
X E(X) = X
Si noti: E(X ) = E(X) E() = = 0
43
La media dei valori in X `e per denizione
x =
1
n

x
i
=
1
n
S

X
E( x) =
1
n
S

E(X) =
1
n
S

Se, come nellEsempio 18, E(X) = = cS


E( x) =
1
n
S

cS = c
1
n
S

S = c
Il vettore degli scarti alla media `e per denizione
x =
_

_
x
1
x
x
2
x
.
.
.
x
n
x
_

_
=
_

_
x
1
x
2
.
.
.
x
n
_

_
xS = X S x = X S
1
n
S

X =
= [I
1
n
SS

. .
(nxn)
]X = MX dove M = I
1
n
SS

Notiamo:
MS = S
1
n
S S

S
..
n
= S S = 0
MM = M(I
1
n
SS

) = M idempotente, simmetrica, di
rango pari a
rg(M) = tr M = tr I
n

1
n
tr SS

= n
1
n
tr S

S = n
1
n
n = (n1)
Per concludere:
x = MX E( x) = ME(X) = M
Se, come nellEsempio 18, = cS otteniamo che E( x) = cMS = 0

(x
i
x)
2
=

x
2
i
= x

x = X

MM
. .
=M
X = X

MX
3.2.2 Matrice delle varianze-covarianze di un vettore aleato-
rio
(i) Un esempio
Supponiamo che nellEsempio 17 le 2 variabili aleatorie posseggano i mo-
menti dordine 2. Avremo:
le 2 varianze:
V (x
1
) = E(x
1

1
)
2
=
11
> 0
V (x
2
) = E(x
2

2
)
2
=
22
> 0
44
le 2 covarianze:
Cov(x
1
, x
2
) = E[x
1

1
][x
2

2
] =
12
Cov(x
2
, x
1
) = E[x
2

2
][x
1

1
] =
21
Per la simmetria,
21
=
12
.
Possiamo riunire le 2 varianze e le 2 covarianze in una matrice (2 2)
chiamata matrice delle varianze-covarianze e notata V (X)
V (X) =
_
V (x
1
) Cov(x
1
, x
2
)
Cov(x
2
, x
1
) V (x
2
)
_
=
_
E(x
1

1
)(x
1

1
) E(x
1

1
)(x
2

2
)
E(x
2

2
)(x
1

1
) E(x
2

2
)(x
2

2
)
_
=
= E
_
(x
1

1
)(x
1

1
) (x
1

1
)(x
2

2
)
(x
2

2
)(x
1

1
) (x
2

2
)(x
2

2
)
_
. .
(22)
= E
_
(x
1

1
)
(x
2

2
)
_
. .
(21)
[(x
1

1
) (x
2

2
)]
. .
(12)
V (X) = E(X )(X )

(ii) Denizione generale


Denizione 8. Sia X un vettore aleatorio a n componenti con valore atteso
E(X) = . La matrice delle varianze-covarianze del vettore X, notata
V (X), `e per denizione la matrice (n n) seguente:
V (X) = E (X )
. .
(n1)
(X )

. .
(1n)
La matrice V (X):
`e simmetrica
ha sulla diagonale principale in posizione (i, i), i = 1, 2, . . . , n
V (x
i
) = E(x
i

i
)
2
e al di fuori della diagonale principale in posizione (i, j) e anche (j, i),
i = j
Cov(x
i
, x
j
) = E(x
i

i
)(x
j

j
)
`e denita positiva (come vedremo) salvo quando gli x
i
sono legati
linearmente (allora sar` a semi-denita positiva)
Casi particolari
quando le variabili aleatorie del vettore X sono indipendenti (o sem-
plicemente non correlate)
V (X) `e diagonale
quando in pi` u le variabili hanno la stessa varianza
V (X) =
2
I
45
quando il valore atteso del vettore `e il vettore nullo, come nellEsem-
pio 19:
E() = 0
V () = E(

)
Esempio 20. Il vettore aleatorio X a 3 componenti `e caratterizzato da
V (x
i
) = 1 i = 1, 2, 3
Cov(x
i
, x
j
) = a
|ij|
| a |< 1
Costruire V (X)
V (X)
33
=
_
_
1 a a
2
a 1 a
a
2
a 1
_
_
Notazione:
Per indicare che il vettore aleatorio X `e distribuito con:
valore atteso E(X) =
e matrice delle varianze-covarianze V (X) = V
scriviamo X (, V ).
3.2.3 Trasformazioni lineari
Dato X (, V ) a n elementi, consideriamo la trasformazione
Y
(k1)
= A
(kn)
X
(n1)
+ B
(k1)
con A e B rispettivamente una matrice e un vettore di costanti.
Quando:
B = 0 si parla di forma lineare
B = 0 si parla di trasformazione lineare ane
Parleremo abusivamente di trasformazione lineare nei 2 casi.
Caso particolare:
quando k = 1, A `e un vettore riga che rappresenta i coecienti della combi-
nazione lineare degli X.
Quindi: lespressione generale data rappresenta in eetti k combinazioni lineari
degli X (pi` u una costante per ogni combinazione).
(i) Valore atteso
E(Y ) = E(AX +B) = E(AX) +E(B) = AE(X) +B = A +B
Il vettore degli scarti al valore atteso:
Y E(Y ) = AX +B (A +B) = AX A = A(X )
46
(ii) Matrice delle varianze-covarianze (di una trasformazione lineare)
Partiamo dalla denizione e sviluppiamo:
V (Y ) = E[Y E(Y )
. .
(k1)
][Y E(Y )
. .
(1k)
]

= E[A(X )][A(X )]

=
= E[A(X )(X )

] = AE[(X )(X )

]
. .
=V (X)=V
A

= AV A

La varianza di una trasformazione lineare `e uguale alla matrice della


trasformazione lineare per la matrice delle varianze-covarianze di partenza
per la matrice della trasformazione lineare trasposta.
Caso particolare
Y = a
1
x
1
+a
2
x
2
+. . . +a
n
x
n
= a

X una combinazione lineare


a =
_

_
a
1
.
.
.
a
n
_

_ X =
_

_
x
1
.
.
.
x
n
_

_ V (Y ) = a

V a
Se in pi` u a =
1
n
_

_
1
1
.
.
.
1
_

_
=
1
n
S Y =
1
n
S

X = x
V ( x) =
1
n
S

V
1
n
S =
1
n
2
S

V S
Se in pi` u V =
2
I come negli esempi 18 e 19 V ( x) =

2
n
2
n =

2
n
(iii) Carattere denito positivo di V
Sia V la varianza di X. V `e denita positiva se
a

V a > 0, a = 0
Ma a

V a `e la varianza della variabile aleatoria Y = a

X. Questa varianza
`e nulla solo quando Y `e una variabile certa, non aleatoria, costante.
Abbiamo quindi mostrato che V `e denita positiva, a meno che gli elementi
di X siano legati linearmente, in qual caso V `e semi-denita positiva.
(iv) Standardizzazione
Il vettore Y (0, I
n
) `e detto vettore standardizzato (o standard). Si
tratta di n variabili non-correlate di valore atteso 0 e di varianza unitaria.
Dato un vettore X (, V ) (V denita positiva), `e sempre possibile
standardizzarlo. Infatti:
47

E(Z) = 0
Z = X
V (Z) = V
V def. pos., P non-singolare tale che
PV P

= I
Con questo P deniamo:
E(P(X )) = 0
Y = PZ = P(X )
V (P(X )) = PV P

= I
Y = P(X ) (0, I)
3.2.4 Valore atteso di una forma quadratica
Teorema: Dato X (0, V ), consideriamo la forma quadratica
X

AX
con A simmetrica (di costanti). Vale:
E(X

AX) = trAV
Esempio 21. X (0,
2
I
n
). Consideriamo la FQ denita da q = X

MX, dove
M e una matrice n n idempotente, di rango r. Abbiamo:
E(q) = trM
2
I
n
=
2
trM
..
=al suo rango
=
2
r
Dimostrazione (i) X

AX `e uno scalare e quindi uguale alla sua traccia


X

AX = trX

AX
(ii) La traccia `e commutativa
trX

AX = trAXX

(iii) La traccia `e un operatore lineare: E(traccia) = traccia(E)


E(trAXX

) = trE(AXX

) = trAE(XX

) = trAV
3.2.5 Matrice di covarianze
Siano X
(m1)
(
X
, V
X
), rispettivamente Y
(n1)
(
Y
, V
Y
) due vettori aleatori.
Denizione 9.
Cov(X, Y ) = E (X
X
)
. .
(m1)
(Y
Y
)

. .
(1n)
= V
XY
..
(mn)
Cov(Y, X) = E(Y
Y
)
. .
(n1)
(X
X
)

. .
(1m)
= V
Y X
..
(nm)
Vale: V
Y X
= V

XY
Z =
_
X
Y
_
E(Z) =
_

X

Y
_
V (Z) =
_
V
X
V
XY
V
Y X
V
Y
_
48
3.2.6 Vettore aleatorio normale
Se X `e una variabile casuale scalare N(,
2
), la sua funzione di densit`a `e
data da:
f(x) =
1

2
exp
_

1
2
2
(x )
2
_
= (2)

1
2
(
2
..
V (x)
)

1
2
exp
_

1
2
(x )(
2
)
1
(x )
_
Denizione 10. Il vettore X (, V ) a n componenti con V denita positiva `e
un vettore normale e si scrive:
X N(, V )
se la funzione di densit` a congiunta `e data da:
f(X) = (2)

n
2
|V |

1
2
exp
_

1
2
(X )

V
1
(X )
_
Diamo qui di seguito due propriet` a notevoli della legge normale multivariata.
P1: Trasformazioni lineari di variabili normali sono anchesse distribuite secon-
do la legge normale:
X N(, V ) Y = AX +B N(A +B, AV A

)
P2: Due vettori normali X e Y sono indipendenti luno dallaltro se e solo se
Cov(X, Y ) = 0
Quando
Y N(0, I
n
)
si parla di vettore normale standardizzato (o standard).
Si tratta di una collezione di n variabili N(0, 1) indipendenti. Dato qual-
siasi vettore normale X (, V ) `e sempre possibile standardizzarlo:
Y = P(X ) N(0, I)
con P tale che PV P

= I
Y

Y =
n

i=1
y
2
i

2
n
3.3 La derivata vettoriale
3.3.1 Funzione scalare di n variabili
Sia la funzione di produzione
Q = f(K, L, E, M) = cK
a1
L
a2
E
a3
M
a4
49
(Cobb-Douglas, con K capitale, L lavoro, E energia e M materie prime)
dove c `e il parametro di ecienza, e gli a
i
sono le elasticit`a rispetto ai fattori.
Questa `e una funzione di 4 variabili. In genere una funzione scalare di n variabili
si scrive:
y = f(x
1
, x
2
, . . . , x
n
)
`
E ora possibile raggruppare gli n argomenti della funzione nel vettore
x =
_

_
x
1
.
.
.
x
n
_

_
e scrivere:
y = f(x)
3.3.2 Il vettore gradiente
Possiamo calcolare le derivate parziali della funzione rispetto a ognuno degli
argomenti. Nellesempio della funzione di produzione, per la derivata parziale
rispetto a K otteniamo:
Q
K
= a
1
cK
a11
L
a2
E
a3
M
a4
= f
K
(K, L, E, M)
`
E anch essa una funzione dei 4 argomenti, che designiamo col simbolo f
K
per
distinguerla dalla funzione di partenza, f. Per le altre derivate parziali avremo:
f
L
, f
E
, f
M
.
In genere per la funzione y = f(x) a n variabili, avremo n derivate parziali:
y
x
i
= f
i
(x) , i = 1, ..., n
Possiamo ora riunire le n derivate parziali in un vettore colonna, chiamato
gradiente e notato:
y
x
=
_

_
y/x
1
.
.
.
y/x
n
_

_ =
_

_
f
1
(x)
.
.
.
f
n
(x)
_

_
Si noti che y/x rappresenta il vettore colonna delle derivate parziali. Se
volessimo rappresentarle in un vettore riga, scriveremmo:
y
x

= [f
1
(x), . . . , f
n
(x)]
e vale la relazione
y
x

=
_
y
x
_

50
Due casi particolari
Caso 1: La forma lineare
y = a
1
x
1
+a
2
x
2
+. . . +a
n
x
n
= a

x = x

a
y
x
1
= a
i

a

x
x
= a
Si noti che y/x `e sempre uguale ad a, sia che y sia scritto come a

x
oppure come x

a.
Caso 2: La forma quadratica
y = x

Ax , con A simmetrica
Consideriamo n = 2:
y = a
11
x
2
1
+a
22
x
2
2
+ 2a
12
x
1
x
2

y
x
1
= 2a
11
x
1
+ 2a
12
x
2
= 2[a
11
a
12
]
_
x
1
x
2
_

y
x
2
= 2a
12
x
1
+ 2a
22
x
2
= 2[a
12
a
22
]
_
x
1
x
2
_

y
x
=
_
y/x
1
y/x
2
_
= 2
_
a
11
a
12
a
12
a
22
_ _
x
1
x
2
_
= 2Ax
`
E facile mostrare che questa formula `e valida per ogni n. Quindi la derivata
di una forma quadratica `e uguale a 2 volte il prodotto della matrice della
FQ (matrice A) per il vettore delle variabili (vettore x).
Esercizio Si minimizzi la funzione di n variabili seguente:
y = x

Ax 2b

x
A: (n n) simmetrica, denita positiva
b

= [b
1
. . . b
n
]
Condizione di primo ordine:
y
x
= 2 Ax
..
(nn)(n1)
2 b
(n1)
= 0 Ax = b A def. pos. A
1
x

= A
1
b
Il valore della funzione allottimo:
y

= f(x

) = x

Ax

2b

= b

A
1
AA
1
b 2b

A
1
b = b

A
1
b
51
Si tratta di un minimo? Consideriamo qualsiasi x che possiamo
scrivere:
x = x

+ x
0
f(x) = f(x

+x
0
) = (x

+x
0
)

A(x

+x
0
) 2b

(x

+x
0
)
= x

Ax

+x

0
Ax
0
+ 2x

0
Ax

2b

2b

x
0
= f(x

) +x

0
Ax
0
+ 2x

0
AA
1
b 2b

x
0
= f(x

) +x

0
Ax
0
+ 2x

0
b 2b

x
0
= f(x

) + x

0
Ax
0
. .
>0 x0=0
> f(x

) x = x

Quindi x

`e il punto di minimo, ed `e unico.


52
Capitolo 4
Il modello di regressione
multipla
4.1 Il modello e le ipotesi
Nella regressione semplice la variabile che ci interessa `e spiegata attraverso una
sola variabile esplicativa (con o senza costante). Raramente in economia la
variabile spiegata appare come il risultato di un solo fattore.
Quando intervengono pi` u fattori si parla di regressione multipla.
4.1.1 Alcuni esempi
Esempio 1: Curva dEngel allargata con pi` u fattori
A
i
= a +bR
i
+cN
i
+
i
(2 var. esplicative + costante)
A
i
: spesa alimentare della famiglia i
R
i
: reddito della famiglia
N
i
: numero di gli
Esempio 2: Funzione di domanda di benzina
q
t
= a +bPNL
t
+cp
t
+d(pv)
t
+e(pp)
t
+
t
(4 var. espl. + cost.)
p
t
: prezzo della benzina nel mese t
(pv)
t
: prezzo medio degli autoveicoli
(pp)
t
: prezzo del pretrolio
Esempio 3: Funzione di produzione KLEM (in logs)
Q
t
= a +bK
t
+cL
t
+dE
t
+eM
t
+
t
(4 var. espl. + cost.)
K
t
: capitale impiegato nella produzione nel trimestre t (in log)
L
t
: lavoro (in log)
E
t
: energia (in log)
M
t
: materie prime (in log)
53
Esempio 4: Tasso di crescita del PNL
PNL
t
= K
t
+L
t
+
t
(2 var. espl. senza costante)
dove PNL
t
= PNL
t
PNL
t1
`e la variazione del PNL tra il trimestre
t e il trimestre t 1
4.1.2 Scrittura generale
Tutti questi esempi possono esprimersi con la seguente formula generale (lindice
i o t non cambia la sostanza):
y
i
=
1
x
i1
+
2
x
i2
+. . . +
K
x
iK
+
i
(4.1)
dove:
y
i
`e la variabile spiegata;
x
ik
, k = 1, . . . , K, sono le variabili esplicative. Si noti che nella (4.1) non
appare esplicitamente la costante. Per trattare dun solo colpo modelli
con e senza costante, adottiamo la convenzione seguente: se il modello ha
la costante, x
i1
= 1 i.
In tutti i casi i coecienti di regressione sono K;

k
, k = 1, . . . , K sono i coecienti di regressione, sconosciuti e dunque da
stimare;

i
`e un errore, non osservabile, che ha le stesse propriet` a dellerrore nella
regressione semplice (e la stessa interpretazione).
4.1.3 Scrittura matriciale
La (4.1) si pu` o scrivere:
y
i
=
K

k=1

k
x
ik
+
i
Designamo con:
x
i
=
_

_
x
i1
x
i2
.
.
.
x
iK
_

_
il vettore colonna delle K variabili esplicative,
=
_

2
.
.
.

K
_

_
il vettore colonna dei K coecienti di regressione.
Calcoliamo il loro prodotto scalare:
x

i
=
K

k=1
x
ik

k
=
K

k=1

k
x
ik
54
La (4.1) diventa allora:
y
i
= x

i
+
i
(4.2)
Questa `e lespressione matriciale del modello di regressione multipla per lindi-
viduo i. Raggruppiamo gli n individui sovrapponendoli:
_

_
y
1
= x

1
+
1
y
2
= x

2
+
2
.
.
.
y
n
= x

n
+
n
_

_
y
1
y
2
.
.
.
y
n
_

_
. .
(n1)
=
_

_
x

1
x

2
.
.
.
x

n
_

_
. .
(nK)

..
(K1)
+
_

2
.
.
.

n
_

_
. .
(n1)
y = X +
dove:
y `e il vettore (n 1) delle osservazioni sulla variabile spiegata per gli n
individui;
X `e la matrice delle K variabili esplicative per gli n individui;
`e il vettore (K 1) dei coecienti di regressione;
`e il vettore (n 1) degli n errori.
Interpretiamo la matrice X:
la sua k-esima colonna
_

_
x
1k
. . . x
2k
. . .
.
.
.
x
nk
_

_
le n osservazioni per una sola variabile esplicativa
(se il modello ha la costante si ottiene il vettore S =
_

_
1
1
.
.
.
1
_

_
per k = 1)
la i-esima riga:
_
_
. . . . . .
x
i1
x
i2
. . . x
iK
. . . . . .
_
_
d` a il valore di tutte le var. esplicative per lindividuo i
Il modello di regressione multipla ha dunque lespressione semplice ed elegante:
y = X +
Illustriamo questi simboli con lesempio della regressione semplice
y
i
= a +bx
i
+
i
y = X +
55
y e come nella regressione multipla

(21)
=
_
a
b
_
X
(n2)
=
_

_
1 x
1
1 x
2
.
.
.
.
.
.
1 x
n
_

_
4.1.4 Le ipotesi
Come nella regressione semplice, sono di 3 tipi.
H1: Ipotesi sulle variabili esplicative :
H1a: Gli elementi di X sono considerati non-stocastici
H1b: rg(X) = K (n > K)
Signica che le K colonne di X devono essere linearmente indipendenti. Le
variabili esplicative devono variare in modo non perfettamente correlato
al ne di poter calcolare il contributo specico di ognuna di esse.
H2: Sugli errori :
Come nella regressione semplice, con lespressione matriciale.
H2a: E(
i
) = 0 i E() = 0
H2b:
_
E(
2
i
) =
2
i
Cov(
i
,
j
) = 0 i = j
V () = E[

] =
2
I
n
H3: Sulla relazione tra variabili esplicative e errori : Come nella regres-
sione semplice, sono mutualmente indipendenti.
Da queste ipotesi deduciamo:
E(y) = E(X + ) = E(X) + E()
..
=0
= X (la parte sistematica del
modello)
E(y
i
) = x

V (y) = E[y E(y)][y E(y)]

= E(

) = V () =
2
I
n
V (y
i
) =
2
omoschedastici
Cov(y
i
, y
j
) = 0 i = j non correlati
4.2 La stima del modello
4.2.1 Lo stimatore dei minimi quadrati
`e il vettore dei coecienti di regressione, sconosciuto e dunque da stimare.
Se dessimo a un valore numerico qualsiasi, diciamo
0
, il vettore degli scarti
risulterebbe uguale a:

0
= y X
0
56
Il metodo dei minimi quadrati consiste nello scegliere
0
in tale modo che la
somma dei quadrati degli scarti risulti minima.
Esplicitiamo questa somma di quadrati, notata SS(
0
):
SS(
0
) =

0
..
=


2
0i
= [y X
0
]

[y X
0
]
= y

y y

X
0

0
X

y +

0
X

X
0
= y

y 2

0
X

y +

0
X

X
0
y

y non dipende da
0

0
X

y
..
(kn)(n1)
=

0
a forma lineare in
0
, con vettore a = X

0
a

0
= a

0
X

X
0
=

0
A
0
FQ in
0
di matrice (simmetrica) A = X

0
A
0

0
= 2A
0

SS(
0
)

0
= 2 X

y
..
a
+2 (X

X)
. .
A

0
= 0
(X

X)
0
. .
(KK)(K1)
= X

y
..
(Kn)(n1)
da H1b: rg(X) = K, deriviamo che la FQ X

X `e denita positiva (e quindi


anche non-singolare).
Pre-moltiplicando ora lespressione raggiunta per (X

X)
1
e notando il risultato
con

:

= (X

X)
1
X

y
Dal punto di vista dei calcoli numerici, `e opportuno lavorare con simboli che
non dipendono da n:
la matrice X

X `e K K e non dipende da n;
il vettore X

y `e un vettore K 1, indipendentemente da n
4.2.2

nella regressione semplice
X =
_

_
1 x
1
1 x
2
.
.
.
.
.
.
1 x
n
_

_
X

X =
_
1 1 . . . 1
x
1
x
2
. . . x
n
_
_

_
1 x
1
1 x
2
.
.
.
.
.
.
1 x
n
_

_
=
_
n

x
i

x
i

x
2
i
_
57
Si noti che in genere nella matrice X

X, nella posizione:
(k, k): si ha la somma dei quadrati della k-esima colonna.
(k, k

): `e la somma dei prodotti degli elementi della k-esima colonna


di X per gli elementi corrispondenti della k

-esima colonna.
X

y =
_
1 1 . . . 1
x
1
x
2
. . . x
n
_
_

_
y
1
.
.
.
y
n
_

_ =
_
y
i

x
i
y
i
_
Si noti che nel caso generale la k-esima posizione del vettore X

y `e uguale
alla somma dei prodotti degli elementi di y per gli elementi corrispondenti
della k-esima colonna di X.
Otteniamo

=
_
a

b
_
= (X

X)
1
X

y
=
1
nmxx
_
x
2
i

x
i

x
i
n
_ _
y
i

x
i
y
i
_
=
1
nmxx
_

x
2
i

y
i

x
i

x
i
y
i

x
i

y
i
+n

x
i
y
i
. .
nmxy
_

_
=
_
_
y x
mxy
mxx
mxy
mxx
_
_
a = y x

b (sostituendo

b)

b dalla regr. semplice


4.2.3 Propriet`a di

P1:
`
E uno stimatore lineare (rispetto a y)

(K1)
= (X

X)
1
. .
(KK)
X

(Kn)
. .
(Kn)
y
(n1)
= Ay
Notiamo:
AX = (X

X)
1
X

X = I
K
AA

= (X

X)
1
X

X
. .
IK
(X

X)
1
= (X

X)
1
P2:
`
E corretto
E(

) = E(Ay) = AE(y) = AX = I
K
=
P3: La matrice delle varianze-covarianze di

`e data da
V (

) = V (Ay) = A V (y)
. .
=
2
In
A

=
2
(X

X)
1
58
P4:
`
E BLUE
Basta dimostrare che qualsiasi stimatore lineare e corretto diverso da

ha una varianza pi` u grande (teorema di Gauss-Markov).


Sia

uno stimatore lineare qualsiasi di :
E(

) = E(

Ay) =

AE(y) =

AX

..
(K1)
=

Ay
..
(Kn)(n1)

V (

) =

AV (y)
. .

2
In

=
2

A

A

`e corretto qualora
E(

) =

AX =

AX = I
K
Senza perdere in generalit` a possiamo scrivere

A = A +C
Possiamo riscrivere la condizione di correttezza:

AX = I
K
(A +C)X = I
K
AX +CX = I
K
I
K
+CX = I
K
CX = 0
(esistono innite matrici C con questa propriet`a). Sviluppiamo
V (

) =
2

A

A

=
2
(A +C)(A

+C

)
=
2
AA

. .
V (

)
+
2
AC

+
2
CA

. .
nulli quando

`e corretto
+
2
CC

..
def. non neg.
Quindi per ogni

corretto, lineare e diverso da

:
V (

) = V (

) + matrice denita non negativa


V (

) > V (

) C = 0
4.2.4 Stima di
2
Come nella regressione semplice utilizziamo SS diviso per un numero appropri-
ato.
(i) Il vettore derrori stimato
59
Per la i-esima osservazione:

i
= y
i
x

Per linsieme delle n osservazioni:



(n1)
= y
(nx1)
y
(nx1)
= y
(nx1)
X

(nK)(K1)
Si noti:
X


..
(Kx1)
= X

y X

= X

y X

y = 0
ogni colonna di X `e ortogonale al vettore . Inoltre se il modello ha la
costante, la prima colonna di X `e S, il vettore somma, e si ha:
S


i
= 0

= 0
(ii) La somma del quadrato degli errori stimati
SS =


2
i
=


= (y X

(y X

)
= (y

)(y X

) = y

y y

y +

= y

y 2

y +

X(X

X)
1
. .
IK
X

y
= y

y per il calcolo
(iii) Una matrice idempotente molto importante
= y X

= y X(X

X)
1
X

. .
(nn)
y = [I
n
X(X

X)
1
X

]y = My
La matrice M ha delle propriet` a notevoli:
`e simmetrica: M

= M
si annulla in prodotto con X:
MX = X X(X

X)
1
X

X = X X = 0 X

M = 0
`e idempotente
MM = M(I X(X

X)
1
X

) = M
il rango
rg(M) = tr(M)
= tr(I
n
X(X

X)
1
X

)
= tr(I
n
) tr(X(X

X)
1
X

) per commutativit`a della traccia


= n tr(X

X)
1
X

X = n trI
K
= n K
60
la matrice X(X

X)
1
X

= I M `e anchessa idempotente
(I M)(I M) = I M M +MM
. .
=M
= I M
di rango: tr(I M) = n tr(M) = n (n K) = K
Inne
(I M)M = M MM
. .
=M
= 0
(iv) Il valore atteso di SS
= My = M(X +) = M
SS =

M =

M
Si tratta di una forma quadratica idempotente nel vettore (0,
2
I
n
)
Utilizzando il risultato del valore atteso di una forma quadratica:
E(SS) = E(

M) = trMV ()
=
2
trM =
2
(n K)
Ne consegue che

2
= SS/(n K)
`e uno stimatore corretto della varianza
2
.
4.2.5 Stima corretta della matrice delle varianze-covarianze
di

La vera varianza: V (

) =
2
(X

X)
1
Lo stimatore:

V (

) =
2
(X

X)
1
E
_

V (

)
_
= E(
2
)(X

X)
1
=
2
(X

X)
1
= V (

)
Tutte le varianze e covarianze degli elementi di

sono stimati in modo corretto.
Chiamiamo x
ij
lelemento in posizione (i, j) della matrice (X

X)
1
Vera varianza di

k
V (

k
) =
2
x
kk
Varianza stimata di

V (

k
) =
2
x
kk
lo scarto quadratico medio di

k
s(

k
) =
_

V (

k
) =

x
kk
la vera (e stimata) covarianza:
Cov(

k
,

r
) =
2
x
kr

Cov(

k
,

r
) =
2
x
kr
61
Un esempio
Abbiamo stimato il modello a 7 variabili esplicative e ottenuto

k
.
Ci interessiamo alla combinazione lineare:
=
3

4
Stima di :
=

4
E( ) = E(

3
) E(

4
) =
3

4
corretto
V ( ) = V (

3
) +V (

4
) 2Cov(

3
,

4
) =
2
(x
33
+x
44
2x
34
)
In forma matriciale:
= [0 0 1 1 0 0 0]
_

2
.
.
.

7
_

_
= a

= a

E( ) = a

E(

) = a

=
V ( ) = a

V (

)a =
2
a

(X

X)
1
a =
2
_
x
33
+x
44
2x
34
_
4.2.6 R
2
Vogliamo dare una misura del potere esplicativo del modello: in che proporzione
la variazione di y `e spiegata dalla regressione. Diamo questa misura per modello
con costante. In tal caso:


i
= 0

= 0

i
= y
i
y
i
0 =


i
=

y
i

y
i
y =

y
Deniamo:
SST: la variazione totale della variabile y
SST =

(y
i
y)
2
= m
yy
=

y
2
i
n y
2
= y

y n y
2
SSR: la variazione spiegata dal modello di regressione
SSR =

( y
i

y)
2
=

y
2
i
n

y
2
= y

y n y
2
, con y = X

n y
2
=

X(X

X)
1
X

y n y
2
=

y n y
2
SS: la variazione residua
SS =


2
i
= y

y
62
Vale la relazione SST = SSR + SS e dunque la proporzione della variazione
totale spiegata dal modello, notata R
2
e detta coeciente di determinazione (il
quadrato del coeciente di correlazione multipla), `e data da:
R
2
=
SSR
SST
=
SST SS
SST
= 1
SS
SST
Osservazioni:
1. Interpretazione come nella regressione semplice
2. Fatto matematico: quando alla regressione viene aggiunta unaltra vari-
abile esplicativa, R
2
non pu` o diminuire e avr` a tendenza ad aumentare.
Per correggere questo aspetto puramente matematico, viene proposto un
R
2
corretto (adjusted), denito come:
R
2
adj
= 1
SS/(n K)
SST/(n 1)
= 1
(n 1)
(n K)
(1 R
2
)
(n 1) e (n K) rappresentano i gradi di libert` a. Attenzione: non c`e
garanzia che R
2
adj
si trovi nellintervallo (0, 1).
3. Per modelli senza costante si pu`o proporre:
R
2
= 1
SS

y
2
i
4.3 Induzione statistica
I test concernono i coecienti di regressione (gli elementi di )
quando il test concerne un solo coeciente di regressione o una sola com-
binazione lineare dei coecienti di regressione, si parla di test dipotesi
lineare semplice
quando il test porta su due o pi` u combinazioni lineari dei coecienti di
regressione si parla di test dipotesi multipla (o test congiunto)
Per poter giungere ad una conclusione (accettare/non accettare), nei test abbi-
amo bisogno di uno standard di misura, fornito dallipotesi di normalit` a.
4.3.1 Ipotesi di normalit`a e sue conseguenze
In aggiunta alle ipotesi H1, H2, H3 ammettiamo ora la normalit` a degli errori
N(0,
2
I
n
. .
H2
)
Conseguenze:
1. y = X + N(X,
2
I
n
) perche y `e una combinazione lineare di
variabili normali
63
2.

= (X

X)
1
X

. .
A
y = Ay N(,
2
(X

X)
1
)

k
N(
k
,
2
x
kk
)

x
kk
N(0, 1)
3.
SS

2
=
1

=
1

M = (
1

)M(
1

) =

M
con =
1

N(0, I
n
) vettore normale standard.
SS

2
`e una forma quadratica idempotente (di rango (nK)) in un vettore
normale standard; si tratta di una
2
:
SS

2

2
nK
4.

e SS sono indipendenti tra loro

= (X

X)
1
X

y = (X

X)
1
X

X+(X

X)
1
X

= +(X

X)
1
X

vettore normale
SS =

= M vettore normale
Siccome SS non dipende che da = M, se mostriamo che la covarianza
tra e

`e nulla, allora SS e

sono indipendenti. Abbiamo
Cov(

, ) = E[

][M 0]

= E[(X

X)
1
X

M]
= (X

X)
1
X

E(

)
. .
V ()=
2
I
M
=
2
(X

X)
1
X

M
. .
=0
= 0 c.v.d.
4.3.2 Test di unipotesi semplice
(i) Esempi Supponiamo K = 4
Test di signicativit` a di ogni singolo coeciente
H
0
:
k
= 0 non signicativo
H
a
:
k
= 0 signicativo [dora in poi H
a
implicito =]
Test su un singolo coeciente
H
0
:
3
= 2
Test di uguaglianza di due coecienti
H
0
:
2
=
3

2

3
= 0
Test che la somma di due coecienti vale 1:
H
0
:
3
+
4
= 1
64
(ii) Formulazione generale dellipotesi semplice
In tutti gli esempi precedenti testiamo che una combinazione lineare dei
coecienti sia uguale a un valore dato:
Una combinazione lineare qualsiasi dei coecienti in pu` o scriversi:
= a

Nei vari esempi


= a

=
4
a

= [0 0 0 1] per k = 4
=
3
= a

= [0 0 1 0]
=
2

3
a

= [0 1 1 0]
=
3
+
4
a

= [0 0 1 1]
Vogliamo testare che la combinazione lineare sia uguale a un valore dato,
notiamolo
0
:
Nei vari esempi:

0
= 0,
0
= 2,
0
= 0,
0
= 1
Formalmente testiamo:
H
0
: =
0
dove `e la combinazione lineare = a

(iii) Il test
Procedura:
stimiamo con = a

compariamo a
0
, vale a dire compariamo (
0
) a 0
Propriet` a di :
E( ) = a

E(

) = a

= =
0
sotto H
0
V ( ) = V (a

) = a

V (

)a =
2
a

(X

X)
1
a (ricorda V (

) =
2
(X

X)
1
)
normale:
N(
0
, V ( )) sotto H
0
Formiamo la quantit` a z:
z =

0
_
V ( )
N(0, 1)
Se
2
fosse conosciuta, tutte le quantit` a che deniscono z sarebbero cal-
colabili il test si ridurrebbe a un test normale. Al 5%:
se |z| > 1, 96 : riuto H
0
se |z| < 1, 96 : non riuto H
0
65
Ma z non `e calcolabile quando, come sempre capita,
2
`e sconosciuto.
Rimpiazziamo allora
2
con

2
V ( ) =
2
a

(X

X)
1
a

V ( ) =
2
a

(X

X)
1
a =

2

2
V ( )
Formiamo la statistica t:
t =

0
_

V ( )
=

0
_

2
V ( )
=
0

V ( )
_

2

2
=
z
_
SS

2
/(n K)
Ora, siccome z `e costruito unicamente a partire da

e il denominatore
`e costruito a partire da SS che `e indipendente da

, il numeratore `e
indipendente dal denominatore.
La statistica `e dunque una variabile aleatoria distribuita come una student
a (nK) gradi di libert` a. Il test si esegue utilizzando i valori critici della
legge di Student, al livello di signicativit` a desiderata (5%).
Sia t

il valore critico. La regola di decisione


|t| > t

: riuto H
0
|t| < t

: non posso riutare H


0
4.3.3 Ipotesi multipla
(i) Due esempi (ripresi)
Esempio 2: Domanda di benzina
q
t
=
1
+
2
PNL
t
+
3
p
t
+
4
(pv)
t
+
5
(pp)
t
+
t
t = 1, . . . , n
n osservazioni
K coecienti, K = 5
Vogliamo testare lipotesi che la domanda di benzina `e insensibile ai
prezzi.
H
0
:
_
_
_

3
= 0

4
= 0

5
= 0
m: numero di vincoli (restrizioni) rappresentati da H
0
.
Quindi m = 3.
Esempio 3: Funzione di produzione KLEM (in logs)
Q
t
=
1
+
2
K
t
+
3
L
t
+
4
E
t
+
5
M
t
+
t
n: osservazioni
K coecienti, K = 5
Vogliamo testare simultaneamente
1. che lelasticit`a dellenergia e delle materie prime sono uguali e
66
2. che i rendimenti di scala sono costanti
H
0
:
_

4
=
5

2
+
3
+
4
+
5
= 1 qui m = 2
(ii) Il modello vincolato
`
E il modello ottenuto dal modello di partenza introducendo esplicitamente
gli m vincoli
Esempio 2
q
t
=
1
+
2
PNL
t
+
t
Il numero di parametri da stimare del modello vincolato `e uguale a
2 (= K m = 5 3 = 2).
Esempio 3 Da H
0
da vincolo 1
4
=
5
da vincolo 2
3
= 1
2
2
5
_
trasformazioni preliminari
Q
t
=
1
+
2
K
t
+ (1
2
2
5
)L
t
+
5
E
t
+
5
M
t
+
t
=
1
+
2
(K
t
L
t
) +
5
(E
t
+M
t
2L
t
) +L
t
+
t
(Q
t
L
t
) =
1
+
2
(K
t
L
t
) +
5
(E
t
+M
t
2L
t
) +
t
(Q
t
L
t
) `e la variabile spiegata nel modello vincolato, la indichiamo
con

Q
t
Il termine L
t
`e stato portato a sinistra delluguale in quanto ha co-
eciente noto
z
1t
= (K
t
L
t
) e z
2t
= (E
t
+M
t
2L
t
) sono le due variabili esplica-
tive nel modello vincolato
La regressione vincolata:

Q
t
=
1
+
2
z
1t
+
5
z
2t
+
t
Come in precedenza, calcoliamo il numero di coecienti del modello
vincolato: K m = 5 2 = 3
(iii) Un test semplice da eettuare per ipotesi multiple
Si basa semplicemente sulla stima di due regressioni
si stima il modello di partenza e si calcola la somma dei quadrati
degli errori, notata SS, i cui gradi di libert` a sono n K
Esempio 2: n K = n 5
Esempio 3: n K = n 5
si costruisce la regressione che corrisponde al modello vincolato, la si
stima e si calcola la somma dei quadrati degli errori, notata SS
v
, i
cui gradi di libert` a sono n (K m)
Esempio 2: n (K m) = n (5 3) = n 2
Esempio 3: n (K m) = n (5 2) = n 3
67
Si noti:
gd
v
gd = n (K m) (n K) = m
Osserviamo:
SS
v
SS
quando i vincoli sono gi` a soddisfatti in partenza (H
0
vero), allora
SS
v
= SS
Conclusione: per fare il test di H
0
, confrontiamo SS
v
a SS
SS
v
SS = 0
se siamo vicini a 0, lipotesi H
0
`e verosimile
se siamo lontani da 0, lipotesi H
0
`e probabilmente falsa
Per sapere se SS
v
SS `e vicina oppure no a 0, si costruisce la statistica
F
F =
(SS
v
SS)/m
SS/(n K)
che `e distribuita secondo la legge di Fisher con:
m gradi di libert` a al numeratore
n K gradi di libert` a al denominatore
La regola di decisione, dato il valore critico F

della tavola di Fisher con


i rispettivi gradi di libert` a e al livello di signicativit` a scelto (5%), `e la
seguente:
F > F

: riuto H
0
F < F

: non riuto H
0
(iv) Il test dellipotesi lineare generale
Consideriamo una regressione con K coecienti di cui:

1
la costante

2
, . . . ,
K
i coecienti di K 1 variabili esplicative proprie
Il modello non spiega niente quando tutti i coecienti delle variabili es-
plicative (costante esclusa) sono nulli. Lipotesi lineare generale da testare
`e:
H
0
:
2
=
3
= . . . =
K
. .
K1 vincoli
= 0

2
= 0

3
= 0
.
.
.

K
= 0
68
Il modello di partenza:
Stimato: SS con gd = n K
Il modello vincolato:
y
i
=
1
+
i
Stimato:

1
= y SS
v
=

(y
i

1
)
2
=

(y
i
y)
2
= m
yy
= SST
gd
v
= n 1 = n (K m) = n 1, m = K 1
Costruiamo la statistica F:
F =
(SS
v
SS)/(K 1)
SS/(n K)
=
(n K)
(K 1)
SST SS
SS
=
n K
K 1
1
SS
SST
SS
SST
=
n K
K 1
R
2
1 R
2
R
2
: del modello di partenza
test dellipotesi generale
se F piccolo butto via il modello
se
2
`e conosciuto allora useremo
2
con K 1 gradi di libert` a.
4.4 La previsione
4.4.1 Il problema
Il modello di riferimento
La solita regressione
y
i
= x

i
+
i
con K variabili esplicative munite della ipotesi classica
Losservazione disponibile `e contenuta in un campione di numerosit`a n:
y = X +
che abbiamo stimato
Consideriamo un individuo al di fuori del campione, chiamandolo . Deside-
riamo prevedere il suo comportamento e cio`e y

, conoscendo le sue carat-


teristiche, x

.
Ammettiamo che il vero comportamento dellindividuo , y

sconosciuto,
sia generato dallo stesso modello e cio`e:
y

= x

con lo stesso
E(

) = 0 E(y

) = x

V (

) =
2
V (y

) =
2
Cov(

,
i
) = Cov(y

, y
i
) = 0 , i nel campione
69
4.4.2 Un previsore naturale
y
p

= X

,

OLS del campione

`
E corretto nel senso che il valore atteso:
E(y
p

) = E(y

)
Infatti:
E(y

) = X

E(y
p

) = X

E(

) = X

OK
La sua varianza
V (y
p

) = V (X

) = x

V (

)
. .

2
(X

X)
1
x

=
2
x

(X

X)
1
x

4.4.3 Lerrore di previsione


Lerrore di previsione,
p

, non osservabile, `e per denizione

= y

y
p

E(
p

) = E(y

) E(y
p

) = 0
Si dice che un previsore `e corretto quando lerrore di previsione `e nullo in
valore atteso. Quindi abbiamo mostrato che y
p

`e corretto.
V (
p

) = V (y

) +V (y
p

) =
2
(1 +x

(X

X)
1
x

)
4.4.4 Ecienza del previsore
Il previsore y
p

`e un previsore corretto.
`
E pure un previsore lineare rispetto
allinformazione disponibile contenuta nel campione, y. Infatti:
y
p

= x

= x

(X

X)
1
X

y = a

y
E(a

y) = a

X = x

(X

X)
1
X

X = x

V (a

y) = a

2
I
..
V (y) a =
2
x

(X

X)
1
x

Il nostro previsore y
p

`e ottimale nel senso che nella classe dei previsori lineari e


corretti `e quello con la varianza della previsione minima.
NOTA: in questo modello semplice, minimizzare V (y
p

) o minimizzare V (
p

)
d` a lo stesso risultato.
Ci` o non risulta vero in modelli pi` u complessi, ad esempio, quando

`e correlato
con gli errori del campione.
Quindi il criterio giusto da rilevare `e quello di:
_
min V (
p

)
sotto E(
p

) = 0
70
Dimostriamo lecienza del nostro previsore. Consideriamo un previsore lineare
qualsiasi
y

= a

y
_
E(y
x

) = a

E(y) = a

X
V (y

) = a

V (y)a

=
2
a

Sar` a corretto quando:


E(y

) = E(y

) = x

X = x

X = x

Poniamo senza perdere in generalit` a:


a

..
(1n)
= a

+c

. .
(1n)
(c

un vettore (1 n) qualsiasi) ed esplicitiamo la condizione di correttezza:


a

X = a

X
..
x

+c

X = x

X = 0
Sviluppiamo la varianza:
V (y
x

) =
2
(a

+c

)(a +c) =
2
a

a
..
V (y
p

)
+
2
c

a +
2
a

c +
2
c

c
. .
>0 c=0
> V (y
p

)
poich`e a

c = c

a = x

(X

X)
1
X

c
..
=c

X=0
= 0
4.4.5 Un primo test di cambiamento strutturale
Abbiamo stimato il modello
y = X +
sui dati 1980-2011. Nel 2012 viene fatta una grossa campagna per modicare il
comportamento degli individui. Alla ne del 2012 osserviamo: y
2012
e x

2012
.
Come decidere se la campagna ha avuto un eetto? Se s`, si parla di cambia-
mento strutturale.
Sulla base dellinformazione passata facciamo una previsione per il 2012:
y
p
2012
= x

2012

e la compariamo al valore osservato y


2012
, vale a dire, compariamo la dierenza
y
2012
y
p
2012
=
p
2012
a zero. Quindi se

p
2012
`e vicino a zero non ha eetto

p
2012
`e grande cambiamento strutturale
Sotto lipotesi di normalit` a degli errori:

p
2012
N(0,
2
(1 +x

2012
(X

X)
1
x
2012
)
. .
d
2
)
71
z =

p
2012
d
N(0, 1)
Quando `e conosciuto, z conduce al test normale.
Quando `e sconosciuto, `e sostituito con , e la quantit` a
t =

p
2012
d
Student
nK
`e utilizzata per il test.
72
Capitolo 5
Le variabili qualitative
In economia cos` come in altre discipline (biologia, medicina, sociologia, ...) es-
istono variabili esplicative che non sono quantitative, vale a dire non si misurano
in termini di quantit` a. Ad esempio una variabile non quantitativa che inuenza
il salario di una persona `e il livello di formazione:
Apprendistato
Scuole superiori (ad esempio maturit`a professionale, SUPSI, ...)
Universit` a
Una variabile di questo tipo `e detta variabile qualitativa (o dummy) con tre
attributi (i tre possibili livelli di formazione). Similmente, per lo studio della
domanda di alcuni beni si potrebbe pensare di introdurre una variabile qual-
itativa quale ad esempio il sesso (prodotti cosmetici) oppure la religione o la
provenienza geograca (alcuni beni alimentari). Come fare per tener conto del-
linusso di queste variabili qualitative sulla variabile dipendente? Spieghiamo
il concetto tramite un esempio.
Esempio 1
Consideriamo il modello
y
i
= a +bx
i
+
i
, i = 1, . . . , n (5.1)
dove
y
i
= salario dellindividuo i
x
i
= anni desperienza dellindividuo i
Supponiamo che il livello di formazione abbia un inusso sul salario e supponi-
amo per questa variabile esplicativa di denire due soli attributi:
formazione:
_
universitaria, oppure
non universitaria
73
Al ne di modellare linusso della formazione deniamo una variabile dummy
per ciascun attributo nel modo seguente:
d
1i
=
_
1 se lindividuo i ha una formazione universitaria
0 altrimenti
,
d
2i
=
_
1 se lindividuo i non ha una formazione universitaria
0 altrimenti
.
A questo punto possiamo completare il modello (5.1) con le due variabili dummy
y
i
= a
1
d
1i
+a
2
d
2i
+bx
i
+
i
. (5.2)
Linterpretazione dei due parametri a
1
e a
2
`e la seguente: il coeciente a
1
`e
lintercetta nel modello di regressione per un individuo con formazione universi-
taria, mentre a
2
`e lintercetta per un individuo con formazione non universitaria.
Vi attendete a
1
> a
2
oppure a
1
< a
2
?
5.1 Specicazione I
Il modello (5.2) corrisponde alla prima specicazione possibile per un modello
a variabili qualitative. Nel caso generale di una sola variabile qualitatita a s
attributi avremo una specicazione del tipo
y
i
= a
1
d
1i
+a
2
d
2i
+. . . +a
s
d
si
+bx
i
+
i
. (5.3)
Le s variabili dummy dovranno soddisfare le seguenti condizioni:
1. Esaustivit` a
Ogni attributo presente nel campione deve avere la sua dummy. (Ma,
ovviamente, non si possono considerare degli attributi che non sono rapp-
resentati nel campione!)
2. Esclusivit` a
Le s variabili dummy devono essere mutualmente esclusive, vale a dire,
gli attributi che esse rappresentano sono incompatibili tra loro. Alge-
bricamente, i vettori d
1
(n1)
, . . . , d
s
(n1)
delle osservazioni delle dummy nel
campione sono ortogonali.
Se le condizioni 1. e 2. sono soddisfatte segue che
s

j=1
d
ji
= 1 per ogni individuo i. (5.4)
La condizione (5.4) signica che per ogni individuo esiste sempre una ed una
sola dummy uguale a 1 mentre le altre sono tutte 0!
Il modello (5.3) e un modello di regressione multivariata con s + 1 variabili
esplicative. I parametri a
1
, a
2
, ..., a
s
e b possono essere stimati con il metodo
dei minimi quadrati.
74
Esempio 2
Supponiamo di avere osservazioni su n = 4 individui. La variabile y rappresenta
il salario. Le variabili esplicative sono gli anni desperienza x, e la variabile
qualitativa che corrisponde al livello di formazione a 3 attributi:
- apprendistato
- medio superiore
- universitario
Deniamo
d
1i
=
_
1 se la formazione di i termina con lapprendistato
0 altrimenti
,
d
2i
=
_
1 se i possiede un grado di formazione medio superiore
0 altrimenti
,
d
3i
=
_
1 se lindividuo i ha una formazione universitaria
0 altrimenti
.
Avremo dunque
y
i
= a
1
d
1i
+a
2
d
2i
+a
3
d
3i
+bx
i
+
i
.
Scriviamo il modello in forma matriciale
y =
_

_
1 0 0 x
1
0 1 0 x
2
1 0 0 x
3
0 0 1 x
4
_

_
. .
=X
_

_
a
1
a
2
a
3
b
_

_
+ .
Osservazione: non confondete il numero di variabili qualitative presenti nel mod-
ello con il numero di attributi ad esse associati. Quanti apprendisti ci sono nel
campione?
Le prime tre colonne della matrice X corrispondono alle variabili dummy. Per
queste tre colonne notiamo che:
In ogni riga c`e uno ed un solo 1. Tutte le altre componenti sono 0.
La somma delle tre colonne d`a il vettore somma S il che equivale alla
condizione (5.4).
Le tre colonne sono fra loro ortogonali, mutualmente esclusive.
Domanda: sarebbe possibile introdurre nel modello anche la costante? Risposta:
evidentemente no!
Attenzione: `e necessario che ogni attributo abbia almeno un individuo che lo
rappresenti, altrimenti avremmo delle colonne di 0 e la matrice X non avrebbe
rango K con la conseguenza che X

X non sarebbe invertibile.


75
5.2 Specicazione II
Partendo dal caso generale (5.3)
y
i
= a
1
d
1i
+a
2
d
2i
+. . . +a
s
d
si
+bx
i
+
i
utilizziamo la propriet`a d
1i
+d
2i
+. . . +d
si
= 1 per risolvere rispetto a d
si
d
si
= 1 d
1i
d
2i
. . . d
s1,i
ed inserire il risultato nella (5.3)
y
i
= a
s
+ (a
1
a
s
)d
1i
+. . . + (a
s1
a
s
)d
s1,i
+bx
i
+
i
(5.5)
cos` da ottenere la specicazione II di un modello con dummy
y
i
= c
0
+c
1
d
1i
+. . . +c
s1
d
s1,i
+bx
i
+
i
(5.6)
Osservazioni:
1. Questo e un modello con costante e s1 attributi. La costante corrisponde
al coeciente dellattributo mancante. Il coeciente c
i
, i = 1, . . . , s
1 corrisponde allo scarto del coeciente delliesimo attributo (a
i
) dal
coeciente dellattributo mancante (a
s
). Quindi non il valore assoluto,
ma quello in eccesso su a
s
.
2. La scelta di eliminare lattributo s `e arbitraria. Avremmo potuto eliminare
un qualsiasi altro attributo.
Esempio 2(Cont.)
Se escludiamo lattributo di formazione universitaria, la specicazione II del
modello e data da:
y
i
= c
0
+c
1
d
1,i
+c
2
d
2,i
+
i
.
I coecienti c
1
e c
2
danno leetto sul salario della formazione dapprendistato,
e della formazione medio superiore, rispettivamente, allo scarto delleetto della
formazione universitaria. Come testereste lipotesi nulla: il tipo di formazione
non `e inuente per la determinazione del reddito? Si risponda utilizzando sia la
specicazione I sia la specicazione II.
5.3 Regressione con due o pi` u variabili qualita-
tive
Supponiamo che il nostro modello contempli oltre alla variabile qualitativa for-
mazione a 3 attributi anche la variabile qualitativa razza a 4 attributi: bian-
co, nero, giallo, rosso. Potremmo utilizzare un tale modello per vericare se
c`e discriminazione raziale nei confronti delle persone di colore. Utilizzando la
specicazione I, potremmo pensare di aggiungere al modello di partenza
y
i
= a
1
d
1i
+a
2
d
2i
+a
3
d
3i
+bx
i
+
i
76
il termine c
1
e
1i
+c
2
e
2i
+c
3
e
3i
+c
4
e
4i
dove
e
1i
=
_
1 se lindividuo i `e bianco
0 altrimenti
e
2i
=
_
1 se lindividuo i `e nero
0 altrimenti
e
3i
=
_
1 se lindividuo i `e giallo
0 altrimenti
e
4i
=
_
1 se lindividuo i `e rosso
0 altrimenti
e c
1
, c
2
, c
3
, c
4
sono i coecienti associati alle dummy razza.
`
E possibile utilizzare
un modello del genere? La risposta `e no! Il modello non sarebbe identicato.
Infatti avremmo la seguente situazione
y
i
= a
1
d
1i
+ a
2
d
2i
+a
3
d
3i
. .
c`e sempre esattamente un dji=1
+c
1
e
1i
+c
2
e
2i
+c
3
e
3i
+c
4
e
4i
. .
c`e sempre esattamente un eji=1
+bx
i
+
i
.
La matrice X in questo caso sarebbe
X =
_

_
1 0 0
1 0 0
0 1 0
.
.
.
.
.
.
.
.
.
0 0 1
. .
S=

3
j=1
dj
0 1 0 0
1 0 0 0
0 0 0 1
.
.
.
.
.
.
.
.
.
.
.
.
1 0 0 0
. .
S=

4
j=1
cj
x
1
x
2
x
3
.
.
.
x
n
_

_
Per risolvere il problema `e suciente tralasciare un attributo della seconda
variabile qualitativa razza, ad esempio e
4i
:
y
i
= a
1
d
1i
+a
2
d
2i
+a
3
d
3i
+c
1
e
1i
+c
2
e
2i
+c
3
e
3i
+bx
i
+
i
.
Linterpretazione dei parametri `e data nella seguente tabella, dove riportiamo
lintercetta della regressione per le varie possibili combinazioni di attributi:
apprendista scuole superiori Universit` a
rosso a
1
a
2
a
3
bianco a
1
+c
1
a
2
+c
1
a
3
+c
1
nero a
1
+c
2
a
2
+c
2
a
3
+c
2
giallo a
1
+c
3
a
2
+c
3
a
3
+c
3
Osservazioni:
Togliendo un attributo (in questo caso e
4i
) manteniamo lidenticabilit` a
(evitiamo la perfetta collinearit` a delle dummy) ottenendo lunivocit` a.
Quale attributo togliere `e indierente!
La scelta di mantenere tutte le dummy della variabile qualitativa livello di for-
mazione e togliere un attributo della variabile dummy razza `e arbitraria. Avrem-
mo potuto fare il contrario. Per tale motivo, e per avere una regola semplice da
ricordare nel caso ci siano due o pi` u variabili qualitative, si procede come segue:
1. Si lascia la costante nel modello di regressione.
2. Per ogni variabile qualitativa j si introducono m
j
1 variabili indicatrici
dove m
j
`e il numero di attributi della j-esima variabile qualitativa.
77
Nel nostro esempio abbiamo 2 variabili qualitative (livello di formazione e razza).
m
1
= 3 :
_
_
_
apprendistato (tralasciato)
scuole superiori
universit` a
m
2
= 4 :
_

_
bianco
nero
giallo
rosso (tralasciato)
y
i
= a +a
2
d
2i
+a
3
d
3i
+c
1
e
1i
+c
2
e
2i
+c
3
e
3i
+bx
i
+
i
.
apprendista scuole superiori Universit` a
rosso a a +a
2
a +a
3
bianco a +c
1
a +a
2
+c
1
a +a
3
+c
1
nero a +c
2
a +a
2
+c
2
a +a
3
+c
2
giallo a +c
3
a +a
2
+c
3
a +a
3
+c
3
78