L A RE G RE S S I O N E L I NE A RE MU L T I PL A
La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una
variabile quantitativa Y da un insieme di m variabili esplicative quantitative X1, …, Xm, dette
regressori, mediante un modello lineare.
Esempio:
Si consideri quale variabile risposta (Y ) la spesa familiare mensile.
Y dipende da una serie di variabili quali ad esempio il reddito familiare mensile (X1), il numero di
componenti della famiglia (X2), l’età del capofamiglia (X3), ecc… In generale si indichi con
(X1, …, Xm) l’ insieme delle variabili da cui può dipendere la spesa familiare Y
La funzione f dipende da parametri che determinano l’influenza di ogni singolo regressore sul
valore di Y. Nella formulazione del modello di regressione multipla la linearità vale rispetto ai
parametri.
Il valore della spesa Y per tutte le famiglie con il medesimo insieme di valori dei regressori (ad
esempio X1=1500€, X2=2 componenti, X3=35 anni) non sarà lo stesso; infatti:
1) vi sono infiniti fattori che influenzano la spesa delle famiglie che non è possibile né rilevare né
considerare nella funzione f;
2) nei fenomeni reali vi è un elemento imprevedibile di casualità;
3) i valori di Y possono essere rilevati e/o misurati con errore.
La relazione che lega Y a (X1, …, Xm) non è quindi esprimibile mediante una funzione matematica,
pertanto nell’equazione (2.1) viene aggiunta una variabile aleatoria che riassume l’effetto su Y di
tutti quei fattori non inclusi nella funzione f.
Y = 0 + 1 X1 + … + m Xm + (2.2)
1. L’effetto su Y di tutti i fattori non rilevati e/o non rilevabili può essere positivo o negativo; e
non dipende dai valori dei regressori;
ad es.: il valore della spesa Y per le famiglie con X1=1500€ di reddito, X2=2 componenti,
X3=35 anni potrà essere per alcune di esse esattamente pari a f(X1, X2, X3), per altre inferiore,
per altre ancora superiore.
E(Y | X 1 , ..., X m )
da cui = k
X k
k rappresenta la variazione attesa di Y per una variazione unitaria positiva di Xk quando gli
altri regressori restano costanti (qualunque sia il loro valore).
2. La variabilità dell’effetto di tutti i fattori non rilevati e/o non rilevabili non dipende dai
valori dei regressori;
3. Gli effetti sulla spesa Y dei fattori non rilevati per la famiglia i non dipendono da quelli
relativi alla famiglia j:
(ipotesi non essenziale al modello lineare classico, ma necessaria per la stima intervallare e
il controllo di ipotesi sui parametri)
N(0, 2)
2.2 Lo stimatore dei minimi quadrati ordinari dei parametri del modello
Si suppone che il modello (2.2) valga nella popolazione oggetto di interesse. Poiché nella maggior
parte dei casi la popolazione nel suo complesso non è direttamente rilevabile, al fine di stimare i
parametri del modello (2.2) ci si deve basare sulle informazioni contenute su un campione causale
di n unità, su ciascuna delle quali vengono rilevati i valori della variabile Y e degli m regressori:
Se il campione viene estratto con criterio casuale semplice allora gli n vettori di variabili
dell’equazione (2.3) sono indipendenti.
Posto il modello (2.2), per la generica osservazione campionaria vale la seguente relazione:
Yi = 0 + 1 Xi1 + … + m Xim + i (2.4)
che, formulata per ciascuna delle n unità del campione, dà luogo al seguente sistema di n equazioni
in m+1 incognite:
Y1 = 0 + 1 X11 + … + m X1m + 1
…
Yi = 0 + 1 Xi1 + … + m Xim + i
…
Yn = 0 + 1 Xn1 + … + m Xnm + n
Indicando con:
y il vettore n1 dei valori della variabile dipendente per le n unità del campione;
X la matrice n(m+1) dei valori degli m regressori per le n unità del campione a cui si aggiunge
una colonna supplementare composta da n valori tutti pari a 1 in corrispondenza dell’intercetta
del modello.
il vettore (m+1)1 dei parametri del modello;
il vettore n1 dei termini d’errore;
il sistema può essere riscritto in maniera compatta e semplificata nella forma di un’equazione
matriciale:
y = X + (2.5)
Poiché ciascuna osservazione del campione può essere interpretata come una realizzazione empirica
delle corrispondenti variabili in popolazione, le condizioni ipotizzate sui termini del modello
possono quindi essere formulate in maniera compatta rispetto ai termini dell’equazione (2.5).
da cui V(y|X) = E[(y E(y|X))(y E(y|X))T] = E[(y X) (y X)T] = E(T) = = 2In
4) NMV(0, 2In)
da cui y|X NMV(X, 2In). Cioè i residui si distribuiscono come una normale multivariata di
parametri 0 e 2In. Questa ipotesi non necessaria nella fase di stima puntuale riveste un ruolo
fondamentale per la stima intervallare e la verifica di ipotesi.
Oltre agli m+1 parametri incogniti presenti nell’equazione del modello dovrà essere stimato anche il
parametro 2.
Il metodo dei minimi quadrati può essere utilizzato per stimare il vettore di parametri incogniti .
A partire dal vettore delle stime b calcolate rispetto a un campione di n unità è possibile
determinare il vettore y* dei valori TEORICI della variabile dipendente per le n unità del campione
nell’ipotesi di perfetta dipendenza lineare tra Y e gli m regressori:
y* = Xb (2.6)
La differenza tra gli n valori EMPIRICI ed i corrispondenti valori TEORICI di Y definisce il vettore
dei residui campionari:
e = y y* = y Xb (2.7)
Come è noto il metodo dei minimi quadrati ricerca il vettore di coefficienti b in modo da rendere
minima la somma dei quadrati degli scarti tra ordinate empiriche e ordinate teoriche, o
equivalentemente, la somma dei residui al quadrato:
n n
(b) = ( y i y i* ) 2 = ei2 = eT e = (y Xb) T (y Xb) =
i 1 i 1
= yT y bT XT y yT X b + b T X T X b = y Ty 2 b T X T y + b T X T X b (*)
( b )
= 2X T y + 2X T X b= 0
b
In forma esplicita:
n n n
n
n xi1 xi2 ... xim b y i
n i 1 i 1 i 1
b ni 1
= x y
n n n
x ... xi1 xim
x x
2
x
i 1
i1
i 1
i1
i 1
i1 i2
i 1
i 1 i1 i
... ... ... ... ...
n n n n bm n
xim x x x x ... xim 2
xim y i
i 1 i 1
im i1 im i2
i 1 i 1 i 1
Poiché il vettore y- Xb* è ortogonale a ogni vettore dello spazio colonna di X, ovvero
Xb , y Xb * 0 b
che equivale a scrivere
Xb T y Xb * 0
da cui si ricava
bT XT y Xb * 0 .
Essendo bT diverso dal vettore nullo dovrà essere
XT y Xb * 0
o equivalentemente
XT Xb* XT y (sistema normale)
b0 = y b1 x1 b2 x 2 … bm x m .
da ciò si evince che il punto di coordinate x, y soddisfa l’equazione di regressione. Inoltre poiché
n n n
nb0 b1 xi1 ... bm xim y i
i 1 i 1 i 1
n
dove il primo membro equivale a y
i 1
*
i si ricava
n n
yi* yi
i 1 i 1
da cui
y
n n
*
i y i ei 0
i 1 i 1
ad indicare che i residui dei minimi quadrati hanno media nulla. Inoltre, per costruzione
XT y Xb 0 o equivalentemente
XT e 0
ovvero il vettore dei residui dei minimi quadrati e è ortogonale (o normale) allo spazio colonna di X
(da cui il nome di equazioni normali) e, per la relazione Xb y Xb * 0 , esso è ortogonale
T
1
La matrice X XT X XT , solitamente indicata con la lettera H e denominata matrice cappello1 è la
matrice di proiezione di y sullo spazio generato dalle colonne di X. Per essa e per la corrispondente
matrice M=I-H valgono le seguenti proprietà:
HX=X infatti X XT X
1
XT X X MX (I H ) X 0 infatti IX-HX=X-X=0
2.3 La stima dei parametri a partire dalle variabili scarto dalla media
1 0 0 1 1 1
0 1 1 1
1 1
A
n 1
0 1 1 1 1
1
Questa denominazione è mutuata dalla letteratura anglosassone in cui i valori teorici vengono indicati con ŷ . Il
simbolo ^ “hat” viene tradotto in italiano come “cappello” da cui il nome di “matrice cappello” perché è la matrice che
trasforma i valori osservati y nei valori teorici ŷ .
La matrice di centering A è simmetrica e idempotente A=A2
Vale in particolare:
A1 n 0
Ae e (dove e è il vettore dei residui OLS a media nulla)
Indicato con b il vettore delle stime OLS e con e il vettore dei residui vale y=Xb+e.
cioè b1 che è soluzione del sistema di equazioni normali originario è anche soluzione della (2.10).
~ ~
Inoltre poiché X T X nS Txx è la matrice delle devianze-codevianze tra gli m regressori e
~
XT ~
y ns è il vettore delle codevianze tra Y e gli m regressori si ha:
xy
ns xy nS Txx b 1 b 1 S xx1s xy
Per comprendere la relazione che intercorre tra i coefficienti di un modello di regressione multiplo e
quello delle stesse variabili in altrettanti modelli di regressione semplice si consideri il seguente
semplice esempio riferito a due soli regressori espressi in forma di scarti dalla media. Siano:
s12 s12 s y1
S xx e s yx
s12 s22 s y 2
da cui
1 s12 s12 s y1
b
s12 s22 s122 s12 s22 s y 2
s y1s22 s12s y 2 by1 by 2b21
s12 s22 s122 1 b21b12
b
s12s y1 s y 2 s12 by 2 by1b12
s1 s2 s12 1 b21b12
2 2 2
E’ quindi facile verificare come i coefficienti di regressione nel modello multiplo siano funzione dei
coefficienti di regressione delle medesime variabili in un modello semplice, ma tengano anche
conto dell’interdipendenza tra i regressori e della dipendenza della variabile dipendente anche da
tutti gli altri regressori inclusi nel modello. Per questa ragione i coefficienti di regressione in un
modello di regressione multiplo si dicono “coefficienti di regressione parziale”. Ciascuno di essi, di
cui il generico sarà bk, esprime la variazione media della variabile dipendente, per ogni variazione
positiva unitaria della corrispondente variabile indipendente, a parità di valori assunti rispetto agli
altri regressori nel modello. Essendo dotati di unità di misura i valori dei diversi coefficienti di
regressione non possono essere tra loro confrontati e quindi in nessun modo possono essere assunti
quali indicatori dell’importanza della corrispondente variabile indipendente nella spiegazione della
variabilità della Y.
I coefficienti di regressione del modello multiplo coincidono con quelli di altrettanti modelli
semplici qualora i regressori siano fra loro incorrelati o, in termini geometrici, qualora le colonne
della matrice X siano tra loro ortogonali.
dove Rxx è la matrice delle correlazioni tra gli m regressori e rxy è il vettore delle correlazioni tra Y
e gli m regressori.
1
Poiché R xx D xx1 2 S xx D xx1 2 e rxy D xx1 2 s xy
sy
1 1
bˆ D1xx2 S xx1 D1xx2 D xx1 2 s xy D1xx2 S xx1s xy b1
sy sy
Il generico coefficiente b̂ k , misura la variazione media della variabile Y standardizzata per una
variazione unitaria positiva della variabile Xk standardizzata, quando gli altri regressori restano
costanti. I coefficienti di regressione così determinati possono essere confrontati per stabilire quali
regressori hanno un effetto maggiore su Y.
La devianza totale di Y nel modello di regressione lineare multipla può essere scomposta come
segue:
dove
y
n
2
Dev(Y) = i y è la devianza totale di Y
i 1
y
n
2
DevReg(Y)= *
i y è la devianza di regressione di Y
i 1
y
n
2
DevDisp(Y) = i y i* è la devianza residua o di dispersione di Y.
i 1
i 1 i 1 i 1
Codev( X , Y ) 2
b12 Dev( X ) b1 Codev( X , Y ) poiché b12
Dev( X ) 2
Quindi
b12 Dev( X ) b1Codev( X , Y )
R
2
(2.13)
Dev(Y ) Dev(Y )
b1Codev( X , Y ) n 1 b1 s xy
R2 (2.14)
Dev(Y ) n 1 s yy
sy
Inoltre poiché b1 bˆ1 si ha:
sx
s y s xy s xy
R 2 bˆ1 bˆ1 bˆ1 rxy (2.15)
sx s y s y sx s y
Partendo dalla espressione (2.12) e osservando che in un modello di regressione lineare multiplo le
tre devianze sono definite come:
y e
n n
2
DevDisp(Y) = i y i* 2
i = eTe
i 1 i 1
Dev(Y)= y y ny
T 2
DevReg(Y)= b T XT X b ny 2
(La devianza di regressione è infatti
DevReg(Y) y T y ny 2 e T e y T y ny 2 y Xb y Xb
T
y T y ny 2 y T y y T Xb b T X T y b T X T Xb 2b T X T y b T X T Xb ny 2
2b T X T Xb e b T X T Xb ny 2 2b T X T Xb 2b T X T e b T X T Xb ny 2
bT XT X b ny 2
poiché 2b T X T e 0 per la proprietà di ortogonalità dei residui dei minimi quadrati rispetto allo
spazio colonna di X)
R2 1
eT e
b T X T X b ny 2
(2.16)
y T y ny 2 y T y ny 2
Se si ragiona su variabili scarto:
2 eT e
R 1 ~T ~
~ ~
b T XT X b b T X T ~
~
y e bT XT ~
~ ~ ~
y b T XT e b T XT ~
~T ~
y
(2.17)
y y ~ T~
y y ~ T~
y y ~ T~
y y y y
R 2 bˆ T R xx bˆ perché y T y 1
r T R 1R bˆ r T bˆ
xy xx xx xy
Così in tal caso, e solo in tal caso, l’R2 del modello multiplo si può esprimere come somma degli R2
di modelli semplici.
Modello I y j b0 b1 x j1 b2 x j 2 e j
Modello II y j b0 b y1 x j1 e j
Si vuole verificare che RI2 RII2 . Le devianze di regressione dei due modelli risultano:
sy
DevReg II b y1CodevY , X 1 ry1 CodevY , X 1
s1
Si ottiene quindi
r y2 ry1 r12
2
0
1 r122
g.d.l.
Dev(Y) n1
DevDisp(Y) n(m+1)
DevReg(Y) m
1) la varianza totale di Y
s 2Y = Dev(Y)/(n1)
2
Dall’ultima espressione si evince che la differenza fra i due indici è anche pari al quadrato del coefficiente di
correlazione semiparziale fra Y e X2 una volta eliminato l’effetto della variabile X1 su X2:
RI2 RII2
r
y2 ry1 r12
2
ry22|1
1 r 2
12
3) la varianza di regressione di Y
s 2regr = DevReg(Y)/m
3) V(b) = 2 (XTX)-1
V b V XT X
1
X Xβ ε V β X X X ε
XT y V XT X
1 T T 1 T
0 X X X V ε XX X X X X I XX X X X
T 1 T T 1 T 1 T 2 T 1 2 T 1
n
I termini sulla diagonale principale di V(b) determinano le varianze degli elementi di b, quelli fuori
dalla diagonale principale ne determinano le covarianze. In particolare si è soliti indicare
V b j 2 c jj dove c jj è il j-esimo elemento sulla diagonale principale di (XTX)-1. Una espressione
equivalente per V b j è data da
2
V b j
1
DevX j 1 R 2j 0
(2.19)
dove R 2j 0 è l’indice di determinazione lineare multiplo della regressione di Xj sugli altri regressori.
Il termine 1 1 R 2j 0 è noto come VIFj, dove la sigla VIF è l’acronimo dell’espressione inglese
Variance Inflation Factor (in italiano fattore di incremento della varianza).
5) Per gli stimatori dei minimi quadrati vale il Teorema di GaussMarkov, che con riferimento
alle stime dei parametri di un modello di regressione lineare si può enunciare come segue: lo
stimatore dei minimi quadrati b è il più efficiente nella classe degli stimatori lineari corretti di .
b * XT X 1
XT D y XT X
1
XT D Xβ ε β XT X
1
XT D ε
Si valuti la varianza di b * :
V b* V β XT X
1
XT D V ε X XT X 1
DT 0 2 XT X
1
2 DDT
Essa risulta dalla somma delle varianze dello stimatore dei minimi quadrati (si veda proprietà 3) e
della quantità 2 DD T .
Poiché DDT è una forma quadratica semidefinita positiva V b * V b dove l’uguaglianza vale
solo per b * b .
Poiché la funzione () minimizzata mediante il metodo dei minimi quadrati non dipende da 2,
non è possibile derivare nello stesso tempo anche lo stimatore di 2.
e T e ε T Mε
E tr Mεε T tr ME εε T 2 tr M I 2 trM
Quindi E eT e 2 n m 1
2
E( sreg ) = m2 + g(, X)
dove g(, X) 0.
In questo contesto risulta necessario avvalersi dell’ipotesi di normalità (4) formulata sui residui. Da
essa discende infatti la normalità distributiva dello stimatore dei minimi quadrati e la distribuzione
delle devianze di regressione e di dispersione secondo variabili aleatorie 2 con m e n-m-1 gradi di
libertà rispettivamente.
H0: 1 = 2 = … = m = 0
* la variabilità di Y spiegata dal modello è significativamente più elevata della variabilità residua;
* ad almeno uno degli m regressori corrisponde in popolazione un coefficiente di regressione
significativamente diverso da 0.
Se invece F F allora il test NON è significativo al livello , e H0 non viene rifiutata; in tal caso il
modello non è adeguato, tra Y e gli m regressori non vi è alcuna relazione di dipendenza lineare.
R2 / m
F= (2.21)
(1 R 2 ) / (n m 1)
H0: j = 0
bj β j
quindi z = N(0, 1 (2.22)
σ 2 c jj
Supponendo che H0 sia vera e stimando la varianza incognita con la varianza di dispersione si ha:
bj bj
t= t(n-m-1)
s e2 c jj s e c jj
Fissato un livello di significatività , se t > +t oppure t < t allora il test è significativo al
livello , e H0 va rifiutata; il contributo di Xj nel modello in cui vi sono gli altri regressori è
significativo.
Come emerge dalla (2.22) il ricorso alla statistica z o, qualora 2 sia stimata con la varianza di
dispersione, alla corrispondente statistica t, consente il controllo dell’ipotesi nulla più generale
H0: j = k
H0: j = 0
(detta test F parziale) che si distribuisce come una F con 1 e (n-m-1) gradi di libertà. (La ragione
per cui a denominatore si pone la DevDisp(Y) del modello che contiene il maggior numero di
regressori saranno chiarite nel seguito).
E’ facile verificare come questa statistica test F non sia altro che il quadrato della statistica test t
illustrata in precedenza. Il ricorso al test F parziale consente comunque il controllo di ipotesi di
indipendenza più complesse relative non solo ad un coefficiente di regressione ma ad insiemi di
coefficienti.
A partire dalla (2.22) e stimando 2 con la varianza di dispersione è possibile costruire un intervallo
di confidenza per j a un livello di confidenza dell’ 1-. Gli estremi di tale intervallo sono:
b j t 2,n.m.1 se2 c jj
2.10 Diagnostica
* stabilire se le ipotesi formulate sul termine d’errore del modello di regressione sono valide
rispetto al fenomeno analizzato;
cioè i residui stimati hanno varianze diverse e sono tra loro correlati.
In particolare la varianza dell’i-esimo residuo è
x x
n 2
i
i 1
una espressione che mostra come hii sia una misura della distanza dell’ascissa dell’unità i-esima dal
baricentro della X.
Inoltre dalla (2.23) si deduce che unità con hii elevato avranno valori piccoli per V(ei).
All’avvicinarsi di hii a 1 la varianza dei residui tenderà a 0. Per tali osservazioni, indipendentemente
dal valore che l’unità assume rispetto alla Y si è certi di avere un residuo nullo. Le osservazioni cui
corrisponde un hii 2(m+1)/n vengono riconosciuti come punti di leverage.
Poiché hii non coinvolge la Y non è detto che una unità a cui corrisponde un valore hii elevato sia un
dato anomalo rispetto al modello di regressione. D’altra parte, se l’obiettivo è l’identificazione di
dati anomali l’esame dei soli residui non è sufficiente.
Per tenere conto congiuntamente dei residui e della loro variabilità è opportuno riscalare i residui
dividendoli per una stima del loro scarto quadratico medio. Si ottengono così i residui studentizzati
internamente:
ei
ri = i = 1, …, n
s e ( 1 hii )
Gli ri sono detti residui studentizzati internamente perché è stimato con s e , la radice della
varianza di dispersione calcolata su tutte le unità statistiche.
La media aritmetica dei residui studentizzati è nulla e la loro varianza è 1, ma sono ancora
moderatamente correlati. Una eventuale osservazione anomala influenzerà inevitabilmente la
varianza di dispersione e quindi anche i residui studentizzati internamente. Per ovviare a ciò alcuni
autori suggeriscono di stimare la varianza del residuo i-esimo omettendo l’i-esima unità statistica
dal calcolo della varianza di dispersione. Si ottengono cosi i residui studentizzati esternamente:
ei
ti = i = 1, …, n
s e ( i ) ( 1 hii )
dove s e (i ) indica che, nel calcolo della varianza di dispersione, l’i-esima osservazione è stata
esclusa. Le osservazioni per cui |ti| 2 rappresentano potenziali outlier.
Osservazioni influenti
Se un valore di yi è particolarmente inusuale rispetto a tutti gli altri allora la stima del modello di
regressione può essere notevolmente influenzata da tale osservazione. Per valutare la presenza di
valori influenti si elimina una osservazione alla volta e si stima nuovamente il modello. Quelle
osservazioni che producono variazioni rilevanti sono dette influenti.
Si indichi con b(i) la stima OLS di ottenuta omettendo l’i-esima unità. Una possibile misura di
influenza è rappresentata dalla distanza di Cook secondo la quale la distanza fra b(i) e b è data da
Di =
b ( i)
T
b XT X b( i) b i = 1, …, n
m 1 se2
Essendo Xb(i) – Xb= y*(i) y* la distanza di Cook può essere anche formulata come:
Di =
y *
(i ) y* y
T *
(i ) y*
m 1 s 2
e
è quindi composta da una componente che misura l’adattamento (in quanto funzione dei residui) e
da una componente che misura la distanza delle X dal baricentro (essendo una misura del livello di
leverage dell’i-esima osservazione). Si distribuisce come una F con m+1 e n-m-1 gradi di libertà.
Le unità per cui Di > 1 sono potenziali osservazioni influenti.
2.11 La multicollinearità
Esempi (m = 2):
3) regressori correlati
50 49,5
~ ~ 1
XT X =
0,99
1
X~ X~
T 1
=
50
~ ~
det X T X = 0,02
0,99 49,5
Tra gli m regressori vi è multicollinearità se esiste una combinazione lineare non banale delle
colonne di X la cui norma è un numero “piccolo”:
c1X1 + c2X2 + …+ cmXm = d con d < q c dove c = c12 c22 ... cm2 .
Sulla base della correlazione esistente fra i regressori è possibile definire diverse misure di
multicollinearità.
1) L’indice di determinazione lineare Rk20 del modello di regressione in cui Xk dipende dagli altri
m1 regressori.
3) Tolleranza
Tk = 1/VIFk = 1 Rk20
La correlazione tuttavia è una condizione sufficiente ma non necessaria alla multicollinearità. Per
strumenti di diagnosi della multicollinearità più completi si rimanda ad altri appunti.
Tra le ipotesi classiche formulate per il modello di regressione lineare multipla vi è quella di
sfericità dei termini d’errore:
Esempi.
1) Con dati regionali di tipo cross-section, i valori di Y relativi a regioni geograficamente vicine
sono correlati condizionatamente ai regressori; in tal caso si ha:
2) Con dati microeconomici sulle famiglie, la variabilità di Y intorno alla media condizionata può
cambiare al variare dei regressori; in tal caso si ha:
Var(i) Var(j) i j.
La matrice delle varianze e delle covarianze dei termini d’errore non è più diagonale, e gli elementi
della diagonale possono essere diversi:
y = X + (2.24)
E(bOLS)= ;
V(bOLS) = 2(XTX)-1XT V X(XTX)-1
bOLS è ancora uno stimatore corretto di ma non è più lo stimatore a minima varianza. Poiché le
procedure di stima intervallare e controllo di ipotesi basate sullo stimatore dei minimi quadrati
ordinari bOLS sono derivate in ipotesi di omoschedasticità e indipendenza quando queste condizioni
vengono a cadere esse risultano inadeguate.
Come conseguenza del teorema spettrale, poiché V è una matrice non singolare, simmetrica e
definita positiva, esiste una matrice K non singolare nn tale che KTK = KK = V V-1 = K-1K-1
Z = F + (2.27)
Lo stimatore corretto e a minima varianza di è quello che rende minima la devianza di dispersione
del modello (2.27):
bGLS= (FTF)-1FTZ = (XT K-1 T K-1X)-1XT K-1 T K-1y = (XT V-1X)-1XT V-1y
La scelta dei regressori da includere nel modello rappresenta una fase cruciale nell’analisi della
regressione multipla.
In fase di costruzione del modello, si possono commettere due tipi di errori (errori di specificazione
del modello):
Xp
X
X m p
Questa partizione nella matrice dei regressori genera una analoga partizione nei coefficienti di
regressione e nel vettore delle stime b dei minimi quadrati:
βp bp
β b
β m p b m p
Si ipotizzi poi di rilevare soltanto p di tali m regressori e di avere omesso erroneamente i restanti
k=m-p. Si definisce così un modello ridotto (p < m regressori):
y = Xpp + (2.29)
Tuttavia:
Pertanto bp* è uno stimatore di p distorto a meno che non sia XpTXk = 0 e/o k = 0. La distorsione è
una combinazione lineare delle variabili escluse e dei coefficienti veri.
Inoltre
E DevDisp n p 1 2
Infatti, se il modello stimato è
y = Xpbp + e
sarà
e y X p b p y X p XTp X p 1
XTp y
I X p XTp X p
1
XTp y I H p y M p y
La devianza di dispersione è
DevDisp e T e y T M p y
poiché Mp è idempotente.
Ma y X p β p X k β k ε e quindi
DevDisp X p β p X k β k ε M p X p β p X k β k ε
T
β Tp X Tp M p X k β k ε M p X p β p X k β k ε
T
β Tk X Tk M p X k β k 2β Tk X Tk M p ε ε T Μ p ε
E DevDisp β Tk X Tk M p X k β k 0 2 n p 1
Quindi
DevDisp β k X k M p X k β k
T T
E 2 2
n p 1 n p 1
1 1
Var(bj*) = 2 nel modello (2.29)
dev(X j ) 1 R 2j0*
R 2j 0 R 2j 0* 1 R 2j 0 1 R 2j 0 *
1 1
Var(bj) Var(bj*)
1 R j0
2
1 R 2j 0*
cioè le stime dei parametri p ottenute col modello (2.28) sono più variabili di quelle ottenute col
modello (2.29).
Pertanto R2 non è un indicatore adeguato per confrontare modelli con un diverso numero di
regressori. Nel caso di indipendenza lineare di Y dagli m regressori (cioè quando vale H0: 1 = 2 =
… = m = 0) sia la varianza di regressione di Y che quella totale sono stime corrette di 2.
DevReg(Y)/m
E 1
DevTot(Y)/(n 1 )
n 1 DevReg(Y)
1
m DevTot(Y)
E
m
E(R2)
n 1
mentre ci si aspetterebbe che E(R2) fosse uguale a 0. Si può allora correggere l’R2
m
R2c = R2
n 1
Tuttavia nel caso di perfetta dipendenza lineare di Y dagli m regressori si avrà ora:
m n m 1
R2c = 1 = <1
n 1 n 1
che dovrà essere nuovamente corretto per far sì che assuma valori nell’intervallo [0,1]:
n 1 m n 1
R2cc = R2c = R2
n m 1 n 1 n m 1
s e2
Sviluppando il prodotto e semplificando si ha R2cc = 1 .
sY2
Questo indicatore non ha, diversamente da R2, un andamento monotono crescente all’aumentare del
numero di regressori e quindi può utilmente essere impiegato per il confronto di modelli che
contengono un numero diverso di regressori.
Con questi criteri viene esaminato un numero ridotto di sottoinsiemi di possibili variabili
esplicative, in base ad un procedimento di scelta sequenziale in cui i singoli regressori sono
progressivamente aggiunti o eliminati dal modello.
1) Forward selection.
2) Backward elimination.
3) Stepwise.
Forward selection
Punto di partenza: Y = 0 +
Passo 1.
Viene scelto quel regressore che, qualora venga inserito nel modello specificato inizialmente,
determina il più elevato aumento di R2, ovvero la più elevata diminuzione di DevDisp(Y); sarà il
regressore con la più alta correlazione semplice con Y. Poniamo che sia X1.
X1 verrà inserito nel modello specificato inizialmente solo se il suo contributo originale alla
spiegazione della variabilità di Y è significativo; ovvero se l’ipotesi H0: 1 = 0 viene rifiutata
mediante il test
b1
t= t(n-2) (2.30)
n
(y
i 1
i y i* ) 2
(n 2 )dev(X 1 )
Se il test è significativo e l’ipotesi viene rifiutata, allora X1 viene inserito nel modello:
Y = 0 + 1X1 +
Y = 0 + 1X1 + 2X2 +
In generale:
dato un modello con i1 regressori, l’i-esimo regressore candidato ad entrare nel modello verrà
inserito se risulta significativo il test t per il controllo dell’ipotesi H0: i = 0 nel modello di
regressione multipla.
La procedura si arresta quando per la prima volta si ottiene un test NON significativo, oppure
quando tutte le variabili esplicative sono state inserite nel modello. Una volta inserita nel modello,
una variabile vi rimane per sempre anche se, in seguito all’ingresso di ulteriori regressori il suo
coefficiente risulta non significativamente diverso da 0.
Il metodo forward non è rigoroso dal punto di vista metodologico perché i modelli che vengono
costruiti ai vari passi risentono dell’errore di errata specificazione in termini di esclusione di
regressori rilevanti, ma presenta il vantaggio di consentire la selezione di regressori in quelle
situazioni in cui il numero delle variabili osservate è maggiore del numero delle unità e le stime dei
minimi quadrati del modello completo non esistono.
Backward elimination
Punto di partenza:
Y = 0 + 1X1 + 2X2 + … + mXm +
Passo 1.
Viene scelto quel regressore che, qualora venga eliminato dal modello specificato inizialmente,
determina la più piccola diminuzione di R2, ovvero il più piccolo aumento di DevDisp(Y). Poniamo
che sia X1.
X1 verrà eliminato dal modello specificato inizialmente solo se il suo contributo originale alla
spiegazione della variabilità di Y è NON significativo; ovvero se il test t per saggiare H0: 1 = 0 nel
modello completo è non significativo per un prefissato livello di significatività out.
Y = 0 + 2X2 + … + mXm +
e si ripete il passo 1.
In generale: dato un modello con m–i regressori, il successivo regressore candidato ad uscire dal
modello verrà eliminato se il suo coefficiente non risulta significativamente diverso da 0.
La procedura si arresta quando per la prima volta si ottiene un test SIGNIFICATIVO, oppure
quando tutte le variabili esplicative sono state eliminate dal modello.
Una volta esclusa dal modello , una variabile non vi può più rientrare. Per rendere più dinamico il
processo di ingresso e di uscita dei regressori dal modello è stato proposto il metodo stepwise
convenzionale.
Stepwise
Y = 0 + 1X1 + 2X2 +
Prima del terzo passo forward viene realizzato un passo backward rispetto alla variabile X1 inserita
nel modello al passo 1, con cui si controlla mediante il test se l’eliminazione di X1 dal modello
contenente X2 induce un aumento non significativo della devianza di dispersione.
In generale, dopo ogni inserimento nel modello del regressore che induce la più elevata
diminuzione significativa della devianza di dispersione (al livello di significatività in), tutti i
regressori inclusi nel modello ai passi precedenti vengono considerati, uno alla volta, come
candidati alla rimozione.
La procedura si arresta quando nessun regressore escluso può essere inserito (in base al valore di
in) e nessun regressore incluso può essere eliminato (in base al valore di out).
Con questo criterio la decisione di includere un regressore non è irreversibile. Una variabile già
inclusa può essere rimossa in seguito all’inserimento di altri regressori che rendono non più
significativo il suo contributo originale alla spiegazione della Y.
1) Se si sceglie in>out, un regressore inserito nel modello in base al valore di in verrà
probabilmente eliminato in seguito.
2) Se si sceglie in<out, un regressore inserito nel modello in base al valore di in probabilmente
non verrà più eliminato.