Sei sulla pagina 1di 18

Il modello di regressione lineare multipla

Il modello di regressione lineare multipla

Introduzione

E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno dinteresse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa molto pi semplice utilizzando lalgebra delle matrici. Il modello di regressione multipla genera per nuovi problemi:
1 2 3

scelta delle variabili, multicollinearit, test multipli.

Il modello di regressione lineare multipla

Specicazione del modello (1)


Siano: Y = (Y1 , Y2 , . . . , Yn ) il vettore delle v.c. dipendenti, le cui realizzazioni campionarie saranno contenute nel vettore y = (y1 , y2 , . . . , yn ) ; X la matrice di dimensione (n (p + 1)), contenente le osservazioni sulle variabili esplicative (regressori) e secondo la notazione usuale xij indica il valore assunto dalla variabile Xj , con j = 1, 2, . . . , p, relativamente all i-esima unit statistica, i = 1, 2, . . . , n; = ( 1 , 2 , . . . , n ) il vettore delle v.c. i le cui realizzazioni (scarti) sono contenute nel vettore e = (e1 , e2 , . . . , en ) ; = (0 , 1 , . . . , p ) il vettore dei (p + 1) parametri da stimare.
Il modello di regressione lineare multipla

Specicazione del modello (2)


Pertanto, avendo posto: Y=
Y1 Y2 ... Yi ... Yn 1 x11 1 x21 ... ... 1 xi1 ... ... 1 xn1 ... ... ... ... ... x1p x2p ... xip ... xnp

X =

0 1 ... i ... p

2 ... = i ...
n

utilizzando la notazione matriciale, il modello di regressione multipla dato da Y = X + , ed esplicitando tale relazione per le singole unit statistiche equivale a Yi = 0 + 1 xi1 + 2 xi2 + . . . + p xip + i , i = 1, 2, . . . , n.
Il modello di regressione lineare multipla

(1)

Specicazione del modello (3)


Sul campione osservato la relazione (1) diventa y = X + e. e, a livello delle singole unit statistiche, si specica come segue yi = 0 + 1 xi1 + 2 xi2 + . . . + p xip + ei , i = 1, 2, . . . , n. Il vettore e contiene le realizzazioni del vettore di v.c. . Tali realizzazioni sono determinabili se conosciamo i parametri , perch: e = y X e, ovviamente, si esplicitano nel modo seguente: ei = yi (0 +1 xi1 +2 xi2 +. . .+p xip ) = yi yi (), i = 1, 2, . . . , n.
Il modello di regressione lineare multipla

Le ipotesi classiche
Le ipotesi del modello di regressione lineare multipla sono
1 2 3 4

Y = X + ; E( ) = 0; Var( ) = E( ) = 2 In ;

X una matrice (non stocastica) tale che r(X) = p + 1. Dopo aver ottenuto le stime j per i parametri j , il modello diventa yi = 0 + 1 xi1 + 2 xi2 + . . . + p xip + ei = yi + ei . I residui ei sono dati dalla dierenza tra i valori osservati yi e i valori stimati yi calcolati secondo il modello di regressione.

Il modello di regressione lineare multipla

Stima dei parametri


Per stimare i parametri del modello di regressione multipla, senza fare ulteriori assunzioni circa la forma distributiva degli errori, si utilizza il metodo dei minimi quadrati (LS). Tale metodo consente di trovare il vettore che minimizza la somma degli scarti al quadrato, ovvero la funzione G() data da G() = e e = (y X) (y X). Sviluppando si ha che G() = y y + (X X) 2 X y ed uguagliando a 0 la derivata prima di G() rispetto a si ottiene 0 = G () = 2X y + 2(X X) = = (X X)1 X y.

Il modello di regressione lineare multipla

Liperpiano di regressione
Geometricamente lequazione yi = 0 + 1 xi1 + 2 xi2 + . . . + p xip , i = 1, 2, . . . , n, denisce un iperpiano nello spazio a p + 1 dimensioni. Per avere unidea del procedimento di stima dei minimi quadrati, il piano rappresentato in gura , tra gli inniti piani, quello che rende minima la somma dei quadrati delle lunghezze dei segmenti congiungenti i punti osservati al piano stesso.

Il modello di regressione lineare multipla

Propriet degli stimatori LS e ML

Teorema di Gauss-Markov Sotto le ipotesi del modello di regressione lineare, gli stimatori LS B per i parametri , sono lineari, non distorti,ed i pi ecienti nella classe degli stimatori lineari e non distorti (BLUE). Per applicare il metodo ML, occorre aggiungere lipotesi che il vettore N (0, 2 I). Si pu dimostrare che gli stimatori ML coincidono con quelli LS prima ricavati, che sono lineari, non distorti, sucienti ed ecienti nella classe di tutti gli stimatori non distorti.

Il modello di regressione lineare multipla

Stima del parametro 2


Consideriamo innanzitutto lidentit
n n n

(yi y )2 =
i=1 i=1

(yi yi )2 +
i=1

(i y )2 , y

che rappresenta la scomposizione della devianza totale in devianza residua e devianza spiegata (o della regressione), ovvero SQT = SQE + SQR. La stima della varianza delle v.c. errori data da s2 = ee = np1
n i=1 (yi

yi )2 . np1

Il modello di regressione lineare multipla

Test su un singolo parametro


Per ottenere la regione critica di un test o un intervallo di condenza per i parametri del modello di regressione, necessario ipotizzare, per n nito, che le v.c. errori siano normali e indipendenti, utilizzando quindi gli stimatori ML. Per vericare H0 : i = 0 contro lalternativa H1 : i = 0 basta calcolare il rapporto i 0 , j = 0, 1, 2, . . . , p. T = s v j+1,j+1 Infatti la stima della varianza dello stimatore Bj per il parametro j data da es2 (Bj ) = s2 v j+1,j+1 dove v j+1,j+1 lelemento di posto (j + 1, j + 1) sulla diagonale principale della matrice (X X). Tale rapporto, sotto H0 , si distribuisce come una v.c. t di Student con n p 1 gradi di libert.
Il modello di regressione lineare multipla

ANOVA per un modello di regressione lineare multipla


Consiste in un test globale su tutti i parametri del modello (eccetto 0 ) e in particolare nel confronto tra la devianza del modello saturo Y = X + e quella del modello vincolato Y = 0 1n + . Le ipotesi saranno: H0 : 1 = 2 = = p = 0 vs. H1 : almeno un j = 0 Se indichiamo con Q1 la devianza della regressione Q2 la devianza dei residui siamo interessati a valutare la statistica F = Q1 /p Q2 /n p 1

che sotto H0 ha distribuzione F (p, n p 1).


Il modello di regressione lineare multipla

Confronto tra modelli annidati


Per confrontare il modello vincolato (ridotto) con in modello non vincolato (saturo) si utilizza un test di tipo ANOVA, in cui il valore della statistica F = (SQEv SQEnv )/(dfv dfnv ) F,dfv dfnv ,dfnv . SQEnv /(dfnv )

Sia F1 il modello minimale con la sola intercetta (p = 1). Sia Fp il modello corrente con p parametri e sia Fp0 un modello ridotto con 1 < p0 < p. la perdita di bont di adattamento del modello Fp0 rispetto a Fp pu essere valutata attraverso la statistica: F = (SQEp0 SQEp )/(p p0 ) Fpp0 ,np SQEp0 /(n p0 )

Il modello di regressione lineare multipla

Bont del modello


Ricordando che SQT = SQE + SQR, il modello si adatter tanto pi ai dati quanto pi modesta sar la variabilit dellerrore rispetto alla variabilit totale. Si introduce pertanto lindice di determinazione multipla R2 dato da R2 =
n y i=1 (i n i=1 (yi

y )2 =1 y )2

n 2 i=1 (yi yi ) . n 2 i=1 (yi y )

Lindice R2 varia in [0, 1] e pi si avvicina a 1 migliore ladattamento del modello ai dati. Tuttavia opportuno sottolineare che il valore R2 aumenta con laumentare del numero di regressori, per cui conveniente considerare la versione corretta dellindice R2 , data da R2 = 1
n 2 i=1 (yi yi ) /(n p n 2 i=1 (yi y ) /(n

1) . 1)

Il modello di regressione lineare multipla

Scelta delle variabili esplicative


Oltre allindice R2 , vi lindice proposto da Mallows (1973) Cp =
2 (1 Rp )(n T ) [n 2(p + 1)] 2 1 RT

Quando le variabili esplicative sono molte si ricorre a procedure di tipo stepwise, nelle varianti per inclusione e per eliminazione. In particolare, partendo da un modello parziale si procede per passi e di volta in volta si aggiunge una variabile che contribuisce in maniera signicativa al miglioramento del modello o si elimina una variabile il cui coeciente non signicativo. Altro approccio il best-subset, in cui si valutano tutti i possibili modelli di regressione ricavabili da un certo insieme di variabili esplicative e si individuano i sottinsiemi migliori secondo uno dei criteri sopra riportati (R2 e Cp ).
Il modello di regressione lineare multipla

Multicollinearit
Si verica quando il rango della matrice X non massimo e si traduce nella presenza di unelevata correlazione tra le variabili esplicative. Le variabili collineari non forniscono informazioni aggiuntive e risulta dicile individuare leetto che ciascuna di esse ha sulla variabile risposta. Una misura della multicollinearit data dallindice V IF (Variance Inationary Factor). In particolare, per la j-esima variabile si ha V IFj = 1 , 2 1 Rj

2 dove Rj il coeciente di determinazione che caratterizza il modello in cui la variabile dipendente Xj e tutte le altre variabili esplicative sono incluse nel modello.

Il modello di regressione lineare multipla

Regressione quadratica e polinomiale


Supponiamo ora che tra Y e X non vi sia una relazione di tipo lineare. Tra le relazioni non lineari pi comuni vi quella quadratica. Il modello di regressione quadratica simile ad un modello di regressione multipla con due variabili esplicative in cui la seconda variabile esplicativa il quadrato della prima. In particolare: Yi = 0 + 1 xi1 + 2 x2 + i , i = 1, 2, . . . , n. i2 dove 0 lintercetta, 1 il coeciente che esprime leetto lineare su Y , 2 il coeciente che esprime leetto quadratico su Y ,
i

lerrore casuale.
Il modello di regressione lineare multipla

Tale modello generalizzabile ad un modello polinomiale.

Variabili dummy
Nel caso di variabili esplicative discrete opportuno ricorrere ad un modello che includa variabili indicatrici (dummy) per poter valutare leetto di un fenomeno che presenta modalit qualitative su una risposta. Sia E un evento che si suppone abbia un eetto nel modicare Yi . Sia Di = 1 se per lunit i-esima E presente 0 altrimenti

la variabile indicatrice (dummy). Se consideriamo il modello Yi = 0 + 1 xi1 + 2 Di + i , i = 1, 2, . . . , n si avr che Yi = 0 + 1 xi1 + i , per le unit dove E assente (0 + 2 ) + 1 xi1 + i , per le unit dove E presente
Il modello di regressione lineare multipla