Back Step PDF

Multiple
regression
Modello di regressione lineare multipla

 y1   0  1 x11  x1k   1 
y    1 x  x   
k
Y  β  X
2 1 21 2  ε   2
             
       
y
 n 
 k 1 x n1  x nk   n 
Ipotesi: Y  Xβ  ε E(ε )  0 V ( ε )   2I ε ~ MN(0; 2 I)

1 0  0  2 0  0 
  
2 0 1  0  0  2 0  homoschedasticità
V ε    I  
2  
         
   
0 0  1  0 0   
2
New hypothesis: X è una matrice a rango pieno (tutte le colonne sono

linearmente indipendenti) questa assunzione è necessaria per ottenere la
stima di β. 1
Matrice trasposta
When row or columns are

linearly dependent
Matrice inversa
2
Multiple
regression
Multiple linear regression
La stima dei minimi quadrati di β, esiste se X X  esiste, ed è: βˆ  (XX)1 Xy

1
Ricorda: se X non ha rango pieno X è singolare (il determonate di X è =0)

quindi è impossibile calcolare X X 1
Propietà degli stimatori ottenuti con il metodo dei minimi quadrati:

βˆ  (XX)1 Xy è uno stimatore corretto di β
La matrice di varianza/covarianza di β̂ è V βˆ    2 XX 1
Tra tutti gli stimatori corretti e lineari di β, lo stimatore ottenuto con i minimi
quadrati ha minima varianza (Gauss-Markov Theorem)
3
regression
Modello di regressione multipla
Uno stimatore corretto della varianza dell’errore  2 è:

n
1
ˆ 
2
 yi  yˆi 2
n  k  1 i 1
dove k è il numero di variabili esplicative nel modello.

Una della matrice di Var/Cov degli stimatori è:
V βˆ   ̂ 2 XX 1
il j-esimo element della diagonal è la varianza di ̂ j , ossia Var (ˆ j )
L’indice di bontà di adattamento è:

SST = SSM+SSR  R2 = SSM/SST = 1 – SSR/SST
4
regression
Coefficiente di determinazione aggiustato

Notiamo che aumentando il numero di variabili esplicative nel modello il valore di R2
aumenta o rimane costante, ma mai diminuisce.
Dunque concludiamo: è sempre meglio scegliere un modello con più variabili
esplicative!
R2 soffre di un serio inconvegnente quando viene utilizzato per selezionare il modello:
l’inclusione di nuove variabili esplicative (anche irrilevanti) produce un aumento del
valore di R2 .
Per ovviare a questo utilizziamo il coefficiente di determinazione aggiustato:
SSR n  k  1
Ra2  1 
SST n  1
SSR
Se SSR decresce, R 1 
2
aumenta,
SST
ma se K aumenta, SSR n  k  1 potrebbe aumentare e Ra diminuire!
2
Il coeff. di determ. aggiustato è un compromesso tra la bontà di adattamento ai dati e la

complessità del modello (relative al numero di variabili esplicative)
5
regression
Selezione del modello – ricerca completa
Si potrebbero considerare tutti i possibili sottoinsiemi ottenibili dall’insieme

delle variabili esplicative X e identificare il miglior sottoinsieme rispetto a
qualche criterio (per esempio, il valore di R2 aggiustato)
In molti casi la ricerca completa non è affrontabile.

Per esempio, quando ci sono 10 variabili esplicative si dovrebbero stimare e
comparare 210-1=1023 possibili modelli di regressione! Con 30 variabili più di
un miliardo di modelli.
Con 4 variabili esplicative si devono confrontare 15 modelli:

(Y, X1) (Y, X2) (Y, X3) (Y, X4)
(Y, X1 X2) (Y, X1 X3) (Y, X1 X4) (Y, X2 X3) (Y, X2 X4) (Y, X3 X4)
(Y X1 X2 X3) (Y X1 X2 X4) (Y X2 X3 X4) (Y X1 X3 X4)
(Y X1 X2 X3 X4)
6
regression
Selezione del Modello – procedura di ricerca automatica
Backward selection
• Selezionare un livello di significatività a per rimanere nel modello (e.g.

alpha1=0.20, in genere 0.05 è troppo basso, permettendo la rimozione dal
modello di troppe variabili
• La procedura inizia con il modello che contiene tutte le potenziali variabili
X (modello completo) e identifica la variabile con il valore più grande di p-
value:
• se p-value >alpha1, allora la variabile X viene eliminata.
• Il modello con k-1 variabili viene stimato e viene identificata la successiva
variabile da eliminare.
• La procedura continua fino a quando non ci sono altre X che possono

essere eliminate.
7
regression
Forward selection
• Seleziona a livello di significatività per entrare nel modello (per esempio

alpha2=0.20, in genere 0.05 è troppo basso per far entrare le variabili nel
modello)
• Si stimano tutti I modelli di regression semplice (con una variabile
esplicativa) e si identifica quella variabile a cui corrisponde il p-value più
basso:
• se p-value <alpha2, la variabile entra a far parte del modello.
• Si stimano tutti i modelli con due variabili esplicative di cui una è la
variabile inclusa nel precedente passo
• La procedura continua fino a che nessuna ulteriore variabile esplicativa
presenta un p-value <alpha.
8
regression

Forward stepwise Regression
La procedura stima un modello lineare semplice per ognuna delle K potenziali
variabili esplicative. Selezionare i valori di alpha1 e alpha2 (con alpha1<alpha2)
1) la variabile X* con il più piccolo p-value è la prima candidata a entrare nel
modello. Se p-value <apha1, allora X* viene aggiunta.
2) La procedura stima tutti i modelli di regressione con 2 variabili, dove X* è
sempre la prima variabile. Per ogni modello si considera il p-value della
seconda variabile. La variabile X** con il più piccolo p-value è la candidata e se
il p-value <alpha1, allora la X** viene aggiunta al modello.
3) La routine esamina se ogni altra variabile X già nel modello potrebbe essere
eliminata (se p-value>alpha2)
…..
L’algoritmo stepwise permette di avere una variabile X all’interno del modello
all’inizio della procedura e poi in seguito con l’aggiunta di alter variabili di
poterla eliminare, se questa non risulta essere più significativa.
9
regression ESEMPIO di AUTOMATIC SELECTION
Contains data 1978 Automobile Data

obs: 74 13 Apr 2005 17:45
vars: 12
size: 3,478
-------------------------------------------------------------------------------
variable name variable label
-------------------------------------------------------------------------------
make Make and Model
price Price
mpg Mileage (mpg)
rep78 Repair Record 1978
headroom Headroom (in.)
trunk Trunk space (cu. ft.)
weight Weight (lbs.)
length Length (in.)
turn Turn Circle (ft.)
displacement Displacement (cu. in.)
gear_ratio Gear Ratio
foreign origin Car type
-------------------------------------------------------------------------------
10
regression Applicazione del backward selection
. Stepwise backward, pr(.05): reg price mpg rep78 headroom trunk weight length turn displacement gear_ratio
begin with full model
p = 0.5013 >= 0.0500 removing trunk
p = 0.1415 >= 0.0500 removing mpg
p = 0.1550 >= 0.0500 removing gear_ratio
p = 0.1915 >= 0.0500 removing displacement
p = 0.1699 >= 0.0500 removing headroom
p = 0.1611 >= 0.0500 removing turn
Source | SS df MS Number of obs = 69

-------------+------------------------------ F( 3, 65) = 16.16
Model | 246375736 3 82125245.5 Prob > F = 0.0000
Residual | 330421222 65 5083403.42 R-squared = 0.4271
-------------+------------------------------ Adj R-squared = 0.4007
Total | 576796959 68 8482308.22 Root MSE = 2254.6
------------------------------------------------------------------------------
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
length | -103.6016 37.78457 -2.74 0.008 -179.0626 -28.14063
rep78 | 844.9462 302.0363 2.80 0.007 241.738 1448.154
weight | 5.252098 1.103427 4.76 0.000 3.048401 7.455794
_cons | 6850.952 4312.738 1.59 0.117 -1762.181 15464.08
------------------------------------------------------------------------------
11
regression Applicazione del Forward selection
. Stepwise forward, pe(.05): reg price mpg rep78 headroom trunk weight length turn displacement gear_ratio
begin with empty model
p = 0.0000 < 0.0500 adding displacement
p = 0.0115 < 0.0500 adding rep78
Source | SS df MS Number of obs = 69

-------------+------------------------------ F( 2, 66) = 18.98
Model | 210642836 2 105321418 Prob > F = 0.0000
Residual | 366154123 66 5547789.74 R-squared = 0.3652
-------------+------------------------------ Adj R-squared = 0.3460
Total | 576796959 68 8482308.22 Root MSE = 2355.4
------------------------------------------------------------------------------
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
displacement | 20.7349 3.365226 6.16 0.000 14.01601 27.45379
rep78 | 823.0034 316.6516 2.60 0.012 190.788 1455.219
_cons | -762.4499 1509.791 -0.51 0.615 -3776.845 2251.945
------------------------------------------------------------------------------
Da notare che le due procedure possono portare alla selezione di modelli diversi.
12
regression
Multicollinearità
Talvolta alcune e tutte le variabili X sono altamente correlate e questo comporta
che è difficile dire quali di loro davvero influisce sulla variabile dipendente Y.
Questo problema è noto come multicollinearità.
I sintomi della multicollinearità sono:
• alta correlazionetra due o più varaibili esplicative
• Valori alti degli standard errors dei coefficient di regression che portano a valori
bassi della statistica t e quindi ad accettare più facilmente l’ipotesi nulla.
• alto valore di R2 anche in presenza di molte varabili non significative
13
regression
Multicollinearità
Se lo standard error di ̂ j aumenta, il t-test, t obs  ˆ j st.err (ˆ j )
diminuisce, il p-value aumenta e cresce la probabilità dell’errore del II type
(Accettare l’ipotesi nulla quando questa è falsa). Perciò molte variabili non vengono
inclusw nel modello.
Conseguenza della multicollinearità:
Diversi modelli di regression lineare raggiungono lo stesso livello di adattamento ai
dati. Fitted values
X1 X2 Y (a) (b)
2 6 23 23 23
8 9 83 83 83
6 8 63 63 63
10 10 103 103 103
a) Y=-87+X1+18X2
b) Y=-7+9X1+2X2
14
X2=5+0.5X1
regression
VIF
il Variance Inflation Factor (VIF) quantifica il livello di multicollinearità nella
regressione dei minimi quadrati.
Date K diverse variabili esplicative,
un indice di multicollinearità tra la variabile Xj e tutte le alter variabili esplicative è:
1
VIFj 
1  R 2j
dove R 2j è il coefficient di determinazione per il modello:
X j   0  1 X1     j 1 X j 1   j 1 X j 1    k X k  
se VIF>5 allora la multicollinearità è elevata (corresponde a un R 2j  0.80 )
La Tollerance è 1/VIF
15
regression Esempio di misurazione della multicollinearità
Considering CARS dataset

. estat vif
Variable | VIF 1/VIF

-------------+----------------------
weight | 21.15 0.047278
length | 14.35 0.069674
displacement | 10.07 0.099344
turn | 4.89 0.204495
gear_ratio | 3.46 0.289314
mpg | 3.09 0.323292
trunk | 2.90 0.344269
headroom | 1.81 0.551859
rep78 | 1.46 0.685881
-------------+----------------------
Mean VIF | 7.02
16
regression
Considering CARS dataset (SAS output)
Parameter Estimates
Parameter Standard Variance

Variable Etichetta DF Estimate Error Valore t Pr > |t| Tolerance Inflation 95% Confidence Limits
Intercept Intercept 1 11063 7305.30297 1.51 0.1353 . 0 -3554.80871 25681
mpg Mileage (mpg) 1 -114.74282 79.17245 -1.45 0.1526 0.32329 3.09318 -273.16653 43.68089
Repair Record
rep78 1 710.87920 322.11717 2.21 0.0312 0.68588 1.45798 66.32422 1355.43417
1978
headroom Headroom (in.) 1 -725.63614 416.65992 -1.74 0.0868 0.55186 1.81206 -1559.37072 108.09844
Trunk space
trunk 1 70.11347 103.63287 0.68 0.5013 0.34427 2.90471 -137.25542 277.48236
(cu. ft.)
weight Weight (lbs.) 1 4.03447 1.53188 2.63 0.0108 0.04728 21.15167 0.96919 7.09975
length Length (in.) 1 -84.38974 43.98228 -1.92 0.0599 0.06967 14.35262 -172.39808 3.61860
Turn Circle
turn 1 -207.48012 131.49742 -1.58 0.1200 0.20449 4.89010 -470.60584 55.64560
(ft.)
Displacement
displacement 1 16.63013 8.99497 1.85 0.0695 0.09934 10.06602 -1.36876 34.62903
(cu. in.)
gear_ratio Gear Ratio 1 1642.58757 1061.14969 1.55 0.1270 0.28931 3.45645 -480.76806 3765.94320
17
regression
Considering CARS dataset

2,000 3,000 4,000 5,000 0 200 400
15,000
Price 10,000
5,000
5,000
4,000
Weight
3,000 (lbs.)
2,000
250
Length 200
(in.)
150
400
Displacement
200 (cu.
in.)
0
40
30
Mileage
(mpg) 20
10
5,000 10,000 15,000 150 200 250 10 20 30 40
18

Back Step PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Back Step PDF

Caricato da

Copyright:

Formati disponibili

Multiple

Modello di regressione lineare multipla

Ipotesi: Y  Xβ  ε E(ε )  0 V ( ε )   2I ε ~ MN(0; 2 I)

New hypothesis: X è una matrice a rango pieno (tutte le colonne sono

When row or columns are

Multiple linear regression

La stima dei minimi quadrati di β, esiste se X X  esiste, ed è: βˆ  (XX)1 Xy

Ricorda: se X non ha rango pieno X è singolare (il determonate di X è =0)

Propietà degli stimatori ottenuti con il metodo dei minimi quadrati:

La matrice di varianza/covarianza di β̂ è V βˆ    2 XX 1

Modello di regressione multipla

Uno stimatore corretto della varianza dell’errore  2 è:

dove k è il numero di variabili esplicative nel modello.

il j-esimo element della diagonal è la varianza di ̂ j , ossia Var (ˆ j )

L’indice di bontà di adattamento è:

Coefficiente di determinazione aggiustato

Il coeff. di determ. aggiustato è un compromesso tra la bontà di adattamento ai dati e la

Selezione del modello – ricerca completa

Si potrebbero considerare tutti i possibili sottoinsiemi ottenibili dall’insieme

In molti casi la ricerca completa non è affrontabile.

Con 4 variabili esplicative si devono confrontare 15 modelli:

Selezione del Modello – procedura di ricerca automatica

• Selezionare un livello di significatività a per rimanere nel modello (e.g.

• La procedura continua fino a quando non ci sono altre X che possono

Selezione del Modello – procedura di ricerca automatica

• Seleziona a livello di significatività per entrare nel modello (per esempio

Selezione del Modello – procedura di ricerca automatica

Contains data 1978 Automobile Data

Source | SS df MS Number of obs = 69

Source | SS df MS Number of obs = 69

I sintomi della multicollinearità sono:

• alta correlazionetra due o più varaibili esplicative

• alto valore di R2 anche in presenza di molte varabili non significative

se VIF>5 allora la multicollinearità è elevata (corresponde a un R 2j  0.80 )

Considering CARS dataset

Variable | VIF 1/VIF

Considering CARS dataset (SAS output)

Parameter Standard Variance

Considering CARS dataset

Potrebbero piacerti anche