Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
regression
2
Multiple
regression
Tra tutti gli stimatori corretti e lineari di β, lo stimatore ottenuto con i minimi
quadrati ha minima varianza (Gauss-Markov Theorem)
3
regression
4
regression
Backward selection
Forward selection
. Stepwise backward, pr(.05): reg price mpg rep78 headroom trunk weight length turn displacement gear_ratio
begin with full model
p = 0.5013 >= 0.0500 removing trunk
p = 0.1415 >= 0.0500 removing mpg
p = 0.1550 >= 0.0500 removing gear_ratio
p = 0.1915 >= 0.0500 removing displacement
p = 0.1699 >= 0.0500 removing headroom
p = 0.1611 >= 0.0500 removing turn
------------------------------------------------------------------------------
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
length | -103.6016 37.78457 -2.74 0.008 -179.0626 -28.14063
rep78 | 844.9462 302.0363 2.80 0.007 241.738 1448.154
weight | 5.252098 1.103427 4.76 0.000 3.048401 7.455794
_cons | 6850.952 4312.738 1.59 0.117 -1762.181 15464.08
------------------------------------------------------------------------------
11
regression Applicazione del Forward selection
. Stepwise forward, pe(.05): reg price mpg rep78 headroom trunk weight length turn displacement gear_ratio
begin with empty model
p = 0.0000 < 0.0500 adding displacement
p = 0.0115 < 0.0500 adding rep78
------------------------------------------------------------------------------
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
displacement | 20.7349 3.365226 6.16 0.000 14.01601 27.45379
rep78 | 823.0034 316.6516 2.60 0.012 190.788 1455.219
_cons | -762.4499 1509.791 -0.51 0.615 -3776.845 2251.945
------------------------------------------------------------------------------
Da notare che le due procedure possono portare alla selezione di modelli diversi.
12
regression
Multicollinearità
Talvolta alcune e tutte le variabili X sono altamente correlate e questo comporta
che è difficile dire quali di loro davvero influisce sulla variabile dipendente Y.
Questo problema è noto come multicollinearità.
• Valori alti degli standard errors dei coefficient di regression che portano a valori
bassi della statistica t e quindi ad accettare più facilmente l’ipotesi nulla.
13
regression
Multicollinearità
Se lo standard error di ̂ j aumenta, il t-test, t obs ˆ j st.err (ˆ j )
diminuisce, il p-value aumenta e cresce la probabilità dell’errore del II type
(Accettare l’ipotesi nulla quando questa è falsa). Perciò molte variabili non vengono
inclusw nel modello.
Conseguenza della multicollinearità:
Diversi modelli di regression lineare raggiungono lo stesso livello di adattamento ai
dati. Fitted values
X1 X2 Y (a) (b)
2 6 23 23 23
8 9 83 83 83
6 8 63 63 63
10 10 103 103 103
a) Y=-87+X1+18X2
b) Y=-7+9X1+2X2
14
X2=5+0.5X1
regression
VIF
il Variance Inflation Factor (VIF) quantifica il livello di multicollinearità nella
regressione dei minimi quadrati.
Date K diverse variabili esplicative,
un indice di multicollinearità tra la variabile Xj e tutte le alter variabili esplicative è:
1
VIFj
1 R 2j
dove R 2j è il coefficient di determinazione per il modello:
X j 0 1 X1 j 1 X j 1 j 1 X j 1 k X k
La Tollerance è 1/VIF
15
regression Esempio di misurazione della multicollinearità
16
regression
Parameter Estimates
17
regression
Price 10,000
5,000
5,000
4,000
Weight
3,000 (lbs.)
2,000
250
Length 200
(in.)
150
400
Displacement
200 (cu.
in.)
0
40
30
Mileage
(mpg) 20
10
5,000 10,000 15,000 150 200 250 10 20 30 40
18