Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
mercato
A.A. 2014/15
2
Richiami alle ipotesi del modello
1. Linearità
inearità del modello
2. Assenza di multicollinearità esatta
3
3. O tli estremi
Outlier t i sono iimprobabili
b bili
4
4. le caratteristiche dell’errore
dell errore u i disturbi sono assunti
normali ed
indipendentemente
p distribuiti,
distribuiti con media 0 e varianza
costante:
costante
Var (ui X ) = σ u2 ∀i omoschedasticità
3
Diagnostica: analisi dei residui
In genere i residui ei hanno media nulla ma non varianza costante: ciò può
rappresentare un inconveniente nell’analisi diagnostica.
ei
eis =
stima
i dell
d ll ' errore standard
d d di ei
V ( ei ) = σ 2 (1 − hii )
La stima dell’errore standard del residuo può essere effettuata in due modi:
Residuo standardizzato
ei
1) SDerror ( ei ) = s 2 (1 − hii ) eis =
s (1 − hii )
Residuo studentizzato
2) SDerror ( ei ) = s(21) (1 − hii )
ei
eis =
s( i ) (1 − hii )
s(21) È la stima ottenuta eliminando l’i-esima osservazione
7
Esempio di diagramma di dispersione dei residui
25
2,5
2
1,5
1
0,5
es i0
-0,5 0 50 100 150 200 250
-1
-1,5
15
-2 Ŷi
Yˆi
3 Incorrelazione
3. I l i d li errorii ((errorii correlati);
degli l ti)
10
La trasformazione di variabili
9Costituisce uno dei rimedi più efficaci in diversi casi di violazione delle
assunzioni.
i i
11
Alcuni esempi di trasformazione delle variabili
Lo schema seguente riporta alcuni dei più comuni tipi di modello sui quali è
stata applicata una trasformazione di variabile nel caso base di una
regressione semplice
12
1. Violazione dell’ipotesi di linearità
Un modello di regressione è lineare quando è lineare nei parametri.
parametri
Quando la relazione non è lineare, i parametri del modello di regressione
perdono di significato e le stime del valor medio e la previsione del singolo
valore per un dato valore di X potrebbero risultare fortemente distorte
Dati campionari
Ma il diagramma
diag amma scatter
scatte fa
Vendite * 10000€
150
2
1,5
1
Ressidui stud.
0,5
0
-50 -0,5 0 50 100 150 200
-1
-1,5
-2
3 Li
3. Linearizzazione
i i
p
Si ipotizza una relazione esponenziale
p del tipo
p
vendite = β 0e β1 i gg _ pubblicitàu
La stima
L ti d l modello
del d ll linearizzato
li i t sii esegue semplicemente
li t effettuando
ff tt d la
l
regressione del logaritmo naturale delle vendite sulla variabile esplicativa
16
Un esempio di violazione dell’ipotesi di linearità
4. Stime
17
2. Violazione dell’ipotesi di omoschedasticità.
• Le unità campionarie
p provengono
p g da sottopopolazioni
p p diverse ovvero da
aree diverse.
Ad esempio, nelle imprese di minori dimensioni la variabilità del
fatturato può essere inferiore a quella registrata nelle imprese di
maggiori dimensioni .
•Uno o più regressori importanti sono stati omessi (in questo caso vi è un
errore di specificazione) ovvero non compaiono nella forma più adatta (non
sono stati trasformati)
Si diagnostica una violazione dell’assunzione di omoschedasticità quando la varianza degli
errori tende a crescere o a decrescere al crescere della variabile esplicativa rappresentata.
errori tende a crescere o a decrescere al crescere della variabile esplicativa rappresentata.
2,5
2
2
1,5 1,5
1
1
Residui studentizzati
0,5
Reesidui studentizzati
0 0,5
-0,5 0
-1
-0,5
-1,5
15
-2 presenza di eteroschedasticità -1
presenza di eteroschedasticità
-2,5 Î relazione crescente -1,5
-3 Î relazione decrescente
-2
Variabile X
Variabile X
• Se la banda in cui giacciono i punti tende ad allargarsi o a restringersi si può ipotizzare
una situazione di eteroschedasticità;
una situazione di eteroschedasticità;
• Se invece i punti giacciono tra due parallele non si riscontra evidenza di violazione
dell’assunzione. 21
Implicazioni della presenza di eteroschedasticità
Problemi/ conseguenze sugli stimatori OLS
•le stime dei minimi quadrati sono ancora corrette, ma non sono più
efficienti ((a varianza minima);
);
• Gli stimatori non sono più BLUE. La stima della varianza (e quindi
dell’errore standard) è distorta, il che tende a invalidare i test di
significatività.
•Le diagnostiche basate sui t-Student, sulla F-Fisher e su R2 sono più alte
(o più
ù basse) di quanto non dovrebbero per cui c’è è un elevato rischio di
errore nel giudizio sulla bontà del modello.
Soluzioni
Testt Breusch-Pagan
T B h P
Il test implica la specificazione di un ipotesi alternativa sulla forma
dell’eteroschedasticità. Ipotizzando una forma esponenziale si ha:
H 0 = σ 12 = σ 22 = ... = σ n2
H 0 = σ i2 = σ 2 exp(α ' xi )
La statistica test ha una distribuzione chi-quadrato con gdl uguali al numero delle
variabili nel verrore xi .
Esempio stata
chi2(1) = 0.33
Prob > chi2 = 0.5659 23
3. Violazione dell’ipotesi di incorrelazione degli errori
24
3. Violazione dell’ipotesi di incorrelazione degli errori
1 Dall grafico
D fi d deii
0,8
0,6
residui si evince
04
0,4 un andamento
0,2
ciclico dei residui
esidui
0
-0,2 0 0,5
, 1 1,5
, 2 2,5
, segnalando
g
re
-0,4
-0,6
pertanto la
-0,8 violazione
-1
-1,2
d ll’i t i di
dell’ipotesi
Y stimata incorrelazione
degli errori
25
3. Violazione dell’ipotesi di incorrelazione degli errori
Le stime di σ
2
e di conseguenza, dell’errore standard dei coefficienti di
regressione possono risultare erroneamente ridotte, producendo
un’impressione falsata di accuratezza ed un R2 esagerato; pertanto gli
intervalli di confidenza ed i diversi test di significatività utilizzati
comunemente t non sono più
iù esattamente
tt t validi.
lidi
26
4. Violazione dell’ipotesi di Normalità degli errori
27
4. Violazione dell’ipotesi di Normalità degli errori
28
5. Violazione dell’ipotesi di assenza di collinearità perfetta
COLLINEARITA’ PERFETTA. Sorge quando una delle variabili
esplicative
li ti è una combinazione
bi i li
lineare esatta
tt (perfetta)
( f tt ) delle
d ll altre
lt
variabili. In questo caso non è possibile procedere alla stima della
regressione (lo stimatore OLS non è definito univocamente.)
COLLINEARITA’ IMPERFETTA.
Se la correlazione tra variabili è troppo alta è possibile che insorga
qualche problema.
problema La presenza di multicollinearità imperfetta non
impedisce la stima della regressione ma le stime ottenute saranno
inaffidabili con standard error elevati, con un segno o un valore
i tt i
inattesi.
Sulla base di tali regressioni ausiliarie può anche essere computato il VIF (Variance
Inflation Factor), basato sul coefficiente di determinazione multiplo R2j relativo alla
regressione della
d ll j-sima variabile
b l esplicativa
l sulle
ll altre
l k
k-1
1
VIF =
1 − R 2j
Al variare di R2j il VIF assume di conseguenza i valori riportati nello schema seguente:
Si sospetta
p per valori del VIF superiori
una Q.M. p p a 3,5
,
32
Esempio: valori anomali
2,00
1 50
1,50
dardizzati
1,00
Possibili
valori
0,50
esidui stand
0,00
-0,500,00 5,00 10,00 15,00 20,00 25,00 anomali
-1,00
re
-1,50
-2,00
Y stimati
33
Esempio n.1 tratto dal testo Borra- Di Ciaccio
La Quantità di precipitazioni e le Temperature medie registrate in 10
stazioni meteorologiche sono state le seguenti:
Stazione
1 2 3 4 5 6 7 8 9 10
Meteorologica
TEMPERATURA 18 16 14 19 11 20 17 12 9 13
34
Grafico di dispersione e retta stimata
200
150
pitazioni
100
precip
50
0
0 5 10 15 20 25
-50
temperatura
35
Risultati- Output Excel
Risultati
Errore Dal valore dei p-
Coefficienti standard Stat t p value
p-value value entrambi i
Intercetta 289,91 26,44 10,96 0,00 coefficienti sono
significativamente
Temperatura -14,56
14,56 1,73 -8,42
8,42 0,00 diversi da zero
ANALISI VARIANZA
gdl SQ MQ F P-value
R
Regressione
i 1 25621,17
25621 17 25621
25621,17
17 70 95
70,95 0 00
0,00
Errore 8 2888,83 361,10
Totale 9 28510,00
Anche
A h con il test
t t
F il coefficiente
Statistica della regressione della variabile
R al quadrato 0 90
0,90 esplicativa è
Errore standard 19,00 Il modello ha significativamente
Osservazioni 10 un buon diverso da zero
adattamento
36
OUTPUT RESIDUI
Y Residui
Osservazione prevista Residui standard
1 27,87 1,13 0,06
2 56,99
56 99 -21
21,99
99 -1
1,23
23
3 86,10 0,90 0,05
4 13,31 18,69 1,04
5 129,77
129 77 -17,77
17 77 -0,99
0 99
6 -1,24 15,24 0,85
7 42,43 -16,43 -0,92
8 115,22
115 22 4 78
4,78 0 27
0,27
9 158,89 31,11 1,74
10 100,66 -15,66 -0,87
37
Grafico dei residui
40
30
20
dui
10
resid
0
-20 0 20 40 60 80 100 120 140 160 180
-10
-20
-30 I residui
es du se
sembrano
b a o
y stimata disposti casualmente
intorno allo zero
38
Grafico dei residui standardizzati
2.0
15
1.5
sidui standar.
1.0
0
0.5
0.0
-50
50 0 50 100 150 200
res
-0.5
-1.0
-1.5
y stimata
39
ESEMPIO N.2
Supponiamo di voler
Punti Costi Ricavi
vendita stimare sulla base delle
1 205 350 seguenti
g osservazioni
2 100 200
3 350 600 campionarie la relazione di
4 270 500 dipendenza lineare dei
5 200 270
6 120 180 ricavi
i iddaii costi
ti
7 105 205
8 210 340
800
9 140 280
10 75 130 600
11 130 200
cavi
12 150 230 400
13 300 500 ric 200
14 60 100
15 35
135 250
50 0
16 145 260 0 100 200 300 400
17 167 270
costi
18 155 255
19 124 187
20 143 188
40
Risultati della regressione-
Output Excel
Errore
Coefficienti standard Stat t p-value
Intercetta -3,75 16,70 -0,22 0,82
Variabile X 1,70 0,09 18,20 0,00
Dal valore del p-
OUTPUT RIEPILOGO value l’intercetta
non è
Statistica della
significativamente
i ifi i
regressione
R al quadrato 0,95 diversa da zero
Errore standard 29,91
Osservazioni 20
ANALISI VARIANZA
gdl SQ MQ F p-value
Regressione 1 296112,59 296112,59 331,07 0,00
Errore 18 16099,16 894,40
Totale 19 312211,75
41
Grafico dei residui
60 I residui sembrano
disposti casualmente
40 intorno allo zero
20
sidui
0
0 200 400 600 800
res
-20
-40
-60
-80
y prevista
42
Grafico dei residui standardizzati
I residui
id i
2.0 standardizzati
potrebbero suggerire
1.5
una violazione
1.0 dell’ipotesi di
0.5 normalità
ui
residu
00
0.0
-0.5 0 200 400 600 800
-1.0
-1.5
-2.0
-2.5
y stimata
43
Osservando
O d il PP-P
P
plot
la violazione
dell’ipotesi di
normalità
èppiù evidente
44