Regressione Lineare

Statistica per le ricerche di
mercato
A.A. 2014/15
12. Violazione delle ipotesi nel

modello di regressione lineare
La violazione delle ipotesi
Fino ad ora le assunzioni ipotizzate per il modello di regressione sono

sempre state considerate valide.
Quali conseguenze possono verificarsi in caso contrario?
• In generale il metodo di stima dei minimi quadrati risulta piuttosto

robusto, ossia piccole violazioni delle ipotesi del modello non
invalidano l’inferenza o le conclusioni a cui esso conduce.
• Violazioni più consistenti per almeno una delle ipotesi possono

comportare serie difficoltà nel processo di stima dei parametri o
condurre
d a conclusioni
l i i gravementet fuorvianti.
f i ti
2
Richiami alle ipotesi del modello
1. Linearità
inearità del modello
2. Assenza di multicollinearità esatta
3
3. O tli estremi
Outlier t i sono iimprobabili
b bili
4
4. le caratteristiche dell’errore
dell errore u i disturbi sono assunti
normali ed
indipendentemente
p distribuiti,
distribuiti con media 0 e varianza
costante:
costante
Var (ui X ) = σ u2 ∀i omoschedasticità
E (ui u j ) = 0 ∀i ≠ j Incorrelazione degli errori
3
Diagnostica: analisi dei residui
Con il termine “diagnostica”, nell’ambito della regressione, ci si riferisce a

un insieme di tecniche volte all’individuazione
all individuazione di eventuali problemi
rispetto al modello o rispetto ai dati.
Il metodo più semplice ed efficace per diagnosticare la maggior parte

delle violazioni di ipotesi è l’analisi dei residui.
L analisi dei residui permette di:

L’analisi
stabilire se le ipotesi formulate sul termine d’errore del modello di
regressione sono valide rispetto al fenomeno analizzato;
identificare
id tifi l’l’eventuale
t l presenza di
– punti di leverage, osservazioni anomale rispetto alle x
– outlier, ossia osservazioni anomale rispetto alla variabile
dipendente y
– osservazioni influenti, ossia osservazioni la cui esclusione modifica
le stime dei minimi quadrati.
q
Analisi dei residui – standardizzazione dei residui
In genere i residui ei hanno media nulla ma non varianza costante: ciò può
rappresentare un inconveniente nell’analisi diagnostica.
Si può rimediare attraverso la standardizzazione dei residui che si effettua

dividendo il residuo per la stima dell’errore standard
ei
eis =
stima
i dell
d ll ' errore standard
d d di ei
La varianza dell’i-esimo residuo è espressa da:
V ( ei ) = σ 2 (1 − hii )
Che essendo una quantità non nota deve essere stimata.

NB. Con il simbolo ei vengono indicati i residui stimati. In modo equivalente si può
utilizzare il simbolo u
i
RESIDUI STANDARDIZZATI E RESIDUI STUDENTIZZATI
La stima dell’errore standard del residuo può essere effettuata in due modi:
Residuo standardizzato
ei
1) SDerror ( ei ) = s 2 (1 − hii ) eis =
s (1 − hii )
Residuo studentizzato
2) SDerror ( ei ) = s(21) (1 − hii )
ei
eis =
s( i ) (1 − hii )
s(21) È la stima ottenuta eliminando l’i-esima osservazione
hii Si chiama valore di leverage. È una misura della distanza dell’ascissa

dell ascissa
dell’unità i-esima dal baricentro della x
Stata stima i residui standardizzati e quelli studentizzati
predict r, rstandard
predict r1, rstudent
Analisi dei residui – standardizzazione dei residui
I grafici più comunemente utilizzati consistono in diagrammi di dispersione

che riportano i residui eis in ordinata mentre in ascissa possono essere
rappresentate alternativamente le seguenti quantità:
¾ i valori stimati della variabile dipendente Ŷi

¾ i valori osservati di una delle variabili indipendenti Xj
Se le assunzioni sono verificate tali diagrammi di dispersione danno luogo

ad una nuvola di punti che non presenta particolari strutture
strutture.
In particolare i punti del diagramma tendono a disporsi tra i valori –2 e 2 e

risultano distribuiti casualmente intorno allo 0.
7
Esempio di diagramma di dispersione dei residui
25
2,5
2
1,5
1
0,5
es i0
-0,5 0 50 100 150 200 250
-1
-1,5
15
-2 Ŷi
Yˆi
Questo diagramma corrisponde al caso base in cui non si riscontrano

violazioni delle assunzioni
Un esame accurato dei residui, attraverso l’osservazione dei relativi diagrammi

di dispersione, costituisce una parte integrante dell’analisi di regressione. 8
Osservazioni influenti
Se un valore di yi è particolarmente inusuale rispetto a tutti gli altri
allora
ll lla stima
ti d
dell modello
d ll di regressione
i può
ò essere notevolmente
t l t
influenzata da tale osservazione.
Per valutare la presenza di un valore influente si elimina
l’osservazione i, si stima nuovamente il modello e si indica con βii)
la stima OLS di β ottenuta escludendo tale osservazione. Si calcola
una misura di distanza tra le due stime che viene denominata
distanza di Cook.
Tale procedimento viene ripetuto per una osservazione alla volta e
tutte le volte si stima nuovamente il modello. Quelle osservazioni
che producono variazioni rilevanti nella stima dei parametri del
modello sono dette influenti.
La distanza di Cook Di è quindi composta da una componente che

misura l’adattamento (in quanto funzione dei residui) e da una
componente che misura la distanza delle x dal baricentro (essendo
una misura del livello di leverage dell’i-esima osservazione). Le
unità per cui Di > 4/n-k-1 sono potenziali osservazioni influenti.
Le più
ù comuni violazioni delle ipotesi del modello di
regressione riguardano:
1. Linearità (relazione non lineare);
2. Omoschedasticità (presenza di eteroschedasticità);
3 Incorrelazione
3. I l i d li errorii ((errorii correlati);
degli l ti)
4. Normalità della distribuzione (errori non normali)
5. Assenza di collinearità perfetta (collinearità perfetta e

imperfetta)
6. I valori anomali sono improbabili (Presenza di valori

anomali-outlier)
10
La trasformazione di variabili
9Costituisce uno dei rimedi più efficaci in diversi casi di violazione delle
assunzioni.
i i
9 Può consentire di raggiungere diversi scopi tra cui:
a. assicurare la linearità della relazione

b. conseguire la normalità
c stabilizzare la varianza dei termini di disturbo
c.
9 Nella pratica è molto comune la stima di un modello su variabili

trasformate piuttosto che su quelle originali
11
Alcuni esempi di trasformazione delle variabili
La trasformazione delle variabili può essere applicata alternativamente alla

variabile risposta
risposta, alla variabile esplicati
esplicativa (o - nel caso di più variabili
indipendenti - ad alcune di esse) oppure ad entrambe
entrambe.
Lo schema seguente riporta alcuni dei più comuni tipi di modello sui quali è
stata applicata una trasformazione di variabile nel caso base di una
regressione semplice
1) Y = α + β X + u Utile in caso di ipotesi di non normalità degli errori
2) logY = α + β X + u Utile per la stabilizzazione della varianza degli errori
3) Y = α + β log X + u Utile per linearizzare una relazione non lineare
4) log Y = log α + β X + log u Linearizzazione della relazione Y = α e β X u
12
1. Violazione dell’ipotesi di linearità
Un modello di regressione è lineare quando è lineare nei parametri.
parametri
Quando la relazione non è lineare, i parametri del modello di regressione
perdono di significato e le stime del valor medio e la previsione del singolo
valore per un dato valore di X potrebbero risultare fortemente distorte
• Si può diagnosticare principalmente attraverso due tecniche:
1. l’analisi del diagramma di dispersione realizzato sulla base dei

punti campionari; tale strumento consente però di analizzare solo la
relazione tra la variabile dipendente e una variabile esplicativa per volta
(nel caso di analisi di regressione multivariata, non sarebbe possibile
valutare la struttura globale dei dati)
2. osservando una certa struttura nel diagramma di dispersione dei

2
residui (es. crescente o decrescente)
• Si può risolvere con opportune trasformazioni di variabili
• Per avvalorare l’ipotesi che la relazione stimata sia lineare nella

trasformata di una o più variabili originarie si esaminano i residui della
nuova regressione e si verifica che non presentino nessuna particolare
struttura
13
Un esempio di violazione dell’ipotesi di linearità
1. I dati
Si supponga che si desideri misurare le vendite di un nuovo prodotto in relazione allo

svolgimento della relativa campagna pubblicitaria
Dati campionari
Diagramma di dispersione dei punti campionari

Si può
ò stimare
ti un modello
d ll
250
lineare
200
Ma il diagramma
diag amma scatter
scatte fa
Vendite * 10000€
150
100 supporre una relazione non

50 lineare – presumibilmente
0 esponenziale
0 2 4 6 8 10 12 14 16
14
Giorni di campagna pubblicitaria
2. I residui
Il diagramma dei residui - rappresentati rispetto ai valori stimati della variabile

risposta con un modello lineare - mostra non una disposizione casuale intorno allo
zero ma una particolare struttura curvilinea che indica una relazione effettivamente
non lineare
Diagramma di dispersione dei residui
2
1,5
1
Ressidui stud.
0,5
0
-50 -0,5 0 50 100 150 200
-1
-1,5
-2
Vendite (valori stimati) 15

3 Li
3. Linearizzazione
i i
p
Si ipotizza una relazione esponenziale
p del tipo
p
vendite = β 0e β1 i gg _ pubblicitàu
L’applicazione del logaritmo naturale ad ambo i membri dell’equazione di

regressione conduce ad un modello linearizzato come segue
log(vendite) = log β 0 + β1 i gg_pubblicità + log u

vendite′ = β 0' + β1 i gg_pubblicità
gg pubblicità + u′
dove vendite′ = log(vendite)

g( ); α ′ = log
gα ; u ′ = log
g u.
La stima
L ti d l modello
del d ll linearizzato
li i t sii esegue semplicemente
li t effettuando
ff tt d la
l
regressione del logaritmo naturale delle vendite sulla variabile esplicativa
16
4. Stime
Stima del modello linearizzato
vendite′STIMA = 2,55 + 0, 21* gg _ pubblicità
Stima del modello esponenziale nella forma originaria
venditeSTIMA = 12,84 ⋅ e0,21*gg _ pubblicità

Diagrammi di dispersione dei punti campionari e dei residui
17
2. Violazione dell’ipotesi di omoschedasticità.
Possibili cause dell’eteroschedasticità:
E spesso presente nei dati cross

•E’ cross-section
section in cui si aggregano dati con
diversa natura e quindi potenzialmente diversa variabilità
• Le unità campionarie
p provengono
p g da sottopopolazioni
p p diverse ovvero da
aree diverse.
Ad esempio, nelle imprese di minori dimensioni la variabilità del
fatturato può essere inferiore a quella registrata nelle imprese di
maggiori dimensioni .
•Uno o più regressori importanti sono stati omessi (in questo caso vi è un
errore di specificazione) ovvero non compaiono nella forma più adatta (non
sono stati trasformati)
Attraverso una trasformazione

Att t f i l
logaritimica
iti i d ll variabile
della i bil sii può
ò
eliminare l’ eteroschedasticità.
2. OMOSCHEDASTICITA’
•E(u|X=x) = 0 (u soddisfa la prima assunzione dei Minimi Quadrati)

•La varianza di u non cambia con x (non dipende da x)
3. ETEROSCHEDASTICITA’
•E(u|X=x) = 0 (u soddisfa la prima assunzione dei Minimi Quadrati)

p
•La varianza di u dipende da x. Q
Quindi siamo in p
presenza di
Eteroschedasticità
2. Violazione dell’ipotesi di omoschedasticità.
Accertamento grafico
Può essere facilmente diagnosticata attraverso l’analisi del diagramma di dispersione dei
residui, dove i residui standardizzati (ovvero studentizzati) sono riportati in ordinata contro le
variabili esplicative alternativamente in ascissa
variabili esplicative alternativamente in ascissa.
Si diagnostica una violazione dell’assunzione di omoschedasticità quando la varianza degli
errori tende a crescere o a decrescere al crescere della variabile esplicativa rappresentata.
errori tende a crescere o a decrescere al crescere della variabile esplicativa rappresentata.
2,5
2
2
1,5 1,5
1
1
Residui studentizzati
0,5
Reesidui studentizzati
0 0,5
-0,5 0
-1
-0,5
-1,5
15
-2 presenza di eteroschedasticità -1
presenza di eteroschedasticità
-2,5 Î relazione crescente -1,5
-3 Î relazione decrescente
-2
Variabile X
Variabile X
• Se la banda in cui giacciono i punti tende ad allargarsi o a restringersi si può ipotizzare
una situazione di eteroschedasticità;
una situazione di eteroschedasticità;
• Se invece i punti giacciono tra due parallele non si riscontra evidenza di violazione
dell’assunzione. 21
Implicazioni della presenza di eteroschedasticità
Problemi/ conseguenze sugli stimatori OLS
La presenza di eteroschedasticità comporta conseguenze rilevanti sulle

stime dei parametri. In particolare:
•le stime dei minimi quadrati sono ancora corrette, ma non sono più
efficienti ((a varianza minima);
);
• Gli stimatori non sono più BLUE. La stima della varianza (e quindi
dell’errore standard) è distorta, il che tende a invalidare i test di
significatività.
•Le diagnostiche basate sui t-Student, sulla F-Fisher e su R2 sono più alte
(o più
ù basse) di quanto non dovrebbero per cui c’è è un elevato rischio di
errore nel giudizio sulla bontà del modello.
Soluzioni
9 Trasformazione logaritmica della variabile risposta

9 Adozione di errori standard robusti rispetto alla violazione della
9omoschedasticità
9 Metodo dei minimi quadrati pesati
Diagnostica
Numerosi test:Breusch-Pagan; Goldfeld e Quandt; Glesjer; White. Kendall

e Stuart
Testt Breusch-Pagan
T B h P
Il test implica la specificazione di un ipotesi alternativa sulla forma
dell’eteroschedasticità. Ipotizzando una forma esponenziale si ha:
H 0 = σ 12 = σ 22 = ... = σ n2
H 0 = σ i2 = σ 2 exp(α ' xi )
La statistica test ha una distribuzione chi-quadrato con gdl uguali al numero delle
variabili nel verrore xi .
Esempio stata
. estat hettest dist, iid
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Ho: Constant variance
Variables: dist
chi2(1) = 0.33
Prob > chi2 = 0.5659 23
3. Violazione dell’ipotesi di incorrelazione degli errori
L’ipotesi di non correlazione degli errori stabilisce che i termini di errore ui e

uj associati alle i-esima e j-esima osservazione siano incorrelati.
La presenza di correlazione tra questi due termini suggerisce che c’è
un’informazione esplicativa addizionale contenuta nei dati che non è stata
adeguatamente sfruttata nel modello.
La correlazione tra i termini di disturbo è comunemente denominata

autocorrelazione. Può verificarsi in diverse situazioni:
•I residui adiacenti tendono ad essere simili nelle dimensioni sia spaziali

(dati provenienti da indagini cross-section) sia temporali (dati provenienti
da serie storiche), in questo caso sono di solito correlati positivamente;
autocorrelazione pura
•I sintomi dell’autocorrelazione possono anche presentarsi quando una

variabile esplicativa è stata omessa e, se la variabile è in seguito inclusa nel
modello, il problema dell’autocorrelazione è completamente risolto: in
questo
t caso la
l violazione
i l i è denominata
d i t autocorrelazione
t l i apparente.
t
24
1 Dall grafico
D fi d deii
0,8
0,6
residui si evince
04
0,4 un andamento
0,2
ciclico dei residui
esidui
0
-0,2 0 0,5
, 1 1,5
, 2 2,5
, segnalando
g
re
-0,4
-0,6
pertanto la
-0,8 violazione
-1
-1,2
d ll’i t i di
dell’ipotesi
Y stimata incorrelazione
degli errori
25
Effetti sui risultati dell’analisi di regressione:
Le stime dei minimi quadrati continuano ad essere non distorte ma non

sono più efficienti;
Le stime di σ
2
e di conseguenza, dell’errore standard dei coefficienti di
regressione possono risultare erroneamente ridotte, producendo
un’impressione falsata di accuratezza ed un R2 esagerato; pertanto gli
intervalli di confidenza ed i diversi test di significatività utilizzati
comunemente t non sono più
iù esattamente
tt t validi.
lidi
Per la diagnostica dell’autocorrelazione pura il test più comunemente

utilizzato è quello di Durbin-Watson
26
4. Violazione dell’ipotesi di Normalità degli errori
Si considerano i residui standardizzati, se gli errori sono normali, i

residui standardizzati
hanno approssimativamente una distribuzione normale con media zero e
varianza 1:
Il grafico invece evidenzia 60% di valori negativi, 84% di valori

compresi tra [-1,1], quindi si può supporre una violazione dell’ipotesi di
normalità
27
4. Violazione dell’ipotesi di Normalità degli errori
Grafico di normalità P-P
Si mettono a confronto la proporzione cumulata del residuo

standardizzato (in ascissa) e la proporzione cumulata attesa nel caso in
cui sia verificata l’ipotesi di normalità (in ordinata).
Se l’ipotesi
p di normalità non è violata i p punti tendono ad allinearsi lungo
g
la bisettrice
28
5. Violazione dell’ipotesi di assenza di collinearità perfetta
COLLINEARITA’ PERFETTA. Sorge quando una delle variabili
esplicative
li ti è una combinazione
bi i li
lineare esatta
tt (perfetta)
( f tt ) delle
d ll altre
lt
variabili. In questo caso non è possibile procedere alla stima della
regressione (lo stimatore OLS non è definito univocamente.)
Esempi di collinearità (o multicollinearità) perfetta
Errore sull’introduzione di una variabile che semplicemente ripete

una variabile già presente nel modello (ad esempio una espressa in
frazione e un
un’altra
altra espressa in termini percentuali)
Introduzione di una variabile dummy per la quale le osservazioni

presentano tutte valore 1 (ad esempio la dummy prevede valore 1 se
le osservazioni presentano un valore superiore ad un dato limite ma
tutte le osservazioni hanno valori superiori)
Trappola delle variabili dummy. Si presenta quando si introducono

tutte le categorie di una variabile qualitativa come dummy. In generale
con G variabili binarie (dummy) dobbiamo includere nel modello solo
G-1 variabili (una dummy deve essere esclusa e rappresenterà la
categoria di riferimento)
5. Violazione dell’ipotesi di assenza di collinearità perfetta
COLLINEARITA’ IMPERFETTA.
Se la correlazione tra variabili è troppo alta è possibile che insorga
qualche problema.
problema La presenza di multicollinearità imperfetta non
impedisce la stima della regressione ma le stime ottenute saranno
inaffidabili con standard error elevati, con un segno o un valore
i tt i
inattesi.
In generale, si usa il termine multicollinearità per descrivere il

problema posto dall’esistenza di una relazione lineare approssimata
fra le variabili esplicative che genera stime inaffidabili. Questa
relazione ppuò coinvolgere
g p
più di due regressori,
g ,ppersino tutti.
Misure per la collinearità imperfetta o quasi multicollinearità
La diagnostica della quasi multicollinearità costituisce un processo più articolato.
Un primo passo è osservare i valori della matrice di correlazione computata

sull’insieme delle variabili esplicative.
Per diagnosticare la quasi multicollinerità à si possono effettuare delle regressioni

ausiliarie tra ogni variabile esplicativa e tutte le altre: se in alcune di tali regressioni
si osserva un valore di R2 molto elevato (es. superiore a 0,7) si diagnostica una
quasi multicollinearità.
multicollinearità
Sulla base di tali regressioni ausiliarie può anche essere computato il VIF (Variance
Inflation Factor), basato sul coefficiente di determinazione multiplo R2j relativo alla
regressione della
d ll j-sima variabile
b l esplicativa
l sulle
ll altre
l k
k-1
1
VIF =
1 − R 2j
Al variare di R2j il VIF assume di conseguenza i valori riportati nello schema seguente:
Si sospetta
p per valori del VIF superiori
una Q.M. p p a 3,5
,
comando in stata: estat vif

31
6. Presenza di valori anomali (outliers)
Gli outliers sono osservazioni campionarie che presentano residui
“molto grandi” rispetto al resto delle osservazioni
Sul grafico dei residui la presenza di outliers è segnalata da

punti isolati e molto distanti dagli
p g altri
La presenza di valori anomali può avere effetti rilevanti sulle

stime di regressione
È necessario indagare su tali valori per capire se essi siano

i
imputabili
t bili a errorii di rilevazione
il i oppure siano
i osservazioni
i i
causate da eventi straordinari come scioperi, calamità naturali,…
32
Esempio: valori anomali
2,00
1 50
1,50
dardizzati
1,00
Possibili
valori
0,50
esidui stand
0,00
-0,500,00 5,00 10,00 15,00 20,00 25,00 anomali
-1,00
re
-1,50
-2,00
Y stimati
33
Esempio n.1 tratto dal testo Borra- Di Ciaccio
La Quantità di precipitazioni e le Temperature medie registrate in 10
stazioni meteorologiche sono state le seguenti:
Stazione
1 2 3 4 5 6 7 8 9 10
Meteorologica
PRECIPITAZIONI 29 35 87 32 112 14 26 120 190 85
TEMPERATURA 18 16 14 19 11 20 17 12 9 13
a) Determinare con il metodo dei minimi quadrati la retta di

regressione relativa alla Quantità di Precipitazioni (y) in funzione della
Temperatura media (x)
b) Commentare i risultati ottenuti
34
Grafico di dispersione e retta stimata
200
150
pitazioni
100
precip
50
0
0 5 10 15 20 25
-50
temperatura
35
Risultati- Output Excel
Risultati
Errore Dal valore dei p-
Coefficienti standard Stat t p value
p-value value entrambi i
Intercetta 289,91 26,44 10,96 0,00 coefficienti sono
significativamente
Temperatura -14,56
14,56 1,73 -8,42
8,42 0,00 diversi da zero
ANALISI VARIANZA
gdl SQ MQ F P-value
R
Regressione
i 1 25621,17
25621 17 25621
25621,17
17 70 95
70,95 0 00
0,00
Errore 8 2888,83 361,10
Totale 9 28510,00
Anche
A h con il test
t t
F il coefficiente
Statistica della regressione della variabile
R al quadrato 0 90
0,90 esplicativa è
Errore standard 19,00 Il modello ha significativamente
Osservazioni 10 un buon diverso da zero
adattamento
36
OUTPUT RESIDUI
Y Residui
Osservazione prevista Residui standard
1 27,87 1,13 0,06
2 56,99
56 99 -21
21,99
99 -1
1,23
23
3 86,10 0,90 0,05
4 13,31 18,69 1,04
5 129,77
129 77 -17,77
17 77 -0,99
0 99
6 -1,24 15,24 0,85
7 42,43 -16,43 -0,92
8 115,22
115 22 4 78
4,78 0 27
0,27
9 158,89 31,11 1,74
10 100,66 -15,66 -0,87
37
Grafico dei residui
40
30
20
dui
10
resid
0
-20 0 20 40 60 80 100 120 140 160 180
-10
-20
-30 I residui
es du se
sembrano
b a o
y stimata disposti casualmente
intorno allo zero
38
Grafico dei residui standardizzati
2.0
15
1.5
sidui standar.
1.0
0
0.5
0.0
-50
50 0 50 100 150 200
res
-0.5
-1.0
-1.5
y stimata
39
ESEMPIO N.2
Supponiamo di voler
Punti Costi Ricavi
vendita stimare sulla base delle
1 205 350 seguenti
g osservazioni
2 100 200
3 350 600 campionarie la relazione di
4 270 500 dipendenza lineare dei
5 200 270
6 120 180 ricavi
i iddaii costi
ti
7 105 205
8 210 340
800
9 140 280
10 75 130 600
11 130 200
cavi
12 150 230 400
13 300 500 ric 200
14 60 100
15 35
135 250
50 0
16 145 260 0 100 200 300 400
17 167 270
costi
18 155 255
19 124 187
20 143 188
40
Risultati della regressione-
Output Excel
Errore
Coefficienti standard Stat t p-value
Intercetta -3,75 16,70 -0,22 0,82
Variabile X 1,70 0,09 18,20 0,00
Dal valore del p-
OUTPUT RIEPILOGO value l’intercetta
non è
Statistica della
significativamente
i ifi i
regressione
R al quadrato 0,95 diversa da zero
Errore standard 29,91
Osservazioni 20
ANALISI VARIANZA
gdl SQ MQ F p-value
Regressione 1 296112,59 296112,59 331,07 0,00
Errore 18 16099,16 894,40
Totale 19 312211,75
41
Grafico dei residui
60 I residui sembrano
disposti casualmente
40 intorno allo zero
20
sidui
0
0 200 400 600 800
res
-20
-40
-60
-80
y prevista
42
Grafico dei residui standardizzati
I residui
id i
2.0 standardizzati
potrebbero suggerire
1.5
una violazione
1.0 dell’ipotesi di
0.5 normalità
ui
residu
00
0.0
-0.5 0 200 400 600 800
-1.0
-1.5
-2.0
-2.5
y stimata
43
Osservando
O d il PP-P
P
plot
la violazione
dell’ipotesi di
normalità
èppiù evidente
44

Regressione Lineare

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Regressione Lineare

Caricato da

Copyright:

Formati disponibili

Statistica per le ricerche di

12. Violazione delle ipotesi nel

Fino ad ora le assunzioni ipotizzate per il modello di regressione sono

Quali conseguenze possono verificarsi in caso contrario?

• In generale il metodo di stima dei minimi quadrati risulta piuttosto

• Violazioni più consistenti per almeno una delle ipotesi possono

E (ui u j ) = 0 ∀i ≠ j Incorrelazione degli errori

Con il termine “diagnostica”, nell’ambito della regressione, ci si riferisce a

Il metodo più semplice ed efficace per diagnosticare la maggior parte

L analisi dei residui permette di:

Si può rimediare attraverso la standardizzazione dei residui che si effettua

La varianza dell’i-esimo residuo è espressa da:

Che essendo una quantità non nota deve essere stimata.

hii Si chiama valore di leverage. È una misura della distanza dell’ascissa

I grafici più comunemente utilizzati consistono in diagrammi di dispersione

¾ i valori stimati della variabile dipendente Ŷi

Se le assunzioni sono verificate tali diagrammi di dispersione danno luogo

In particolare i punti del diagramma tendono a disporsi tra i valori –2 e 2 e

Questo diagramma corrisponde al caso base in cui non si riscontrano

Un esame accurato dei residui, attraverso l’osservazione dei relativi diagrammi

La distanza di Cook Di è quindi composta da una componente che

1. Linearità (relazione non lineare);

2. Omoschedasticità (presenza di eteroschedasticità);

4. Normalità della distribuzione (errori non normali)

5. Assenza di collinearità perfetta (collinearità perfetta e

6. I valori anomali sono improbabili (Presenza di valori

9 Può consentire di raggiungere diversi scopi tra cui:

a. assicurare la linearità della relazione

9 Nella pratica è molto comune la stima di un modello su variabili

La trasformazione delle variabili può essere applicata alternativamente alla

1) Y = α + β X + u Utile in caso di ipotesi di non normalità degli errori

2) logY = α + β X + u Utile per la stabilizzazione della varianza degli errori

3) Y = α + β log X + u Utile per linearizzare una relazione non lineare

4) log Y = log α + β X + log u Linearizzazione della relazione Y = α e β X u

• Si può diagnosticare principalmente attraverso due tecniche:

1. l’analisi del diagramma di dispersione realizzato sulla base dei

2. osservando una certa struttura nel diagramma di dispersione dei

• Si può risolvere con opportune trasformazioni di variabili

• Per avvalorare l’ipotesi che la relazione stimata sia lineare nella

Si supponga che si desideri misurare le vendite di un nuovo prodotto in relazione allo

Diagramma di dispersione dei punti campionari

100 supporre una relazione non

Il diagramma dei residui - rappresentati rispetto ai valori stimati della variabile

Diagramma di dispersione dei residui

Vendite (valori stimati) 15

L’applicazione del logaritmo naturale ad ambo i membri dell’equazione di

log(vendite) = log β 0 + β1 i gg_pubblicità + log u

dove vendite′ = log(vendite)

Stima del modello linearizzato

vendite′STIMA = 2,55 + 0, 21* gg _ pubblicità

Stima del modello esponenziale nella forma originaria

venditeSTIMA = 12,84 ⋅ e0,21*gg _ pubblicità

Possibili cause dell’eteroschedasticità:

E spesso presente nei dati cross

Attraverso una trasformazione

•E(u|X=x) = 0 (u soddisfa la prima assunzione dei Minimi Quadrati)

•E(u|X=x) = 0 (u soddisfa la prima assunzione dei Minimi Quadrati)

La presenza di eteroschedasticità comporta conseguenze rilevanti sulle

9 Trasformazione logaritmica della variabile risposta

Numerosi test:Breusch-Pagan; Goldfeld e Quandt; Glesjer; White. Kendall

. estat hettest dist, iid

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

L’ipotesi di non correlazione degli errori stabilisce che i termini di errore ui e

Errore sull’introduzione di una variabile che semplicemente ripete

Introduzione di una variabile dummy per la quale le osservazioni

Trappola delle variabili dummy. Si presenta quando si introducono