Sei sulla pagina 1di 44

Statistica per le ricerche di

mercato
A.A. 2014/15

12. Violazione delle ipotesi nel


modello di regressione lineare
La violazione delle ipotesi

Fino ad ora le assunzioni ipotizzate per il modello di regressione sono


sempre state considerate valide.

Quali conseguenze possono verificarsi in caso contrario?

• In generale il metodo di stima dei minimi quadrati risulta piuttosto


robusto, ossia piccole violazioni delle ipotesi del modello non
invalidano l’inferenza o le conclusioni a cui esso conduce.

• Violazioni più consistenti per almeno una delle ipotesi possono


comportare serie difficoltà nel processo di stima dei parametri o
condurre
d a conclusioni
l i i gravementet fuorvianti.
f i ti

2
Richiami alle ipotesi del modello

1. Linearità
inearità del modello
2. Assenza di multicollinearità esatta
3
3. O tli estremi
Outlier t i sono iimprobabili
b bili

4
4. le caratteristiche dell’errore
dell errore u i disturbi sono assunti
normali ed
indipendentemente
p distribuiti,
distribuiti con media 0 e varianza
costante:
costante
Var (ui X ) = σ u2 ∀i omoschedasticità

E (ui u j ) = 0 ∀i ≠ j Incorrelazione degli errori

3
Diagnostica: analisi dei residui

Con il termine “diagnostica”, nell’ambito della regressione, ci si riferisce a


un insieme di tecniche volte all’individuazione
all individuazione di eventuali problemi
rispetto al modello o rispetto ai dati.

Il metodo più semplice ed efficace per diagnosticare la maggior parte


delle violazioni di ipotesi è l’analisi dei residui.

L analisi dei residui permette di:


L’analisi
‰ stabilire se le ipotesi formulate sul termine d’errore del modello di
regressione sono valide rispetto al fenomeno analizzato;
‰ identificare
id tifi l’l’eventuale
t l presenza di
– punti di leverage, osservazioni anomale rispetto alle x
– outlier, ossia osservazioni anomale rispetto alla variabile
dipendente y
– osservazioni influenti, ossia osservazioni la cui esclusione modifica
le stime dei minimi quadrati.
q
Analisi dei residui – standardizzazione dei residui

In genere i residui ei hanno media nulla ma non varianza costante: ciò può
rappresentare un inconveniente nell’analisi diagnostica.

Si può rimediare attraverso la standardizzazione dei residui che si effettua


dividendo il residuo per la stima dell’errore standard

ei
eis =
stima
i dell
d ll ' errore standard
d d di ei

La varianza dell’i-esimo residuo è espressa da:

V ( ei ) = σ 2 (1 − hii )

Che essendo una quantità non nota deve essere stimata.


NB. Con il simbolo ei vengono indicati i residui stimati. In modo equivalente si può
utilizzare il simbolo u
i
RESIDUI STANDARDIZZATI E RESIDUI STUDENTIZZATI

La stima dell’errore standard del residuo può essere effettuata in due modi:
Residuo standardizzato
ei
1) SDerror ( ei ) = s 2 (1 − hii ) eis =
s (1 − hii )

Residuo studentizzato
2) SDerror ( ei ) = s(21) (1 − hii )
ei
eis =
s( i ) (1 − hii )
s(21) È la stima ottenuta eliminando l’i-esima osservazione

hii Si chiama valore di leverage. È una misura della distanza dell’ascissa


dell ascissa
dell’unità i-esima dal baricentro della x
Stata stima i residui standardizzati e quelli studentizzati
predict r, rstandard
predict r1, rstudent
Analisi dei residui – standardizzazione dei residui

I grafici più comunemente utilizzati consistono in diagrammi di dispersione


che riportano i residui eis in ordinata mentre in ascissa possono essere
rappresentate alternativamente le seguenti quantità:

¾ i valori stimati della variabile dipendente Ŷi


¾ i valori osservati di una delle variabili indipendenti Xj

Se le assunzioni sono verificate tali diagrammi di dispersione danno luogo


ad una nuvola di punti che non presenta particolari strutture
strutture.

In particolare i punti del diagramma tendono a disporsi tra i valori –2 e 2 e


risultano distribuiti casualmente intorno allo 0.

7
Esempio di diagramma di dispersione dei residui

25
2,5
2
1,5

1
0,5
es i0
-0,5 0 50 100 150 200 250

-1
-1,5
15
-2 Ŷi
Yˆi

Questo diagramma corrisponde al caso base in cui non si riscontrano


violazioni delle assunzioni

Un esame accurato dei residui, attraverso l’osservazione dei relativi diagrammi


di dispersione, costituisce una parte integrante dell’analisi di regressione. 8
Osservazioni influenti
Se un valore di yi è particolarmente inusuale rispetto a tutti gli altri
allora
ll lla stima
ti d
dell modello
d ll di regressione
i può
ò essere notevolmente
t l t
influenzata da tale osservazione.
Per valutare la presenza di un valore influente si elimina
l’osservazione i, si stima nuovamente il modello e si indica con βii)
la stima OLS di β ottenuta escludendo tale osservazione. Si calcola
una misura di distanza tra le due stime che viene denominata
distanza di Cook.
Tale procedimento viene ripetuto per una osservazione alla volta e
tutte le volte si stima nuovamente il modello. Quelle osservazioni
che producono variazioni rilevanti nella stima dei parametri del
modello sono dette influenti.

La distanza di Cook Di è quindi composta da una componente che


misura l’adattamento (in quanto funzione dei residui) e da una
componente che misura la distanza delle x dal baricentro (essendo
una misura del livello di leverage dell’i-esima osservazione). Le
unità per cui Di > 4/n-k-1 sono potenziali osservazioni influenti.
Le più
ù comuni violazioni delle ipotesi del modello di
regressione riguardano:

1. Linearità (relazione non lineare);

2. Omoschedasticità (presenza di eteroschedasticità);

3 Incorrelazione
3. I l i d li errorii ((errorii correlati);
degli l ti)

4. Normalità della distribuzione (errori non normali)

5. Assenza di collinearità perfetta (collinearità perfetta e


imperfetta)

6. I valori anomali sono improbabili (Presenza di valori


anomali-outlier)

10
La trasformazione di variabili

9Costituisce uno dei rimedi più efficaci in diversi casi di violazione delle
assunzioni.
i i

9 Può consentire di raggiungere diversi scopi tra cui:

a. assicurare la linearità della relazione


b. conseguire la normalità
c stabilizzare la varianza dei termini di disturbo
c.

9 Nella pratica è molto comune la stima di un modello su variabili


trasformate piuttosto che su quelle originali

11
Alcuni esempi di trasformazione delle variabili

La trasformazione delle variabili può essere applicata alternativamente alla


variabile risposta
risposta, alla variabile esplicati
esplicativa (o - nel caso di più variabili
indipendenti - ad alcune di esse) oppure ad entrambe
entrambe.

Lo schema seguente riporta alcuni dei più comuni tipi di modello sui quali è
stata applicata una trasformazione di variabile nel caso base di una
regressione semplice

1) Y = α + β X + u Utile in caso di ipotesi di non normalità degli errori

2) logY = α + β X + u Utile per la stabilizzazione della varianza degli errori

3) Y = α + β log X + u Utile per linearizzare una relazione non lineare

4) log Y = log α + β X + log u Linearizzazione della relazione Y = α e β X u

12
1. Violazione dell’ipotesi di linearità
Un modello di regressione è lineare quando è lineare nei parametri.
parametri
Quando la relazione non è lineare, i parametri del modello di regressione
perdono di significato e le stime del valor medio e la previsione del singolo
valore per un dato valore di X potrebbero risultare fortemente distorte

• Si può diagnosticare principalmente attraverso due tecniche:

1. l’analisi del diagramma di dispersione realizzato sulla base dei


punti campionari; tale strumento consente però di analizzare solo la
relazione tra la variabile dipendente e una variabile esplicativa per volta
(nel caso di analisi di regressione multivariata, non sarebbe possibile
valutare la struttura globale dei dati)

2. osservando una certa struttura nel diagramma di dispersione dei


2
residui (es. crescente o decrescente)

• Si può risolvere con opportune trasformazioni di variabili

• Per avvalorare l’ipotesi che la relazione stimata sia lineare nella


trasformata di una o più variabili originarie si esaminano i residui della
nuova regressione e si verifica che non presentino nessuna particolare
struttura
13
Un esempio di violazione dell’ipotesi di linearità
1. I dati

Si supponga che si desideri misurare le vendite di un nuovo prodotto in relazione allo


svolgimento della relativa campagna pubblicitaria

Dati campionari

Diagramma di dispersione dei punti campionari


Si può
ò stimare
ti un modello
d ll
250
lineare
200

Ma il diagramma
diag amma scatter
scatte fa
Vendite * 10000€

150

100 supporre una relazione non


50 lineare – presumibilmente
0 esponenziale
0 2 4 6 8 10 12 14 16
14
Giorni di campagna pubblicitaria
Un esempio di violazione dell’ipotesi di linearità
2. I residui

Il diagramma dei residui - rappresentati rispetto ai valori stimati della variabile


risposta con un modello lineare - mostra non una disposizione casuale intorno allo
zero ma una particolare struttura curvilinea che indica una relazione effettivamente
non lineare

Diagramma di dispersione dei residui

2
1,5

1
Ressidui stud.

0,5

0
-50 -0,5 0 50 100 150 200

-1
-1,5

-2

Vendite (valori stimati) 15


Un esempio di violazione dell’ipotesi di linearità

3 Li
3. Linearizzazione
i i

p
Si ipotizza una relazione esponenziale
p del tipo
p

vendite = β 0e β1 i gg _ pubblicitàu

L’applicazione del logaritmo naturale ad ambo i membri dell’equazione di


regressione conduce ad un modello linearizzato come segue

log(vendite) = log β 0 + β1 i gg_pubblicità + log u


vendite′ = β 0' + β1 i gg_pubblicità
gg pubblicità + u′

dove vendite′ = log(vendite)


g( ); α ′ = log
gα ; u ′ = log
g u.

La stima
L ti d l modello
del d ll linearizzato
li i t sii esegue semplicemente
li t effettuando
ff tt d la
l
regressione del logaritmo naturale delle vendite sulla variabile esplicativa
16
Un esempio di violazione dell’ipotesi di linearità
4. Stime

Stima del modello linearizzato

vendite′STIMA = 2,55 + 0, 21* gg _ pubblicità

Stima del modello esponenziale nella forma originaria

venditeSTIMA = 12,84 ⋅ e0,21*gg _ pubblicità


Diagrammi di dispersione dei punti campionari e dei residui

17
2. Violazione dell’ipotesi di omoschedasticità.

Possibili cause dell’eteroschedasticità:

E spesso presente nei dati cross


•E’ cross-section
section in cui si aggregano dati con
diversa natura e quindi potenzialmente diversa variabilità

• Le unità campionarie
p provengono
p g da sottopopolazioni
p p diverse ovvero da
aree diverse.
Ad esempio, nelle imprese di minori dimensioni la variabilità del
fatturato può essere inferiore a quella registrata nelle imprese di
maggiori dimensioni .

•Uno o più regressori importanti sono stati omessi (in questo caso vi è un
errore di specificazione) ovvero non compaiono nella forma più adatta (non
sono stati trasformati)

Attraverso una trasformazione


Att t f i l
logaritimica
iti i d ll variabile
della i bil sii può
ò
eliminare l’ eteroschedasticità.
2. OMOSCHEDASTICITA’

•E(u|X=x) = 0 (u soddisfa la prima assunzione dei Minimi Quadrati)


•La varianza di u non cambia con x (non dipende da x)
3. ETEROSCHEDASTICITA’

•E(u|X=x) = 0 (u soddisfa la prima assunzione dei Minimi Quadrati)


p
•La varianza di u dipende da x. Q
Quindi siamo in p
presenza di
Eteroschedasticità
2. Violazione dell’ipotesi di omoschedasticità.
Accertamento grafico
Può essere facilmente diagnosticata attraverso l’analisi del diagramma di dispersione dei 
residui, dove i residui standardizzati (ovvero studentizzati) sono riportati in ordinata contro le 
variabili esplicative alternativamente in ascissa
variabili esplicative alternativamente in ascissa.

Si diagnostica una violazione dell’assunzione di omoschedasticità quando la varianza degli 
errori tende a crescere o a decrescere al crescere della variabile esplicativa rappresentata.
errori tende a crescere o a decrescere al crescere della variabile esplicativa rappresentata.
2,5
2
2
1,5 1,5
1
1
Residui studentizzati

0,5

Reesidui studentizzati
0 0,5
-0,5 0
-1
-0,5
-1,5
15
-2 presenza di eteroschedasticità -1
presenza di eteroschedasticità
-2,5 Î relazione crescente -1,5
-3 Î relazione decrescente
-2
Variabile X
Variabile X

• Se la banda in cui giacciono i punti tende ad allargarsi o a restringersi si può ipotizzare 
una situazione di eteroschedasticità;
una situazione di eteroschedasticità;
• Se invece i punti giacciono tra due parallele non si riscontra evidenza di violazione 
dell’assunzione. 21
Implicazioni della presenza di eteroschedasticità
Problemi/ conseguenze sugli stimatori OLS

La presenza di eteroschedasticità comporta conseguenze rilevanti sulle


stime dei parametri. In particolare:

•le stime dei minimi quadrati sono ancora corrette, ma non sono più
efficienti ((a varianza minima);
);

• Gli stimatori non sono più BLUE. La stima della varianza (e quindi
dell’errore standard) è distorta, il che tende a invalidare i test di
significatività.

•Le diagnostiche basate sui t-Student, sulla F-Fisher e su R2 sono più alte
(o più
ù basse) di quanto non dovrebbero per cui c’è è un elevato rischio di
errore nel giudizio sulla bontà del modello.

Soluzioni

9 Trasformazione logaritmica della variabile risposta


9 Adozione di errori standard robusti rispetto alla violazione della
9omoschedasticità
9 Metodo dei minimi quadrati pesati
Diagnostica

Numerosi test:Breusch-Pagan; Goldfeld e Quandt; Glesjer; White. Kendall


e Stuart

Testt Breusch-Pagan
T B h P
Il test implica la specificazione di un ipotesi alternativa sulla forma
dell’eteroschedasticità. Ipotizzando una forma esponenziale si ha:
H 0 = σ 12 = σ 22 = ... = σ n2
H 0 = σ i2 = σ 2 exp(α ' xi )
La statistica test ha una distribuzione chi-quadrato con gdl uguali al numero delle
variabili nel verrore xi .

Esempio stata

. estat hettest dist, iid

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity


Ho: Constant variance
Variables: dist

chi2(1) = 0.33
Prob > chi2 = 0.5659 23
3. Violazione dell’ipotesi di incorrelazione degli errori

L’ipotesi di non correlazione degli errori stabilisce che i termini di errore ui e


uj associati alle i-esima e j-esima osservazione siano incorrelati.
La presenza di correlazione tra questi due termini suggerisce che c’è
un’informazione esplicativa addizionale contenuta nei dati che non è stata
adeguatamente sfruttata nel modello.

La correlazione tra i termini di disturbo è comunemente denominata


autocorrelazione. Può verificarsi in diverse situazioni:

•I residui adiacenti tendono ad essere simili nelle dimensioni sia spaziali


(dati provenienti da indagini cross-section) sia temporali (dati provenienti
da serie storiche), in questo caso sono di solito correlati positivamente;
autocorrelazione pura

•I sintomi dell’autocorrelazione possono anche presentarsi quando una


variabile esplicativa è stata omessa e, se la variabile è in seguito inclusa nel
modello, il problema dell’autocorrelazione è completamente risolto: in
questo
t caso la
l violazione
i l i è denominata
d i t autocorrelazione
t l i apparente.
t

24
3. Violazione dell’ipotesi di incorrelazione degli errori

1 Dall grafico
D fi d deii
0,8
0,6
residui si evince
04
0,4 un andamento
0,2
ciclico dei residui
esidui

0
-0,2 0 0,5
, 1 1,5
, 2 2,5
, segnalando
g
re

-0,4
-0,6
pertanto la
-0,8 violazione
-1
-1,2
d ll’i t i di
dell’ipotesi
Y stimata incorrelazione
degli errori

25
3. Violazione dell’ipotesi di incorrelazione degli errori

Effetti sui risultati dell’analisi di regressione:

Le stime dei minimi quadrati continuano ad essere non distorte ma non


sono più efficienti;

Le stime di σ
2
e di conseguenza, dell’errore standard dei coefficienti di
regressione possono risultare erroneamente ridotte, producendo
un’impressione falsata di accuratezza ed un R2 esagerato; pertanto gli
intervalli di confidenza ed i diversi test di significatività utilizzati
comunemente t non sono più
iù esattamente
tt t validi.
lidi

Per la diagnostica dell’autocorrelazione pura il test più comunemente


utilizzato è quello di Durbin-Watson

26
4. Violazione dell’ipotesi di Normalità degli errori

Si considerano i residui standardizzati, se gli errori sono normali, i


residui standardizzati
hanno approssimativamente una distribuzione normale con media zero e
varianza 1:

Il grafico invece evidenzia 60% di valori negativi, 84% di valori


compresi tra [-1,1], quindi si può supporre una violazione dell’ipotesi di
normalità

27
4. Violazione dell’ipotesi di Normalità degli errori

Grafico di normalità P-P

Si mettono a confronto la proporzione cumulata del residuo


standardizzato (in ascissa) e la proporzione cumulata attesa nel caso in
cui sia verificata l’ipotesi di normalità (in ordinata).
Se l’ipotesi
p di normalità non è violata i p punti tendono ad allinearsi lungo
g
la bisettrice

28
5. Violazione dell’ipotesi di assenza di collinearità perfetta
COLLINEARITA’ PERFETTA. Sorge quando una delle variabili
esplicative
li ti è una combinazione
bi i li
lineare esatta
tt (perfetta)
( f tt ) delle
d ll altre
lt
variabili. In questo caso non è possibile procedere alla stima della
regressione (lo stimatore OLS non è definito univocamente.)

Esempi di collinearità (o multicollinearità) perfetta

‰ Errore sull’introduzione di una variabile che semplicemente ripete


una variabile già presente nel modello (ad esempio una espressa in
frazione e un
un’altra
altra espressa in termini percentuali)

‰ Introduzione di una variabile dummy per la quale le osservazioni


presentano tutte valore 1 (ad esempio la dummy prevede valore 1 se
le osservazioni presentano un valore superiore ad un dato limite ma
tutte le osservazioni hanno valori superiori)

‰Trappola delle variabili dummy. Si presenta quando si introducono


tutte le categorie di una variabile qualitativa come dummy. In generale
con G variabili binarie (dummy) dobbiamo includere nel modello solo
G-1 variabili (una dummy deve essere esclusa e rappresenterà la
categoria di riferimento)
5. Violazione dell’ipotesi di assenza di collinearità perfetta

COLLINEARITA’ IMPERFETTA.
Se la correlazione tra variabili è troppo alta è possibile che insorga
qualche problema.
problema La presenza di multicollinearità imperfetta non
impedisce la stima della regressione ma le stime ottenute saranno
inaffidabili con standard error elevati, con un segno o un valore
i tt i
inattesi.

In generale, si usa il termine multicollinearità per descrivere il


problema posto dall’esistenza di una relazione lineare approssimata
fra le variabili esplicative che genera stime inaffidabili. Questa
relazione ppuò coinvolgere
g p
più di due regressori,
g ,ppersino tutti.
Misure per la collinearità imperfetta o quasi multicollinearità
La diagnostica della quasi multicollinearità costituisce un processo più articolato.

Un primo passo è osservare i valori della matrice di correlazione computata


sull’insieme delle variabili esplicative.

Per diagnosticare la quasi multicollinerità à si possono effettuare delle regressioni


ausiliarie tra ogni variabile esplicativa e tutte le altre: se in alcune di tali regressioni
si osserva un valore di R2 molto elevato (es. superiore a 0,7) si diagnostica una
quasi multicollinearità.
multicollinearità

Sulla base di tali regressioni ausiliarie può anche essere computato il VIF (Variance
Inflation Factor), basato sul coefficiente di determinazione multiplo R2j relativo alla
regressione della
d ll j-sima variabile
b l esplicativa
l sulle
ll altre
l k
k-1
1
VIF =
1 − R 2j
Al variare di R2j il VIF assume di conseguenza i valori riportati nello schema seguente:

Si sospetta
p per valori del VIF superiori
una Q.M. p p a 3,5
,

comando in stata: estat vif


31
6. Presenza di valori anomali (outliers)
Gli outliers sono osservazioni campionarie che presentano residui
“molto grandi” rispetto al resto delle osservazioni

Sul grafico dei residui la presenza di outliers è segnalata da


punti isolati e molto distanti dagli
p g altri

La presenza di valori anomali può avere effetti rilevanti sulle


stime di regressione

È necessario indagare su tali valori per capire se essi siano


i
imputabili
t bili a errorii di rilevazione
il i oppure siano
i osservazioni
i i
causate da eventi straordinari come scioperi, calamità naturali,…

32
Esempio: valori anomali
2,00
1 50
1,50
dardizzati

1,00
Possibili
valori
0,50
esidui stand

0,00
-0,500,00 5,00 10,00 15,00 20,00 25,00 anomali
-1,00
re

-1,50
-2,00
Y stimati

33
Esempio n.1 tratto dal testo Borra- Di Ciaccio
La Quantità di precipitazioni e le Temperature medie registrate in 10
stazioni meteorologiche sono state le seguenti:

Stazione
1 2 3 4 5 6 7 8 9 10
Meteorologica

PRECIPITAZIONI 29 35 87 32 112 14 26 120 190 85

TEMPERATURA 18 16 14 19 11 20 17 12 9 13

a) Determinare con il metodo dei minimi quadrati la retta di


regressione relativa alla Quantità di Precipitazioni (y) in funzione della
Temperatura media (x)
b) Commentare i risultati ottenuti

34
Grafico di dispersione e retta stimata
200

150
pitazioni

100
precip

50

0
0 5 10 15 20 25
-50
temperatura

35
Risultati- Output Excel
Risultati
Errore Dal valore dei p-
Coefficienti standard Stat t p value
p-value value entrambi i
Intercetta 289,91 26,44 10,96 0,00 coefficienti sono
significativamente
Temperatura -14,56
14,56 1,73 -8,42
8,42 0,00 diversi da zero
ANALISI VARIANZA
gdl SQ MQ F P-value
R
Regressione
i 1 25621,17
25621 17 25621
25621,17
17 70 95
70,95 0 00
0,00
Errore 8 2888,83 361,10
Totale 9 28510,00
Anche
A h con il test
t t
F il coefficiente
Statistica della regressione della variabile
R al quadrato 0 90
0,90 esplicativa è
Errore standard 19,00 Il modello ha significativamente
Osservazioni 10 un buon diverso da zero
adattamento

36
OUTPUT RESIDUI

Y Residui
Osservazione prevista Residui standard
1 27,87 1,13 0,06
2 56,99
56 99 -21
21,99
99 -1
1,23
23
3 86,10 0,90 0,05
4 13,31 18,69 1,04
5 129,77
129 77 -17,77
17 77 -0,99
0 99
6 -1,24 15,24 0,85
7 42,43 -16,43 -0,92
8 115,22
115 22 4 78
4,78 0 27
0,27
9 158,89 31,11 1,74
10 100,66 -15,66 -0,87

37
Grafico dei residui
40

30

20
dui

10
resid

0
-20 0 20 40 60 80 100 120 140 160 180

-10

-20

-30 I residui
es du se
sembrano
b a o
y stimata disposti casualmente
intorno allo zero

38
Grafico dei residui standardizzati

2.0
15
1.5
sidui standar.

1.0
0
0.5
0.0
-50
50 0 50 100 150 200
res

-0.5
-1.0
-1.5
y stimata

39
ESEMPIO N.2

Supponiamo di voler
Punti Costi Ricavi
vendita stimare sulla base delle
1 205 350 seguenti
g osservazioni
2 100 200
3 350 600 campionarie la relazione di
4 270 500 dipendenza lineare dei
5 200 270
6 120 180 ricavi
i iddaii costi
ti
7 105 205
8 210 340
800
9 140 280
10 75 130 600
11 130 200

cavi
12 150 230 400
13 300 500 ric 200
14 60 100
15 35
135 250
50 0
16 145 260 0 100 200 300 400
17 167 270
costi
18 155 255
19 124 187
20 143 188
40
Risultati della regressione-
Output Excel
Errore
Coefficienti standard Stat t p-value
Intercetta -3,75 16,70 -0,22 0,82
Variabile X 1,70 0,09 18,20 0,00
Dal valore del p-
OUTPUT RIEPILOGO value l’intercetta
non è
Statistica della
significativamente
i ifi i
regressione
R al quadrato 0,95 diversa da zero
Errore standard 29,91
Osservazioni 20

ANALISI VARIANZA
gdl SQ MQ F p-value
Regressione 1 296112,59 296112,59 331,07 0,00
Errore 18 16099,16 894,40
Totale 19 312211,75

41
Grafico dei residui

60 I residui sembrano
disposti casualmente
40 intorno allo zero
20
sidui

0
0 200 400 600 800
res

-20

-40

-60

-80
y prevista

42
Grafico dei residui standardizzati

I residui
id i
2.0 standardizzati
potrebbero suggerire
1.5
una violazione
1.0 dell’ipotesi di
0.5 normalità
ui
residu

00
0.0
-0.5 0 200 400 600 800
-1.0
-1.5
-2.0
-2.5
y stimata

43
Osservando
O d il PP-P
P
plot
la violazione
dell’ipotesi di
normalità
èppiù evidente

44