Lezione 10

Assunzioni
(cap. 6) A
M
D
Marcello Gallucci
marcello.gallucci@unimib.it
Lezione 10
Modello Lineare Generale
La regressione semplice e multipla e l'ANOVA sono sottocasi del

modello lineare generale (GLM)
La validità del GLM applicato ai propri dati dipende dalla

soddisfazione di alcune assunzioni relative ai dati
Se le assunzioni sono violate, i risultati saranno distorti

Assunzioni della Regressione Semplice
Quando conduciamo una regressione o una ANOVA, facciamo

implicitamente alcune assunzioni sui dati:
Scopo dell’operazione Assunzione associata
Stimiamo gli effetti di relazione La relazione è lineare
Stimiamo la varianza spiegata La varianza di errore è uguale

per tutti i valori predetti
Testiamo la significatività Gli errori della regressione

sono normalmente distribuiti
Assunzioni e Conseguenze
La violazione di queste assunzioni (se non sono vere) porta a

risultati non corretti
Assunzione Se violata
La relazione è lineare Non apprezziamo la relazione
La varianza di errore è uguale La varianza spiegata sarà

per tutti i valori predetti distorta
Gli errori della regressione Il valore-p sarà diverso dal

sono normalmente distribuiti vero rischio di commettere un
errore nel rifiutare H0
Assunzione 1: Linearità
Come visto precedentemente, la relazione che riusciamo a catturare

con la regressione è una relazione lineare
Relazioni non lineari
Le relazioni non lineari non sono catturate dalla correlazione/regressione
B
Le variabili A e B sono associate
in maniera perfetta, eppure la
loro correlazione è solo 0.2
La correlazione/regressione è in
grado di quantificare solo le
relazioni lineari
A
Relazioni non lineari
La parte non lineare della relazione si perde in quanto le concordanza

tra scostamenti (covarianza) è diversa ai diversi valori delle variabili
Incrementa qui
Incrementa qui
Decrementa qui
Incrementa qui
Incrementa qui 0
In media incrementa di .8 In media incrementa di solo .1

dev.stand. per ogni dev.stad. dev.stand. Per ogni dev.stad.
dell’altra dell’altra
Lezione: 7
Residui del modello
Le assunzioni di Omoschedaticità e di normalità riguardano I residui (errori)
Discrepanza osservati-
predetti
y i =ab yx x i predetti
y i − y i =y i − ab yx x i  errore
Dunque i valori osservati di Y

possono essere espressi come
somma dei valori predetti e l’errore
y i = ab yx x i  y i − y i 
retta errore
Assunzione 2: Omoschedasticità
Quando stimiamo la varianza spiegata assumiamo che la varianza di

errore sia uguale per tutti i valori predetti, cioè gli errori siano
omoschedastici

omoschedastici
Eteroschedasticità
Omoschedasticità
Stessa ampiezza
Differente
ampiezza

omoschedastici

omoschedastici
Eteroschedasticità
Omoschedasticità
Stessa ampiezza
Differente
ampiezza
Assunzione 3: Normalità dei residui
Si assume che i residui siano distribuiti normalmente. Cioè se facciamo

un istogramma dei residui per tutti i soggetti, otteniamo uan distribuzione
fatta a campana
Distribuzione
Residui normali
normale
Assunzione 3: Normalità dei residui
Si assume che i residui siano distribuiti normalmente. Cioè se facciamo

un istogramma dei residui per tutti i soggetti, otteniamo uan distribuzione
fatta a campana
Residui normali Residui non normali

Test delle assunzioni
Analisi dei residui
Per determinare se e quanto le assunzioni sono rispettare, è possible

analizzare i residui della regressione/ANOVA
y i − y i =y i − ab yx x i 
Calcolare i residui
Il calcolo dei residui (di norma fatto dal software automaticamente)

consta nella mera sottrazione, per ogni soggetto, del punteggio predetto
da quello osservato
y i − y i =y i − ab yx x i 
Calcolare i residui
Nell'interfaccia SPSS, accediamo all'opzione “Salva”

Calcolare i residui
Chiediamo di salvare i residui ed i valori predetti
Cosi' facendo verranno create due variabili
PRE= valori predetti
RES= valori residui

Controllo assunzioni
Linearità e omoschedasticità: Se la relazione tra le variabili è lineare e

l'assunzione di omoschedasticità è rispettata, lo scatterplot dei “predetti”
vs “residui” deve avere una forma a “casuale rispetto all'asse delle X”
Omoschedastico
Sembrano
distribuiti a
caso
Possibili violazioni
Non sembrano
distribuiti a caso
Esempi VI Continua
Sembrano Non Sembrano

distribuiti a caso distribuiti a caso
Esempi VI categorica
Non Sembrano
distribuiti a caso
Possibili violazioni
Presenza di casi
estremi “outlier”
Outlier
Outlier o “influential points” sono residui di molto discordanti con la

distribuzione nel campione. Essi corrispondono a soggetti con valori
estremi o nella variabile dipendente o nella indipendente.
Gli outlier si eliminano dall'analisi

Outlier
Outlier o “influential points” sono residui di molto discordanti con la

distribuzione nel campione. Essi corrispondono a soggetti con valori
estremi o nella variabile dipendente o nella indipendente.
Gli outlier si eliminano dall'analisi

Normalità dei residui
Per verificare la normalità dei residui (cioè che si distribuiscano

secondo una distribuzione Gaussiana normale), osserveremo l'istogramma
Test di Normalità
E' possibile testare l'ipotesi nulla che la distribuzione dei residui sia
normale: test di Kolmogorov-Smirnov
Il test di Kolmogorv-
Smirnov testa la differenza
tra la distribuzione dei
residui e una normale
gaussiana
Test di Normalità
Smirnov testa la differenza Se il test NON è
tra la distribuzione dei significativo, l'assunzione
residui e una normale di normalità è rispettata
gaussiana
Normalità dei residui
Per verificare la normalità dei residui (cioè che si distribuiscano

secondo una distribuzione Gaussiana normale), osserveremo l'istogramma
Test di Normalità
Smirnov testa la differenza
tra la distribuzione dei
residui e una normale
gaussiana
Verifica assunzioni
Per poter affermare che i risultati della nostra regressione/ANOVA sono validi,
è necessario che i dati rispettino le assunzioni
É possibile verificare le assunzioni analizzando i residui della

regressione/ANOVA
Il diagramma di dispersione che lega i valori predetti ai residui deve avere un

andamento piatto, simetrico e regolare (banda costante senza outliers)
La distribusione dei residui deve essere normale (test di Kolmogorov-Smirnov)
Nella prossima lezione affronteremo dei possibili rimedi alla violazione delle
assunzioni
Riepilogo
Assunzione Effetto su: Verifica Rimedi

Varianza di errore, R2, Controllo del disegno di
Indipendenza dei residui ANOVA a misure ripetute
test inferenziali ricerca
Omoschedasticità Varianza di errore, R2, Scatterplot dei valori residui e Trasformazione delle
test inferenziali predetti, variabili,
Test non-parametrici
Outlier Tutte le stime del Istogramma dei residui, Eliminare gli outlier
modello Scatterplot delle variabili,
Scatterplot residui-predetti
Normalità dei residui Test inferenziali Istogramma di frequenza, Trasformazione,

Test K-S Test non-parametrici,
MLGZ
Linearità dei coefficienti Coefficienti Scatterplot tra variabili Trasformazioni,

Interpretazione,
modello lineare generalizzato
MLGZ=modello lineare generalizzato

Soluzioni alla violazione
Quando una delle assunzioni è violata, si possono analizzare i dati

seguento tre approcci:
• Cambiare le variabili: Trasformazione delle variabili
•Cambiare test: test non parametrici
•Cambiare modello: Modello lineare generalizzato (vedi lezioni succ.)

Trasformazione delle varibili
dipendenti
Distribuzione dei residui
Variabile dipendente Residui

Distribuzione dei residui
Variabile dipendente Residui

Trasformazione variabili
Quando la variabile dipendente non è distribuita normalmente, si può

operare una trasformazione della variabile al fine di modificarne la
forma della distribuzione
Esistono vari tipi di trasformazioni, suddivisibili in due classi
1) Trasformazioni volte a normalizzare la variabile
2) Trasformazioni in ranghi (ranks)

Normalizzazione
Le trasformazioni volte a normalizzare la distribuzione hanno come

scopo quello di rendere la nuova variabile dipendente “più normale”
dell'originale: Ogni formula può funzionare, purchè non cambi l'ordine
dei punteggi.
Y ' i= f Y i 
Esempi
2
Y ' i=Y i Y ' i=ln Y i Y ' i=1/Y i
Normalizzazione
Se la trasformazione funziona, la nuova variabile sarà una normale

(testate, ad esempio, con il Kolmogov-Smirnof)
Y ' i=lnY i 
Scelta della Trasformazione Normalizzante
Non esiste una regola precisa per scegliere la trasformazione: La

trasformazione che normalizza la variabile è quella che funziona
Calcolo nuova
variabile
Nuova trasformazione
Test di normalità NO
SI
Regression/ANOVa
Trasformazione normalizzante
Se si trova la trasformazione che normalizza la variabile dipendente, i

risultati della regressione/anova saranno più attendibili
Si deve però fare attenzione che le unità di misura sono cambiate,

dunque si interpreteranno preferibilmente i coefficienti standardizzati
Trasformazione in ranghi
Un'altra classe di trasformazioni prevede di calcolare i ranghi delle

variabili continue inserite nelle analisi
La trasformazione in ranghi modifica i test del GLM

(regressione/correlazione/anova) in test non parametrici
Ranghi
I ranghi rappresentano la posizione in una classifica ordinata secondo i punteggi della VD
1.Harvard University
2.Stanford University
Ranghi
3.Massachusetts Institute of Technology (MIT)
4.University of California, Berkeley
5.University of Cambridge
Aumentare di una unità
6.California Institute of Technology
significa scendere di un
posto nella classifica 7.Princeton University
8.Columbia University
9.University of Chicago
Ma la distanza tra le 10.University of Oxford
posizioni non è
necessariamente costante
VD Ranghi
Ranghi
I ranghi rispettano l'ordine

dei punteggi, non la loro
intensità relativa
VD
Ed uniformano la distribuzione dei punteggi
VD Ranghi
Test non parametrici
I test non parametrici (che studiamo in questo corso) equivalgono alle

tecniche statistiche studiate fino ad ora operate dopo aver trasformato le
variabili continue nei loro rispettivi ranghi.
Scopo Tecnica Test

MLG non-parametrico
Relazione tra due variabili Correlazione Correlazione di Spearman
Regressione semplice
standardizzata
Relazione tra una dipendente Regressione multipla Regressione non parametrica
e una o più indipendenti
continue
Confronto fra due gruppi t-test Mann-Whitney
Confronto fra due o più ANOVA Kruskal-Wallis
gruppi
Confronto fra gruppi a misure ANOVA misure ripetute Friedman test
ripetute
Correlazione di Spearman
Consta nel calcolare la correlazione (quella che conosciamo) sui ranghi (R)
delle variabili
COV  RY , R X 
 i=
STD  RY ∗STD R X 
Indica il grado di monotonicità
della relazione tra due variabili
Regressione non-parametrica
Consta nel calcolare regressione sui ranghi delle variabili
Indica il grado di monotonicità della

relazione tra due variabili espressa
come cambiamento del rango in Y per
un rango in più di X
Mann-Whitney
Equivale a calcolare il t-test sui ranghi delle variabili
ttest  N −1
U=
 ttest 2
1
Indica il grado differenza delle
distribuzioni di Y tra due gruppi
Kruskal-Wallis
Equivale a calcolare il ANOVA-one way (la F-test) sui ranghi delle

variabili
Ftest  N −1 K −1
KW =
Indipendente dipendente N −K −Ftest  N −1
Viene però valutato con il Chi-

quadro, invece che con la
distribuizione F
Indica il grado differenza delle

distribuzioni di Y tra vari gruppi
Fine
Fine della Lezione X

Lezione 10

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Lezione 10

Caricato da

Copyright:

Formati disponibili

Assunzioni

La regressione semplice e multipla e l'ANOVA sono sottocasi del

La validità del GLM applicato ai propri dati dipende dalla

Se le assunzioni sono violate, i risultati saranno distorti

Quando conduciamo una regressione o una ANOVA, facciamo

Scopo dell’operazione Assunzione associata

Stimiamo gli effetti di relazione La relazione è lineare

Stimiamo la varianza spiegata La varianza di errore è uguale

Testiamo la significatività Gli errori della regressione

La violazione di queste assunzioni (se non sono vere) porta a

La relazione è lineare Non apprezziamo la relazione

La varianza di errore è uguale La varianza spiegata sarà

Gli errori della regressione Il valore-p sarà diverso dal

Come visto precedentemente, la relazione che riusciamo a catturare

Le relazioni non lineari non sono catturate dalla correlazione/regressione

La parte non lineare della relazione si perde in quanto le concordanza

In media incrementa di .8 In media incrementa di solo .1

Le assunzioni di Omoschedaticità e di normalità riguardano I residui (errori)

Dunque i valori osservati di Y

Quando stimiamo la varianza spiegata assumiamo che la varianza di

Quando stimiamo la varianza spiegata assumiamo che la varianza di

Quando stimiamo la varianza spiegata assumiamo che la varianza di

Quando stimiamo la varianza spiegata assumiamo che la varianza di

Si assume che i residui siano distribuiti normalmente. Cioè se facciamo

Si assume che i residui siano distribuiti normalmente. Cioè se facciamo

Residui normali Residui non normali

Per determinare se e quanto le assunzioni sono rispettare, è possible

Il calcolo dei residui (di norma fatto dal software automaticamente)

Nell'interfaccia SPSS, accediamo all'opzione “Salva”

Chiediamo di salvare i residui ed i valori predetti

Cosi' facendo verranno create due variabili

PRE= valori predetti

RES= valori residui

Linearità e omoschedasticità: Se la relazione tra le variabili è lineare e

Sembrano Non Sembrano

Outlier o “influential points” sono residui di molto discordanti con la

Gli outlier si eliminano dall'analisi

Outlier o “influential points” sono residui di molto discordanti con la

Gli outlier si eliminano dall'analisi

Per verificare la normalità dei residui (cioè che si distribuiscano

Per verificare la normalità dei residui (cioè che si distribuiscano

É possibile verificare le assunzioni analizzando i residui della

Il diagramma di dispersione che lega i valori predetti ai residui deve avere un

La distribusione dei residui deve essere normale (test di Kolmogorov-Smirnov)

Assunzione Effetto su: Verifica Rimedi

Normalità dei residui Test inferenziali Istogramma di frequenza, Trasformazione,

Linearità dei coefficienti Coefficienti Scatterplot tra variabili Trasformazioni,

MLGZ=modello lineare generalizzato

Quando una delle assunzioni è violata, si possono analizzare i dati

• Cambiare le variabili: Trasformazione delle variabili

•Cambiare test: test non parametrici

•Cambiare modello: Modello lineare generalizzato (vedi lezioni succ.)

Variabile dipendente Residui

Variabile dipendente Residui

Quando la variabile dipendente non è distribuita normalmente, si può

Esistono vari tipi di trasformazioni, suddivisibili in due classi

1) Trasformazioni volte a normalizzare la variabile

2) Trasformazioni in ranghi (ranks)

Le trasformazioni volte a normalizzare la distribuzione hanno come

Se la trasformazione funziona, la nuova variabile sarà una normale

Non esiste una regola precisa per scegliere la trasformazione: La

Se si trova la trasformazione che normalizza la variabile dipendente, i

Si deve però fare attenzione che le unità di misura sono cambiate,