Sei sulla pagina 1di 54

Assunzioni

(cap. 6) A
M
D

Marcello Gallucci

marcello.gallucci@unimib.it

Lezione 10
Modello Lineare Generale

La regressione semplice e multipla e l'ANOVA sono sottocasi del


modello lineare generale (GLM)

La validità del GLM applicato ai propri dati dipende dalla


soddisfazione di alcune assunzioni relative ai dati

Se le assunzioni sono violate, i risultati saranno distorti


Assunzioni della Regressione Semplice

Quando conduciamo una regressione o una ANOVA, facciamo


implicitamente alcune assunzioni sui dati:

Scopo dell’operazione Assunzione associata

Stimiamo gli effetti di relazione La relazione è lineare

Stimiamo la varianza spiegata La varianza di errore è uguale


per tutti i valori predetti

Testiamo la significatività Gli errori della regressione


sono normalmente distribuiti
Assunzioni e Conseguenze

La violazione di queste assunzioni (se non sono vere) porta a


risultati non corretti
Assunzione Se violata

La relazione è lineare Non apprezziamo la relazione

La varianza di errore è uguale La varianza spiegata sarà


per tutti i valori predetti distorta

Gli errori della regressione Il valore-p sarà diverso dal


sono normalmente distribuiti vero rischio di commettere un
errore nel rifiutare H0
Assunzione 1: Linearità

Come visto precedentemente, la relazione che riusciamo a catturare


con la regressione è una relazione lineare
Relazioni non lineari

Le relazioni non lineari non sono catturate dalla correlazione/regressione

B
Le variabili A e B sono associate
in maniera perfetta, eppure la
loro correlazione è solo 0.2

La correlazione/regressione è in
grado di quantificare solo le
relazioni lineari

A
Relazioni non lineari

La parte non lineare della relazione si perde in quanto le concordanza


tra scostamenti (covarianza) è diversa ai diversi valori delle variabili

Incrementa qui
Incrementa qui

Decrementa qui

Incrementa qui

Incrementa qui 0

In media incrementa di .8 In media incrementa di solo .1


dev.stand. per ogni dev.stad. dev.stand. Per ogni dev.stad.
dell’altra dell’altra
Lezione: 7
Residui del modello

Le assunzioni di Omoschedaticità e di normalità riguardano I residui (errori)

Discrepanza osservati-
predetti

y i =ab yx x i predetti

y i − y i =y i − ab yx x i  errore

Dunque i valori osservati di Y


possono essere espressi come
somma dei valori predetti e l’errore

y i = ab yx x i  y i − y i 
retta errore
Assunzione 2: Omoschedasticità

Quando stimiamo la varianza spiegata assumiamo che la varianza di


errore sia uguale per tutti i valori predetti, cioè gli errori siano
omoschedastici
Assunzione 2: Omoschedasticità

Quando stimiamo la varianza spiegata assumiamo che la varianza di


errore sia uguale per tutti i valori predetti, cioè gli errori siano
omoschedastici
Eteroschedasticità
Omoschedasticità

Stessa ampiezza
Differente
ampiezza
Assunzione 2: Omoschedasticità

Quando stimiamo la varianza spiegata assumiamo che la varianza di


errore sia uguale per tutti i valori predetti, cioè gli errori siano
omoschedastici
Assunzione 2: Omoschedasticità

Quando stimiamo la varianza spiegata assumiamo che la varianza di


errore sia uguale per tutti i valori predetti, cioè gli errori siano
omoschedastici
Eteroschedasticità
Omoschedasticità

Stessa ampiezza
Differente
ampiezza
Assunzione 3: Normalità dei residui

Si assume che i residui siano distribuiti normalmente. Cioè se facciamo


un istogramma dei residui per tutti i soggetti, otteniamo uan distribuzione
fatta a campana
Distribuzione
Residui normali
normale
Assunzione 3: Normalità dei residui

Si assume che i residui siano distribuiti normalmente. Cioè se facciamo


un istogramma dei residui per tutti i soggetti, otteniamo uan distribuzione
fatta a campana

Residui normali Residui non normali


Test delle assunzioni
Analisi dei residui

Per determinare se e quanto le assunzioni sono rispettare, è possible


analizzare i residui della regressione/ANOVA

y i − y i =y i − ab yx x i 
Calcolare i residui

Il calcolo dei residui (di norma fatto dal software automaticamente)


consta nella mera sottrazione, per ogni soggetto, del punteggio predetto
da quello osservato

y i − y i =y i − ab yx x i 
Calcolare i residui

Nell'interfaccia SPSS, accediamo all'opzione “Salva”


Calcolare i residui

Chiediamo di salvare i residui ed i valori predetti

Cosi' facendo verranno create due variabili

PRE= valori predetti

RES= valori residui


Controllo assunzioni

Linearità e omoschedasticità: Se la relazione tra le variabili è lineare e


l'assunzione di omoschedasticità è rispettata, lo scatterplot dei “predetti”
vs “residui” deve avere una forma a “casuale rispetto all'asse delle X”
Omoschedastico

Sembrano
distribuiti a
caso
Possibili violazioni

Non sembrano
distribuiti a caso
Esempi VI Continua

Sembrano Non Sembrano


distribuiti a caso distribuiti a caso
Esempi VI categorica

Non Sembrano
distribuiti a caso
Possibili violazioni

Presenza di casi
estremi “outlier”
Outlier

Outlier o “influential points” sono residui di molto discordanti con la


distribuzione nel campione. Essi corrispondono a soggetti con valori
estremi o nella variabile dipendente o nella indipendente.

Gli outlier si eliminano dall'analisi


Outlier

Outlier o “influential points” sono residui di molto discordanti con la


distribuzione nel campione. Essi corrispondono a soggetti con valori
estremi o nella variabile dipendente o nella indipendente.

Gli outlier si eliminano dall'analisi


Normalità dei residui

Per verificare la normalità dei residui (cioè che si distribuiscano


secondo una distribuzione Gaussiana normale), osserveremo l'istogramma
Test di Normalità

E' possibile testare l'ipotesi nulla che la distribuzione dei residui sia
normale: test di Kolmogorov-Smirnov

Il test di Kolmogorv-
Smirnov testa la differenza
tra la distribuzione dei
residui e una normale
gaussiana
Test di Normalità

E' possibile testare l'ipotesi nulla che la distribuzione dei residui sia
normale: test di Kolmogorov-Smirnov

Il test di Kolmogorv-
Smirnov testa la differenza Se il test NON è
tra la distribuzione dei significativo, l'assunzione
residui e una normale di normalità è rispettata
gaussiana
Normalità dei residui

Per verificare la normalità dei residui (cioè che si distribuiscano


secondo una distribuzione Gaussiana normale), osserveremo l'istogramma
Test di Normalità

E' possibile testare l'ipotesi nulla che la distribuzione dei residui sia
normale: test di Kolmogorov-Smirnov

Il test di Kolmogorv-
Smirnov testa la differenza
tra la distribuzione dei
residui e una normale
gaussiana
Verifica assunzioni

Per poter affermare che i risultati della nostra regressione/ANOVA sono validi,
è necessario che i dati rispettino le assunzioni

É possibile verificare le assunzioni analizzando i residui della


regressione/ANOVA

Il diagramma di dispersione che lega i valori predetti ai residui deve avere un


andamento piatto, simetrico e regolare (banda costante senza outliers)

La distribusione dei residui deve essere normale (test di Kolmogorov-Smirnov)

Nella prossima lezione affronteremo dei possibili rimedi alla violazione delle
assunzioni
Riepilogo

Assunzione Effetto su: Verifica Rimedi


Varianza di errore, R2, Controllo del disegno di
Indipendenza dei residui ANOVA a misure ripetute
test inferenziali ricerca
Omoschedasticità Varianza di errore, R2, Scatterplot dei valori residui e Trasformazione delle
test inferenziali predetti, variabili,
Test non-parametrici
Outlier Tutte le stime del Istogramma dei residui, Eliminare gli outlier
modello Scatterplot delle variabili,
Scatterplot residui-predetti

Normalità dei residui Test inferenziali Istogramma di frequenza, Trasformazione,


Test K-S Test non-parametrici,
MLGZ

Linearità dei coefficienti Coefficienti Scatterplot tra variabili Trasformazioni,


Interpretazione,
modello lineare generalizzato

MLGZ=modello lineare generalizzato


Soluzioni alla violazione

Quando una delle assunzioni è violata, si possono analizzare i dati


seguento tre approcci:

• Cambiare le variabili: Trasformazione delle variabili

•Cambiare test: test non parametrici

•Cambiare modello: Modello lineare generalizzato (vedi lezioni succ.)


Trasformazione delle varibili
dipendenti
Distribuzione dei residui

Variabile dipendente Residui


Distribuzione dei residui

Variabile dipendente Residui


Trasformazione variabili

Quando la variabile dipendente non è distribuita normalmente, si può


operare una trasformazione della variabile al fine di modificarne la
forma della distribuzione

Esistono vari tipi di trasformazioni, suddivisibili in due classi

1) Trasformazioni volte a normalizzare la variabile

2) Trasformazioni in ranghi (ranks)


Normalizzazione

Le trasformazioni volte a normalizzare la distribuzione hanno come


scopo quello di rendere la nuova variabile dipendente “più normale”
dell'originale: Ogni formula può funzionare, purchè non cambi l'ordine
dei punteggi.

Y ' i= f Y i 
Esempi

2
Y ' i=Y i Y ' i=ln Y i Y ' i=1/Y i
Normalizzazione

Se la trasformazione funziona, la nuova variabile sarà una normale


(testate, ad esempio, con il Kolmogov-Smirnof)

Y ' i=lnY i 
Scelta della Trasformazione Normalizzante

Non esiste una regola precisa per scegliere la trasformazione: La


trasformazione che normalizza la variabile è quella che funziona

Calcolo nuova
variabile
Nuova trasformazione

Test di normalità NO

SI

Regression/ANOVa
Trasformazione normalizzante

Se si trova la trasformazione che normalizza la variabile dipendente, i


risultati della regressione/anova saranno più attendibili

Si deve però fare attenzione che le unità di misura sono cambiate,


dunque si interpreteranno preferibilmente i coefficienti standardizzati
Trasformazione in ranghi

Un'altra classe di trasformazioni prevede di calcolare i ranghi delle


variabili continue inserite nelle analisi

La trasformazione in ranghi modifica i test del GLM


(regressione/correlazione/anova) in test non parametrici
Ranghi

I ranghi rappresentano la posizione in una classifica ordinata secondo i punteggi della VD

1.Harvard University
2.Stanford University
Ranghi
3.Massachusetts Institute of Technology (MIT)
4.University of California, Berkeley
5.University of Cambridge
Aumentare di una unità
6.California Institute of Technology
significa scendere di un
posto nella classifica 7.Princeton University
8.Columbia University
9.University of Chicago
Ma la distanza tra le 10.University of Oxford
posizioni non è
necessariamente costante
Trasformazione in ranghi

VD Ranghi
Trasformazione in ranghi

Ranghi

I ranghi rispettano l'ordine


dei punteggi, non la loro
intensità relativa

VD
Trasformazione in ranghi

Ed uniformano la distribuzione dei punteggi

VD Ranghi
Test non parametrici

I test non parametrici (che studiamo in questo corso) equivalgono alle


tecniche statistiche studiate fino ad ora operate dopo aver trasformato le
variabili continue nei loro rispettivi ranghi.

Scopo Tecnica Test


MLG non-parametrico
Relazione tra due variabili Correlazione Correlazione di Spearman
Regressione semplice
standardizzata
Relazione tra una dipendente Regressione multipla Regressione non parametrica
e una o più indipendenti
continue
Confronto fra due gruppi t-test Mann-Whitney
Confronto fra due o più ANOVA Kruskal-Wallis
gruppi
Confronto fra gruppi a misure ANOVA misure ripetute Friedman test
ripetute
Correlazione di Spearman

Consta nel calcolare la correlazione (quella che conosciamo) sui ranghi (R)
delle variabili
COV  RY , R X 
 i=
STD  RY ∗STD R X 
Indica il grado di monotonicità
della relazione tra due variabili
Regressione non-parametrica

Consta nel calcolare regressione sui ranghi delle variabili

Indica il grado di monotonicità della


relazione tra due variabili espressa
come cambiamento del rango in Y per
un rango in più di X
Mann-Whitney

Equivale a calcolare il t-test sui ranghi delle variabili

ttest  N −1
U=
 ttest 2
1
Indica il grado differenza delle
distribuzioni di Y tra due gruppi
Kruskal-Wallis

Equivale a calcolare il ANOVA-one way (la F-test) sui ranghi delle


variabili
Ftest  N −1 K −1
KW =
Indipendente dipendente N −K −Ftest  N −1

Viene però valutato con il Chi-


quadro, invece che con la
distribuizione F

Indica il grado differenza delle


distribuzioni di Y tra vari gruppi
Fine

Fine della Lezione X