Sei sulla pagina 1di 10

Corso di Statistica per la Laurea in Biotecnologie

Annibale Biggeri Michela Baccini - Giulia Carreras abiggeri@ds.unifi.it Dipartimento di Statistica G. Parenti Viale Morgagni 59

Correlazione
Studiamo la relazione tra due variabili casuali continue misurate sulle stesse unit (supponendo un legame funzionale di tipo lineare): Diagramma di dispersione: rappresentazione grafica della relazione tra le due variabili Covarianza, correlazione: misure del grado di associazione tra le due variabili

Diagramma di dispersione
id 1 2 3 4 5 6 7 8 9 10 11 12 1test 12 8 22 10 10 6 8 4 14 6 2 22 2test 12 7 24 14 8 4 5 6 14 5 5 16
4 2 test1 22 test2 24

Distribuzione doppia di misure quantitative

La covarianza
id X x1 x2 Y y1 y2

(xi x )( yi y )
cov =
i =1

1 2 n

xn

yn

La covarianza pu assumere valori positivi o negativi. Assume valore 0 quando non c associazione tra le due variabili. La covarianza non adatta come misura diretta dellassociazione tra due variabili perch influenzate dalle scale di misura delle due variabili

Coefficiente di correlazione

( xi x )( yi y )
r=
i =1

x y
60 -10 0 50

Il coefficiente di correlazione assume valori tra -1 (perfetta correlazione lineare negativa) e 1 (perfetta correlazione lineare positiva).
50 y 30 40 60

40

r=1

30

-30

-20

-40

20

10

-50

10

15 x

20

25

30

10

15 x

20

25

30

10

20

r=-1

r=0.99

10

15 x

20

25

30

r=0.22
50 20 y 25 30 -40 0 5 10 15 x 20 0 -20 0 5 10 15 x 20 25 30 0 50 0 y 100

r=0.13

r=0.89

10

20

30

40

150

200

60

10

15 x

20

25

30

Esempio 1
id 1 2 3 4 5 6 7 8 9 10 11 12 1test 12 8 22 10 10 6 8 4 14 6 2 22 2test 12 7 24 14 8 4 5 6 14 5 5 16

r=0.90 (elevata correlazione positiva) Se il soggetto ha avuto un punteggio positivo al primo test, tende ad avere un punteggio positivo anche al secondo e questa relazione quasi lineare

Coefficiente di correlazione intraclasse


Coefficiente di correlazione = misura di associazione Coefficiente di correlazione intraclasse = misura di concordanza

cov 1 x 2 + y 2 + ( x y )2 2

Esempio: concentrazioni di inquinante rilevate da due centraline

Regressione lineare
Obiettivo dellanalisi di regressione: studio della relazione tra variabili casuali continue. In genere, un modello di regressione stabilisce una relazione tra il valore atteso di una variabile di risposta (variabile dipendente) e il livello di una o pi variabili esplicative (regressori). Punto cruciale: determinare quali variabili esplicative utilizzare. Le tecniche statistiche sono di aiuto solo in minima parte; la conoscenza del fenomeno fondamentale.

Metodo dei minimi quadrati


X regressore x1 , x2 ,..., x N y1 , y2 ,..., y N Y variabile dipendente N osservazioni Si vuole trovare la retta che meglio descrive la relazione tra X e Y. Tra tutte le possibili rette di equazione y = + x , si cerca quella che minimizza la somma dei quadrati degli scarti di ciascun valore osservato di Y da quello stimato dalla retta sulla base del valore di X:

, t.c.

( (
i =1

yi + xi

)) ( y ( + x ))
2 i i i =1

y 1.13217

Linear prediction

yi
scarto

+ xi
.661356 2.33574 x 5.53539

xi

Stimatore dei minimi quadrati


=

(xi x )( yi y ) (xi x )2
E =

= y x

Propriet di correttezza

()
(

E ( ) =

Propriet di minima varianza nellinsieme degli stimatori lineari corretti (stimatore BLUE) sotto lipotesi che

cov Yi , Y j = 0 i j
I valori del regressore sono assunti come dati.

Le ipotesi classiche sul modello di regressione lineare


Se si fanno alcune ipotesi sulla distribuzione della variabile dipendente, possibile dimostrare che il metodo dei minimi quadrati fornisce uno stimatore per i coefficienti della retta di regressione che ha notevoli propriet statistiche (stimatore di massima verosimiglianza) ed possibile formulare dei test statistici e costruire IC sui coefficienti. Ipotesi: Indipendenza Normalit Omoschedasticit

Yi X i ~ N + X i , 2

ind .

Linterpretazione dei coefficienti


corrisponde al valore atteso di Y quando X uguale a 0
(talvolta non ha significato pratico) corrisponde alla variazione media di Y per incremento unitario di X corrisponde alla stima della media di Y in corrispondenza di X. Le stime della varianza per Y in X e per i coefficienti e sono rispettivamente

y = + x

2 1n 2 x 2 1 2 2 2 , = Y | X = Y | X + 2 2 (x x) n ( xi x ) i
Y |X

i =1

( yi y )

E se X una variabile categorica?


Si possono utilizzare diverse parametrizzazioni. Quella pi semplice assume una categoria di riferimento: Nel modello devono essere inserite delle variabili indicatrici di livello (tante quante sono le modalit di X meno uno). Il livello per il quale la variabile indicatrice viene omessa, diventa il livello di riferimento.

rappresenta il valore atteso di Y nella categoria di riferimento. k rappresenta la differenza tra il valore atteso di Y nella categoria k e il valore atteso di Y nella categoria di riferimento.

Il modello di regressione multipla


Nel modello vengono inserite contemporaneamente pi variabili. Il coefficiente relativo ad una variabile deve essere interpretato come incremento (o differenza) a parit delle altre variabili esplicative. Utilizzare un modello di regressione multipla un metodo per tener conto in fase di analisi di fattori che possono confondere la relazione di interesse se non controllati in modo appropriato in fase di disegno dello studio.

La scomposizione della devianza

( yi y )
i =1

= ( yi yi ) + ( yi y )2
2 i =1 i =1

Dev. totale (N-1) gdl

Dev. di errore (N-K) gdl

Dev. di regressione (K-1) gdl

N numerosit campionaria, K numero di coefficienti nel modello R2=(devianza di regressione)/(devianza totale)

Test sui coefficienti (test di Wald)


Statistica test su un singolo coefficiente

o ~ t( N K ) t= ) se(

sotto H0:

= o

Statistica test su r coefficienti Test F(r,N-K)

Loutput STATA
. reg y x Source | SS df MS -------------+-----------------------------Model | .237993961 1 .237993961 Residual | .165648836 28 .00591603 -------------+-----------------------------Total | .403642797 29 .013918717 Number of obs F( 1, 28) Prob > F R-squared Adj R-squared Root MSE = = = = = = 30 40.23 0.0000 0.5896 0.5750 .07692

-----------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------x | .1015039 .0160035 6.34 0.000 .0687223 .1342856 _cons | .4914382 .0649058 7.57 0.000 .3584847 .6243917 ------------------------------------------------------------------------------

Diagnostica del modello


Verifica delle ipotesi del modello
Test di ipotesi (eterogeneit, assenza di autocorrelazione) Analisi dei residui

Osservazioni aberranti (outlier) Punti di leva Influenza


Analisi dei residui

Violazione delle ipotesi del modello


Indipendenza
modelli per dati correlati

Omoschedasticit
modellazione della varianza

Normalit
GLM

Linearit
Modelli additivi (paramentrici e semiparametrici)