Regressione

Corso di Statistica per la Laurea in Biotecnologie
Annibale Biggeri Michela Baccini - Giulia Carreras abiggeri@ds.unifi.it Dipartimento di Statistica G. Parenti Viale Morgagni 59
Correlazione
Studiamo la relazione tra due variabili casuali continue misurate sulle stesse unit (supponendo un legame funzionale di tipo lineare): Diagramma di dispersione: rappresentazione grafica della relazione tra le due variabili Covarianza, correlazione: misure del grado di associazione tra le due variabili
Diagramma di dispersione
id 1 2 3 4 5 6 7 8 9 10 11 12 1test 12 8 22 10 10 6 8 4 14 6 2 22 2test 12 7 24 14 8 4 5 6 14 5 5 16
4 2 test1 22 test2 24
Distribuzione doppia di misure quantitative
La covarianza
id X x1 x2 Y y1 y2
(xi x )( yi y )
cov =
i =1
1 2 n
xn
yn
La covarianza pu assumere valori positivi o negativi. Assume valore 0 quando non c associazione tra le due variabili. La covarianza non adatta come misura diretta dellassociazione tra due variabili perch influenzate dalle scale di misura delle due variabili
Coefficiente di correlazione
( xi x )( yi y )
r=
i =1
x y
60 -10 0 50
Il coefficiente di correlazione assume valori tra -1 (perfetta correlazione lineare negativa) e 1 (perfetta correlazione lineare positiva).
50 y 30 40 60
40
r=1
30
-30
-20
-40
20
10
-50
10
15 x
20
25
30
10
15 x
20
25
30
10
20
r=-1
r=0.99
10
15 x
20
25
30
r=0.22
50 20 y 25 30 -40 0 5 10 15 x 20 0 -20 0 5 10 15 x 20 25 30 0 50 0 y 100
r=0.13
r=0.89
10
20
30
40
150
200
60
10
15 x
20
25
30
Esempio 1
id 1 2 3 4 5 6 7 8 9 10 11 12 1test 12 8 22 10 10 6 8 4 14 6 2 22 2test 12 7 24 14 8 4 5 6 14 5 5 16
r=0.90 (elevata correlazione positiva) Se il soggetto ha avuto un punteggio positivo al primo test, tende ad avere un punteggio positivo anche al secondo e questa relazione quasi lineare
Coefficiente di correlazione intraclasse

Coefficiente di correlazione = misura di associazione Coefficiente di correlazione intraclasse = misura di concordanza
cov 1 x 2 + y 2 + ( x y )2 2
Esempio: concentrazioni di inquinante rilevate da due centraline
Regressione lineare
Obiettivo dellanalisi di regressione: studio della relazione tra variabili casuali continue. In genere, un modello di regressione stabilisce una relazione tra il valore atteso di una variabile di risposta (variabile dipendente) e il livello di una o pi variabili esplicative (regressori). Punto cruciale: determinare quali variabili esplicative utilizzare. Le tecniche statistiche sono di aiuto solo in minima parte; la conoscenza del fenomeno fondamentale.
Metodo dei minimi quadrati

X regressore x1 , x2 ,..., x N y1 , y2 ,..., y N Y variabile dipendente N osservazioni Si vuole trovare la retta che meglio descrive la relazione tra X e Y. Tra tutte le possibili rette di equazione y = + x , si cerca quella che minimizza la somma dei quadrati degli scarti di ciascun valore osservato di Y da quello stimato dalla retta sulla base del valore di X:
, t.c.
( (
i =1
yi + xi
)) ( y ( + x ))
2 i i i =1
y 1.13217
Linear prediction
yi
scarto
+ xi
.661356 2.33574 x 5.53539
xi
Stimatore dei minimi quadrati

=
(xi x )( yi y ) (xi x )2
E =
= y x
Propriet di correttezza
()
(
E ( ) =
Propriet di minima varianza nellinsieme degli stimatori lineari corretti (stimatore BLUE) sotto lipotesi che
cov Yi , Y j = 0 i j
I valori del regressore sono assunti come dati.
Le ipotesi classiche sul modello di regressione lineare

Se si fanno alcune ipotesi sulla distribuzione della variabile dipendente, possibile dimostrare che il metodo dei minimi quadrati fornisce uno stimatore per i coefficienti della retta di regressione che ha notevoli propriet statistiche (stimatore di massima verosimiglianza) ed possibile formulare dei test statistici e costruire IC sui coefficienti. Ipotesi: Indipendenza Normalit Omoschedasticit
Yi X i ~ N + X i , 2
ind .
Linterpretazione dei coefficienti

corrisponde al valore atteso di Y quando X uguale a 0
(talvolta non ha significato pratico) corrisponde alla variazione media di Y per incremento unitario di X corrisponde alla stima della media di Y in corrispondenza di X. Le stime della varianza per Y in X e per i coefficienti e sono rispettivamente
y = + x
2 1n 2 x 2 1 2 2 2 , = Y | X = Y | X + 2 2 (x x) n ( xi x ) i
Y |X
i =1
( yi y )
E se X una variabile categorica?

Si possono utilizzare diverse parametrizzazioni. Quella pi semplice assume una categoria di riferimento: Nel modello devono essere inserite delle variabili indicatrici di livello (tante quante sono le modalit di X meno uno). Il livello per il quale la variabile indicatrice viene omessa, diventa il livello di riferimento.
rappresenta il valore atteso di Y nella categoria di riferimento. k rappresenta la differenza tra il valore atteso di Y nella categoria k e il valore atteso di Y nella categoria di riferimento.
Il modello di regressione multipla

Nel modello vengono inserite contemporaneamente pi variabili. Il coefficiente relativo ad una variabile deve essere interpretato come incremento (o differenza) a parit delle altre variabili esplicative. Utilizzare un modello di regressione multipla un metodo per tener conto in fase di analisi di fattori che possono confondere la relazione di interesse se non controllati in modo appropriato in fase di disegno dello studio.
La scomposizione della devianza
( yi y )
i =1
= ( yi yi ) + ( yi y )2
2 i =1 i =1
Dev. totale (N-1) gdl
Dev. di errore (N-K) gdl
Dev. di regressione (K-1) gdl
N numerosit campionaria, K numero di coefficienti nel modello R2=(devianza di regressione)/(devianza totale)
Test sui coefficienti (test di Wald)

Statistica test su un singolo coefficiente
o ~ t( N K ) t= ) se(
sotto H0:
= o
Statistica test su r coefficienti Test F(r,N-K)
Loutput STATA
. reg y x Source | SS df MS -------------+-----------------------------Model | .237993961 1 .237993961 Residual | .165648836 28 .00591603 -------------+-----------------------------Total | .403642797 29 .013918717 Number of obs F( 1, 28) Prob > F R-squared Adj R-squared Root MSE = = = = = = 30 40.23 0.0000 0.5896 0.5750 .07692
-----------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------x | .1015039 .0160035 6.34 0.000 .0687223 .1342856 _cons | .4914382 .0649058 7.57 0.000 .3584847 .6243917 ------------------------------------------------------------------------------
Diagnostica del modello

Verifica delle ipotesi del modello
Test di ipotesi (eterogeneit, assenza di autocorrelazione) Analisi dei residui
Osservazioni aberranti (outlier) Punti di leva Influenza

Analisi dei residui
Violazione delle ipotesi del modello

Indipendenza
modelli per dati correlati
Omoschedasticit
modellazione della varianza
Normalit
GLM
Linearit
Modelli additivi (paramentrici e semiparametrici)

Regressione

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Regressione

Caricato da

Copyright:

Formati disponibili

Corso di Statistica per la Laurea in Biotecnologie

Distribuzione doppia di misure quantitative

Coefficiente di correlazione intraclasse

Esempio: concentrazioni di inquinante rilevate da due centraline

Metodo dei minimi quadrati

Stimatore dei minimi quadrati

Le ipotesi classiche sul modello di regressione lineare

Linterpretazione dei coefficienti

E se X una variabile categorica?

Il modello di regressione multipla

La scomposizione della devianza

Dev. totale (N-1) gdl

Dev. di errore (N-K) gdl

Dev. di regressione (K-1) gdl

N numerosit campionaria, K numero di coefficienti nel modello R2=(devianza di regressione)/(devianza totale)

Test sui coefficienti (test di Wald)

Statistica test su r coefficienti Test F(r,N-K)

Diagnostica del modello

Osservazioni aberranti (outlier) Punti di leva Influenza

Violazione delle ipotesi del modello

Potrebbero piacerti anche