Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Annibale Biggeri Michela Baccini - Giulia Carreras abiggeri@ds.unifi.it Dipartimento di Statistica G. Parenti Viale Morgagni 59
Correlazione
Studiamo la relazione tra due variabili casuali continue misurate sulle stesse unit (supponendo un legame funzionale di tipo lineare): Diagramma di dispersione: rappresentazione grafica della relazione tra le due variabili Covarianza, correlazione: misure del grado di associazione tra le due variabili
Diagramma di dispersione
id 1 2 3 4 5 6 7 8 9 10 11 12 1test 12 8 22 10 10 6 8 4 14 6 2 22 2test 12 7 24 14 8 4 5 6 14 5 5 16
4 2 test1 22 test2 24
La covarianza
id X x1 x2 Y y1 y2
(xi x )( yi y )
cov =
i =1
1 2 n
xn
yn
La covarianza pu assumere valori positivi o negativi. Assume valore 0 quando non c associazione tra le due variabili. La covarianza non adatta come misura diretta dellassociazione tra due variabili perch influenzate dalle scale di misura delle due variabili
Coefficiente di correlazione
( xi x )( yi y )
r=
i =1
x y
60 -10 0 50
Il coefficiente di correlazione assume valori tra -1 (perfetta correlazione lineare negativa) e 1 (perfetta correlazione lineare positiva).
50 y 30 40 60
40
r=1
30
-30
-20
-40
20
10
-50
10
15 x
20
25
30
10
15 x
20
25
30
10
20
r=-1
r=0.99
10
15 x
20
25
30
r=0.22
50 20 y 25 30 -40 0 5 10 15 x 20 0 -20 0 5 10 15 x 20 25 30 0 50 0 y 100
r=0.13
r=0.89
10
20
30
40
150
200
60
10
15 x
20
25
30
Esempio 1
id 1 2 3 4 5 6 7 8 9 10 11 12 1test 12 8 22 10 10 6 8 4 14 6 2 22 2test 12 7 24 14 8 4 5 6 14 5 5 16
r=0.90 (elevata correlazione positiva) Se il soggetto ha avuto un punteggio positivo al primo test, tende ad avere un punteggio positivo anche al secondo e questa relazione quasi lineare
cov 1 x 2 + y 2 + ( x y )2 2
Regressione lineare
Obiettivo dellanalisi di regressione: studio della relazione tra variabili casuali continue. In genere, un modello di regressione stabilisce una relazione tra il valore atteso di una variabile di risposta (variabile dipendente) e il livello di una o pi variabili esplicative (regressori). Punto cruciale: determinare quali variabili esplicative utilizzare. Le tecniche statistiche sono di aiuto solo in minima parte; la conoscenza del fenomeno fondamentale.
, t.c.
( (
i =1
yi + xi
)) ( y ( + x ))
2 i i i =1
y 1.13217
Linear prediction
yi
scarto
+ xi
.661356 2.33574 x 5.53539
xi
(xi x )( yi y ) (xi x )2
E =
= y x
Propriet di correttezza
()
(
E ( ) =
Propriet di minima varianza nellinsieme degli stimatori lineari corretti (stimatore BLUE) sotto lipotesi che
cov Yi , Y j = 0 i j
I valori del regressore sono assunti come dati.
Yi X i ~ N + X i , 2
ind .
y = + x
2 1n 2 x 2 1 2 2 2 , = Y | X = Y | X + 2 2 (x x) n ( xi x ) i
Y |X
i =1
( yi y )
rappresenta il valore atteso di Y nella categoria di riferimento. k rappresenta la differenza tra il valore atteso di Y nella categoria k e il valore atteso di Y nella categoria di riferimento.
( yi y )
i =1
= ( yi yi ) + ( yi y )2
2 i =1 i =1
o ~ t( N K ) t= ) se(
sotto H0:
= o
Loutput STATA
. reg y x Source | SS df MS -------------+-----------------------------Model | .237993961 1 .237993961 Residual | .165648836 28 .00591603 -------------+-----------------------------Total | .403642797 29 .013918717 Number of obs F( 1, 28) Prob > F R-squared Adj R-squared Root MSE = = = = = = 30 40.23 0.0000 0.5896 0.5750 .07692
-----------------------------------------------------------------------------y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------x | .1015039 .0160035 6.34 0.000 .0687223 .1342856 _cons | .4914382 .0649058 7.57 0.000 .3584847 .6243917 ------------------------------------------------------------------------------
Omoschedasticit
modellazione della varianza
Normalit
GLM
Linearit
Modelli additivi (paramentrici e semiparametrici)