Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
BIOSTATISTICA
6. Modelli statistici:
analisi della regressione
lineare
MODELLO STATISTICO
Rappresentazione seplificata, analogica e
necessaria della realtà
Y = f(X1, X2,…,Xp) + ε
Modelli
statistici
Semplici (una X e
una Y) Lineari
Multipli (più di
una X ma una Y) Non lineari
Multivariati
(più di una X
e più di una Y)
Terminologia
Y = f(X1, X2,…,Xp)
Y: variabile dipendente
X1,…,Xp: variabili esplicative
ε: variabile casuale errore
Y = f(X1, X2,…,Xp) + ε
Y
X = velocità di un
autoveicolo
Y = spazio di
frenata
Covariano
positivamente
X
Y
Covariano
negativamente
X
Y
Non covariano
X
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.10
6. ANALISI DELLA REGRESSIONE LINEARE
x =15 y =18
n
Σi=1(x – x )(y – y )
Cov(X,Y) =
n-1
n
Σi=1(x – x )(y – y )
Cov(X,Y) =
n-1
Y Y Y
X X X
X Y
10 14
15 17
20 19
14 16
12 15
16 21
18 24
30
25
20
Y
15
10
0
9 11 13 15 17 19 21
X
Cov(X,Y)=9.5 > 0
COEFFICIENTE DI
CORRELAZIONE
COVARIANZA
Cov(X,Y)
ρ=
sd(X) . sd(Y)
Deviazione Deviazione
standard standard
-1 0 1
Cov(X,Y)= Cov(X,Y)=
Cov(X,Y)=0
- sd(X) . sd(Y) NON c’è sd(X) . sd(Y)
PERFETTA correlazione PERFETTA
Correlazione Correlazione
NEGATIVA POSITIVA
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.14
6. ANALISI DELLA REGRESSIONE LINEARE
β1>0
1 β1<0
1
x x+1 x x+1
X X
yi = β0 + β1xi + εi yi = β0 - β1xi + εi
Y
β1=0
x x+1
X
yi = β0 + εi
Y
ŷ = βˆ 0 + βˆ 1x
yi
ε̂ i
ŷi
Scarti: εi = yi - ŷi
∑ (x
n
i − x )( y i − y )
Cov( X, Y )
βˆ 1 = i =1
=
∑ (x
n
Var( X)
i − x )2
i=1
βˆ 0 = y − βˆ 1x
dove
∑ i ∑ yi ;
1 1
x= x ; y =
n n
∑ ( x − x )( y − y )
n
∑
i i
1 n
Var ( X ) = ( xi − x ) 2 ; Cov(X, Y) = i =1
n − 1 i =1 n −1
Coefficiente di ?
β1
correlazione
Cov(X,Y) Cov(X,Y)
ρ= β1 =
sd(X) . sd(Y) Var(X)
1) Ricavo ρ da β1
sd(X)
ρ = β1
sd(Y)
2) Ricavo β1 da ρ
sd(Y)
β1 = ρ
sd(X)
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.19
6. ANALISI DELLA REGRESSIONE LINEARE
Dalla popolazione di camelie estraiamo un
campione di 15 foglie della varietà cordiforme
sui quali misuriamo la variabile X (peso vivo)
e Y (peso secco). Otteniamo i seguenti valori:
X Y
9.705 3.816
7.267 3.130
8.459 2.955
12.476 4.809
10.296 4.269
8.424 3.291
7.910 2.274
8.879 3.308
11.160 4.340
5.295 1.948
8.421 3.715
12.232 5.340
5.422 2.212
9.900 2.512
12.441 5.277
Trovare la retta di regressione dei minimi
quadrati che spiega Y in funzione di X
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.20
6. ANALISI DELLA REGRESSIONE LINEARE
6
5
4
3
Y
2
1
0
0 2 4 6 8 10 12 14
x = 9.2191 y = 3.5464
n=15
Cov(X,Y)
β1 = β0 = y – β1x
Var(X)
15-1
Cov(X,Y) = 2.2324
Var(X) = 5.2140
6
5
4
3
Y
2
1
0
0 2 4 6 8 10 12 14
6
5
4
3
Y
2
1
0
-1 1 3 5 7 9 11 13
Punto 1 : Punto 2 :
x=-0.4009, y=0 x=10, y=3.8807
y = β0 + β1 x
Intercetta:
•valore che assume y
quando x=0
•punto nel quale la retta
incorcia l’asse delle y
Pendenza:
•indica di quanto varia y
al variare di un’unità di x
•Il segno indica il verso
dell’inclinazione
yi = β0 + β1xi + εi
β0+β
β1x3
Normale
β0+β
β1x2 per Y
quando
X=x3
Normale
β0+β
β1x1 per Y
quando
Normale
X=x2
per Y
quando
X=x1
x1 x2 x3 X
Y|X=x1 ~ N(β0+β1x1,σ2)
Y|X=x2 ~ N(β0+β1x2,σ2)
Y|X=x3 ~ N(β0+β1x3,σ2)
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.27
6. ANALISI DELLA REGRESSIONE LINEARE
Y|X=xi ~ N(β0+β1xi, σ2 )
Omoschedasticità
Var(yi) = σ2
yi = β0 + β1xi + εi
Scarti (Residui):
εi = yi – (β
β0+β
β1xi)
εi ~ N(0,σ
σ2) Stessa variabilità di Y
0 0
εi εi
Assunzione rispettata Assunzione violata
UNIVERSO PARAMETRI
CAMPIONE STIMATORI
y = - 0.4009 + 0.4282 . x
CAMPIONE STIMATORI
POPOLAZIONE BERSAGLIO
Β0 ~ T(β
β0,σ
σ2β0)
Media campionaria
β0
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.32
6. ANALISI DELLA REGRESSIONE LINEARE
POPOLAZIONE BERSAGLIO
Β1 ~ T(β
β1,σ
σ2β1)
Media campionaria
β1
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.33
6. ANALISI DELLA REGRESSIONE LINEARE
β0 β0,σ
T(β σ2β0)
Ipotesi nulla:
H0: β0 = 0 La retta di regressione passa
per il punto di coordinate (0,0)
Test del T di
Student
Dal campione:
β0 = y – β1x Stima campionaria
2
1 (x) Deviazione standard
β0) = s
se(β + campionaria
n Dev(x)
β1 β1,σ
T(β σ2β1)
Ipotesi nulla:
H1: β1 = 0 La retta di regressione ha
pendeza 0
Test del T di
Student
Dal campione:
Cov(x,y) Stima campionaria
β1 =
Var(x)
s Deviazione standard
β1) =
se(β Dev(x) campionaria
β1 β0
P-value=0.25
P-value=0.03
β0 β0
β0 = 0
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.37
3.6.
CONFRONTO
ANALISI DELLA
TRAREGRESSIONE
MEDIE DI DUE LINEARE
CAMPIONI
INDIPENDENTI
H0: β0 = 0 vs H1: β0 = 0
Unidirezionale
β0 sotto H0)
P-value = Pr ( B0 >β
Bidirezionale
2*P-value
P-value=0.06
P-value=0.03 P-value=0.03
β0
-β β0
β0 = 0
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.38
6. ANALISI DELLA REGRESSIONE LINEARE
P-Value: probabilità di ottenere un
risultato campionario altrettanto o più
estremo di quello osservato, se H0 è
vera
β1 sotto H0)
P-value = Pr ( B1 >β
P-value=0.25
P-value=0.03
β1 β1
β1 = 0
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.39
3.6.
CONFRONTO
ANALISI DELLA
TRAREGRESSIONE
MEDIE DI DUE LINEARE
CAMPIONI
INDIPENDENTI
H0: β1 = 0 vs H1: β1 = 0
Unidirezionale
β1 sotto H0)
P-value = Pr ( B1 >β
Bidirezionale
2*P-value
P-value=0.06
P-value=0.03 P-value=0.03
β1
-β β1
β1 = 0
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.40
6. ANALISI DELLA REGRESSIONE LINEARE
∑y
Deviazione standard
y= i
i
∑(y i − y) 2
n sy = i
n −1 (n − 1) s y2 (1 − ρ 2xy )
= 3.5464 s=
= 1.1773 n−2
∑x ∑ (x − x)
Varianza = 0.5465
2
i i
x= i
sx =
2 i
n n −1
= 9.2191 = 5.2140
Errore standard
βˆ 0 = y − βˆ 1 x 1 ( x )2
=s + 1
2
esβ0 t g = βˆ 0
n Devx es 2 β) 0
= −0.4009 = −0.14
= 2.722
Cov(x, y) Errore standard
βˆ1 = esβ1 =
2 s
t g = βˆ 1
1
sx2 Devx es 2 β)1
= 6.69
= 0.4282
= 0.064
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.42
6. ANALISI DELLA REGRESSIONE LINEARE
β0) = Pr ( B0 >β
P-value(β β0 sotto H0)
β1) = Pr ( B1>β
P-value(β β1 sotto H0)
Rifiuto H0
6
5
4
3
Y
2
1
0
-1 1 3 5 7 9 11 13
Punto 1 : Punto 2 :
x=-0.4009, y=0 x=10, y=3.8807
yi-y
yi
xi
Devianza totale:
X Y
9.705 3.816
7.267 3.130
8.459 2.955
12.476 4.809
10.296 4.269
Campione
8.424 3.291
7.910 2.274 n=15
8.879 3.308
y = 3.5464
11.160 4.340
5.295 1.948
8.421 3.715
12.232 5.340
5.422 2.212
9.900 2.512
12.441 5.277
= 16.7289
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.48
6. ANALISI DELLA REGRESSIONE LINEARE
yi-yi
yi
yi = β0 + β1 xi
xi
Devianza RESIDUA:
X Y Y yi = β0 + β1 xi
9.705 3.816 3.754 -0.4007 + 0.4282 . 9.705 = 3.754
7.267 3.130 2.711
8.459 2.955 3.221
.
12.476 4.809 4.941
10.296 4.269 4.007 .
8.424 3.291 3.206
.
7.910 2.274 2.986
8.879 3.308 3.401 .
11.160 4.340 4.377
.
5.295 1.948 1.866
8.421 3.715 3.205 .
12.232 5.340 4.836
.
5.422 2.212 1.921
9.900 2.512 3.838
12.441 5.277 4.926 -0.4007 + 0.4282 . 12.441 = 4.836
= 3.3472
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.50
6. ANALISI DELLA REGRESSIONE LINEARE
yi - y
yi
yi = β0 + β1 xi
xi
DevS= Σi (yi – y)
2
X Y Y yi = β0 + β1 xi
9.705 3.816 3.754
7.267 3.130 2.711
8.459 2.955 3.221
12.476 4.809 4.941
10.296 4.269 4.007
y = 3.5464
8.424 3.291 3.206
7.910 2.274 2.986
8.879 3.308 3.401
11.160 4.340 4.377
5.295 1.948 1.866
8.421 3.715 3.205
12.232 5.340 4.836
5.422 2.212 1.921
9.900 2.512 3.838
12.441 5.277 4.926
= 13.3817
MARTA BLANGIARDO – ANALISI DELLA REGRESSIONE LINEARE 6.52
6. ANALISI DELLA REGRESSIONE LINEARE
Fonti di Gradi di
variabilità devianza libertà varianza
Spiegata dal
13.3817 + k-1 = 1 13.3817
modello
Distribuzione F1,13
Area di accettazione
Area di rifiuto
0.95 0.05
4.6672
Valore tabulato
51.97
Valore empirico
rifiutiamo H0 ovvero la relazione tra le due
p < 0.05
variabili è ben spiegata da un modello di
regressione lineare
X: 42 41 39 40 40 40 39 39 41 42 41 43 43 41 38
37 38 43 35 37 35 38 40 42 39 34