Regressione Lineare Semplice

Regressione lineare semplice
22-29 maggio 2018
1 / 29
Modelli empirici
x y = f (x)
Legge
input fisica f output
Idealmente:
P V
y1 y5
y4
y2
y3
y3
y4 y2
y5 y1
x1x2 x3 x4 x5 V x1 x2 x3 x4 x5 I
Gas perfetto Corrente-tensione

2 / 29
Modelli empirici
x y = f (x)
Legge
Idealmente:
P V
y1 y5
C V = f (I) ≡ RI
P = f (V ) ≡ V
y4
y2
y3
y3
y4 y2
y5 y1
x1x2 x3 x4 x5 V x1 x2 x3 x4 x5 I

2 / 29
Modelli empirici
x y = f (x)
Legge
Realisticamente:
P V
y1 C V = f (I) ≡ RI
P = f (V ) ≡ V y5
y2 y3
y3 y4
y4 y2
y5 y1
x1x2 x3 x4 x5 V x1 x2 x3 x4 x5 I

2 / 29
Modelli empirici
x y = f (x)
Legge
Vogliamo trovare f !
P V
y1 C V = f (I) ≡ RI
P = f (V ) ≡ V y5
y2 y3
y3 y4
y4 y2
y5 y1
x1x2 x3 x4 x5 V x1 x2 x3 x4 x5 I

2 / 29
Modello lineare
C’è sempre un polinomio di grado n − 1 che passa per n punti:
y5
y3
y4
y2
y1
x1 x2 x3 x4 x5 x
3 / 29
Modello lineare
Ma noi vogliamo la funzione più
y semplice possibile: la retta
y = a + bx
y5
y3 parametrizzata solo da (a, b).
y4
y2
y1
x1 x2 x3 x4 x5 x
3 / 29
Modello lineare
y = a + bx
y5
y4
Come facciamo a dire se la retta
y2
y1 di parametri (a, b) approssima
bene gli n punti?
x1 x2 x3 x4 x5 x
3 / 29
Modello lineare
L(a, b) = 0.558 y = a + bx
e5
y5
y3 e3 e4
parametrizzata solo da (a, b).
y4
e2
y2
y1
e1 di parametri (a, b) approssima
bene gli n punti?
x1 x2 x3 x4 x5 x
Dobbiamo introdurre gli errori (o residui)
ei := yi − (a + bxi )
e un funzionale di errore
n n
(yi − a − bxi ) 2 = ei 2
X X
L(a, b) :=
i=1 i=1
3 / 29
Modello lineare
L(a, b) = 1.001 y = a + bx
y5
y4
y2
bene gli n punti?
x1 x2 x3 x4 x5 x
ei := yi − (a + bxi )
n n
(yi − a − bxi ) 2 = ei 2
X X
L(a, b) :=
i=1 i=1
3 / 29
Modello lineare
L(a, b) = 7.283 y = a + bx
y5
y4
y2
bene gli n punti?
x1 x2 x3 x4 x5 x
ei := yi − (a + bxi )
n n
(yi − a − bxi ) 2 = ei 2
X X
L(a, b) :=
i=1 i=1
3 / 29
Modello lineare
y = a + bx
y5
y4
y2
bene gli n punti?
x1 x2 x3 x4 x5 x
Dobbiamo introdurre gli errori (o residui) Perché qui si
ei := yi − (a + bxi ) mette il quadrato?
n n
2 2
X X
L(a, b) := (yi − a − bxi ) = ei
i=1 i=1
3 / 29
Modello lineare
Col quadrato: Senza quadrato:
L(a, b) ≥ 0 ∀(a, b)
i residui si compensano
L(∞) = +∞
@ minimo
∃! punto di minimo (â, b̂)
4 / 29
Modello lineare
Col quadrato: Senza quadrato:
L(a, b) ≥ 0 ∀(a, b)
i residui si compensano
L(∞) = +∞
@ minimo
∃! punto di minimo (â, b̂)
La retta y = â + b̂x si chiama retta dei minimi quadrati (LSL = least

square line)
4 / 29
Retta dei minimi quadrati
Cerchiamo (â, b̂) ponendo ∇L(â, b̂) ≡ 0:
n
∂L ∂ X
= (yi − a − bxi )2
∂a ∂a
i=1
Xn
= −2 (yi − a − bxi ) = −2(nȳ − na − nbx̄)
i=1
≡0
⇒ a = ȳ − bx̄
dove n n
1X 1X
x̄ := xi ȳ := yi .
n n
i=1 i=1
5 / 29
Retta dei minimi quadrati
Cerchiamo (â, b̂) ponendo ∇L(â, b̂) ≡ 0:
n
∂L ∂ X
= (yi − a − bxi )2
∂b ∂b
i=1
Xn
= −2 xi (yi − a − bxi )
i=1
n n
!
X X
= −2 xi yi − nax̄ − b xi2
i=1 i=1
n n
!
X X
= −2 xi yi − nx̄(ȳ − bx̄) − b xi2 con a = ȳ − bx̄
i=1 i=1
≡0
P P
xi yi − nx̄ ȳ (xi − x̄)(yi − ȳ )
⇒ b= P 2 =
(xj − x̄)2
P
xj − nx̄ 2
5 / 29
Sintesi dei dati
Dai punti (x1 , y1 ), . . . , (xn , yn ) distilliamo le quantità
n n
1X 1X
x̄ := xi ȳ := yi
n n
i=1 i=1
n
X n
X n
X
sxx := (xi − x̄)2 sxy := (xi − x̄)(yi − ȳ ) syy := (yi − ȳ )2
i=1 i=1 i=1
Tutte le altre quantità della retta dei minimi quadrati si esprimono in
funzione di queste. P. es.:
sxy sxy
â = ȳ − x̄ b̂ = parametri della LSL
sxx sxx
sxy
ŷi := â + b̂xi = ȳ + (xi − x̄) output della LSL
sxx
sxy
êi := yi − ŷi = (yi − ȳ ) + (xi − x̄) residui della LSL
sxx
6 / 29
Varianza totale
X
sst := syy = (yi − ȳ )2 total sum of squares
i
sst ≥ 0.
sst non dipende dall’aver scelto il modello lineare.
sst 6= 0 anche se tutti i punti stanno esattamente su una retta
(a meno che yi = yj per ogni i, j ⇒ stanno su un’orizzontale)
sst = ssr + sse , dove:
- ssr è intrinseca al modello lineare (varianza spiegata)
- sse dipende dalla dispersione dei punti intorno alla retta dei
minimi quadrati (varianza residua)
7 / 29
Varianza residua
X X X
sse := êi2 = (yi − ŷi )2 = (yi − â − b̂xi )2
i i i
= L(â, b̂) = min L(a, b) error sum of squares
(a,b)
sse ≥ 0.
sse = 0 se e solo se tutti i punti stanno esattamente su una retta:
⇒: sse = 0 ⇒ (yi − â − b̂xi )2 = 0 per ogni i
⇒ yi = â + b̂xi per ogni i
⇐: yi = a + bxi per ogni i ⇒ L(a, b) = 0
⇒ sse = min L(a, b) = 0
(a,b)
Se sse = 0, tutti i punti stanno sulla LSL.
8 / 29
Varianza spiegata
X 2
X
2 sxy
ssr := (ȳ − ŷi ) = ȳ − ȳ + (xi − x̄)
sxx
i i
2 X 2
sxy

sxy
= (xi − x̄)2 = regression sum of squares
sxx sxx
i
ssr ≥ 0.
sst = ssr + sse . Infatti,
X 2
X sxy
sse = (yi − ŷi )2 = yi − ȳ + (xi − x̄)
sxx
2
sxy 2

X sxy sxy
= (yi − ȳ ) − (xi − x̄) = syy − 2 sxy + sxx
sxx sxx sxx
2
sxy
= syy −
sxx
9 / 29
Coefficiente di determinazione
ssr ssr sse

r 2 := = =1−
sst ssr + sse ssr + sse
sse
=1− coefficiente di determinazione
sst
0 ≤ r 2 ≤ 1.
Quanto più r 2 ≈ 1, tanto più i punti si dispongono su una retta.
r 2 è la “percentuale di variabilità spiegata dal modello lineare”.
2 /s
sxy 2
sxy
xx
r2 = =
syy sxx syy
10 / 29
Coefficiente di correlazione
sxy
r := √ coefficiente di correlazione
sxx syy
−1 ≤ r ≤ 1
r 2 è il coefficiente di determinazione
Se r > 0.9, i dati sono ben approssimati da una retta di pendenza
positiva
Se r < −0.9, i dati sono ben approssimati da una retta di
pendenza negativa
11 / 29
Il modello statistico
x Legge fisica Y = a + bx + E
input deterministico y = a + bx output probabilistico

(numero reale) (v. a.)
Se facciamo n misure:
x1 , x2 , . . . , xn −→ Y1 , Y2 , . . . , Yn con Yi = a + bxi + Ei
12 / 29
x Legge fisica Y = a + bx + E
input deterministico y = a + bx output probabilistico

(numero reale) (v. a.)
Se facciamo n misure:
x1 , x2 , . . . , xn −→ Y1 , Y2 , . . . , Yn con Yi = a + bxi + Ei
Ipotesi fondamentale del modello lineare:
E1 , E2 , . . . , En i. i. d.;
Ei ∼ N(0, σ 2 ), con σ 2 incognita.
⇒ Yi ∼ N(a + bxi , σ 2 ) e Y1 , Y2 , . . . , Yn indipendenti, ma non

identicamente distribuite!
12 / 29
Nel modello lineare, quali sono le varibili aleatorie?
Era: Diventa: Ora è una v.a.?

x̄ = n1 x̄ = n1
P P
xi xi No
ȳ = n1 Ȳ = n1
P P
yi Yi Sì
sxx = (xi − x̄)2 sxx = (xi − x̄)2

P P
No
P P
sxy = (xi − x̄)(yi − ȳ ) SxY = (xi − x̄)(Yi − Ȳ ) Sì
syy = (yi − ȳ )2 SYY = (Yi − Ȳ )2

P P
Sì
Ecc.
13 / 29
y = a + bx
(legge vera)
14 / 29
y
punti osservati
Y5
E5
Y3 y = a + bx
Y2
E3 (legge vera)
E2 E4
Y4
E1
Y1
x1 x2 x3 x4 x5 x
Ei = errori di misura (residui di y = a + bx) NON MISURABILI

perché a, b incogniti
14 / 29
y
Ŷ = Â + B̂x
Y5 (minimi quadrati)
Ê5
E5
Y3 y = a + bx
Ê3
Y2
E3
Ê4 (legge vera)
Ê2 E2 E4
Y4
E1
Ê1
Y1
x1 x2 x3 x4 x5 x
Ei = errori di misura (residui di y = a + bx)

Ŷ = Â + B̂x interpola i punti (x1 , Y1 ), . . . , (xn , Yn )
Riguarderemo (Â, B̂) come stimatori di (a, b)
Êi = residui di Ŷ = Â + B̂x MISURABILI
14 / 29
Inferenza su b
σ2
P
SxY (xi − x̄)(Yi − Ȳ )
B̂ = = ∼ N b,
(xj − x̄)2
P
sxx sxx
⇒ B̂ stimatore non distorto di b
Infatti:
B̂ comb. lineare di gaussiane indipendenti ⇒ B̂ ∼ N
X
1 1X 1X
E Ȳ = E Yi = E [Yi ] = (a + bxi )
n n n
= a + bx̄
h i P(x − x̄)(E [Y ] − E Ȳ ) P
(xi − x̄)[a + bxi − (a + bx̄)]
i i
E B̂ = 2
=
(xj − x̄)2
P P
(xj − x̄)
=b
h i σ2
Var B̂ = (più complicato)
sxx
15 / 29
Inferenza su b
σ2
P
SxY (xi − x̄)(Yi − Ȳ )
B̂ = = ∼ N b,
(xj − x̄)2
P
sxx sxx
Se conoscessimo σ 2 , potremmo usare la v. a.
B̂ − b
q ∼ N(0, 1)
σ2
sxx
per costruire IC e fare test per il parametro b
15 / 29
Inferenza su b
σ2
P
SxY (xi − x̄)(Yi − Ȳ )
B̂ = = ∼ N b,
(xj − x̄)2
P
sxx sxx
Ma siccome non conosciamo σ 2 , dobbiamo stimarla con questo
stimatore non distorto:
!
2
SxY
2 SSE 1
Σ̂ := = SYY −
n−2 n−2 sxx
15 / 29
Inferenza su b
σ2
P
SxY (xi − x̄)(Yi − Ȳ )
B̂ = = ∼ N b,
(xj − x̄)2
P
sxx sxx
Ma siccome non conosciamo σ 2 , dobbiamo stimarla con questo
stimatore non distorto:
!
2
SxY
2 SSE 1
Σ̂ := = SYY −
n−2 n−2 sxx
Di più, si dimostra che
(n − 2)Σ̂2
∼ χ2 (n − 2) indipendente da B̂
σ2
N(0, 1)
e quindi
√B̂−b
B̂ − b σ 2 /sxx
√ = q ∼ t(n − 2) indip.
Σ̂/ sxx √1
(n−2)Σ̂2
n−2 σ2
χ2 (n − 2)
15 / 29
Inferenza su b
B̂ − b
√ ∼ t(n − 2)
Σ̂/ sxx

σ̂
⇒ b̂ ± t 1+γ (n − 2) √ è un ICb (γ)
2 sxx
Infatti:
!!
Σ̂
P b∈ B̂ ± t 1+γ (n − 2) √ =
2 sxx
!
B̂ − b
= P −t 1+γ (n − 2) ≤ √ ≤ t 1+γ (n − 2)
2 Σ̂/ sxx 2
=γ
16 / 29
Inferenza su b
B̂ − b
√ ∼ t(n − 2)
Σ̂/ sxx

B̂ − b
0
⇒ “Rifiuto H0 se √ ≥ t1− α2 (n − 2)”

Σ̂/ sxx
è un test di livello α per le ipotesi
H0 : b = b0 vs. H1 : b 6= b0
Infatti:

B̂ − b0
PH0 vera (“rifiuto H0 ”) = Pb=b0 √ > t1− α (n − 2)
2
Σ̂/ sxx
| {z }
t(n−2)
=α
16 / 29
Inferenza su b
B̂ − b
√ ∼ t(n − 2)
Σ̂/ sxx

B̂ − b
0
⇒ “Rifiuto H0 se √ ≥ t1− α2 (n − 2)”

Σ̂/ sxx
è un test di livello α per le ipotesi
H0 : b = b0 vs. H1 : b 6= b0
Se b0 = 0, il test per le ipotesi
H0 : b = 0 vs. H1 : b 6= 0
mostra se c’è evidenza che le Y dipendono effettivamente dalle x
(significatività del modello)
16 / 29
Inferenza su a
x̄ 2

SxY 1
Â = Ȳ − x̄ ∼ N a , σ 2 +
sxx n sxx
⇒ Â stimatore non distorto di a
Â − a
q ∼ t(n − 2)
2
Σ̂ n1 + sx̄xx
(dimostrazioni simili al caso per B̂)
L’ultima equazione permette di costruire IC e test per il parametro a.
17 / 29
Terminologia
!
2 1 S2
Σ̂ := SYY − xY (stimatore non distorto di σ 2 )
n−2 sxx
Battezziamo un po’ di v.a. che sono funzioni di Σ̂2 :
p
Σ̂ := Σ̂2 residual standard error
(stimatore approx. non distorto di σ per metodo δ )
s
x̄ 2

1
se(Â) := Σ̂ + standard error di Â
n sxx
q
(stimatore approx. non distorto di Var[Â] )
Σ̂
se(B̂) := √ standard error di B̂
sxx
q
(stimatore approx. non distorto di Var[B̂] )
18 / 29
Terminologia
La terminologia corretta sarebbe (p.es., per B̂)
σ
q
SE(B̂) = Var[B̂] = √ errore (o deviazione) standard B̂
sxx
\ Σ̂
SE( B̂) = √ stimatore approx. non distorto di SE(B̂)
sxx
[ σ̂ \
se(B̂) = √ stima ( = realizzazione) di SE(B̂)
sxx
19 / 29
Terminologia
La terminologia corretta sarebbe (p.es., per B̂)
σ
q
SE(B̂) = Var[B̂] = √ errore (o deviazione) standard B̂
sxx
\ Σ̂
SE( B̂) = √ stimatore approx. non distorto di SE(B̂)
sxx
[ σ̂ \
se(B̂) = √ stima ( = realizzazione) di SE(B̂)
sxx
Ma con abuso di notazione, diremo semplicemente
Σ̂
se(B̂) = √ standard error di B̂
sxx
σ̂
se(b̂) = √ (realizzazione dello) standard error di B̂
sxx
19 / 29
Terminologia
In termini delle quantità precedenti

â ± t 1+γ (n − 2) se(â) IC(γ) per a
2
Â − a0
∼ t(n − 2) statistica test per un test su a
se(Â)

b̂ ± t 1+γ (n − 2) se(b̂) IC(γ) per b
2
B̂ − b0
∼ t(n − 2) statistica test per un test su b
se(B̂)
20 / 29
Output della regressione in R
â
se( â) se( â)
â p-value test su a
p-value test su b
b̂
r2 σ̂ n− 2 b̂
se( b̂) se( b̂)
21 / 29
Test per la bontà del modello lineare
Ricordiamo che le ipotesi su cui si basa il modello sono
(1) Yi = a + bxi + Ei
⇐⇒ (A) Yi ∼ N(a + bxi , σ 2 )
(2) Ei ∼ N(0, σ 2 )
(B) Y1 , . . . , Yn indipendenti
(3) E1 , . . . , En i.i.d.
Ma come facciamo a verificarle?
22 / 29
(1) Yi = a + bxi + Ei
⇐⇒ (A) Yi ∼ N(a + bxi , σ 2 )
(2) Ei ∼ N(0, σ 2 )
(3) E1 , . . . , En i.i.d.
Per verificare almeno le (1)-(2), dovremmo fare un test di normalità
sugli errori Ei ( = residui di a + bx)
MA
dai dati sappiamo ricavare solo gli Êi = Yi − Ŷi ( = residui della LSL)
22 / 29
(1) Yi = a + bxi + Ei
⇐⇒ (A) Yi ∼ N(a + bxi , σ 2 )
(2) Ei ∼ N(0, σ 2 )
(3) E1 , . . . , En i.i.d.
Si dimostra però che per i residui standardizzati
Êi Yi − (Â + B̂xi )
Ri := =
Σ̂ Σ̂
se (1)-(2)-(3) sono vere, vale
R1 , . . . , Rn sono (approssimativamente) i.i.d.
Ri ≈ N(0, 1)
⇒ Possiamo fare un test di normalità per gli R1 , . . . , Rn !
22 / 29
Assumendo Y1 , . . . , Yn indipendenti, un test per le ipotesi
H0 : ∃ a, b, σ tali che Yi ∼ N(a + bxi , σ 2 ) ∀i = 1, . . . , n
vs.
H1 : H0 è falsa
può quindi essere un qualunque test di normalità sugli R1 , . . . , Rn
(normal qq-plot, Shapiro Wilks. . . )
23 / 29
Assumendo Y1 , . . . , Yn indipendenti, un test per le ipotesi
H0 : ∃ a, b, σ tali che Yi ∼ N(a + bxi , σ 2 ) ∀i = 1, . . . , n
vs.
H1 : H0 è falsa
può quindi essere un qualunque test di normalità sugli R1 , . . . , Rn
(normal qq-plot, Shapiro Wilks. . . )
In particolare, analizzando lo scatterplot degli r1 , . . . , rn ,

non deve esserci una struttura definita (omoschedasticità)
i residui devono disporsi “a nuvola” intorno alla linea orizzontale
circa il 95% dei residui deve essere compreso tra −2 e +2
23 / 29
Due esempi
2 Standard Residuals vs. Fitted QQ−Norm Residuals
● ● ● ●
● ● ●
● ●●
10
● ● ● ● ● ●
●●●●
● ● ●
●
● ●
● ● ● ● ●
●●
●●
●
●● ● ● ●●
●●
●● ●
●
● ● ● ●
●●
1
● ● ●●
Standardised Residuals
● ● ●
●
5
●● ● ● ●●
● ●
●
●●
● ● ●
●
●
● ● ● ● ● ● ●● ●
●
Sample Quantiles
● ● ●
●
● ● ● ●
●●
●
●
● ● ● ● ●● ●
●
●
●
●
●● ● ●
●
●
●●● ● ● ● ● ● ●●
●
● ●●
0
0
● ●
●
● ● ● ●● ● ● ●
●●
●● ● ● ●●
●● ● ● ● ●● ● ●
● ● ●
●
●
●
●
● ● ●
●
●
●
● ●● ● ●●●● ● ●
●
●
●●
●
● ● ●
●
● ● ● ● ● ● ● ●
●
●
●
−5
● ● ● ● ● ●
●
●
●●
●
●
−1
● ● ●
●
●● ●●
● ● ●
●
● ●● ● ●●
●
●
● ●
−10
● ● ●
●
● ●
● ● ●●
● ●
−2
● ● ●●
● ●
● ●
−15
● ●
−3
146 ● ● 146
0 10 20 30 40 50 −2 −1 0 1 2
Fitted Values Theoretical Quantiles
OK modello lineare!
24 / 29
Due esempi
Standard Residuals vs. Fitted QQ−Norm Residuals
15
● ● ● ●
● ●● ●●●
2
● ●
● ● ●●
10
● ● ●
●●
● ● ●●
●
●● ● ● ●● ●
●
●●
Standardised Residuals
● ● ●●● ●
●
●●
●
● ●●
1
● ● ●
●
● ● ●● ● ● ● ● ● ●
●
●●
●
●●
●
●
●
● ●
Sample Quantiles
● ●
5
●● ● ● ● ●
●
● ●
●●
● ● ● ● ●● ●●
●
●
●
● ● ● ● ●● ●
●●
●
● ● ●
● ● ●●● ● ● ●●● ● ●
●
●
●
●
●● ●● ●
0
● ●●●●
0
● ● ●
●●
●
●● ● ● ●
● ●
●●
● ●● ●●
● ●
● ●● ● ●
●
●
●
● ●
●
● ●●
●
● ●
● ●● ● ●
●
●
●
●
● ●
−5
● ● ●
●
● ● ● ●
●●
● ●
●● ●
−1
●● ● ● ● ●●
●
●
●
● ● ● ●●
●
●● ● ● ●
●
−10
● ●●
●
● ●●
●
●●
● ●
●● ●
●●
● ●●
● ● ●●
−2
● ● ●●
● ●
● ●
−20
146 ● ● 146
−3
0 10 20 30 40 −2 −1 0 1 2
Fitted Values Theoretical Quantiles
No modello lineare (forse quadratico)
25 / 29
IC per il valor medio di una nuova osservazione
Y1 , . . . , Yn
x1 , . . . , xn Legge fisica Yi = a + bxi + Ei
input y = a + bx output
(assegnati) (misurati)
Ipotesi:
E1 , . . . , En indipendenti ⇔ Y1 , . . . , Yn indipendenti
Ei ∼ N(0, σ 2 ) ⇔ Yi ∼ N(a + bxi , σ 2 )
26 / 29
x∗ Legge fisica Y ∗ = a + bx ∗ + E ∗
nuovo input y = a + bx nuovo output

(assegnato) (misurato)
Ipotesi:
E1 , . . . , En , E ∗ indipendenti ⇔ Y1 , . . . , Yn , Y ∗ indipendenti
Ei ∼ N(0, σ 2 ) ⇔ Yi ∼ N(a + bxi , σ 2 )
E ∗ ∼ N(0, σ 2 ) ⇔ Y ∗ ∼ N(a + bx ∗ , σ 2 )
Vogliamo calcolare IC per il parametro
E [Y ∗ ] = a + bx ∗
26 / 29
Y1 , . . . , Yn , Y ∗ indipendenti
Ipotesi:
Yi ∼ N(a + bxi , σ 2 ), Y ∗ ∼ N(a + bx ∗ , σ 2 )
Allora:
1 (x ∗ − x̄)2

∗ ∗ 2
Â + B̂x ∼ N a + bx , σ +
n sxx
somma normali E[Â] = a più complicato

indipendenti E[B̂] = b
27 / 29
Ipotesi:
Yi ∼ N(a + bxi , σ 2 ), Y ∗ ∼ N(a + bx ∗ , σ 2 )
Allora:
1 (x ∗ − x̄)2

∗ ∗ 2
Â + B̂x ∼ N a + bx , σ +
n sxx
⇒ Ŷ ∗ := Â + B̂x ∗ stimatore non distorto di a + bx ∗
27 / 29
Ipotesi:
Yi ∼ N(a + bxi , σ 2 ), Y ∗ ∼ N(a + bx ∗ , σ 2 )
Allora:
1 (x ∗ − x̄)2

∗ ∗ 2
Â + B̂x ∼ N a + bx , σ +
n sxx
⇒ Ŷ ∗ := Â + B̂x ∗ stimatore non distorto di a + bx ∗

Â + B̂x ∗ − (a + bx ∗ )
r ∼ t(n − 2)
2 1 (x ∗ −x̄)2
Σ̂ n + sxx
s !
1 (x ∗ − x̄)2
∗
⇒ â + b̂x ± t 1+γ (n − 2) σ̂ 2 + è un ICa+bx ∗ (γ)
2 n sxx
27 / 29
Intervalli di predizione per una nuova osservazione
DEFINIZIONE: Sia γ ∈ [0, 1] fissato, e siano L = l(Y1 , . . . , Yn ) e
U = u(Y1 , . . . , Yn ) tali che
P (L < Y ∗ < U) = γ .
Se misuriamo Y1 , . . . , Yn trovando i valori y1 , . . . , yn , allora
è un intervallo di predizione (IP)
(l(y1 , . . . , yn ) , u(y1 , . . . , yn ))
di livello γ per la v.a. Y ∗
28 / 29
DEFINIZIONE: Sia γ ∈ [0, 1] fissato, e siano L = l(Y1 , . . . , Yn ) e
U = u(Y1 , . . . , Yn ) tali che
P (L < Y ∗ < U) = γ .
Se misuriamo Y1 , . . . , Yn trovando i valori y1 , . . . , yn , allora
è un intervallo di predizione (IP)
(l(y1 , . . . , yn ) , u(y1 , . . . , yn ))
di livello γ per la v.a. Y ∗
Y ∗ ∼ N(a + bx ∗ , σ 2 )
a + bx ∗ ∈ R parametro incognito Y ∗ variabile aleatoria

P (L < a + bx ∗ < U) = γ P (L < Y ∗ < U) = γ
⇒ (l, u) è un ICa+bx ∗ (γ) ⇒ (l, u) è un IPY ∗ (γ)
28 / 29
Y ∗ ∼ N(a + bx ∗ , σ2)
)
(x ∗ −x̄) indipendenti
2

Ŷ ∗ = Â + B̂x ∗ ∼ N a + bx ∗ , σ 2 n1 + sxx
funzioni di Y1 , . . . , Yn
29 / 29
Y ∗ ∼ N(a + bx ∗ , σ2)
)
∗ indipendenti
2

Ŷ ∗ = Â + B̂x ∗ ∼ N a + bx ∗ , σ 2 n1 + (x s−xxx̄)
1 (x ∗ − x̄)2

∗ ∗ 2
⇒ Y − Ŷ ∼ N 0 , σ 1 + +
n sxx
29 / 29
Y ∗ ∼ N(a + bx ∗ , σ2)
)
∗ indipendenti
2

1 (x ∗ − x̄)2

∗ ∗ 2
⇒ Y − Ŷ ∼ N 0 , σ 1 + +
n sxx
Y ∗ − Ŷ ∗
r ∼ t(n − 2)
2 1 (x ∗ −x̄)2
Σ̂ 1 + n + sxx
s !!
∗ − x̄)2

1 (x
⇒ P Y ∗ ∈ Ŷ ∗ ± t 1+γ (n − 2) Σ̂2 1 + + =γ
2 n sxx
s !
1 (x ∗ − x̄)2
∗
⇒ ŷ ± t 1+γ (n − 2) σ̂ 2 1 + + è un IPY ∗ (γ)
2 n sxx
29 / 29
Y ∗ ∼ N(a + bx ∗ , σ2)
)
∗ indipendenti
2

1 (x ∗ − x̄)2

∗ ∗ 2
⇒ Y − Ŷ ∼ N 0 , σ 1 + +
n sxx
Y ∗ − Ŷ ∗
r ∼ t(n − 2)
2 1 (x ∗ −x̄)2
Σ̂ 1 + n + sxx
s !!
∗ − x̄)2

1 (x
⇒ P Y ∗ ∈ Ŷ ∗ ± t 1+γ (n − 2) Σ̂2 1 + + =γ
2 n sxx
s !
1 (x ∗ − x̄)2
∗
⇒ ŷ ± t 1+γ (n − 2) σ̂ 2 1 + + è un IPY ∗ (γ)
2 n sxx
| {z }
più largo dell’ICa+bx ∗ (γ)
29 / 29

Regressione Lineare Semplice

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Regressione Lineare Semplice

Caricato da

Copyright:

Formati disponibili

Regressione lineare semplice

22-29 maggio 2018

Gas perfetto Corrente-tensione

Gas perfetto Corrente-tensione

Gas perfetto Corrente-tensione

Gas perfetto Corrente-tensione

La retta y = â + b̂x si chiama retta dei minimi quadrati (LSL = least

ssr ssr sse

input deterministico y = a + bx output probabilistico

input deterministico y = a + bx output probabilistico

⇒ Yi ∼ N(a + bxi , σ 2 ) e Y1 , Y2 , . . . , Yn indipendenti, ma non

Era: Diventa: Ora è una v.a.?

sxx = (xi − x̄)2 sxx = (xi − x̄)2

syy = (yi − ȳ )2 SYY = (Yi − Ȳ )2

Ei = errori di misura (residui di y = a + bx) NON MISURABILI

Ei = errori di misura (residui di y = a + bx)

per costruire IC e fare test per il parametro b

(dimostrazioni simili al caso per B̂)

L’ultima equazione permette di costruire IC e test per il parametro a.

⇒ Possiamo fare un test di normalità per gli R1 , . . . , Rn !

In particolare, analizzando lo scatterplot degli r1 , . . . , rn ,

2 Standard Residuals vs. Fitted QQ−Norm Residuals

Fitted Values Theoretical Quantiles

Standard Residuals vs. Fitted QQ−Norm Residuals

Fitted Values Theoretical Quantiles

No modello lineare (forse quadratico)

nuovo input y = a + bx nuovo output

somma normali E[Â] = a più complicato

⇒ Ŷ ∗ := Â + B̂x ∗ stimatore non distorto di a + bx ∗

⇒ Ŷ ∗ := Â + B̂x ∗ stimatore non distorto di a + bx ∗

a + bx ∗ ∈ R parametro incognito Y ∗ variabile aleatoria

Potrebbero piacerti anche