Sei sulla pagina 1di 59

Regressione lineare semplice

22-29 maggio 2018

1 / 29
Modelli empirici

x y = f (x)
Legge
input fisica f output

Idealmente:
P V
y1 y5

y4
y2
y3
y3
y4 y2
y5 y1
x1x2 x3 x4 x5 V x1 x2 x3 x4 x5 I

Gas perfetto Corrente-tensione


2 / 29
Modelli empirici

x y = f (x)
Legge
input fisica f output

Idealmente:
P V
y1 y5
C V = f (I) ≡ RI
P = f (V ) ≡ V
y4
y2
y3
y3
y4 y2
y5 y1
x1x2 x3 x4 x5 V x1 x2 x3 x4 x5 I

Gas perfetto Corrente-tensione


2 / 29
Modelli empirici

x y = f (x)
Legge
input fisica f output

Realisticamente:
P V
y1 C V = f (I) ≡ RI
P = f (V ) ≡ V y5
y2 y3
y3 y4
y4 y2
y5 y1
x1x2 x3 x4 x5 V x1 x2 x3 x4 x5 I

Gas perfetto Corrente-tensione


2 / 29
Modelli empirici

x y = f (x)
Legge
input fisica f output

Vogliamo trovare f !
P V
y1 C V = f (I) ≡ RI
P = f (V ) ≡ V y5
y2 y3
y3 y4
y4 y2
y5 y1
x1x2 x3 x4 x5 V x1 x2 x3 x4 x5 I

Gas perfetto Corrente-tensione


2 / 29
Modello lineare
C’è sempre un polinomio di grado n − 1 che passa per n punti:

y5
y3
y4
y2
y1
x1 x2 x3 x4 x5 x

3 / 29
Modello lineare
C’è sempre un polinomio di grado n − 1 che passa per n punti:
Ma noi vogliamo la funzione più
y semplice possibile: la retta
y = a + bx
y5
y3 parametrizzata solo da (a, b).
y4
y2
y1
x1 x2 x3 x4 x5 x

3 / 29
Modello lineare
C’è sempre un polinomio di grado n − 1 che passa per n punti:
Ma noi vogliamo la funzione più
y semplice possibile: la retta
y = a + bx
y5
y3 parametrizzata solo da (a, b).
y4
Come facciamo a dire se la retta
y2
y1 di parametri (a, b) approssima
bene gli n punti?
x1 x2 x3 x4 x5 x

3 / 29
Modello lineare
C’è sempre un polinomio di grado n − 1 che passa per n punti:
Ma noi vogliamo la funzione più
y semplice possibile: la retta
L(a, b) = 0.558 y = a + bx
e5
y5
y3 e3 e4
parametrizzata solo da (a, b).
y4
e2
Come facciamo a dire se la retta
y2
y1
e1 di parametri (a, b) approssima
bene gli n punti?
x1 x2 x3 x4 x5 x
Dobbiamo introdurre gli errori (o residui)
ei := yi − (a + bxi )
e un funzionale di errore
n n
(yi − a − bxi ) 2 = ei 2
X X
L(a, b) :=
i=1 i=1
3 / 29
Modello lineare
C’è sempre un polinomio di grado n − 1 che passa per n punti:
Ma noi vogliamo la funzione più
y semplice possibile: la retta
L(a, b) = 1.001 y = a + bx
y5
y3 parametrizzata solo da (a, b).
y4
Come facciamo a dire se la retta
y2
y1 di parametri (a, b) approssima
bene gli n punti?
x1 x2 x3 x4 x5 x
Dobbiamo introdurre gli errori (o residui)
ei := yi − (a + bxi )
e un funzionale di errore
n n
(yi − a − bxi ) 2 = ei 2
X X
L(a, b) :=
i=1 i=1
3 / 29
Modello lineare
C’è sempre un polinomio di grado n − 1 che passa per n punti:
Ma noi vogliamo la funzione più
y semplice possibile: la retta
L(a, b) = 7.283 y = a + bx
y5
y3 parametrizzata solo da (a, b).
y4
Come facciamo a dire se la retta
y2
y1 di parametri (a, b) approssima
bene gli n punti?
x1 x2 x3 x4 x5 x
Dobbiamo introdurre gli errori (o residui)
ei := yi − (a + bxi )
e un funzionale di errore
n n
(yi − a − bxi ) 2 = ei 2
X X
L(a, b) :=
i=1 i=1
3 / 29
Modello lineare
C’è sempre un polinomio di grado n − 1 che passa per n punti:
Ma noi vogliamo la funzione più
y semplice possibile: la retta
y = a + bx
y5
y3 parametrizzata solo da (a, b).
y4
Come facciamo a dire se la retta
y2
y1 di parametri (a, b) approssima
bene gli n punti?
x1 x2 x3 x4 x5 x
Dobbiamo introdurre gli errori (o residui) Perché qui si
ei := yi − (a + bxi ) mette il quadrato?

e un funzionale di errore
n n
2 2
X X
L(a, b) := (yi − a − bxi ) = ei
i=1 i=1
3 / 29
Modello lineare
Col quadrato: Senza quadrato:

L(a, b) ≥ 0 ∀(a, b)
i residui si compensano
L(∞) = +∞
@ minimo
∃! punto di minimo (â, b̂)

4 / 29
Modello lineare
Col quadrato: Senza quadrato:

L(a, b) ≥ 0 ∀(a, b)
i residui si compensano
L(∞) = +∞
@ minimo
∃! punto di minimo (â, b̂)

La retta y = â + b̂x si chiama retta dei minimi quadrati (LSL = least


square line)
4 / 29
Retta dei minimi quadrati
Cerchiamo (â, b̂) ponendo ∇L(â, b̂) ≡ 0:
n
∂L ∂ X
= (yi − a − bxi )2
∂a ∂a
i=1
Xn
= −2 (yi − a − bxi ) = −2(nȳ − na − nbx̄)
i=1
≡0
⇒ a = ȳ − bx̄
dove n n
1X 1X
x̄ := xi ȳ := yi .
n n
i=1 i=1

5 / 29
Retta dei minimi quadrati
Cerchiamo (â, b̂) ponendo ∇L(â, b̂) ≡ 0:
n
∂L ∂ X
= (yi − a − bxi )2
∂b ∂b
i=1
Xn
= −2 xi (yi − a − bxi )
i=1
n n
!
X X
= −2 xi yi − nax̄ − b xi2
i=1 i=1
n n
!
X X
= −2 xi yi − nx̄(ȳ − bx̄) − b xi2 con a = ȳ − bx̄
i=1 i=1
≡0
P P
xi yi − nx̄ ȳ (xi − x̄)(yi − ȳ )
⇒ b= P 2 =
(xj − x̄)2
P
xj − nx̄ 2

5 / 29
Sintesi dei dati
Dai punti (x1 , y1 ), . . . , (xn , yn ) distilliamo le quantità
n n
1X 1X
x̄ := xi ȳ := yi
n n
i=1 i=1
n
X n
X n
X
sxx := (xi − x̄)2 sxy := (xi − x̄)(yi − ȳ ) syy := (yi − ȳ )2
i=1 i=1 i=1
Tutte le altre quantità della retta dei minimi quadrati si esprimono in
funzione di queste. P. es.:
sxy sxy
â = ȳ − x̄ b̂ = parametri della LSL
sxx sxx
sxy
ŷi := â + b̂xi = ȳ + (xi − x̄) output della LSL
sxx
sxy
êi := yi − ŷi = (yi − ȳ ) + (xi − x̄) residui della LSL
sxx

6 / 29
Varianza totale
X
sst := syy = (yi − ȳ )2 total sum of squares
i

sst ≥ 0.
sst non dipende dall’aver scelto il modello lineare.
sst 6= 0 anche se tutti i punti stanno esattamente su una retta
(a meno che yi = yj per ogni i, j ⇒ stanno su un’orizzontale)
sst = ssr + sse , dove:
- ssr è intrinseca al modello lineare (varianza spiegata)
- sse dipende dalla dispersione dei punti intorno alla retta dei
minimi quadrati (varianza residua)

7 / 29
Varianza residua

X X X
sse := êi2 = (yi − ŷi )2 = (yi − â − b̂xi )2
i i i
= L(â, b̂) = min L(a, b) error sum of squares
(a,b)

sse ≥ 0.
sse = 0 se e solo se tutti i punti stanno esattamente su una retta:
⇒: sse = 0 ⇒ (yi − â − b̂xi )2 = 0 per ogni i
⇒ yi = â + b̂xi per ogni i
⇐: yi = a + bxi per ogni i ⇒ L(a, b) = 0
⇒ sse = min L(a, b) = 0
(a,b)
Se sse = 0, tutti i punti stanno sulla LSL.

8 / 29
Varianza spiegata

X  2
X
2 sxy
ssr := (ȳ − ŷi ) = ȳ − ȳ + (xi − x̄)
sxx
i i
2 X 2
sxy

sxy
= (xi − x̄)2 = regression sum of squares
sxx sxx
i

ssr ≥ 0.
sst = ssr + sse . Infatti,
X  2
X sxy
sse = (yi − ŷi )2 = yi − ȳ + (xi − x̄)
sxx
2
sxy 2
   
X sxy sxy
= (yi − ȳ ) − (xi − x̄) = syy − 2 sxy + sxx
sxx sxx sxx
2
sxy
= syy −
sxx
9 / 29
Coefficiente di determinazione

ssr ssr sse


r 2 := = =1−
sst ssr + sse ssr + sse
sse
=1− coefficiente di determinazione
sst

0 ≤ r 2 ≤ 1.
Quanto più r 2 ≈ 1, tanto più i punti si dispongono su una retta.
r 2 è la “percentuale di variabilità spiegata dal modello lineare”.
2 /s
sxy 2
sxy
xx
r2 = =
syy sxx syy

10 / 29
Coefficiente di correlazione

sxy
r := √ coefficiente di correlazione
sxx syy

−1 ≤ r ≤ 1
r 2 è il coefficiente di determinazione
Se r > 0.9, i dati sono ben approssimati da una retta di pendenza
positiva
Se r < −0.9, i dati sono ben approssimati da una retta di
pendenza negativa

11 / 29
Il modello statistico

x Legge fisica Y = a + bx + E

input deterministico y = a + bx output probabilistico


(numero reale) (v. a.)

Se facciamo n misure:
x1 , x2 , . . . , xn −→ Y1 , Y2 , . . . , Yn con Yi = a + bxi + Ei

12 / 29
Il modello statistico

x Legge fisica Y = a + bx + E

input deterministico y = a + bx output probabilistico


(numero reale) (v. a.)

Se facciamo n misure:
x1 , x2 , . . . , xn −→ Y1 , Y2 , . . . , Yn con Yi = a + bxi + Ei
Ipotesi fondamentale del modello lineare:
E1 , E2 , . . . , En i. i. d.;
Ei ∼ N(0, σ 2 ), con σ 2 incognita.

⇒ Yi ∼ N(a + bxi , σ 2 ) e Y1 , Y2 , . . . , Yn indipendenti, ma non


identicamente distribuite!

12 / 29
Il modello statistico
Nel modello lineare, quali sono le varibili aleatorie?

Era: Diventa: Ora è una v.a.?


x̄ = n1 x̄ = n1
P P
xi xi No

ȳ = n1 Ȳ = n1
P P
yi Yi Sì

sxx = (xi − x̄)2 sxx = (xi − x̄)2


P P
No
P P
sxy = (xi − x̄)(yi − ȳ ) SxY = (xi − x̄)(Yi − Ȳ ) Sì

syy = (yi − ȳ )2 SYY = (Yi − Ȳ )2


P P

Ecc.

13 / 29
Il modello statistico

y = a + bx
(legge vera)

14 / 29
Il modello statistico

y
punti osservati
Y5
E5
Y3 y = a + bx
Y2
E3 (legge vera)
E2 E4
Y4
E1
Y1
x1 x2 x3 x4 x5 x

Ei = errori di misura (residui di y = a + bx) NON MISURABILI


perché a, b incogniti

14 / 29
Il modello statistico

y
Ŷ = Â + B̂x
Y5 (minimi quadrati)
Ê5
E5
Y3 y = a + bx
Ê3
Y2
E3
Ê4 (legge vera)
Ê2 E2 E4
Y4
E1
Ê1
Y1
x1 x2 x3 x4 x5 x

Ei = errori di misura (residui di y = a + bx)


Ŷ = Â + B̂x interpola i punti (x1 , Y1 ), . . . , (xn , Yn )
Riguarderemo (Â, B̂) come stimatori di (a, b)
Êi = residui di Ŷ = Â + B̂x MISURABILI
14 / 29
Inferenza su b

σ2
P  
SxY (xi − x̄)(Yi − Ȳ )
B̂ = = ∼ N b,
(xj − x̄)2
P
sxx sxx
⇒ B̂ stimatore non distorto di b
Infatti:
B̂ comb. lineare di gaussiane indipendenti ⇒ B̂ ∼ N
 X 
  1 1X 1X
E Ȳ = E Yi = E [Yi ] = (a + bxi )
n n n
= a + bx̄
h i P(x − x̄)(E [Y ] − E Ȳ ) P
(xi − x̄)[a + bxi − (a + bx̄)]
i i
E B̂ = 2
=
(xj − x̄)2
P P
(xj − x̄)
=b
h i σ2
Var B̂ = (più complicato)
sxx
15 / 29
Inferenza su b

σ2
P  
SxY (xi − x̄)(Yi − Ȳ )
B̂ = = ∼ N b,
(xj − x̄)2
P
sxx sxx
Se conoscessimo σ 2 , potremmo usare la v. a.
B̂ − b
q ∼ N(0, 1)
σ2
sxx

per costruire IC e fare test per il parametro b

15 / 29
Inferenza su b

σ2
P  
SxY (xi − x̄)(Yi − Ȳ )
B̂ = = ∼ N b,
(xj − x̄)2
P
sxx sxx
Ma siccome non conosciamo σ 2 , dobbiamo stimarla con questo
stimatore non distorto:
!
2
SxY
2 SSE 1
Σ̂ := = SYY −
n−2 n−2 sxx

15 / 29
Inferenza su b

σ2
P  
SxY (xi − x̄)(Yi − Ȳ )
B̂ = = ∼ N b,
(xj − x̄)2
P
sxx sxx
Ma siccome non conosciamo σ 2 , dobbiamo stimarla con questo
stimatore non distorto:
!
2
SxY
2 SSE 1
Σ̂ := = SYY −
n−2 n−2 sxx
Di più, si dimostra che
(n − 2)Σ̂2
∼ χ2 (n − 2) indipendente da B̂
σ2
N(0, 1)
e quindi
√B̂−b
B̂ − b σ 2 /sxx
√ = q ∼ t(n − 2) indip.
Σ̂/ sxx √1
(n−2)Σ̂2
n−2 σ2
χ2 (n − 2)
15 / 29
Inferenza su b

B̂ − b
√ ∼ t(n − 2)
Σ̂/ sxx
 
σ̂
⇒ b̂ ± t 1+γ (n − 2) √ è un ICb (γ)
2 sxx
Infatti:
!!
Σ̂
P b∈ B̂ ± t 1+γ (n − 2) √ =
2 sxx
!
B̂ − b
= P −t 1+γ (n − 2) ≤ √ ≤ t 1+γ (n − 2)
2 Σ̂/ sxx 2

16 / 29
Inferenza su b

B̂ − b
√ ∼ t(n − 2)
Σ̂/ sxx

B̂ − b
0
⇒ “Rifiuto H0 se √ ≥ t1− α2 (n − 2)”

Σ̂/ sxx
è un test di livello α per le ipotesi
H0 : b = b0 vs. H1 : b 6= b0
Infatti:
 
B̂ − b0
PH0 vera (“rifiuto H0 ”) = Pb=b0 √ > t1− α (n − 2)
2
Σ̂/ sxx
| {z }
t(n−2)

16 / 29
Inferenza su b

B̂ − b
√ ∼ t(n − 2)
Σ̂/ sxx

B̂ − b
0
⇒ “Rifiuto H0 se √ ≥ t1− α2 (n − 2)”

Σ̂/ sxx
è un test di livello α per le ipotesi
H0 : b = b0 vs. H1 : b 6= b0
Se b0 = 0, il test per le ipotesi
H0 : b = 0 vs. H1 : b 6= 0
mostra se c’è evidenza che le Y dipendono effettivamente dalle x
(significatività del modello)

16 / 29
Inferenza su a

x̄ 2
  
SxY 1
 = Ȳ − x̄ ∼ N a , σ 2 +
sxx n sxx
⇒ Â stimatore non distorto di a
 − a
q ∼ t(n − 2)
2
Σ̂ n1 + sx̄xx

(dimostrazioni simili al caso per B̂)

L’ultima equazione permette di costruire IC e test per il parametro a.

17 / 29
Terminologia
!
2 1 S2
Σ̂ := SYY − xY (stimatore non distorto di σ 2 )
n−2 sxx
Battezziamo un po’ di v.a. che sono funzioni di Σ̂2 :
p
Σ̂ := Σ̂2 residual standard error
(stimatore approx. non distorto di σ per metodo δ )
s
x̄ 2

1
se(Â) := Σ̂ + standard error di Â
n sxx
q
(stimatore approx. non distorto di Var[Â] )
Σ̂
se(B̂) := √ standard error di B̂
sxx
q
(stimatore approx. non distorto di Var[B̂] )

18 / 29
Terminologia
La terminologia corretta sarebbe (p.es., per B̂)
σ
q
SE(B̂) = Var[B̂] = √ errore (o deviazione) standard B̂
sxx
\ Σ̂
SE( B̂) = √ stimatore approx. non distorto di SE(B̂)
sxx
[ σ̂ \
se(B̂) = √ stima ( = realizzazione) di SE(B̂)
sxx

19 / 29
Terminologia
La terminologia corretta sarebbe (p.es., per B̂)
σ
q
SE(B̂) = Var[B̂] = √ errore (o deviazione) standard B̂
sxx
\ Σ̂
SE( B̂) = √ stimatore approx. non distorto di SE(B̂)
sxx
[ σ̂ \
se(B̂) = √ stima ( = realizzazione) di SE(B̂)
sxx
Ma con abuso di notazione, diremo semplicemente
Σ̂
se(B̂) = √ standard error di B̂
sxx
σ̂
se(b̂) = √ (realizzazione dello) standard error di B̂
sxx

19 / 29
Terminologia
In termini delle quantità precedenti
 
â ± t 1+γ (n − 2) se(â) IC(γ) per a
2

 − a0
∼ t(n − 2) statistica test per un test su a
se(Â)
 
b̂ ± t 1+γ (n − 2) se(b̂) IC(γ) per b
2

B̂ − b0
∼ t(n − 2) statistica test per un test su b
se(B̂)

20 / 29
Output della regressione in R


se( â) se( â)

â p-value test su a

p-value test su b


r2 σ̂ n− 2 b̂
se( b̂) se( b̂)

21 / 29
Test per la bontà del modello lineare
Ricordiamo che le ipotesi su cui si basa il modello sono
(1) Yi = a + bxi + Ei
⇐⇒ (A) Yi ∼ N(a + bxi , σ 2 )
(2) Ei ∼ N(0, σ 2 )
(B) Y1 , . . . , Yn indipendenti
(3) E1 , . . . , En i.i.d.
Ma come facciamo a verificarle?

22 / 29
Test per la bontà del modello lineare
Ricordiamo che le ipotesi su cui si basa il modello sono
(1) Yi = a + bxi + Ei
⇐⇒ (A) Yi ∼ N(a + bxi , σ 2 )
(2) Ei ∼ N(0, σ 2 )
(B) Y1 , . . . , Yn indipendenti
(3) E1 , . . . , En i.i.d.
Ma come facciamo a verificarle?
Per verificare almeno le (1)-(2), dovremmo fare un test di normalità
sugli errori Ei ( = residui di a + bx)

MA

dai dati sappiamo ricavare solo gli Êi = Yi − Ŷi ( = residui della LSL)

22 / 29
Test per la bontà del modello lineare
Ricordiamo che le ipotesi su cui si basa il modello sono
(1) Yi = a + bxi + Ei
⇐⇒ (A) Yi ∼ N(a + bxi , σ 2 )
(2) Ei ∼ N(0, σ 2 )
(B) Y1 , . . . , Yn indipendenti
(3) E1 , . . . , En i.i.d.
Ma come facciamo a verificarle?
Si dimostra però che per i residui standardizzati
Êi Yi − (Â + B̂xi )
Ri := =
Σ̂ Σ̂
se (1)-(2)-(3) sono vere, vale
R1 , . . . , Rn sono (approssimativamente) i.i.d.
Ri ≈ N(0, 1)

⇒ Possiamo fare un test di normalità per gli R1 , . . . , Rn !

22 / 29
Test per la bontà del modello lineare
Assumendo Y1 , . . . , Yn indipendenti, un test per le ipotesi
H0 : ∃ a, b, σ tali che Yi ∼ N(a + bxi , σ 2 ) ∀i = 1, . . . , n
vs.
H1 : H0 è falsa
può quindi essere un qualunque test di normalità sugli R1 , . . . , Rn
(normal qq-plot, Shapiro Wilks. . . )

23 / 29
Test per la bontà del modello lineare
Assumendo Y1 , . . . , Yn indipendenti, un test per le ipotesi
H0 : ∃ a, b, σ tali che Yi ∼ N(a + bxi , σ 2 ) ∀i = 1, . . . , n
vs.
H1 : H0 è falsa
può quindi essere un qualunque test di normalità sugli R1 , . . . , Rn
(normal qq-plot, Shapiro Wilks. . . )

In particolare, analizzando lo scatterplot degli r1 , . . . , rn ,


non deve esserci una struttura definita (omoschedasticità)
i residui devono disporsi “a nuvola” intorno alla linea orizzontale
circa il 95% dei residui deve essere compreso tra −2 e +2

23 / 29
Due esempi

2 Standard Residuals vs. Fitted QQ−Norm Residuals

● ● ● ●
● ● ●
● ●●

10
● ● ● ● ● ●
●●●●
● ● ●

● ●
● ● ● ● ●
●●
●●

●● ● ● ●●
●●
●● ●

● ● ● ●
●●
1

● ● ●●
Standardised Residuals

● ● ●

5
●● ● ● ●●
● ●

●●
● ● ●


● ● ● ● ● ● ●● ●

Sample Quantiles
● ● ●

● ● ● ●
●●


● ● ● ● ●● ●




●● ● ●


●●● ● ● ● ● ● ●●

● ●●

0
0

● ●

● ● ● ●● ● ● ●
●●
●● ● ● ●●
●● ● ● ● ●● ● ●
● ● ●




● ● ●



● ●● ● ●●●● ● ●


●●

● ● ●

● ● ● ● ● ● ● ●


−5
● ● ● ● ● ●


●●


−1

● ● ●

●● ●●
● ● ●

● ●● ● ●●


● ●

−10
● ● ●

● ●
● ● ●●
● ●
−2

● ● ●●
● ●
● ●

−15
● ●
−3

146 ● ● 146

0 10 20 30 40 50 −2 −1 0 1 2

Fitted Values Theoretical Quantiles

OK modello lineare!

24 / 29
Due esempi

Standard Residuals vs. Fitted QQ−Norm Residuals

15
● ● ● ●
● ●● ●●●
2

● ●
● ● ●●

10
● ● ●
●●
● ● ●●

●● ● ● ●● ●

●●
Standardised Residuals

● ● ●●● ●

●●

● ●●
1

● ● ●

● ● ●● ● ● ● ● ● ●

●●

●●



● ●

Sample Quantiles
● ●

5
●● ● ● ● ●

● ●
●●
● ● ● ● ●● ●●



● ● ● ● ●● ●
●●

● ● ●
● ● ●●● ● ● ●●● ● ●




●● ●● ●

0
● ●●●●
0

● ● ●
●●

●● ● ● ●
● ●
●●
● ●● ●●
● ●
● ●● ● ●



● ●

● ●●

● ●
● ●● ● ●




● ●

−5
● ● ●

● ● ● ●
●●
● ●
●● ●
−1

●● ● ● ● ●●



● ● ● ●●

●● ● ● ●

−10
● ●●

● ●●

●●
● ●
●● ●
●●
● ●●
● ● ●●
−2

● ● ●●
● ●
● ●

−20
146 ● ● 146
−3

0 10 20 30 40 −2 −1 0 1 2

Fitted Values Theoretical Quantiles

No modello lineare (forse quadratico)

25 / 29
IC per il valor medio di una nuova osservazione

Y1 , . . . , Yn
x1 , . . . , xn Legge fisica Yi = a + bxi + Ei

input y = a + bx output
(assegnati) (misurati)

Ipotesi:
E1 , . . . , En indipendenti ⇔ Y1 , . . . , Yn indipendenti
Ei ∼ N(0, σ 2 ) ⇔ Yi ∼ N(a + bxi , σ 2 )

26 / 29
IC per il valor medio di una nuova osservazione

x∗ Legge fisica Y ∗ = a + bx ∗ + E ∗

nuovo input y = a + bx nuovo output


(assegnato) (misurato)

Ipotesi:
E1 , . . . , En , E ∗ indipendenti ⇔ Y1 , . . . , Yn , Y ∗ indipendenti
Ei ∼ N(0, σ 2 ) ⇔ Yi ∼ N(a + bxi , σ 2 )
E ∗ ∼ N(0, σ 2 ) ⇔ Y ∗ ∼ N(a + bx ∗ , σ 2 )
Vogliamo calcolare IC per il parametro
E [Y ∗ ] = a + bx ∗

26 / 29
IC per il valor medio di una nuova osservazione

Y1 , . . . , Yn , Y ∗ indipendenti
Ipotesi:
Yi ∼ N(a + bxi , σ 2 ), Y ∗ ∼ N(a + bx ∗ , σ 2 )
Allora:
1 (x ∗ − x̄)2
  
∗ ∗ 2
 + B̂x ∼ N a + bx , σ +
n sxx

somma normali E[Â] = a più complicato


indipendenti E[B̂] = b

27 / 29
IC per il valor medio di una nuova osservazione

Y1 , . . . , Yn , Y ∗ indipendenti
Ipotesi:
Yi ∼ N(a + bxi , σ 2 ), Y ∗ ∼ N(a + bx ∗ , σ 2 )
Allora:
1 (x ∗ − x̄)2
  
∗ ∗ 2
 + B̂x ∼ N a + bx , σ +
n sxx

⇒ Ŷ ∗ := Â + B̂x ∗ stimatore non distorto di a + bx ∗

27 / 29
IC per il valor medio di una nuova osservazione

Y1 , . . . , Yn , Y ∗ indipendenti
Ipotesi:
Yi ∼ N(a + bxi , σ 2 ), Y ∗ ∼ N(a + bx ∗ , σ 2 )
Allora:
1 (x ∗ − x̄)2
  
∗ ∗ 2
 + B̂x ∼ N a + bx , σ +
n sxx

⇒ Ŷ ∗ := Â + B̂x ∗ stimatore non distorto di a + bx ∗


 + B̂x ∗ − (a + bx ∗ )
r   ∼ t(n − 2)
2 1 (x ∗ −x̄)2
Σ̂ n + sxx
s  !
1 (x ∗ − x̄)2

⇒ â + b̂x ± t 1+γ (n − 2) σ̂ 2 + è un ICa+bx ∗ (γ)
2 n sxx

27 / 29
Intervalli di predizione per una nuova osservazione
DEFINIZIONE: Sia γ ∈ [0, 1] fissato, e siano L = l(Y1 , . . . , Yn ) e
U = u(Y1 , . . . , Yn ) tali che
P (L < Y ∗ < U) = γ .
Se misuriamo Y1 , . . . , Yn trovando i valori y1 , . . . , yn , allora
è un intervallo di predizione (IP)
(l(y1 , . . . , yn ) , u(y1 , . . . , yn ))
di livello γ per la v.a. Y ∗

28 / 29
Intervalli di predizione per una nuova osservazione
DEFINIZIONE: Sia γ ∈ [0, 1] fissato, e siano L = l(Y1 , . . . , Yn ) e
U = u(Y1 , . . . , Yn ) tali che
P (L < Y ∗ < U) = γ .
Se misuriamo Y1 , . . . , Yn trovando i valori y1 , . . . , yn , allora
è un intervallo di predizione (IP)
(l(y1 , . . . , yn ) , u(y1 , . . . , yn ))
di livello γ per la v.a. Y ∗

Y ∗ ∼ N(a + bx ∗ , σ 2 )

a + bx ∗ ∈ R parametro incognito Y ∗ variabile aleatoria


P (L < a + bx ∗ < U) = γ P (L < Y ∗ < U) = γ
⇒ (l, u) è un ICa+bx ∗ (γ) ⇒ (l, u) è un IPY ∗ (γ)

28 / 29
Intervalli di predizione per una nuova osservazione

Y ∗ ∼ N(a + bx ∗ , σ2)
)
(x ∗ −x̄) indipendenti
 2

Ŷ ∗ = Â + B̂x ∗ ∼ N a + bx ∗ , σ 2 n1 + sxx

funzioni di Y1 , . . . , Yn

29 / 29
Intervalli di predizione per una nuova osservazione

Y ∗ ∼ N(a + bx ∗ , σ2)
)
∗ indipendenti
 2

Ŷ ∗ = Â + B̂x ∗ ∼ N a + bx ∗ , σ 2 n1 + (x s−xxx̄)
1 (x ∗ − x̄)2
  
∗ ∗ 2
⇒ Y − Ŷ ∼ N 0 , σ 1 + +
n sxx

29 / 29
Intervalli di predizione per una nuova osservazione

Y ∗ ∼ N(a + bx ∗ , σ2)
)
∗ indipendenti
 2

Ŷ ∗ = Â + B̂x ∗ ∼ N a + bx ∗ , σ 2 n1 + (x s−xxx̄)
1 (x ∗ − x̄)2
  
∗ ∗ 2
⇒ Y − Ŷ ∼ N 0 , σ 1 + +
n sxx
Y ∗ − Ŷ ∗
r   ∼ t(n − 2)
2 1 (x ∗ −x̄)2
Σ̂ 1 + n + sxx
s !!
∗ − x̄)2

1 (x
⇒ P Y ∗ ∈ Ŷ ∗ ± t 1+γ (n − 2) Σ̂2 1 + + =γ
2 n sxx
s  !
1 (x ∗ − x̄)2

⇒ ŷ ± t 1+γ (n − 2) σ̂ 2 1 + + è un IPY ∗ (γ)
2 n sxx

29 / 29
Intervalli di predizione per una nuova osservazione

Y ∗ ∼ N(a + bx ∗ , σ2)
)
∗ indipendenti
 2

Ŷ ∗ = Â + B̂x ∗ ∼ N a + bx ∗ , σ 2 n1 + (x s−xxx̄)
1 (x ∗ − x̄)2
  
∗ ∗ 2
⇒ Y − Ŷ ∼ N 0 , σ 1 + +
n sxx
Y ∗ − Ŷ ∗
r   ∼ t(n − 2)
2 1 (x ∗ −x̄)2
Σ̂ 1 + n + sxx
s !!
∗ − x̄)2

1 (x
⇒ P Y ∗ ∈ Ŷ ∗ ± t 1+γ (n − 2) Σ̂2 1 + + =γ
2 n sxx
s  !
1 (x ∗ − x̄)2

⇒ ŷ ± t 1+γ (n − 2) σ̂ 2 1 + + è un IPY ∗ (γ)
2 n sxx
| {z }
più largo dell’ICa+bx ∗ (γ)

29 / 29

Potrebbero piacerti anche