Cap. 4a La Regressione Lineare PDF

Università di Cagliari
DICAAR – Dipartimento di Ingegneria Civile, Ambientale e

architettura
Sezione Trasporti
PIANIFICAZIONE DEI TRASPORTI
Regressione lineare
A.A. 2016-2017 Prof. Italo Meloni

Relazione funzionale
2
Dato un set di dati (X,Y), che graficamente è rappresentato da

una nuvola di punti nel piano, si vuole trovare la relazione:
Y = f (X ) + 
Y variabile dipendente; X variabile indipendente; ε variabile aleatoria
In particolare la relazione lineare è:
Ŷi = â + b̂X i i = 1,..., n

Valori noti Incognite
Modello di regressione
3
E() = 0  E(Y X) = f (X)
Media degli Funzione di

errori nulla regressione
Media della variabile

dipendente date le X
Modello di regressione lineare semplice
4
1. yi =  0 + 1 xi +  i ; i = 1,2,...n.
2. Le εi sono variabili casuali indipendenti con

E(εi)=0 e V(εi)=σ2
Non vi è una distorsione La variabilità non dipende dai valori
sistematica delle X ed è costante (omoschedasticità)
3. La X è una variabile non stocastica i cui

valori sono noti senza errore.
5
E(εi)=0 in media, la retta di regressione sia corretta
Ŷ
i  0
i  0
X
X1 X2 X3
6
V(εi)=σ2 varianza costante dei disturbi

(omoschedasticità)
εi
PDF di
X1
Ŷ
X2
X3
X
7
V(εi)=σi2 varianza non costante dei disturbi

(eteroschedasticità)
PDF di εi
X1
Ŷ
X2
X3
X
Metodo dei minimi quadrati
8
Ricerchiamo i valori di β0 e β1 che rendono minima la

seguente espressione:
n 2
G( 0 , 1 ) =  ( yi −  0 − 1 xi )
i =1
ˆ0 = y − ˆ1 x (intercetta)

n
(x − x )( y − y ) 
ˆ = i =1
= (pendenza)
i i xy
 (x − x ) 
1 n 2 2
x
i =1 i
Il coefficiente di determinazione
9
( yi − y ) = ( yi − yî ) + ( yî − y )
Yˆ = ˆ0 − ˆ1 X
( yi − y )
( yi − yî ) = eî
( yî − y ) Y=y
10
I valori stimati con il metodo dei minimi quadrati

soddisfano la seguente relazione (scomposizione della
varianza totale):
 ( y − y ) =  ( y − yˆ ) +  ( yˆ − y )
n 2 n 2 n 2
i =1 i i =1 i i i =1 i
SST (Total Sum SSR (Residual Sum SSE (Explained
of Squares) of Squares) Sum of Squares)
Situazioni estreme che possono verificarsi

◼ SSE=0, la relazione di regressione non riduce l’incertezza e i valori stimati
sono uguali alla media campionaria.
◼ SSR=0, la relazione di regressione elimina tutta l’incertezza e i valori
stimati sono uguali a quelli osservati; si tratta di una relazione funzionale.
11
Dividendo SSE per il suo valore massimo SST,

otteniamo il coefficiente di determinazione:
SSE SSR
R 2
XY = = 1−
SST SST
Rappresenta la proporzione di variabilità di Y
spiegata dalla variabile esplicativa X attraverso
il modello di regressione.
12
Si può dimostrare che il coefficiente di

determinazione è il quadrato del coefficiente di
correlazione lineare ρXY :
2
  XY 
= ( XY ) =  
2 2
R
  XY
XY

13
Se R2 = 0 vuol dire che la variabilità residua

coincide con quella totale, la retta di regressione
è parallela all’asse ed il modello ha un
adattamento pessimo.
Se R2 = 1 vuol dire che la variabilità residua è

nulla e quindi la retta passa esattamente lungo
tutti i punti che sono, ovviamente, allineati.
Proprietà degli stimatori
14
Siano B0 e B1 gli stimatori di β0 e β1:
1. B0 e B1 sono stimatori corretti di β0 e β1
2 1 2 
V (B0 ) =  2  + n 
x
2. V (B1 ) =
n 2 
(
i=1 i ) i =1 (xi − x ) 
n
−
2
x x 
3. Nella classe degli stimatori lineari corretti, sono

quelli più efficienti.
Stimatore della varianza
15
Uno stimatore corretto della varianza dei residui

è dato dalla seguente formula:

n
(y − yˆ i )
2
= i =1
2 i
s
n−2
Inferenza sui parametri
16
(
Yi  N 0 + 1x i ,  2 )
B0 −  0
 i  N (0,  ) 
 t n −2
s(B0 )
2
B1 − 1
 t n −2
s(B1 )
Verifica d’ipotesi
17
B0 − b0
H 0 :  0 = b0  t =  tn − 2
s (B0 )
B1 − b1
H 0 : 1 = b1  t =  tn − 2
s (B1 )
18
Una procedura alternativa alla verifica dell’ipotesi

H0:β1=0 è l’Analisi della Varianza (ANOVA)
SSE
F = 1
SSR
n−2
Se H0 è vera la statistica F ha distribuzione F di Fisher con 1
e n-2 gradi di libertà. In particolare se Fα è tale che
P(F1,n-2 > Fα) = α allora si respinge l’ipotesi nulla in favore di
quella alternativa se F> Fα .
19
In particolare se H0: β1= 0 allora con:

• H1: β1>0 respingo H0 se toss>tα
• H1: β1<0 respingo H0 se toss<-tα
• H1: β1≠0 respingo H0 se toss>tα/2
dove α è il livello di significatività del test.
Tavola dei valori critici di t
20
In riga sono riportati i gradi di libertà mentre in colonna sono riportati gli
errori di primo tipo (a). Nella prima riga sono indicati i livelli di probabilità di
errore per il t-test a una coda e per il t-test a due code.
Modello multilineare
21
In questo modello compare più di una variabile

esplicativa.
y = X + 
(n x 1) (n x k+1) (k+1 x 1) (n x 1)
Stima dei coefficienti
22
 = ( X X ) X y
ˆ −1
Questi stimatori godono delle stesse proprietà

degli stimatori precedentemente calcolati, in
particolare:
()
var  =  ( X X )
ˆ 2 −1
Inferenza sui parametri
23
(
Yi  N X i,  2 )
 i  N (0,  )  2
Bj − j
 t n − k −1
s(B j )
Stimatore di σ2:
 (y − yˆ i )
( )( )
n

2
1
= i =1
= y − Xˆ y − Xˆ
2 i
s
n − k −1 n − k −1
24
SSE
H 0 : 1 =  2 =  =  k = 0;  k  Fk ,n −k −1
SSR
(n − k − 1)
H1 : i  0, i = 1,, k.
25
î −  0i
H 0 :  i =  0i ;  12
 tn −k −1
sq ii
dove Q = ( X X )−1
Usualmente si fa l’ipotesi che

H1 : i  0i βi sia uguale a 0, contro
l’ipotesi che sia diverso da 0.
Variabile esplicativa aleatoria
26
1.La distribuzione condizionata della Y per X=xi

è Normale con media β0+β1xi e varianza σ2.
2.Le Xi sono variabili aleatorie indipendenti, le

cui distribuzioni non dipendono da β0, β1 e σ2.
3.Le variabili aleatorie Xi ed εi sono

indipendenti.

Cap. 4a La Regressione Lineare PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Cap. 4a La Regressione Lineare PDF

Caricato da

Copyright:

Formati disponibili

Università di Cagliari

DICAAR – Dipartimento di Ingegneria Civile, Ambientale e

PIANIFICAZIONE DEI TRASPORTI

A.A. 2016-2017 Prof. Italo Meloni

Dato un set di dati (X,Y), che graficamente è rappresentato da

In particolare la relazione lineare è:

Ŷi = â + b̂X i i = 1,..., n

E() = 0  E(Y X) = f (X)

Media degli Funzione di

Media della variabile

2. Le εi sono variabili casuali indipendenti con

3. La X è una variabile non stocastica i cui

E(εi)=0 in media, la retta di regressione sia corretta

V(εi)=σ2 varianza costante dei disturbi

V(εi)=σi2 varianza non costante dei disturbi

Ricerchiamo i valori di β0 e β1 che rendono minima la

ˆ0 = y − ˆ1 x (intercetta)

I valori stimati con il metodo dei minimi quadrati

Situazioni estreme che possono verificarsi

Dividendo SSE per il suo valore massimo SST,

Si può dimostrare che il coefficiente di

Se R2 = 0 vuol dire che la variabilità residua

Se R2 = 1 vuol dire che la variabilità residua è

Siano B0 e B1 gli stimatori di β0 e β1:

1. B0 e B1 sono stimatori corretti di β0 e β1

3. Nella classe degli stimatori lineari corretti, sono

Uno stimatore corretto della varianza dei residui

Una procedura alternativa alla verifica dell’ipotesi

In particolare se H0: β1= 0 allora con:

In questo modello compare più di una variabile

Questi stimatori godono delle stesse proprietà

Usualmente si fa l’ipotesi che

1.La distribuzione condizionata della Y per X=xi

2.Le Xi sono variabili aleatorie indipendenti, le

3.Le variabili aleatorie Xi ed εi sono

Potrebbero piacerti anche