Sei sulla pagina 1di 26

Università di Cagliari

DICAAR – Dipartimento di Ingegneria Civile, Ambientale e


architettura
Sezione Trasporti

PIANIFICAZIONE DEI TRASPORTI

Regressione lineare

A.A. 2016-2017 Prof. Italo Meloni


Relazione funzionale
2

Dato un set di dati (X,Y), che graficamente è rappresentato da


una nuvola di punti nel piano, si vuole trovare la relazione:

Y = f (X ) + 
Y variabile dipendente; X variabile indipendente; ε variabile aleatoria

In particolare la relazione lineare è:

Ŷi = â + b̂X i i = 1,..., n


Valori noti Incognite
Modello di regressione
3

E() = 0  E(Y X) = f (X)

Media degli Funzione di


errori nulla regressione

Media della variabile


dipendente date le X
Modello di regressione lineare semplice
4

1. yi =  0 + 1 xi +  i ; i = 1,2,...n.

2. Le εi sono variabili casuali indipendenti con


E(εi)=0 e V(εi)=σ2
Non vi è una distorsione La variabilità non dipende dai valori
sistematica delle X ed è costante (omoschedasticità)

3. La X è una variabile non stocastica i cui


valori sono noti senza errore.
Modello di regressione lineare semplice
5

E(εi)=0 in media, la retta di regressione sia corretta

i  0

i  0

X
X1 X2 X3
Modello di regressione lineare semplice
6

V(εi)=σ2 varianza costante dei disturbi


(omoschedasticità)
εi
PDF di

X1

X2
X3
X
Modello di regressione lineare semplice
7

V(εi)=σi2 varianza non costante dei disturbi


(eteroschedasticità)
PDF di εi

X1

X2
X3
X
Metodo dei minimi quadrati
8

Ricerchiamo i valori di β0 e β1 che rendono minima la


seguente espressione:
n 2

G( 0 , 1 ) =  ( yi −  0 − 1 xi )
i =1

ˆ0 = y − ˆ1 x (intercetta)


n
(x − x )( y − y ) 
ˆ = i =1
= (pendenza)
i i xy

 (x − x ) 
1 n 2 2
x
i =1 i
Il coefficiente di determinazione
9

( yi − y ) = ( yi − yˆi ) + ( yˆi − y )
Yˆ = ˆ0 − ˆ1 X

( yi − y )
( yi − yˆi ) = eˆi
( yˆi − y ) Y=y
Il coefficiente di determinazione
10

I valori stimati con il metodo dei minimi quadrati


soddisfano la seguente relazione (scomposizione della
varianza totale):

 ( y − y ) =  ( y − yˆ ) +  ( yˆ − y )
n 2 n 2 n 2

i =1 i i =1 i i i =1 i
SST (Total Sum SSR (Residual Sum SSE (Explained
of Squares) of Squares) Sum of Squares)

Situazioni estreme che possono verificarsi


◼ SSE=0, la relazione di regressione non riduce l’incertezza e i valori stimati
sono uguali alla media campionaria.
◼ SSR=0, la relazione di regressione elimina tutta l’incertezza e i valori
stimati sono uguali a quelli osservati; si tratta di una relazione funzionale.
Il coefficiente di determinazione
11

Dividendo SSE per il suo valore massimo SST,


otteniamo il coefficiente di determinazione:
SSE SSR
R 2
XY = = 1−
SST SST
Rappresenta la proporzione di variabilità di Y
spiegata dalla variabile esplicativa X attraverso
il modello di regressione.
Il coefficiente di determinazione
12

Si può dimostrare che il coefficiente di


determinazione è il quadrato del coefficiente di
correlazione lineare ρXY :
2
  XY 
= ( XY ) =  
2 2
R
  XY
XY

Il coefficiente di determinazione
13

Se R2 = 0 vuol dire che la variabilità residua


coincide con quella totale, la retta di regressione
è parallela all’asse ed il modello ha un
adattamento pessimo.

Se R2 = 1 vuol dire che la variabilità residua è


nulla e quindi la retta passa esattamente lungo
tutti i punti che sono, ovviamente, allineati.
Proprietà degli stimatori
14

Siano B0 e B1 gli stimatori di β0 e β1:

1. B0 e B1 sono stimatori corretti di β0 e β1

2 1 2 
V (B0 ) =  2  + n 
x
2. V (B1 ) =
n 2 
(
i=1 i ) i =1 (xi − x ) 
n

2
x x 

3. Nella classe degli stimatori lineari corretti, sono


quelli più efficienti.
Stimatore della varianza
15

Uno stimatore corretto della varianza dei residui


è dato dalla seguente formula:


n
(y − yˆ i )
2

= i =1
2 i
s
n−2
Inferenza sui parametri
16

(
Yi  N 0 + 1x i ,  2 )
B0 −  0
 i  N (0,  ) 
 t n −2
s(B0 )
2

B1 − 1
 t n −2
s(B1 )
Verifica d’ipotesi
17

B0 − b0
H 0 :  0 = b0  t =  tn − 2
s (B0 )

B1 − b1
H 0 : 1 = b1  t =  tn − 2
s (B1 )
Verifica d’ipotesi
18

Una procedura alternativa alla verifica dell’ipotesi


H0:β1=0 è l’Analisi della Varianza (ANOVA)
SSE
F = 1
SSR
n−2
Se H0 è vera la statistica F ha distribuzione F di Fisher con 1
e n-2 gradi di libertà. In particolare se Fα è tale che
P(F1,n-2 > Fα) = α allora si respinge l’ipotesi nulla in favore di
quella alternativa se F> Fα .
Verifica d’ipotesi
19

In particolare se H0: β1= 0 allora con:


• H1: β1>0 respingo H0 se toss>tα
• H1: β1<0 respingo H0 se toss<-tα
• H1: β1≠0 respingo H0 se toss>tα/2
dove α è il livello di significatività del test.
Tavola dei valori critici di t
20

In riga sono riportati i gradi di libertà mentre in colonna sono riportati gli
errori di primo tipo (a). Nella prima riga sono indicati i livelli di probabilità di
errore per il t-test a una coda e per il t-test a due code.
Modello multilineare
21

In questo modello compare più di una variabile


esplicativa.

y = X + 
(n x 1) (n x k+1) (k+1 x 1) (n x 1)
Stima dei coefficienti
22

 = ( X X ) X y
ˆ −1

Questi stimatori godono delle stesse proprietà


degli stimatori precedentemente calcolati, in
particolare:

()
var  =  ( X X )
ˆ 2 −1
Inferenza sui parametri
23

(
Yi  N X i,  2 )
 i  N (0,  )  2
Bj − j
 t n − k −1
s(B j )

Stimatore di σ2:

 (y − yˆ i )
( )( )
n

2
1
= i =1
= y − Xˆ y − Xˆ
2 i
s
n − k −1 n − k −1
Verifica d’ipotesi
24

SSE
H 0 : 1 =  2 =  =  k = 0;  k  Fk ,n −k −1
SSR
(n − k − 1)
H1 : i  0, i = 1,, k.
Verifica d’ipotesi
25

ˆi −  0i
H 0 :  i =  0i ;  12
 tn −k −1
sq ii

dove Q = ( X X )−1

Usualmente si fa l’ipotesi che


H1 : i  0i βi sia uguale a 0, contro
l’ipotesi che sia diverso da 0.
Variabile esplicativa aleatoria
26

1.La distribuzione condizionata della Y per X=xi


è Normale con media β0+β1xi e varianza σ2.

2.Le Xi sono variabili aleatorie indipendenti, le


cui distribuzioni non dipendono da β0, β1 e σ2.

3.Le variabili aleatorie Xi ed εi sono


indipendenti.