Sei sulla pagina 1di 31

Linearizzazione

Relazione funzionale Trasformazione consigliata


1 1
Y = β0+β1 z=
x x
Y = β0exp(β1x) Z = logY
Y = β 0x β 1
Z1 = logY e z2 = logx
Y = x/(β1x−β0) Z1 = 1/Y e z2 = 1/x

… e la regressione polinomiale: Y = β0+ β1x + β2x2 + β3x3 +...+ βpxp + ε

12/12/2013 Regressione 1
Regressione lineare multipla

Y = β0 + β1x1 + β2x2 + β3x3 +...+ βpxp + ε

o in forma matriciale: Y = X β + ε

1 x11 x12 . . x1 p   Y1  β0   ε1 


1 x . x2 p  Y  β  ε 
 21 x22 .
  2  1  2
. . . .  .  .  .
X= Y=  β=  ε= 
. . . .  . . .
   
. . . .  .  .  .
       
1 xn 1 xn 2 . . xnp  Yn  β p  εn 

12/12/2013 Regressione 2
Data la matrice X dei predittori (compreso il vettore unitario), l’obiettivo
della regressione multipla è quello di trovare un vettore di coefficienti
b = (b0, b1, …, bp)’ tale che il vettore:

ŷ = Xb

sia una “buona approssimazione” del vettore delle osservazioni


y = (y1, y2, …, yn)’

 Il criterio dei Minimi Quadrati ricava il vettore b imponendo che la forma


quadratica:
n
′ ′
(
∑ i i
y − ŷ )2
= (y − ˆ
y ) (y − ˆ
y ) = ( y − Xb ) (y − Xb)
i =1

sia minima, cioè che la somma dei quadrati degli scarti tra i valori osservati
e i valori approssimanti sia minima.

12/12/2013 Regressione 3
Infatti da (1) si ha:

(y − Xb)′ (y − Xb) = y′y − b′X′y − y′Xb + b′X′Xb =


= y′y − 2b′X′y + b′X′Xb

e derivando rispetto a b ed uguagliando a zero si ha:

X′y − X′Xb = 0 equazioni normali(*)

ovvero, se X’X è invertibile, si perviene all’espressione esplicita:

b = (X′X ) X′y
−1

(*) perché il vettore x è normale al vettore e, con e = y − ˆy vettore dei residui

12/12/2013 Regressione 4
La matrice X’X è simmetrica, cioè (X’X)’ = X’X

Inoltre, posto H = X(X’X)−1X’, la matrice H è simmetrica e idempotente


cioè H = H’ e H2 = H viene detta matrice proiezione (o matrice hat)

La matrice H trasforma il vettore y nel vettore ˆy :


ˆy = Xˆβ = X(X′X )−1 X′y = Hy

La matrice In − H trasforma il vettore degli errori ε nel vettore dei


residui:
E = Y − ˆY = Y − XB = Y − X(X′X )−1 X′Y = (In − H )Y =
= (In − H )(Xβ + ε ) = (In − H )ε

e′1 = 1′e′ = 0 La somma dei residui è uguale a zero

I residui sono una trasformazione lineare degli errori e quindi:


E [Y − Ŷ ] = E [(In − H)ε] = (In − H)0 = 0
12/12/2013 Regressione 5
Da: H + (I − H) = In, si ha:

y = Hy + ( In − H) y = ˆy + e decomposizione ortogonale del vettore


dei valori osservati nel vettore dei
valori previsti e nel vettore dei residui

Infatti: ˆ ′eˆ = y′H′(I − H )y = y′H′y − y′H′Hy = 0


y

E cioè i residui sono ortogonali ai valori previsti

12/12/2013 Regressione 6
Interpretazione geometrica (caso particolare Rn = R3)

• π = piano generato dai vettori 1 e X (nello spazio Rp+1); il vettore Xb = 1b0 +


b1X appartiene al piano π al variare della coppia (b0, b1)

• ˆy è il vettore che minimizza la distanza di y dal piano, cioè minimizza e

• Xb è la proiezione ortogonale di y sul piano

Y=(Y1,Y2,Y3)
3

Proiezione ortogonale di y nello e


y
spazio dei regressori X
X=(x1,x2,x3)
ˆy = Xb
P
x π
O 2
1

12/12/2013 Regressione 7
• OP2 è la somma dei quadrati dovuti alla regressione
• OY2 è la somma dei quadrati totale
• YP2 è la somma dei quadrati dei residui
• Interpretazione statistica del teorema di Pitagora: OY2 = OP2 + YP2
• Le coordinate di P’ sono i residui e si ha: OP + OP' = OY o in
termini statistici: ˆy + (y − ˆy ) = y

3 Y
P’

Decomposizione (ortogonale) della e


y
variabilità totale

P x π
O ˆy = Xb
2
1

12/12/2013 Regressione 8
Esempio

Se p = 1, si ha la costante ed un solo predittore X1 =X e si ottiene la


regressione lineare semplice con:
 1 x1 
 
 1 x 2
X = . . 
 
. . 
 
 1 xn 

b   a 
Il vettore dei coefficienti da determinare è: b =  0  =  
 b1   b 

 na + b ∑ n   n 
 xi   ∑ yi 
i =1 i =1
Le equazioni normali sono:  n n 2 =  n 
 a ∑ xi + b ∑ xi   ∑ xi yi 
 i =1 i =1   i =1 
12/12/2013 Regressione 9
Assunzioni

• Le Xi siano uniformemente limitate

• Le Xi siano indipendenti

• Le componenti εi siano tutte a media nulla, stessa varianza


e non correlate

 E[Y]= E[Xββ +ε]= Xβ

 var[Y] = E[( Y − Xβ)( Y − Xβ)′ ] = var[ε] = σ2In

12/12/2013 Regressione 10
Teorema

Lo stimatore B ai minimi quadrati è corretto (o non deviato) e


consistente

 Correttezza E[B] = β

 Essendo lo stimatore B corretto, allora esso è anche consistente


se:
lim var [Bn ] = 0
n →∞
con n numero dei punti sperimentali

12/12/2013 Regressione 11
Dimostrazione:

E[Β] = E[( X' X)−1 X' Y] = E[( X' X)−1 X' ( Xβ + ε)] = β

E[(Β − β)(Β − β)′] = E[(( X' X) −1 X' ε )(( X' X) −1 X' ε ) ] =


−1
( 2
) −1
= ( X' X) X' σ In X( X' X) ] = σ ( X' X) 2 −1
=
σ2
n
Pn−1

σ2
var [Β] = Pn−1 → 0 per n → ∞
n

12/12/2013 Regressione 12
Caso particolare p = 2:

n n
 n 
 ∑ xi 1 ∑ xi 2 
i =1 i =1
n n
2
n 
X′X =  ∑ xi 1 ∑x i1 ∑ x i 1 xi 2 
i n=1 n
i =1 i =1
n

∑ x ∑ x i 1x i 2 ∑ xi 2 
2
i2
i =1 i =1 i =1 

 var [B0 ] cov [B0 , B1 ] . . cov [B0 , Bp ]


 cov [B , B ] var [B1 ] . . cov [B1 , Bp ] 
 0 1 
V( B ) =  . . . . .  = (X′X)−1 σ2
 . . . . . 
 
cov [B0 , Bp ] cov [B1, Bp ] . . var [Bp ] 

matrice varianza-
varianza-covarianza

12/12/2013 Regressione 13
2
ˆσ = S = 21 n

n − 2 i =1
(
Yi − ˆYi )2
=
1
n −2
( )(

Y − Y Y − ˆY
ˆ )

Y − ˆY = (Xβ + ε ) − XΒ = ε + Xβ − X(X'X ) X′Y =


−1

= ε + Xβ − X(X' X ) X′(Xβ + ε ) =
−1

[
= In − X(X' X ) X' ε = Rε
14442444 3
−1
]
=R
R è simmetrica e idempotente

( )(

)
E[ Y − ˆY Y − ˆY ] = E[(Rε )′ (Rε )] = E[ε'Rε] = E[tr (ε'Rε )] =
= E[tr (Rεε')] = tr [RE(εε')] = σ2tr [RIn ] = σ2 (n − p − 1)

12/12/2013 Regressione 14
Teorema di Theil:
Sia Z’AZ una forma quadratica con A matrice idempotente di
rango r. Se le componenti di Z sono v. c. normali standardizzate tra
loro indipendenti, allora la forma quadratica Z’AZ si distribuisce
come una v. c. Chi-quadrato con r gradi di libertà.

Teorema:
Sia Z’AZ una forma quadratica con A matrice simmetrica. Siano le
componenti di Z v. c. normali standardizzate tra loro indipendenti e
CZ un vettore le cui componenti sono combinazioni lineari delle v. c.
Z. Condizione sufficiente perché Z’AZ sia indipendente da CZ è
che il prodotto delle due matrici C e A coincida con la matrice
nulla.

12/12/2013 Regressione 15
Conseguenza n.1: (Y − ˆY )(′ Y − ˆY ) ∝ χ 2
n − p −1
σ2

2
S =
( )(

Y − ˆY Y − ˆY
=
σ2 ) χ2
n − p −1
n − p −1 n − p −1

Conseguenza n.2: ( )(

Y − ˆY Y − ˆY ) è indipendente da B

12/12/2013 Regressione 16
Gradi di
Origine della variazione Somme dei quadrati Quadrati
libertà
medi
2
Dovuti alla regress.: b0 1 SS(b0) = ny SS(b0)/1
2
Dovuti alla regress.: bib0 p SS(bib0) = b′X′Y − ny SS(bib0)/p

Rispetto alla regressione n − p− 1 SSRes. = Y′Y − b′X′Y MSRes. = s2


(Errore sperimentale o residui)

Totale n SST = Y′Y

12/12/2013 Regressione 17
Dati:
x1 1 4 9 11 3 8 5 10 2 7 6
x2 8 2 −8 −10 6 −6 0 −12 4 −2 −4
y 6 8 1 0 5 3 2 −4 10 −3 5

ŷ = 14 − 2x1 − 0.5x2

Origine della variazione Gradi di Somme dei Quadrati Fcalc..


libertà quadrati medi
Dovuti alla regress.: b0 1 99 99 11.6
Dovuti alla regress.: 2 122 61 7.2
(b1,b2)b0
Rispetto alla regressione 8 68 8.5
Totale 11 289

12/12/2013 Regressione 18
ŷ = 9.16 − 1.03x1

Quadrati
Origine della variazione Gradi di Somme dei Fcalc..
medi
libertà quadrati
Dovuti alla regress.: b0 1 99 99 11.6
Dovuti alla regress.: b1b0 1 116.1 116.1 13.7
Dovuti alla regress.: 1 5.9 5.9 0.7
Rispetto alla regressione 8 68 8.5
Totale 11 289

12/12/2013 Regressione 19
ŷ = 3.95 + 0.47x2

Origine della variazione Gradi di Somme dei Quadrati Fcalc..


libertà quadrati medi
Dovuti alla regress.: b0 1 99 99 11.6
Dovuti alla regress.: b2b0 1 98.3 98.3 11.6
Dovuti alla regress.: 1 23.7 23.7 2.8
Rispetto alla regressione 8 68 8.5
Totale 11 289

??????

12/12/2013 Regressione 20
rx x = − 0.97
1 2

rx y = − 0.78
1
M a t r ix P lo t x1 - x2 - y
rx y = 0.72
2

x1

x2

12/12/2013 Regressione 21
Multicollinearità e multicollinearità parziale

( )
n
∑ (xli − x i ) xlj − x j
rij =ˆρij = l =1

∑ (xhj − x j )
n n
∑ (xli −xi )
2 2

l =1 h =1

12/12/2013 Regressione 22
n n
R = ∑ (ŷi − y ) ∑ (yi −y)
2 2 2

i =1 i =1
Coefficiente di determinazione (regr. semplice)

( 2
R2 = b′X′Y − n y Y′Y ) Coefficiente di determinazione (regr. multipla)

R2 Coefficiente di correlazione multipla

ry 1 − ry 2r12
ry 1,2 =
(1 − ry22 )(1 − r122 ) Coefficiente di correlazione parziale

12/12/2013 Regressione 23
Step-wise Regression (selezione dei regressori)

Best Subset

12/12/2013 Regressione 24
Il piano sperimentale ortogonale

Da b = (X′X)−1X′Y sorge una domanda:


La matrice X′X è invertibile????

Risposta: Sì!!! Se X′X è di rango pieno

Allora “progettiamo” la matrice X′X

Come? In modo che nX′X sia diagonale:


semplicità, indipendenza ed additività

12/12/2013 Regressione 25
β2 β2

β1 β1

12/12/2013 Regressione 26
Come procedere?????

 Determinare il n0 dei pti sperimentali da osservare su ciascun regressore

 Progressione aritmetica dei pti lungo l’asse del regressore

(
 Collocare gli estremi il più lontano possibile tra di loro (max ∑ xij − x i )2 )
j
~
 Possibilmente la media dei pti sia uguale a zero (= matrice X′X è diagonale,
~ matrice dei dati “centrata”)
con X

 Eventuali repliche su qualche pto sperimentale, replicare il punto centrale


(= livello medio per tutti i regressori) un numero arbtrario di volte

12/12/2013 Regressione 27
Esempio

x1 1 7 1 7 1 7 1 7 4
x2 8 8 12 12 8 8 12 12 10
x3 4 4 4 4 6 6 6 6 5
y y1 y2 y3 y4 y5 y6 y7 y8 y9
y10
y11

 72 0 0 
~~  
X′X =  0 32 0 
 0 0 8
 

12/12/2013 Regressione 28
12/12/2013 Regressione 29
~
Matrix M10 = X = Matrice dei dati
centrata (= scostamenti tra i regressori e
i loro valori medi)

-3 -2 -1
3 -2 -1 Matrix M11 = X = Matrice
-3 2 -1 dei regressori
3 2 -1
-3 -2 1 1 1 8 4
3 -2 1 1 7 8 4
-3 2 1 1 1 12 4
3 2 1 1 7 12 4
0 0 0 1 1 8 6
0 0 0 1 7 8 6
0 0 0 1 1 12 6
1 7 12 6
1 4 10 5
1 4 10 5
1 4 10 5

12/12/2013 Regressione 30
The regression equation is
y = - 4.78 + 0.547 x1 + 0.919 x2 + 0.748 x3

Predictor Coef SE Coef T P


Constant -4.782 2.553 -1.87 0.103
x1 0.5466 0.1174 4.65 0.002
x2 0.9191 0.1762 5.22 0.001
x3 0.7479 0.3523 2.12 0.071

S = 0.9966 R-Sq = 88.4% R-Sq(adj) = 83.4%

Analysis of Variance

Source DF SS MS F P
Regression 3 53.014 17.671 17.79 0.001
Residual Error 7 6.952 0.993
Lack of Fit 5 4.682 0.936 0.83 0.628
Pure Error 2 2.270 1.135
Total 10 59.966

8 rows with no replicates

12/12/2013 Regressione 31