Sei sulla pagina 1di 56

Regressione lineare semplice e multipla

Prof. G. Scandurra
In molte applicazioni si è interessati a valutare se una variabile
(dipendente) può essere in relazione funzionale con una o più
variabili indipendenti.

Nel primo caso (una sola variabile indipendente) si parla di


regressione semplice.

Nel secondo caso (più variabili indipendenti) si parla di


regressione multipla. In generale:

y  f ( x1 , x2 ,..., xn )
Se la funzione f è di primo grado, si parla di regressione lineare.
La regressione lineare semplice

y    x Parametri da calcolare
nella Popolazione nel caso
di 1 o più variabili
y   0  1 x1  ...   q xq indipendenti

y  a  bx Parametri da calcolare
nel campione nel caso
y  b0  b1 x1  ...  bq xq di 1 o più variabili
indipendenti

Coefficiente
Intercetta angolare
La regressione lineare semplice

Valore vero yi  a  bxi  ei


Valore calcolato
sulla retta =
yˆi
Scarto o errore o
residuo Y yi
ei
y
a b
0 xi X
La regressione lineare: le ipotesi

1) y = a +bx +


2) E() = 0
3) Var() = cost <  5)  =N(0, ) ?? T E
A N
R T
4) Cov(i, j) = 0 PO
IM
6) Cov(, x) = 0
7) Assenza di collinearità perfetta tra le x (se più di una)

Caso di eteroschedasticità
La regressione lineare: le ipotesi

y    x1   Modello stimato

y    1 x1   2 x2   * Modello “vero” con una probabile


relazione sussistente tra x1 e x2
cov( x1 , x2 )  0
Varianza vera di y
var( y )  1 var(x1 )   2 var(x2 )  var( *)
Per assumere lo stesso valore nel modello stimato, deve
necessariamente essere:

var( y )   var( x1 )  var( )  cov( x1 ,  )


La regressione lineare: la verifica delle ipotesi

ALCUNI PRINCIPI BASILARI PRIMA DI COMINCIARE

I programmi informatici sono strumenti utilissimi che ci risparmiano


calcoli lunghi, noiosi e diminuiscono la probabilità di commettere
errori
I programmi informatici senza l’intelligenza umana che li usa e li
interpreta, non servono a nulla
Una volta che programmi hanno effettuato i calcoli della regressione
deve intervenire lo statistico per verificare il modello sperimentato
Ogni modello, anche il più bislacco, darà dei risultati che a prima
vista potrebbero anche sembrare accettabili

E’ DI VITALE IMPORTANZA CHE, A POSTERIORI, SI VERIFICHI SE LE


IPOTESI CHE FANNO DA BASE AL MODELLO SIANO STATE
RISPETTATE. E’ INDISPENSABILE TROVARE LE LORO TRACCE NEI
RISULTATI FORNITI DAL PROGRAMMA!!
La regressione lineare

UNA QUESTIONE PRELIMINARE: che intendono i


programmi con Sign o con Pvalue
La regressione lineare

y SST = SSR + SSE


a b
Nel nostro caso, essendoci una sola
variabile indipendente, p=1
0 x
La regressione lineare semplice

12
10 (a)
14

12 (b) 16
14
12
(c) (d) (e) 7
6
10
8 5
10
8
8 4
6
6 6 3
4
4 4 2
2 2 1
2
0 0 0
0
0 20 40 60 80 100 120 0 20 40 60 80 100 120 0 20 40 60 80 100 120 -100 -50 0 50 100 150 200

F 1524,046 0,000 F 298,305 0,000 F 173,175 0,000 F 45,81 0,000 F 5,797 0,018
a 3,920 0,000 a 4,247 0,000 a 4,025 0,000 a 48,058 0,000 a 3,697 0,000
b 0,070 0,000 b 0,064 0,000 b 0,066 0,000 b 0,283 0,000 b 0,008 0,038
R2 0,940 R2 0,753 R2 0,639 R2 0,581 R2 0,057
DW 2,002 DW 1,989 DW 1,041 DW 0,338 DW 2,001

Istogramma Istogramma Istogramma Istogramma

25 20 30 12

25 10
20
15
Frequenza
Frequenza

Frequenza

20

Frequenza
8
15

10 15 6
10
10 4
5
5
5 2
Grafico di normalità P-P di regressione Residuo
Mean = -4,87E-16 Grafico di normalità P-P di regressione Residuo
Mean = 4,06E-16 Grafico di normalità P-P di regressione Residuo
Mean = -3,3E-16 Grafico di normalità P-P di regressione Residuo
Std. Dev. = 0,995 Mean = 8,12E-16
0 standardizzato Std. Dev. = 0,995
0 standardizzato N = 100 0 standardizzato Std. Dev. = 0,995 standardizzato Std. Dev. = 0,995
N = 100 N = 100 0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 N = 98
-4 -2 0 2 4 -4 -2 0 2 4
Regressione Residuo standardizzato Regressione Residuo standardizzato Regressione Residuo standardizzato Regressione Residuo standardizzato

1,0 1,0 1,0 1,0

0,8 0,8 0,8 0,8

Prob cum attesa


Prob cum attesa

Prob cum attesa


Prob cum attesa

0,6 0,6 0,6 0,6

0,4 0,4 0,4 0,4

0,2 0,2 0,2 0,2

0,0 0,0 0,0 0,0


0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0
Prob cum osservata Prob cum osservata Prob cum osservata Prob cum osservata
La regressione lineare multipla

y1   0  1 x11   2 x12  ...   p x1 p  1

y2   0  1 x21   2 x22  ...   p x2 p   2



yn   0  1 xn1   2 xn 2  ...   p xnp   n

n osservazioni
p variabili (indipendenti)

n>p+1
La regressione lineare multipla

 y1  1 x11 x12  x1 p    0   1 
      
 y2   1 x21 x22  x2 p   1    2 

           
       
 yn  1 xn1 xn 2  xnp    p    n 
(n x 1) (n x p) ( p x 1) (n x 1)

y X β ε

y=Xβ + ε
La regressione lineare multipla
(n x 1) (n x p) ( p x 1) (n x 1)

= * +

y = X * β + ε
La regressione lineare multipla

y = X β+ε Errori
(da calcolare)
Coefficienti di regressione
Variabile dipendente (da stimare)
(nota)
Variabili indipendenti
(note)

COME STIMARE I COEFFICIENTI DI


REGRESSIONE DEL MODELLO IPOTIZZATO?

MINIMI QUADRATI ORDINARI


ORDINARY LEAST SQUARES (OLS)
La regressione lineare multipla

yi   0  1 xi1   2 xi 2  ...   p xip   i

Ipotesi: E(y)= Xβ

E  yi    0  1 xi1   2 xi 2  ...   p xip

yˆi MODELLO STIMATO

Eˆ  yi   ˆ0  ˆ1 xi1  ˆ2 xi 2  ...  ˆ p xip


La regressione lineare multipla

Le stime dei minimi quadrati di β0, β1,…, βp minimizzano la


somma al quadrato delle deviazioni tra le osservazioni
empiriche e teoriche.
Occorre trovare quei valori di ˆ , ˆ ,  , ˆ che minimizzano:
0 1 p
n
SSE    yi  yˆi   min
2

i 1

1 x11 x12  x1 p  x '


  i

1 x21 x22  x2 p 
   
 
1 xn1 xn 2  xnp 
La regressione lineare multipla

n
SSE    yi  yˆi   min
2

i 1

n i-esimo elemento del vettore



SSE   yi  x i β 
2
'

i 1
y  Xβ

n
SSE    yi  yˆi    y  Xβ   y  Xβ 
2 '

i 1
La regressione lineare multipla

n
SSE    yi  yˆi    y  Xβ   y  Xβ 
2 '

i 1

 2 = ε' ε
2 4 . . 6 2
Vettore Trasposto 4
(1 x n)
.
.
6
(1 x n) x (n x 1) = (1 x 1) (n x 1)
La regressione lineare multipla

SSE  ε'ε   y  Xβ   y  Xβ 
'

ε ' ε  y ' y  β ' X ' y  y ' Xβ  β ' X ' Xβ


OCCORRE MINIMIZZARE!

DERIVIAMO RISPETTO A β

SSE (β)
 2 X ' y  2 X ' Xβ  0
 (β)
La regressione lineare multipla

X ' Xβ  X ' y
EQUAZIONE NORMALE DEI MINIMI QUADRATI

X'y
β? β ?
X'X

ˆβ   X ' X  1 X ' y

Matrice inversa
La regressione lineare multipla

UN ESEMPIO
CON EXCEL
La regressione lineare multipla

MA
TR
I CE
D EI
D AT
I

y X
La regressione lineare multipla

Ricordiamo che…

ˆ0  y  ˆ1x
y   0   1x cov( x; y )
ˆ
1 
var( x )

βˆ   X ' X  X ' y
1
y= Xβ+ε

COME FARE, USANDO UN SOFTWARE COMUNE COME EXCEL?


La regressione lineare multipla

(n x 1) (n x p)

In questo modo sarà più semplice


richiamarli nelle operazioni successive.
La regressione lineare multipla

Matrice Trasposta
(p x n)
La regressione lineare multipla

Calcoliamo la matrice (X’X) Da premere


contemporane
amente per far
enter eseguire il
prodotto tra le
matrici dopo
aver
shift selezionato
l’area
(IN OGNI
ctrl OPERAZIONE
CON LE
MATRICI)

X’ X (X’X)
(p x n) (n x p) (p x p)
La regressione lineare multipla

 X'X 
1
X’ y
(p x p) (p x n) (n x 1)

(p x 1)
La regressione lineare multipla

MODELLO STIMATO
La regressione lineare multipla

Calcolo delle osservazioni teoriche Calcolo dei residui


La regressione lineare multipla
LA BONTÀ DI ADATTAMENTO DEL MODELLO
Il modello stimato si adatterà tanto più alle osservazioni yi quanto più
modesta sarà la variabilità dell’errore rispetto alla variabilità totale

SST = SSR + SSE


devianza di regressione
R 
2

devianza totale

R2 corretto:

Osservazioni
(n=15) Variabili
(p=4)
La regressione lineare multipla
La regressione lineare multipla

L’ANALISI DELLA VARIANZA

H 0 : 1   2  ...   q  0
Non è inclusa l’intercetta, SSR
perché si ipotizza che essa
sia diversa da zero.
p
F= : Fp ;n- p- 1
SSE
n- p- 1
RI
F > Fa ; p ;n- p- 1 Rigetto H0 CO
RD
AT
F < Fa ; p ;n- p- 1 Accetto H0
E
La regressione lineare multipla

L’ANALISI DELLA VARIANZA

Fonte Gradi di Media dei


Libertà quadrati

Regressione βˆ ' X ' y  ny 2 p βˆ ' X ' y  ny 2


(SSR) p
Residua e’e n–p–1 e'e
(SSE) n  p 1
Totale n–1 y ' y  ny 2
y ' y  ny 2

(SST) n 1

SST = SSR + SSE


La regressione lineare multipla

Fonte di Gradi di Media dei


variabilità Libertà quadrati
Regressione 0,015902522 4 0,003976

Residua 0,0004508 10 0,00004508


Totale 0,016353333 14 0,0011681
La regressione lineare multipla

SSR
p p=4
F= : Fp ;n- p- 1 n – p – 1 =10
SSE
α= 0,05 (5%)
n- p- 1
SSR 0,015902522
p 4 F > Fa ; p ;n-
F= = = 88,190 p- 1
SSE 0,0004508
n- p- 1 10
Rigetto H0

Fa ; p ;n- p- 1 = 3, 48
La regressione lineare multipla

SIGNIFICATIVITA’ DEI SINGOLI PARAMETRI


Si usa, comunemente, il test t.
H 0 : i  0
ˆi Stima (nel campione) di βp
t
s i
Standard error di βp
?

t > ta / 2;n- p Rigetto H0

t < ta / 2;n- p Accetto H0


La regressione lineare multipla

Var (βˆ )  E (βˆ  β)(βˆ  β) ' 


 E  X'X  X'εε'X  X'X   
1 1

 
  X'X  X'  I X  X'X 
1
 2
 1

i
 X'X 
1
 2 p
o
t
e
NON E’ NOTA s
s2 è una stima (corretta) di σ2 i
La regressione lineare multipla

La radice quadrata del p-esimo


elemento diagonale della
matrice, è l’errore standard del
parametro stimato.
La regressione lineare multipla

e'e
s2 
n  p 1

sβ0
Radice
sβ1
quadrata

sβ5
La regressione lineare multipla

ˆi
t
s i

Si confrontano con i valori


tabulati della t di Student, con
significatività α/2 (α) e gradi di
libertà pari a (n – p).
La regressione lineare multipla

*
*

Significativamente
pari a zero.
Rigetto H0
T E
DA
Accetto H0
O R
C
RI
La regressione lineare multipla

STIMA PER INTERVALLO

5%

Errore Limite Limite


  standard inferiore superiore
Intercetta 0,05513 -0,509071 -0,632 -0,386
T 0,001971761 -0,01658 -0,021 -0,012
GNP 0,054997215 0,670383 0,548 0,793
R 0,001218868 -0,002326 -0,005 0,000
P 0,00134748 -9,4E-05 -0,003 0,003
La regressione lineare multipla

MULTICOLLINEARITÀ
Variance Inflation Factor

Collinearità

=correlazione(a1:a15; b1:b15)

VIF
La regressione lineare multipla

VERIFICA DELLE IPOTESI SUI RESIDUI

Occorre verificare le note ipotesi sui residui:


- assenza di correlazione (autocorrelazione)
- omoshedasticità (varianza costante)
- distribuzione normale
La regressione lineare multipla
PRESENZA DI AUTOCORRELAZIONE
Test di Durbin – Watson (DW)

= 2 assenza di autocorrelazione
< 2 autocorrelazione positiva
> 2 autocorrelazione negativa
La regressione lineare multipla

OMOSCHEDASTICITÀ
Test di White

È basato sul valore del coefficiente di determinazione R 2 relativo


alla regressione dei quadrati dei residui su una costante, sui
quadrati dei regressori e sui loro prodotti incrociati.

R2=0,765

Accetto H0
La regressione lineare multipla
DISTRIBUZIONE NORMALE
Test di Jarque – Bera (JB)

La statistica test di JB misura la differenza dell’asimmetria e della


curtosi della serie (dei residui) da quella della distribuzione normale.

H0 : e : N
Asimmetria Curtosi
La regressione lineare multipla

=asimmetria(a1:a15)

=curtosi(a1:a15)

Accetto H0
La regressione lineare semplice

12
10 (a)
14

12 (b) 16
14
12
(c) (d) (e) 7
6
10
8 5
10
8
8 4
6
6 6 3
4
4 4 2
2 2 1
2
0 0 0
0
0 20 40 60 80 100 120 0 20 40 60 80 100 120 0 20 40 60 80 100 120 -100 -50 0 50 100 150 200

F 1524,046 0,000 F 298,305 0,000 F 173,175 0,000 F 45,81 0,000 F 5,797 0,018
a 3,920 0,000 a 4,247 0,000 a 4,025 0,000 a 48,058 0,000 a 3,697 0,000
b 0,070 0,000 b 0,064 0,000 b 0,066 0,000 b 0,283 0,000 b 0,008 0,038
R2 0,940 R2 0,753 R2 0,639 R2 0,581 R2 0,057
DW 2,002 DW 1,989 DW 1,041 DW 0,338 DW 2,001

Istogramma Istogramma Istogramma Istogramma

25 20 30 12

25 10
20
15
Frequenza
Frequenza

Frequenza

20

Frequenza
8
15

10 15 6
10
10 4
5
5
5 2
Grafico di normalità P-P di regressione Residuo
Mean = -4,87E-16 Grafico di normalità P-P di regressione Residuo
Mean = 4,06E-16 Grafico di normalità P-P di regressione Residuo
Mean = -3,3E-16 Grafico di normalità P-P di regressione Residuo
Std. Dev. = 0,995 Mean = 8,12E-16
0 standardizzato Std. Dev. = 0,995
0 standardizzato N = 100 0 standardizzato Std. Dev. = 0,995 standardizzato Std. Dev. = 0,995
N = 100 N = 100 0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 N = 98
-4 -2 0 2 4 -4 -2 0 2 4
Regressione Residuo standardizzato Regressione Residuo standardizzato Regressione Residuo standardizzato Regressione Residuo standardizzato

1,0 1,0 1,0 1,0

0,8 0,8 0,8 0,8

Prob cum attesa


Prob cum attesa

Prob cum attesa


Prob cum attesa

0,6 0,6 0,6 0,6

0,4 0,4 0,4 0,4

0,2 0,2 0,2 0,2

0,0 0,0 0,0 0,0


0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0
Prob cum osservata Prob cum osservata Prob cum osservata Prob cum osservata
La regressione lineare: un caso di studio
PROPENSIONE MARGINALE AL CONSUMO –
COEFFICIENTE ANGOLARE DELLA RETTA
Consumi = a + b*Reddito
CONSUMO DI SOPRAVVIVENZA PRESENTE
ANCHE SE REDDITO = 0 – INTERCETTA
DELLA RETTA

R2 = 0,207
F = 558,100 0,000
a = 3065 0,000
b = 0,057 0,000
DW = 2,012
La regressione lineare: un caso di studio
ELASTICITA’ DEL CONSUMO RISPETTO AL
REDDITO – COEFFICIENTE ANGOLARE
Log(Consumi) = a + b*log(Reddito) DELLA RETTA
LOG DEL CONSUMO DI SOPRAVVIVENZA
PRESENTE ANCHE SE LOG(REDDITO) = 0 –
INTERCETTA DELLA RETTA

R2 = 0,196
F = 522,445 0,000
a = 5,113 0,000
b = 0,316 0,000
DW = 1,931
La regressione lineare multipla: cosa cambia?

y  b0  b1 x1  b2 x2  ...  bp x p

2 n- 1
R Adj = 1- (1- R 2 )
n- p- 1
1
VIFi =
1- Ri2

PRINCIPIO DI
IMPATTO CHE FORWARD
PARSIMONIA: usare
OGNI VARIABILE
il minor numero BACKWARD
HA SUL VALORE
possibile di variabili
DI F STEPWISE
indipendenti
La regressione lineare multipla: un esercizio

Log(C) = b0 + b1Log(R) + b2qc + b3f + b4ef + b5em + b6sf + b7sm

Dove:
C consumi
R reddito
qc quota dei consumi destinato ai prodotti alimentari
f numero dei figli
ef età della moglie
em età del marito
sf anni di studio della moglie
sm anni di studio del marito

1° metodo – Enter o blocco – usare tutte le variabili


2° metodo – Forward
3° metodo – Stepwise
La regressione lineare multipla: metodo enter
La regressione lineare multipla: metodo forward

SSR
p
F=
SSE
n- p- 1
La regressione lineare multipla: metodo stepwise