Sei sulla pagina 1di 36

Il modello di regressione

lineare semplice
Scatter delle osservazioni

140 In entrambi I grafici I punti


Y
120
sono allineati  r = 1
100

80
Eppure esiste differenza tra
60
le due situazioni….quale?
40 Var(Y) = 1374,56
20
Le pendenze delle due
0
0 2 4 6 8 10 12 rette sono differenti…
X

Scatter delle osservazioni


Perchè succede?
Quali sono le implicazioni
140
Y di questo fatto?
120

100

80
Per costruzione, X è la stessa
Var(Y) = 85,91
60
in entrambi i grafici.
40

20
E’ maggiore la varianza di Y
0
nel grafico più in alto o più in
0 2 4 6 8 10 12 basso?
X
Quello che abbiamo scoperto dall’osservazione dei due
grafici precedenti è che il coefficiente di correlazione lineare
non mi dà informazioni su quanto varia Y al variare di X.

Il coefficiente r mi dice solamente segno e intensità della


relazione lineare tra X ed Y.
Regressione lineare semplice
• L’età a cui i bambini cominciano a parlare,
è di aiuto nel capire le loro future capacità
mentali?
• Per rispondere alla domanda, si
raccolgono dati sull’età a cui 21 bambini
hanno pronunciato la prima parola e sui
risultati ottenuti, molti anni dopo, da quegli
stessi individui (ormai adulti) in un test
attitudinale noto come Gesel Adaptive
Score
1 30
Notiamo che:
• l’associazione esiste
Punteggio al test Gesel sulle abilità mentali degli adulti

1 20

• essa è di segno negativo


110
Stessa età, ma punteggi • è piuttosto forte (r = -0,64)
diversi
1 00 • bambini che parlano alla
stessa età, possono avere
90
attitudini molto diverse
80

70

60

50
0 10 20 30 40 50
Posso trovare una espressione
Età (i n mesi ) a cui i l bambi no ha pronunci ato la pri ma parola che sintetizzi al meglio la
Fonte: D. S. Moore. The Basic Practice of Statistics relazione tra X e Y?

Yi   0  1 X i  ei
Si vuole definire un’espressione matematica di un fenomeno che ne sintetizzi
(rappresenti) l’andamento (variabilità) in funzione di un altro o di più altri
diminuendo l’incertezza.
Si tratta cioè di definire una funzione che consenta di determinare l’intensità di
un fenomeno attraverso la conoscenza di uno o più altri fenomeni.

Ŷi= f(Xi) rappresenta il modello di Y in funzione di X

•X e Y devono essere caratteri entrambi quantitativi


•Y si dice variabile dipendente e rappresenta la variabile d’interesse
•X è la variabile indipendente, attraverso cui si spiega il comportamento di Y

Se la correlazione misura l’intensità e il segno del legame lineare tra


due variabili, l’obiettivo delle tecniche di regressione è, invece,
quello di individuare il tipo di relazione ( non causale ) che esiste tra
la variabile dipendente ( o spiegata o endogena) e una (o più)
variabili indipendenti (o esplicative o esogene ).
1 30
Punteggio al test Gesel sulle abilità mentali degli adulti

1 20

110

1 00
Trovo che la relazione tra
l’età e il punteggio al test
90 di Gesel è:
80
Yˆ  109,87  1,13 X
70

60
un bambino che parla a 10
mesi avrà un punteggio
50
0 10 20 30 40 50
atteso al test pari a
109,87 – 1,13·10 = 98,57
Età (i n mesi ) a cui i l bambi no ha pronunci ato la pri ma parola

Fonte: D. S. Moore. The Basic Practice of Statistics


Scopi alla base della costruzione di un modello del tipo Ŷi= f(Xi):

• qualificare la dipendenza di Y da X (misurandone l’intensità);

• stimare valori di Y condizionatamente alle conoscenze su X per:


• ricostruire dati mancanti;
• sostituire dati osservati con dati non “perturbati”;
• simulare valori di Y per valori di X non osservati.
Grazie alla conoscenza della funzione f(X) possiamo
quindi stimare il valore di Y in corrispondenza di Xi.
Indichiamo tale valore con Yˆi oppure Yi* (valore teorico)

Tale valore sarà in generale diverso da quello osservato Yi e


dunque l’errore che commettiamo rappresentando la
distribuzione di Y con i dati stimati dal modello f(X) è:
Yi  Yˆi  ei
Il modello può essere pertanto scritto come:
Ŷi = f(Xi) oppure
Yi = f(Xi) + ei

Se stimiamo Yi in corrispondenza di un valore Xi non


osservato, ma compreso tra valori osservati, effettuiamo
una interpolazione.
Se stimiamo Yi in corrispondenza di un valore Xi non
osservato, esterno ai valori osservati, effettuiamo una
estrapolazione.
In entrambi i casi compiamo una previsione di Y in
corrispondenza della circostanza Xi
Fasi del processo di interpolazione:
• scelta del tipo di funzione (Fase I)
• stima dei parametri incogniti (Fase II)
• verifica della bontà logica e dell’adattamento (Fase III)

(I) E’ l’aspetto più complesso, meno codificato e meno


codificabile  si ricorre all’esame visivo del fenomeno

In pratica devo decidere con quale tipo di funzione


interpolare i dati
Esempi

Se la nuvola di punti si dispone in modo lineare, ipotizzo una relazione lineare:


Ŷ = B0 + B1X

100
80
60
Y

40
20
0
0 1 2 3 4 5 6 7 8 9 10
X

Se la nuvola di punti si dispone in modo parabolico, ipotizzo una relazione parabolica:

Ŷ = B0 + B1X + B2X2
350
300
250
200
Y

150
100
50
0
0 2 4 6 8 10
X
Altre specificazioni della funzione Ŷ = f(X)

Funzione Esponenziale
Ŷi = B0 B1Xi

Funzione Potenza
Ŷi = B0 XiB1
Fase2: Stima dei parametri
1 30
Punteggio al test Gesel sulle abilità mentali degli adulti

1 20

Un modo ragionevole di trovare


110
ei la retta di regressione è imporre
1 00 la condizione che i residui
90
y i – ŷ i = ei
80

siano “piccoli”.
70
Il metodo dei minimi quadrati
Yˆ  109,87  1,13 X stima i parametri del modello
60
avvalendosi di tale condizione
50
0 10 20 30 40 50

Età (i n mesi ) a cui i l bambi no ha pronunci ato la pri ma parola

Fonte: D. S. Moore. The Basic Practice of Statistics


Stima dei parametri
Ipotizziamo di avere il modello:

Yi = a + Xi + ei

e di volere trovare le stime dei due parametri incogniti che


chiamiamo “a” e “b”.

Attraverso il metodo dei minimi quadrati, i parametri sono ricavati


a partire dalla seguente condizione:

 Y  Yˆ    e
n n
2
i i
2
i  min
i 1 i 1
Si dimostra facilmente che il valore stimato dei parametri è:

a  M (Y )  M ( X ) b

Cov(X, Y)  XY
b  2 La covarianza determina
Var(X) X il segno di “b”

“a” prende il nome di intercetta e misura il valore che mi aspetto


di Y quando X è uguale a zero.
“b” prende il nome di pendenza e misura la variazione che mi
aspetto di Y in corrispondenza ad una variazione unitaria di X
La stima dei parametri della retta Yi = a + Xi + ei
Il metodo dei minimi quadrati dice che trovo le stime dei parametri minimizzando la:

 Y  Yˆ    e
n n
2
i i
2
i  min
i 1 i 1

  2
  i
 Y  a   X 
i 
  i   2 Y  a  X   0
i i
a
i
 Devo quindi risolvere il sistema
 Y  a  X 2
  2 Yi  a  X i X i  0
  i

La prima equazione mi dà:

Y i  na    X i
Yi Xi
 n a   n
a  M 1 Y   M 1  X 
La seconda equazione dà:

Y Xi i  a  X i    X i2
Yi X i Xi X i2
 n a n   n
 
M 1  XY   aM 1  X   M 1 X 2

Sostituendo la prima nella seconda ottengo:

 
M 1  XY   M 1 Y   M 1  X M 1  X   M 1 X 2
 
M 1  XY   M 1 Y M 1  X   M 1 X 2   M 1  X 
2

Cov X , Y 
b Stima di 
Var ( X )
Sostituendo la stima appena trovata, ottengo la stima di a:

a  M 1 Y   bM 1  X 
Si noti che:
Trattandosi di relazioni statistiche, è possibile invertire il ruolo
delle variabili X ed Y e stimare i parametri della relazione
X = a’ + ’ Y + e’

In questo caso è facile dimostrare che le stime dei parametri


sono:
a'  M ( X )  M (Y ) b'

Cov(X, Y)  XY
b'   2
Var(Y) Y
X Y
Impieghi (X) e depositi (Y) in milioni di
20 62
19 46
euro per un gruppo di 16 banche
25 95
23 71 Le quantità che ci interessano per la stima
dei modelli sono:
20 65
24 76 M(X) = 23,94 M(Y) = 82,31
26 98 Var(X) = 8,56 Var (Y) = 333,71
22 66 Cov(X,Y) = 51,14
21 70
E’ facile trovare che le stime dei due
23 77
modelli sono:
27 102
29 120 Y*=-60,73+5,98X
27 95
28 98 X*=11,32+0,15Y
25 90
24 86
Y

110
depositi

90

70

50
impieghi X
19 21 23 25 27
Alcuni elementi importanti sulle rette di regressione:
• Le rette di regressione si intersecano nel punto di coordinata
[M(X),M(Y)] detto baricentro

• Vi è una stretta relazione tra la pendenza della retta e il


coefficiente di correlazione lineare:
Y X
br ; b'  r
X Y
tale relazione ci permette di capire che l’importanza di una variabile
nella spiegazione dell’altra è direttamente connessa con la
forza della relazione lineare (r) esistente tra le due variabili e
inversamente connessa con la sua varianza.
• a è l’intercetta, cioè il valore stimato di Y in
corrispondenza di X=0;
• b è il coefficiente angolare, che indica la variazione
attesa di Y per ogni incremento unitario di X:
– se b > 0 la retta è crescente e la relazione tra Y e X è diretta: Y
cresce al crescere di X, e viceversa, diminuisce al diminuire di X;
– se b < 0 la retta è decrescente e la relazione è inversa: Y diminuisce
al crescere di X e viceversa aumenta al diminuire di X;
– se b = 0 la retta è orizzontale e Y non varia la variare di X;
• il segno di b, e dunque la pendenza della retta, è dato
dalla covarianza
• Poiché la covarianza fornisce il segno sia di b, sia di b’
allora:
– se Cov(XY) > 0 le due rette sono entrambe crescenti
– se Cov(XY) < 0 le due rette sono entrambe decrescenti
– se Cov(XY) = 0 le due rette sono ortogonali, parallele ai due assi
• Il prodotto b•b’ è il quadrato del coefficiente di
correlazione:

r2 = b•b’ =Cov(X,Y)2/Var(X)Var(Y)

• Il coefficiente di correlazione r è la media geometrica del


prodotto dei due coefficienti di regressione b•b’ , presa con
il segno della covarianza:

r  b  b'
Vediamo la stima dei parametri per qualche altro modello:
Retta orizzontale

Yi  a  ei  così rappresento i dati


Yˆi  a  questo è il mio modello

   e 
2
Yi  Yˆi
2
i  min  così stimo il parametro a
i i
E’ facile verificare che a = M(Y)
1,2

Y
1

0,8

0,6
M(Y)
0,4

0,2

0
0 0,2 0,4 0,6 0,8 1
X

Si noti che l’errore complessivo che si commette è pari alla Dev(Y):

 i   Yi  a   Yi  M (Y )  Dev(Y )


2 2 2
e
i i i
Parabola: Yi  a   X i  X i  ei
2
 così rappresento i dati

Yˆi  a  bX i  cX i
2
 questo è il mio modello

   e 
2
Yi  Yˆi
2
i  min  così stimo i parametri a, , 
i i
devo costruire un sistema di tre
equazioni in tre incognite attraverso
le derivate parziali
350
300
250
200
Y

150
100
50
0
0 2 4 6 8 10
X
Yi  a  X i  X i  X i3  ei  così rappresento i dati
2
Cubica:
Yˆi  a  bX i  cX i  dX i3  questo è il mio modello
2

   e 
2
Yi  Yˆi
2
i  min  così stimo i parametri a, , , 
i i
devo costruire un sistema di 4
equazioni in 4 incognite attraverso
le derivate parziali
300

250

200

150
Y

100

50

0
0 2 4 6 8 10

X
Funzione esponenziale

Devo rendere il modello lineare nei


Yi  B0  B1X i  ei  Yˆi  b0  b1X i parametri  trasformata logaritmica
ln Yi  ln B0  X i ln B1  ln ei
ln Yˆi  ln b0  X i ln b1

   ln e 
2
ln Yi  ln Yˆi
2
i  min
i i

E’ facile dimostrare che le stime dei parametri sono:

ln b0  M (ln Y )  M ( X ) ln b1

Cov X , ln Y 
ln b1 
Var  X 
Funzione potenza

ˆ Devo rendere il modello lineare nei


Yi  B0  X i
B1
 ei  Yi  b0  X i parametri  trasformata logaritmica
b1

ln Yi  ln B0  B1 ln X i  ln ei
ln Yˆi  ln b0  b1 ln X i

   ln e 
2
ln Yi  ln Yˆi
2
i  min
i i

E’ facile dimostrare che le stime dei parametri sono:

ln b0  M (ln Y )  M (ln X ) b1

Covln X , ln Y 
b1 
Var ln X 
Fase3: Bontà di adattamento
Quale modello è più affidabile e perché?

1,2 0,7
Y Y
1 0,6

0,5
0,8

0,4
0,6
0,3
0,4
0,2

0,2
0,1

0 0
0 0,2 0,4 0,6 0,8 1 0 0,2 0,4 0,6 0,8 1
X X
1,2

Y
1

0,8

0,6 Un indice che misuri quanto


Y 0,4
affidabile è il modello può
usare il concetto di variabi-
0,2
lità residua.
0
0 0,2 0,4 0,6 0,8 1
X

La scomposizione della devianza:

 Y  Y 
i
2

  Yi  Yˆi 
2

  Yˆi  Y 
2

Dev Tot = Dev Residua + Dev Spiegata


L’indice usato per misurare la bontà di adattamento si chiama
coefficiente di determinazione e si indica con R2:

Dev Spiegata Dev Re sidua


R 
2
 1
Dev Totale Dev Totale

Considerazioni e proprietà del coefficiente di determinazione R2


• Se R2 = 0 vuol dire che la variabilità residua coincide con quella
totale, la retta di regressione è parallela all’asse ed il modello
ha un adattamento pessimo
• Se R2 = 1 vuol dire che la variabilità residua è nulla e quindi la
retta passa esattamente lungo tutti i punti che sono, ovviamente
allineati. Questa situazione coincide con il caso in cui r = ± 1
• R2>0 indica che la retta è positiva o negativa a seconda del segno
della covarianza
• E’ un numero puro
• Nel caso di retta di regressione R2=r2
• E’ il prodotto di b e b’
Tornando all’esempio

1,2 0,7

R2 = 0,2808 Y
Y 0,6 R2 = 0,9184
1

0,5
0,8
0,4
0,6
0,3
0,4
0,2

0,2 0,1

0 0
0 0,2 0,4 0,6 0,8 1 0 0,2 0,4 0,6 0,8 1
X X
Altre misure della bontà di adattamento del modello sono:

Indici di accostamento:

Yi  Yˆi media aritmetica degli errori in valore assoluto


 
i n

 
2
Yi  Yˆ

2 i media quadratica degli errori
n
Un altro esempio
Modello per il prezzo degli appartamenti a Roma
FASE 1 (scelta della forma funzionale)
L’ispezione visiva ci fa ritenere ragionevole ricorrere ad un modello lineare

Prezzo appartamenti e

superficie coperta
Flaminio
280000

260000

240000

220000

200000
PREZZO€

180000

160000
80 90 100 110 1 20 130 1 40 150

Superficie coperta (mq)


FASE 2: La stima del modello

Stimiamo il modello e troviamo la seguente relazione:

Prezzo* = 17.345,15 + 1.765,92 Sup_Cop

FASE 3: valutazione del modello e verifica delle assunzioni

L’adattamento del modello ai dati è misurato dal


coefficiente di determinazione R2 = 0,978.
L’adattamento è eccellente.

Anche l’analisi del modello da un punto di vista logico


ci appare più che soddisfacente.

Potrebbero piacerti anche