lineare semplice
Scatter delle osservazioni
80
Eppure esiste differenza tra
60
le due situazioni….quale?
40 Var(Y) = 1374,56
20
Le pendenze delle due
0
0 2 4 6 8 10 12 rette sono differenti…
X
100
80
Per costruzione, X è la stessa
Var(Y) = 85,91
60
in entrambi i grafici.
40
20
E’ maggiore la varianza di Y
0
nel grafico più in alto o più in
0 2 4 6 8 10 12 basso?
X
Quello che abbiamo scoperto dall’osservazione dei due
grafici precedenti è che il coefficiente di correlazione lineare
non mi dà informazioni su quanto varia Y al variare di X.
1 20
70
60
50
0 10 20 30 40 50
Posso trovare una espressione
Età (i n mesi ) a cui i l bambi no ha pronunci ato la pri ma parola che sintetizzi al meglio la
Fonte: D. S. Moore. The Basic Practice of Statistics relazione tra X e Y?
Yi 0 1 X i ei
Si vuole definire un’espressione matematica di un fenomeno che ne sintetizzi
(rappresenti) l’andamento (variabilità) in funzione di un altro o di più altri
diminuendo l’incertezza.
Si tratta cioè di definire una funzione che consenta di determinare l’intensità di
un fenomeno attraverso la conoscenza di uno o più altri fenomeni.
1 20
110
1 00
Trovo che la relazione tra
l’età e il punteggio al test
90 di Gesel è:
80
Yˆ 109,87 1,13 X
70
60
un bambino che parla a 10
mesi avrà un punteggio
50
0 10 20 30 40 50
atteso al test pari a
109,87 – 1,13·10 = 98,57
Età (i n mesi ) a cui i l bambi no ha pronunci ato la pri ma parola
100
80
60
Y
40
20
0
0 1 2 3 4 5 6 7 8 9 10
X
Ŷ = B0 + B1X + B2X2
350
300
250
200
Y
150
100
50
0
0 2 4 6 8 10
X
Altre specificazioni della funzione Ŷ = f(X)
Funzione Esponenziale
Ŷi = B0 B1Xi
Funzione Potenza
Ŷi = B0 XiB1
Fase2: Stima dei parametri
1 30
Punteggio al test Gesel sulle abilità mentali degli adulti
1 20
siano “piccoli”.
70
Il metodo dei minimi quadrati
Yˆ 109,87 1,13 X stima i parametri del modello
60
avvalendosi di tale condizione
50
0 10 20 30 40 50
Yi = a + Xi + ei
Y Yˆ e
n n
2
i i
2
i min
i 1 i 1
Si dimostra facilmente che il valore stimato dei parametri è:
a M (Y ) M ( X ) b
Cov(X, Y) XY
b 2 La covarianza determina
Var(X) X il segno di “b”
Y Yˆ e
n n
2
i i
2
i min
i 1 i 1
2
i
Y a X
i
i 2 Y a X 0
i i
a
i
Devo quindi risolvere il sistema
Y a X 2
2 Yi a X i X i 0
i
Y i na X i
Yi Xi
n a n
a M 1 Y M 1 X
La seconda equazione dà:
Y Xi i a X i X i2
Yi X i Xi X i2
n a n n
M 1 XY aM 1 X M 1 X 2
M 1 XY M 1 Y M 1 X M 1 X M 1 X 2
M 1 XY M 1 Y M 1 X M 1 X 2 M 1 X
2
Cov X , Y
b Stima di
Var ( X )
Sostituendo la stima appena trovata, ottengo la stima di a:
a M 1 Y bM 1 X
Si noti che:
Trattandosi di relazioni statistiche, è possibile invertire il ruolo
delle variabili X ed Y e stimare i parametri della relazione
X = a’ + ’ Y + e’
Cov(X, Y) XY
b' 2
Var(Y) Y
X Y
Impieghi (X) e depositi (Y) in milioni di
20 62
19 46
euro per un gruppo di 16 banche
25 95
23 71 Le quantità che ci interessano per la stima
dei modelli sono:
20 65
24 76 M(X) = 23,94 M(Y) = 82,31
26 98 Var(X) = 8,56 Var (Y) = 333,71
22 66 Cov(X,Y) = 51,14
21 70
E’ facile trovare che le stime dei due
23 77
modelli sono:
27 102
29 120 Y*=-60,73+5,98X
27 95
28 98 X*=11,32+0,15Y
25 90
24 86
Y
110
depositi
90
70
50
impieghi X
19 21 23 25 27
Alcuni elementi importanti sulle rette di regressione:
• Le rette di regressione si intersecano nel punto di coordinata
[M(X),M(Y)] detto baricentro
r2 = b•b’ =Cov(X,Y)2/Var(X)Var(Y)
r b b'
Vediamo la stima dei parametri per qualche altro modello:
Retta orizzontale
e
2
Yi Yˆi
2
i min così stimo il parametro a
i i
E’ facile verificare che a = M(Y)
1,2
Y
1
0,8
0,6
M(Y)
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1
X
Yˆi a bX i cX i
2
questo è il mio modello
e
2
Yi Yˆi
2
i min così stimo i parametri a, ,
i i
devo costruire un sistema di tre
equazioni in tre incognite attraverso
le derivate parziali
350
300
250
200
Y
150
100
50
0
0 2 4 6 8 10
X
Yi a X i X i X i3 ei così rappresento i dati
2
Cubica:
Yˆi a bX i cX i dX i3 questo è il mio modello
2
e
2
Yi Yˆi
2
i min così stimo i parametri a, , ,
i i
devo costruire un sistema di 4
equazioni in 4 incognite attraverso
le derivate parziali
300
250
200
150
Y
100
50
0
0 2 4 6 8 10
X
Funzione esponenziale
ln e
2
ln Yi ln Yˆi
2
i min
i i
ln b0 M (ln Y ) M ( X ) ln b1
Cov X , ln Y
ln b1
Var X
Funzione potenza
ln Yi ln B0 B1 ln X i ln ei
ln Yˆi ln b0 b1 ln X i
ln e
2
ln Yi ln Yˆi
2
i min
i i
ln b0 M (ln Y ) M (ln X ) b1
Covln X , ln Y
b1
Var ln X
Fase3: Bontà di adattamento
Quale modello è più affidabile e perché?
1,2 0,7
Y Y
1 0,6
0,5
0,8
0,4
0,6
0,3
0,4
0,2
0,2
0,1
0 0
0 0,2 0,4 0,6 0,8 1 0 0,2 0,4 0,6 0,8 1
X X
1,2
Y
1
0,8
Y Y
i
2
Yi Yˆi
2
Yˆi Y
2
1,2 0,7
R2 = 0,2808 Y
Y 0,6 R2 = 0,9184
1
0,5
0,8
0,4
0,6
0,3
0,4
0,2
0,2 0,1
0 0
0 0,2 0,4 0,6 0,8 1 0 0,2 0,4 0,6 0,8 1
X X
Altre misure della bontà di adattamento del modello sono:
Indici di accostamento:
2
Yi Yˆ
2 i media quadratica degli errori
n
Un altro esempio
Modello per il prezzo degli appartamenti a Roma
FASE 1 (scelta della forma funzionale)
L’ispezione visiva ci fa ritenere ragionevole ricorrere ad un modello lineare
Prezzo appartamenti e
superficie coperta
Flaminio
280000
260000
240000
220000
200000
PREZZO€
180000
160000
80 90 100 110 1 20 130 1 40 150