Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
y y =a+bx
α
0 1 2 x
yˆ i = a + b xi ∀i yi = yˆ i + ε i
L’errore che si commette ε i = yi − yˆ i
prevedendo ciascun Y osservato
con il modello, può essere misurato
come differenza tra il dato reale
e quello previsto: yˆ i = a + b xi
yi = yˆ i + ε i
cioè, per ciascuna osservazione i,
si commette un errore
ε i = yi − yˆ i
2
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
∑ ε i2 = ∑ ( yi − yˆi )2 = ∑ ( yi − a − b xi )2 = min
i =1 i =1 i =1
La retta migliore, secondo questo criterio, è quella che minimizza la somma dei
quadrati degli scarti dei valori stimati da quelli osservati, detti anche residui
della regressione.
Perché proprio il quadrato dei residui ?
per evitare che residui positivi e
negativi si compensino
il valore assoluto è matematicamente
più scomodo da gestire e non sempre
porta ad una soluzione univoca
il quadrato dà peso maggiore agli
scarti più grandi, che sono anche
quelli che ci disturbano di più:
è meglio fare tanti piccoli errori
che non un errore molto grosso
∑( y
i =1
i − a − b xi ) 2 = min
3
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
Matematica
La Derivata di una Funzione
La derivata di una funzione reale di variabile
reale f(x) nel punto x è definita come il limite
per h tendente a 0 del rapporto incrementale:
f ( x + h) − f ( x)
f ′( x ) = lim
h →0 h
Derivate Elementari
d d x
a=0 e = ex
dx dx
d d x
x =1 a = a x ln a ( a > 0)
dx dx
d d 1
ax=a ln x = ( x > 0)
dx dx x
d a d
x = a x a −1 sin x = cos x
dx dx
d 1 1 d
=− 2 cos x = − sin x
dx x x dx
d 1
x=
dx 2 x
4
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
Regole di Derivazione
∑( y
i =1
i − a − b xi ) 2 = min
=0
∂a − 2∑ ( yi − a − b xi ) = 0
⇒ ⇒
∂ ∑ ( yi − 2∑ ( yi − a − b xi ) xi = 0
2
− a − b xi )
=0
∂b
∑ ( yi − a − b xi ) = 0
Sistema di equazioni normali
di regressione
∑ ( yi − a − b xi ) xi = 0
Risolvendo il sistema rispetto ad a e b, si determinano le stime ai minimi quadrati dei
parametri della retta di regressione
5
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
∑ ( yi − a − b xi ) = 0 ∑ yi − na − b ∑ xi = 0
⇒ ⇒
∑ ( yi − a − b xi ) xi = 0 ∑ xi yi − a ∑ xi − b ∑ xi = 0
2
n y − na − b n x = 0 a = y − b x
⇒ ⇒
∑ xi yi − a n x − b ∑ xi = 0 ∑ xi yi − a n x − b ∑ xi = 0
2 2
∑x i yi − ( y − b x ) n x − b ∑ xi2 = 0
∑x yi i − n x y + n b x 2 − b ∑ xi2 = 0 Cov( x, y ) = M ( x, y ) − x y
∑x y i i
−
nx y
+ b(
nx
−
∑ xi ) = 0
2 2
V ( x) = M ( x 2 ) − x 2
n n n n
∑x i yi
−x y
∑ xi yi − x y = − b (x −2 ∑ xi2 ) ⇒ b= n =
Cov( x, y )
n n ∑x 2
i
− x2
σ 2 ( x)
n
∑x i yi
−xy
Cov ( x, y ) M ( x, y ) − x y n
bˆ = = =
σ 2 ( x) M ( x2 ) − x 2 ∑x 2
i
− x2
n
che ha il vantaggio di non richiedere il calcolo di scarti
(in pratica utilizza le formule indirette per la varianza e la covarianza)
6
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
yˆ i = aˆ + bˆ xi ∀i
yˆ ( x ) = aˆ + bˆ x =
= ( y − bˆ x ) + bˆ x = y
Per ciascun x(i) possiamo ora calcolare anche l’errore commesso prevedendo Y con
il modello, come scarto tra il valore osservato e quello stimato: questi errori sono
detti residui di regressione
ε i = yi − yˆ i ∀i
I residui sono importanti per la valutazione della bontà del modello, cioè la sua
capacità di adattarsi ai dati osservati
7
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
190
i x(i) y(i)
1 62 164
185
2 64 178
3 68 176
180
4 75 178
5 78 182
175
6 80 180
7 84 182
170
8 89 184
σ 165
bˆ = x2 y
σx 160
aˆ = y − bˆ x 50 60 70 80 90 100
σ x2 = 81,25 σ y2 = 34 σ x y = 42,25
σ x y 42,25
b= = = 0,52 a = y − b x = 178 − 0,52 ⋅ 75 = 139
σ x2 81,25
Il valore di b ci dice che, al variare di una unità di x, il valore di y varia di 0,52
Ora possiamo disegnare la retta di regressione, determinandone due punti a scelta
8
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
aˆ = y − bˆ x = 139 180
( x, y)
175
yˆ = 139 + 0,52 x
170
165
160
50 60 70 80 90 100
9
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
∑ ε i2 = ∑ ( yi − yˆi )2
i =1 i =1
∑( y
i =1
i − yˆ i ) xi = 0 ε i = yi − yˆ i
∑( y
i =1
i − yˆ i ) yˆ i = 0
n
∑( y
i =1
i − yˆ i )( yˆ i − y ) = 0
Le prime due proprietà derivano direttamente, anzi non sono altro che le
condizioni imposte dalle equazioni normali di regressione:
∑ ( yi − a − b xi ) = 0 ∑ ( yi − yˆ i ) = 0
ovvero
∑ ( yi − a − b xi ) xi = 0 ∑ ( yi − yˆ i ) xi = 0
10
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
∑( y
i =1
i − yˆ i ) yˆ i = 0
n n n
∑( y
i =1
i − yˆ i )( yˆ i − y ) = 0
n n n
11
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
∑ ε i2 = ∑ ( yi − yˆi )2
i =1 i =1
∑ ( yˆi − y )2
i =1 = M ( y ) + bˆ M ( x − x ) = y
prende invece il nome di devianza spiegata dal modello (o devianza di regressione),
in quanto devianza dei valori stimati dal modello: rappresenta la parte di variabilità
della Y descritta dal modello di regressione
Devianza spiegata e devianza residua sono legate tra loro e con la devianza totale
della variabile dipendente
∑ ( yi − y )2 = ∑ ( yi − yˆi )2 + ∑ ( yˆi − y )2
i =1 i =1 i =1
cioè come somma della devianza residua e della devianza spiegata dal modello
Devianza spiegata e residua sono quindi due quantità complementari e la loro
somma è pari alla devianza totale della Y. Lo stesso vale anche per la varianza,
basta dividere tutto per n:
σ y2 = σ modello
2
+ σ residua
2
yi
ε i = yi − yˆ i
Capiamo il significato yi − y yˆ i = a + b xi
della scomposizione: yˆ i − y
y
12
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
Lo stesso vale ovviamente anche per la varianza, basta dividere tutto per n, quindi
possiamo scrivere anche la scomposizione della varianza totale di Y:
σ y2 = σ modello
2
+ σ residua
2
R =
σ modello
2
2
=
∑ ( yˆ i − y )2
σ y2 ∑( y i − y )2
R² misura la frazione di varianza (o di devianza) della Y spiegata dal modello
R² si può scrivere anche come:
σ modello
2
σ y2 − σ residua
2
σ residua
2
R = 2
= = 1 −
σ y2 σ y2 σ y2
Assume valori compresi tra 0 e 1:
vale 1 quando il modello spiega completamente la varianza della Y:
i residui sono tutti nulli, cioè i punti sono perfettamente allineati
vale 0 quando la varianza descritta dal modello è nulla:
questo accade quando la retta di regressione risulta parallela all’asse X, cioè
yˆ i = y ⇒ ∑ ( yˆ i − y )2 = 0
13
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
R2 =
σ modello
2
=
∑ ( yˆi − y )2
= 1−
σ residua
2
= 1−
∑ ( yi − yˆi ) 2
σ y2 σ y2 σy 2
σ y2
Oppure, con la seconda formulazione, dobbiamo calcolare tutti gli scarti tra gli y
stimati e quelli osservati (cioè i residui)
Possiamo però sviluppare R² anche in un altro modo:
V ( yˆ ) V ( aˆ + bˆ x ) bˆ V ( x ) bˆ σ x
2 2 2
σ modello
2
R2 = = = = = =
σ y2 V ( y) V ( y) V ( y) σ y2
2 2
σ x y σ x2 σ x2 y σ x2 σ x2 y σ
= 2 2 = 4 2 = 2 2 = xy = ρ2
σx σy σ x σ y σ x σ y σ x σ y
Il coefficiente di determinazione R² (solo per il modello lineare di primo grado cioè
per la retta di regressione) è uguale al quadrato del coefficiente di correlazione ρ²
Quindi il quadrato del coefficiente di correlazione ci fornisce la frazione di varianza
spiegata dal modello, senza calcolare i residui e nemmeno gli y stimati
14
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
150
130
110
90
160
50 60 70 80 90 100
Il modello spiega circa il 65% della varianza complessiva della Y: possiamo ritenerci
soddisfatti ?
Nelle scienze sociali e comportamentali difficilmente si trovano modelli che
spiegano molta varianza, perché i fenomeni sono complessi e dipendono da molti
fattori diversi, inoltre le relazioni possono essere non lineari
15
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
σ modello
2
= 21,97 σ residua
2
= 12,03 σ y2 = 34 = σ modello
2
+ σ residua
2
σ modello
2
21,97 σ residua
2
12,03
R2 = = = 0,6462 oppure R 2 = 1 − = 1− = 0,6462
σy 2
34 σy 2
34
Conoscendo già il valore del coefficiente di correlazione, potevamo risparmiarci
tutti questi calcoli: 2 2
R = ρ x y = (0,8039) = 0,6462
2
16
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
è nulla
∑ ( yˆ
y = 3,5
2
i − y) = 0 4 R2 = 0
∑( y i − yˆ i ) 2 = ∑ ( yi − y ) 2 2
σ 2
σ2
R2 = regress
= 1− resid
= ρ x2 y = 0 0
σ 2
y σ 2
y
0 2 4 6 8 10
Cov( x, y ) Cov ( k , y ) 0
bˆ = = = 6
σ 2 ( x) σ 2 (k ) 0 5
limite della coincidenza di tutti i valori di X, ma basta che siano molto vicini perché
il calcolo di b risulti molto instabile, e quindi il modello sia privo di significato
Significato: se la X osservata non varia, non può neanche spiegare la variabilità di Y
17
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
xˆ = c + d y x
95
i x(i) y(i)
90 xˆ = −146,19 + 1,2416 y
1 62 164 85
2 64 178 80
3 68 176
75
4 75 178
5 78 182 70
6 80 180 65
7 84 182
60
8 89 184
Totale 600 1424 55
Media 75,00 178,00 50
160 165 170 175 180 185 Y
190
18
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
∑(x ∑x yi − b∑ xi2 = 0
Totale 600 1424
Media 75,00 178,00 i yi − b xi2 ) = 0 ⇒ i
19
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
σ modello
2
= 451,45 σ residua
2
= 287,14 σ y2 = 34 ≠ σ modello
2
+ σ residua
2
!!
σ modello
2
σ residua
2
R2 = ≠ 1 − ≠ ρ2
σy 2
σy 2
20
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
∑ ( yi − a − b xi ) = 0 ∑ yi − na − b ∑ xi = 0
⇒ ⇒
∑ ( yi − a − b xi ) xi = 0 ∑ xi yi − a ∑ xi − b ∑ xi = 0
2
n y − na − b n x = 0 a = y − b x
⇒
∑ xi yi − a n x − b ∑ xi = 0 ∑ xi yi − a n x − b ∑ xi = 0
2 2
Come conseguenza immediata, non vale più la prima proprietà dei residui:
la somma dei residui di regressione del modello ridotto non risulta uguale a 0
non è nulla nemmeno la somma degli scarti dei valori stimati dalla M(y)
la media dei valori stimati non coincide con la media di Y
la retta non passa per il baricentro del sistema
La seconda proprietà continua a valere perché è la condizione imposta dall’unica
equazione normale, derivata per la stima ai minimi quadrati del modello ridotto
∑( y
i =1
i − yˆ i ) xi = 0 ε i = yi − yˆ i
n n n
∑ ( yi − yˆi ) yˆi = 0
i =1
= ∑ ( yi − yˆ i ) b xi = b ∑ ( yi − yˆ i ) xi =0
i =1 i =1
n n n
∑( y
i =1
i − yˆ i )( yˆ i − y ) = 0 = ∑ ( yi − yˆ i ) yˆ i − y ∑ ( yi − yˆ i ) ≠ 0
i =1 i =1
Non valendo la quarta proprietà, non vale più nemmeno la scomposizione della
devianza totale, perché il doppio prodotto non si annulla:
n n n n
−2y ∑( y i − yˆ i )
21
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
22
Prof. Claudio Capiluppi - Facoltà di Scienze della Formazione - A.A. 2007/08
In questo caso dovremo minimizzare la somma dei quadrati dei residui del modello
rispetto ai tre parametri (a, b, c) ottenendo un sistema di 3 equazioni normali
Risolvendo il sistema, troviamo un modello che si adatta perfettamente ai dati
osservati: R²=1
23