Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
E ( y ) = E ( f ( X ) + e ) = f ( X ) + E (e ) = f ( X )
f ( X ) = β 0 + β1 h( X )
1
Nella teoria del calcolo delle probabilità, il valore atteso (aspettazione, attesa, media o
()
speranza matematica) viene usualmente indicata con la notazione E ⋅ . Il valore atteso di una
variabile casuale è un numero che formalizza l'idea euristica di valore medio di un fenomeno
aleatorio. Nel lanciodi una moneta, ad esempio, sappiamo di vincere 100 se scommettiamo su
Testa ed tale evento si verifica e 0 nel caso inverso. Il valore atteso del gioco, quetso caso, è
pari a 50, ovvero la media delle vincite e perdite pesata in base alle probabilità (50% per
entrambi i casi): 100*0,5 + 0*0,5= 50, cioè il valore di "testa" per la sua probabilità e il valore
di "croce" per la sua probabilità.
2
dove h( X ) è una funzione matematica nota della sola X non contente
ulteriori parametri. La forma più semplice nello scegliere, h( X ) = X per cui il
modello di regressione lineare diventa
Yi = β 0 + β1 X i + ei i = 1, 2, ..., N
f ( x ) = β 0 + β1 x
( x3 ; y 3 )
(x N ; y N )
f (x )
(xi , f (xi ))
(x2 ; y 2 )
(x1 ; y1 )
xi
3
Obiettivo dell’analisi di regressione è quello di individuare la retta
“ottimale”, intendendo per tale quella che è in grado di minimizzare la distanza
tra punti teorici e punti osservati, distanza che viene interpretata come
realizzazione êi della variabile casuale ei. Ogni variabile casuale Yi possiede,
2
Una variabile casuale si dice doppia quando si riferisce alla probabilità del
contemporaneo verificarsi di due eventi (assunzione di zuccheri e glicemia, reddito e consumo,
ecc.).
4
µ x , µ y ,σ x2 ,σ y2 , ρ , definite per − ∞ < x < +∞ e − ∞ < y < +∞ e la cui funzione
di densità è
x − µ x − µx y − µ x y − µy
2
1 1
f ( x, y ) = exp− x
+ −2 ρ +
2πσ xσ y 1− ρ 2 (
2 1 − ρ
2
) σ x
σx
σ y
σ
y
(X Y = y ) è N [µ + (ρσ
x x (
/ σ y )( y − µ y );σ x2 1 − ρ 2 )]
e, analogamente,
(Y X = x ) è N [µ + (ρσ
y y (
/ σ x )(x − µ x );σ y2 1 − ρ 2 . )]
5
2. E (ei ) = 0 : è necessario che gli scarti positivi e negativi si compensino
in media (la necessità matematica si giustifica anche in funzione della
logica che vi è alla base e cioè del fatto che la componente erratica
venga considerata accidentale nel modello). Da ciò discende che, in
media, le variabili casuali ei non esercitano alcuna influenza su Yi.
3. Var (ei ) = σ 2 : la varianza della componente erratica rimane costante al
variare delle osservazioni.
4. Cov (ei ; e j ) = 0 : le variabili casuali ei sono tra di loro non correlate.
6
13.1. La stima dei parametri: minimi quadrati e
massima verosimiglianza.
7
Poiché lo scopo di questo lavoro è di introdurre il lettore nel vivo della
ricerca operativa, ripercorriamo tutte le fasi dell’analisi che vengono fatte nelle
realtà e che è bene imparare immediatamente. Prima di procedere alla stima dei
parametri della retta di regressione, è buona norma, infatti, vedere graficamente
la distribuzione dei dati, che nel nostro caso si presente nel seguente modo:
700
650
prezzi praticati
600
550
500
450
400
400 410 420 430 440 450 460
volume vendite
Figura 3 - Distribuzione dei dati contenuti nella tabella 13.1. “Analisi di marketing per il
lancio di un nuovo prodotto in diversi punti vendita”.
Uno degli assunti alla base del modello di regressione è la linearità del
legame tra la variabile dipendente ed il regressore: attraverso l’analisi grafica
della distribuzione dei dati possiamo immediatamente confermare o confutare
tale ipotesi.
Quello proposto è chiaramente un caso molto semplice, per il quale si
intuisce con un semplice “colpo d’occhio” la linearità dei dati, ma non sempre
(anzi quali mai!) la realtà si presenta in modo altrettanto semplice. E’ bene però
partire da un caso meno complesso per comprendere la logica sottesa al
modello.
Dopo l’analisi grafica dei dati, passiamo ora alla stima dei parametri del
modello di regressione. I metodi a disposizione sono due:
8
Minimi quadrati.
Massima verosimiglianza.
n n
S (ϑ ) = ∑ ei2 = ∑ [X i − g (ϑ )]
2
i =1 i =1
campione casuale di una sola unità, allora quello estratto dalla i-ma
popolazione sarà
E (Yi ) = g i (a1 ,..., a H ;ϑ1 ,...,ϑ p )
9
da cui gli scarti dalla media risulteranno pari a
i =1 i =1
il metodo dei minimi quadrati sarà dato da quella p-pla ϑ1 ,...,ϑ p che minimizza
la seguente espressione
) = ∑ e = ∑ [Y − g (a ,..., a )]
n n
S (ϑ1 ,...,ϑn 2
i i i 1 H ;ϑ1 ,...,ϑ p
i =1 i =1
I motivi per cui questo metodo viene così frequentemente impiegato sono
di diversa natura. Anzitutto, non richiede alcun tipo di conoscenza della
distribuzione della popolazione (o variabile casuale), cosa che rende questa
tecnica applicabile a numerose situazioni di rilevanza pratica. Per poterla
utilizzare è, infatti, sufficiente conoscere solo la forma funzionale
delle g i (a1 ,..., a H ;ϑ1 ,...,ϑ p ) per i=1, 2, …, n. Con gli attuali calcolatori
10
n n
S (ϑ ) = ∑ ei2 = ∑ [X i − g (ϑ )]
2
i =1 i =1
dS (ϑ )
= −2∑ ( X i − ϑ ) = 0
dϑ
11
Al ricorrere di tali caratteristiche, si parla di modello di regressione.
Si parlerà, invece, di modello di regressione lineare nel caso in cui si
aggiunga alle precedenti condizioni anche quella in base alla quale
le g i (a1 ,..., a H ;ϑ1 ,...,ϑ p ) possano essere tutte espresse sotto forma di
j =1
∑ [Y − g (a ,..., a ]
H ; ϑ1 ,..., ϑ p ) ed otteniamo
n
Applichiamo, quindi, la i i 1
i =1
S = S (β 0 , β1 ) = ∑ ( yi − β 0 − β1 xi ) =
2
minimo rispetto a (β 0 , β1 )
∂S
∂β = −2∑ ( yi − β 0 − β1 xi ) = 0
0
∂S = −2 ( y − β − β x )x = 0
∂β1 ∑ i 0 1i i
12
che, semplificando opportunamente, si riduce al sistema di due equazioni
lineari nelle due incognite β 0 e β1 :
β 0 N + β1 ∑ xi = ∑ yi
β 0 ∑ xi + β1 ∑ xi = ∑ xi yi
2
ˆ
β
0 =
∑ yi ∑ xi2 − ∑ xi ∑ xi yi
N ∑ xi2 − (∑ xi )
2
βˆ = N ∑ xi yi − ∑ xi ∑ yi
1 N ∑ xi2 − (∑ xi )
2
vendite prezzi
i y2 x2 x*y
(yi) (xi)
A 410 550 168100 302500 225500
B 380 600 144400 360000 228000
C 350 650 122500 422500 227500
D 400 600 160000 360000 240000
E 440 500 193600 250000 220000
F 380 650 144400 422500 247000
G 450 450 202500 202500 202500
H 420 500 176400 250000 210000
TOT 3230 4500 1311900 2570000 1800500
13
FASE 2: CALCOLO DEI VALORI DA INSERIRE NELLE FORMULE
PER LA STIMA DEI PARAMETRI CON IL METODO DEI MINIMI
QUADRATI.
∑x
i =1
i = 3230 grazie alla quale è possibile calcolare y = 403,75 3
∑y
i =1
i = 4500 grazie alla quale è possibile calcolare y = 562,5 4
∑x
i =1
2
= 2570000 → media di x 2 =321250 → S x2 = 4843,75
la varianza della y
∑y
i =1
2
= 1311900 → media di y 2 =163987,5 → S y2 = 973,44
3
∑x
i =1
i
La formula della media aritmetica è .
N
4
Per la formula della media aritmetica si guardi la nota precedente.
14
e la covarianza di x ed y, che può essere calcolata come la differenza tra
la media dei prodotti di x per y meno il prodotto delle medie di x e di y
ˆ
β
0 =
∑ yi ∑ xi2 − ∑ xi ∑ xi yi
N ∑ xi2 − (∑ xi )
2
βˆ = N ∑ xi yi − ∑ xi ∑ yi
1 N ∑ xi2 − (∑ xi )
2
ed otteniamo che
N ∑ xi yi − ∑ xi ∑ yi S xy − 2046,875
βˆ1 = = 2 = = −0,422
N ∑ i ∑ i
x 2
− ( x )2
S x 4843 , 75
ˆ ∑ y i ∑ xi − ∑ xi ∑ xi y i
2
Yˆ = 641,125 − 0,422 X
15
13.2. Proprietà delle stime ottenute con il metodo
dei minimi quadrati.
16
(B0 ; B1 ) le variabili casuali stimatori dei minimi quadrati.
La bontà del modello dei minimi quadrati non può essere giudicata sulla
( )
base dei valori numerici βˆ0 ; βˆ1 ottenuti da un solo campione, ma bisognerà
1. E (B0 ) = β 0 E (B1 ) = β1
2. Var (B0 ) = σ 2 ∑x 2
i
=
σ2 x2
1 + 2 e
N ∑ (x − x )
2
i
N Sx
σ2 σ2
Var (B1 ) = =
∑ (x i − x2 ) NS x2
−x −σ 2x
3. Cov(B0 ; B1 ) = σ 2 =
∑ (xi − x )2 NS x2
−x
4. Corr (B0 ; B1 ) =
∑x 2
i /N
5
Vd. Johnston e Goldberger.
17
B1 =
∑ (xi − x )(Yi − Y )
∑ ( xi − x )
2
B0 = Y − B1 x
E (Yi ) = E (β 0 + β1 xi + ei ) = β 0 + β1 xi + E (ei ) = β 0 + β1 xi
1 1 1 1
E (Y ) = E ∑ Yi = ∑ E (Yi ) = ∑ (β 0 + β1 x ) = [ ]
Nβ 0 + β1 ∑ xi = β 0 + β1 x
N N N N
E (Yi − Y ) = E (Yi ) − E (Y ) = β 0 + β1 xi − (β 0 + β1 x ) = β1 xi − β1 x = β1 ( xi − x )
∑ (x − x )E (Y − Y ) = ∑ (x − x )β (x − x ) = β ∑ (x − x)
2
E (B ) =
1
= β1
i i i i i
∑ (x − x ) ∑ (x − x ) ∑ (x − x)
1 2 2 1 2
i i i
E (B ) = E (Y − B x ) = E (Y ) − E (B )x = β + β x − β x = β
0 1 1 0 1 1 0
Abbiamo in questo modo dimostrato che gli stimatori OLS sono non
distorti poiché, in media, essi equivalgono ai parametri che cercano di stimare.
La varianza di tali stimatori tende a zero al crescere di N: poiché non
sono distorti, tale proprietà implica che essi siano anche consistenti.
L’importanza di questa osservazione è di immediata evidenza: se la non
distorsione assicura che tali stimatori coincidono in media con i parametri veri
della popolazione, il tendere a zero della loro varianza implica che la
precisione delle stime aumenta con N. A ciò si aggiunga, inoltre, che le stime
OLS sono lineari perché possono essere scritte come una combinazione lineare
delle osservazioni Yi . Grazie al teorema di Gauss – Markov, è inoltre possibile
dimostrare che, tra tutte le stime lineari non distorte, gli stimatori dei minimi
18
quadrati sono anche quelli più efficienti, ossia con varianza minima. La
covarianza dipende, infatti, dal segno di x: se è positivo la covarianza è negativ
(da cui discende che, se si sovrastima la pendenza, si sottostima l’intercetta e
viceversa), se invece x è negativo la covarianza è positiva e pertanto
tendenzialmente gli errori nella stima di ß1e ß2 hanno lo stesso segno.
Il risultato più importante sulle proprietà degli stimatori dei minimi
quadrati è costituito dal teorema di Gauss Markov.
Non è quindi possibile che esista un’altra coppia di stimatori per ß1e ß2
che siano lineari e non distorti e abbiano varianza minore degli stimatori dei
minimi quadrati.
19
( )
2
ˆ 2 1 x
lim Var β1 = σ lim + n
n →∞ n →∞ n 2
∑ (xi − x )
i =1
n →∞
( )
lim Var βˆ2 = lim
n →∞ n
σ2
=0
∑ (x − x )
2
i
i =1
20
13.3. Il metodo della massima verosimiglianza.
21
Per trovare lo stimatore di massima verosimiglianza del vettore di
parametri (β1, β2, σ) occorre costruire e massimizzare la funzione di
verosimiglianza.
2
yi − β 0 − β1 xi
1 −1
f ( y i xi , β 0 , β 1 , σ ) =
2
σ
e
σ 2π
2
yi − β 0 − β1xi
n
1 −1 n
f ( y1 ,..., y n x1 ,..., xn ; β 0 , β1 ,σ ) = ∏ f ( yi xi , β 0 , β1 ,σ ) =∏
2
σ
e
i =1 i =1 σ 2π
2
yi − β 0 − β1xi
n
1 −1
L(β 0 , β1 , σ y1 ,..., y n ; x1 ,..., xn ) = ∏
2
σ
e
i =1 σ 2π
1 1 n 2
ln L(β 0 , β1 ,σ y1 ,..., y n ; x1 ,..., xn ) = n ln − ( y i − β 0 − β 2 xi )
2 ∑
σ 2π 2σ i =1
σˆ 2 MLE =
1 n
(
∑ yi − βˆ0 − βˆ1 xi
n i =1
) =
1 n 2
∑ εˆi
n i =1
22
13.4. Proprietà degli stimatori di massima
verosimiglianza.
6
tra tutti gli stimatori consistenti, lo stimatore di massima verosimiglianza è quello con
varianza più “piccola”. Per questo motivo, sotto l’ipotesi di normalità, lo stimatore OLS è BUE
(best unbiased estimator) e non semplicemente BLUE, poiché coincide con lo stimatore MLE.
7
Abbiamo, infatti, che
23
13.5. Intervalli di confidenza per i coefficienti di
regressione.
σ2 ∑i = 1 xi2 / nS xx .
n
Z=
(B0 − β0 ) tenderanno a distribuirsi come leggi normali standardizzate.
∑
n
σ 2
i =1
x 2
i
nS xx
t = (B 1 − β1 ) / MSE * / S xx ; t = (B 0 − β0 )/ MSE * (∑ n
i =1
)
x i2 / nS xx 8, e cioè
con n-2 gradi di libertà e si può inoltre dimostrare che (MSE * /σ 2 )(n − 2 ) e
B1 sono indipendenti. Sotto queste condizioni,
2
8
Nella ricerca empirica, accade spesso che la varianza, σ , sia incognita. Si rende, quindi,
necessario stimare la varianza corretta, che qui indichiamo con la sigla MSE.
24
(B 1 − β1 )
σ / S xx B 1 − β1 (B − β1 ) n − 2 S xx
t= = S xx = 1
MSE * (n − 2 ) / σ (n − 2 )2
MSE * SSE *
è una v.c. pivot con una distribuzione t di Student con n-2 gradi di libertà.
Un intervallo di confidenza per β 1 con un livello di confidenza pari a
(1 − α ) è dato da
( )
P B 1 − t α / 2 , n − 2 MSE * / S xx ≤ β1 ≤ B 1 + t α / 2 , n − 2 MSE * / S xx = 1 − α
P B 0 − t α / 2 , n − 2 MSE *
(∑ n
i =1
)
x i2 / nS xx ≤ β1 ≤ B 0 − t α / 2 , n − 2 MSE *
(∑ n
i =1
)
x i2 / nS xx = 1 − α
2
L1 = Yˆ − tα / 2,n−2
1 (x − x )
MSE * + n 0
n
∑ (xi − x )2
i =1
2
L2 = Yˆ + tα / 2,n− 2
1 (x − x )
MSE * + n 0
n
∑ (xi − x )2
i =1
Tali valori possono essere rappresentati su di un piano in funzione di x0 ,
insieme alla retta di regressione.
25
Nel seguito, proponiamo un quadro di sintesi relativamente a tutti gli intervalli
di confidenza nel modello di regressione lineare.
µ y / x = E (Y0 ) 1 (x − x )
2
Yˆ0 ± tα / 2,n− 2 MSE * + 0
0
n S xx
Y0 1 ( x0 − x )2
ˆ
Y0 ± tα / 2,n− 2 MSE * 1 + +
n S
xx
1 1+ ρ 1 1+ r * 1
log log ± zα / 2
2 1− ρ 2 1− r * n−3
con
r* = stimatore di r (coefficiente di correlazione)
MSE* = stimatore della varianza.
26
13.6. Verifica delle ipotesi dei parametri del
modello di regressione.
27
b1
tn−2 =
S b1
con
S yx
S b1 =
n
n ∑x i
∑x i − i =1
n
i =1
.
28
che la somma dei valori osservati e di quelli stimati dal modello è la stessa. In
questo caso, calcolare tutti i valori teorici è stato possibile poiché abbiamo un
n=8. In molti casi, invece, questa operazione risulta proibitiva perché la
numerosità campionaria è molto più consistente. In tal caso, possiamo ricorrere
alle seguenti formule
∑ (y )
n n n n
− yi* = ∑ yi − b0 ∑ γ i − b1 ∑ xiγ i ,
2
i
i =1 i =1 i =1 i =1
da cui si ottiene
n n n
∑ γ i − b0 ∑ γ i − b1 ∑ xiγ i
2
S yx = i =1 i =1 i =1
.
n−2
b1
t n −2 =
S b1
29
con b1 lo stimatore ai minimi (intercetta della retta di regressione) e con
S yx
S b1 =
n
n ∑x i
∑x
i =1
i − i =1
∑ (y − y )
n
*
i i
S yx = i =1
n−2
867,755
S yx = = 12,03
8−2
Otteniamo, così
12,03
S b1 = = 0,19
4500
4500 −
8
t n −2 =
(− 0,422) = −2,22
0,19
30
Per accettare o rifiutare l’ipotesi nulla, la regola di decisione è: se
t > tα 2,n−2 allora si rifiuta l’ipotesi nulla e si conclude che la variabile X ha
Rifiutiamo l'ipotesi nulla perché il valore del test empirico cade oltre la
soglia critica, e cioè nella zona di rifiuto dell'ipotesi nulla. Possiamo, quindi,
verificare che il prezzo praticato incide sul volume delle vendite.
31
13.7. Misura della bontà di adattamento
devianza di regressione
r 2 = SSR / S yy =
devianza totale
32
dev. totale = dev. residua meno dev. di regressione
n n n
∑ (y i − y ) = ∑ ( yi − yˆ i ) ∑ ( yˆ − y)
2 2 2
− i
i =1 i =1 i =1
S yy = SSE − SSR
R2 = 1−
Dev(eˆ )
= 1−
(
N S y2 − S xy2 / S x2 )
=
S xy2
= rxy2 .
Dev( yˆ ) 2
NS y 2 2
Sx Sy
33
Nel caso di indipendenza lineare il coefficiente assume valore zero,
mentre non vale la conclusione opposta, ovvero dal coefficiente nullo non si
può desumere l'indipendenza lineare: tale condizione può, quindi, dirsi
necessaria ma non sufficiente per l'indipendenza delle due variabili.
vendite prezzi
i y2 x2 x*y
(yi) (xi)
A 410 550 168100 302500 225500
B 380 600 144400 360000 228000
C 350 650 122500 422500 227500
D 400 600 160000 360000 240000
E 440 500 193600 250000 220000
F 380 650 144400 422500 247000
G 450 450 202500 202500 202500
H 420 500 176400 250000 210000
TOT 3230 4500 1311900 2570000 1800500
MEDIA 403,75 562,5 163987,5 321250 225062,5
QUADR. 163014,06 316406,25
34
Per misura la bontà di adattamento del modello ai dati, useremo l'indice
di determinazione lineare e la sua radice quadrato, il coefficiente di
correlazione lineare.
L’indice di determinazione lineare è calcolato tramite la formula
R 2 = bxy − byx
con
∑ (xy ) − n(x y )
i =1 cod ( x; y )
bxy = =
n
dev( x )
∑x − n( x )
2 2
i =1
∑ (xy ) − n(x y )
i =1 cod ( x; y )
b yx = =
n
dev( y )
∑y − n( y )
2 2
i =1
r = ± b0 − b1 .
35
Inserendo i dati nelle formule, otteniamo
E, quindi:
R2= 0,8885725
r= 0,9426412
H0 : ρ = 0
H1 : ρ ≠ 0
r n−2
T=
1− R2
36
Che nel nostro caso risulta pari a 6,92. Quale test utilizziamo per la
verifica delle ipotesi? Utilizziamo una t di Student con (n-2)g.l. 9, il cui valore,
in questo caso, è pari a
t0,025;8− 2 g .l . = 2,447
9
Quando n (=numerosità campionaria) è grande, lo stimatore r* approssima una Normale
N[0;1/(n-1)].
37
Nel seguito, proponiamo un quadro di sintesi relativamente alla verifca delle
ipotesi nel modello di regressione lineare:
H0 Stimatore Statistica test Distribuzione sotto H0
β0 B0 b0 tn−2
=0 n 2 t di Student
∑ xi
MSE i =1
nS xx
β1 B1 b1 tn−2
=0 MSE t di Student
S xx
ρ= r* 1 1+ r* 1 1 + ρ0 ρ 0 Z
r * log e − log e +
ρ0 2 1 − r * 2 1 − ρ 0 2 (n − 1)
Normale
1
n−3
con
B1= stimatore del coefficiente angolare della retta di regressione
r*2=stimatore del coefficiente di determinazione
MSR*=SSR*/1=stimatore della varianza di regressione
38