Sei sulla pagina 1di 17

Capitolo 4

Regressione lineare
con un singolo regressore

Esercizi
4.1 Si supponga che un ricercatore, utilizzando i dati sulla dimensione delle classi (CS) e il punteggio medio in un test per 50
classi relative al terzo livello d’istruzione, stimi la regressione OLS,
TestScore = 640,3 – 4,93 × CS, R2 = 0,11, SER = 8,7
a. Una classe è composta da 25 studenti. Qual è la predizione della regressione per quanto riguarda il punteggio medio

nei test per tale classe?
b. L’anno scorso una certa classe era composta da 21 studenti e quest’anno da 24. Qual è la predizione della regressione

per quanto riguarda una variazione nel punteggio medio nei test per la classe?
c. La dimensione media delle classi relativa alle 50 classi è di 22,8 studenti. Qual è il punteggio medio nei test per le 50
classi? (Suggerimento: si faccia riferimento alle formule degli stimatori degli OLS.)
d. Qual è la deviazione standard campionaria del punteggi nei test tra le 50 classi? (Suggerimento: si faccia riferimento
alle formule dell’R2 e del SER.)
4.2 Si supponga che un campione casuale di 100 maschi ventenni sia selezionato da una popolazione e che se ne registri l’al-
tezza (Height) e il peso (Weight). Una regressione del peso sull’altezza fornisce:
Weight = –79,24 + 4,16 × Height, R2 = 0,72, SER = 12,6
dove Weight è misurato in libbre e Height in pollici.
a. Qual è il peso predetto per un individuo alto (i) 64 pollici? (ii) Alto 68 pollici? (iii) Alto 72 pollici?
b. Un giovane ha uno sviluppo tardivo e cresce 1,5 pollici nel corso di un anno. Qual è la predizione della regressione
per l’aumento del suo peso?
c. Si supponga che peso e altezza, invece essere misurati in libbre e pollici, siano misurati in chilogrammi e centimetri.
Quali sono le stime dei coefficienti per questa nuova regressione? (Si calcolino tutti i risultati, i coefficienti stimati,
l’R2 e il SER).
4.3 Una regressione della retribuzione media settimanale (AWE, dall’inglese average weekly earnings, misurata in dollari)
sull’età (Age, misurata in anni), usando un campione casuale di lavoratori a tempo pieno laureati di età compresa fra i 25
e i 65 anni, fornisce:
 = 696, 7 + 9, 6 × Age, R 2 = 0, 023 . SER = 624,1 .
AWE

a. Si spieghi che cosa indicano i valori 696,7 e 9,6 dei coefficienti.
b. L’errore standard della regressione (SER) è 624,1. Quali sono le unità di misura per il SER (Dollari? Anni? O SER è
privo di unità)?
c. L’R2 della regressione è 0,023. Quali sono le unità di misura per l’R2 (Dollari? Anni? Oppure l’R2 è privo di unità)?
d. Qual è la retribuzione predetta dalla regressione per un lavoratore di 25 anni? E per uno di 45?
e. La regressione dà predizioni affidabili per un lavoratore di 99 anni? Si argomenti la risposta.
f.
Tenuto conto di quanto è noto sulla distribuzione delle retribuzioni, si ritiene plausibile che la distribuzione degli
errori di regressione sia normale? (Suggerimento: si ritiene che la distribuzione sia simmetrica o asimmetrica? Qual
è il valore più piccolo delle retribuzioni? È un valore coerente con una distribuzione normale?)
g. L’età media in questo campione è di 41,6 anni. Qual è il valore medio di AWE nel campione? (Suggerimento: si riveda
il Concetto chiave 4.2.)
4.4 Si legga il riquadro “Il ‘beta’ di un titolo” nel Paragrafo 4.2.
a. Si supponga che il valore di b sia maggiore di 1 per un particolare titolo. Si mostri che la varianza di (R - Rf) per

questo titolo è maggiore della varianza di (Rm - Rt).
b. Si supponga che il valore di b sia minore di 1 per un particolare titolo. È possibile che la varianza di (R - Rf) per
questo titolo sia maggione della varianza di (Rm - Rt)? (Suggerimento: non si dimentichi l’errore di regressione.)
c. In un dato anno, il tasso di rendimento dei buoni del Tesoro trimestrali è il 2,0% e il tasso di rendimento su un ampio
e diversificato portafoglio di titoli (l’S&P 500) è il 5,3%. Per ogni società inserita nella tabella alla fine del riquadro,
si usi il valore stimato di b per stimare il tasso atteso di rendimento del titolo.
4.5 
Un ricercatore conduce un esperimento per misurare l’impatto di un breve sonnellino sulla memoria. Si chiede a 200 parte-
cipanti di fare un sonnellino di 60 minuti o di 75 minuti. Al risveglio, ciascuno dei partecipanti svolge un test sulla memoria
a breve termine. A ogni studente è assegnato casualmente uno dei tempi per l’esame in base al lancio di una moneta. Sia
Yi il numero dei punti ottenuti nell’esame dall’i-esimo partecipante (0 # Yi # 100), sia Xi la durata del sonnellino fatto dal
partecipante prima di sottoporsi al test (Xi = 60 o 75) e si consideri il modello di regressione Yi = b0 + b1Xi + ui.
a. Si spieghi che cosa rappresenta il termine ui. Perché diversi partecipanti hanno diversi valori di ui?
b. Che cos’è E(ui | Xi)? I coefficienti stimati sono non distorti?
c. Quali preoccupazioni si dovrebbero avere per quanto riguarda la conformità all’esperimento dei partecipanti?
^
d. La regressione stimata è Yi = 55 + 0,17Xi.
i. Si usi la regressione stimata per predire il punteggio medio dei partecipanti che hanno dormito 60 minuti
prima di svolgere il test; poi per quelli che hanno dormito 75 minuti e 90 minuti.
ii. Si calcoli qual è l’aumento stimato nel punteggio per un partecipante a cui sono dati ulteriori 5 minuti per
l’esame.
4.6 
Si mostri che la prima assunzione dei minimi quadrati, E(ui | X i) = 0, implica che
E(Yi | Xi) = b0 + b1Xi.
4.7 Si mostri che β̂ 0 è uno stimatore non distorto di b0. (Suggerimento: si usi il fatto che β̂1 è non distorto, il che è mostrato
nell’Appendice 4.3.)
4.8 Si supponga che tutte le assunzioni della regressione del Concetto chiave 4.3 siano soddisfatte, eccetto che la prima assun-
zione è sostituita con E(ui | Xi) = 2. Quali parti del Concetto chiave 4.4 continuano a valere? Quali cambiano? Perché? La
distribuzione di b1§ è normale in grandi campioni con la media e la varianza date nel Concetto chiave 4.4? E la distribuzione
di b0§ ?
4.9 a. Una regressione lineare fornisce b§ = 0. Si mostri che R2 = 0.
1

b. Una regressione lineare fornisce R2 = 0. Questo implica che b1§ = 0?


4.10 Si supponga che Yi = b0 + b1Xi + ui, dove (Xi, ui) sono i.i.d., e Xi è una variabile casuale di Bernoulli con Pr(X = 1) = 0,20.
Quando X = 1, ui è N(0,4); quando X = 0, ui è N(0,1).
a. Si mostri che le assunzioni della regressione presentate nel Concetto chiave 4.3 sono soddisfatte.
b. Si derivi un’espressione per la varianza campionaria di β̂1. [Suggerimento: si valutino i termini nella (4.21).]
4.11 Si consideri il modello di regressione Yi = b0 + b1Xi + ui.
a. Si supponga che b0 = 0. Si derivi una formula per lo stimatore dei minimi quadrati di b1.
b. Si supponga che b0 = 4. Si derivi una formula per lo stimatore dei minimi quadrati di b1.
4.12 
a. Si mostri che l’R2 della regressione di Y e X è il quadrato della correlazione campionaria tra X e Y. Cioè, si mostri che
R2 = r2XY.
b. Si mostri che l’R2 della regressione di Y su X è lo stesso dell’R2 della regressione di X su Y.
^
c. Si mostri che b1 = rXY(sY /sX), dove rXY è la correlazione campionaria tra X e Y, e sX e sY sono le deviazioni standard
campionarie di X e Y.
4.13 Si supponga che Yi = b0 + b1Xi + kui, dove k è una costante non nulla e (Yi, Xi) soddisfino le tre assunzioni dei minimi quadrati.
^
Si mostri che la varianza campionaria di b1 è data da
1 var [(X i − µ X ) ui ]
σ β̂2 = k 2

1
n [var (X i )]2
[Suggerimento: questa equazione è la varianza data nella (4.21) moltiplicata per k2.]
– –
4.14 Si mostri che la retta di regressione campionaria passa attraverso il punto (X , Y ).
Capitolo 4
Regressione lineare con un singolo regressore –
SOLUZIONI

4.1. (a) Il punteggio medio previsto è


 = 640,3 − 4,93 × 25 = 517,05
TestScore
(b) La variazione prevista del punteggio medio della classe è

∆TestScore = −4,93 × (24 – 21) = –14,79
(c) Utilizzando la formula per β̂ 0 dell’Equazione (4.8), si determina che la media campionaria
dei punteggi nei test per le 50 classi è
TestScore = βˆ 0 + βˆ 1 × CS = 640,3 − 4,93(22,8) = 527,9

(d) Si utilizza la formula dell’errore standard della regressione (SER) dell’Equazione (4.19)
per ottenere la somma dei quadrati dei residui:
SSR = (n − 2) SER 2 = (50 − 2) × 8,7 2 = 3633,12.
Si utilizza la formula di R 2 dell’Equazione (4.16) per ottenere la somma dei quadrati:
SSR 3633,12 3633,12
TSS = = = = 4082,16
1− R 2
1 − 0,11 0,89

TSS 4082,16
La varianza campionaria è sY =
2
= = 83,309 Quindi, la deviazione standard
n −1 49
è sY = 9,127.
4.2.
(a) Sostituendo nell’equazione Height = 64, 68 e 72 pollici, i pesi previsti sono 183, 203,64 e
220,28 libbre.

(b) ∆ Weight = 4,16 × ∆Height = 4,16 × 2 = 8,32 libbre.
(c) Si hanno le relazioni seguenti: 1 pollice = 2,54 cm e 1 libbra = 0, 4536 kg . Si supponga che
l’equazione di regressione, in centimetri e chilogrammi, sia
 = γˆ + γˆ × Height .
Weight 0 1

I coefficienti sono γˆ 0 = −79,24 × 0,4536 = −35,95 kg ; γˆ 1 = 4,16 × = 0,7429 kg per


0,4536
2,54

cm. R 2 è indipendente dall’unità di misura, quindi rimane R 2 = 0,72 . L’errore standard


della regressione è SER = 12,6 × 0, 4536 = 5,7154 kg .
4.3. (a) Il coefficiente 9,6 mostra l’effetto marginale di Age su AWE; ci si aspetta cioè che AWE
cresca di $9,6 per ogni anno in più. 696,7 è l’intercetta della retta di regressione. Essa
determina il livello complessivo della retta.
(b) SER è espresso nella stessa unità di misura della variabile dipendente (Y, o AWE in questo
esempio). SER è quindi espresso in dollari alla settimana.
(c) R2 è indipendente dall’unità di misura.
(d) (i) 696,7 + 9,6 × 25 = $936,7;
(ii) 696,7 + 9,6 × 45 = $1.128,7
(e) No. il lavoratore più anziano del campione ha 65 anni. 99 anni è molto al di fuori
dell’intervallo del campione.
(f) No. La distribuzione delle retribuzioni ha asimmetria positiva e curtosi più elevata del
normale.
(g) βˆ = Y − βˆ X , quindi Y = βˆ + βˆ X . Perciò la media campionaria di AWE è 696,7 + 9,6 ×
0 1 0 1
41,6 = $1.096,06.
4.4. (a) ( R − R f ) = β ( Rm − R f ) + u ,

quindi var ( R − R f ) = β 2 × var( Rm − R f ) + var(u ) + 2 β × cov(u , Rm − R f ).

Ma cov(u , Rm − R f ) = 0, quindi var( R − R f ) = β 2 × var( Rm − R f ) + var(u ).

Con β > 1, var(R – Rf) > var(Rm – Rf), perché var(u) ≥ 0.

(b) Sì. Utilizzando l’espressione in (a)


var ( R − R f ) − var ( Rm − R f ) = ( β 2 − 1) × var ( Rm − R f ) + var(u ), che sarà positivo se
var(u ) > (1 − β 2 ) × var ( Rm − R f ).

(c) Rm − R f = 5,3% − 2,0% = 3,3%. Quindi i rendimenti previsti sono


Rˆ = R f + βˆ ( Rm − R f ) = 2,0% + βˆ × 3,3%
Verizon: 2,0% + 0,0 × 3,3% = 2,0%
Wal-Mart: 2,0% + 0,3×3,3% = 3,0%
Kellogg: 2,0% + 0,5 × 3,3% = 3,7%
Waste Management: 2,0% + 0,6 × 3,3% = 4,0%
Google: 2,0% + 1,0 × 3,3% = 5,3%
Ford Motor Company: 2,0% + 1,3 × 3,3% = 6,3%
Bank of America: 2,0% + 2,2 × 3,3% = 9,3%
4.5. (a) ui rappresenta fattori diversi dal tempo che hanno influenza sulle prestazioni al test, tra i
quali la capacità cognitiva e la predisposizione naturale. Alcuni avranno una memoria
migliore di altri e alcuni peggiore.
(b) Dato che l’assegnazione è casuale, ui è indipendente da Xi. Poiché ui rappresenta le
deviazioni dalla media, E(ui) = 0. Dato che u e X sono indipendenti, E(ui|Xi) = E(ui) = 0.
Se E( b0 ) = b0 e E( b1) = b1 , allora i coefficienti stimati sono non distorti.
(c) Ci si preoccupa della non conformità all’esperimento perché il ricercatore può assegnare i
tempi dei sonnellini ai singoli partecipanti, ma non è possibile assicurarsi che questi
dormiranno esattamente per quel tempo. Tuttavia, se la conformità ai tempi dei sonnellini
è parimenti buona (o scarsa) in entrambi i gruppi, la non conformità comporterà soltanto
una riduzione della precisione delle stime, ma non introdurrà distorsioni.
(d) (i) 55 + 0,17 × 60 = 65, 2; 55 + 0,17 × 75 = 67,75; 55 + 0,17 × 90 = 70,3
(ii) 0,17 × 5 = 0,85.
4.6. Utilizzando E (ui |X i ) = 0, si ha
E (Yi |X i ) = E ( β 0 + β1 X i + ui |X i ) = β 0 + β1 E ( X i |X i ) + E (ui |X i ) = β 0 + β1 X i .
4.7. L’aspettativa di β̂ 0 si ottiene prendendo le aspettative di entrambi i membri dell’Equazione
(4.8):
  1 n  
E ( βˆ0 ) = E (Y − βˆ1 X ) = E   β 0 + β1 X + ∑ ui  − βˆ1 X 
 
 n i =1  
n
1
= β 0 + E ( β1 − βˆ1 ) X + ∑ E (ui )
n i =1
= β0
Nella terza uguaglianza dell’equazione soprastante si sfrutta il fatto che E(ui) = 0 e che
E[( β̂1 −β1) X ] = E[(E( β̂1 −β1)| X ) X ] = 0 perché E[( β1 − βˆ1 ) | X ] = 0 (cfr. l’Equazione (4.31)
nel testo).
4.8. L’unica variazione è che la media di β̂ 0 ora è β0 + 2. Un modo semplice per vederlo consiste
nello scrivere il modello di regressione come
Yi = ( β 0 + 2) + β1 X i + (ui − 2).
Il nuovo errore di regressione è (ui – 2) e la nuova intercetta è (β0 + 2). Per questo modello di
regressione valgono tutti gli assunti del Concetto chiave 4.3.
4.9. (a) Con βˆ1 = 0, βˆ0 = Y e Yˆi = βˆ0 = Y . Quindi ESS = 0 e R2 = 0.
(b) Se R2 = 0, allora ESS = 0, quindi Yˆi = Y per ogni i. Ma Yˆi = βˆ0 + βˆ1 X i , quindi Yˆi = Y per
ogni i, il che implica βˆ1 = 0, ovvero che Xi è costante per ogni i. Se Xi è costante per ogni
∑ ( X i − X ) 2 = 0 e β̂1 non è definito (vedere l’Equazione (4.7)).
n
i, allora i −1
4.10. (a) E(ui|X = 0) = 0 e E(ui|X = 1) = 0. (Xi, ui) sono i.i.d. quindi (Xi, Yi) sono i.i.d. (perché Yi è
una funzione di Xi e ui). Xi è limitata e ha quindi momento quarto finito; il momento quarto
è diverso da zero perché Pr(Xi = 0) e Pr(Xi = 1) sono entrambi diversi da zero, quindi Xi ha
curtosi finita diversa da zero. Con calcoli come quelli dell’Esercizio 2.13, si ricava che
anche ui ha momento quarto finito diverso da zero.
(b) var( X i ) = 0, 2 × (1 − 0, 2) = 0,16 e µ X = 0, 2. Inoltre

var[( X i − µ X )ui ] = E[( X i − µ X )ui ]2


= E[( X i − µ X )ui |X i = 0]2 × Pr( X i = 0) + E[( X i − µ X )ui |X i = 1]2 × Pr( X i = 1)
dove la prima uguaglianza vale perché E[(Xi – µX)ui] = 0 e la seconda uguaglianza segue
dalla legge delle aspettative iterate.
E[( X i − µ X )ui |X i = 0]2 = 0,22 × 1 e E[( X i − µ X )ui |X i = 1]2 = (1 − 0,2)2 × 4.
Unendo questi risultati,
1 (0, 22 × 1 × 0,8) + ((1 − 0, 2) 2 × 4 × 0, 2) 1
σ β2ˆ = = 21, 25
1
n 0,162 n

n
4.11. (a) La funzione obiettivo dei minimi quadrati è i =1
(Yi − b1 X i ) 2. Differenziando rispetto a b1
n
∂ ∑ (Yi − b1 X i ) 2
= −2∑ i =1 X i (Yi − b1 X i ). Uguagliando questa espressione a zero
i =1 n
si ottiene
∂b1
n

∑X Y i i
e risolvendo rispetto allo stimatore dei minimi quadrati si ottiene βˆ1 = i =1
n
.
∑X i =1
i
2

∑ X (Y − 4)
i i
(b) Seguendo gli stessi passaggi del punto (a) si ottiene βˆ1 = i =1
n
.
∑ X i2
i =1
4.12. (a) Scriviamo
n n n
ESS = ∑ (Yˆi − Y ) 2 = ∑ ( βˆ0 + βˆ1 X i − Y ) 2 = ∑ [ βˆ1 ( X i − X )]2
i =1 i =1 i =1
2
 ∑ ( X i − X )(Yi − Y ) 
n

= βˆ12 ∑ ( X i − X ) 2 = 
n
i =1
.
i =1 ∑in=1 ( X i − X ) 2
Ciò implica
2
ESS  ∑in=1 ( X i − X )(Yi − Y ) 
R = n
2
=
∑i =1 (Yi − Y ) 2 ∑in=1 ( X i − X ) 2 ∑in=1 (Yi − Y ) 2
2
 1
∑in=1 ( X i − X )(Yi − Y ) 
= n −1

 1
n −1 ∑ in=1 ( X i − X ) 2 n −1 ∑ i =1 (Yi − Y ) 
1 n 2

2
 s 
=  XY  = rXY
2

 s X sY 
(b) Consegue dal punto (a), perché rXY = rYX.
n n
1
s XY s ∑
(n − 1) i =1
( X i − X )(Yi − Y ) ∑ ( X i − X )(Yi − Y )
(c) Poiché rXY = , rXY sY = XY = n
= i =1 n = βˆ1
s X sY sX2 1
∑ ( X i − X )2 ∑
sX
( X i − X )2
(n − 1) i =1 i =1
4.13. La risposta segue da quanto ricavato nell’Appendice 4.3 in “La distribuzione ottimale dello
stimatore OLS in grandi campioni”. In particolare, vi ora è espresso come vi = (Xi – µX)kui, così
che var(vi) = k3var[(Xi – µX)ui] e il termine β2 consentono di completare i calcoli.
4.14. Poiché βˆ0 = Y − βˆ1 X , Y = βˆ0 + β1 X . La retta di regressione campionaria è y = βˆ0 + β1 x ,
quindi passa per ( X , Y ).