Sei sulla pagina 1di 64

Materiale didattico – Esercizi (prima parte)

Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

In una ricerca, il coefficiente di correlazione lineare fra gli anni di istruzione del marito e della
moglie per gli abitanti di una certa città è risultato pari a 0.5 sia per i mariti che per le mogli il
numero medio di anni di istruzione è risultato pari a 12 con uno scarto quadratico medio pari a 3.
i) Prevedere il numero di anni di istruzione di una donna il cui marito abbia studiato per 18 anni;
ii) prevedere il numero di anni di istruzione per un uomo la cui moglie abbia studiato per 15
anni;
iii) apparentemente uomini più istruiti tendono a sposarsi con donne che lo sono meno; lo stesso
però vale per le donne più istruite, i cui mariti mediamente hanno meno anni di istruzione di
loro. Come si spiega tale fenomeno?

Definiti i caratteri
X i = anni di istruzione del marito e
Yi = anni di istruzione della moglie,
il quesito i) fa riferimento al modello di regressione Yi = β 0 + β1 X i + ε i . Le stime dei minimi
quadrati ordinari dei parametri β 0 e β1 del modello richiamato sono rispettivamente
σ XY
b0 = µY − b1µ X e b1 = .
σ X2
Dal momento che il testo del problema fornisce il valore del coefficiente di correlazione lineare
rXY , converrà considerare il fatto che

σ XY σ XY σ Y σ σY σ
b1 = = 2 = XY = rXY Y .
σX2
σ X σY σ XσY σ X σX

Pertanto

3
b1 = 0.5 = 0.5
3

e dunque

b0 = 12 − 0.5 × 12 = 12 − 6 = 6.

Dunque

yˆ (18) = 6 + 0.5 × 18 = 6 + 9 = 15.

Analogamente si procede per il punto ii), in cui si fa riferimento al modello di regressione di X su Y:


X i = β 0' + β1'Yi + ε i . Le stime dei minimi quadrati ordinari dei parametri β0' e β1' del modello in
σ XY σ σX σ
parola sono, rispettivamente, b0' = µ X − b1' µY e b1' = = XY = rXY X . Dunque
σY σ XσY σY
2
σY

3
b1' = 0.5 = 0.5 e
3
b0 = 12 − 0.5 × 12 = 6.
'

-1-
Materiale didattico – Esercizi (prima parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Interpolando si ottiene facilmente che

xˆ (15) = 6 + 0.5 × 15 = 13.5.

La situazione che apparentemente si osserva (e veniamo al punto iii)) è il cosiddetto effetto di


regressione verso i valori medi frequentemente riscontrabile nella realtà soprattutto nelle “misure
ripetute”. Detta in termini semplici, ciò significa che il gruppo di unità cui compete un punteggio
elevato alla prima misurazione mostrerà un punteggio medio più basso alla seconda misurazione.
Allo stesso modo, le unità che hanno ottenuto un punteggio basso alla prima misurazione avranno
un punteggio medio più elevato alla seconda misurazione.
In termini più tecnici, abbiamo un carattere X con deviazione standard σ X ed un carattere Y cui
compete uno scarto quadratico medio pari a σ Y . Detto rXY il coefficiente di correlazione lineare, la
stima dei minimi quadrati ordinari del parametro β1 della retta di regressione Yi = β 0 + β1 X i + ε i
σY
può essere scritta, come noto, nei termini seguenti: b1 = rXY .
σX
Dunque una variazione di una deviazione standard nella X è associata ad una variazione di rXY
deviazioni standard della Y. Se lo scatter è allineato esattamente su di una retta, rXY è pari ad 1. ma
ciò si verifica raramente. Di solito nelle applicazioni pratiche rXY assume valori minori di 1. Ciò ha
per conseguenza che la media di Y, prevista sulla base di X, è sempre minore della media di X di una
quota che dipende da (1 − rXY ) e dalla sua deviazione standard.

-2-
Materiale didattico – Esercizi (prima parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Dimostrare che i residui ei del modello di regressione Yi = β 0 + β1 X i + ε i godono della proprietà


N
∑ ei = 0.
i =1

Come noto, ei = yi − yˆi , i = 1,2,..., N . Dunque, per rispondere al quesito posto, partiamo dalla
relazione

N N
∑ ei = ∑ ( yi − yˆi ) ,
i =1 i =1

da cui, ricordando che Yˆi = b0 + b1 X i , si ricava

N N N N 
σ σ 
y − (b + b x )
∑ i ∑ 0 1 i ∑ i ∑  µY − σXY2 µ X + σXY2 xi 
= y −
i =1 i =1 i =1 i =1  X X 

semplicemente ricordando che il metodo dei minimi quadrati ordinari ci consentiva di stimare β1 e
σ XY
β 0 rispettivamente con b1 = e b0 = µY − b1µ X . Allora, proseguendo la catena di eguaglianze di
σ X2
prima, si ottiene che

N N N
σ XY NN
σ
∑ ei = ∑ yi − ∑ µY + ∑ σ 2 µ X − ∑ σXY2 xi =
i =1 i =1 i =1 i =1 X i =1 X

N
σ XY σ N
= ∑ yi − NµY + N µ X − XY ∑ xi =
i =1 σX2
σ X2 i =1

σ XY σ
= NµY − NµY + Nµ X − XY N µ X = 0.
σX2
σ X2

-3-
Materiale didattico – Esercizi (prima parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Dimostrare che i residui ei = yi − yˆi del modello di regressione Yi = β 0 + β1 X i + ε i sono tali che
N
∑ xiei = 0.
i =1

Si tratta di dimostrare la seconda proprietà caratteristica dei residui che può essere sintetizzata
affermando che i residui sono ortogonali alle osservazioni della variabile indipendente (il carattere
N
(X). Consideriamo la grandezza ∑ xiei e riscriviamola nel modo più conveniente che segue:
i =1

N N
∑ xiei = ∑ (xi − µ X + µ X )ei =
i =1 i =1

da cui, con dei semplici passaggi algebrici,

N N N N
= ∑ ( xi − µ X )ei + ∑ µ X ei = ∑ ( xi − µ X )ei + µ X ∑ ei =
i =1 i =1 i =1 i =1
N
= ∑ ( xi − µ X )ei =
i =1

N
dato che nell’esercizio precedente si era verificato che ∑ ei = 0 ; a questo punto, possiamo
i =1
procedere ricordando che ei = yi − yˆi = yi − b0 − b1xi , i = 1,2,..., N :

N
= ∑ ( xi − µ X )( yi − b0 − b1xi ) =
i =1

e procedendo la catena di eguaglianze ricordando che il metodo dei minimi quadrati ordinari ci
σ XY
consentiva di stimare β1 e β 0 rispettivamente con b1 = e b0 = µY − b1µ X , possiamo scrivere
σ X2
che

N
= ∑ ( xi − µ X )( yi − µY + b1µ X − b1xi ) =
i =1
N
= ∑ ( xi − µ X )[( yi − µY ) − b1 ( xi − µ X )] =
i =1
N N
= ∑ ( xi − µ X )( yi − µY ) − b1 ∑ ( xi − µ X ) =
2

i =1 I =1
N

N ∑ (xi − µ X )( yi − µY ) N
= ∑ ( xi − µ X )( yi − µY ) − I =1 N ∑ (xi − µ X )2 = 0.
i =1
∑ (xi − µ X )2 I =1
I =1

-4-
Materiale didattico – Esercizi (prima parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Dimostrare che i residui ei = yi − yˆi del modello di regressione Yi = β 0 + β1 X i + ε i sono tali che
N
∑ yˆiei = 0.
i =1

Si tratta in pratica di dimostrare la terza proprietà caratteristica dei residui che può essere
sintetizzata affermando che i residui sono ortogonali ai valori teorici della variabile dipendente (il
N
carattere (Y). Consideriamo dunque la grandezza ∑ yˆiei e riscriviamola nel modo più conveniente
i =1
che segue:

N N
∑ yˆiei = ∑ (b0 + b1xi )ei =
i =1 i =1

che, con semplici passaggi, può essere riscritta nei termini seguenti:

N N
= ∑ b0ei + ∑ b1xi ei =
i =1 i =1
N N
= b0 ∑ ei + b1 ∑ xi ei = 0
i =1 i =1

N N
per quanto dimostrato nei due esercizi precedenti e cioè che ∑ ei = 0 e che ∑ xiei = 0 .
i =1 i =1

-5-
Materiale didattico – Esercizi (prima parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

N
Dimostrare che la devianza totale SQT = ∑ ( yi − µY ) si può sempre decomporre nella somma
2

i =1
della devianza “di regressione” e di quella “dell’errore” (o residua):
N N
SQT = SQR + SQE = ∑ ( yˆi − µY ) + ∑ ( yi − yˆi ) .
2 2

i =1 i =1

La dimostrazione richiesta parte dalla definizione di devianza totale

N
SQT = ∑ ( yi − µY ) =
2

i =1

aggiungendo e togliendo poi in ciascuno scarto quadratico il valore ŷi :

N N
= ∑ ( yi − yˆi + yˆi − µY ) = ∑ (ei + yˆi − µY ) =
2 2

i =1 i =1

con un po’ di algebra elementare si ricava che

N N N
= ∑ ei2 + ∑ ( yˆi − µY ) + 2∑ ( yˆi − µY )ei =
2

i =1 i =1 i =1
N N N N
= ∑ ei2 + ∑ ( yˆi − µY ) + 2∑ yˆi ei − 2 µY ∑ ei =
2

i =1 i =1 i =1 i =1
N N
= ∑ ( yˆi − µY ) + ∑ ei2 = SQR + SQE
2

i =1 i =1

N N
dal momento che, come è stato dimostrato i due esercizi precedenti, ∑ ei =0 e ∑ yˆiei = 0.
i =1 i =1

-6-
Materiale didattico – Esercizi (prima parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Dimostrare che le stime dei MQO dei parametri α e β del modello y = α + β x + ε sono
σ xy
rispettivamente a = y − bx e b = .
σ x2

Cominciamo definendo il residuo quadratico ei2 per l’i–ma osservazione:

ei2 = ( yi − yˆi ) .
2

Con dell’algebra banale abbiamo che:

ei2 = ( yi − a − bxi ) = yi2 + a 2 + b 2 xi2 − 2ayi + 2abxi − 2bxi yi .


2

Sommando sulle n osservazioni campionarie abbiamo:

S = ∑ yi2 + na 2 + b 2 ∑ xi2 − 2a ∑ yi + 2ab∑ xi − 2b∑ xi yi .

S è una funzione quadratica in a e b a coefficienti numerici determinati dai dati campionari raccolti
per le variabili x e y.
Le condizioni del primo ordine per un minimo sono:

∂S
= 2na − 2∑ yi + 2b∑ xi = 0 [1]
∂a
∂S
= 2b∑ xi2 + 2a ∑ xi − 2∑ xi yi = 0 [2]
∂b

note come equazioni normali.


Considerando la [1] è facile scrivere che

2an − 2ny + 2bnx = 0

da cui

a = y − bx .

Sostituiamo a = y − bx nella [2]

2b∑ xi2 + 2nx ( y − bx ) − 2∑ xi yi = 0


2b∑ xi2 + 2nx y − 2bnx 2 − 2∑ xi yi = 0
1  1
b  ∑ xi2 − x 2  = ∑ xi yi − x y
n  n

cioè

-7-
Materiale didattico – Esercizi (prima parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

bσ x2 = σ xy
σ xy
b= .
σ x2

-8-
Materiale didattico – Esercizi (prima parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Dato il modello di regressione lineare y = α + β1x1 + β 2 x2 + ε , discutere le conseguenze sugli


stimatori OLS dei parametri β1 e β 2 nell’ipotesi in cui il coefficiente di correlazione campionario
rx1 , x2 sia nullo.

Come già visto, gli stimatori OLS dei parametri β1 e β 2 del modello y = α + β1x1 + β 2 x2 + ε sono
rispettivamente i seguenti:

σ x1 yσ x22 − σ x2 yσ x1 x2
b1 =
σ x21σ x22 − σ x21x2
σ x2 yσ x21 − σ x1 yσ x1 x2
b2 =
σ x21σ x22 − σ x21x2

σ x1x2
Affermare che rx1 , x2 = 0 equivale a dire che = 0 e cioè che σ x1 x2 = 0 . In questa
σ x21σ x22
circostanza, per b1 vale che

σ x1 yσ x22 − σ x2 yσ x1 x2 σ x1 yσ x22 σ x1 y
b1 = = =
σ x21σ x22 − σ x21 x2 σ x21σ x22 σ x21

che coincide con b1 , stimatore OLS del parametro β1 relativo al modello

y = α + β1x1 + ε .

Analogamente si procede per b2 :

σ x2 yσ x21 − σ x1 yσ x1 x2 σ x2 yσ x21 σ x2 y
b2 = = =
σ x21σ x22 − σ x21 x2 σ x21σ x22 σ x22

il quale coincide con b2 , stimatore OLS del parametro β 2 relativo al modello

y = α + β 2 x2 + ε .

-9-
Materiale didattico – Esercizi (prima parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

La seguente tabella riporta, in riferimento a un campione casuale di lavoratori a tempo pieno, la


media e la deviazione standard del numero medio di ore al giorno spese per i lavori domestici,
secondo il genere.

i) Il gruppo degli uomini e il gruppo delle donne costituiscono due campioni dipendenti o
indipendenti?
ii) Stimare la differenza tra la media della popolazione della donne e la media della popolazione
degli uomini.
iii) Calcolare l’errore standard della differenza stimata tra le medie delle due popolazioni.
iv) Assumendo che la distribuzione della differenza stimata tra le due medie approssimi una
distribuzione normale, calcolare un intervallo di confidenza al 95% per la differenza tra le due
medie ( z 0.025 = 1.96 ).
v) La differenza tra la media delle donne e la media degli uomini è dunque statisticamente
significativa? Perché?

i) I due gruppi costituiscono due campioni indipendenti. Non esiste un legame naturale
(appaiamento) tra le unità di un campione e le unità dell’altro campione.
ii) 12.8 – 8.4 = 4.4.
iii) La differenza tra due medie è statisticamente significativa quando è significativamente diversa
da zero. Poiché l’intervallo di confidenza per la differenza tra le due medie esclude lo zero, essa è
significativamente diversa da zero e, quindi, statisticamente significativa.
iv) ( y2 − y1 ) ± z0.025se = 4.4 ± 1.96(0.81) = 4.4 ± 1.588 = (2.812; 5.988) .
s12 s 22 9.5 2 11.6 2
v) se = (se1 )2 + (se2 )2 = + = + = 0.81
n1 n 2 292 391

- 10 -
Materiale didattico – Esercizi (prima parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

La tabella che segue è tratta dal New York Times (15 febbraio 1991). Si tratta di uno studio sugli
effetti dell’AZT nel rallentare lo sviluppo dei sintomi dell’AIDS. Nello studio, 338 individui
infettati dal virus dell’AIDS e distinti per razza (razza = Z; z = 1 per i bianchi e z = 0 per i neri)
furono assegnati a caso ad uno dei due gruppi seguenti. Un gruppo cui fu somministrato l’AZT
immediatamente ed un altro sottoposto al trattamento solo dopo che le loro cellule T mostravano
una grave forma di debolezza immunitaria (trattamento AZT = X; x = 1 trattamento immediato e x =
0 altrimenti).

Razza Uso dell’AZT Sintomi


Sì No

Bianco Sì 14 93
No 32 81

Nero Sì 11 52
No 12 43

La tabella 2 × 2 × 2 riporta la cross-classificazione dei 338 individui secondo la razza, il tipo di


trattamento ricevuto e se abbiano o meno sviluppato i sintomi dell’AIDS nei tre anni dello studio
(sintomi = Y; y = 1 sì e y = 0 no). Il prospetto che segue riporta le stime ML per il modello di
regressione logistica logit [P ( y = 1)] = b0 + b1z + b2 x .

Coefficients:
Estimate Std. Error
(Intercept) -1.07357 0.26294
Razza 0.05548 0.28861
AZT -0.71946 0.27898

i) Interpretare la stima ML dell’effetto dell’uso dell’AZT.


ii) Testare l’ipotesi di indipendenza del trattamento AZT con lo sviluppo dei sintomi dell’AZT,
controllando per la razza.
iii) Interpretare il seguente prospetto

Analysis of Deviance Table


Model 1: p ~ Razza
Model 2: p ~ Razza + AZT
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1 2 8.2544
2 1 1.3835 1 6.8709 0.0088

ottenuto mediante le seguenti istruzioni R (con ovvietà nelle notazioni utilizzate)

fit.1 <- glm(p~Razza,family=binomial,weights=n)


fit.2 <- glm(p~Razza+AZT,family=binomial,weights=n)
anova(fit.1,fit.2,test="Chisq")

iv) Stimare sulla base del modello logit [P ( y = 1)] = b0 + b1z + b2 x la probabilità di sviluppare i
sintomi dell’AIDS nei tre anni dello studio per un individuo di razza bianca che sia stato trattato
immediatamente con l’AZT.
v) Stimare sulla base del modello logit [P ( y = 1)] = b0 + b1z + b2 x il numero di individui bianchi che,
trattati immediatamente con l’AZT, ci si attende che sviluppino i sintomi dell’AIDS nei tre anni
dello studio.
- 11 -
Materiale didattico – Esercizi (prima parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

i) bˆ2 = −0.720 . L’odds ratio stimato tra l’uso dell’AZT immediato e lo sviluppo dei sintomi
dell’AIDS è uguale a exp{− 0.720} = 0.49 . Per ogni razza, l’odds stimato di sviluppare sintomi
dell’AIDS è circa la metà per coloro ai quali l’AZT viene somministrato immediatamente. Questo
implica una probabilità più bassa di sviluppare i sintomi dell’AIDS se l’AZT viene somministrato
immediatamente.
( )
ii) H 0 : b1 = 0 . z = bˆ2 SE bˆ2 = −2.579 con un p–value pari a 0.00991. Stesso risultato fornisce il
[ ( )]
2
test condotto con la statistica di Wald bˆ2 SE bˆ2 = 6.651 .
iii) La statistica del rapporto delle verosimiglianze ( − 2(L0 − L1 ) ) basata sul confronto fra i modelli
logit [P ( y = 1)] = b0 + b1z e logit [P ( y = 1)] = b0 + b1z + b2 x è uguale a 6.8709, con 1 gdl, e fornisce
evidenza di associazione (p– value = 0.0088).
iv) Pˆ ( y = 1) = 0.1496245 .
v) 0.1496245 × 107 = 16 , dove 107 = 14 + 93. Di converso, il numero di individui bianchi che,
trattati immediatamente con l’AZT, ci si attende non sviluppino i sintomi dell’AIDS nei tre anni
dello studio sono (1 − 0.1496245) × 107 = 0.8503755 × 107 = 91 .

- 12 -
Materiale didattico – Esercizi (prima parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Sullo scatter riportato in figura è state disegnata la retta di previsione che regredisce la variabile y =
“Life expectancy (average in years) – 1999” sulla variabile x = “Public health expenditure (% of
GDP) – 1998”.

80
75
Life expectancy - average in years - 1999

70
65
60
55
50

1 2 3 4 5 6 7 8

Public health expenditure - % of GDP - 1998

I dati di riferimento sono contenuti nel prospetto che segue (Fonte: World Bank World Development
Indicators, OECD Social Expenditur Database: 1980/1998):

Life expectancy Public health expenditure


(average in years) - 1999 (% of GDP) - 1998
Australia 78.78 5.9
Austria 77.93 5.8
Belgium 78.03 7.9
Canada 79.03 6.4
France 78.51 7.3
Germany 76.99 7.9
Ireland 76.12 4.7
Italy 78.29 5.6
Japan 80.63 5.9
Netherlands 77.65 6.0
New Zeland 77.39 6.2
Norway 78.48 7.4
Spain 77.91 5.4
Sweden 79.26 6.7
Switzerland 79.56 7.6
UK 77.25 5.6
USA 76.91 5.8
Denmark 75.87 6.8
Finland 77.26 5.2
South Africa 48.47 3.3
Singapore 77.55 1.2
Malaysia 72.34 1.4
Indonesia 65.72 0.7
Bangladesh 60.74 1.7
Mean 75.28 5.4

- 13 -
Materiale didattico – Esercizi (prima parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 64.6909 3.3396 19.371 2.60e-15 ***
df$Pubhealexp 1.9789 0.5811 3.406 0.00254 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Analysis of Variance Table

Response: df$Lifeexp
Df Sum Sq Mean Sq F value Pr(>F)
df$Pubhealexp 1 414.31 414.31 11.598 0.002537 **
Residuals 22 785.90 35.72
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

i) Calcolare la soma totale dei quadrati (Total sum of Squares – TSS).


ii) Calcolare il coefficiente di determinazione R2.
iii) Fornire una interpretazione della pendenza b dell’equazione di previsione.
iv) Fornire una stima puntuale della deviazione standard σ della distribuzione condizionata di y. Si
ricorda che tale grandezza, nelle assunzioni sul modello, si suppone identica per i differenti valori di
x (omoschedasticità).
v) Costruire l’intervallo di confidenza al 95% per la vera pendenza β sapendo che
t0.025;98 = 2.073873 .
vi) Eseguire un test di indipendenza sul vero (ma incognito) coefficiente di correlazione lineare ρ
( H 0 : ρ = 0 ). Commentare.

i) 414.31 + 785.90 = 1200.21.


SSR 414.31 785.90
ii) R 2 = = =1− = 0.3451979 .
TSS 1200.21 1200.21
iii) La stima di β suggerisce che l’aumento di un punto percentuale nella quota di GDP destinata
alla sanità pubblica è associato con un aumento dell’attesa di vita di circa 2 anni.

iv) s =
SSE
=
∑ ( y − yˆ )2 = 785.90 = 5.976849 .
n−2 n−2 24 − 2
v) [0.7737724; 3.184028]
vi) Il test basato su r è equivalente al test di indipendenza basato su b ( H 0 : β = 0 ).

- 14 -
Materiale didattico – Esercizi (seconda parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Verificare, per il modello y = α + β x + ε , che R 2 può essere interpretato come quadrato di ry , yˆ .

Per definizione vale che

σ y , yˆ
ry , yˆ = .
σ y2σ y2ˆ

Consideriamo ora la definizione di covarianza σ y , yˆ :

( yi − y )(yˆi − yˆ )
σ y , yˆ = ∑ ..
n

Con della semplice algebra, e ricordando i risultati degli esercizi precedenti e che yˆ = y , si ottiene:

( yi − y )( yˆi − y ) ∑ ( yˆi + ei − y )( yˆi − y )


σ y , yˆ = ∑ = =
n n
=
1
n
(∑ yˆ
2
i − y ∑ yˆi + ∑ ei yˆi − y ∑ ei − y ∑ yˆi + ∑ y 2 = )
=
1
n
(∑ yˆ 2
i − ny 2 + 0 − 0 − ny 2 +ny 2 = )
=
1
n
(∑ yˆ 2
i )
− ny 2 = σ y2ˆ .

Pertanto, ricordando la definizione di R 2 ,

σ y2ˆ σ yˆ
ry , yˆ = = = R2 .
σ y2σ y2ˆ σy

-1-
Materiale didattico – Esercizi (seconda parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Il reddito annuale (in dollari) è la variabile di risposta (Y) in una regressione. Per la versione inglese
del report sullo studio effettuato, tutti i valori assunti dalla Y sono stati convertiti in sterline (nel
2007, 1£ = 1.9$). A seguito della conversione dei dollari ($) in pound (£), cosa succede
i) al coefficiente di regressione b dell’equazione di previsione?
ii) al coefficiente di correlazione lineare?

i) Al cambio del 2007 una sterlina corrispondeva circa a 1.9 dollari. Se una pendenza b è espressa in
dollari, allora un cambiamento unitario della variabile esplicativa corrisponde ad cambiamento in Y
di b dollari.
Poiché b dollari sono pari a b 1.9 = 0.53b pound, un cambiamento unitario nella variabile
esplicativa corrisponde ad un cambiamento previsto in Y di 0.53b pound. La nuova inclinazione
della curva di previsione dovrebbe quindi essere pari alla vecchia diviso per 1.9.
(N.b: se il reddito fosse stata la variabile esplicativa piuttosto che la dipendente, allora la nuova
pendenza, scaturita a seguito della conversione dei $ in £, sarebbe stata moltiplicata per 1.9. Infatti,
al cambiamento del reddito di 1 pound corrisponde un cambiamento di 1.9 dollari così che l’effetto
risulta moltiplicato per 1.9).
ii) Una proprietà del coefficiente di correlazione lineare è che non dipende dall’unità di misura.
Quindi r non cambia a seguito della conversione dei dollari in pound.

-2-
Materiale didattico – Esercizi (seconda parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Dimostrare che la retta di regressione di Y su X coincide con quella di X su Y se e solo se r 2 = 1 .

Per la retta di regressione di X su Y (la cui equazione di previsione è xˆi = a '+b' yi ) scriviamo
l’equivalente della funzione quadratica S vista in un esercizio precedente:

∑ (xi − a'−b' yi )2 = min


a ',b '
.

Le equazioni normali sono quindi le seguenti:

∂S
= −2∑ ( xi − a '−b' yi ) = 0 [1]
∂a '
∂S
= −2∑ ( xi − a '−b' yi ) yi = 0 [2]
∂b'

Dalla [1] si ricava facilmente

∑ xi = na'+b' ∑ yi
x = a '+b' y [1bis]

Riguardo la [2], abbiamo che

∑ xi yi = a' ∑ yi + b' ∑ yi2 [2bis]

Sostituendo poi la [1bis] nella [2bis] si ottiene

∑ xi yi = ∑ yi (x − b' y ) + b' ∑ yi2 =


= ny ( x − b' y ) + b∑ yi2 = nx y − nb' y 2 + b∑ yi2 =
= nx y + b' (∑ yi2 − ny 2 )

( )
Dunque, abbiamo ottenuto che ∑ xi yi = nx y + b' ∑ yi2 − ny 2 . Da quanto appena affermato,
dividendo ambo i membri per n, si ricava immediatamente che

∑ xi yi = x y + b'  ∑ yi2 − y 2 
n  n 
 

b' σ y2 =
∑ xi yi − x y
n
b' σ y = σ xy
2

σ xy
b' =
σ y2

-3-
Materiale didattico – Esercizi (seconda parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

L’intercetta a ' la ricaviamo dalla [1bis]: a ' = x − b' y.


Consideriamo ora il quadrato del coefficiente di correlazione lineare r:

σ xy
2
r = 2 2.
2
σ xσ y

Valgono le eguaglianze che seguono:

σ xy
2
σ xy σ xy
r =
2
= = b × b'.
σ x2σ y2 σ x2 σ y2

Dimostriamo ora che se r 2 = 1 le equazioni di previsione coincidono. Se r 2 = 1 allora, per quanto


1
appena verificato, bb' = 1. Ovviamente b' = . Pertanto l’intercetta a ' può essere riscritta come
b
1
segue: a ' = x − y.
b
Le due rette coincidono. Infatti, esplicitando rispetto ad x l’equazione y = a + bx , si ottiene:

a 1
x=− + y
b b

da cui, sostituendo ad a il valore y − bx , si ottiene

y − bx 1
x=− + y
b b
 1  1
x = x − y+ y
 b  b
x = a '+b' y .

Verifichiamo ora che se le rette coincidono allora r 2 = 1 . Ipotizzare che le rette coincidano significa
supporre che

x = a '+b' y

 1  1
x = x − y+ y
 b  b

1 σ xy σ xy σ xy σ xy
sono la stessa retta. Pertanto b' = da cui b' b = 1 . Ma b' = 2 e b = 2 . Per cui 2 2 = r 2 = 1.
b σy σx σx σy

-4-
Materiale didattico – Esercizi (seconda parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Si supponga che nella parte non stocastica del vero modello y sia proporzionale ad α : y = α + ε (il
modello nullo). Derivare la formula di a, stimatore OLS di α .

Al solito, cominciamo definendo il residuo quadratico ei2 per l’i–ma osservazione:

ei2 = ( yi − yˆi ) .
2

In base al modello ipotizzato abbiamo che:

ei2 = ( yi − yˆi ) = ( yi − a ) = yi2 + a 2 − 2ayi .


2 2

Sommando sulle n osservazioni campionarie abbiamo:

S = ∑ ei2 = ∑ yi2 + ∑ a 2 − 2a ∑ yi =
∑ yi2 + na 2 − 2a∑ yi .
S è una funzione quadratica della sola a.
La condizione del primo ordine per un minimo è:

∂S
= 2na − 2∑ yi = 0
∂b

da cui si ricava immediatamente che

a=
∑ yi = y.
n

-5-
Materiale didattico – Esercizi (seconda parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Si supponga che nella parte non stocastica del vero modello y sia proporzionale a x: y = β x + ε . Si
derivi la formula di b stimatore OLS di β .

Al solito, cominciamo definendo il residuo quadratico ei2 per l’i–ma osservazione:

ei2 = ( yi − yˆi ) .
2

In base al modello ipotizzato abbiamo che:

ei2 = ( yi − yˆi ) = ( yi − bxi ) = yi2 + b 2 xi2 − 2bxi yi .


2 2

Sommando sulle n osservazioni campionarie abbiamo:

S = ∑ ei2 = ∑ yi2 + b 2 ∑ xi2 − 2b∑ xi yi .

S è una funzione quadratica della sola b.


La condizione del primo ordine per un minimo è:

∂S
= 2b∑ xi2 − 2∑ xi yi = 0
∂b

da cui si ricava immediatamente che

b=
∑ xi yi .
∑ xi2

-6-
Materiale didattico – Esercizi (seconda parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Un ricercatore dispone, per un determinato paese, di dati annuali aggregati sui salari W, sui profitti
Π e sul reddito Y per n anni. Per definizione
Y = W + Π.
Le equazioni di previsione
Wˆ = a0 + a1Y
Πˆ = b + b Y 0 1
sono state stimate mediante OLS. Mostrare che i coefficienti di regressione sono tali che a1 + b1 = 1
e a0 + b0 = 0 .

Richiamiamo per comodità le espressioni dei coefficienti di regressione:

a0 = W − a1Y , b0 = Π − b1Y
σ WY σ
a1 = , b1 = Π2Y .
σY 2
σY

È risultato noto che se y = u + v allora σ xy = σ xu + σ xv . Infatti:

(xi − x )( yi − y ) ∑ (xi − x )(ui + vi − u − v )


σ xy = ∑ = =
n n

=
∑ (xi − x )(ui − u ) + ∑ (xi − x )(vi − v ) =
n
= σ xu + σ xv .

In conseguenza di ciò

σ WY σ ΠY
a1 + b1 = + 2 =
σ Y2 σY
σ WY + σ ΠY σ YY σ Y2
= 2 = 2 =1
σ Y2 σY σY

a0 + b0 = W − a1Y + Π − b1Y =
= W + Π − Y (a1 + b1 ) =
= W + Π − Y × 1 = 0.

-7-
Materiale didattico – Esercizi (seconda parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Con riferimento alla seguente funzione di produzione di tipo Cobb-Douglas con progresso
tecnologico incorporato:

Y = AK α Lβ eγtε

si supponga di aver stimato su 24 osservazioni campionarie i modelli

ln̂ (Y ) = 2.81 − 0.52 ln(K ) + 0.91ln(L ) + 0.05t , SSE = 0.057


Y  K
ln̂   = −0.01 + 0.11 ln  + 0.01t , SSE = 0.068 .
L L

Costruire in modo appropriato un test per valutare la restrizione che impone rendimenti costanti di
scala.

La restrizione che impone rendimenti costanti di scala è α + β = 1 .


Il sistema di ipotesi a confronto che corrisponde alla restrizione formulata è il seguente:

H0 :α + β = 1
H1 : non vale la restrizione

La funzione test da utilizzare è la seguente:

F=
(SSEr − SSEc ) df1 ~ F
df1 , df 2 ;α
SSEc df 2

dove df1 è pari al numero di extra termini nel modello completo (cioè al numero di restrizioni
imposte nel modello ridotto) e df 2 = n − (k + 1) . Per il problema in esame abbiamo che

SSEr = 0.068
SSEc = 0.057
df1 = 1
df 2 = n − k − 1 = 24 − 3 − 1 = 20.

Fissato il livello di significatività peri al 5%, il valore tabulato risulta F1, 20;0.05 = 4.35 mentre la
statistica test assume il valore che segue:

F=
(0.068 − 0.057 ) 1 = 0.011
= 3.860.
0.057 20 0.00285

Essendo F = 3.860 < F1, 20;0.05 = 4.35 non abbiamo particolari evidenze contro l’ipotesi nulla che
quindi non rifiutiamo. In conseguenza di ciò il modello originario Y = AK α Lβ eγtε può essere
riscritto nei termini che seguono:

Y = AK α L(1−α )eγtε .

-8-
Materiale didattico – Esercizi (seconda parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Dividendo per L ambo i membri:

Y
= AK α L−α eγt ε
L

e linearizzando

Y  K
ln  = ln ( A) + α ln  + γt ln e + ln ε =
L L
K
= ln ( A) + α ln  + γt + ln ε .
L

Infine, ponendo

Y 
ln  = Y *
L
ln( A) = λ
K
ln  = x1*
L
t = x2*
ln ε = u

il modello può essere riscritto in modo più conveniente e più familiare nella seguente forma

Y * = λ + αx1* + γx2* + u .

-9-
Materiale didattico – Esercizi (seconda parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Sullo scatter riportato in figura è state disegnata la retta di previsione che regredisce la variabile y =
“Tasso di abbandono del lavoro per 100 impiegati nel settore manifatturiero” sulla variabile x =
“Tasso di disoccupazione”.

Tasso di abbandono del lavoro per 100 lavoratori nel manifatturiero

2.5
2.0
1.5

4 5 6 7

Tasso di disoccupazione

I dati di riferimento sono dati USA che riguardano il periodo 1960–1972 (si veda il prospetto che
segue).

Y X
1.3 6.2
1.2 7.8
1.4 5.8
1.4 5.7
1.5 5.0
1.9 4.0
2.6 3.2
2.3 3.6
2.5 3.3
2.7 3.3
2.1 5.6
1.8 6.8
2.2 5.6

Qui di seguito è riportata una porzione dell’output R ottenuto con il seguente script:

df <- read.csv("Maddala.txt",header=TRUE)
fit <- lm(df$Y ~ df$X); summary(fit)
plot(df$X,df$Y,ylab="Tasso di abbandono…",xlab="Tasso di disoccupazione")
abline(fit)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.36626 0.33108 10.167 6.26e-07 ***
df$X -0.28621 0.06289 -4.551 0.000828 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.3224 on 11 degrees of freedom

- 10 -
Materiale didattico – Esercizi (seconda parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Multiple R-squared: 0.6532, Adjusted R-squared: 0.6216


F-statistic: 20.71 on 1 and 11 DF, p-value: 0.0008283

i) Costruire un intervallo di confidenza per la vera pendenza β al livello del 95%.


ii) Testare l’ipotesi H 0 : β = 0 contro l’alternativa H1 : β ≠ 0

i) L’intervallo di confidenza per β assume la forma


b ± tα × se(b)
;n − 2
2

dove, lo si ricorda, b è la stima OLS di β , lo standard error di b è se(b ) =


s
dove
∑ ( x − x )2
SSE
s= è la stima di σ , la deviazione standard condizionata. Il valore tabulato t0.025;11 è pari a
n−2
2.201. Infatti

> qt(0.975,11)
[1] 2.200985

In virtù di questo risultato possiamo scrivere che

b ± t0.025;11 × se(b) = −0.28621 ± 2.200985 × 0.06289 =


= (− 0.4246299;−0.1477901)

Dunque l’IC95% per β è (–0.43; –0.15). Si noti che l’ampiezza di tale intervallo può essere ridotta
aumentando il livello di confidenza. L’intervallo è ampio a causa dell’esigua dimensione
campionaria (n = 13).
ii) La statistica test, come noto, è
b − β0 b
t= = ~ t0.025;n − 2 .
se(b ) se(b )
Nel caso in esame, consultando l’output di R, si ricava facilmente che t = –4.551. Il p–value è pari a
0.000828 e molto piccolo la qual cosa non fornisce evidenze a favore dell’ipotesi nulla che quindi
viene rifiutata.

- 11 -
Materiale didattico – Esercizi (seconda parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Una regressione logistica descrive come la probabilità di votare per il candidato Repubblicano nelle
elezioni presidenziali americane dipenda dal predittore “reddito familiare totale dell’elettore (in
migliaia di dollari) nell’anno precedente”. Chiamiamo x questa esplicativa. Sia la seguente
l’equazione di previsione per un dato campione:

 Pˆ ( yi = 1) 
ln  = −1.00 + 0.02 xi .
 1 − P ( yi = 1) 
ˆ 

i) Identificare b̂1 ed interpretarne il segno.


ii) Stimare la probabilità di votare per il candidato Repubblicano quando xi = 10 e xi = 100 .
iii) Per quale livello di x la stima della probabilità di votare per il candidato repubblicano è pari a
0.5? E superiore a 0.5?
iv) Per i valori di x per i quali P ( yi = 1) è vicina a 0.5, fornire un’approssimazione lineare per la
variazione nella probabilità conseguente ad un incremento di reddito familiare di un migliaio di
dollari.
v) valutare le conseguenze di un aumento di mille dollari nel reddito familiare sull’odds di votare
per il candidato Repubblicano.

i) bˆ1 = 0.02. Il coefficiente è positivo per cui si può concludere che la curva di Pˆ ( yi = 1) cresce con
x. In altri termini la probabilità di votare per il candidato Repubblicano cresce con il reddito
familiare totale dell’elettore (si veda la figura che segue).
0.8
0.6
p(x)

0.4
0.2
0.0

-200 -100 0 100 200

exp{− 1.00 + 0.02 xi }


ii) Poiché abbiamo che Pˆ ( yi = 1) = , vale quanto segue:
1 + exp{− 1.00 + 0.02 xi }
exp{− 1.00 + 0.02(10 )}
= 0.31,
1 + exp{− 1.00 + 0.02(10 )}
exp{− 1.00 + 0.02(100 )}
= 0.73.
1 + exp{− 1.00 + 0.02(100 )}
iii) Pˆ ( y = 1) = 0.50 quando
i

- 12 -
Materiale didattico – Esercizi (seconda parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

bˆ0 −1
xi = −
=− = 50
ˆ
b1 0.02
cioè quando il reddito familiare totale dell’elettore è pari a 50000 dollari.
Poiché la curva Pˆ ( yi = 1) cresce con x, la probabilità stimata di votare per il candidato repubblicano
è superiore a 0.5 per redditi superiori a 50000 dollari (si veda la figura che segue).

0.8
0.6
p(x)

0.4
0.2
0.0

-200 -100 0 100 200

> curve(exp(-1+0.02*x)/(1+exp(-1+0.02*x)),-200,200,ylab='p(x)')
> abline(h=0.5,v=50)
iv) Per la regione di valori di x per cui P ( yi = 1) è vicina a 0.5, un tasso approssimato al quale la
probabilità considerata cresce a fronte di un incremento unitario nel reddito (cioè di 1000 dollari) è
b1 bˆ 0.02
. Pertanto 1 = = 0.005 fornisce un’approssimazione lineare per la variazione nella
4 4 4
probabilità conseguente ad un incremento di reddito familiare di un migliaio di dollari.
P ( yi = 1)
v) La relazione
1 − P ( yi = 1)
= eb0 + b1 xi = eb0 eb1( )
xi
mostra come ogni incremento unitario nella x

()
produca un effetto moltiplicativo di eb1 sugli odds. Nel caso in esame exp bˆ = exp(0.02 ) = 1.02 .
1
Dunque, per 1000 dollari di aumento nel reddito, l’odds stimato di votare per il candidato
Repubblicano aumenta del 2%.

- 13 -
Materiale didattico – Esercizi (terza parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Dati i seguenti scatter per i caratteri X e Y (la variabile X è, per entrambi i grafici, sull’asse delle
ascisse mentre la variabile Y sull’asse delle ordinate)

25 100

24 90

23 80

22 70

21 60

20 50

19 40

18 30

17 20

16 10

15 0
-15 -10 -5 0 5 10 15 20 25 30 35 -15 -10 -5 0 5 10 15

Scatter 1 Scatter 2

dei seguenti modelli di regressione quali sono i più appropriati per descrivere la relazione tra le
variabili Y e X mostrata negli scatter 1 e 2?

a) E (Y ) = β 0 + β1 X ;
b) E (Y ) = β 0 ;
c) E (Y ) = β 0 + β1 X i + β 2 X i2 ;
d) E (Y ) = β 0 + β1 log X i .

Qual sarà approssimativamente il valore di b1 (stima OLS di β1 ) per lo scatter 1 se fittassimo il


modello a)?

È evidente dall’esame visivo dei grafici che per lo scatter 1 sembra appropriato il modello nullo di
cui alla lettera b) mentre per lo scatter 2, che mostra un andamento non lineare nelle variabili,
sembra adeguato il modello c) (lineare nei parametri).
Per la stima OLS del modello a) relativamente all’andamento mostrato nello scatter 1, ci si attende
una stima di β1 approssimativamente nulla.

-1-
Materiale didattico – Esercizi (terza parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Sia data la seguente equazione di previsione di X su Y: xˆi = 2 + 1.4 yi . Stabilire, motivando


opportunamente la risposta fornita, quale tra le seguenti rette di regressione è ammissibile come
retta di regressione di Y su X:

i) yˆi = 1.4 xi + 3 ;
ii) yˆi = 0.9 ;
iii) yˆi = −1.4 xi + 3 ;
iv) yˆi = 0.65 xi − 1 .

Calcolate poi i valori di µ X , µY e rXY .

i) Da escludere perché R 2 = b1 × b1' . In tale circostanza b1 × b1' = 1.4 × 1.4 = 1.96 il che è
impossibile perché R 2 ≤ 1 .
ii) Da escludere; qui si stabilisce che la retta di Y su X è una retta del tipo yˆi = b0 . Dunque
σ XY
b1 = = 0 cosa che succede solo se σ XY = 0 . Ma allora, visto che per la retta di
σ X2
σ
regressione di X su Y vale che b1' = XY , deve essere b1' = 0 cosa che contraddice le ipotesi
σY
2

del problema.
iii) da escludere perché i coefficienti di regressione devono aver lo stesso segno.

Pertanto la retta di regressione di Y su X sarà la iv). Per il calcolo di µ X e µY mettiamo a sistema le


espressioni che definiscono b0 e b0' :

b0 = µY − b1µ X − 1 = µY − 0.65µ X


 ' = .
b0 = µ X − b1µY  2 = µ X − 1.4µY
'

Risolvendo la prima equazione rispetto a µY possiamo scrivere che:

 µY = 1 − 0.65µ X

2 = µ X − 1.4(1 − 0.65µ X )
2 = µ X − 1.4 + 0.91µ X
3.4 = 1.91µ X
µ X = 1.78

e dunque µY = 1 − 0.65 × 1.78 = −0.157 .


Per quanto riguarda il coefficiente di correlazione lineare rXY , basta ricordare che
R 2 = b1 × b1' = rXY
2
. Dunque rXY = R 2 = b1 × b1' = 0.65 × 1.4 = 0.83.

-2-
Materiale didattico – Esercizi (terza parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Dimostrare che per il modello y = α + β x + ε il test t per H 0 : β = 0 è equivalente al test t per


H0 : ρ = 0 .

Ricordiamo che il test t per testare l’ipotesi nulla H 0 : ρ = 0 assume la seguente espressione:

rxy
t=
(1 − r ) (n − 2)
.
2
xy

b
Dobbiamo dimostrare che tale funzione test è uguale alla tradizionale t = .
se(b )
Cominciamo con il ricordare che l’equazione di previsione yˆi = a + bxi ci consente di scrivere che

σˆ y2 = b2σ x2

per il noto risultato sulla varianza di una trasformazione lineare.


Ora consideriamo lo standard error di b:

SSE (n − 2 )
se(b ) =
∑ (xi − x )2
che possiamo riscrivere nei termini che seguono:

∑ ( yi − yˆi )2 (n − 2)
σ e2 (n − 2)
se(b ) = n = =
∑ (xi − x ) 2
σ x2
n
σ e2 σ e2 1 σ e2
= = =b .
(n − 2 )σ x2 σ y2ˆ (n − 2 ) σ y2ˆ
(n − 2 )
b2

Quindi, essendo

σˆ y2 = σ y2 R 2 e
(
σ e2 = 1 − R 2 σ y2 )
abbiamo

1 1 − R2 1 1− r2
se(b ) = b =b .
(n − 2) R 2 (n − 2) r 2

-3-
Materiale didattico – Esercizi (terza parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Quindi vale che

se(b ) 1 r 2 (n − 2) (n − 2)
= = =r
b 1 1− r2 1− r 2
1− r2
(n − 2) r 2
la qual cosa dimostra che la statistica t per testare l’ipotesi H 0 : β = 0 è identica a quella per testare
l’ipotesi H 0 : ρ = 0 . Quindi, quando è presente una sola esplicativa nel modello di regressione, il
test t per testare l’ipotesi nulla H 0 : β = 0 , il test t per testare l’ipotesi nulla H 0 : ρ = 0 (e il test F su
R 2 ) sono tutti equivalenti e conducono alle medesime decisioni. Questo risultato non vale se nel
modello di regressione è presente più di un regressore.

-4-
Materiale didattico – Esercizi (terza parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Con riferimento al modello E (Y ) = α + β1 x1 + β 2 x2 + β 3 x3 mostrare come si può procedere alla


verifica congiunta dell’ipotesi nulla H 0 : β1 = β 2 e β3 = 1 .

Si devono verificare congiuntamente due ipotesi circa i parametri β1 e β3 , circostanza in cui non si
può fare ricorso all’usuale statistica test t. Si può procedere secondo la seguente procedura.
Si produce, via OLS, l’equazione di previsione

yˆ = a + b1x1 + b2 x2 + b3 x3

e si calcola la error (residual) sum of squares SSE la quale, come noto, verrà etichettata come
SSEc in quanto relativa al modello “completo” cioè senza restrizioni.
Poi si stima, sempre via OLS, il modello

E ( y ) = α + β 2 x1 + β 2 x2 + x3

cioè il modello

( y − x3 ) = α + β 2 (x1 + x2 ) + ε
e se ne calcola la error (residual) sum of squares SSE la quale, come noto, verrà etichettata come
SSEr in quanto relativa al modello “ristretto” cioè con imposizione delle restrizioni richieste dal
problema.
Quindi si usa il test F per procedere alla verifica dell’ipotesi nulla congiunta H 0 : β1 = β 2 e β3 = 1 .
L’espressione della statistica test è la seguente:

F=
(SSEr − SSEc ) df1 ~ F
df1 = r , df 2 = n − (k +1);α
SSEc df 2

dove r è il numero di restrizione imposte. Nello specifico abbiamo che

F = ~ F2, n − 4;α

dal momento che r = 2 (una restrizione imposta su β1 ed una su β3 ) e i predittori presenti nel
modello non ristretto sono 3 ( x1 , x2 e x3 ). Si ricorda che k è pari al numero di parametri esclusa la
costante cioè è pari al numero di esplicative usate nel modello non ristretto.

-5-
Materiale didattico – Esercizi (terza parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Il prospetto che segue presenta i dati con cui Cobb e Douglas nel 1929 proposero la famosa
funzione di produzione che porta il loro nome.

Year Y K L Year Y K L
1899 100 100 100 1911 153 216 145
1900 101 107 105 1912 177 226 152
1901 112 114 110 1913 184 236 154
1902 122 122 118 1914 169 244 149
1903 124 131 123 1915 189 266 154
1904 122 138 116 1916 225 298 182
1905 143 149 125 1917 227 335 196
1906 152 163 133 1918 223 366 200
1907 151 176 138 1919 218 387 193
1908 126 185 121 1920 231 407 193
1909 155 198 140 1921 179 417 147
1910 159 208 144 1922 240 431 161

Stimare con il metodo dei minimi quadrati ordinari il modello Y = AK α Lβ nella sua formulazione
originaria (cioè con rendimenti costanti di scala) ed il modello senza tale restrizione (cioè con
rendimenti di scala variabili). Il file dei dati è disponibile on line con il nome “Cobb e Douglas.txt”

Nel 1927 l’economista Paul Douglas notò che plottando sullo stesso grafico gli indici, in forma
logaritmica, della produzione Y, dell’input di capitale K e di lavoro L, la serie della produzione
cadeva ad una distanza circa costante tra la serie del capitale e del lavoro.

Cobb & Douglas Original Data - U.S. Manufacturing Sector


400

Capital Input
Real Output
Real Labor Input
350
Indices - 1989=100

300
250
200
150
100

1900 1905 1910 1915 1920

Year

Insieme al matematico Cobb suggerirono una funzione del tipo:

Y = AK α L(1−α )

-6-
Materiale didattico – Esercizi (terza parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

che stimarono, senza precisare come, ottenendo una stima per α di 0.25.
Lo scopo dell’esercizio è ripetere i calcoli di Cobb e Douglas. A questo scopo non possiamo
procedere direttamente a rendere lineare nei parametri la funzione mediante passaggio ai logaritmi
perché altrimenti ci troveremmo di fronte a due parametri da stimare e non ad uno soltanto ( α ).
Avremmo cioè un parametro per log(K ) e uno per log(L ) . Piuttosto dividiamo ambo i membri per
L, avendo l’accortezza di aggiungere un termine di errore υ :

Y AK α L(1−α )
= υ
L L
Y AK α L(1−α )
α
K
= α (1−α ) υ = A  υ .
L L L L

In questa forma, abbiamo espresso la produzione per lavoratore in funzione dell’input di capitale
per lavoratore. Ora possiamo linearizzare rispetto ai parametri la funzione stessa mediante
passaggio ai logaritmi:

Y  K
log  = log A + α log  + log υ.
L L

e stimare il modello con le tecniche usuali. Il prospetto che segue riporta l’output R relativo alla
stima del modello in parola. Segue lo scatter corredato dell’equazione di previsione che riportiamo
per comodità anche qui di seguito:


log(Y L ) = 0.01 + 0.25 log(K L )

Call:
lm(formula = log(Y/L) ~ log(K/L))

Residuals:
Min 1Q Median 3Q Max
-0.082565 -0.032869 -0.006925 0.040529 0.134443

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.01454 0.01998 0.728 0.474
log(K/L) 0.25413 0.04122 6.165 3.32e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.05707 on 22 degrees of freedom


Multiple R-squared: 0.6334, Adjusted R-squared: 0.6167
F-statistic: 38 on 1 and 22 DF, p-value: 3.324e-06

I risultati ottenuti confermano quelli di Cobb e Douglas.


La loro formulazione appena discussa è un caso particolare dell’espressione più generale che segue:

Y = AK α Lβυ

-7-
Materiale didattico – Esercizi (terza parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

senza legami tra le elasticità di Y. Si ricorda che le elasticità dell’output rispetto al capitale e al
lavoro sono α e β poiché

([
∂Y ∂K A α K α −1 Lβ
= =α .
])
Y K AK α −1Lβ

Indices of Real Labor Input, U.S. Manufacturing Sector, 1899-1922


0.4
0.3
Output Y per worker

0.2
0.1
0.0

0.0 0.2 0.4 0.6 0.8 1.0

Capital K per worker

In modo analogo si procede per β .


Anche questo secondo modello può essere stimato attraverso le tecniche standard discusse durante
il corso. I dati e gli script R sono disponibili on line.
L’equazione di previsione del modello a rendimenti di scala variabili è desumibile dal seguente
output R:

Call:
lm(formula = log(df$Y) ~ log(df$K) + log(df$L))

Residuals:
Min 1Q Median 3Q Max
-0.075282 -0.035234 -0.006439 0.038782 0.142114

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.17731 0.43429 -0.408 0.68721
log(df$K) 0.23305 0.06353 3.668 0.00143 **
log(df$L) 0.80728 0.14508 5.565 1.6e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.05814 on 21 degrees of freedom


Multiple R-squared: 0.9574, Adjusted R-squared: 0.9534
F-statistic: 236.1 on 2 and 21 DF, p-value: 4.038e-15

e assume la seguente forma:

-8-
Materiale didattico – Esercizi (terza parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa


log(Y ) = −0.18 + 0.23 log(K ) + 0.81 log(L )

che mostra come l’elasticità dell’output rispetto al capitale è pari a 0.23, un valore molto prossimo
alla precedente stima. L’elasticità dell’output rispetto al lavoro è, invece, pari a 0.81, un valore
leggermente superiore alla precedente stima di 0.75.
Lo script di R riportato qui di seguito gestisce i dati, costruisce i grafici mostrati nel presente
esercizio e produce le stime discusse prima.

library(rmf)
setwd("c:/Peppe/didattica/ etc.")
rm(list=ls(all=TRUE))
df <- read.csv("Cobb e Douglas.txt",header=TRUE)
summ(df)
plot(df$Year,df$K,ylab="Indices - 1989=100",
xlab="Year",
main="Cobb & Douglas Original Data - U.S. Manufacturing
Sector")
lines(df$Year,df$K,lty=1,col="red",lwd=2)
points(df$Year,df$Y); lines(df$Year,df$Y,lty=2,col="blue",lwd=2)
points(df$Year,df$L); lines(df$Year,df$L,lty=3,col="green",lwd=2)
legend(1900,400,c("Capital Input","Real Output","Real Labor
Input"),lty=c(1,2,3),col=c("red","blue","green"),lwd=c(2,2,2))
YsuL=df$Y/df$L
Y1=log(YsuL)
KsuL=df$K/df$L
K1=log(KsuL)
fit1 <- lm(Y1 ~ K1)
summary(fit1)
plot(K1,Y1)
abline(fit1)
fit2 <- lm(log(df$Y) ~ log(df$K) + log(df$L))
summary(fit2)

-9-
Materiale didattico – Esercizi (quarta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Si derivi la distribuzione campionaria degli stimatori OLS per il modello yi = α + β xi + ε i .

Consideriamo il modello

yi = α + β xi + ε i

per il quale supponiamo valga che:

(
ε i ~ N 0,σ ε2 .
iid
)
Si noti bene che con σ ε2 si è indicata la quantità chiamata a lezione “deviazione standard
condizionata”. È noto che (si vedano al riguardo i lucidi del corso e gli esercizi a disposizione on
line):

a = y − bx
e che
σ xy
b= .
σ x2

( )
Se y1, y2 ,..., yn ~ N µi , σ ε2 , allora, per quanto noto dallo scorso anno, le combinazioni lineari
iid

L1 = ∑i ci yi
e
L2 = ∑i d i yi

sono congiuntamente normali con:

Var (L1 ) = σ ε2 ∑i ci2


Var (L2 ) = σ ε2 ∑i d i2
Cov(L1, L2 ) = σ ε2 ∑i ci d i .

Indichiamo la codevianza fra x e y (il numeratore di σ xy , per intendersi) con s xy e la devianza di x


(il numeratore di σ x2 , sempre per intendersi) con sx2 . Ovviamente il coefficiente di regressione b
può essere anche calcolato mediante il rapporto s xy s x2 .
Riscriviamo ora a e b come funzioni lineari di yi (cioè nella forma di L1 e L2 ) per sfruttare i
risultati appena richiamati. Partiamo da s xy . Vale il risultato che segue ricordando che
∑i (xi − x ) = 0 sempre:

-1-
Materiale didattico – Esercizi (quarta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

s xy = ∑i ( xi − x )( yi − y ) =
= ∑i ( xi − x ) yi − y ∑i ( xi − x ) =
= ∑i ( xi − x ) yi

Alla luce di questo risultato possiamo affermare che

s xy
b= = ∑i ci yi
s x2

con ci =
(xi − x ) .
s x2
Per lo stimatore dell’intercetta α del modello di regressione vale che:

1 ∑ (xi − x )yi =
a = y − bx =
n
∑ y −x i 2
i i
sx
 1 x ( xi − x ) 
= ∑i yi  − 2
=

 n s x 
= ∑i d i yi

 1 x ( xi − x ) 
avendo l’accortezza di porre d i =  − 2 .
 n s x 
Per quanto visto sin qui vale che

Var (b ) = Var (L1 ) = ∑i ci2σ ε2 =


σ ε2 σ ε2
(xi − x )
(s ) ∑
= 2
=
2 2 i
s x2
x

Var (a ) = Var (L2 ) = ∑i di2σ ε2 =


1 2 
2 x 
= σ ε ∑i 2 + ( xi − x )  2  − (xi − x ) =
2 x
2
   2
n s
 x n s 
 x

 x2 
1
= σ ε2 ∑i 2 + (
2 ∑i i
− )2

2 x
(
∑ i  =− )
( )
x x x x
 n s x2 n s x2 i

1 x2 
= σ ε2  + 2 .
 n sx 

Per la covarianza tra a e b vale infine che

-2-
Materiale didattico – Esercizi (quarta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Cov(a, b ) = Cov(L1 , L2 ) = ∑i ci d iσ ε2 =
 x − x   1 x ( xi − x ) 
= σ ε2 ∑i  i 2   − =
 sx  n s x2 
1 1 
= σ ε2  2 ∑i ( xi − x ) − ( )
x
2 ∑i i
− =
2

( )
x x
 n s x s x2 
 x
= σ ε2 − 2 .
 sx 

Inoltre a e b sono non distorti. Infatti valgono i risultati che seguono. Cominciamo da b:

E (b ) = E (∑ c y ) = ∑ c E ( y ) =
i i i i i i

= ∑i ci E (α + β xi ) =


∑i (xi − x ) + β ∑i (xi − x )xi =
sx2 s x2

=0+β
∑ x 2 − nx 2
i i

s x2
= β.
s x2 s x2

Mentre, per quello che riguarda a:

E (a ) = E ( y − bx ) = E ( y ) − x E (b ) =
= α + βx − βx = α .

In conclusione

 21 x 2  

a ~ N α ,σ ε  + 2 
 
  n sx  
 σ2 
b ~ N  β , 2ε 
 sx 
 x
Cov(a, b ) = σ ε2 − 2 .
 sx 

-3-
Materiale didattico – Esercizi (quarta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Nel modello di regressione yi = α + β xi + ε i mostrare che se x = 0 allora vale che Cov(a, b ) = 0.

La soluzione dell’esercizio deriva direttamente dal risultato raggiunto nell’esercizio precedente.


Infatti, nell’esercizio precedente avevamo ottenuto che:

 x
Cov(a, b ) = σ ε2 − 2 .
 sx 

Ovviamente, se x = 0

Cov(a, b ) = 0.

-4-
Materiale didattico – Esercizi (quarta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Dato il modello di regressione yi = βxi + ε i , i = 1,..., n , dimostrare che lo stimatore OLS del
parametro β è BLUE (Best Linear Unbiased Estimator).

Le ipotesi del teorema di Gauss–Markov ci servono per dimostrare l’assunto. Richiamiamole


velocemente:

i) E (ε i ) = 0, ∀i . Il valore atteso del termine di disturbo in ogni osservazione è nullo. In altri


termini non dovrebbero essere presenti tendenze sistematiche verso la direzione positiva o
negativa;
ii) Var (ε i ) = σ ε2 , ∀i . Non esistono ragioni aprioristiche perché il disturbo sia più erratico per
alcune osservazioni che per altre;
iii) ( )
E ε iε j = 0, ∀i ≠ j . I termini di disturbo sono indipendenti l’uno dall’altro cioè non esiste
associazione sistematica tra i valori dei termini di disturbo in ciascuna coppia di osservazioni;
iv) le variabili esplicative sono non stocastiche cioè non hanno componenti casuali. Ciascun
valore assunto dalla variabile esplicativa viene visto come esogeno, determinato cioè
interamente da forze esterne all’equazione di regressione. Se vale quest’ipotesi succede che
Cov( xi , ε i ) = E ( xiε i ) = 0 .

In aggiunta alle ipotesi del teorema di Gauss-Markov spesso si assume che i termini di errore ε i
( )
siano distribuiti normalmente: ε i ~ N 0,σ ε2 . Per il problema che stiamo considerando questo
iid
assunto non è necessario.
Dato che le xi sono non stocastiche, possiamo affermare che:

E ( yi ) = E (β xi + ε i ) = β xi + E (ε i ) = β xi

e che

[ ] [
Var ( yi ) = E ( yi − E ( yi )) = E (β xi + ε i − β xi ) =
2 2
]
= E [(ε ) ] = σ .
2 2
i ε

Abbiamo già verificato, in un problema precedentemente svolto, che per il modello yi = βxi + ε i lo
stimatore OLS di β è dato dall’espressione seguente:

∑i xi yi = c y
b= ∑i i i [1]
∑i xi2
xi
con ci = (si veda il file “Esercizi (seconda parte).pdf” – pag. 6).
∑i xi2
È evidente dalla [1] come b sia una funzione lineare delle osservazioni campionarie yi e pertanto
uno stimatore lineare (la L di BLUE). Inoltre:

-5-
Materiale didattico – Esercizi (quarta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

E (b ) = ∑i ci E ( yi ) = ∑i
xi
β xi = β
∑ x2
i i
= β.
∑i xi2 ∑i xi2
Pertanto b è anche uno stimatore corretto di β.
Per verificare che b sia anche di minima varianza all’interno della classe degli stimatori lineari non
distorti consideriamo un altro stimatore lineare non distorto:
~
b = ∑i di yi .

~
Se b è non distorto, deve valere che

()
E b = ∑i di E ( yi ) = ∑i di xi β = β .
~

Questo risultato vale solo se ∑i di xi = 1 . Poiché le yi sono indipendenti con varianza σ ε2 , abbiamo
~
che la varianza del nuovo stimatore b sarà pari a

()
Var b = ∑i di2Var ( yi ) = ∑i di2σ ε2 .
~

Il nostro problema è a questo punto quello di individuare dei coefficienti di tali per cui la varianza
∑i di2σ ε2 sia minima subordinatamente al vincolo ∑i di xi = 1 .
Scriviamo il lagrangiano:

L(di , λ ) = ∑i d i2 − λ (∑ d x − 1) = min
i i i

dove λ è appunto il moltiplicatore di Lagrange.


Procedendo come di consueto abbiamo che

∂L
= 2di − λxi = 0
∂di

da cui

λ
di = xi .
2

Moltiplicando per xi entrambi i membri e sommando rispetto ad i:

λ
∑i di xi = 2 ∑i xi2
λ
1=
2
∑ x2
i i

2
λ= .
∑i xi2
-6-
Materiale didattico – Esercizi (quarta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

xi
Così di = , coefficienti che coincidono con i termini ci di prima. Quindi lo stimatore bOLS è
∑i xi2
di varianza minima all’interno della classe degli stimatori lineari corretti. Tale varianza è (cfr. anche
l’esercizio iniziale di questa dispensa):

2
 x  σ ε2
Var (b ) = ∑i ci2σ ε2 = ∑i  i 2  σ ε2 = .
 ∑ xi  ∑ x 2
 i  i i

In linea di principio è possibile concepire uno stimatore non lineare e non distorto con varianza
(
inferiore a quella di bOLS . Se però gli ε i sono anche tali per cui ε i ~ N 0,σ ε2 allora bOLS è il
iid
)
migliore in assoluto.

-7-
Materiale didattico – Esercizi (quarta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Supponendo che valga la relazione yi = α + β xi + ε i , i = 1,..., n , si stimi il parametro β mediante


~
b=
∑i yi . Discutere le proprietà di tale stimatore e commentare il caso in cui α = 0 .
∑i xi

~
Riscriviamo lo stimatore b =
∑i yi in un modo più conveniente:
∑i xi
~
b=
∑i yi = y = ∑i (α + βxi + ε i ) =
∑i xi x ∑i xi
nα + β ∑i xi + ∑i ε i nα ∑ εi
= = +β + i =
∑i xi ∑i xi ∑i xi
α +ε
=β+ .
x

~ α
Lo stimatore b è distorto e la sua distorsione è pari a . Infatti:
x

α E (ε )
()
~
Eb =β+ +
x x
α
=β+ .
x

Se α = 0 , e quindi se la relazione lineare ipotizzata è yi = β xi + ε i , lo stimatore è corretto. In questa


()
~ ~
circostanza, dunque, E b = β . La varianza di b è determinabile con i semplici calcoli che
seguono:

    ε 2 
() ε
2
~
Var b = E  β + − β   = E    =
 x    x  

= 2 E (ε ) = 2 E
1 2
 2
1  ∑i ε i   1 
[ ] = E
(∑ ε )  =
i i
2

x x  n   x 2  n 2

   
1  
= 2 2
E ∑i ε i2 + ∑∑ ε iε j  =
n x  i j ≠i 

=
1 

n 2 x 2  i
E 2
( )
∑ i ∑∑ i j ,
ε + E ( )
ε ε

i j ≠i 

a questo punto sfruttiamo le ipotesi del teorema di Gauss-Markov per semplificare tale espressione.
( )
In particolare, ∑i E ε i2 = nσ ε2 per la seconda condizione del teorema di Gauss-Markov

-8-
Materiale didattico – Esercizi (quarta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

( Var (ε i ) = σ ε2 , ∀i ) mentre ∑∑ E (ε iε j ) = 0 per la terza condizione dello stesso teorema


i j ≠i

( )
( E ε iε j = 0, ∀i ≠ j ). Dunque possiamo affermare che:

()
~ σ2
Var b = ε2 .
nx

Lo stimatore OLS per il modello yi = β xi + ε i è (cfr. problema a pag. 6 della dispensa “Esercizi
seconda parte” disponibile on line):

bOLS =
∑i xi yi .
∑i xi2
Riscriviamolo nei termini che seguono:

∑ x (βxi + ε i ) β ∑i xi2 ∑i xiε i


i i
bOLS = = + =
∑i xi2 ∑i xi2 ∑i x12
∑ xiε i
=β+ i 2 .
∑i x1
Per questo stimatore la varianza è pari a (n.b. non è la prima volta che la calcoliamo!):

  
2
∑ x ε
Var (bOLS ) = E  β + i 2 − β   =
i i

 ∑i x1  
1  
=  ∑ ε 2 2
+ ∑∑ ε ε =
( )
E i xi i j xi x j
∑i xi2 
2 i
i j ≠i 

∑i xi2 E (ε i2 ) + ∑∑ xi x j E (ε iε j ) =
1
=
(∑ ) x2
i i
2
i j ≠i

1 σ ε2
(∑ x ) ∑
= x 2σ 2
i i ε
= .
2 2
i i
∑i xi2
È confermato empiricamente, come ci dice la teoria, che la varianza che abbiamo appena calcolato è
la minore all’interno della classe degli stimatori lineari corretti? Con riferimento al nostro esempio

sarebbe da valutare se effettivamente vale che Var (bOLS ) =


σ ε2
< Var
~ σ ε2
b = 2 . È piuttosto ()
∑i xi2 nx
semplice verificare che vale questo risultato. Basta ricordare la nota formula di calcolo semplificato

della varianza σ x =
2 ∑ x2
i i
− x . Da questa discende immediatamente che
2 ∑ x2
i i
> x 2 dato che
n n

-9-
Materiale didattico – Esercizi (quarta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

deve essere sempre σ x2 > 0 . Dunque n


∑ x2
i i
> nx 2 e di conseguenza, come era da attendersi,
n
σ ε2 σ ε2
< cosa che conferma empiricamente la teoria.
∑i xi2 nx 2

- 10 -
Materiale didattico – Esercizi (quarta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Supponendo che valga la relazione yi = α + β xi + ε i , i = 1,..., n , si stimi il parametro β mediante lo


~ σ y ,i
stimatore b = dove i è il codice progressivo che identifica ciascuna unità (come già detto,
σ x ,i
i = 1,..., n ). Discutere le proprietà di tale stimatore.

~
Riscriviamo lo stimatore b in una forma più conveniente ai fini delle risposte che dobbiamo
fornire:

~ σ y ,i σ α + βx + ε ,i
b= = =
σ x ,i σ x ,i
σ α ,i σ σ
= + β x , i + ε ,i =
σ x ,i σ x,i σ x ,i
σ ε ,i
=β+ .
σ x ,i

Infatti σ α ,i = 0 perché σ α ,i =
∑ i (α − α )(i − i ) = ∑ i (α − α )(i − i ) .
n n
~
Lo stimatore b è corretto. Infatti:

 σ  σ 
E  β + ε ,i  = E (β ) + E  ε , i  = β + 1 E (σ ε , i ) =
 σ x ,i  σ  σ x ,i
   x ,i 
 ∑ (i − i )(ε i − ε ) 
= β + E i =
 n 

=β+
∑ i (i − i )E (ε i − ε ) = β .
n

Inoltre la sua varianza è pari a

 σ ε ,i  
2  σ  2 
~
()
Var b = E  β +

 σ x ,i
− β   = E  ε ,i   =
   σ x,i  
    

1

  ∑ (i − i )(ε i − ε )  
2

= E i
=
(σ x,i )2  n  
 

1  ∑ (i − i )2 E (ε i − ε )2 
=  i 
(σ x,i )2 

n 

- 11 -
Materiale didattico – Esercizi (quarta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

( )
dal momento che E ε iε j = 0, ∀i ≠ j e i doppi prodotti derivanti dal termine (∑ (i − i )(ε
i i −ε ) )2

sono, in valore atteso, tutti nulli. Dunque:

()
~
Var b =
1
nσ i2σ ε2
n (σ x ,i )
2 2

1 σ ε2 σ x2σ i2 Var (bOLS )


= = .
n σ x2 (σ x ,i )2 rx2,i

- 12 -
Materiale didattico – Esercizi (quinta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

30) Si consideri il data set “lavoro.txt”. All’interno di una azienda il coordinatore per la sicurezza e
la salute sul lavoro deve assicurarsi che le normative al riguardo siano portate a conoscenza del
personale e siano rispettate. Come parte del progetto di formazione dei lavoratori, egli ha sviluppato
un questionario per verificare il grado di conoscenza dei lavoratori stessi delle norme vigenti in
campo sanitario e della sicurezza sul lavoro. Le risposte dei dipendenti al questionario vengono
combinate per assegnare un punteggio medio a ciascuno di loro; il punteggio va da 1 (scarso) a 10
(ottimo). Il questionario è anonimo ma vengono richieste informazioni demografiche (genere e
razza) oltre agli anni di servizio. Il coordinatore seleziona a caso le risposte ai questionari per 10
femmine e 10 maschi, con ciascuno di questi gruppi divisi equamente tra bianchi e non bianchi. Egli
vuole conoscere se è possibile usare la variabile relativa al genere (Sex) assieme agli anni di servizio
(Years_Service) per prevedere con un modello lineare il punteggio medio ottenuto dall’individuo
nel questionario (Average_Score). I dati sono disponibili nel file “lavoro.txt”. Risolvere il problema
del coordinatore usando R. Commentare i risultati.

On line è disponibile oltre al data-set che stiamo analizzando anche lo script che ci aiuta a risolvere
il problema del coordinatore usando R. Ne commenteremo brevemente alcune porzioni con
particolare riferimento alle istruzioni meno usuali o non trattate a lezione.
Innanzitutto dobbiamo caricare i dati contenuti nel file esterno (fate attenzione a settare
correttamente nella prima istruzione il percorso):

> dati <- read.table('lavoro.txt', header=TRUE)


> dati
Employee Average_Score Years_Service Sex Race
1 1 7.6 5 Female Nonwhite
2 2 9.0 30 Female Nonwhite
3 3 8.0 12 Female Nonwhite
4 4 6.8 7 Female Nonwhite
5 5 7.4 7 Female Nonwhite
6 6 9.8 27 Female White
7 7 7.4 4 Female White
8 8 8.9 6 Female White
9 9 8.1 7 Female White
10 10 8.6 11 Female White
11 11 4.7 4 Male Nonwhite
12 12 3.4 2 Male Nonwhite
13 13 4.0 2 Male Nonwhite
14 14 4.1 1 Male Nonwhite
15 15 4.4 9 Male Nonwhite
16 16 6.0 11 Male White
17 17 7.1 12 Male White
18 18 5.4 1 Male White
19 19 6.6 16 Male White
20 20 6.5 22 Male White
> dim(dati)
[1] 20 5
> n <- dim(dati)[1]
> names(dati)
[1] "Employee" "Average_Score" "Years_Service" "Sex"
[5] "Race"
> attach(dati)

Con riferimento all’ultima riga di script riportato, esiste, come noto, un modo per evitare di
chiamare le variabili di un data-frame premettendo il nome del data-frame e il simbolo $. Tale

-1-
Materiale didattico – Esercizi (quinta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

modo consiste nell’impiego della funzione attach. Scrivendo, subito dopo aver caricato i dati,
attach(dati) evitiamo di richiamare le variabili già esistenti premettendo dati$.
Con la porzione di script che segue procediamo a rinominare le variabili in modo da usare nomi che
evochino meglio il modello che stiamo stimando:

Y <- Average_Score
X <- Years_Service
C1 <- Sex
C2 <- Race

Quindi rinominiamo in italiano le modalità del predittore qualitativo (o categorico per dirla con gli
anglosassoni) e differenziamo i colori in base al genere

> col <- rep('blue', n)


> femmine <- which(C1=='Female')
> maschi <- which(C1=='Male')
> col[femmine] <- 'pink'

A questo punto disegniamo lo scatter di Y contro X stratificando per C1. In pratica disegniamo lo
scatter della variabile risposta (punteggio medio Y) contro la variabile esplicativa X (il nostro
predittore continuo), distinguendo i punti dello scatter in base al genere del lavoratore (C1), la
nostra esplicativa categorica.

> plot(X,Y, main='Scatterplot di Y vs X', lwd=2,


xlab='Anni di servizio', ylab='Punteggio medio', col=col)

Scatterplot di Y vs X
10
9
8
Punteggio medio

7
6
5
4

0 5 10 15 20 25 30

Anni di servizio

Dallo scatter emerge che i punteggi medi ottenuti dalle dipendenti di genere femminile risultano
essere sempre superiori a quelli ottenuti dai colleghi di genere maschile.
Passiamo ora a stimare i modelli di regressione non senza fare prima una breve precisazione.
Si ricorda che stiamo considerando un modello di regressione che descrive la relazione fra la
variabile risposta Y e due predittori: la variabile quantitativa X ed la variabile qualitativa C. l’effetto
del predittore qualitativo si può manifestare sull’intercetta, sul coefficiente angolare o su entrambi.

-2-
Materiale didattico – Esercizi (quinta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

I modelli teorici che possiamo prendere in considerazione sono quattro:

i) Y = β 0 + β1 X + ε (rette di regressione coincidenti): le rette di regressione relative alle diverse


modalità della variabile C presentano stessa intercetta e stesso coefficiente angolare. Il
predittore qualitativo C non è statisticamente significativo (non ha effetto su Y) e quindi si
include come predittore solo X.
ii) Y = β 0 + β1 X + β 2C + ε (rette di regressione parallele): le rette di regressione relative alle
diverse modalità della variabile C presentano diversa intercetta ma stesso coefficiente
angolare. Il predittore qualitativo C ha effetto sulla variabile risposta Y e quindi nel modello si
includono come predittori X e C.
iii) Y = β 0 + β1 X + β 2 X × C + ε (rette di regressione con uguale intercetta): le rette di regressione
relative alle diverse modalità della variabile C presentano uguale intercetta ma diverso
coefficiente angolare. Il predittore qualitativo C ha effetto sulla variabile risposta Y solo
attraverso la sua interazione con la variabile quantitativa X (l’interazione viene indicata con
X×C) e quindi nel modello si includono come predittori X e X×C.
iv) Y = β 0 + β1 X + β 2C + β3 X × C + ε (rette di regressione senza relazione): le rette di
regressione relative alle diverse modalità della variabile C presentano diversa intercetta e
diverso coefficiente angolare. Il predittore qualitativo C ha effetto sulla variabile risposta Y sia
preso singolarmente che attraverso la sua interazione con la variabile quantitativa X e quindi
nel modello si includono come predittori X, C e X×C.

Cominciamo stimando i modelli di regressione di Y su X distintamente per genere e plottandoli sullo


scatter.

> fit <- lm(Y[femmine] ~ X[femmine])


> Yprev <- fit$fitted
> lines(X[femmine],Yprev,lwd=2,col='pink')
> fit <- lm(Y[maschi] ~ X[maschi])
> Yprev <- fit$fitted
> lines(X[maschi],Yprev,lwd=2,col='blue')

Scatterplot di Y vs X
10
9
8
Punteggio medio

7
6
5

femmine
maschi
4

0 5 10 15 20 25 30

Anni di servizio

-3-
Materiale didattico – Esercizi (quinta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Non senza aver aggiunto al grafico una legenda che identifichi chiaramente le due rette di
regressione:

> legend(20,5,legend=c('femmine','maschi'),col=c('pink','blue'),
lwd=2,cex=0.85)

Le due rette di regressione stimate sembrano avere intercetta molto diversa e coefficiente angolare
molto simile. Stimiamo quindi un modello di regressione che includa anche il predittore categorico
e l’interazione tra predittore categorico e predittore continuo per vedere se, come sembra dallo
scatter, l’interazione non sia significativa e possa anche essere esclusa. Ci stiamo cioè accingendo a
stimare il modello iv) descritto prima.
Preliminare a questa fase di stima è la costruzione di una variabile d’appoggio che ci consenta di
procedere. In generale, infatti, il predittore qualitativo viene ricodificato in termini di variabili
dummy. Se C presenta due livelli, è strategia comune quella di creare una colonna dove si avrà 0 in
corrispondenza delle osservazioni che appartengono alla prima categoria e 1 in corrispondenza delle
osservazioni che appartengono alla seconda:

> C1.new <- rep(0,n)


> C1.new[femmine] <- 0
> C1.new[maschi] <- 1

Quindi procediamo alla stima:

> fit <- lm(Y ~ C1.new+X+X*C1.new)


> summary(fit)

Call:
lm(formula = Y ~ C1.new + X + X * C1.new)

Residuals:
Min 1Q Median 3Q Max
-1.0280 -0.4430 -0.1206 0.3965 1.3300

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.32289 0.39824 18.388 3.48e-12 ***
C1.new -3.20289 0.54300 -5.898 2.25e-05 ***
X 0.07216 0.02736 2.637 0.0179 *
C1.new:X 0.06534 0.04443 1.470 0.1608
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7605 on 16 degrees of freedom


Multiple R-squared: 0.8585, Adjusted R-squared: 0.832
F-statistic: 32.37 on 3 and 16 DF, p-value: 5.004e-07

Dall’output si osserva che il termine di interazione tra X ed il predittore qualitativo C1 non risulta
significativo (p–value = 0.1608) e quindi può essere eliminato dal modello. Stimiamo quindi il
modello senza interazione:

> fit <- lm(Y ~ C1.new+X)


> summary(fit)

Call:
lm(formula = Y ~ C1.new + X)

-4-
Materiale didattico – Esercizi (quinta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Residuals:
Min 1Q Median 3Q Max
-1.23832 -0.49061 -0.05023 0.49141 1.49221

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.03542 0.35862 19.618 4.10e-13 ***
C1.new -2.59099 0.36058 -7.186 1.52e-06 ***
X 0.09695 0.02228 4.351 0.000435 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7861 on 17 degrees of freedom


Multiple R-squared: 0.8394, Adjusted R-squared: 0.8205
F-statistic: 44.44 on 2 and 17 DF, p-value: 1.771e-07

Tutti i predittori risultano statisticamente significativi. Quindi i modelli di regressione multipla


stimati sono per le femmine ed i maschi rispettivamente i seguenti:

Yˆ = 7.03542 + 0.09695 X (femmine)


Yˆ = 7.03542 − 2.59099 + 0.09695 X = 4.44443 + 0.09695 X (maschi)

Passiamo ora a valutare i grafici di diagnostica del modello, disegnando prima di tutto lo scatter dei
residui contro i valori previsti:

> residui <-fit$res


> Yprev <-fit$fitted
> plot(Yprev,residui, main='Residui vs valori previsti', lwd=2,
xlab='Y previsti', ylab='Residui')
> abline(h=0,lwd=2)

Residui vs valori previsti


1.5
1.0
0.5
Residui

0.0
-0.5
-1.0

5 6 7 8 9 10

Y previsti

il quale mostra una nuvola di punti senza alcuna forma particolare a conferma del fatto che il
sottomodello adottato sembra buono. Quindi procediamo disegnando il Normal Probability Plot. Al

-5-
Materiale didattico – Esercizi (quinta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

riguardo facciamo ricorso alla semplice funzione qqn di rmf che però dobbiamo preventivamente
caricare in R:

> library(rmf)
> qqn(residui)

Normal Q-Q Plot


1.5
1.0
0.5
Sample Quantiles

0.0
-0.5
-1.0

-2 -1 0 1 2

Theoretical Quantiles

Il Normal Probability Plot non mostra alcuna evidenza di violazione dell’assunzione di normalità
dei residui.

-6-
Materiale didattico – Esercizi (quinta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

(
31) Dato il modello yi = α + βxi + ε i , dove yi ~ N µi , σ ε2 e )
1 se si verifica la condizione A
xi = 
0 altrimenti (condizione B)

ricavare le espressioni degli stimatori OLS per α e β.

Per esempio, si può pensare ad yi come il livello di produzione associato al processo produttivo i–
mo supponendo che un’azienda utilizzi due distinti processi produttivi facendo uso di due
macchinari A e B:

1 se la produzione è ottenuta con il macchinario A


xi = 
0 se la produzione è ottenuta con il macchinario B

Allora possiamo scrivere che gli stimatori OLS a e b dei parametri

α se xi = 0
E ( yi ) = α + β xi = 
α + β se xi = 1

Quindi α sarà il valor medio della produzione associata al macchinario B mentre α+β sarà il valor
medio della produzione associato ad A.
Abbiamo già visto più volte che, per il modello yi = α + βxi + ε i , gli stimatori OLS a e b dei
parametri α e β sono forniti dalle espressioni seguenti:

a = y − bx
e

b=
σ xy
=
∑i (xi − x )( yi − y ) .
σ x2 ∑i (xi − x )2
Definiamo nA come il numero delle osservazioni campionarie in cui si verifica la condizione A e
con nB l’analoga quantità relativa alla condizione B. I corrispondenti valori medi campionari per la
variabile di risposta y saranno y A e yB .
Valgono, in modo piuttosto ovvio, le seguenti relazioni:

nA + nB = n
∑i xi = nA
∑i xi2 = nA
∑i yi = ny = nA y A + nB yB
∑i xi yi = nA y A
Allora, per la codevianza campionaria tra x e y valgono i risultati che seguono:

-7-
Materiale didattico – Esercizi (quinta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

 ∑i xi ∑i yi  =
∑i (xi − x )( yi − y ) = ∑i xi yi − n n n 
 
 n n y + nB y B  n2 n n
= n A y A − n A A A  = nA y A − A y A − A B yB =
 n n  n n
 n − n A  n A nB n n n
= nA y A  − yB = n A y A B − A B y B =
 n  n n n

= A B ( y A − yB ).
n n
n

Per la devianza campionaria di x si possono ricavare analoghe relazioni:

2
n 
∑i (xi − x ) = ∑
2
x2
i i
− nx = n A − n  A  =
2

 n 
nA2  n − nA  nAnB
= nA − = nA  = .
n  n  n

A questo punto possiamo fornire le espressioni per a e b, stimatori OLS dei parametri α e β:

n A nB
( y A − yB )
b= n = ( y A − yB )
n A nB
n

n A y A + nB y B
− ( y A − yB ) A = 2 yB B .
n n
a=
n n n

-8-
Materiale didattico – Esercizi (quinta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

32) Con riferimento al data-set usato a lezione che contiene il prezzo di vendita delle case (100) a
Gainesville in Florida nell’autunno 2006 (file “Table_9_4.dta” già utilizzato nei lucidi di “relazioni
lineari – terza parte”), stima la seguente regressione multipla: Y = prezzo di vendita della casa,
X1 = dimensione della casa, X 2 = numero di stanze da letto, X 3 = numero di bagni.
i) Utilizza dei grafici per visualizzare/mostrare gli effetti dei predittori. Interpreta e spiega come la
natura discreta delle variabili x2 e x3 influisca sui grafici scelti.
ii) Scrivi l’equazione di previsione ed interpreta le stime.
iii) Esamina la matrice di correlazione e riporta le variabili che hanno a) la più forte e b) la più
debole associazione.
iv) Riporta l’ R 2 e interpretane il valore.
v) Individua nell’output di R la statistica F per testare gli effetti globali dei tre predittori, riporta i
gradi di libertà associati, il p–value ed esegui il test fornendo le dovute spiegazioni.
vi) Individua nell’output di R la statistica t per testare l’ipotesi nulla H 0 : β3 = 0 , riporta il suo p–
value per H1 : β 3 > 0 ed esegui il test fornendo le dovute spiegazioni.

i) i partial regression plot tra (prezzo di vendita della casa, dimensione della casa), (prezzo di
vendita della casa, numero di stanze da letto) e (prezzo di vendita della casa, numero di bagni) sono
riportati qui di seguto.

Partial regression plot of price vs size of house Partial regression plot of price vs size of house
3e+05
3e+05

2e+05
2e+05

1e+05
1e+05

price
price

0e+00
0e+00

-1e+05
-1e+05

-500 0 500 1000 1500 -500 0 500 1000 1500

size size

Partial regression plot of price vs number of bedrooms Partial regression plot of price vs number of bedrooms
1e+05
1e+05

0e+00
0e+00

price
price

-1e+05
-1e+05

-2e+05
-2e+05

-1.0 -0.5 0.0 0.5 1.0 1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

bedrooms bedrooms

-9-
Materiale didattico – Esercizi (quinta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

1e+05 Partial regression plot of price vs number of bathrooms Partial regression plot of price vs number of bathrooms

1e+05
0e+00

0e+00
price

price
-1e+05

-1e+05
-2e+05

-2e+05
-0.5 0.0 0.5 1.0 -0.5 0.0 0.5 1.0

baths baths

Dall’esame dei plot riportati possiamo concludere che:

a) controllando per gli altri predittori, l’effetto parziale della variabile “dimensione della casa” è
chiaramente lineare e positivo;
b) non emerge un chiaro effetto parziale per la variabile “numero di stanze da letto”;
c) non emerge un chiaro effetto parziale per la variabile “numero di bagni”.

Qui di seguito sono riportati gli scatter bivariati di Y rispettivamente contro la variabile X 2 =
numero di stanze da letto e X 3 = numero di bagni.

Scatterplot of price vs number of bedrooms Scatterplot of price vs number of bathrooms


6e+05

6e+05
5e+05

5e+05
4e+05

4e+05
3e+05
price

3e+05
price
2e+05

2e+05
1e+05

1e+05
0e+00

0e+00

2.0 2.5 3.0 3.5 4.0 4.5 5.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0

bedrooms baths

Come si vede, si tratta di due predittori fortemente discreti, con i punti che si presentano soltanto ad
un numero molto esiguo di livelli sulla scala del predittore. A ciò è imputabile l’effetto parziale non
chiaro diagnosticato per le due variabili X 2 e X 3 .
ii) Di seguito l’output di R con cui si è ottenuta l’equazione di previsione yˆ = a + b1x1 + b2 x2 + b3 x3
per il modello E (Y ) = α + β1 X 1 + β 2 X 2 + β3 X 3 :

Call:
lm(formula = df$price ~ df$size + df$bedrooms + df$baths)

Residuals:

- 10 -
Materiale didattico – Esercizi (quinta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Min 1Q Median 3Q Max


-253241 -27702 -2914 20405 145669

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -27290.08 28240.51 -0.966 0.336
df$size 130.43 11.95 10.914 <2e-16 ***
df$bedrooms -14465.77 10583.49 -1.367 0.175
df$baths 6890.27 13539.98 0.509 0.612
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 56210 on 96 degrees of freedom


Multiple R-squared: 0.7012, Adjusted R-squared: 0.6918
F-statistic: 75.08 on 3 and 96 DF, p-value: < 2.2e-16

dal quale si evince che l’equazione di previsione richiesta dal problema è la seguente:
yˆ = −27290.1 + 130.4 x1 − 14465.8 x2 + 6890.3 x3 . L’interpretazione:
a) controllando per tutte le altre variabili, il prezzo previsto di vendita di una casa aumenta di
130.43 dollari per un incremento di un piede quadrato della dimensione della casa;
b) controllando per tutte le altre variabili, il prezzo previsto di vendita di una casa decresce di
14465.77 dollari per un incremento di uno nel numero di stanze da letto;
c) controllando per tutte le altre variabili, il prezzo previsto di vendita di una casa aumenta di
6890.27 dollari a fronte di un incremento di una unità nel numero di bagni.
iii) La matrice delle correlazioni relativa alle variabili Y , X1 , X 2 e X 3 è la seguente:

[,1] [,2] [,3] [,4]


[1,] 1.0000000 0.8337848 0.3939570 0.5582533
[2,] 0.8337848 1.0000000 0.5447831 0.6582247
[3,] 0.3939570 0.5447831 1.0000000 0.4922224
[4,] 0.5582533 0.6582247 0.4922224 1.0000000

da cui emerge chiaramente che prezzo di vendita della casa e dimensione della casa hanno la
correlazione più elevata ( ry , x1 = 0.834 ) mentre prezzo di vendita della casa e numero di stanze da
letto quella più contenuta ( ry , x2 = 0.394 ).
iv) Il valore di R 2 è 0.701 che implica che usare le variabili X1 , X 2 e X 3 per prevedere Y
comporta una riduzione del 70% nell’errore di previsione relativamente alla previsione effettuata
semplicemente con y .
v) Il test F usato per testare l’ipotesi nulla H 0 : β1 = β 2 = β 3 = 0 vale 75.08. I suoi gradi di libertà
sono 3 e 96 con un p–value di fatto pari a 0. Concludiamo che almeno una delle tre variabili
esplicative individuate manifesta un effetto su Y.
vi) La statistica test t vale 0.51. Il p–value riportato nell’output (0.61) è relativo ad un test a due
code. Quindi il p–value corrispondente all’ipotesi alternativa H1 : β 3 > 0 sarà 0.61 2 = 0.31 . Poiché
si tratta di un valore sufficientemente elevato, controllando per gli altri due repressori, non si
riscontra una forte evidenza che il numero di bagni manifesti una influenza nel prevedere il prezzo
di una casa.

Qui di seguito lo script con cui si sono prodotti tutti i risultati presentati in questo esercizio:

library(rmf)
library(foreign)
setwd("c:/Peppe/.../routine e dati/Dati & routine R - relazioni lineari")

- 11 -
Materiale didattico – Esercizi (quinta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

rm(list=ls(all=TRUE))

df <- read.dta("Table_9_4.dta")

fit <- lm(df$price ~ df$size + df$bedrooms + df$baths); summary(fit)

# partial regression plot for the effect of X1 (size)


fit.y <- lm(df$price ~ df$bedrooms+df$baths)
fit.x <- lm(df$size ~ df$bedrooms+df$baths)
plot(fit.x$res,fit.y$res, ylab="price",
xlab="size",
main="Partial regression plot of price vs size of house")
x1y <- lm(fit.y$res ~ fit.x$res)
abline(x1y)

# partial regression plot for the effect of X2 (bedrooms)


fit.y <- lm(df$price ~ df$size+df$baths)
fit.x <- lm(df$bedrooms ~ df$size+df$baths)
plot(fit.x$res,fit.y$res, ylab="price",
xlab="bedrooms",
main="Partial regression plot of price vs number of
bedrooms")
x2y <- lm(fit.y$res ~ fit.x$res)
abline(x2y)

# partial regression plot for the effect of X3 (bathrooms)


fit.y <- lm(df$price ~ df$size+df$bedrooms)
fit.x <- lm(df$baths ~ df$size+df$bedrooms)
plot(fit.x$res,fit.y$res, ylab="price",
xlab="baths",
main="Partial regression plot of price vs number of
bathrooms")
x3y <- lm(fit.y$res ~ fit.x$res)
abline(x3y)

plot(df$bedrooms,df$price, ylab="price",
xlab="bedrooms",
main="Scatterplot of price vs number of bedrooms")

plot(df$baths,df$price, ylab="price",
xlab="baths",
main="Scatterplot of price vs number of bathrooms")

z <- cbind(df$price,df$size,df$bedrooms,df$baths)
cor(z)
pairs(z)

- 12 -
Materiale didattico – Esercizi (quinta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

Con riferimento al data-set usato a lezione che contiene il prezzo di vendita delle case (100) a
Gainesville in Florida nell’autunno 2006 (file “Table_9_4.dta” già utilizzato nei lucidi di “relazioni
lineari – terza parte”), stima ora la seguente regressione multipla: Y = prezzo di vendita della casa,
X1 = numero di stanze da letto, X 2 = numero di bagni.
i) Testa di nuovo l’effetto parziale della variabile “numero di bagni” e interpreta i risultati.
ii) Costruisci un intervallo di confidenza al 95% per l’intercetta vera ma incognita β 2 . Interpreta i
risultati.
iii) Calcola il coefficiente di correlazione parziale tra il “prezzo di vendita della casa” e il “numero
di bagni” controllando per il “numero di stanze da letto”. Confronta con il coefficiente di
correlazione lineare ry ,x2 ed interpreta.
iv) Calcola i coefficienti di regressione standardizzati per il modello in oggetto ed interpreta i
risultati.
v) Scrivi l’equazione di previsione usando le variabili standardizzate. Interpreta i risultati.

i) Di seguito l’output di R con cui si è ottenuta l’equazione di previsione yˆ = a + b1x1 + b2 x2 per il


modello E (Y ) = α + β1 X1 + β 2 X 2 :

Call:
lm(formula = df$price ~ df$bedrooms + df$baths)

Residuals:
Min 1Q Median 3Q Max
-175226 -49701 -18491 27092 341135

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -86304 41277 -2.091 0.0392 *
df$bedrooms 24452 14839 1.648 0.1026
df$baths 85857 17043 5.038 2.18e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 83710 on 97 degrees of freedom


Multiple R-squared: 0.3304, Adjusted R-squared: 0.3166
F-statistic: 23.93 on 2 and 97 DF, p-value: 3.568e-09

dal quale si evince che l’equazione di previsione richiesta dal problema è la seguente:
yˆ = −86304 + 24452 x1 − 85857 x2 .
In questo caso la statistica test t per testare l’effetto parziale della variabile “numero di bagni” vale
5.038 con un p–value praticamente nullo. Si conclude che il “numero di bagni” ha un effetto
significativo sul “prezzo di vendita della casa” controllando per il “numero di stanze da letto”.
ii) L’intervallo di confidenza al 95% per l’intercetta vera ma incognita β 2 assume la seguente
forma: iβ 2 : b2 ± tn − 2;0,025 × se(b2 ) . Dunque, ricordando che è estremamente facile con R ricavare il
valore tn − 2;0,025 :

> qt(0.975,98)
[1] 1.984467

- 13 -
Materiale didattico – Esercizi (quinta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

abbiamo che iβ 2 : 85857 ± 1.984467 × 17043 . Cioè iβ 2 : (52035.64; 119678.8) . Così, controllando per
il “numero di stanze da letto”, l’incremento nella media di Y per un aumento di 1 nel “numero di
bagni” cade tra 52035.64 dollari e 119678.8 dollari con una confidenza del 95%.
iii) Come noto, il coefficiente di correlazione parziale tra il “prezzo di vendita della casa” e il
“numero di bagni” controllando per il “numero di stanze da letto” è il coefficiente rY , X 2 ⋅ X1
(coefficiente di correlazione parziale tra Y e X 2 controllando per X1 ). Quest’ultimo può essere
calcolato in maniera diretta mediante la relazione:

rY , X 2 − rY , X 1 rX 1 X 2
rY , X 2 ⋅ X 1 =
(1 − r )(1 − r
2
Y , X1
2
X1 , X 2 )
oppure sfruttando il fatto che la correlazione parziale è identica alla correlazione calcolata sul
partial regression plot. Mostriamo entrambe le alternative cominciando dalla seconda:

fit.1 <- lm(df$price ~ df$bedrooms, data=df)


fit.2 <- lm(df$baths ~ df$bedrooms, data=df)
cor(fit.1$res,fit.2$res)

che, eseguito, conduce al risultato rY , X 2 ⋅ X 1 = 0.4553816 .


Per quello che riguarda la prima alternativa, costruiamo innanzitutto la matrice delle correlazioni:

df1 <- df[,c(2,5,6)]


cor(df1)

che produce il seguente risultato

price bedrooms baths


price 1.0000000 0.3939570 0.5582533
bedrooms 0.3939570 1.0000000 0.4922224
baths 0.5582533 0.4922224 1.0000000

da cui

rY , X 1 = 0.3939570
rY , X 2 = 0.5582533
rX 1 , X 2 = 0.4922224

e pertanto

(cor(df1)[1,3]-cor(df1)[1,2]*cor(df1)[2,3])/sqrt((1-cor(df1)[1,2]^2)*(1-cor(df1)[2,3]^2))

istruzione che restituisce il valore già calcolato rY , X 2 ⋅ X 1 = 0.4553816 .


Dalla matrice delle correlazioni si evince immediatamente che rY , X 2 = 0.56 mentre, come visto, il
coefficiente di correlazione parziale tra il “prezzo di vendita della casa” e il “numero di bagni”
controllando per il “numero di stanze da letto” vale rY , X 2 ⋅ X 1 = 0.46 . Concludendo, si diagnostica una
moderata associazione positiva ed una moderata associazione parziale tra le due variabili “prezzo di
vendita della casa” e “numero di bagni”.

- 14 -
Materiale didattico – Esercizi (quinta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

 sx  s 
iv) Le stime dei coefficienti di regressione standardizzati b1* = b1 1  e b2* = b2  x2  si ottengono
 sy   sy 
   
facilmente considerando le variabili standardizzate zY , z X 1 e z X 2 e producendo l’equazione di
previsione zˆY = b1* z X1 + b2* z X 2 :

yst <- scale(df$price)


x1st <- scale(df$bedrooms)
x2st <- scale(df$baths)
fit <- lm(yst ~ x1st + x2st); summary(fit)

Lo script riportato produce il seguente output:

Call:
lm(formula = yst ~ x1st + x2st)

Residuals:
Min 1Q Median 3Q Max
-1.7304 -0.4908 -0.1826 0.2675 3.3688

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.822e-17 8.267e-02 -4.62e-16 1.000
x1st 1.573e-01 9.545e-02 1.648 0.103
x2st 4.808e-01 9.545e-02 5.038 2.18e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.8267 on 97 degrees of freedom


Multiple R-squared: 0.3304, Adjusted R-squared: 0.3166
F-statistic: 23.93 on 2 and 97 DF, p-value: 3.568e-09

da cui si evince che la stima del coefficiente di regressione standardizzato corrispondente alla
variabile “numero di stanze da letto” è b1* = 0.16 . Ciò implica che, controllando per il “numero di
bagni”, per un aumento di una standard deviation nel “numero di stanze da letto”, il cambiamento
stimato per la media di Y ed espresso in deviazioni standard di Y è pari a 0.16.
Allo stesso modo, la stima del coefficiente di regressione standardizzato corrispondente alla
variabile “numero di bagni” è b2* = 0.48 . Ciò implica che, controllando per il “numero di stanze da
letto”, per un aumento di una standard deviation nel “numero di bagni”, il cambiamento stimato
nella media di Y è pari a 0.48 deviazioni standard di Y.
v) L’equazione di previsione che mette in relazione gli z–score di Y con gli z–score di X1 e di X 2
è:

zˆY = 0.16 z X 1 + 0.48 z X 2 .


Qui di seguito è riportato l’intero script con cui si sono prodotti i risultati prima mostrati:

library(rmf)
library(foreign)
setwd("c:/Peppe/.../Dati & routine R - relazioni lineari")
rm(list=ls(all=TRUE))

df <- read.dta("Table_9_4.dta")

- 15 -
Materiale didattico – Esercizi (quinta parte)
Facoltà di Economia
Statistica, probabilità ed inferenza
Prof. Giuseppe Espa

fit <- lm(df$price ~ df$bedrooms + df$baths); summary(fit)

# partial correlation

fit.1 <- lm(df$price ~ df$bedrooms, data=df)


fit.2 <- lm(df$baths ~ df$bedrooms, data=df)
cor(fit.1$res,fit.2$res)

df1 <- df[,c(2,5,6)]


cor(df1)

# oppure, in alternativa, partial correlation passando per la


# matrice delle correlazioni

df1 <- df[,c(2,5,6)]


cor(df1)
(cor(df1)[1,3]-cor(df1)[1,2]*cor(df1)[2,3])/sqrt((1-cor(df1)[1,2]^2)*(1-
cor(df1)[2,3]^2))

# coefficienti di regressione standardizzati

yst <- scale(df$price)


x1st <- scale(df$bedrooms)
x2st <- scale(df$baths)
fit <- lm(yst ~ x1st + x2st); summary(fit)

- 16 -