Sei sulla pagina 1di 101

Il modello di regressione lineare

Riccardo Massari
riccardo.massari@uniroma1.it

Statistica Multivariata

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 1 / 101
Cosa impareremo sul modello di regressione lineare

1 Il modello di regressione lineare


Stima dei parametri del modello
Bontà di adattamento del modello ai dati
Inferenza nel modello di regressione lineare
Selezione delle variabili
Analisi dei residui

2 Esempio: rendimento scolastico e condizione economica

3 Esercizi

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 2 / 101
Sommario

1 Il modello di regressione lineare


Stima dei parametri del modello
Bontà di adattamento del modello ai dati
Inferenza nel modello di regressione lineare
Selezione delle variabili
Analisi dei residui

2 Esempio: rendimento scolastico e condizione economica

3 Esercizi

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 3 / 101
Il modello di regressione lineare

Date variabili quantitative, X1 , X2 , . . . , Xp (variabili esplicative o


p
indipendenti), siamo interessati all'inuenza esercitata da queste su una
variabile quantitativa Y (variabile dipendente o risposta).
Ipotizziamo che la relazione sia di tipo lineare:

Y = β0 + β1 · X1 + β2 · X2 + . . . + βp · Xp

dove β0 , β1 , . . . , βp sono i parametri (o coecienti) del modello, in


particolare:

β0 è l' intercetta;
βj (j = 1, . . . , p ) è il coeciente angolare di Xj .

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 4 / 101
Il termine di errore

Nella pratica la relazione non è (quasi) mai esatta, per cui dobbiamo
aggiungere un termine di errore (ε).
Y = β0 + β1 · X1 + β2 · X2 + . . . + βp · Xp + ε

La relazione non è esatta per diversi motivi:

1 la relazione potrebbe non essere lineare;

2 potrebbero esserci altre variabili (non considerate e/o non osservabili)


che inuiscono sulla Y;
3 ci potrebbero essere errori di misurazione delle variabili.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 5 / 101


Esempio
Consideriamo la relazione tra potenza ( X, in cavalli vapore) e consumo ( Y,
km per litro) di un campione di veicoli.

12.5

10.0
Km per litro

7.5

5.0

100 200 300


Cavalli vapore

Veicoli con la stessa potenza possono avere consumi dierenti.

Questa discrepanza è dovuta principalmente al fatto che molti altri


fattori possono inuenzare Y.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 6 / 101


Interpretazione dei parametri del modello

L' intercetta β0 rappresenta il valore atteso della Y quando tutte le


variabili esplicative sono pari a 0.

Il coeciente angolare βj rappresenta la variazione attesa della Y


quando la Xj varia di una unità, ferme restando tutte le altre
variabili esplicative.

βj eetto marginale di Xj
è anche detto l' su Y, e misura l'eetto di Xj su
Y, a parità di tutte le altre condizioni.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 7 / 101


Esempio: Ecacia della pubblicità
Consideriamo la relazione tra vendite di un prodotto (Sales, migliaia di
prodotti venduti) e investimenti in pubblicità televisiva (TV, in migliaia di
dollari) e radiofonica (Radio, sempre in migliaia di dollari), per un
campione di 200 città :
1

Sales = β0 + β1 · TV + β2 · Radio + ε

β0 sono le vendite attese nei mercati in cui non sono stati fatti
investimenti pubblicitari, né via TV, né sui giornali;

β1 è la variazione attesa delle vendite quando gli investimenti in


pubblicità televisiva aumentano di 1000 dollari, a parità di investimenti
in pubblicità radiofonica.

Domanda: come si interpreta β2 ?

1
I dati sono presi da An Introduction to Statistical Learning, with applications in R (Springer, 2013), con il

©
permesso degli autori G. James, D. Witten, T. Hastie e R. Tibshirani.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare 2016 8 / 101


Il modello di regressione lineare in termini matriciali

Date n osservazioni sulla variabile Y e sulle variabili esplicative Xj , siano:

y il vettore colonna di n elementi relativo alle osservazioni sulla


variabile dipendente;

β il vettore colonna di p + 1 elementi relativo ai parametri del modello;


ε il vettore colonna di n elementi dei termini di errore;
X la matrice n × p + 1, la cui prima colonna è un un vettore colonna
di elementi pari ad 1 (corrispondente all'intercetta), mentre le restanti
p colonne sono altrettanti vettori colonna, ciascuno relativo alle n
osservazioni sulla corrispondente variabile esplicativa, con n > p + 1.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 9 / 101


y1
    
β0 ε1
y2  β1   ε2 
     
 ..   ..   .. 
. . .
y=
 yi 
 β= 
 βj  ε= 
 εi 
     
 ..   ..   .. 
. . .
yn βp εn
x11 x12 . . . x1j . . . x1p
 
1
1
 x21 x22 . . . x2j . . . x2p 
. . . ... ... ... ... . . . . . .
X=
1 xi 1xi 2 . . . xij . . . xip 

 
. . . ... ... ... ... . . . . . .
1 xn1 xn2 . . . xnj . . . xnp

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 10 / 101
Il modello di regressione lineare può essere espresso in termini più compatti
ricorrendo alla seguente notazione matriciale:
y = Xβ + ε
forma
che (a parte la presenza di un termine di errore) rappresenta la
matriciale di un sistema di equazioni lineari con n equazioni e p
incognite.

Indicando con x0i = (1, xi 1 , xi 2 , . . . , xij , . . . , xip ) l'i -ma riga di X, la generica
equazione può essere scritta come:
yi = x0i β + εi

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 11 / 101


Ipotesi del modello

Le principali assunzioni per la stima dei parametri del modello sono:

1 yi = x0i β + εi , per ogni osservazione (linearità del modello);

2 r (X) = p + 1, con p + 1 < n;


3 le εi sono variabili casuali, con
a) E (ε ) = 0;
i

b) Var (ε ) = σ 2 (omoschedasticità)
i

c) cor (ε , ε ) = 0 (assenza di correlazione).


i j

d) ε ∼ N (0, σ 2 )
i

In termini più compatti si può scrivere:

ε ∼ N (0, σ 2 I)

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 12 / 101


Date le ipotesi, si ha che:

E (y|X) = β X

dove E (y|X) è il valore atteso di Y condizionato dalle p variabili


esplicative.

βX rappresenta l' iperpiano di regressione (componente


deterministica del modello).
Per p = 1, si ha la retta di regressione β0 + β1 · xi 1 .

Inoltre, si ha anche che:

y|X ∼ N (βX, σ2 I)

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 13 / 101


Stima dei parametri del modello

Per ottenere una stima dei coecienti ( ignoti) βj occorre un campione di


n osservazioni per la variabile dipendente e per le p variabili esplicative:

Nel primo esempio, abbiamo n = 200 osservazioni sulle vendite e sugli


investimenti pubblicitari via TV e via giornali.

stime dei parametri βj , indicate con β̂j ,


L'obiettivo è quello di ottenere le
tali che l'iperpiano stimato passi il più vicino possibile ai dati osservati,
ossia:

yi ≈ β̂0 + β̂1 · xi 1 + . . . + β̂p · xip (i = 1, . . . , n),


|{z} | {z }
valore valore stimato
osservato

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 14 / 101


Esempio: p = 1 (retta di regressione)

valori osservati
retta stimata
y

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 15 / 101
Metodo dei minimi quadrati ordinari

Il criterio più utilizzato per ottenere queste stime è il metodo dei minimi
quadrati ordinari (Ordinary Least Squares , OLS), o, più semplicemente,
metodo dei minimi quadrati.

Sia ŷi = β̂0 + β̂1 · xi 1 + . . . + β̂p · xip il valore stimato della variabile Y
in corrispondenza delle i -me osservazioni delle variabili esplicative X .

Sia ei = yi − ŷi = yi − (β̂0 + β̂1 · xi 1 + . . . + β̂p · xip ) il residuo i -mo.

Sia
n
RSS = e12 + e22 + . . . + ei2 + . . . + e22 = ei2
X

i =1
la somma dei quadrati dei residui (residual sum of squares , RSS ).
Con il metodo dei minimi quadrati si determinano i valori di β̂j che
minimizzano RSS .

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 16 / 101


e = y − ŷ il vettore dei residui (dove ŷ = β̂X è il
In termini matriciali, sia
vettore dei valori di Y condizionatamente ad X).
stimati

Il problema è quello di minimizzare la seguente quantità:

RSS = e0 e = (y − β̂ X)0 (y − β̂ X)

Si dimostra che lo stimatore OLS del vettore β dei parametri, ottenuto


minimizzando RSS , è dato da:

−1
β̂ = X0 X X0 y
dove  
β̂0
β̂1 
β̂ =  . 
 
 .. 
β̂p

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 17 / 101
Esempio: Ecacia della pubblicità (ctd.)

Torniamo all'esempio sulla relazione tra vendite e investimenti in pubblicità


sulla TV e sulla radio.

Sostituiamo nel modello le seguenti stime, ottenute con il metodo dei


minimi quadrati:

β̂0 = 2.921, β̂1 = 0.046, β̂2 = 0.188

quindi
ŷi = 2.921 + 0.046 · TVi + 0.188 · Radioi

Domanda: come si interpretano le stime dei parametri?

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 18 / 101
Proprietà di β̂

1 β̂ = (X0 X)−1 X0 y è una funzione lineare di Y .


2 E' uno stimatore corretto di β, E (β̂) = β.
3 La matrice di varianze e covarianze di β̂ è Var (β̂) = σ 2 (X0 X)−1 .
4 Teorema di Gauss-Markov: nella classe degli stimatori lineari e
corretti,β̂ è lo stimatore più eciente (best linear unbiased
estimator, BLUE).
5 Data l'ipotesi di Normalità dei termini di errore, anche β̂ è distribuito
come un vettore di v.c. Normali:

β̂ ∼ N (β, σ 2 (X0 X)−1 )

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 19 / 101


Errore standard di β̂j
La deviazione standard di β̂j (stima OLS di βj ) è


q
Var (β̂j ) = σ cjj

dove cjj è l'elemento j -mo sulla diagonale di (X0 X)−1 .


Dal momento che σ non è noto, va stimato.

Lo stimatore corretto di σ è:
n
sP s
2
S= i =1 êi =
RSS
n−p−1 n−p−1

Sostituendo S nell'espressione della deviazione standard di β̂j si


ottiene l' errore standard (standard error ) della stima OLS di βj

SE (β̂j ) = S · cjj .

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 20 / 101
Esempio: Ecacia della pubblicità (ctd.)

Nella seguente tabella si riportano le stime dei minimi quadrati, insieme ai


rispettivi errori standard, per il modello sulle vendite:

Estimate Std. Error


(Intercept) 2.921 0.294
TV 0.046 0.001
Radio 0.188 0.008

Maggiore è l'errore standard di una stima (in relazione alla stima


stessa), minore è l'adabilità della stima (ci torneremo).

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 21 / 101
Verica della bontà del modello

Una volta stimati i parametri del modello, vogliamo sapere in che misura il
modello si adatta ai dati.

Nel seguito, considereremo tre misure di bontà di adattamento ( goodness


of t ) del modello ai dati:

1 il Residual Standard Error ;


2 il coeciente di determinazione, R 2 ;
il coeciente di determinazione corretto, R̄ .
3 2

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 22 / 101
Residual Standard Error

La stima corretta di σ è anche detta Residual Standard Error , e misura la


distanza media tra i valori stimati e quelli osservati.
Oss.: può essere interpretato come una stima di quanto i valori della
Y si discostano, in media, dal vero (ed ignoto) iperpiano di
regressione.

Più piccolo è RSE , migliore è l'adattamento del modello ai dati.


Nel nostro esempio il valore di RSE è pari a 1.68, ossia la distanza media
tra valori stimati e valori osservati per le vendite è pari a 1.68 (in termini di
numero di prodotti venduti).

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 23 / 101


Limiti di RSE

RSE è una misura assoluta della bontà di adattamento, che dipende


dall'ordine di grandezza della Y.
Per questo motivo è dicile stabilire se il valore osservato per RSE
indichi un adattamento accettabile ai dati.

Nel nostro caso RSE = 1.68 indica un adattamento buono o pessimo?

Per ottenere una misura relativa della bontà di adattamento facciamo


ricorso ad un'importante relazione:
la scomposizione della devianza totale.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 24 / 101


Scomposizione della devianza totale
Si dimostra che, date le stime OLS ŷi , vale la seguente relazione

Scomposizione della devianza totale


n n n
(yi − ȳ )2 = (ŷi − ȳ )2 + (yi − ŷi )2
X X X

|i =1 {z } |i =1 {z } |i =1 {z }
TSS ESS RSS

dove:

TSS : devianza totale della Y , data dalla somma dei quadrati degli
scarti dei valori osservati dalla media ( total sum of squares );
ESS : devianza spiegata, data dalla somma dei quadrati degli scarti
tra i valori stimati e la media ( explained sum of squares ) e rappresenta
spiegata dal modello.
la parte della devianza totale

Quindi RSS è il grado di incertezza residua una volta che il modello è


stato stimato.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 25 / 101


Il coeciente di determinazione R
2

Dalla precedente relazione deriviamo il coeciente di determinazione


R 2 , che è una misura relativa della bontà di adattamento del modello ai
dati:
ESS RSS
R2 = =1− 2
0 ≤ R ≤ 1
TSS TSS
R2 misura la quota di variabilità della Y che viene spiegata dal modello.
Più il valore di R2 è vicino ad 1, migliore è l'adattamento del
modello ai dati.

Valori vicini allo 0 indicano uno scarso adattamento ai dati, il che


potrebbe essere dovuto ad un elevato valore di σ2 , all'uso di un
modello non adatto (ad esempio, per l'ipotesi di linearità), o ad
entrambe le cose.
Nel nostro esempio, si ha che R 2 = 0.89719, il che signica che il modello
spiega circa il 90% della variabilità totale dei dati.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 26 / 101


Valori di R
2
Più la retta stimata passa vicino ai dati osservati, più elevato è R 2.
R2 = 0.35 R2 = 0.6

R2 = 0.79 R2 = 0.95

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 27 / 101
Limiti del coeciente di determinazione R
2

Se si aggiunge ad un modello una variabile esplicativa il valore di RSS


diminuisce, per cui R 2 aumenta, a prescindere che il contributo della
variabile aggiuntiva sia rilevante o meno.

Consideriamo due modelli A e B uno annidato (nested ) nell'altro:


il modello A contiene p variabili esplicative, il modello B contiene le
stesse p variabili esplicative, più altre p 0 (p 0 ≥ 1),
Si dimostra che RB2 ≥ RA2 , ma ciò non signica necessariamente che il
secondo modello sia migliore del primo, in termini di adattamento ai
dati.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 28 / 101
Il coeciente di determinazione corretto R̄
2

modello migliore (in termini di bontà di


Per decidere qual è il
adattamento ai dati) tra due modelli a confronto, si usa il coeciente di
determinazione corretto R̄ 2
n−1
R̄ 2 = 1 − (1 − R 2 )
n−p−1
che aumenta solo se il contributo delle variabili aggiuntive è sostanziale.
Al crescere di p termine di penalizzazione
il
n −1 aumenta,
n−p −1
mentre 1 − R
2 diminuisce (a causa dell'aumento di R 2 ).
R̄ 2 aumenta solo se la diminuzione di 1 − R 2 è superiore
all'incremento del termine di penalizzazione.

Se R̄B2 > R̄A2 , il modello B è migliore del modello A.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 29 / 101


Esempio

Sappiamo che per il nostro modello R 2 = 0.89719.


Il coeciente di determinazione corretto è:

199
R̄ 2 = 1 − · (1 − 0.89719) = 0.89615
197

Se aggiungiamo anche gli investimenti in pubblicità sui quotidiani


(Newspaper), il coeciente di determinazione è leggermente superiore
(R 2 = 0.89721).
In questo caso il coeciente di determinazione corretto è:

199
R̄ 2 = 1 − · (1 − 0.89721) = 0.89564
196

per cui aggiungere la nuova variabile al modello non migliora


l'adattamento ai dati.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 30 / 101


Verica della bontà delle stime

Quanto sono adabili le stime che abbiamo ottenuto?


Nell'esempio abbiamo visto che all'aumentare degli investimenti in
pubblicità televisiva la variazione attesa delle vendite è pari 46 unità di
prodotto vendute per ogni 1000 $ investiti, qualsiasi sia l'entità degli
investimenti in pubblicità radiofoniche.
Possiamo fare adamento su questa stima?

Tutte le variabili esplicative concorrono a spiegare la variabile Y , o solo un


sottoinsieme delle variabili Xj è rilevante?
Quali tra le variabili utilizzate nell'ultimo esempio contribuisce
eettivamente a spiegare le variazioni delle vendite?

Per rispondere a queste domande dobbiamo analizzare le stime ottenute in


termini inferenziali.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 31 / 101


Inferenza nel modello di regressione lineare
Data l'ipotesi di normalità delle stime OLS β̂j , se la deviazione standard
dei termini di errore, σ, fosse nota si avrebbe che:

β̂j − βj
√ ∼ N (0, 1)
σ · cjj

Dal momento che σ generalmente non è nota, la sostituiamo con il suo


stimatore corretto, S , per cui:
β̂j − βj
√ ∼ tn−p−1
S · cjj

Per n sucientemente grande si ha che


β̂j − βj
√ ∼ N (0, 1)
S · cjj

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 32 / 101


Verica d'ipotesi sui singoli parametri del modello

Supponiamo di voler sottoporre a verica l'ipotesi che il parametro βj sia


uguale ad un certo valore β̃j , contro l'ipotesi alternativa che sia diverso
(test bidirezionale).

La statistica test in questo caso è:

β̂j − β̃j

S · cjj

che, data l'ipotesi nulla, si distribuisce come una t -Student con n − p − 1


gradi di libertà.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 33 / 101
Esistenza della relazione tra Y e Xj

Nel modello di regressione lineare si è interessati a sottoporre a verica


ipotesi nulla H0 : βj
l' = 0, ipotesi alternativa, H1 : βj 6= 0.
contro l'

L'ipotesi nulla equivale a dire che la variabile Xj non inuenza la


variabile Y.

Se l'ipotesi nulla è vera, la statistica t è:

β̂j
t= √ ∼ tn−p−1
s · cjj

La statistica t è anche detta t-value .

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 34 / 101
Fissato un livello di signicatività α, si determina il valore soglia tα/2 ,
tale che:

P (|T | > tα/2 ) = P (T < −tα/2 ) + P (T > tα/2 ) = α

Si riuta l'ipotesi nulla se |t | > tα/2 .


In alternativa, si calcola il p-value :

P (|T | > t ) = 2 · [1 − F (t )]

dove F (t ) funzione di ripartizione della v.c. t -Student.


è la

Si riuta l'ipotesi nulla se il p -value è minore di α.

Se l'ipotesi nulla βj = 0 viene riutata, si dice che il parametro βj è


signicativamente diverso da 0, ovvero che la variabile è signicativa,
al livello α.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 35 / 101


Esempio: Ecacia della pubblicità (ctd.)

Consideriamo i risultati della regressione delle vendite sugli investimenti in


pubblicità sui TV e radio (nelle ultime due colonne ci sono i t -value e i
p -value delle stime, rispettivamente):

Estimate Std. Error t value Pr(>|t|)


(Intercept) 2.921 0.294 9.919 0
TV 0.046 0.001 32.909 0
Radio 0.188 0.008 23.382 0

Dal momento che n = 200, possiamo considerare la distribuzione Normale


per il calcolo del valore soglia.

Se ssiamo α = 0.01, il valore soglia è z0.005 = 2.576, per cui


entrambe le variabili sono signicative.
E' suciente osservare che il p -value è praticamente pari a 0, per
entrambe le stime dei coecienti delle due variabili.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 36 / 101


Esempio: Ecacia della pubblicità (ctd.)

Se aggiungiamo anche gli investimenti in pubblicità sui giornali abbiamo:

Estimate Std. Error t value Pr(>|t|)


(Intercept) 2.939 0.312 9.422 0.00
TV 0.046 0.001 32.809 0.00
Radio 0.189 0.009 21.893 0.00
Newspaper -0.001 0.006 -0.177 0.86

In questo caso, la variabile Newspaper non è signicativa al livello


α = 0.01, dal momento che il suo p -value è molto elevato (comunque
superiore al livello di signicatività ssato).

Oss.: i risultati per le altre due variabili restano praticamente


invariati dopo l'inserimento della nuova variabile.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 37 / 101
Verica d'ipotesi congiunta su più parametri

Per vericare l'ipotesi che più parametri del modello siano


congiuntamente pari a 0, si impiega il test F , basato sulla v.c. F -Fisher.
Consideriamo il seguente modello (che chiameremo completo):

yi = β0 + β1 xi 1 + . . . + βp xip + εi

Senza perdere in generalità, supponiamo di voler vericare che le


ultime p − h variabili del modello (con h ≤ p ) non siano utili per
spiegare la relazione lineare con la Y , per cui possono essere
eliminate dal modello.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 38 / 101
Formalmente, questo corrisponde a sottoporre a verica l' ipotesi nulla:
βh+1 = βh+2 . . . = βp = 0, per h<p

contro l' ipotesi alternativa che almeno uno dei parametri considerati
sia diverso da 0.

Se l'ipotesi nulla è vera, il vero modello è:

yi = β0 + β1 xi 1 + . . . + βh xih + εi

detto modello ridotto.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 39 / 101


Sia RSS la somma dei quadrati dei residui del modello completo e RSS0
quella del modello ridotto.
Dal momento che il modello completo ha un numero maggiore di
variabili esplicative rispetto al modello ridotto, si ha che RSS ≤ RSS0 .
Se la dierenza RSS0 − RSS è grande, l'ipotesi nulla va riutata
perché ilcontributo delle ultime p − h variabili alla capacità
esplicativa del modello non è trascurabile.
Viceversa se RSS0 − RSS è piccola: non riutiamo H0 , per cui le
ultime p − h variabili sono ridondanti.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 40 / 101


Per stabilire statisticamente se la dierenza RSS0 − RSS sia
sucientemente grande da riutare l'ipotesi nulla, si utilizza la statistica
test F:
(RSS0 − RSS )/(p − h)
F=
RSS /(n − p − 1)
che data l'ipotesi nulla si distribuisce come una v.c. F -Fisher, con p − h
e n−p−1 gradi di libertà ( Fp−h,n−p−1 ).
Stabilito il livello di signicatività α, si determina il valore soglia Fα ,
tale che P (F > Fα )=α.
Si riuta l'ipotesi nulla se F > Fα (test unidirezionale).
Anche in questo caso si può osservare il p -value per valutare se
riutare l'ipotesi nulla.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 41 / 101


Decisione basata sul p -value

Rifiuto H0 Non rifiuto H0

0 Fα F 0 F Fα

L'area in rosso rappresenta α, quella in blu il p -value.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 42 / 101
Verica della bontà del modello: F-statistic

Per h = 0, l'ipotesi nulla coincide con il caso in cui tutti i parametri del
modello, tranne l'intercetta, sono pari a 0.
β1 = β2 = . . . = βp ⇒ yi = β0 + εi

La statistica test (detta F-statistic ) è:

R 2 /p
F= ∼ Fp,n−p−1
(1 − R 2 )/(n − p − 1)

Il test diventa un giudizio complessivo sulla capacità esplicativa del


modello.

Nel seguito, quando parleremo di statistica F , o test F , faremo


sempre riferimento a quest'ultimo caso.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 43 / 101


Esempio: Ecacia della pubblicità (ctd.)
Tornando al modello in cui si mettono in relazione le vendite con gli
investimenti in pubblicità su TV e radio, la statistica F è:

0.89719/2
F= = 859.578
0.10281/197

e si distribuisce come una F2,197 .


Vogliamo vericare l'ipotesi nulla β1 = β2 = 0, per α = 0.01.
Dal momento che sulle tavole, i gradi di libertà per il denominatore
arrivano no a 120, approssimiamo n−p−1 ad innito (∞).

Il valore soglia è F0.01;2;197 ≈ 4.61 (il valore reale è 4.71) per cui
riutiamo l'ipotesi nulla.
Il p -value è praticamente pari a 0, precisamente

P (F > 859.578) = 4.8273619 × 10−98


per cui è minore di qualsiasi livello di signicatività comunemente
ssato.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 44 / 101
Esempio: Ecacia della pubblicità (ctd.)

Se aggiungiamo anche gli investimenti pubblicitari sui giornali avremo


(ricordando che R 2 = 0.89721):
0.89721/3
F= = 570.267
0.10279/196

che si distribuisce come una F3,196 .


Sempre per α = 0.01, il valore soglia è

F0.01;3;196 ≈ 3.78

per cui anche in questo caso riutiamo l'ipotesi nulla.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 45 / 101
Tutti i risultati discussi sinora sono riportati di seguito (è l'output di R per
la regressione lineare):

Call:
lm(formula = Sales ~ TV + Radio, data = dat)

Residuals:
Min 1Q Median 3Q Max
-8.7977 -0.8752 0.2422 1.1708 2.8328

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.92110 0.29449 9.919 <2e-16 ***
TV 0.04575 0.00139 32.909 <2e-16 ***
Radio 0.18799 0.00804 23.382 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.681 on 197 degrees of freedom


Multiple R-squared: 0.8972, Adjusted R-squared: 0.8962
F-statistic: 859.6 on 2 and 197 DF, p-value: < 2.2e-16

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 46 / 101


Riportiamo per completezza l'output del modello in cui consideriamo anche
gli investimenti in pubblicità sui giornali:

Call:
lm(formula = Sales ~ ., data = dat)

Residuals:
Min 1Q Median 3Q Max
-8.8277 -0.8908 0.2418 1.1893 2.8292

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.938889 0.311908 9.422 <2e-16 ***
TV 0.045765 0.001395 32.809 <2e-16 ***
Radio 0.188530 0.008611 21.893 <2e-16 ***
Newspaper -0.001037 0.005871 -0.177 0.86
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.686 on 196 degrees of freedom


Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 47 / 101
Selezione delle variabili

All models are wrong. Some models are useful

George E. P. Box

Uno dei problemi più comuni è quello della scelta di quali e quante
variabili esplicative inserire nel modello.

Teoricamente, avendo a disposizione p variabili esplicative dovremmo


confrontare 2
p modelli, ognuno contenente un sottoinsieme delle p
variabili, per scegliere il modello migliore in base ad uno o più criteri
(R̄ 2 , AIC, BIC, ecc,).

Nel nostro esempio, il dataset contiene 3 (potenziali) variabili


esplicative, per cui dovremmo confrontare 8 modelli (compreso il
modello con la sola intercetta).

Se invece avessimo a disposizione 10 (potenziali) variabili esplicative,


dovremmo confrontare 1024 modelli!!
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 48 / 101
Procedure per la selezione delle variabili esplicative
Esistono delle procedure (semi-)automatiche che rendono la selezione
delle variabili esplicative meno impegnativa.

1 Forward selection: a partire dal modello con la sola intercetta, si


inserisce una variabile alla volta in maniera tale da minimizzare la
somma dei quadrati dei residui ( RSS ). Il processo si arresta in base ad
una regola pressata (ad esempio, se la riduzione di RSS è inferiore ad
un dato valore).

2 Backward selection: a partire dal modello con tutte le p variabili


esplicative, si elimina una variabile per volta partendo da quella con il
p -value più elevato. Il processo si arresta quando i p -value di tutte le
variabili rimaste sono al di sotto di una certa soglia.

3 Approccio misto: si procede come per la forward selection, ma


durante il processo vengono eliminate le variabili i cui p -value
eccedono un pressato valore.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 49 / 101


Osservazione

Nei principali programmi per l'analisi dei dati ( R, Stata, SAS, ecc.)
esistono diverse funzioni che applicano uno dei tre metodi visti.

Uno dei problemi di questi approcci è che nessuno è ideale sotto ogni
aspetto.

Inoltre rappresentano una sorta di black box , in cui abbiamo poche


possibilità di controllare la procedura.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 50 / 101


Una possibile alternativa è quella di selezionare inizialmente una o più
variabili esplicative di interesse (ad esempio, per sottoporre a verica
un'ipotesi di lavoro, o una teoria).

Successivamente si possono inserire altre variabili (dette di controllo), per


vericare che l'eetto delle variabili iniziali non venga vanicato
dall'inserimento di queste ulteriori variabili.

Se, ad esempio, siamo interessati principalmente all'eetto sulle


vendite degli investimenti in pubblicità sui giornali potremmo
procedere come descritto nella slide seguente.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 51 / 101
Confronto tra modelli

Di seguito si riportano i tre modelli in cui inseriamo una variabile


esplicativa per volta:

Dependent variable:

Sales
(1) (2) (3)
∗∗∗ ∗∗∗
Newspaper 0.055 0.044 -0.001
(0.017) (0.010) (0.006)

∗∗∗ ∗∗∗
TV 0.047 0.046
(0.003) (0.001)

∗∗∗
Radio 0.189
(0.009)

∗∗∗ ∗∗∗ ∗∗∗


Constant 12.351 5.775 2.939
(0.621) (0.525) (0.312)

Observations 200 200 200


R
2 0.052 0.646 0.897
Adjusted R
2 0.047 0.642 0.896
Residual Std. Error 5.092 (df = 198) 3.121 (df = 197) 1.686 (df = 196)
∗∗∗ ∗∗∗ ∗∗∗
F Statistic 10.887 (df = 1; 198) 179.619 (df = 2; 197) 570.271 (df = 3; 196)
∗ ∗∗ ∗∗∗
Note: p<0.1; p<0.05; p<0.01

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 52 / 101


Come mai quando aggiungiamo gli investimenti pubblicitari sulle radio
l'eetto delle pubblicità sui giornali sparisce?

Un indizio lo abbiamo dalla correlazione tra le variabili:

TV Radio Newspaper Sales


TV 1.000 0.055 0.057 0.782
Radio 0.055 1.000 0.354 0.576
Newspaper 0.057 0.354 1.000 0.228
Sales 0.782 0.576 0.228 1.000

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 53 / 101
Come si vede, gli investimenti pubblicitari sulle radio sono positivamente
correlati con quelli sui giornali.
Inoltre la correlazione tra vendite e investimenti in annunci radiofonici
è più elevata di quella tra vendite e investimenti in pubblicità sui
giornali.

In altre parole, nelle città dove si investe molto in pubblicità sulle radio
le vendite sono più elevate, ma anche gli investimenti pubblicitari sui
giornali sono elevati.

Se non teniamo conto degli investimenti sulle radio, la variabile Newspaper


ingloba anche l'eetto della variabile Radio.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 54 / 101


Analisi dei residui

L'analisi dei residui ei = yi − ŷi permette di sottoporre a verica le


principaliipotesi fatte per la stima del modello:
linearità della relazione;
1

omoschedasticità dei residui (varianza costante);


2

Normalità dei residui;


3

presenza di dati anomali.


4

Tipicamente l'analisi dei residui viene eettuata con test specici, ma


anche con una semplice analisi graca.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 55 / 101
Analisi dei residui
Modello:
Sales = β0 + β1 · TV + β2 · Radio + ε
Residuals vs Fitted Normal Q−Q
2 4

Standardized residuals

2
0
Residuals

−2

−2
179 179
6
−6

−4
131
−10

131

5 10 15 20 25 −3 −2 −1 0 1 2 3

Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage


Standardized residuals

131
Standardized residuals

2
2.0

6
179
0
−2
1.0

36
6
−4

Cook's distance 131


0.0

−6

5 10 15 20 25 0.000 0.010 0.020 0.030

R. Massari (Prof. P. Fitted values


D'Urso) Il modello di regressione lineare Leverage © 2016 56 / 101
Descrizione dei graci e dei risultati

1 Residuals vs Fitted : confronto tra valori stimati e residui.


Se la curva rossa che interpola i dati ha un andamento
approssimativamente lineare (e parallelo all'asse delle ascisse),
ipotesi di linearità non è violata.
l'
Inoltre, se i punti al di sopra e al di sotto della curva si dispongono in
maniera casuale (senza nessun pattern evidente) anche l' ipotesi di
omoschedasticità non è violata.
2 Normal Q-Q : confronto tra percentili teorici della distribuzione
Normale standardizzata e i percentili dei residui standardizzati.
L' ipotesi di Normalità dei residui non è violata se i punti si
dispongono approssimativamente lungo la diagonale del graco.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 57 / 101
Descrizione dei graci e dei risultati/2

3 Scale-Location: simile al primo graco, ma in questo caso si considera


la radice quadrata dei residui standardizzati.
L'interpretazione è simile a quella del primo graco.

4 Residuals vs Leverage : confronto tra il leverage di ciascuna


osservazione e i residui standardizzati.
L'indice di leverage considerato è la distanza di Cook che indica
l'inuenza della singola osservazione sulla stima del modello. Più è
elevato questo valore, maggiore è la possibilità che il dato sia
anomalo.
Accanto ai dati potenzialmente anomali viene indicata l'etichetta
dell'unità.
Se alcune unità hanno valori dell'indice vicini o superiori a 0.5, viene
mostrata una curva tratteggiata che indica tale distanza.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 58 / 101


Commento generale

Per l'ipotesi di linearità servono ulteriori approfondimenti;

i residui sembrano mostrare un andamento ad U, non compatibile con


le ipotesi del modello;

la distribuzione dei residui non sembra approssimare molto bene la


distribuzione Normale, specialmente per i valori nelle code;

si osserva la presenza di alcuni dati anomali.

Se i risultati non sono soddisfacenti, è opportuno aggiungere altre variabili


e/o trasformarne alcune.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 59 / 101
Sommario

1 Il modello di regressione lineare


Stima dei parametri del modello
Bontà di adattamento del modello ai dati
Inferenza nel modello di regressione lineare
Selezione delle variabili
Analisi dei residui

2 Esempio: rendimento scolastico e condizione economica

3 Esercizi

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 60 / 101
Esempio (da Stock, Watson, 2007)

Consideriamo 420 distretti scolastici in California, sui quali sono state


osservate, tra le altre le seguenti variabili:

stratio: numero di studenti per insegnante (rapporto


studenti-insegnanti, proxy della dimensione delle classi);

english: % di studenti che devono seguire un corso di Inglese


(studenti non madrelingua);

score: punteggio medio degli studenti (rendimento medio);


lunch: % di studenti che hanno diritto alla mensa pubblica;
calworks: % di studenti che hanno diritto ad assistenza economica

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 61 / 101
Alcune statistiche sui dati

Statistic N Mean St. Dev. Min Max

stratio 420 19.640 1.892 14.000 25.800


score 420 654.157 19.053 605.550 706.750
english 420 15.768 18.286 0.000 85.540
lunch 420 44.705 27.123 0.000 100.000
calworks 420 13.246 11.455 0.000 78.994

Matrice di correlazione
stratio score english lunch calworks
stratio 1.000 -0.226 0.188 0.135 0.018
score -0.226 1.000 -0.644 -0.869 -0.627
english 0.188 -0.644 1.000 0.653 0.320
lunch 0.135 -0.869 0.653 1.000 0.739
calworks 0.018 -0.627 0.320 0.739 1.000

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 62 / 101


Relazione tra rendimento degli studenti e rapporto
studenti-insegnanti
Siamo interessati in particolare alla relazione tra rendimento degli
studenti e il rapporto studenti-insegnanti (legato alla dimensione delle
classi).
Studenti in classi meno numerose rendono di più?

690
score

660

630

14 16 18 20 22 24 26
stratio

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 63 / 101


Modello (1)

Consideriamo il modello di regressione lineare semplice in cui mettiamo in


relazione il punteggio medio degli studenti nei distretti con il rapporto
studenti-insegnanti.

Estimate Std. Error t value Pr(>|t|)


(Intercept) 698.9329 9.4675 73.8245 0
stratio -2.2798 0.4798 -4.7513 0

Per ogni punto percentuale in meno del rapporto studenti-insegnanti, il


punteggio medio nei distretti aumenta di 2.3 punti, circa.

Poiché il p -value è praticamente pari a 0, la relazione è signicativa anche


per valori di α molto piccoli (ad esempio α = 0.001).

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 64 / 101


Il coeciente di determinazione è pari a 0.0512, per cui il coeciente
di determinazione corretto è 0.049 (controllare per esercizio).
La statistica F, data l'ipotesi nulla β1 = 0, si distribuisce come una
F -Fisher con 1 e 418 gradi di libertà.
Il valore della statistica è F = 22.5751 (controllare per esercizio).
Il valore critico per α = 0.05, approssimando i gradi di libertà al
denominatore ad innito, è F0.05,1,418 ≈ 3.84, per cui possiamo
riutare l'ipotesi nulla.
N.B.: osserviamo che in questo caso l'ipotesi nulla per il test su β1 e quella
per il test F coincidono.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 65 / 101


Modello (2)
La relazione negativa tra rendimento e dimensione delle classi potrebbe
essere dovuta al fatto che nelle classi più grandi c'è una maggiore
percentuale di studenti non madrelingua.

Aggiungiamo la variabile di controllo english.


Estimate Std. Error t value Pr(>|t|)
(Intercept) 686.0322 7.4113 92.5656 0.000
stratio -1.1013 0.3803 -2.8960 0.004
english -0.6498 0.0393 -16.5159 0.000

Confrontando questo modello con il precedente, si osserva che la variabile


stratio è sempre signicativa, e con lo stesso segno, ma il suo eetto si
è dimezzato.
In questo caso l'eetto del rapporto studenti-insegnanti è valutato a parità
di % di non madrelingua, mentre prima non si teneva conto di questa
variabile.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 66 / 101


Modello (2): Domande

Sapendo che R 2 = 0.4264:


1 in termini di bontà di adattamento, questo modello è migliore del
precedente?

2 Qual è il valore della statistica F?


3 Per α = 0.05, possiamo riutare l'ipotesi nulla che β1 = β 2 = 0?

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 67 / 101


Modello (2): Risposte

1 Il coeciente di determinazione corretto è R̄ 2 = 0.4237, per cui


questo modello è migliore del primo.

2 F = 155.0137.
3 Il valore critico è F0.05,2,417 ≈ 3, per cui riutiamo l'ipotesi nulla.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 68 / 101


Confronto tra i modelli (1) e (2)

Dependent variable:

score
(1) (2)
∗∗∗ ∗∗∗
stratio -2.2798 -1.1013
(0.4798) (0.3803)

∗∗∗
english -0.6498
(0.0393)

∗∗∗ ∗∗∗
Constant 698.9329 686.0322
(9.4675) (7.4113)

Observations 420 420


R
2 0.0512 0.4264
Adjusted R
2 0.0490 0.4237
Residual Std. Error 18.5810 (df = 418) 14.4645 (df = 417)
∗∗∗ ∗∗∗
F Statistic 22.5751 (df = 1; 418) 155.0137 (df = 2; 417)
∗ ∗∗ ∗∗∗
Note: p<0.1; p<0.05; p<0.01

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 69 / 101
Modello (3a)

Aggiungiamo un'ulteriore variabile, lunch.


Estimate Std. Error t value Pr(>|t|)
(Intercept) 700.1500 4.6857 149.4231 0e+00
stratio -0.9983 0.2388 -4.1813 0e+00
english -0.1216 0.0323 -3.7619 2e-04
lunch -0.5473 0.0216 -25.3414 0e+00

Domande:
1 Confrontare il modello con i precedenti.

2 Quali variabili sono signicative per α = 0.05?


3 Sapendo che R
2 = 0.7745:
a) Questo modello è migliore degli altri in termini di bontà di adattamento?
b) L'ipotesi nulla che tutti i coecienti (tranne l'intercetta) sono uguali a 0
può essere riutata, sempre per α = 0.05?

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 70 / 101


Modello (3b)
Sostituiamo la variabile lunch con calworks:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 697.9987 6.0242 115.8665 0
stratio -1.3080 0.3067 -4.2646 0
english -0.4876 0.0335 -14.5640 0
calworks -0.7900 0.0525 -15.0449 0

Domande:
1 Confrontare il modello con i precedenti.

2 Quali variabili sono signicative per α = 0.1?


3 Sapendo che R
2 = 0.6285:
a) Questo modello è migliore di tutti gli altri in termini di bontà di
adattamento?
b) L'ipotesi nulla che tutti i coecienti (tranne l'intercetta) sono uguali a 0
può essere riutata, sempre per α = 0.1?

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 71 / 101


Modello (3c)
Sostituiamo la variabile lunch con calworks:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 700.3918 4.6980 149.0840 0.0000
stratio -1.0144 0.2397 -4.2311 0.0000
english -0.1298 0.0340 -3.8186 0.0002
lunch -0.5286 0.0322 -16.4218 0.0000
calworks -0.0479 0.0610 -0.7849 0.4330

Domande:
1 Confrontare il modello con i precedenti.

2 Quali variabili sono signicative per α = 0.01?


3 Sapendo che R
2 = 0.7749:
a) Questo modello è migliore di tutti gli altri in termini di bontà di
adattamento?
b) L'ipotesi nulla che tutti i coecienti (tranne l'intercetta) sono uguali a 0
può essere riutata, sempre per α = 0.01?

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 72 / 101


Confronto tra gli ultimi 3 modelli

Dependent variable:

score
(3a) (3b) (3c)
(1) (2) (3)
∗∗∗ ∗∗∗ ∗∗∗
stratio -0.9983 -1.3080 -1.0144
(0.2388) (0.3067) (0.2397)

∗∗∗ ∗∗∗ ∗∗∗


english -0.1216 -0.4876 -0.1298
(0.0323) (0.0335) (0.0340)

∗∗∗ ∗∗∗
lunch -0.5473 -0.5286
(0.0216) (0.0322)

∗∗∗
calworks -0.7900 -0.0479
(0.0525) (0.0610)

∗∗∗ ∗∗∗ ∗∗∗


Constant 700.1500 697.9987 700.3918
(4.6857) (6.0242) (4.6980)

Observations 420 420 420


R
2 0.7745 0.6285 0.7749
Adjusted R
2 0.7729 0.6259 0.7727
Residual Std. Error 9.0801 (df = 416) 11.6543 (df = 416) 9.0843 (df = 415)
∗∗∗ ∗∗∗ ∗∗∗
F Statistic 476.3063 (df = 3; 416) 234.6381 (df = 3; 416) 357.0540 (df = 4; 415)
∗ ∗∗ ∗∗∗
Note: p<0.1; p<0.05; p<0.01

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 73 / 101


Analisi dei residui. Modello (3c)
Residuals vs Fitted Normal Q−Q

4
Standardized residuals
367 367
20

2
Residuals

0
−40 −20

−2
77
180 77
180

620 630 640 650 660 670 680 −3 −2 −1 0 1 2 3

Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage


Standardized residuals

180

4
367

Standardized residuals
77 0.5
1.5

2
1.0

0
10
0.5

−2
6
Cook's
180 distance
−4
0.0

0.5

620 630 640 650 660 670 680 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14

Fitted values Leverage

Commentare i graci dell'analisi dei residui dell'ultimo modello.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 74 / 101


Valori critici per il test F

Modello (3a): F3,416,0.05 ≈ 2.6.


Modello (3b): F3,416,0.1 ≈ 2.08.
Modello (3c): F4,415,0.01 ≈ 3.32.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 75 / 101
Sommario

1 Il modello di regressione lineare


Stima dei parametri del modello
Bontà di adattamento del modello ai dati
Inferenza nel modello di regressione lineare
Selezione delle variabili
Analisi dei residui

2 Esempio: rendimento scolastico e condizione economica

3 Esercizi

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 76 / 101
Esercizio 1

Date le seguenti variabili, rilevate su 32 siti di e-commerce:

overall: giudizio medio generale;


time: tempo medio di permanenza sul sito (in minuti);

value: spesa media (in euro);


crm: giudizio medio sulla cura del cliente;
design: giudizio medio sul design del sito;
easy: giudizio medio sulla facilità d'uso.
Considerare i tre modelli proposti nelle slide seguenti in cui mettiamo in
relazione la spesa media con alcune variabili esplicative.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 77 / 101
Esercizio 1: Modello (1)

Estimate Std. Error t value Pr(>|t|)


(Intercept) 5.4879 1.4070 3.9004 0.0005
time 0.3929 0.1738 2.2610 0.0314
overall 0.4746 0.1485 3.1969 0.0033

R 2 = 0.2968

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 78 / 101
Esercizio 1: Modello (2)

Estimate Std. Error t value Pr(>|t|)


(Intercept) 4.7069 1.6807 2.8006 0.0091
time 0.3648 0.1776 2.0539 0.0494
overall 0.4912 0.1504 3.2664 0.0029
crm 0.1413 0.1646 0.8587 0.3978

R 2 = 0.3149

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 79 / 101
Esercizio 1: Modello (3)

Estimate Std. Error t value Pr(>|t|)


(Intercept) 1.4763 1.8272 0.8079 0.4265
overall 0.3905 0.1396 2.7967 0.0096
time 0.3544 0.1596 2.2201 0.0353
crm 0.2283 0.1511 1.5110 0.1429
design 0.2642 0.1425 1.8538 0.0751
easy 0.4336 0.1436 3.0198 0.0056

R 2 = 0.5021

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 80 / 101
Esercizio 1: Analisi dei residui. Modello (3)
Residuals vs Fitted Normal Q−Q

Standardized residuals
4

22 22

2
2
Residuals

1
0

0
−2

−1
25
−4

17 25

−2
17

6 8 10 12 14 −2 −1 0 1 2

Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage


1.5
Standardized residuals

22

Standardized residuals
17 0.5
25 22

2
5 13
1.0

1
0
0.5

−2 −1
Cook's distance
0.0

0.5

6 8 10 12 14 0.00 0.05 0.10 0.15 0.20 0.25 0.30

Fitted values Leverage

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 81 / 101


Esercizio 1: Domande

1 Quali sono le variabili esplicative nei tre modelli?

2 Vericare la signicatività di tutti i parametri singolarmente per


α = 0.1, α = 0.05 e α = 0.01;
3 interpretare i parametri di tutti i modelli;

4 indicare quale modello è il migliore, in termini di bontà di


adattamento;
5 per ogni modello, vericare la signicatività di tutti i parametri
congiuntamente per α = 0.01;
6 commentare i graci dell'analisi dei residui dell'ultimo modello.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 82 / 101


Valori critici per il test F (Esercizio 1)

Modello (1): F2,29,0.01 = 5.42.


Modello (2): F3,28,0.01 = 4.57.
Modello (3): F5,26,0.01 = 3.82.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 83 / 101
Dependent variable:

value
(1) (2) (3)
∗∗ ∗∗ ∗∗
time 0.3929 0.3648 0.3544
(0.1738) (0.1776) (0.1596)

∗∗∗ ∗∗∗ ∗∗∗


overall 0.4746 0.4912 0.3905
(0.1485) (0.1504) (0.1396)

crm 0.1413 0.2283


(0.1646) (0.1511)


design 0.2642
(0.1425)

∗∗∗
easy 0.4336
(0.1436)

∗∗∗ ∗∗∗
Constant 5.4879 4.7069 1.4763
(1.4070) (1.6807) (1.8272)

Observations 32 32 32
R
2 0.2968 0.3149 0.5021
Adjusted R
2 0.2483 0.2415 0.4063
Residual Std. Error 2.3882 (df = 29) 2.3991 (df = 28) 2.1225 (df = 26)
∗∗∗ ∗∗ ∗∗∗
F Statistic 6.1211 (df = 2; 29) 4.2896 (df = 3; 28) 5.2429 (df = 5; 26)
∗ ∗∗ ∗∗∗
Note: p<0.1; p<0.05; p<0.01

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 84 / 101


Esercizio 2

Su un campione di 350 clienti di una nota marca di prodotti per l'infanzia


sono state rilevate le seguenti variabili:

expend: spesa media annuale (x 100 euro);


age: età;
education: anni di studio;
income: reddito;
child: numero di gli;
prom: numero di iniziative promozionali alle quali il cliente ha aderito;

time: da quanti mesi è cliente?


Considerare i tre modelli proposti nelle slide seguenti in cui mettiamo in
relazione la spesa media con alcune variabili esplicative.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 85 / 101


Esercizio 2: Modello (1)

Estimate Std. Error t value Pr(>|t|)


(Intercept) 6.5622 1.2830 5.1147 0.0000
age -0.1796 0.0181 -9.9447 0.0000
education -0.1533 0.1155 -1.3275 0.1852
income 0.4948 0.0972 5.0926 0.0000

R 2 = 0.2739

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 86 / 101
Esercizio 2: Modello (2)

Estimate Std. Error t value Pr(>|t|)


(Intercept) 4.5983 1.1321 4.0617 0.0001
age -0.2018 0.0159 -12.7248 0.0000
education -0.1976 0.1006 -1.9647 0.0502
income 0.4555 0.0847 5.3807 0.0000
child 1.3421 0.1270 10.5682 0.0000

R 2 = 0.4515

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 87 / 101
Esercizio 2: Modello (3)

Estimate Std. Error t value Pr(>|t|)


(Intercept) 4.7621 1.4885 3.1992 0.0015
age -0.2021 0.0159 -12.6995 0.0000
education -0.1991 0.1010 -1.9716 0.0495
income 0.4563 0.0849 5.3750 0.0000
child 1.3444 0.1276 10.5403 0.0000
prom -0.0915 0.1888 -0.4845 0.6283
time -0.0011 0.0470 -0.0244 0.9806

R 2 = 0.4518

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 88 / 101
Esercizio 2: Analisi dei residui. Modello (3)
Residuals vs Fitted Normal Q−Q

3
Standardized residuals
10

2
5
Residuals

1
0

0
−10

−2
52
28306
2852
306

−5 0 5 −3 −2 −1 0 1 2 3

Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage

3
Standardized residuals

28306

Standardized residuals
52
1.5

262

2
1
1.0

−1
0.5

23
172
Cook's distance
−3
0.0

−5 0 5 0.00 0.01 0.02 0.03 0.04 0.05 0.06

Fitted values Leverage

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 89 / 101


Esercizio 2: Domande

1 Quali sono le variabili esplicative nei tre modelli?

2 Vericare la signicatività di tutti i parametri singolarmente per


α = 0.1, α = 0.05 e α = 0.01;
3 interpretare i parametri di tutti i modelli;

4 indicare quale modello è il migliore, in termini di bontà di


adattamento;
5 per ogni modello, vericare la signicatività di tutti i parametri
congiuntamente per α = 0.05;
6 commentare i graci dell'analisi dei residui dell'ultimo modello.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 90 / 101


Valori critici per il test F (Esercizio 2)

Modello (1): F3,346,0.05 ≈ 2.6.


Modello (2): F4,345,0.05 ≈ 2.37.
Modello (3): F6,343,0.05 ≈ 2.1.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 91 / 101
Dependent variable:

expend
(1) (2) (3)
∗∗∗ ∗∗∗ ∗∗∗
age -0.1796 -0.2018 -0.2021
(0.0181) (0.0159) (0.0159)

∗ ∗∗
education -0.1533 -0.1976 -0.1991
(0.1155) (0.1006) (0.1010)

∗∗∗ ∗∗∗ ∗∗∗


income 0.4948 0.4555 0.4563
(0.0972) (0.0847) (0.0849)

∗∗∗ ∗∗∗
child 1.3421 1.3444
(0.1270) (0.1276)

prom -0.0915
(0.1888)

time -0.0011
(0.0470)

∗∗∗ ∗∗∗ ∗∗∗


Constant 6.5622 4.5983 4.7621
(1.2830) (1.1321) (1.4885)

Observations 350 350 350


R
2 0.2739 0.4515 0.4518
Adjusted R
2 0.2676 0.4451 0.4423
Residual Std. Error 4.6223 (df = 346) 4.0234 (df = 345) 4.0337 (df = 343)
∗∗∗ ∗∗∗ ∗∗∗
F Statistic 43.5036 (df = 3; 346) 70.9868 (df = 4; 345) 47.1220 (df = 6; 343)
∗ ∗∗ ∗∗∗
Note: p<0.1; p<0.05; p<0.01

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 92 / 101


Esercizio 3

Su un campione di 27 stati sono state rilevate le seguenti variabili:

pop15: % di popolazione sotto i 15 anni;


pop75: % di popolazione sopra i 75 anni;
sr: risparmio aggregato;
dpi: PIL pro capite;
ddpi: tasso di crescita del PIL (in %).
Considerare i tre modelli proposti nelle slide seguenti in cui mettiamo in
relazione il risparmio aggregato con alcune variabili esplicative.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 93 / 101


Esercizio 3: Modello (1)

Estimate Std. Error t value Pr(>|t|)


(Intercept) 37.8913 9.5563 3.9651 0.0006
pop15 -0.6513 0.1934 -3.3676 0.0026
pop75 -2.7638 1.3343 -2.0714 0.0492

R 2 = 0.3968

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 94 / 101
Esercizio 3: Modello (2)

Estimate Std. Error t value Pr(>|t|)


(Intercept) 40.3690 9.6795 4.1706 0.0004
pop15 -0.7117 0.1978 -3.5973 0.0015
pop75 -2.0900 1.4328 -1.4587 0.1582
dpi -0.0018 0.0015 -1.2157 0.2364

R 2 = 0.4332

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 95 / 101
Esercizio 3: Modello (3)

Estimate Std. Error t value Pr(>|t|)


(Intercept) 35.0522 10.4332 3.3597 0.0028
pop15 -0.6249 0.2069 -3.0203 0.0063
pop75 -1.9217 1.4204 -1.3530 0.1898
dpi -0.0013 0.0015 -0.8244 0.4186
ddpi 0.4239 0.3342 1.2683 0.2180

R 2 = 0.4718

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 96 / 101
Esercizio 3: Analisi dei residui. Modello (3)
Residuals vs Fitted Normal Q−Q

Standardized residuals
Peru Peru

2
Venezuela Venezuela
5
Residuals

1
0

0
−1
−5

Chile

−2
Chile

4 6 8 10 12 14 16 −2 −1 0 1 2

Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage


1.5
Standardized residuals

Peru

Standardized residuals
Chile Peru 1

2
Venezuela
Japan 0.5
Ireland
1.0

1
0
0.5

−2 −1
0.5
Cook's distance
0.0

4 6 8 10 12 14 16 0.0 0.1 0.2 0.3 0.4 0.5

Fitted values Leverage

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 97 / 101


Esercizio 3: Domande

1 Quali sono le variabili esplicative nei tre modelli?

2 Vericare la signicatività di tutti i parametri singolarmente per


α = 0.1, α = 0.05 e α = 0.01;
3 interpretare i parametri di tutti i modelli;

4 indicare quale modello è il migliore, in termini di bontà di


adattamento;
5 per ogni modello, vericare la signicatività di tutti i parametri
congiuntamente per α = 0.1;
6 commentare i graci dell'analisi dei residui dell'ultimo modello.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 98 / 101


Valori critici per il test F (Esercizio 3)

Modello (1): F2,24,0.1 = 2.54.


Modello (2): F3,23,0.1 = 2.34.
Modello (3): F4,22,0.1 = 2.22.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 99 / 101
Dependent variable:

sr
(1) (2) (3)
∗∗∗ ∗∗∗ ∗∗∗
pop15 -0.6513 -0.7117 -0.6249
(0.1934) (0.1978) (0.2069)

∗∗
pop75 -2.7638 -2.0900 -1.9217
(1.3343) (1.4328) (1.4204)

dpi -0.0018 -0.0013


(0.0015) (0.0015)

ddpi 0.4239
(0.3342)

∗∗∗ ∗∗∗ ∗∗∗


Constant 37.8913 40.3690 35.0522
(9.5563) (9.6795) (10.4332)

Observations 27 27 27
R
2 0.3968 0.4332 0.4718
Adjusted R
2 0.3465 0.3593 0.3758
Residual Std. Error 3.9261 (df = 24) 3.8876 (df = 23) 3.8371 (df = 22)
∗∗∗ ∗∗∗ ∗∗∗
F Statistic 7.8931 (df = 2; 24) 5.8595 (df = 3; 23) 4.9130 (df = 4; 22)
∗ ∗∗ ∗∗∗
Note: p<0.1; p<0.05; p<0.01

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare © 2016 100 / 101


Per saperne di più

S. Borra, A. Di Ciaccio Statistica. Metodologia per le scienze


economiche e sociali , McGraw-Hill
Capp. 16, 17 per il modello di regressione lineare semplice.
Cap. 19 per il modello di regressione lineare multipla disponibile al link:
http://www.ateneonline.it/borra2e/studenti/capitolo_19.pdf.

G. Cicchitelli Statistica. Principi e metodi, Pearson


Cap. 21.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©


2016 101 / 101