Sei sulla pagina 1di 33

Capitolo 6 Il modello di regressione lineare semplice

6.1 Introduzione
La metodologia della regressione lineare è stata trattata, secondo l approccio della stati-
stica descrittiva, nel capitolo VIII del volume di Zani (2002), pp. 183-224. Riprendiamo qui bre-
vemente i concetti già illustrati in quella sede.
Date due variabili quantitative, X e Y, l obiettivo di un analisi di regressione consiste nel-
lo studio della relazione lineare che lega tali fenomeni, con particolare riferimento alla dipen-
denza di uno dall altro. Per convenzione, indichiamo con Y la variabile dipendente e con X quella
esplicativa. Alcuni problemi di rilievo in ambito economico ed aziendale sono sintetizzati nel
Prospetto 6.1.

Prospetto 6.1. Esempi di problemi in cui si applica la metodologia della regressione.

PROBLEMA 10. Un azienda vuole lanciare sul mercato un nuovo prodotto di largo consumo. Allo
scopo di calibrarne opportunamente il prezzo, conduce un esperimento ponendo in vendita il
prodotto a prezzi diversi in 12 supermercati di province differenti. In ciascun supermercato rileva
poi il numero di confezioni vendute nell arco di una settimana. Qual è la relazione che lega il
prezzo di vendita al numero di confezioni vendute? Ovviamente, l azienda ritiene che le varia-
zioni nelle vendite (variabile dipendente) siano spiegabili, almeno in parte, dalle variazioni nei
prezzi stabiliti (variabile esplicativa).
PROBLEMA 11. Al fine di conoscere meglio i comportamenti di acquisto dei propri clienti, una
grande catena di supermercati vuole sapere quale relazione esiste tra l impiego della carta fedeltà
e la tipologia di spesa effettuata. Una simile informazione può infatti consentire di migliorare la
politica commerciale della catena ed aumentare la fidelizzazione della clientela. In un campione
casuale di 90 consumatori, titolari della carta fedeltà, si è pertanto rilevato il numero di articoli
acquistati in una settimana (variabile esplicativa) e l incidenza percentuale degli sconti ottenuti
tramite la carta fedeltà nel medesimo periodo (variabile dipendente).
PROBLEMA 12. Si è rilevato il tasso di cambio yen/dollaro nel corso di alcuni anni. Si vuole veri-
ficare se esiste un trend lineare nell andamento osservato, cioè se il tasso di cambio (variabile
dipendente) può essere rappresentato in funzione del tempo (variabile esplicativa).

Date n osservazioni, il primo passo per valutare l esistenza d una relazione lineare tra le
variabili in esame consiste nel tracciare il corrispondente diagramma di dispersione (v. Zani,
2002, pp. 163-165 e pp. 185-187), che fornisce un indicazione visiva di immediata interpretazio-
ne.
L informazione quantitativa circa l entità di tale relazione è invece fornita
dall adattamento della retta di regressione, che qui è rappresentata come:

yi b0 b1 x i (i = 1, , n)

117
Nella retta di regressione:
y i è il valore teorico (stimato) della variabile dipendente Y in corrispondenza d un valore
pari a x i della variabile esplicativa X;

b0 è l intercetta;

b1 è il coefficiente di regressione.
Si osservi che in questo testo i parametri della retta di regressione sono indicati con i sim-
boli b0 e b1 anziché a e b, come avviene invece in Zani (2002).

ESEMPIO. Prendiamo in esame il PROBLEMA 10 introdotto nel Prospetto 6.1. Sup-


poniamo che i dati a disposizione siano quelli riportati nella Tabella 6.1.

Tabella 6.1 Dati relativi alla relazione tra prezzo di vendita di un nuovo prodotto e numero
di confezioni vendute in supermercati di province differenti (v. PROBLEMA 10 del Prospetto
6.1).
Supermercato Prezzo (in euro) Numero di confezioni vendute
1 1,55 410
2 1,60 380
3 1,70 350
4 1,60 400
5 1,50 440
6 1,70 380
7 1,45 450
8 1,60 370
9 1,75 350
10 1,50 460
11 1,75 360
12 1,50 420

Assumiamo come variabile dipendente (Y) il numero di confezioni vendute e come variabile e-
splicativa (X) il prezzo unitario di vendita in euro fissato in ciascun supermercato. In questo
esempio abbiamo a disposizione n = 12 coppie di osservazioni. Applicando le formule della sta-
tistica descrittiva, fondate sul metodo dei minimi quadrati (v. Zani, 2002, p. 188 e pp. 192-193),
si ottiene
n n n
n xi y i xi yi
i 1 i 1 i 1 COV ( X , Y )
b1 n n
= 337,5
VAR ( X )
n x i2 ( xi ) 2
i 1 i 1

n n n n
n yi xi2 xi xi y i
i 1 i 1 i 1 i 1
b0 n n
y b1 x = 937,5.
2 2
n x i ( xi )
i 1 i 1

118
Nelle espressioni precedenti, COV(X, Y) rappresenta la covarianza tra le due variabili, VAR(X) è
la varianza della variabile esplicativa X, y e x sono, rispettivamente, la media della variabile
dipendente Y e quella della variabile esplicativa X.
L interpretazione dei parametri b0 e b1 è la seguente.

b0 = 937,5: il numero teorico di confezioni vendute in corrispondenza d un prezzo nullo


sarebbe pari a 937,5 unità. Ovviamente, non è possibile pensare da un punto di vista lo-
gico ad un prezzo di vendita uguale a 0, per cui in questo esempio il parametro b0 man-
tiene soltanto il significato geometrico di ordinata all origine;
b1 = 337,5: se il prezzo di vendita aumentasse di 1 euro, il numero di confezioni vendu-
te diminuirebbe in media di 337,5 unità.
Il corrispondente diagramma di dispersione, con la rappresentazione della retta di regressione, è
riportato nella Figura 6.1.

Figura 6.1 Diagramma di dispersione e retta di regressione relativi ai dati della Tabella 6.1.
500

480

460

440
N. confezioni vendute (Y)

420

400

380

360

340

320

300
1.4 1.45 1.5 1.55 1.6 1.65 1.7 1.75 1.8
Prezzo (X )

6.2 Introduzione di elementi aleatori


L impostazione della statistica descrittiva, brevemente richiamata nel paragrafo preceden-
te, tratta l adattamento d una retta di regressione come un problema di interpolazione lineare:
date n coppie di osservazioni ( x i , y i ), si determina la retta che più si avvicina all insieme di
punti corrispondenti a tali coppie. Nelle analisi reali, tuttavia, non ci si può aspettare che
l adattamento sia perfetto, cioè che tutti i valori teorici y i coincidano con le corrispondenti os-
servazioni y i . Si rilevano quindi gli n residui:

ei = y i yi (i = 1, , n)

119
In pratica si osserva inoltre che a valori identici della variabile esplicativa xi possono
corrispondere valori differenti della variabile dipendente y i . Questo fenomeno è particolarmente
evidente se si prendono in esame i dati riportati nella Figura 6.1: l azienda fissa il medesimo
prezzo in supermercati di province differenti (ad esempio, vi sono 3 supermercati con prezzo di
vendita uguale a 1,5, altri 3 supermercati con prezzo di vendita uguale a 1,6, etc.), ma i risulta-
ti conseguiti in termini di numero di confezioni vendute sono di volta in volta diversi.
La variabilità nelle vendite riscontrata a parità di prezzo fa ritenere che esistano altri fat-
tori non controllati che influiscono sul numero effettivo di confezioni vendute. Tali fattori intro-
ducono un elemento di aleatorietà che non rende prevedibile con certezza il valore assunto dalla
variabile dipendente, anche se si conosce il corrispondente valore della variabile esplicativa. La
variabile dipendente (nell esempio il numero di confezioni vendute) può quindi essere rappresen-
tata come una variabile aleatoria.

Si parla dunque di modello di regressione quando si interpreta ciascun valore osservato


y i della variabile dipendente come la realizzazione di una variabile aleatoria, indicata con la let-
tera maiuscola Yi . Similmente, anche ciascun residuo osservato ei è pensato come la realizza-
zione di una variabile aleatoria, indicata con E i :

y i è la realizzazione della variabile aleatoria Yi ;


ei è la realizzazione della variabile aleatoria E i .

Il modello di regressione lineare semplice fa riferimento alla situazione semplificata in


cui si dispone di un unica variabile esplicativa X. Il modello generale e maggiormente realistico
in cui si utilizzano più variabili esplicative è invece chiamato modello di regressione lineare
multipla . La sua trattazione esula tuttavia dagli obiettivi di questo testo elementare e può essere
studiata nei volumi richiamati nella Bibliografia.

In virtù di quanto detto, il modello di regressione lineare semplice è definito come segue.

Modello di regressione lineare semplice di Y in funzione di X


Yi 0 1 xi Ei (i = 1, , n)
dove:
0 è l intercetta

1 è il coefficiente di regressione
Ei è un termine aleatorio che rappresenta l incertezza nel modello

In un approccio di tipo modellistico, 0 e 1 sono due parametri incogniti che devono


essere stimati a partire dai dati, mentre b0 e b1 sono le corrispondenti stime campionarie (si ve-
da il successivo n. 6.3).
120
Come s è detto, nel modello di regressione Yi rappresenta una variabile aleatoria. Infatti,
prima di effettuare la rilevazione, ciascun valore Yi della variabile dipendente è ignoto, poiché
dipende dallo specifico valore che assumerà il termine aleatorio E i .
L introduzione dell aleatorietà in un modello di regressione può essere giustificata se-
condo differenti punti di vista.

1) Innanzitutto, è solitamente lecito aspettarsi che unità statistiche (quali individui o azien-
de) con caratteristiche analoghe si comportino in modo differente. Questo aspetto è già
stato illustrato con riferimento ai dati del PROBLEMA 10 del Prospetto 6.1 (v. Figura 6.1).
In tale esempio le motivazioni delle differenze nelle vendite riscontrabili a parità di prez-
zo sono di due tipi:
Il numero di confezioni vendute non dipende solo dal prezzo ma anche da altri fat-
tori economici, quali ad esempio il livello di ricchezza dei consumatori o la
quota di mercato dell azienda nelle diverse province. La relazione dovrebbe allora
essere estesa anche a tali ulteriori variabili esplicative, attraverso l impiego di un
modello di regressione lineare multipla.
Vi sono differenze residue nel numero di confezioni vendute (seppure di minore
entità) anche se si considerano province con caratteristiche simili sotto il profilo di
tutte le variabili economiche rilevanti. Tale variabilità è imputabile a quella miria-
de di elementi che possono incidere sui singoli comportamenti di acquisto, ma che
presi singolarmente sono di scarsa rilevanza e quindi di difficile identificazione e
misurazione. Si tratta pertanto di una fonte di variabilità di natura sperimentale,
che rende per un prezzo fissato il numero di confezioni vendute assimilabile
ad una variabile aleatoria.
2) In molte applicazioni di natura economica ed aziendale le n unità possono costituire un
campione casuale estratto da una popolazione più ampia. Ad esempio, ciò si verifica nel
PROBLEMA 11 del Prospetto 6.1. In tali situazioni, Yi è rappresentabile come una variabi-
le aleatoria per le stesse ragioni che hanno portato a definire le variabili aleatorie ele-
menti campionari nei precedenti capitolo di questo volume (si veda, ad esempio, il n.
3.2).
3) Un ulteriore fonte d incertezza è rappresentata dagli errori di misurazione. Così come
avviene nelle scienze sperimentali, infatti, anche molte grandezze d interesse economico
ed aziendale non sono misurabili con esattezza. Tali imprecisioni possono derivare sia
dalla difficoltà di definire con esattezza la variabile oggetto di studio (si pensi, ad esem-
pio, al caso del reddito), sia da errori involontari nella fase di rilevazione dei dati.
In tutti i casi, l incertezza presente nel modello è rappresentata attraverso l introduzione
del termine aleatorio E i .

6.2.1 Assunzioni del modello


Affinché il modello di regressione nella sua formulazione di base sia specificato cor-
rettamente, è necessario che siano soddisfatte alcune ipotesi, sintetizzate nel Prospetto 6.2.

L interpretazione della prima assunzione è del tutto immediata: essa afferma semplice-
mente che una funzione lineare è adeguata a rappresentare la relazione che lega Y a X.
121
Le ipotesi 2, 3 e 4 qualificano la variabile aleatoria E i come un termine di disturbo ca-
suale. Infatti, si assume che non vi siano effetti sistematici che possono distorcere la relazione
lineare (valore atteso nullo), che la variabilità degli errori non dipenda da altri fattori non con-
trollati dal ricercatore (varianza costante), che non ci sia una forma di dipendenza tra osservazio-
ni in unità statistiche differenti (assenza di correlazione).

Prospetto 6.2. Ipotesi del modello di regressione lineare semplice.

IPOTESI 1. Linearità della relazione: Yi 0 1 xi Ei

IPOTESI 2. Valore atteso nullo dei termini aleatori: E( E i ) = 0


2
IPOTESI 3. Varianza costante dei termini aleatori (omoschedasticità): VAR( E i ) =

IPOTESI 4. Assenza di correlazione tra i termini aleatori: COV( E i , E j ) = 0 se i j

IPOTESI 5. Variabile esplicativa non aleatoria.

La quinta assunzione definisce invece il differente ruolo delle due variabili dal punto di
vista dell esperimento statistico. Infatti, mentre la variabile dipendente Y è pensata come una va-
riabile aleatoria, la variabile esplicativa X è considerata fissa. Ciò è sicuramente vero nelle situa-
zioni in cui i valori x i sono scelti dal ricercatore. Ad esempio, nel PROBLEMA 10 del Prospetto
6.1 è l azienda che stabilisce a priori il prezzo di vendita del prodotto in ciascuna provincia e
quindi non c è alcun elemento di incertezza su x i .
Viceversa, se anche i valori della variabile esplicativa derivano da una procedura di rile-
vazione (come negli altri esempi del Prospetto 6.1), è molto probabile che essi siano affetti da er-
rori simili a quelli che influenzano Y. In questo caso, l analisi di regressione è tuttavia condotta
come se i valori di X fossero stati fissati a priori, in quanto il fine ultimo è solitamente lo studio
del comportamento di Y in corrispondenza degli specifici x i osservati. Il fatto che i valori x i sia-
no ritenuti fissi (e non realizzazioni di variabili aleatorie) costituisce la motivazione dell uso del-
la lettera minuscola nella loro rappresentazione all interno del modello di regressione lineare.

In ogni applicazione della regressione ad un problema concreto, occorre valutare


l adeguatezza delle assunzioni sottostanti. In particolare, le ipotesi introdotte sugli errori E i sono
abbastanza restrittive e possono non risultare verificate (in tutto o in parte) in numerose situazio-
ni reali. Ad esempio, l assenza di correlazione è spesso irragionevole quando Y è una serie stori-
ca, poiché i valori rilevati in tempi consecutivi tendono solitamente ad essere simili tra loro.
Se una o più delle ipotesi sintetizzate nel Prospetto 6.2 non sono soddisfatte è necessario
apportare sostanziali modifiche alle semplici tecniche descritte nel presente capitolo. Rimandia-
mo ai testi indicati nella Bibliografia per approfondimenti al riguardo.

6.2.2 Relazione tra modello e retta di regressione


Il concetto fondamentale alla base del modello di regressione è che ciascun valore osser-
vato y i della variabile dipendente è la realizzazione di una variabile aleatoria Yi . Un importante
conseguenza delle ipotesi riportate nel Prospetto 6.2 riguarda il valore atteso di Yi :

122
E (Yi ) 0 x
1 i (i = 1, , n).

Tale rappresentazione mostra che il valore atteso di ciascuna osservazione della variabile
dipendente Y non è costante come ipotizzato nei capitoli precedenti, in cui si supponeva E( Yi ) =
, ma varia in funzione lineare dei valori fissati di X. La retta di regressione 0 x costitui-
1 i

sce la cosiddetta parte sistematica del modello, mentre il termine di disturbo Ei ne rappresenta
la parte aleatoria:

Yi 0 x
1 i Ei E (Yi ) Ei (i = 1, , n).

Dalle assunzioni del Prospetto 6.2 deriva inoltre che la varianza di ciascuna osservazione
è costante ed uguale a 2 :

2
VAR( Yi ) = VAR( Ei ) =

ESEMPIO. La Figura 6.2 fornisce la rappresentazione grafica della retta di regressione


E (Yi ) 3 0,4 xi .

Il corrispondente modello di regressione può essere scritto come


Yi 3 0,4 xi Ei .

Se ipotizziamo che il termine aleatorio Ei abbia distribuzione normale con media 0 e varianza
2
= 0,49, cioè che Ei ~ N(0, 0,49), le osservazioni y i della variabile dipendente Y sono allora
realizzazioni d una corrispondente variabile aleatoria
Yi ~ N(3 + 0,4 xi , 0,49).

In corrispondenza di alcuni valori xi fissati, nella Figura 6.2 sono riportati (in grigio) gli inter-
valli di valori della variabile dipendente del tipo
E (Yi ) 3 ; E (Yi ) 3 ,

cioè gli intervalli


(3 0,4 xi ) (3 0,7); (3 0,4 xi ) (3 0,7) .
Come sappiamo (v. n. 2.5.3), in una variabile aleatoria normale all intervallo centrato sulla me-
dia e di estremi 3 è associata una probabilità molto elevata, approssimativamente pari al

123
99,7%. E quindi estremamente probabile che, in corrispondenza dei valori xi fissati, le osserva-
zioni y i della variabile dipendente siano effettivamente comprese negli intervalli rappresentati
con un tratteggio nella Figura 6.2.

Figura 6.2 Rappresentazione grafica della retta di regressione E(Yi) = 3 + 0,4 xi e degli in-
tervalli E(Yi) 3 , per = 0,7.
14

12

10

8
Y

0
0 2 4 6 8 10 12 14 16 18 20
X

6.3 Stima dei parametri


Nel modello di regressione lineare semplice, l intercetta 0 ed il coefficiente angolare
1 sono due parametri incogniti che devono essere stimati a partire da un campione di n osser-
vazioni. Il metodo di stima che adottiamo è quello dei minimi quadrati, applicato ai residui os-
servati ei :

n n
ei2 ( yi yi ) 2 min
i 1 i 1

Pertanto, dal punto di vista numerico

le stime di 0 e 1 coincidono con i coefficienti b0 e b1 della retta di regressione della statisti-


ca descrittiva

le cui formule sono già state riportate nell Esempio del n. 6.1.

124
Ciò che distingue il modello dalla retta di regressione è invece l interpretazione di b0 e
b1 . Infatti, prima dell estrazione del campione non è noto quali saranno gli effettivi valori assunti
dalla variabile dipendente Y (ricordiamo che X è invece considerata fissa). Di questa incertezza si
tiene conto nel modello rappresentando ciascuna osservazione Yi come una variabile aleatoria.
Le stime dei parametri del modello sono funzione delle n osservazioni (variabili aleato-
rie) Y1 , , Yn . Anche tali stime possono dunque essere interpretate, prima dell estrazione, come
variabili aleatorie, che per coerenza con la notazione adottata nei capitoli precedenti indi-
chiamo con le lettere maiuscole B0 e B1 . Di conseguenza,

le variabili aleatorie B0 e B1 costituiscono gli stimatori dei parametri incogniti 0 e 1 ;


i coefficienti calcolati sui dati, b0 e b1 , sono la corrispondente realizzazione campionaria.

Le proprietà di B0 e B1 , come stimatori puntuali di 0 e 1 , possono essere descritte at-


traverso i concetti già illustrati nel n. 4.2. In particolare, ci soffermiamo soltanto sui risultati rife-
riti al coefficiente di regressione B1 , che costituisce il parametro più rilevante nelle applicazioni.

1) Valore atteso:

E (B1 ) 1

Pertanto, B1 è uno stimatore corretto di 1 .

2) Varianza:

2 2
VAR ( B1 ) = = n
,
DEV ( X ) 2
( xi x)
i 1

dove DEV(X) è la devianza, cioè il numeratore della varianza, dei valori della variabile
esplicativa nel campione. Si può inoltre dimostrare che, sotto le ipotesi del Prospetto 6.2,
B1 è uno stimatore efficiente di 1 . Tale risultato è noto come Teorema di Gauss-
Markov .

2
Al numeratore di VAR( B1 ) compare la varianza della popolazione, che è solitamente
2
ignota. Nel contesto della regressione lineare semplice, una stima corretta di è data da
125
n n
2 1 1
s cor = (yi yi ) 2 = ei2 ,
n 2 i 1 n 2 i 1

2
OSSERVAZIONE. L espressione della stima corretta s cor nel modello di regressione lineare
semplice non coincide con quella utilizzata nei capitoli n. 4 e n. 5 con riferimento ai problemi su
2
. La differenza principale consiste nel fatto che qui il numeratore di s cor è definito in funzione
dei residui
ei = y i yi ,
anziché degli scarti dalla media
yi y,
in quanto nella regressione si suppone che il valore atteso delle osservazioni di Y non sia costante
ma vari in funzione (lineare) di X. Conseguentemente, anche il denominatore della stima si mo-
difica da n 1 a n 2, poiché occorre stimare due parametri ( 0 e 1 ) per poter calcolare y i e
2
quindi s cor .

2 2
Sostituendo l ignoto con la sua stima corretta s cor , otteniamo l errore standard di B1 .

3) Errore standard:

2
s cor s cor
s ( B1 ) n n
( xi x)2 ( xi x)2
i 1 i 1

La forma di distribuzione di B1 dipende invece dalla numerosità campionaria e sarà presa


in considerazione nel successivo n. 6.4.

Da ultimo, segnaliamo che anche i valori teorici


yi b0 b1 x i
assumono un interpretazione differente nel modello di regressione, rispetto a quanto visto nella
statistica descrittiva. Infatti, dalla relazione
E (Yi ) 0 1 i x

126
discende che y i deve essere considerato innanzitutto come una stima del valore atteso di Yi .
Anche tale stima può essere pensata come la realizzazione d una variabile aleatoria, che gode di
proprietà simili a quelle illustrate per B1 .

6.4 Inferenza sul coefficiente di regressione


Come osservato precedentemente, trattiamo in dettaglio il solo caso del coefficiente di
regressione 1 , che costituisce il parametro di maggiore interesse applicativo. Infatti, esso forni-
sce la misura quantitativa della relazione che lega Y a X. Rimandiamo invece ai volumi riportati
nella Bibliografia per approfondimenti sui problemi inferenziali riguardanti la stima
dell intercetta 0 e quella del valore atteso E (Yi ) 0 1 xi .

L inferenza su 1 consiste in due aspetti fondamentali:


il calcolo del corrispondente intervallo di confidenza;
la verifica dell ipotesi nulla che 1 sia uguale ad una costante prefissata (solitamente
uguale a 0).
In entrambi i problemi occorre considerare le caratteristiche della variabile aleatoria B1 ,
descritte nel n. 6.3. In particolare, dal punto di vista operativo, è utile fare riferimento alla varia-
bile standardizzata

B1 E ( B1 ) B1 1
Z ( B1 ) ,
s ( B1 ) s cor
n
( xi x)2
i 1

dove, per semplicità, prendiamo in esame il solo caso in cui è ignoto ed è stimato con s cor .
Come già anticipato, la forma di distribuzione della variabile aleatoria Z( B1 ) dipende in
modo cruciale dalla numerosità del campione.

6.4.1 Piccoli campioni


Se la numerosità del campione è modesta (ad esempio n < 30), occorre aggiungere
un ulteriore assunzione a quelle indicate nel Prospetto 6.2.

IPOTESI 6: La variabile dipendente Y presenta distribuzione normale nell universo:


2
Yi ~ N ( 0 x,
1 i )

127
Tale ipotesi ricalca quella già vista nei paragrafi 4.3.4 e 5.4 con riferimento ai problemi
su . L unica differenza ampiamente illustrata nel n. 6.2.2 consiste nel fatto che nella regres-
sione il valore atteso di ciascuna osservazione Yi non è costante ma è funzione lineare di xi . Se
anche l IPOTESI 6 è verificata, vale allora il risultato seguente.

2 2
Se Yi ~ N ( 0 x,
1 i ) con varianza ignota e stimata con
n
2
s cor ( yi yi ) 2 /(n 2) ,
i 1

B1 1
allora in piccoli campioni la variabile aleatoria Z ( B1 ) si distribuisce come una
s ( B1 )
t di Student con n 2 gradi di libertà.

Nel modello di regressione lineare semplice vi sono n 2 gradi di libertà, anziché n 1,


2
in quanto i parametri che devono essere stimati per poter calcolare s cor sono due: 0 e 1 .

Dal risultato precedente, che fornisce la forma di distribuzione di Z( B1 ), si traggono le


regole operative che portano al calcolo di intervalli di confidenza ed alla verifica di ipotesi su
1 . Nel seguito riportiamo soltanto i passi conclusivi di tali procedure, poiché gli aspetti logici
sono del tutto simili a quelli già visti nei capitoli 4 e 5.

Intervallo di confidenza

Nel caso di piccoli campioni, sotto l assunzione di distribuzione normale dell universo
(v. IPOTESI 6) e nell ipotesi abituale nella realtà che la varianza dell universo non sia nota,
l intervallo di confidenza per 1 assume la forma seguente.

Intervallo di confidenza di livello 1 per il coefficiente di regressione 1 , nel caso di


2 2
piccoli campioni e nell ipotesi che Yi ~ N ( 0 x,
1 i ) con ignoto:

P b1 t ( ) s ( B1 ) 1 b1 t ( ) s ( B1 ) 1

Nell espressione precedente, s( B1 ) rappresenta l errore standard dello stimatore B1 (v. n.


6.3), cioè
s cor
s ( B1 ) ,
n
2
( xi x)
i 1

128
mentre t( ) è il percentile di livello in una variabile aleatoria t di Student con n 2 gradi di li-
bertà. In altri termini (v. n. 4.3.3), t( ) è il valore per cui

F t( ) ,
2
ove F(t) indica qui la funzione di ripartizione di t(n 2).

L intervallo sopra riportato è quello che, con probabilità 1 , contiene l incognito coef-
ficiente di regressione 1 . Il significato della probabilità ad esso associata è analogo a quanto già
illustrato nel n. 4.3.7.

Verifica di ipotesi

L ipotesi nulla che più frequentemente è sottoposta a verifica nel modello di regressione
lineare semplice è che il coefficiente di regressione sia uguale a zero:

H0: 1 = 0.

Tale ipotesi postula infatti l assenza d una relazione lineare tra Y e X.


Similmente, l ipotesi alternativa più comune è quella bilaterale

H1: 1 0,

che include sia il caso d una relazione lineare crescente ( 1 > 0) sia quello d una relazione linea-
re decrescente ( 1 < 0) tra Y e X.

La verifica di H0 richiede il calcolo dello scostamento standardizzato nel campione, cioè


la realizzazione della variabile aleatoria Z( B1 ). Tale scostamento è definito come

b1 1 b1
z (b1 ) = = ,
s ( B1 ) s cor
n
( xi x)2
i 1

in quanto
E ( B1 ) 1 0

se l ipotesi nulla è vera.

Fissato il livello di significatività , la regola di decisione è la seguente.

129
Conclusioni del test per la verifica di H0: 1 = 0, nel caso di piccoli campioni e livello di
2
significatività prefissato , e sotto l assunzione che Yi ~ N ( 0 1 xi , ) con 2 ignoto:
Ipotesi alternativa bilaterale
Se z( b1 ) < t( ) oppure z( b1 ) > +t( ) Rifiuto H0
Se t( ) z( b1 ) +t( ) Non posso rifiutare H0

Anche in questo caso t( ) è il percentile di livello in una variabile aleatoria t di Student


con n 2 gradi di libertà.

Le regole di decisione corrispondenti ad ipotesi alternative unilaterali possono essere ri-


cavate in maniera del tutto analoga, secondo lo schema già illustrato nel n. 5.4 con riferimento
alla media.
Similmente, il livello di significatività osservato (P-value) è definito come la probabilità
di ottenere valori di Z( B1 ) più estremi di quello effettivamente osservato nel campione, quan-
do l ipotesi nulla H0: 1 = 0 è vera e quindi
Z( B1 ) ~ t(n 2).

ESEMPIO. Riprendiamo in esame il PROBLEMA 10 introdotto nel Prospetto 6.1 e già


analizzato nell Esempio del n. 6.1. In quella sede si è ottenuto
b0 = 937,5 b1 = 337,5.

Tali valori rappresentano le stime campionarie dei parametri ignoti 0 e 1 del modello di
regressione
Yi 0 1 xi Ei i = 1, , 12.

In particolare, 1 è il coefficiente di regressione, che lega prezzo di vendita e numero di confe-


zioni vendute nella popolazione di tutti i potenziali consumatori.
Per misurare la variabilità campionaria del corrispondente stimatore B1 , di cui la stima b1 è la
realizzazione campionaria, occorre innanzitutto calcolare la stima corretta della varianza di Y sot-
to il modello di regressione semplice:
n
2 1 2.756,25
s cor ( yi yi ) 2 275,625.
n 2 i 1 10
Inoltre, la devianza della variabile esplicativa X risulta
n
DEV(X) = ( xi x ) 2 = 0,12.
i 1

L errore standard dello stimatore B1 è quindi

130
s cor 16,602
s ( B1 ) 47,926 .
n
0,12
( xi x)2
i 1

Affinché l inferenza su 1 possa procedere correttamente nel caso di piccoli campioni, occorre
introdurre l ipotesi di distribuzione normale di ciascun termine aleatorio Ei e conseguente-
mente anche di ciascuna osservazione Yi . Nell esempio considerato ciò significa che le diffe-
renze riscontrabili nel numero di confezioni vendute a parità di prezzo di vendita devono essere
attribuibili a fattori di natura accidentale. In una situazione reale di definizione del prezzo una
simile assunzione appare poco plausibile, poiché molto probabilmente vi sono fattori economici
ben definiti che determinano il numero di confezioni vendute anche a parità di prezzo (ad esem-
pio, il livello di ricchezza dei consumatori e la quota di mercato dell azienda nelle diverse pro-
vince: v. n. 6.2). Per semplicità, assumiamo comunque che l azienda abbia scelto per il proprio
esperimento 12 supermercati omogenei dal punto di vista di tali fattori economici di rilievo, così
che l ipotesi di normalità della distribuzione degli errori non sia irragionevole.
Poiché n = 12, la distribuzione di riferimento è una t di Student con 10 gradi di libertà. Dalle ta-
vole riportate in appendice, in corrispondenza di g = 10 e = 0,05, si legge:
t( ) = 2,228.
Di conseguenza, l intervallo di confidenza con probabilità 1 = 0,95 per l ignoto coefficiente
di regressione 1 risulta
337,5 2,228 47,926 ,
cioè

P 444,3 1 230,7 0,95 .

Ciò significa che, con una probabilità del 95%, l ignota riduzione media del numero di confezio-
ni vendute a seguito dell incremento di 1 euro del prezzo di vendita (nella popolazione di tutti i
consumatori) è compresa tra circa 444 e 230 unità.

Per sottoporre a verifica l ipotesi nulla


H0: 1 = 0,
che corrisponde all assenza di relazione tra prezzo e numero di confezioni vendute, calcoliamo
lo scostamento standardizzato

337,5
z (b1 ) = = 7,04.
47,926
In questo esempio la teoria economica suggerisce la scelta dell ipotesi alternativa unilaterale si-
nistra
H1: 1 < 0,
che corrisponde ad una relazione inversa tra prezzo e quantità vendute. Al livello di significativi-
tà del 5%, il percentile di riferimento (con n 2 = 10 gradi di libertà) è allora
131
t(0,10) = 1,812
in quanto
F( 1,812) = 0,05
come richiesto in un test ad una sola coda (quella di sinistra). Dal momento che
z( b1 ) < 1,812
cade nella zona di rifiuto di H0, giungiamo alla conclusione sicuramente ragionevole dal punto
di vista della teoria economica che esiste effettivamente una relazione inversa tra prezzo di
vendita e numero di confezioni vendute del prodotto.
Similmente, il livello di significatività osservato per il test ad una coda (sinistra) è

P-value = P{ Z ( B1 ) 7,04},

dove la variabile aleatoria standardizzata Z ( B1 ) ha distribuzione t di Student con 10 gradi di li-


bertà quando H0: 1 = 0 è vera. Attraverso l impiego di Excel (v. n. 5.7) si ottiene il valore esatto
P-value = 0,00002.
L uso inverso delle tavole riportate in appendice fornisce invece l approssimazione
0,001
P-value < ,
2
poiché in corrispondenza di 10 gradi di libertà l ultimo percentile riportato è t(0,001) =
4,587. Sia il calcolo esatto sia quello approssimato mostrano quindi una forte evidenza contro
l ipotesi nulla ed a favore dell esistenza di una relazione inversa tra prezzo e numero di confe-
zioni vendute.

6.4.2 Grandi campioni


Se la numerosità del campione è elevata la distribuzione di riferimento è quella normale
standardizzata, poiché la variabile aleatoria scostamento standardizzato di B1 ha distribuzione
N(0, 1) in virtù del Teorema centrale del limite:

B1 1
Z ( B1 ) = ~ N(0, 1)
s ( B1 )

Nel caso di grandi campioni non è quindi necessario introdurre l assunzione aggiuntiva
che la variabile dipendente Y presenti distribuzione normale nell universo (v. IPOTESI 6).
Le regole operative per il calcolo di intervalli di confidenza e per la verifica di ipotesi su
1 sono analoghe a quelle viste nel n. 6.4.1, con l unica differenza che occorre ora utilizzare i
percentili
z( )

132
tratti dalle tavole della variabile aleatoria normale standardizzata. Come in precedenza,
s cor
s ( B1 )
n
( xi x)2
i 1

rappresenta l errore standard, cioè la stima dell ignoto scostamento quadratico medio dello
stimatore B1 .

Intervallo di confidenza

Intervallo di confidenza di livello 1 per il coefficiente di regressione 1 , nel caso di


grandi campioni:
P b1 z ( ) s ( B1 ) 1 b1 z ( ) s ( B1 ) 1

Verifica di ipotesi

La verifica dell ipotesi nulla


H0: 1 =0
contro l alternativa bilaterale
H1: 1 0,
si fonda anche in questo caso sul calcolo dello scostamento standardizzato campionario

b1 b1
z (b1 ) = = .
s ( B1 ) s cor
n
( xi x)2
i 1

In particolare, fissato il livello di significatività , la regola di decisione diventa la se-


guente.

Conclusioni del test per la verifica di H0: 1 = 0, nel caso di grandi campioni e livello di
significatività prefissato :
Ipotesi alternativa bilaterale
Se z( b1 ) < z( ) oppure z( b1 ) > +z( ) Rifiuto H0
Se z( ) z( b1 ) +z( ) Non posso rifiutare H0

133
Similmente, il livello di significatività osservato (P-value) è calcolato assumendo che
l ipotesi nulla sia vera ( 1 = 0) e dunque che
Z ( B1 ) ~ N (0,1) .
Le regole di decisione corrispondenti ad ipotesi alternative unilaterali possono essere
ricavate secondo gli schemi descritti in precedenza.

ESEMPIO 1. Consideriamo il PROBLEMA 11 riportato nel Prospetto 6.1. In questo esempio


la variabile dipendente (Y) è l incidenza percentuale sul totale della spesa di una settimana
degli sconti ottenuti tramite la carta fedeltà, mentre quella esplicativa (X) è il numero complessi-
vo di articoli acquistati nel medesimo periodo. I risultati ottenuti su un campione casuale di n =
90 consumatori sono i seguenti:
x 14,2778 acquisti; y 4,305 %
VAR(X) = 107,356 COV(X, Y) = 17,3724
Pertanto,
17,3724
b1 0,1618
107,356
b0 4,3046 ( 0,1618) 14,2778 6,615 .
Notiamo quindi che esiste una relazione inversa stimata tra il numero di prodotti acquistati e
l incidenza percentuale degli sconti ottenuti tramite la carta fedeltà ( b1 < 0). Da un punto di vista
descrittivo, il coefficiente di regressione calcolato segnala infatti che l incidenza di tali sconti si
riduce in media di circa 0,16 punti percentuali per ogni articolo in più acquistato.
Per misurare l accuratezza di b1 come stima campionaria dell ignoto coefficiente di regressione
( 1 ) nella popolazione di tutti i consumatori titolari della carta di fedeltà, si è inoltre ottenuto
90
ei2 2773,5
i 1

cosicché
90
2 1 1
s cor ei2 2773,5 31,517 .
90 2 i 1 88
Inoltre,
90
( xi x ) 2 = DEV(X) = n VAR(X) = 90 107,356 = 9662,04
i 1

e l errore standard risulta


31,517
s ( B1 ) 0,0571 .
9662,04
Poiché in questa applicazione la numerosità del campione di consumatori è sufficientemente
grande, approssimiamo la distribuzione della variabile aleatoria Z( B1 ) con quella della normale
standardizzata. Fissiamo, ad esempio, 1 = 0,99 e ricaviamo
z(0,01) = 2,58.
134
L intervallo di confidenza per 1 al livello 0,99 risulta dunque
P 0,1618 2,58 0,0571 1 0,1618 2,58 0,0571 0,99 ,
cioè
P 0,3092 1 0,0145 0,99 .
In altri termini, con una probabilità molto elevata (pari al 99%) l ignoto coefficiente di regres-
sione è compreso tra 0,3092 e 0,0145.
Per sottoporre a verifica l ipotesi nulla di assenza di relazione lineare tra le due variabili
H0: 1 =0
calcoliamo lo scostamento standardizzato
0,1618
z (b1 ) 2,83 .
0,0571
Poiché
H1: 1 0,
al livello di significatività = 0,01 si ottiene
z(0,01) = 2,58
come in precedenza. La conclusione del test è il rifiuto di H0, in quanto
z (b1 ) < 2,58.
Analogamente, il livello di significatività osservato per il test a due code risulta

P-value = P{ Z ( B1 ) 2,83} + P{ Z ( B1 ) 2,83} = 2 P{ Z ( B1 ) +2,83} = 0,00466,

come si ricava dalla tavola della variabile aleatoria N(0, 1) riportata in appendice. Esso segnala
che è poco probabile ottenere un valore di Z ( B1 ) più estremo di quello effettivamente osserva-
to quando H0 è vera. Conseguentemente, riteniamo poco plausibile che lo scostamento standar-
dizzato z( b1 ) = 2,83 sia stato osservato per il solo effetto delle fluttuazioni campionarie.

ESEMPIO 2. Il PROBLEMA 12 del Prospetto 6.1 fa riferimento alla media mensile del tasso
di cambio yen/dollaro nel corso degli anni dal 1990 al 1995 (n = 72). L obiettivo dell analisi
consiste nell individuazione di un eventuale trend lineare nell andamento del tasso di cambio.
Pertanto (v. Zani, 2002, paragrafo VIII.9), il tasso di cambio costituisce la variabile dipendente
(Y), mentre la successione dei tempi da 1 a 72 (indicata con t anziché con X) è la variabile espli-
cativa. La Figura 6.3 fornisce la rappresentazione grafica dell andamento osservato del tasso di
cambio e della corrispondente retta di regressione.
Per tali dati si ottengono le stime
b0 150,65 e b1 0,869 ,
la cui interpretazione è la seguente:
la stima della media mensile del tasso di cambio yen-dollaro in corrispondenza del mese
precedente a quello della prima rilevazione (t = 0: dicembre 1989) è pari a 150,65;

135
da un mese all altro (variazione unitaria di t) il tasso di cambio yen-dollaro si è ridotto in
media di 0,869 punti percentuali.
Inoltre,
2
s cor 33,22 e s ( B1 ) 0,03268 .

Figura 6.3 Rappresentazione grafica dell andamento della media mensile del tasso di cam-
bio yen-dollaro in funzione del tempo (t = 1: gennaio 1990, , t = 72: dicembre 1995) e del-
la corrispondente retta di regressione.
180

160

140
Tasso di cambio

120

100

80

60
0 10 20 30 40 50 60 70 80
t

Anche in questo esempio il numero di osservazioni è sufficientemente elevato da far ritenere ac-
cettabile l approssimazione normale. Pertanto, l intervallo di confidenza per il coefficiente di re-
gressione 1 , al livello 1 = 0,95, risulta
P 0,869 1,96 0,03268 1 0,869 1,96 0,03268 0,95 ,
cioè
P 0,933 1 0,805 0,95 .

Il valore 1 0 non è compreso nell intervallo così ottenuto, il che fornisce un evidenza sostan-
ziale circa la presenza d una relazione lineare tra Y e t. Si perviene alla medesima conclusione sia
attraverso la procedura di verifica dell ipotesi nulla H0: 1 = 0, che conduce allo scostamento
standardizzato campionario
0,869
z (b1 ) = = 26,59,
0,03268
sia mediante il calcolo del livello di significatività osservato (a due code)

136
P-value = P{ Z ( B1 ) 26,59} + P{ Z ( B1 ) 26,59} 0.
Entrambe le misure forniscono infatti un evidenza fortissima che 1 0 .
A conclusione dell esempio è comunque importante notare che le 72 osservazioni disponibili del
tasso di cambio costituiscono una serie storica e dunque non rappresentano a rigore un cam-
pione casuale vero e proprio (v. commento al termine del n. 6.2.1). Alcune perplessità circa
l opportunità di applicare un modello di regressione lineare semplice possono inoltre sorgere
dall esame della ciclicità dei valori osservati del tasso di cambio, che si traduce in un evidente
sistematicità dei residui riportati nella Figura 6.4. In simili circostanze, le ipotesi sottostanti al
modello di regressione (v. Prospetto 6.2) possono risultare poco adeguate ed occorre apportare
modifiche sostanziali alle procedure inferenziali illustrate in questo capitolo. Rinviamo alla Bi-
bliografia per approfondimenti al riguardo.

Figura 6.4 Grafico dei residui dalla retta di regressione riportata nella Figura 6.3.

20

15

10

5
residui

0
0 10 20 30 40 50 60 70 80

-5

-1 0

-1 5

6.5 Verifica della bontà di adattamento del modello


La verifica della validità o bontà di adattamento del modello di regressione è la fase
conclusiva dell analisi ed è diretta a controllare che il modello proposto sia realmente in grado di
rappresentare in modo soddisfacente i dati a disposizione. Infatti, si può adattare una retta con il
metodo dei minimi quadrati anche nei casi in cui i punti non seguono una relazione lineare, ad
esempio quando formano una nuvola priva di qualsiasi tendenza o hanno un andamento curvi-
lineo. In queste circostanze la retta di regressione ha una capacità scarsa, o nulla, di riassumere la
relazione tra le variabili. Pertanto, in ogni applicazione, occorre valutare se i punti osservati si
collocano effettivamente vicino alla retta osservata.

6.5.1 L indice di determinazione lineare


Dal punto di vista descrittivo, la misura principale della bontà di adattamento è l indice di
determinazione lineare (v. Zani, 2002, p. 195)

137
n n
( yi y) 2 ei2
i 1 i 1
= n
=1 n
( yi y) 2 ( yi M y )2
i 1 i 1

che assume valori compresi tra 0 e 1.


Il coefficiente si fonda sulla scomposizione della devianza della variabile dipendente Y,
n
DEV(Y) = ( yi y) 2 ,
i 1

che può essere ottenuta come somma della devianza di regressione


n
DEV( Y ) = ( yi y) 2
i 1

e della devianza residua


n
DEV(E) = ei2 .
i 1

Pertanto, l indice di determinazione lineare può essere interpretato come la quota di de-
vianza (e quindi di varianza) della variabile dipendente Y che è spiegata dalla relazione lineare
con la variabile esplicativa X. Tale indice è una misura descrittiva, nel senso che non formula
alcuna ipotesi sulla natura delle osservazioni y i .

6.5.2 La statistica test

In un approccio di tipo modellistico, in cui Yi è una variabile aleatoria, anche il valore


campionario dell indice di determinazione lineare può essere considerato come la realizzazione
d una variabile aleatoria. Pertanto, pur avendo ottenuto nel campione un valore
> 0,
ci possiamo domandare se tale valore osservato (positivo) è realmente il frutto di una relazione
lineare tra Y e X oppure è dovuto semplicemente alle fluttuazioni campionarie.
In termini statistici tale problema consiste nel sottoporre a verifica l ipotesi nulla

H0: Non vi è alcuna relazione lineare tra Y e X


che è equivalente a

H0: = 0 nella popolazione

La negazione di H0 è l ipotesi alternativa bilaterale

138
H1: Esiste una relazione lineare tra Y e X
cioè

H1: > 0 nella popolazione

La statistica test adottata per verificare H0 non è l indice di determinazione lineare , ma


una sua semplice trasformazione. In particolare, utilizziamo la quantità seguente, solitamente in-
dicata come statistica F.

Statistica test per la verifica della bontà del modello di regressione lineare semplice:
DEV (Y )
F= =
(1 ) /(n 2) DEV ( E ) /(n 2)

Dal punto di vista del calcolo, inoltre, la statistica F può essere ottenuta come segue

n n
( yi y)2 ( yi y) 2
i 1 i 1
F= n
= 2
s cor
ei2 /(n 2)
i 1

Nel modello di regressione semplice si realizza un importante proprietà, che semplifica


notevolmente la procedura inferenziale di verifica della bontà di adattamento. Infatti, la statistica
F prima definita risulta uguale al quadrato della statistica test utilizzata per la verifica dell ipotesi
nulla sul coefficiente di regressione
H0: 1 = 0.

Infatti,

Nel modello di regressione lineare semplice:


2
b12
F = z (b1 ) =
s (B1 )

139
Dal punto di vista pratico, nel modello di regressione lineare semplice non è quindi ne-
cessario derivare la distribuzione campionaria della statistica F, ma è sufficiente riprendere la
procedura già descritta nel n. 6.4.1 (piccoli campioni) e nel n. 6.4.2 (grandi campioni) con rife-
rimento al test su 1 .

ESEMPIO. Consideriamo i dati relativi al PROBLEMA 12 del Prospetto 6.1, relativi al tasso
di cambio yen-dollaro e già analizzati nel n. 6.4.2. In tale applicazione l indice di determinazione
nel campione risulta
= 0,9099.
Conseguentemente, la statistica F assume il valore
0,9099
F= = 706,9
(1 0,9099) / 70
che si verifica immediatamente essere uguale a meno d una piccola differenza dovuta
all arrotondamento a
z (b1 ) 2 = ( 26,59) 2 .
Il livello di significatività osservato risulta quindi identico a quello già calcolato nel n. 6.4.2, in
quanto
P-value = P{F 706,9} = P{ Z (B1 ) 2 (26,59) 2 } = P{ Z ( B1 ) 26,59} + P{ Z ( B1 ) 26,59}.
Tale valore risulta praticamente nullo,
P-value 0,
e fornisce un evidenza fortissima dell esistenza d una relazione lineare tra la media mensile dei
tassi di cambio e la successione dei tempi (cioè 1 0 ).

Le motivazioni dell impiego della statistica F in luogo di come statistica test sono
innanzitutto di ordine teorico: la statistica F ha una distribuzione nota con il nome di
distribuzione F di Fisher, che si può trovare tabulata in numerosi testi (v. Bibliografia). Tale
risultato vale sia nel caso di grandi campioni, sia in quello di piccoli campioni sotto l assunzione
addizionale che la distribuzione di Y sia normale (v. IPOTESI 6 nel n. 6.4.1).
La corrispondenza tra F e z (b1 ) 2 può essere giustificata, a livello intuitivo, notando che
in presenza d una sola variabile esplicativa X l ipotesi nulla
H0: Non vi è alcuna relazione lineare tra Y e X
è equivalente a
H0: 1 = 0,
mentre
H1: Esiste una relazione lineare tra Y e X
è equivalente a
H1: 1 0.
A livello teorico, si può inoltre dimostrare che nel modello di regressione lineare sempli-
ce la devianza di regressione risulta

140
n
DEV( Y ) = b12 ( xi x)2 ,
i 1

cosicché

b12 DEV (Y )
z (b1 ) 2 = 2
= 2
= F.
s cor s cor
n
( xi x)2
i 1

La suddetta relazione tra statistica F e scostamento standardizzato z( b1 ) vale ovviamente


nel solo caso della regressione lineare semplice. Rinviamo alla Bibliografia per gli approfondi-
menti relativi al modello di regressione multipla.

OSSERVAZIONE. E utile ricordare che l equivalenza tra la verifica della bontà di adatta-
mento (tramite F) ed il test dell ipotesi 1 = 0 (tramite z( b1 )) vale soltanto nel caso in cui si as-
suma come ipotesi alternativa quella bilaterale
H1: 1 0.
Infatti, il test basato sulla statistica F corrisponde ad un test a due code in termini di z( b1 ), poiché
F > 0 anche quando z( b1 ) è negativo. Riprendiamo, ad esempio, i dati del PROBLEMA 10 già ana-
lizzati nel 6.4.1. In questo caso si ottiene
F = 49,59
a cui corrisponde
P-value = 0,00004.
Il livello di significatività osservato in corrispondenza di F (test a due code) è dunque doppio ri-
spetto a quello determinato nel n. 6.4.1 per la verifica di H0: 1 = 0 contro l ipotesi alternativa
unilaterale sinistra H1: 1 < 0.

A conclusione di questo paragrafo è importante notare che le indicazioni che si traggono


dalla statistica descrittiva sulla bontà di adattamento (tramite ) sono concettualmente distinte
da quelle che si ricavano dalla procedura inferenziale di verifica dell ipotesi nulla di assenza
d una relazione lineare tra le variabili (tramite F). Infatti, la relazione può risultare statisticamen-
te significativa anche in presenza d un adattamento scadente. Nel caso di rifiuto dell ipotesi nul-
la, il test fornisce soltanto un indicazione che l indice di determinazione della popolazione è di-
verso da 0, non che esso è prossimo a 1.

ESEMPIO. Riprendiamo l applicazione al PROBLEMA 11 del Prospetto 6.1, già analizzato


nel n. 6.4.2. In tale esempio si ottiene
= 0,0836,
per cui l adattamento ai dati della retta di regressione risulta pessimo. Tuttavia, la statistica
0,0836
F= = 8,03
(1 0,0836) / 88

141
conduce al rifiuto dell ipotesi nulla
H0: Non vi è alcuna relazione lineare tra Y e X,
poiché il livello di significatività osservato
P-value = P{F 8,03} = P{ Z ( B1 ) 2,83} + P{ Z ( B1 ) 2,83} = 0,00466
è minore dei valori di abitualmente fissati (5% o 1%). Dal confronto tra i valori di F e si ri-
cava quindi che la relazione tra il numero di articoli acquistati e l incidenza percentuale degli
sconti ottenuti tramite la carta fedeltà è significativa (cioè 1 è realmente diverso da 0 nella po-
polazione di tutti i consumatori), ma il modello che si ottiene non ha alcuna utilità interpretativa,
spiegando una quota del tutto trascurabile (anche se positiva) della variabilità della variabile
dipendente.

6.5.3 La tabella di analisi della varianza


Le quantità necessarie per il calcolo della statistica F sono abitualmente riportate in forma
sintetica in uno schema chiamato Tabella di analisi della varianza (v. Tabella 6.2).

Tabella 6.2 Schema di tabella di analisi della varianza per il modello di regressione lineare
semplice.
Modello Gradi di Somme dei Medie dei quadrati F P-value
libertà quadrati
Regressione 1 n n n
P{F del va-
( yi y) 2
( yi 2
y ) /1 ( yi y)2
i 1 i 1 i 1
lore osservato
n nel campione}
ei2 /( n 2)
i 1
Residuo n 2 n n
ei2 ei2 /(n 2)
i 1 i 1

Totale n 1 n n
( yi y) 2 ( yi y ) 2 /(n 1)
i 1 i 1

In tale schema sono riportate le seguenti quantità.

1) Gradi di libertà
Per il modello di regressione i gradi di libertà sono uguali al numero di variabili
esplicative. Pertanto, nella regressione lineare semplice:
gradi di libertà = 1
Per il calcolo dei residui i gradi di libertà sono uguali al numero di osservazioni
diminuito del numero di parametri del modello. Pertanto, nella regressione lineare
semplice (v. n. 6.3):
gradi di libertà = n 2

142
In totale, se non si considera la relazione lineare con la variabile esplicativa,
l unico parametro ignoto del modello è la media della variabile dipendente. Per-
tanto, in analogia con quanto visto nei paragrafi 4.3.4 e 5.4,
gradi di libertà = n 1

2) Somme dei quadrati (devianze)


Per il modello di regressione si riporta la devianza dei valori teorici, cioè la de-
vianza di regressione:
n n
DEV( Y ) = ( yi y ) 2 = b12 ( xi x)2
i 1 i 1

Per i residui si riporta la devianza residua:


n
DEV(E) = ei2
i 1

La devianza totale della variabile dipendente è


n
DEV(Y) = ( yi y) 2
i 1

e coincide con la somma delle due componenti precedenti (v. n. 6.5.1).

3) Medie dei quadrati


Le medie dei quadrati non sono altro che le corrispondenti somme (devianze) divise per i
rispettivi gradi di libertà.

4) Statistica F
La statistica F per la verifica della bontà di adattamento è quella già descritta nel n. 6.5.2:
n
( yi y)2
DEV (Y ) i 1
F= = n
DEV ( E ) /( n 2)
ei2 /(n 2)
i 1

5) P-value
La tabella di analisi della varianza riporta infine il livello di significatività osservato, de-
finito come la probabilità che la statistica test F assuma valori maggiori o uguali di quello
effettivamente calcolato nel campione quando
H0: Non vi è alcuna relazione lineare tra Y e X
è vera. Ricordiamo che, nel modello di regressione lineare semplice, tale P-value coinci-
de con quello che si ottiene nella verifica dell ipotesi nulla
H0: 1 =0
contro l ipotesi alternativa
H1: 1 0.
143
ESEMPIO. Nella Tabella 6.3 è riportato l output dell analisi della varianza per i dati della
Tabella 6.1, riferiti alla relazione tra prezzo di vendita e numero di confezioni vendute d un nuo-
vo prodotto (v. PROBLEMA 10 del Prospetto 6.1) e già analizzati nel n. 6.1 e nel n. 6.4.1.
I valori calcolati consentono di ottenere tutte le informazioni necessarie ai fini della verifica
dell ipotesi nulla
H0: Non vi è alcuna relazione lineare tra numero di confezioni vendute e prezzo di vendita,
che è chiaramente rifiutata (P-value molto < 0,1%). Inoltre, è immediato ricavare anche l indice
di determinazione lineare
DEV (Y ) 13.668,75
= = = 0,832
DEV (Y ) 16.425
il quale segnala che l 83,2% della varianza del numero di confezioni vendute può essere spiega-
to dalla relazione lineare con il prezzo di vendita. Anche da un punto di vista descrittivo, dun-
que, la relazione tra le due variabili può essere ritenuta abbastanza soddisfacente.

Tabella 6.3 Tabella di analisi della varianza per i dati della Tabella 6.1 (relazione tra prez-
zo di vendita e numero di confezioni vendute in 12 supermercati).
Modello Gradi di Somme dei Medie dei quadrati F P-value
libertà quadrati
Regressione 1 13.668,75 13.668,75 49,59 0,00004
Residuo 10 2.756,25 275,625
Totale 11 16.425

6.6 Uso di Excel


L uso di Excel ai fini dell adattamento d una retta di regressione è ampiamente descritto
in Zani (2002), cap. VIII.7 e cap. VIII.10. Dal punto di vista dell inferenza, le potenzialità mag-
giori sono fornite dall impiego della funzione REGR.LIN e dello strumento di analisi denomina-
to Regressione all interno della componente aggiuntiva Analisi dati.

In particolare (v. Tabella 6.4), la funzione REGR.LIN restituisce sotto forma d una ma-
trice di dimensione (5 2):
i coefficienti stimati b1 e b0 ;

i rispettivi errori standard s ( B1 ) e s ( B0 ) ;

l indice di determinazione lineare e la stima s cor ;


la statistica F ed i gradi di libertà della devianza residua (n 2);
la devianza di regressione DEV( Y ) e quella residua DEV(E).

144
Tabella 6.4 Output della funzione REGR.LIN di Excel.
b1 b0
s ( B1 ) s ( B0 )
s cor
F (n 2)
DEV( Y ) DEV(E)

Attraverso lo strumento Regressione della componente aggiuntiva Analisi dati,


si può ottenere la tabella di analisi della varianza in un formato analogo a quello presentato nella
Tabella 6.2. Inoltre, tale strumento consente di ottenere informazioni addizionali sulla bontà di
adattamento del modello (coefficiente di correlazione ed indice di determinazione), sulle statisti-
che test e gli intervalli di confidenza per i parametri, nonché sui singoli valori previsti y i ed i re-
sidui osservati ei .
A titolo d esempio riportiamo nella Tabella 6.5 parte dei risultati ottenibili mediante lo
strumento Regressione di Analisi dati, con riferimento all analisi dell andamento tem-
porale del tasso di cambio yen-dollaro (v. PROBLEMA 3 del Prospetto 6.1). I valori riportati coin-
cidono ovviamente a meno di alcune piccole differenze dovute agli arrotondamenti con quelli
già riportati nel n. 6.4.2 e nel n. 6.5.2.

Tabella 6.5 Output dello strumento Regressione della componente aggiuntiva Analisi
dati di Excel per l esempio relativo al PROBLEMA 3 del Prospetto 6.1 (studio
dell andamento temporale del tasso di cambio yen-dollaro).

Analisi della varianza


Modello Gradi di Somme dei Medie dei quadrati F P-value
libertà quadrati
Regressione 1 23.485,73 23.485,73 706,9746 2,58E 38 ( )
Residuo 70 2.325,403 33,22005
Totale 71 25.811,13

( )Nella cosiddetta notazione scientifica , il valore 2,58E 38 corrisponde a


38 2,58
2,58 10 = 0
10 38

Stima dei parametri


Coefficiente Errore stan- Stat. t ( ) P-value Estremo inf. int. Estremo sup. int.
dard di confid. 95% di confid. 95%
0
150,654 1,37279 109,74 4,4E 80 147,92 153,39
1 0,869 0,032684 26,589 2,58E 38 0,934 0,804

( ) Le statistiche t corrispondono agli scostamenti standardizzati z( b0 ) e z( b1 ).

145
APPENDICE TAVOLE STATISTICHE

147
FUNZIONE DI RIPARTIZIONE DELLA VARIABILE ALEATORIA
NORMALE STANDARDIZZATA: Z N(0, 1)

F(z) = Probabilità che Z assuma valori z

z 0 1 2 3 4 5 6 7 8 9

-4,0 0,00003 0,00003 0,00003 0,00003 0,00003 0,00003 0,00002 0,00002 0,00002 0,00002
-3,9 0,00005 0,00005 0,00004 0,00004 0,00004 0,00004 0,00004 0,00004 0,00003 0,00003
-3,8 0,00007 0,00007 0,00007 0,00006 0,00006 0,00006 0,00006 0,00005 0,00005 0,00005
-3,7 0,00011 0,00010 0,00010 0,00010 0,00009 0,00009 0,00008 0,00008 0,00008 0,00008
-3,6 0,00016 0,00015 0,00015 0,00014 0,00014 0,00013 0,00013 0,00012 0,00012 0,00011
-3,5 0,00023 0,00022 0,00022 0,00021 0,00020 0,00019 0,00019 0,00018 0,00017 0,00017
-3,4 0,00034 0,00032 0,00031 0,00030 0,00029 0,00028 0,00027 0,00026 0,00025 0,00024
-3,3 0,00048 0,00047 0,00045 0,00043 0,00042 0,00040 0,00039 0,00038 0,00036 0,00035
-3,2 0,00069 0,00066 0,00064 0,00062 0,00060 0,00058 0,00056 0,00054 0,00052 0,00050
-3,1 0,00097 0,00094 0,00090 0,00087 0,00084 0,00082 0,00079 0,00076 0,00074 0,00071
-3,0 0,00135 0,00131 0,00126 0,00122 0,00118 0,00114 0,00111 0,00107 0,00104 0,00100
-2,9 0,00187 0,00181 0,00175 0,00169 0,00164 0,00159 0,00154 0,00149 0,00144 0,00139
-2,8 0,00256 0,00248 0,00240 0,00233 0,00226 0,00219 0,00212 0,00205 0,00199 0,00193
-2,7 0,00347 0,00336 0,00326 0,00317 0,00307 0,00298 0,00289 0,00280 0,00272 0,00264
-2,6 0,00466 0,00453 0,00440 0,00427 0,00415 0,00402 0,00391 0,00379 0,00368 0,00357
-2,5 0,00621 0,00604 0,00587 0,00570 0,00554 0,00539 0,00523 0,00508 0,00494 0,00480
-2,4 0,00820 0,00798 0,00776 0,00755 0,00734 0,00714 0,00695 0,00676 0,00657 0,00639
-2,3 0,01072 0,01044 0,01017 0,00990 0,00964 0,00939 0,00914 0,00889 0,00866 0,00842
-2,2 0,01390 0,01355 0,01321 0,01287 0,01255 0,01222 0,01191 0,01160 0,01130 0,01101
-2,1 0,01786 0,01743 0,01700 0,01659 0,01618 0,01578 0,01539 0,01500 0,01463 0,01426
-2,0 0,02275 0,02222 0,02169 0,02118 0,02068 0,02018 0,01970 0,01923 0,01876 0,01831
-1,9 0,02872 0,02807 0,02743 0,02680 0,02619 0,02559 0,02500 0,02442 0,02385 0,02330
-1,8 0,03593 0,03515 0,03438 0,03362 0,03288 0,03216 0,03144 0,03074 0,03005 0,02938
-1,7 0,04457 0,04363 0,04272 0,04182 0,04093 0,04006 0,03920 0,03836 0,03754 0,03673
-1,6 0,05480 0,05370 0,05262 0,05155 0,05050 0,04947 0,04846 0,04746 0,04648 0,04551
-1,5 0,06681 0,06552 0,06426 0,06301 0,06178 0,06057 0,05938 0,05821 0,05705 0,05592
-1,4 0,08076 0,07927 0,07780 0,07636 0,07493 0,07353 0,07215 0,07078 0,06944 0,06811
-1,3 0,09680 0,09510 0,09342 0,09176 0,09012 0,08851 0,08692 0,08534 0,08379 0,08226
-1,2 0,11507 0,11314 0,11123 0,10935 0,10749 0,10565 0,10383 0,10204 0,10027 0,09853
-1,1 0,13567 0,13350 0,13136 0,12924 0,12714 0,12507 0,12302 0,12100 0,11900 0,11702
-1,0 0,15866 0,15625 0,15386 0,15151 0,14917 0,14686 0,14457 0,14231 0,14007 0,13786
-0,9 0,18406 0,18141 0,17879 0,17619 0,17361 0,17106 0,16853 0,16602 0,16354 0,16109
-0,8 0,21186 0,20897 0,20611 0,20327 0,20045 0,19766 0,19489 0,19215 0,18943 0,18673
-0,7 0,24196 0,23885 0,23576 0,23270 0,22965 0,22663 0,22363 0,22065 0,21770 0,21476
-0,6 0,27425 0,27093 0,26763 0,26435 0,26109 0,25785 0,25463 0,25143 0,24825 0,24510
-0,5 0,30854 0,30503 0,30153 0,29806 0,29460 0,29116 0,28774 0,28434 0,28096 0,27760
-0,4 0,34458 0,34090 0,33724 0,33360 0,32997 0,32636 0,32276 0,31918 0,31561 0,31207
-0,3 0,38209 0,37828 0,37448 0,37070 0,36693 0,36317 0,35942 0,35569 0,35197 0,34827
-0,2 0,42074 0,41683 0,41294 0,40905 0,40517 0,40129 0,39743 0,39358 0,38974 0,38591
-0,1 0,46017 0,45620 0,45224 0,44828 0,44433 0,44038 0,43644 0,43251 0,42858 0,42465
-0,0 0,50000 0,49601 0,49202 0,48803 0,48405 0,48006 0,47608 0,47210 0,46812 0,46414

148
FUNZIONE DI RIPARTIZIONE DELLA VARIABILE ALEATORIA
NORMALE STANDARDIZZATA: Z N(0, 1)

F(z) = Probabilità che Z assuma valori z

Z 0 1 2 3 4 5 6 7 8 9
0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586
0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535
0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409
0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173
0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793
0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240
0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490
0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524
0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327
0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891
1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214
1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298
1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147
1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91308 0,91466 0,91621 0,91774
1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189
1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408
1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449
1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327
1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062
1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670
2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169
2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574
2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899
2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643
2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736
2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807
2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861
3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,99900
3,1 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929
3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950
3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965
3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976
3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983
3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989
3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992
3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995
3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997
4,0 0,99997 0,99997 0,99997 0,99997 0,99997 0,99997 0,99998 0,99998 0,99998 0,99998

149
PERCENTILI DELLA VARIABILE ALEATORIA T DI STUDENT
PER g GRADI DI LIBERTA
ED UNA PROBABILITA RIPARTITA SU DUE CODE

/2 /2

-t( ) +t( )

0,1 0,05 0,02 0,01 0,001


g

1 6,314 12,706 31,821 63,656 636,578


2 2,920 4,303 6,965 9,925 31,600
3 2,353 3,182 4,541 5,841 12,924
4 2,132 2,776 3,747 4,604 8,610
5 2,015 2,571 3,365 4,032 6,869
6 1,943 2,447 3,143 3,707 5,959
7 1,895 2,365 2,998 3,499 5,408
8 1,860 2,306 2,896 3,355 5,041
9 1,833 2,262 2,821 3,250 4,781
10 1,812 2,228 2,764 3,169 4,587
11 1,796 2,201 2,718 3,106 4,437
12 1,782 2,179 2,681 3,055 4,318
13 1,771 2,160 2,650 3,012 4,221
14 1,761 2,145 2,624 2,977 4,140
15 1,753 2,131 2,602 2,947 4,073
16 1,746 2,120 2,583 2,921 4,015
17 1,740 2,110 2,567 2,898 3,965
18 1,734 2,101 2,552 2,878 3,922
19 1,729 2,093 2,539 2,861 3,883
20 1,725 2,086 2,528 2,845 3,850
21 1,721 2,080 2,518 2,831 3,819
22 1,717 2,074 2,508 2,819 3,792
23 1,714 2,069 2,500 2,807 3,768
24 1,711 2,064 2,492 2,797 3,745
25 1,708 2,060 2,485 2,787 3,725
26 1,706 2,056 2,479 2,779 3,707
27 1,703 2,052 2,473 2,771 3,689
28 1,701 2,048 2,467 2,763 3,674
29 1,699 2,045 2,462 2,756 3,660
30 1,697 2,042 2,457 2,750 3,646

40 1,684 2,021 2,423 2,704 3,551

60 1,671 2,000 2,390 2,660 3,460

1,645 1,960 2,326 2,587 3,291

150

Potrebbero piacerti anche