Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
6.1 Introduzione
La metodologia della regressione lineare è stata trattata, secondo l approccio della stati-
stica descrittiva, nel capitolo VIII del volume di Zani (2002), pp. 183-224. Riprendiamo qui bre-
vemente i concetti già illustrati in quella sede.
Date due variabili quantitative, X e Y, l obiettivo di un analisi di regressione consiste nel-
lo studio della relazione lineare che lega tali fenomeni, con particolare riferimento alla dipen-
denza di uno dall altro. Per convenzione, indichiamo con Y la variabile dipendente e con X quella
esplicativa. Alcuni problemi di rilievo in ambito economico ed aziendale sono sintetizzati nel
Prospetto 6.1.
PROBLEMA 10. Un azienda vuole lanciare sul mercato un nuovo prodotto di largo consumo. Allo
scopo di calibrarne opportunamente il prezzo, conduce un esperimento ponendo in vendita il
prodotto a prezzi diversi in 12 supermercati di province differenti. In ciascun supermercato rileva
poi il numero di confezioni vendute nell arco di una settimana. Qual è la relazione che lega il
prezzo di vendita al numero di confezioni vendute? Ovviamente, l azienda ritiene che le varia-
zioni nelle vendite (variabile dipendente) siano spiegabili, almeno in parte, dalle variazioni nei
prezzi stabiliti (variabile esplicativa).
PROBLEMA 11. Al fine di conoscere meglio i comportamenti di acquisto dei propri clienti, una
grande catena di supermercati vuole sapere quale relazione esiste tra l impiego della carta fedeltà
e la tipologia di spesa effettuata. Una simile informazione può infatti consentire di migliorare la
politica commerciale della catena ed aumentare la fidelizzazione della clientela. In un campione
casuale di 90 consumatori, titolari della carta fedeltà, si è pertanto rilevato il numero di articoli
acquistati in una settimana (variabile esplicativa) e l incidenza percentuale degli sconti ottenuti
tramite la carta fedeltà nel medesimo periodo (variabile dipendente).
PROBLEMA 12. Si è rilevato il tasso di cambio yen/dollaro nel corso di alcuni anni. Si vuole veri-
ficare se esiste un trend lineare nell andamento osservato, cioè se il tasso di cambio (variabile
dipendente) può essere rappresentato in funzione del tempo (variabile esplicativa).
Date n osservazioni, il primo passo per valutare l esistenza d una relazione lineare tra le
variabili in esame consiste nel tracciare il corrispondente diagramma di dispersione (v. Zani,
2002, pp. 163-165 e pp. 185-187), che fornisce un indicazione visiva di immediata interpretazio-
ne.
L informazione quantitativa circa l entità di tale relazione è invece fornita
dall adattamento della retta di regressione, che qui è rappresentata come:
yi b0 b1 x i (i = 1, , n)
117
Nella retta di regressione:
y i è il valore teorico (stimato) della variabile dipendente Y in corrispondenza d un valore
pari a x i della variabile esplicativa X;
b0 è l intercetta;
b1 è il coefficiente di regressione.
Si osservi che in questo testo i parametri della retta di regressione sono indicati con i sim-
boli b0 e b1 anziché a e b, come avviene invece in Zani (2002).
Tabella 6.1 Dati relativi alla relazione tra prezzo di vendita di un nuovo prodotto e numero
di confezioni vendute in supermercati di province differenti (v. PROBLEMA 10 del Prospetto
6.1).
Supermercato Prezzo (in euro) Numero di confezioni vendute
1 1,55 410
2 1,60 380
3 1,70 350
4 1,60 400
5 1,50 440
6 1,70 380
7 1,45 450
8 1,60 370
9 1,75 350
10 1,50 460
11 1,75 360
12 1,50 420
Assumiamo come variabile dipendente (Y) il numero di confezioni vendute e come variabile e-
splicativa (X) il prezzo unitario di vendita in euro fissato in ciascun supermercato. In questo
esempio abbiamo a disposizione n = 12 coppie di osservazioni. Applicando le formule della sta-
tistica descrittiva, fondate sul metodo dei minimi quadrati (v. Zani, 2002, p. 188 e pp. 192-193),
si ottiene
n n n
n xi y i xi yi
i 1 i 1 i 1 COV ( X , Y )
b1 n n
= 337,5
VAR ( X )
n x i2 ( xi ) 2
i 1 i 1
n n n n
n yi xi2 xi xi y i
i 1 i 1 i 1 i 1
b0 n n
y b1 x = 937,5.
2 2
n x i ( xi )
i 1 i 1
118
Nelle espressioni precedenti, COV(X, Y) rappresenta la covarianza tra le due variabili, VAR(X) è
la varianza della variabile esplicativa X, y e x sono, rispettivamente, la media della variabile
dipendente Y e quella della variabile esplicativa X.
L interpretazione dei parametri b0 e b1 è la seguente.
Figura 6.1 Diagramma di dispersione e retta di regressione relativi ai dati della Tabella 6.1.
500
480
460
440
N. confezioni vendute (Y)
420
400
380
360
340
320
300
1.4 1.45 1.5 1.55 1.6 1.65 1.7 1.75 1.8
Prezzo (X )
ei = y i yi (i = 1, , n)
119
In pratica si osserva inoltre che a valori identici della variabile esplicativa xi possono
corrispondere valori differenti della variabile dipendente y i . Questo fenomeno è particolarmente
evidente se si prendono in esame i dati riportati nella Figura 6.1: l azienda fissa il medesimo
prezzo in supermercati di province differenti (ad esempio, vi sono 3 supermercati con prezzo di
vendita uguale a 1,5, altri 3 supermercati con prezzo di vendita uguale a 1,6, etc.), ma i risulta-
ti conseguiti in termini di numero di confezioni vendute sono di volta in volta diversi.
La variabilità nelle vendite riscontrata a parità di prezzo fa ritenere che esistano altri fat-
tori non controllati che influiscono sul numero effettivo di confezioni vendute. Tali fattori intro-
ducono un elemento di aleatorietà che non rende prevedibile con certezza il valore assunto dalla
variabile dipendente, anche se si conosce il corrispondente valore della variabile esplicativa. La
variabile dipendente (nell esempio il numero di confezioni vendute) può quindi essere rappresen-
tata come una variabile aleatoria.
In virtù di quanto detto, il modello di regressione lineare semplice è definito come segue.
1 è il coefficiente di regressione
Ei è un termine aleatorio che rappresenta l incertezza nel modello
1) Innanzitutto, è solitamente lecito aspettarsi che unità statistiche (quali individui o azien-
de) con caratteristiche analoghe si comportino in modo differente. Questo aspetto è già
stato illustrato con riferimento ai dati del PROBLEMA 10 del Prospetto 6.1 (v. Figura 6.1).
In tale esempio le motivazioni delle differenze nelle vendite riscontrabili a parità di prez-
zo sono di due tipi:
Il numero di confezioni vendute non dipende solo dal prezzo ma anche da altri fat-
tori economici, quali ad esempio il livello di ricchezza dei consumatori o la
quota di mercato dell azienda nelle diverse province. La relazione dovrebbe allora
essere estesa anche a tali ulteriori variabili esplicative, attraverso l impiego di un
modello di regressione lineare multipla.
Vi sono differenze residue nel numero di confezioni vendute (seppure di minore
entità) anche se si considerano province con caratteristiche simili sotto il profilo di
tutte le variabili economiche rilevanti. Tale variabilità è imputabile a quella miria-
de di elementi che possono incidere sui singoli comportamenti di acquisto, ma che
presi singolarmente sono di scarsa rilevanza e quindi di difficile identificazione e
misurazione. Si tratta pertanto di una fonte di variabilità di natura sperimentale,
che rende per un prezzo fissato il numero di confezioni vendute assimilabile
ad una variabile aleatoria.
2) In molte applicazioni di natura economica ed aziendale le n unità possono costituire un
campione casuale estratto da una popolazione più ampia. Ad esempio, ciò si verifica nel
PROBLEMA 11 del Prospetto 6.1. In tali situazioni, Yi è rappresentabile come una variabi-
le aleatoria per le stesse ragioni che hanno portato a definire le variabili aleatorie ele-
menti campionari nei precedenti capitolo di questo volume (si veda, ad esempio, il n.
3.2).
3) Un ulteriore fonte d incertezza è rappresentata dagli errori di misurazione. Così come
avviene nelle scienze sperimentali, infatti, anche molte grandezze d interesse economico
ed aziendale non sono misurabili con esattezza. Tali imprecisioni possono derivare sia
dalla difficoltà di definire con esattezza la variabile oggetto di studio (si pensi, ad esem-
pio, al caso del reddito), sia da errori involontari nella fase di rilevazione dei dati.
In tutti i casi, l incertezza presente nel modello è rappresentata attraverso l introduzione
del termine aleatorio E i .
L interpretazione della prima assunzione è del tutto immediata: essa afferma semplice-
mente che una funzione lineare è adeguata a rappresentare la relazione che lega Y a X.
121
Le ipotesi 2, 3 e 4 qualificano la variabile aleatoria E i come un termine di disturbo ca-
suale. Infatti, si assume che non vi siano effetti sistematici che possono distorcere la relazione
lineare (valore atteso nullo), che la variabilità degli errori non dipenda da altri fattori non con-
trollati dal ricercatore (varianza costante), che non ci sia una forma di dipendenza tra osservazio-
ni in unità statistiche differenti (assenza di correlazione).
La quinta assunzione definisce invece il differente ruolo delle due variabili dal punto di
vista dell esperimento statistico. Infatti, mentre la variabile dipendente Y è pensata come una va-
riabile aleatoria, la variabile esplicativa X è considerata fissa. Ciò è sicuramente vero nelle situa-
zioni in cui i valori x i sono scelti dal ricercatore. Ad esempio, nel PROBLEMA 10 del Prospetto
6.1 è l azienda che stabilisce a priori il prezzo di vendita del prodotto in ciascuna provincia e
quindi non c è alcun elemento di incertezza su x i .
Viceversa, se anche i valori della variabile esplicativa derivano da una procedura di rile-
vazione (come negli altri esempi del Prospetto 6.1), è molto probabile che essi siano affetti da er-
rori simili a quelli che influenzano Y. In questo caso, l analisi di regressione è tuttavia condotta
come se i valori di X fossero stati fissati a priori, in quanto il fine ultimo è solitamente lo studio
del comportamento di Y in corrispondenza degli specifici x i osservati. Il fatto che i valori x i sia-
no ritenuti fissi (e non realizzazioni di variabili aleatorie) costituisce la motivazione dell uso del-
la lettera minuscola nella loro rappresentazione all interno del modello di regressione lineare.
122
E (Yi ) 0 x
1 i (i = 1, , n).
Tale rappresentazione mostra che il valore atteso di ciascuna osservazione della variabile
dipendente Y non è costante come ipotizzato nei capitoli precedenti, in cui si supponeva E( Yi ) =
, ma varia in funzione lineare dei valori fissati di X. La retta di regressione 0 x costitui-
1 i
sce la cosiddetta parte sistematica del modello, mentre il termine di disturbo Ei ne rappresenta
la parte aleatoria:
Yi 0 x
1 i Ei E (Yi ) Ei (i = 1, , n).
Dalle assunzioni del Prospetto 6.2 deriva inoltre che la varianza di ciascuna osservazione
è costante ed uguale a 2 :
2
VAR( Yi ) = VAR( Ei ) =
Se ipotizziamo che il termine aleatorio Ei abbia distribuzione normale con media 0 e varianza
2
= 0,49, cioè che Ei ~ N(0, 0,49), le osservazioni y i della variabile dipendente Y sono allora
realizzazioni d una corrispondente variabile aleatoria
Yi ~ N(3 + 0,4 xi , 0,49).
In corrispondenza di alcuni valori xi fissati, nella Figura 6.2 sono riportati (in grigio) gli inter-
valli di valori della variabile dipendente del tipo
E (Yi ) 3 ; E (Yi ) 3 ,
123
99,7%. E quindi estremamente probabile che, in corrispondenza dei valori xi fissati, le osserva-
zioni y i della variabile dipendente siano effettivamente comprese negli intervalli rappresentati
con un tratteggio nella Figura 6.2.
Figura 6.2 Rappresentazione grafica della retta di regressione E(Yi) = 3 + 0,4 xi e degli in-
tervalli E(Yi) 3 , per = 0,7.
14
12
10
8
Y
0
0 2 4 6 8 10 12 14 16 18 20
X
n n
ei2 ( yi yi ) 2 min
i 1 i 1
le cui formule sono già state riportate nell Esempio del n. 6.1.
124
Ciò che distingue il modello dalla retta di regressione è invece l interpretazione di b0 e
b1 . Infatti, prima dell estrazione del campione non è noto quali saranno gli effettivi valori assunti
dalla variabile dipendente Y (ricordiamo che X è invece considerata fissa). Di questa incertezza si
tiene conto nel modello rappresentando ciascuna osservazione Yi come una variabile aleatoria.
Le stime dei parametri del modello sono funzione delle n osservazioni (variabili aleato-
rie) Y1 , , Yn . Anche tali stime possono dunque essere interpretate, prima dell estrazione, come
variabili aleatorie, che per coerenza con la notazione adottata nei capitoli precedenti indi-
chiamo con le lettere maiuscole B0 e B1 . Di conseguenza,
1) Valore atteso:
E (B1 ) 1
2) Varianza:
2 2
VAR ( B1 ) = = n
,
DEV ( X ) 2
( xi x)
i 1
dove DEV(X) è la devianza, cioè il numeratore della varianza, dei valori della variabile
esplicativa nel campione. Si può inoltre dimostrare che, sotto le ipotesi del Prospetto 6.2,
B1 è uno stimatore efficiente di 1 . Tale risultato è noto come Teorema di Gauss-
Markov .
2
Al numeratore di VAR( B1 ) compare la varianza della popolazione, che è solitamente
2
ignota. Nel contesto della regressione lineare semplice, una stima corretta di è data da
125
n n
2 1 1
s cor = (yi yi ) 2 = ei2 ,
n 2 i 1 n 2 i 1
2
OSSERVAZIONE. L espressione della stima corretta s cor nel modello di regressione lineare
semplice non coincide con quella utilizzata nei capitoli n. 4 e n. 5 con riferimento ai problemi su
2
. La differenza principale consiste nel fatto che qui il numeratore di s cor è definito in funzione
dei residui
ei = y i yi ,
anziché degli scarti dalla media
yi y,
in quanto nella regressione si suppone che il valore atteso delle osservazioni di Y non sia costante
ma vari in funzione (lineare) di X. Conseguentemente, anche il denominatore della stima si mo-
difica da n 1 a n 2, poiché occorre stimare due parametri ( 0 e 1 ) per poter calcolare y i e
2
quindi s cor .
2 2
Sostituendo l ignoto con la sua stima corretta s cor , otteniamo l errore standard di B1 .
3) Errore standard:
2
s cor s cor
s ( B1 ) n n
( xi x)2 ( xi x)2
i 1 i 1
126
discende che y i deve essere considerato innanzitutto come una stima del valore atteso di Yi .
Anche tale stima può essere pensata come la realizzazione d una variabile aleatoria, che gode di
proprietà simili a quelle illustrate per B1 .
B1 E ( B1 ) B1 1
Z ( B1 ) ,
s ( B1 ) s cor
n
( xi x)2
i 1
dove, per semplicità, prendiamo in esame il solo caso in cui è ignoto ed è stimato con s cor .
Come già anticipato, la forma di distribuzione della variabile aleatoria Z( B1 ) dipende in
modo cruciale dalla numerosità del campione.
127
Tale ipotesi ricalca quella già vista nei paragrafi 4.3.4 e 5.4 con riferimento ai problemi
su . L unica differenza ampiamente illustrata nel n. 6.2.2 consiste nel fatto che nella regres-
sione il valore atteso di ciascuna osservazione Yi non è costante ma è funzione lineare di xi . Se
anche l IPOTESI 6 è verificata, vale allora il risultato seguente.
2 2
Se Yi ~ N ( 0 x,
1 i ) con varianza ignota e stimata con
n
2
s cor ( yi yi ) 2 /(n 2) ,
i 1
B1 1
allora in piccoli campioni la variabile aleatoria Z ( B1 ) si distribuisce come una
s ( B1 )
t di Student con n 2 gradi di libertà.
Intervallo di confidenza
Nel caso di piccoli campioni, sotto l assunzione di distribuzione normale dell universo
(v. IPOTESI 6) e nell ipotesi abituale nella realtà che la varianza dell universo non sia nota,
l intervallo di confidenza per 1 assume la forma seguente.
P b1 t ( ) s ( B1 ) 1 b1 t ( ) s ( B1 ) 1
128
mentre t( ) è il percentile di livello in una variabile aleatoria t di Student con n 2 gradi di li-
bertà. In altri termini (v. n. 4.3.3), t( ) è il valore per cui
F t( ) ,
2
ove F(t) indica qui la funzione di ripartizione di t(n 2).
L intervallo sopra riportato è quello che, con probabilità 1 , contiene l incognito coef-
ficiente di regressione 1 . Il significato della probabilità ad esso associata è analogo a quanto già
illustrato nel n. 4.3.7.
Verifica di ipotesi
L ipotesi nulla che più frequentemente è sottoposta a verifica nel modello di regressione
lineare semplice è che il coefficiente di regressione sia uguale a zero:
H0: 1 = 0.
H1: 1 0,
che include sia il caso d una relazione lineare crescente ( 1 > 0) sia quello d una relazione linea-
re decrescente ( 1 < 0) tra Y e X.
b1 1 b1
z (b1 ) = = ,
s ( B1 ) s cor
n
( xi x)2
i 1
in quanto
E ( B1 ) 1 0
129
Conclusioni del test per la verifica di H0: 1 = 0, nel caso di piccoli campioni e livello di
2
significatività prefissato , e sotto l assunzione che Yi ~ N ( 0 1 xi , ) con 2 ignoto:
Ipotesi alternativa bilaterale
Se z( b1 ) < t( ) oppure z( b1 ) > +t( ) Rifiuto H0
Se t( ) z( b1 ) +t( ) Non posso rifiutare H0
Tali valori rappresentano le stime campionarie dei parametri ignoti 0 e 1 del modello di
regressione
Yi 0 1 xi Ei i = 1, , 12.
130
s cor 16,602
s ( B1 ) 47,926 .
n
0,12
( xi x)2
i 1
Affinché l inferenza su 1 possa procedere correttamente nel caso di piccoli campioni, occorre
introdurre l ipotesi di distribuzione normale di ciascun termine aleatorio Ei e conseguente-
mente anche di ciascuna osservazione Yi . Nell esempio considerato ciò significa che le diffe-
renze riscontrabili nel numero di confezioni vendute a parità di prezzo di vendita devono essere
attribuibili a fattori di natura accidentale. In una situazione reale di definizione del prezzo una
simile assunzione appare poco plausibile, poiché molto probabilmente vi sono fattori economici
ben definiti che determinano il numero di confezioni vendute anche a parità di prezzo (ad esem-
pio, il livello di ricchezza dei consumatori e la quota di mercato dell azienda nelle diverse pro-
vince: v. n. 6.2). Per semplicità, assumiamo comunque che l azienda abbia scelto per il proprio
esperimento 12 supermercati omogenei dal punto di vista di tali fattori economici di rilievo, così
che l ipotesi di normalità della distribuzione degli errori non sia irragionevole.
Poiché n = 12, la distribuzione di riferimento è una t di Student con 10 gradi di libertà. Dalle ta-
vole riportate in appendice, in corrispondenza di g = 10 e = 0,05, si legge:
t( ) = 2,228.
Di conseguenza, l intervallo di confidenza con probabilità 1 = 0,95 per l ignoto coefficiente
di regressione 1 risulta
337,5 2,228 47,926 ,
cioè
Ciò significa che, con una probabilità del 95%, l ignota riduzione media del numero di confezio-
ni vendute a seguito dell incremento di 1 euro del prezzo di vendita (nella popolazione di tutti i
consumatori) è compresa tra circa 444 e 230 unità.
337,5
z (b1 ) = = 7,04.
47,926
In questo esempio la teoria economica suggerisce la scelta dell ipotesi alternativa unilaterale si-
nistra
H1: 1 < 0,
che corrisponde ad una relazione inversa tra prezzo e quantità vendute. Al livello di significativi-
tà del 5%, il percentile di riferimento (con n 2 = 10 gradi di libertà) è allora
131
t(0,10) = 1,812
in quanto
F( 1,812) = 0,05
come richiesto in un test ad una sola coda (quella di sinistra). Dal momento che
z( b1 ) < 1,812
cade nella zona di rifiuto di H0, giungiamo alla conclusione sicuramente ragionevole dal punto
di vista della teoria economica che esiste effettivamente una relazione inversa tra prezzo di
vendita e numero di confezioni vendute del prodotto.
Similmente, il livello di significatività osservato per il test ad una coda (sinistra) è
P-value = P{ Z ( B1 ) 7,04},
B1 1
Z ( B1 ) = ~ N(0, 1)
s ( B1 )
Nel caso di grandi campioni non è quindi necessario introdurre l assunzione aggiuntiva
che la variabile dipendente Y presenti distribuzione normale nell universo (v. IPOTESI 6).
Le regole operative per il calcolo di intervalli di confidenza e per la verifica di ipotesi su
1 sono analoghe a quelle viste nel n. 6.4.1, con l unica differenza che occorre ora utilizzare i
percentili
z( )
132
tratti dalle tavole della variabile aleatoria normale standardizzata. Come in precedenza,
s cor
s ( B1 )
n
( xi x)2
i 1
rappresenta l errore standard, cioè la stima dell ignoto scostamento quadratico medio dello
stimatore B1 .
Intervallo di confidenza
Verifica di ipotesi
b1 b1
z (b1 ) = = .
s ( B1 ) s cor
n
( xi x)2
i 1
Conclusioni del test per la verifica di H0: 1 = 0, nel caso di grandi campioni e livello di
significatività prefissato :
Ipotesi alternativa bilaterale
Se z( b1 ) < z( ) oppure z( b1 ) > +z( ) Rifiuto H0
Se z( ) z( b1 ) +z( ) Non posso rifiutare H0
133
Similmente, il livello di significatività osservato (P-value) è calcolato assumendo che
l ipotesi nulla sia vera ( 1 = 0) e dunque che
Z ( B1 ) ~ N (0,1) .
Le regole di decisione corrispondenti ad ipotesi alternative unilaterali possono essere
ricavate secondo gli schemi descritti in precedenza.
cosicché
90
2 1 1
s cor ei2 2773,5 31,517 .
90 2 i 1 88
Inoltre,
90
( xi x ) 2 = DEV(X) = n VAR(X) = 90 107,356 = 9662,04
i 1
come si ricava dalla tavola della variabile aleatoria N(0, 1) riportata in appendice. Esso segnala
che è poco probabile ottenere un valore di Z ( B1 ) più estremo di quello effettivamente osserva-
to quando H0 è vera. Conseguentemente, riteniamo poco plausibile che lo scostamento standar-
dizzato z( b1 ) = 2,83 sia stato osservato per il solo effetto delle fluttuazioni campionarie.
ESEMPIO 2. Il PROBLEMA 12 del Prospetto 6.1 fa riferimento alla media mensile del tasso
di cambio yen/dollaro nel corso degli anni dal 1990 al 1995 (n = 72). L obiettivo dell analisi
consiste nell individuazione di un eventuale trend lineare nell andamento del tasso di cambio.
Pertanto (v. Zani, 2002, paragrafo VIII.9), il tasso di cambio costituisce la variabile dipendente
(Y), mentre la successione dei tempi da 1 a 72 (indicata con t anziché con X) è la variabile espli-
cativa. La Figura 6.3 fornisce la rappresentazione grafica dell andamento osservato del tasso di
cambio e della corrispondente retta di regressione.
Per tali dati si ottengono le stime
b0 150,65 e b1 0,869 ,
la cui interpretazione è la seguente:
la stima della media mensile del tasso di cambio yen-dollaro in corrispondenza del mese
precedente a quello della prima rilevazione (t = 0: dicembre 1989) è pari a 150,65;
135
da un mese all altro (variazione unitaria di t) il tasso di cambio yen-dollaro si è ridotto in
media di 0,869 punti percentuali.
Inoltre,
2
s cor 33,22 e s ( B1 ) 0,03268 .
Figura 6.3 Rappresentazione grafica dell andamento della media mensile del tasso di cam-
bio yen-dollaro in funzione del tempo (t = 1: gennaio 1990, , t = 72: dicembre 1995) e del-
la corrispondente retta di regressione.
180
160
140
Tasso di cambio
120
100
80
60
0 10 20 30 40 50 60 70 80
t
Anche in questo esempio il numero di osservazioni è sufficientemente elevato da far ritenere ac-
cettabile l approssimazione normale. Pertanto, l intervallo di confidenza per il coefficiente di re-
gressione 1 , al livello 1 = 0,95, risulta
P 0,869 1,96 0,03268 1 0,869 1,96 0,03268 0,95 ,
cioè
P 0,933 1 0,805 0,95 .
Il valore 1 0 non è compreso nell intervallo così ottenuto, il che fornisce un evidenza sostan-
ziale circa la presenza d una relazione lineare tra Y e t. Si perviene alla medesima conclusione sia
attraverso la procedura di verifica dell ipotesi nulla H0: 1 = 0, che conduce allo scostamento
standardizzato campionario
0,869
z (b1 ) = = 26,59,
0,03268
sia mediante il calcolo del livello di significatività osservato (a due code)
136
P-value = P{ Z ( B1 ) 26,59} + P{ Z ( B1 ) 26,59} 0.
Entrambe le misure forniscono infatti un evidenza fortissima che 1 0 .
A conclusione dell esempio è comunque importante notare che le 72 osservazioni disponibili del
tasso di cambio costituiscono una serie storica e dunque non rappresentano a rigore un cam-
pione casuale vero e proprio (v. commento al termine del n. 6.2.1). Alcune perplessità circa
l opportunità di applicare un modello di regressione lineare semplice possono inoltre sorgere
dall esame della ciclicità dei valori osservati del tasso di cambio, che si traduce in un evidente
sistematicità dei residui riportati nella Figura 6.4. In simili circostanze, le ipotesi sottostanti al
modello di regressione (v. Prospetto 6.2) possono risultare poco adeguate ed occorre apportare
modifiche sostanziali alle procedure inferenziali illustrate in questo capitolo. Rinviamo alla Bi-
bliografia per approfondimenti al riguardo.
Figura 6.4 Grafico dei residui dalla retta di regressione riportata nella Figura 6.3.
20
15
10
5
residui
0
0 10 20 30 40 50 60 70 80
-5
-1 0
-1 5
137
n n
( yi y) 2 ei2
i 1 i 1
= n
=1 n
( yi y) 2 ( yi M y )2
i 1 i 1
Pertanto, l indice di determinazione lineare può essere interpretato come la quota di de-
vianza (e quindi di varianza) della variabile dipendente Y che è spiegata dalla relazione lineare
con la variabile esplicativa X. Tale indice è una misura descrittiva, nel senso che non formula
alcuna ipotesi sulla natura delle osservazioni y i .
138
H1: Esiste una relazione lineare tra Y e X
cioè
Statistica test per la verifica della bontà del modello di regressione lineare semplice:
DEV (Y )
F= =
(1 ) /(n 2) DEV ( E ) /(n 2)
Dal punto di vista del calcolo, inoltre, la statistica F può essere ottenuta come segue
n n
( yi y)2 ( yi y) 2
i 1 i 1
F= n
= 2
s cor
ei2 /(n 2)
i 1
Infatti,
139
Dal punto di vista pratico, nel modello di regressione lineare semplice non è quindi ne-
cessario derivare la distribuzione campionaria della statistica F, ma è sufficiente riprendere la
procedura già descritta nel n. 6.4.1 (piccoli campioni) e nel n. 6.4.2 (grandi campioni) con rife-
rimento al test su 1 .
ESEMPIO. Consideriamo i dati relativi al PROBLEMA 12 del Prospetto 6.1, relativi al tasso
di cambio yen-dollaro e già analizzati nel n. 6.4.2. In tale applicazione l indice di determinazione
nel campione risulta
= 0,9099.
Conseguentemente, la statistica F assume il valore
0,9099
F= = 706,9
(1 0,9099) / 70
che si verifica immediatamente essere uguale a meno d una piccola differenza dovuta
all arrotondamento a
z (b1 ) 2 = ( 26,59) 2 .
Il livello di significatività osservato risulta quindi identico a quello già calcolato nel n. 6.4.2, in
quanto
P-value = P{F 706,9} = P{ Z (B1 ) 2 (26,59) 2 } = P{ Z ( B1 ) 26,59} + P{ Z ( B1 ) 26,59}.
Tale valore risulta praticamente nullo,
P-value 0,
e fornisce un evidenza fortissima dell esistenza d una relazione lineare tra la media mensile dei
tassi di cambio e la successione dei tempi (cioè 1 0 ).
Le motivazioni dell impiego della statistica F in luogo di come statistica test sono
innanzitutto di ordine teorico: la statistica F ha una distribuzione nota con il nome di
distribuzione F di Fisher, che si può trovare tabulata in numerosi testi (v. Bibliografia). Tale
risultato vale sia nel caso di grandi campioni, sia in quello di piccoli campioni sotto l assunzione
addizionale che la distribuzione di Y sia normale (v. IPOTESI 6 nel n. 6.4.1).
La corrispondenza tra F e z (b1 ) 2 può essere giustificata, a livello intuitivo, notando che
in presenza d una sola variabile esplicativa X l ipotesi nulla
H0: Non vi è alcuna relazione lineare tra Y e X
è equivalente a
H0: 1 = 0,
mentre
H1: Esiste una relazione lineare tra Y e X
è equivalente a
H1: 1 0.
A livello teorico, si può inoltre dimostrare che nel modello di regressione lineare sempli-
ce la devianza di regressione risulta
140
n
DEV( Y ) = b12 ( xi x)2 ,
i 1
cosicché
b12 DEV (Y )
z (b1 ) 2 = 2
= 2
= F.
s cor s cor
n
( xi x)2
i 1
OSSERVAZIONE. E utile ricordare che l equivalenza tra la verifica della bontà di adatta-
mento (tramite F) ed il test dell ipotesi 1 = 0 (tramite z( b1 )) vale soltanto nel caso in cui si as-
suma come ipotesi alternativa quella bilaterale
H1: 1 0.
Infatti, il test basato sulla statistica F corrisponde ad un test a due code in termini di z( b1 ), poiché
F > 0 anche quando z( b1 ) è negativo. Riprendiamo, ad esempio, i dati del PROBLEMA 10 già ana-
lizzati nel 6.4.1. In questo caso si ottiene
F = 49,59
a cui corrisponde
P-value = 0,00004.
Il livello di significatività osservato in corrispondenza di F (test a due code) è dunque doppio ri-
spetto a quello determinato nel n. 6.4.1 per la verifica di H0: 1 = 0 contro l ipotesi alternativa
unilaterale sinistra H1: 1 < 0.
141
conduce al rifiuto dell ipotesi nulla
H0: Non vi è alcuna relazione lineare tra Y e X,
poiché il livello di significatività osservato
P-value = P{F 8,03} = P{ Z ( B1 ) 2,83} + P{ Z ( B1 ) 2,83} = 0,00466
è minore dei valori di abitualmente fissati (5% o 1%). Dal confronto tra i valori di F e si ri-
cava quindi che la relazione tra il numero di articoli acquistati e l incidenza percentuale degli
sconti ottenuti tramite la carta fedeltà è significativa (cioè 1 è realmente diverso da 0 nella po-
polazione di tutti i consumatori), ma il modello che si ottiene non ha alcuna utilità interpretativa,
spiegando una quota del tutto trascurabile (anche se positiva) della variabilità della variabile
dipendente.
Tabella 6.2 Schema di tabella di analisi della varianza per il modello di regressione lineare
semplice.
Modello Gradi di Somme dei Medie dei quadrati F P-value
libertà quadrati
Regressione 1 n n n
P{F del va-
( yi y) 2
( yi 2
y ) /1 ( yi y)2
i 1 i 1 i 1
lore osservato
n nel campione}
ei2 /( n 2)
i 1
Residuo n 2 n n
ei2 ei2 /(n 2)
i 1 i 1
Totale n 1 n n
( yi y) 2 ( yi y ) 2 /(n 1)
i 1 i 1
1) Gradi di libertà
Per il modello di regressione i gradi di libertà sono uguali al numero di variabili
esplicative. Pertanto, nella regressione lineare semplice:
gradi di libertà = 1
Per il calcolo dei residui i gradi di libertà sono uguali al numero di osservazioni
diminuito del numero di parametri del modello. Pertanto, nella regressione lineare
semplice (v. n. 6.3):
gradi di libertà = n 2
142
In totale, se non si considera la relazione lineare con la variabile esplicativa,
l unico parametro ignoto del modello è la media della variabile dipendente. Per-
tanto, in analogia con quanto visto nei paragrafi 4.3.4 e 5.4,
gradi di libertà = n 1
4) Statistica F
La statistica F per la verifica della bontà di adattamento è quella già descritta nel n. 6.5.2:
n
( yi y)2
DEV (Y ) i 1
F= = n
DEV ( E ) /( n 2)
ei2 /(n 2)
i 1
5) P-value
La tabella di analisi della varianza riporta infine il livello di significatività osservato, de-
finito come la probabilità che la statistica test F assuma valori maggiori o uguali di quello
effettivamente calcolato nel campione quando
H0: Non vi è alcuna relazione lineare tra Y e X
è vera. Ricordiamo che, nel modello di regressione lineare semplice, tale P-value coinci-
de con quello che si ottiene nella verifica dell ipotesi nulla
H0: 1 =0
contro l ipotesi alternativa
H1: 1 0.
143
ESEMPIO. Nella Tabella 6.3 è riportato l output dell analisi della varianza per i dati della
Tabella 6.1, riferiti alla relazione tra prezzo di vendita e numero di confezioni vendute d un nuo-
vo prodotto (v. PROBLEMA 10 del Prospetto 6.1) e già analizzati nel n. 6.1 e nel n. 6.4.1.
I valori calcolati consentono di ottenere tutte le informazioni necessarie ai fini della verifica
dell ipotesi nulla
H0: Non vi è alcuna relazione lineare tra numero di confezioni vendute e prezzo di vendita,
che è chiaramente rifiutata (P-value molto < 0,1%). Inoltre, è immediato ricavare anche l indice
di determinazione lineare
DEV (Y ) 13.668,75
= = = 0,832
DEV (Y ) 16.425
il quale segnala che l 83,2% della varianza del numero di confezioni vendute può essere spiega-
to dalla relazione lineare con il prezzo di vendita. Anche da un punto di vista descrittivo, dun-
que, la relazione tra le due variabili può essere ritenuta abbastanza soddisfacente.
Tabella 6.3 Tabella di analisi della varianza per i dati della Tabella 6.1 (relazione tra prez-
zo di vendita e numero di confezioni vendute in 12 supermercati).
Modello Gradi di Somme dei Medie dei quadrati F P-value
libertà quadrati
Regressione 1 13.668,75 13.668,75 49,59 0,00004
Residuo 10 2.756,25 275,625
Totale 11 16.425
In particolare (v. Tabella 6.4), la funzione REGR.LIN restituisce sotto forma d una ma-
trice di dimensione (5 2):
i coefficienti stimati b1 e b0 ;
144
Tabella 6.4 Output della funzione REGR.LIN di Excel.
b1 b0
s ( B1 ) s ( B0 )
s cor
F (n 2)
DEV( Y ) DEV(E)
Tabella 6.5 Output dello strumento Regressione della componente aggiuntiva Analisi
dati di Excel per l esempio relativo al PROBLEMA 3 del Prospetto 6.1 (studio
dell andamento temporale del tasso di cambio yen-dollaro).
145
APPENDICE TAVOLE STATISTICHE
147
FUNZIONE DI RIPARTIZIONE DELLA VARIABILE ALEATORIA
NORMALE STANDARDIZZATA: Z N(0, 1)
z 0 1 2 3 4 5 6 7 8 9
-4,0 0,00003 0,00003 0,00003 0,00003 0,00003 0,00003 0,00002 0,00002 0,00002 0,00002
-3,9 0,00005 0,00005 0,00004 0,00004 0,00004 0,00004 0,00004 0,00004 0,00003 0,00003
-3,8 0,00007 0,00007 0,00007 0,00006 0,00006 0,00006 0,00006 0,00005 0,00005 0,00005
-3,7 0,00011 0,00010 0,00010 0,00010 0,00009 0,00009 0,00008 0,00008 0,00008 0,00008
-3,6 0,00016 0,00015 0,00015 0,00014 0,00014 0,00013 0,00013 0,00012 0,00012 0,00011
-3,5 0,00023 0,00022 0,00022 0,00021 0,00020 0,00019 0,00019 0,00018 0,00017 0,00017
-3,4 0,00034 0,00032 0,00031 0,00030 0,00029 0,00028 0,00027 0,00026 0,00025 0,00024
-3,3 0,00048 0,00047 0,00045 0,00043 0,00042 0,00040 0,00039 0,00038 0,00036 0,00035
-3,2 0,00069 0,00066 0,00064 0,00062 0,00060 0,00058 0,00056 0,00054 0,00052 0,00050
-3,1 0,00097 0,00094 0,00090 0,00087 0,00084 0,00082 0,00079 0,00076 0,00074 0,00071
-3,0 0,00135 0,00131 0,00126 0,00122 0,00118 0,00114 0,00111 0,00107 0,00104 0,00100
-2,9 0,00187 0,00181 0,00175 0,00169 0,00164 0,00159 0,00154 0,00149 0,00144 0,00139
-2,8 0,00256 0,00248 0,00240 0,00233 0,00226 0,00219 0,00212 0,00205 0,00199 0,00193
-2,7 0,00347 0,00336 0,00326 0,00317 0,00307 0,00298 0,00289 0,00280 0,00272 0,00264
-2,6 0,00466 0,00453 0,00440 0,00427 0,00415 0,00402 0,00391 0,00379 0,00368 0,00357
-2,5 0,00621 0,00604 0,00587 0,00570 0,00554 0,00539 0,00523 0,00508 0,00494 0,00480
-2,4 0,00820 0,00798 0,00776 0,00755 0,00734 0,00714 0,00695 0,00676 0,00657 0,00639
-2,3 0,01072 0,01044 0,01017 0,00990 0,00964 0,00939 0,00914 0,00889 0,00866 0,00842
-2,2 0,01390 0,01355 0,01321 0,01287 0,01255 0,01222 0,01191 0,01160 0,01130 0,01101
-2,1 0,01786 0,01743 0,01700 0,01659 0,01618 0,01578 0,01539 0,01500 0,01463 0,01426
-2,0 0,02275 0,02222 0,02169 0,02118 0,02068 0,02018 0,01970 0,01923 0,01876 0,01831
-1,9 0,02872 0,02807 0,02743 0,02680 0,02619 0,02559 0,02500 0,02442 0,02385 0,02330
-1,8 0,03593 0,03515 0,03438 0,03362 0,03288 0,03216 0,03144 0,03074 0,03005 0,02938
-1,7 0,04457 0,04363 0,04272 0,04182 0,04093 0,04006 0,03920 0,03836 0,03754 0,03673
-1,6 0,05480 0,05370 0,05262 0,05155 0,05050 0,04947 0,04846 0,04746 0,04648 0,04551
-1,5 0,06681 0,06552 0,06426 0,06301 0,06178 0,06057 0,05938 0,05821 0,05705 0,05592
-1,4 0,08076 0,07927 0,07780 0,07636 0,07493 0,07353 0,07215 0,07078 0,06944 0,06811
-1,3 0,09680 0,09510 0,09342 0,09176 0,09012 0,08851 0,08692 0,08534 0,08379 0,08226
-1,2 0,11507 0,11314 0,11123 0,10935 0,10749 0,10565 0,10383 0,10204 0,10027 0,09853
-1,1 0,13567 0,13350 0,13136 0,12924 0,12714 0,12507 0,12302 0,12100 0,11900 0,11702
-1,0 0,15866 0,15625 0,15386 0,15151 0,14917 0,14686 0,14457 0,14231 0,14007 0,13786
-0,9 0,18406 0,18141 0,17879 0,17619 0,17361 0,17106 0,16853 0,16602 0,16354 0,16109
-0,8 0,21186 0,20897 0,20611 0,20327 0,20045 0,19766 0,19489 0,19215 0,18943 0,18673
-0,7 0,24196 0,23885 0,23576 0,23270 0,22965 0,22663 0,22363 0,22065 0,21770 0,21476
-0,6 0,27425 0,27093 0,26763 0,26435 0,26109 0,25785 0,25463 0,25143 0,24825 0,24510
-0,5 0,30854 0,30503 0,30153 0,29806 0,29460 0,29116 0,28774 0,28434 0,28096 0,27760
-0,4 0,34458 0,34090 0,33724 0,33360 0,32997 0,32636 0,32276 0,31918 0,31561 0,31207
-0,3 0,38209 0,37828 0,37448 0,37070 0,36693 0,36317 0,35942 0,35569 0,35197 0,34827
-0,2 0,42074 0,41683 0,41294 0,40905 0,40517 0,40129 0,39743 0,39358 0,38974 0,38591
-0,1 0,46017 0,45620 0,45224 0,44828 0,44433 0,44038 0,43644 0,43251 0,42858 0,42465
-0,0 0,50000 0,49601 0,49202 0,48803 0,48405 0,48006 0,47608 0,47210 0,46812 0,46414
148
FUNZIONE DI RIPARTIZIONE DELLA VARIABILE ALEATORIA
NORMALE STANDARDIZZATA: Z N(0, 1)
Z 0 1 2 3 4 5 6 7 8 9
0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586
0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535
0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409
0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173
0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793
0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240
0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490
0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524
0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327
0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891
1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214
1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298
1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147
1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91308 0,91466 0,91621 0,91774
1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189
1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408
1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449
1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327
1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062
1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670
2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169
2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574
2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899
2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643
2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736
2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807
2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861
3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,99900
3,1 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929
3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950
3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965
3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976
3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983
3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989
3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992
3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995
3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997
4,0 0,99997 0,99997 0,99997 0,99997 0,99997 0,99997 0,99998 0,99998 0,99998 0,99998
149
PERCENTILI DELLA VARIABILE ALEATORIA T DI STUDENT
PER g GRADI DI LIBERTA
ED UNA PROBABILITA RIPARTITA SU DUE CODE
/2 /2
-t( ) +t( )
150