Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Sviluppare il modello di regressione multipla come estensione del modello di regressione semplice
Stimare i parametri della regressione
Calcolare gli indici di adattamento del modello ai dati
Valutare la significativit della relazione lineare e dei singoli coefficienti
Valutare il contributo di ciascuna variabile indipendente
Effettuare una previsione
Dal modello di regressione lineare semplice, in cui una sola variabile indipendente o esplicativa X viene
usata per prevedere il valore della variabile dipendente o risposta Y. si pu ottenere un modello migliore
prendendo in considerazione pi di una variabile esplicativa.
Per questo motivo, intendiamo affrontare lanalisi introducendo il modello di regressione multipla in cui si
fa ricorso a pi variabili esplicative per effettuare previsioni su una variabile dipendente.
Il prezzo e la spesa in attivit promozionali sono due dei fattori che determinano in maniera preponderante le
vendite di un prodotto. Supponete che una grande catena di negozi alimentari operante su scala nazionale
intenda introdurre una barretta energetica di basso prezzo, chiamata Omnipower. Le barrette energetiche
contengono grassi, carboidrati e calorie e forniscono rapidamente energie ai corridori, agli scalatori e agli
atleti in genere impegnati in lunghe ed estenuanti attivit sportive. Le vendite delle barrette energetiche sono
esplose negli ultimi anni e il grande magazzino ritiene che vi possa essere un buon mercato per la
Omnipower. Prima di introdurre la barretta in tutti i magazzini, la divisione di marketing della catena intende
stabilire leffetto che il prezzo e le promozioni allinterno dei negozi possono avere sulle vendite.
Un campione di 34 negozi della catena viene selezionato per una ricerca di mercato sulla Omnipower. I
negozi hanno tutti approssimativamente il medesimo volume di vendite mensili. Si prendono in
considerazioni due variabili indipendenti il prezzo in centesimi di una barretta Omnipower (X1) e la spesa
mensile per le attivit promozionali, espressa in dollari, (X2). La spesa promozionale comprende la spesa per
i cartelli pubblicitari, i tagliandi di sconto e i campioni gratuiti. La variabile dipendente Y il numero di
barrette di Omnipower vendute in un mese. Nella Tabella di seguito si riportano i valori osservati per le tre
variabili considerate.
1
Tabella 1 Vendite mensili, prezzo e spese promozionali di Ominipower
Al fine di tener conto di pi di una variabile indipendente, estendiamo il modello di regressione lineare
semplice, supponendo che tra la variabile dipendente e ciascuna delle variabili esplicative vi sia una
relazione lineare. Nel caso di p variabili esplicative, la relazione di dipendenza lineare della Y dai regressori
X1,X2,Xp formalizzabile nel modo seguente:
0 = intercetta
1 = inclinazione di Y rispetto alla variabile X1 tenendo costanti le variabili X2, X3, . . . , Xp.
2 = inclinazione di Y rispetto alla variabile X2 tenendo costanti le variabili X1, X3, . . . , Xp
3 = inclinazione di Y rispetto alla variabile X3 tenendo costanti le variabili X1, X2, X4, . . . , Xp.
p = inclinazione di Y rispetto alla variabile Xp tenendo costanti le variabili X1, X2, X3, . . Xp-1.
i = errore in corrispondenza dellosservazione i.
2
inoltre una variabile casuale che esprime la variabilit di Y non spiegata dalla relazione lineare con i
regressori si suppone che tale termine non abbia effetto sistematico e che quindi la sua distribuzione
normale con valore atteso nullo e la varianza finita .
~N(0 , 2)
Da ci deriva che anche la variabile dipendente Y sia una variabile casuale che condizionatamente ai
regressori ha distribuzione anchessa normale con valore atteso
Yi = 0 + 1 X1i +2 X2i +i
dove
0 = intercetta
1 = inclinazione di Y rispetto alla variabile X1 tenendo costanti le variabili X2.
2 = inclinazione di Y rispetto alla variabile X2 tenendo costanti le variabili X1
i = errore in corrispondenza dellosservazione i.
Confrontiamo questo modello con il modello di regressione lineare semplice dellequazione dato da:
Yi = 0 + 1 X1i +i
Nel modello lineare semplice, linclinazione 1 rappresenta la variazione che la variabile Y presenta in
corrispondenza di una variazione unitaria di X. Non si prende in considerazione nessunaltra variabile oltre
allunica variabile indipendente inclusa nel modello. Nel modello di regressione multipla dellequazione
linclinazione 1 ci dice come varia Y in corrispondenza di una variazione unitaria della variabile X1, quando,
tuttavia, si tiene conto anche degli effetti della variabile X2.
Come nella regressione semplice, i coefficienti di regressione campionari (b0, b1 e b2) vengono usati come
stimatori dei corrispondenti parametri della popolazione (0, 1 e 2). Pertanto, lespressione campionaria
dellequazione di un modello di regressione multipla con due variabili esplicative ha la forma seguente.
Y i = b0 + b1X1i + b2X2i
I valori dei coefficienti di regressione campionari si possono calcolare con il metodo dei minimi quadrati,
ricorrendo a pacchetti statistici o a fogli elettronici come Microsoft Excel.
La formula ottenuta minimizzando il quadrato degli errori che viene quindi calcolata la seguente:
b = X ' X X ' y
1
In cui la matrice X da dimensioni (34x3); la prima colonna sar formata da tutti 1 necessaria per il calcolo
dellordinata allorigine (intercetta).
3
[ ]
1 x 11 x 12
X= 1 . .
1 x n1 x n2
1
Avendo a disposizione la matrice X ' X e la matrice X ' y possibile ricavare il vettore dei
coefficienti utilizzando il prodotto matriciale:
b0=(0.9692*105355-0.0094*7702685-0.0005*44515800)=5837.5
b1=(-0.0094*105355+0.0001*7702685+0.0000*44515800)=-53.21
b2=(-0.0005*105355+0.0000*7702685+0.0000*44515800)=3.61
Lintercetta campionaria b0, pari a 5837.52, rappresenta il numero di barrette di Omnipower che ci si
aspetterebbe di vendere ogni mese se il prezzo e lammontare totale speso per lattivit promozionale fossero
entrambi uguali a $ 0.00. Tali valori tuttavia, al di fuori del range dei valori osservati sia per il prezzo che per
la spesa promozionale, non hanno alcun senso.
Linclinazione delle vendite di Omnipower rispetto al prezzo (b1 = 53.2173) ci dice che, per un dato
ammontare della spesa per lattivit promozionale, si dovrebbero vendere 53.2173 barrette in meno per ogni
centesimo di aumento del prezzo. Linclinazione delle vendite rispetto alla spesa per lattivit promozionale
(b2 = 3.6131) ci dice che, per un dato prezzo, si dovrebbero vendere 3.6131 barrette in pi per ogni
centesimo speso in pi in attivit promozionali. Tali stime permettono alla divisione di marketing di
prevedere leffetto che eventuali decisioni in merito al prezzo e allattivit promozionale possono avere sulle
vendite della barretta Omnipower. Per esempio, in base al modello stimato, si ritiene che per un dato
ammontare della spesa promozionale, una riduzione di 10 centesimi del prezzo
della barretta determinerebbe un aumento del numero di barrette vendute pari a 532.173. Dallaltro lato, per
un dato prezzo, un aumento della spesa promozionale di $ 100 determinerebbe un aumento del numero di
barrette vendute pari a 361.31 barrette.
4
COMMENTO: Interpretazione delle inclinazioni nel modello di regressione multipla
Abbiamo visto che i coefficienti in un modello di regressione multipla si devono considerare come coefficienti di
regressione netti: essi misurano la variazione della variabile risposta Y in corrispondenza della variazione di una
delle variabili esplicative, quando si tengono costanti le altre. Per esempio, nello studio delle vendite della
barretta Omnipower, abbiamo affermato che, per un dato negozio, in corrispondenza di una riduzione di un
centesimo del prezzo si venderebbero 53.22 barrette in pi, per un dato ammontare della spesa promozionale.
Analogamente, i valori dei coefficienti di regressione si potrebbero interpretare prendendo in considerazione pi
negozi simili, tutti con un medesimo ammontare della spesa promozionale. Per tali negozi, si prevede che una
riduzione del prezzo della barretta aumenterebbe le vendite di 53.22 barrette.
In maniera analoga, linclinazione delle vendite rispetto alla spesa promozionale, pu essere interpretata nella
prospettiva di diversi negozi simili, in cui la Omnipower ha un medesimo prezzo. Per questi negozi si ritiene che
la vendita di barrette Omnipower aumenterebbe di 3.61 barrette al mese per ogni dollaro in pi speso in attivit
promozionali.
Una volta stimata la relazione lineare fondamentale considerare la bont di adattamento del modello ai dati.
Ci viene misurata tramite R2
SSR SSE
R2= = 1
SST SST
che per la sua facilit dinterpretazione 1 viene spesso utilizzato come unica grandezza di riferimento. Nel
nostro caso il modello presenta un discreto adattamento ai dati R 2=0.75. Il coefficiente di determinazione
uguale a 0.7577 e, quindi, ci dice che il 75.77% della variabilit delle vendite di Omnipower spiegato dal
prezzo e dalle spese promozionali.
Poich noto che linclusione nel modello di una variabile X i anche se a basso contenuto
esplicativo fa aumentare R2 necessario confrontare tale valore con quello di R2 corretto;
questultimo infatti non risente delle inefficienze appena menzionate.
La formula che permette il passaggio dal primo al secondo indice la seguente:
[
R 2=1 1 R 2
n1
n p1 ]
1
Il valore di R2 viene ottenuto calcolando il rapporto tra 2 quantit la devianza di regressione ottenuta come somma dei quadrati
n
2
degli scarti tra i valori stimati della y e la media della variabile osservata SSR= y j y e la devianza totale ottenuta come
j=1
n
2
somme dei quadrati degli scarti tra y osservate e la loro media SST = y j y .
j=1
n
2 SSE 2
Nel caso si utilizzi la formula R = 1
SST utilizziamo la devianza di dispersione SSE= y j y j data
j=1
dalla somma dei quadrati delle differenze tra valori osservati della y e valori stimati.
5
In cui n sono il numero di osservazioni e p il numero delle variabili esplicative della regressione
stimata.
Per i dati relativi alle vendite della barretta Omnipower, poich R2 = 0.7577, n = 34 e p = 2,
[ 34 1
]
2
R adj
=1 1 R 2
34 2 1
[
=1 1 0. 7577
33
31 ]
=1-0.2579
=0.7421
Pertanto il 74.21% della variabilit delle vendite pu essere spiegato dal modello proposto, tenuto conto delle
numero di regressori e dellampiezza campionaria.
1.3. Il test per la velica della significativit del modello di regressione lineare multipla
Una volta valutata, sulla base dellanalisi dei residui, ladeguatezza del modello di regressione lineare
multipla, passiamo a verificare se ci sia una relazione significativa tra la variabile dipendente e linsieme
delle variabili esplicative. Dal momento che siamo in presenza di pi di una variabile esplicativa, lipotesi
nulla e quella alternativa vanno specificate nella maniera seguente:
H0: 1 = 2 = 0 (Non vi una relazione lineare tra la variabile dipendente e le variabili esplicative.)
H1: Almeno un j 0 (Vi una relazione lineare tra la variabile dipendente e almeno una delle
variabili esplicative.)
Come nel caso del modello di regressione lineare semplice, tale problema di verifica di ipotesi viene risolto
ricorrendo al test F, riassunto nella seguente:
VREG
F=
VDISP
dove Ft il valore critico sulla coda di destra di una distribuzione F con p e n p 1 gradi di libert;
altrimenti accettare H0.
Per il calcolo della F ci serviamo dunque dei dati della tabella che sintetizza lANOVA (Analysis of
Variance) del modello stimato. (Tabella 3).
6
Tabella 3 ANOVA per il test per la verifica della significativit dellinsieme dei coefficienti di regressione nel modello di
regressione multipla con p _ 2 variabili esplicative
La Tabella 3 riporta tutti i calcoli necessari per la costruzione del test F per lesempio relativo alle vendite
della Omnipower.
Se il livello di significativit scelto 0.05, dalla Tabella della distribuzione della F ricaviamo che il valore
critico (per una distribuzione F con 2 e 31 gradi di libert) approssimativamente uguale a 3.32, come
illustrato nella Figura. Il valore di F pu essere calcolato come visto in precedenza sulla base dei valori letti
nella tabella ANOVA.
Poich F = 48.48 > Ft = 3.32 o ancora poich il p-value = 0.000 < 0.05, possiamo rifiutare H0 e quindi
concludere che vi una relazione lineare tra almeno una variabile esplicativa (il prezzo e/o le spese di
promozione) e le vendite (Tabella 4)
Figura 1 Verifica della significativit dellinsieme dei coefficienti di regressione con un livello di significativit pari a 0.05 e 2
e 31 gradi di libert.
Nel Paragrafo precedente abbiamo introdotto un test di ipotesi sulla verifica della significativit della
relazione tra X e Y. In questo paragrafo introduciamo un test di ipotesi sullinclinazione della retta e
definiamo lintervallo di confidenza per la stima dellinclinazione
7
1.4.1 Test di ipotesi
La statistica test per la verifica dellipotesi 1 = 0 nel modello di regressione semplice per lequazione:
b1
t=
Sb
1
bk
t=
Sb
k
dove
p = numero di variabili esplicative
bk = inclinazione di Y rispetto alla variabile k tenendo costanti le altre variabili
Sbk=errore standard del coefficiente di regressione bk
t = statistica test con distribuzione t con n p 1 gradi di libert.
I risultati del test t per ciascuna delle variabili esplicative sono riportati nelloutput di SAS (Tabella 5)
H1: 2 0
b2
t=
Sb
2
Per un livello di significativit pari a 0.05, dalla Tabella ricaviamo che i valori della statistica t per 31 gradi
di libert sono 2.0395 e +2.0395 (cfr. Figura). Osserviamo inoltre che il p-value pari a 0.00000982 (9.2E-
06 in notazione scientifica).
8
Poich t = 5.27 > t31 = 2.0395 o ancora poich p-value = 0.00000982 > 0.05, rifiutiamo H0 e possiamo
concludere che vi una relazione significativa tra la variabile X2 (spese promozionali) e le vendite, tenendo
conto del prezzo X1.
Figura 2 Verifica della significativit del coefficiente di regressione con un livello di significativit pari a 0.05 e
31 gradi di libert
Si pu essere interessati a stimare uno dei coefficienti di regressione, anzich a valutarne la significativit.
Nel caso del modello di regressione multipla, lintervallo di confidenza per il generico coefficiente di
regressione k assume la seguente espressione
bk tn-p-1Sbk
Per esempio, lintervallo di confidenza per il coefficiente 1 in base allequazione dato dalla seguente
espressione:
b1 t31Sb1
Poich il valore critico di t per un livello di significativit pari a 0.95 e 31 gradi di libert uguale a 2.0395
(cfr. Tavola E.3), si ha:
-53.21573(2.0395)(6.8522)
-53.2157313.9752
-67.1925 1 -39.2421
Pertanto riteniamo che, dato leffetto della spesa promozionale, laumento di un centesimo del prezzo della
barretta Omnipower determini una riduzione del numero delle barrette vendute compresa tra 67.2 e 39.2.
9
Riteniamo che, per un livello di confidenza pari a 95%, questo intervallo stimi correttamente la vera
relazione esistente tra le variabili considerate.
Daltro canto, poich lintervallo trovato non comprende lo zero, possiamo concludere che X1 abbia un
effetto significativo sulla variabile dipendente.
1.5 La Mulitcollinearit
1
VIF j = 2
1 R j
seguito definito.
In presenza di due sole variabili esplicative, il coefficiente di determinazione della regressione di X1 su X2
ed identico a , il coefficiente di determinazione della regressione di X2 su X1. Se, ad esempio, vi sono tre
variabili esplicative, il coefficiente di determinazione della regressione di X1 su X2 e X3; il coefficiente di
determinazione della regressione di X2 su X1 e X3 e il coefficiente di determinazione di X3 con X1 e X2.Se le
variabili esplicative non sono correlate, il VIFj uguale a 1. Se le variabili esplicative sono altamente
correlate tra di loro, il VIFj elevato e potrebbe eccedere 10. Altri studiosi hanno una posizione pi prudente
e suggeriscono di correre a metodi di stima diversi dai minimi quadrati quando si in presenza di un VIFj
maggiore di 5.Tornando ai dati relativi alle vendite della barretta Omnipower, la correlazione tra le due
variabili esplicative, prezzo e spese promozionali, uguale a 0.0968. Pertanto, in base allequazione
1
VIF 1=VIF 2= 2
=1. 009
1 0 . 0968
1.6 La previsione
Una volta stimati i valori dei parametri della regressione la previsione viene calcolata semplicemente
applicando la relazione lineare trovata nel nostro caso:
Ci significa che per ottenere Y 1 cio il primo valore previsto della matrice di dati a nostra disposizione
(Tabella 1) dobbiamo semplicemente effettuare il seguente calcolo
1
Lerrore dunque ricavato per differenza
e 1 =Y 1 Y 1 =4141-3420.31=720.69
Inoltre se diamo una rappresentazione grafica ai residui vediamo che questi si dispongono casualmente.
1
1
Infine si potrebbe ipotizzare la scelta di un modello ridotto nel nostro caso quindi una regressione semplice
(utilizziamo come unica esplicativa la variabile Prezzo) al posto di quella multipla stimata in precedenza?
Per rispondere a tale domanda bisogna stimare la regressione lineare semplice.
Per quanto riguarda la scelta tra i due modelli, si procede con un test F.
Dev Disp _mod ello ridotto Dev Disp _mod ello completo / p1 p2
F=
Dev Disp _mod ello completo / n p11
Dove p1=numero di coefficienti del modello completo (nel nostro caso 2) e p 2=numero di coefficienti del
modello ridotto (nel nostro caso 1).
Il valore della F con 2 e 31 gradi di libert per un alfa pari a 0,05 3,32.
1
1