Sei sulla pagina 1di 27

Si chiama modello di regressione lineare multiplo l’espressione:

Y è la variabile dipendente o variabile d’interesse;


X1, … Xk sono le k variabili indipendenti o esplicative;
b0, ... bk sono i k+1 parametri incogniti;
ei è la differenza tra il valore osservato e quello stimato di Yi

Ai parametri incogniti si aggiunge la varianza s2 degli errori ei

Si tratta di una semplice estensione del modello di regressione lineare semplice


Il modello di regressione lineare multiplo:

Yi  b 0  b1 X 1i   b k X ki  ei
può essere espresso in forma compatta (con notazione matriciale)
nel modo seguente:

Y  X b e
nx1 nx k 1 k 1x1 nx1

Lo stimatore dei minimi quadrati di b è:

b   X ' X  X 'Y
ˆ 1

Sotto alcune ipotesi cui accenneremo più avanti, si dimostra che lo


stimatore OLS gode di proprietà di ottimalità (stimatore BLUE)
Dimostrazione stima minimi quadrati.
La somma dei quadrati degli errori è la quantità da minimizzare.
Nel calcolo matriciale essa è data dal prodotto scalare di ‘’e’’ per
se stesso. Pertanto il problema di minimizzazione è:
L’estensione rispetto al modello di regressione
lineare semplice è immediata (tranne alcune piccole
cose specifiche del modello multiplo: selezione delle
esplicative e multicollinearità)
 Se le variabili esplicative sono tra loro “molto”
correlate, il modello non è affidabile
 Le stime tendono a cambiare molto per
piccoli cambiamenti dei dati
L’indice di Tolleranza (Tolerance Ti) viene utilizzato per
stimare quanto una variabile indipendente è linearmente
correlata alle altre variabili indipendenti. Questo
parametro varia tra 0 e 1, indica la quantità di varianza
di una variabile indipendente che non è spiegata dalle
altre variabili indipendenti ed è uguale a: Ti = (1 – Ri2),
dove Ri2 è il coefficiente di determinazione ottenuto dalla
regressione della variabile indipendente i sulle altre
variabili indipendenti. Maggiore è l’indice di tolleranza,
minore è la varianza che quella variabile indipendente
condivide con le altre, maggiore è il contributo che essa
può fornire nella spiegazione della variabile dipendente.
Una variabile con un basso livello di tolleranza, invece,
condivide molta varianza con le altre, quindi il contributo che
può fornire nella spiegazione della variabile dipendente è
solitamente più limitato. Un valore particolarmente basso di
tolleranza (ad esempio, inferiore a .05) può risultare indicativo
di variabili che rischiano di causare problemi computazionali
nella stima dei coefficienti di regressione.

Il Variance Inflaction Factor (VIF) rappresenta il reciproco della


tolleranza. Valori bassi del VIF indicano bassa collinearità, valori
alti elevata collinearità. Valori oltre 15/20 sono indicativi di forte
collinearità.

8
 Il primo passo, ESSENZIALE PER UNA CORRETTA
SPECIFICAZIONE, è una approfondita ricerca
bibliografica.

 In modo facoltativo, posso ridurre l’insieme


iniziale di esplicative attraverso diversi metodi di
selezione statistica delle stesse. I principali sono:
 Selezione all’indietro
 Selezione in avanti
 Selezione stepwise
 Dall’insieme iniziale di variabili esplicative, si
procede alla rimozione di una variabile alla
volta. La variabile di volta in volta eliminata è
quella con la minore capacità di spiegare la
variabilità di Y. Il processo termina quando è
soddisfatta la regola di arresto.
 Si inserisce nel modello una variabile alla
volta in base alla capacità del predittore di
spiegare la varianza di Y. Il processo termina
quando è soddisfatta la regola di arresto.
 Il predittore è incluso nel modello se, in una
fase del processo di stima, è quella che più
delle altre spiega la variabilità di Y. Lo stesso
predittore può essere rimosso se, in altre fasi
del processo, la sua capacità esplicativa è
surrogata da altre variabili
 Per grandi linee, possiamo distinguere tra
fasi di un’analisi di regressione:
1. Fase preliminare esplorativa
2. Fase della stima del modello
3. Fase della valutazione del modello
Fase 1

 La identificazione delle esplicative da


includere (accurata analisi della bibliografia)
 Analisi esplorativa sulla relazione tra Y e le
esplicative
 Eventuale trasformazioni delle esplicative
(dummy)
Fase 1
Fase 1
Fase 1
Fase 1

 Tra le esplicative si possono includere variabili


qualitative, ma esse devono essere
ricodificate. Ecco come:
data una variabile qualitativa avente k
modalità, si creano k-1 variabili dicotomiche.
Ciascuna dummy assume valore 1 se la
modalità è presente nella variabile originaria
e 0 altrimenti
Fase 1

Mutabile
i Originaria dummy_A dummy_B dummy_C
1 A 1 0 0
2 A 1 0 0
3 B 0 1 0
4 B 0 1 0
5 C 0 0 1
6 C 0 0 1
7 A 1 0 0
8 B 0 1 0
9 C 0 0 1
10 A 1 0 0
Fase 2

 Tutti i software stimano i parametri del


modello.
 Il problema principale in questa fase, qualora
si decidesse di ridurre l’insieme iniziale di
esplicative, è:
 La scelta del metodo di selezione delle variabili
esplicative (i software consentono un trattamento
automatico del problema)
Fase 3

 Valutazione della forma funzionale scelta


 Bontà di adattamento
 Bontà logica
 (Analisi dei residui e verifica delle ipotesi
forti)
Fase 3

Il residuo ei è una stima dell’errore che commetto nel prevedere Yi


tramite Ŷi.
Per stimare la capacità di adattamento ai dati della retta di
regressione è opportuna una analisi grafica  grafico di dispersione
dei residui (ordinate) e dei valori di X (ascisse).
Se si evidenzia una relazione particolare il modello non è adeguato.

Nell’esempio a lato il modello di


regressione lineare non sembra
appropriato. Il grafico a destra
evidenzia lo scarso
adattamento ai dati del modello
(lack of fit). Quindi il modello
polinomiale è più appropriato.
Fase 3

 R2 = 1- RSS/TSS è una misura di bontà di


adattamento (RSS=devianza residua;
TSS=devianza totale)

 Il coefficiente di determinazione corretto è


sempre minore o al più uguale al coefficiente
di determinazione
Fase 3

Controllo del segno e del valore dei parametri

IMPORTANTE: ciascun coefficiente di regressione β indica la


variazione attesa della Y in corrispondenza di un incremento
unitario della X ad esso associata, fermo restando il valore
assunto da tutte le altre variabili
Gli errori positivi e negativi si compensano

La variabilità degli errori è costante


(omoschedasticità) e non dipende dai
valori delle X

Gli errori sono tra loro incorrelati.

In pratica, sebbene si accetti di commettere un errore


usando un modello, si vuole che tale errore sia NON
sistematico

I residui ei hanno una distribuzione di tipo normale:


Fase 3

Le ipotesi forti devono essere verificate allorché si


vuole utilizzare il modello per finalità inferenziali,
cioè allorché i dati a nostra disposizione sono un
campione statistico utilizzato per conoscere e
qualificare la relazione tra le X e la Y nella
popolazione di interesse

La verifica avviene attraverso test statistici ed analisi


grafiche sui residui
Fase 3

 Ispezione dei grafici sui residui


 (Test statistici)

Potrebbero piacerti anche