Sei sulla pagina 1di 44

REGRESSIONE MULTIPLA

Regressione

• Uno degli interessi preminenti dello studio del


comportamento è quello di poterlo predire sulla
base della relazione tra quel comportamento ed
un altro

• La REGRESSIONE è un insieme di procedure


statistiche che consentono di usare le
informazioni che si hanno su una variabile per
predirne un’altra

2
• Studiare la relazione tra due variabili significa
descrivere in che modo una variabile “dipenda”
da un’altra

• Descrizione di come una variabile X


(variabile INDIPENDENTE = “causa”)
produce il variare di una variabile Y
(variabile DIPENDENTE= “effetto”)

Yi = a + bx i + e
3
Parametri

dove: a = intercetta, punto in cui la retta


incontra l’asse delle Y, rappresenta il
valore predetto di Y in
corrispondenza di X uguale zero
b =coefficiente angolare,
inclinazione della retta, parametro
della popolazione, rappresenta
l’incremento predetto di Y per un
incremento unitario di X
e = errore

4
Retta di regressione

Dato il modello lineare y* = a + b·X, la stima dei


parametri “a” e “b” avviene mediante un criterio
matematico chiamato
“criterio dei minimi quadrati”
E’ basato sulla minimizzazione di una funzione di
perdita tra i valori realmente osservati y e i valori
teorici del modello y*.
Retta di regressione

Y © = dati campionari
 = dati teorici

X1 X2 X3 X4 X5 X

6
Stima dei Parametri

Si dimostra che:

cov( X , Y ) Coefficiente
b=
s2X angolare

a = Y − bX Intercetta
ESEMPIO
ESEMPIO precedente

Misuriamo il peso e l’età in un gruppo di 6 bambini

6 coppie di valori
Età:X(mesi) Peso:Y(kg)
3 6 25

6 8 20

9 9 15

12 10
10

24 13
5

0
36 20 0 5 10 15 20 25 30 35 40
ESEMPIO

Sono già stati calcolati alcuni indici; riepiloghiamoli:

X = 15;Y = 11; sX2 = 132; sY2 = 20,667;cov = 51,5

cov( X , Y ) 51,5
b= b= = 0, 39
s2X 132

a = Y − bX a = 11 − 0,39  15 = 5,15

La retta ha pertanto equazione: Y=5,15+0,39X


9
Domanda

La retta che abbiamo appena trovato è un buon


modello? Spiega bene la variabilità dei dati? Si adatta
bene alla nuvola di punti che abbiamo disegnato?
Ok, tra le infinite rette del piano è la migliore, ma a
livello generale è un modello valido?

Necessità di definire
un indicatore di adattamento

10
Bontà di adattamento
Si dimostra che l’indice che misura la bontà di adattamento di una
retta di regressione è il coefficiente di determinazione r2

Essendo il 2
r =
cov 2
( X ,Y )
quadrato di r,
definito tra sX2 sY2
–1 e +1
0 r2  1

situazione di INCORRELAZIONE: situazione di MAX CORRELAZIONE:


la retta di regressione
la retta di regressione non
spiega nulla spiega tutto, passa per i dati
i dati sono allineati (crescenti o
i dati non presentano linearità decrescenti)

11
ESEMPIO precedente
Xi Yi Xi*Yi Xi 2 Yi2
3 6 18 9 36
6 8 48 36 64
9 9 81 81 81
12 10 120 144 100
24 13 312 576 169
36 20 720 1296 400
90 66 1299 2142 850

cov( X , Y ) 51,5
r = = = 0, 986
sX sY 132  20.667

r2 = 0,972
Modello
ottimo
ANALISI DI UN MODELLO

L’analisi statistica di un modello di regressione è


costituita normalmente da vari passi:
1. SCELTA DEL MODELLO
2. CALCOLO (o stima) DEI PARAMETRI
3. VALUTAZIONE DELLA SIGNIFICATIVITA’ DEI
PARAMETRI
4. VALUTAZIONE DELLA BONTA’ DEL MODELLO
5. EVENTUALE RIDEFINIZIONE DEL MODELLO

Questi passi vanno ripetuti fino a che non si trova un


modello “soddisfacente”

13
Domanda

E se le variabili indipendenti
(METRICHE)
che potrebbero spiegare la
variabile dipendente
(METRICA)
sono molte?

14
Modello di Regressione Multipla
Modello matematico per variabili su scala almeno ad
intervalli.
In genere si tratta di un modello lineare sia nei
parametri che nelle variabili, del tipo

y = a0 + a1x1 + a2 x2 + ... + ak xk
Quando ha senso…
1. Le variabili indipendenti non devono essere troppe
(principio della parsimonia)
2. Deve esistere una struttura di correlazione lineare
importante tra la V.D. e le V.I.
3. Ci può essere una struttura di correlazione tra le
V.I. (correlazioni troppo alte tra le indipendenti
portano a problemi di multicollinearità).
4. Le relazioni tra VI e VD devono essere maggiori
delle relazioni tra VI.
5. Le relazioni tra variabili devono essere di tipo
lineare
6. Assenza di valori e variabili outliers
Ipotesi e Assunzioni
1. Assenza di errori di specificazione del modello
2. Assenza di errori di misurazione
3. Variabilità non nulla
4. Assenza di collinearità
5. Omoschedasticità tra gli errori (media nulla,
varianza costante, normalità distributiva, assenza
di autocorrelazione)
Assunzione Principale
Come per tutte le tecniche multivariate, ancor di più
per la Regressione Multipla è FONDAMENTALE un
trattamento preliminare dei dati, al fine di eliminare
variabili e valori outliers.

- Grafici
- Analisi con valori trasformati standardizzati
- Test di Normalità
- Analisi dei Dati Mancanti
Obiettivi
1. individuare le variabili indipendenti con maggiore
potere esplicativo, ovvero che meglio spiegano
la VD
2. ricercare la combinazione lineare delle variabili
indipendenti che permettono la migliore
spiegazione della VD, ovvero costruire un
modello matematico
3. Prevedere il livello/valore della VD in funzione di
certi valori noti dei predittori, ovvero fare
previsioni
Esempio
Struttura di correlazione
(Analizza > Correlazione > Bivariata)

VD
La variabile dipendente sara’ il salario corrente, le
variabili indipendenti potenziali le altre.

Analizziamo i possibili problemi della matrice di


correlazione, in verde evidenziamo le situazioni
“positive”, in rosso quelle “negative”
Metodi di stima (Regressione > Lineare)
Inserisci (Enter): Vengono immesse tutte le variabili nel
modello.
Per passi (Stepwise): Procede come il modello Forward, ma
ad ogni variabile aggiunta guarda se è possibile una eliminazione
Backward di una delle variabili precedentemente inserite nel
modello. Il procedimento si ferma quando con i livelli di
significatività fissati non sono possibili né nuovi inserimenti né
nuove eliminazioni.
Esempio con stima a blocchi/Inserisci

Bontà di adattamento del modello

Non significativi, occore ristimare il modello!!!!


Coefficienti
Non standardizzati: ad una variazione unitaria della
VI indica la variazione della VD. Dipende dall’unità
di misura della VD. Sono i coefficienti da utilizzare
nel modello

STANDARDIZZATI: indica l’impatto della VI sulla


VD, al netto dell’unità di misura. I coefficienti
standardizzati sono confrontabili tra loro.
TEST t SUI COEFFICIENTI

test di significativita’ su un singolo parametro


sistema di ipotesi
H0: j=0
H1: j 0
funzione test
ˆ j ˆ j
t(x) = =
ˆ ˆ j ) std .err.
var(

sotto H0 si distribuisce come una v.c. t di


Student con (N-k) gradi di libertà.
• regola di decisione

individuato il valore critico sulle tavole t*:

- se |t(x)| è maggiore di t*  rifiuto H0


- se |t(x)| è minore di t*  accetto H0

ovvero

verifico se la probabilità associata alla funzione


test
risulta maggiore o minore di .
Modello ristimato
Esempio con Regressione Stepwise
Analisi dei residui
Analisi dei residui
Confronto
I risultati dei due metodi sono diversi.
Il migliore e’ certamente il metodo stepwise, perché
tiene conto di tutti i possibili miglioramenti.

Un’alternativa del metodo a blocchi/inserisci è di


eliminare di volta in volta la variabile meno
significativa, e non in blocco tutte quelle non
significative. Così facendo avremmo “perso” la
variabile “Anni di Lavoro”
COLLINEARITA’
OVVERO, CORRELAZIONE ECCESSIVA TRA VI

Si riconosce quando c’e’ eccessiva correlazione tra VI,


a volte maggiore di quella tra VI e VD. Altri sintomi
sono l’Error standard elevato, una difficile separabilità
e interpretabilità dei coefficienti, un R2 elevato ma
pochi coefficienti significativi, indicatori di collinearità
sballati.
Indici di collinearità
È la situazione in cui una o più variabili indipendenti
sono funzioni lineari di altre variabili indipendenti
Tolleranza: è la proporzione della sua varianza non
spiegata dalle altre variabili indipendenti dell'equazione
(deve essere superiore a 0,5)
1. Fattore di inflazione della varianza (VIF): Il
reciproco della tolleranza. All'aumentare del fattore
d'inflazione della varianza aumenta anche la varianza
del coefficiente di regressione, rendendo instabile la sua
stima. Valori alti di questo fattore indicano
multicollinearità (deve essere inferiore a 2)
Soluzione alla collinearità
1. Aggregare le VI più correlate
2. Eliminare una VI troppo correlata con un’altra
3. Effettuare un’Analisi Fattoriale preliminare al fine
di trovare fattori latenti sottostanti
4. Abbandonare la regressione lineare per modelli più
complessi, tipo i modelli ad equazioni strutturali
5. Specificare meglio il modello
ESEMPIO 2
Campione di 250 studenti (secondo anno LT 2020/219
VD: Quanto sei felice (scala a 5 passi)
VI: Sette dimensioni di ITAPI-7 (score metrici, test di
personalità)

Domanda di ricerca: la felicità dipende dai tratti di


personalità?
Variabili immesse/rimossea
Variabili
Modello Variabili immesse rimosse Metodo
1 Introversione, Immaginazione, Empatia, Difensivita, Coscienziosita, . Inserisci
b
Vulnerabilita, Dinamicita
a. Variabile dipendente: Quanto sei felice?
b. Sono state immesse tutte le variabili richieste.

Riepilogo del modello


R-quadrato Errore std. della
Modello R R-quadrato adattato stima
1 ,299a ,089 ,063 ,760
a. Predittori: (costante), Introversione, Immaginazione, Empatia, Difensivita,
Coscienziosita, Vulnerabilita, Dinamicita

ANOVAa
Somma dei
Modello quadrati gl Media quadratica F Sign.
1 Regressione 13,732 7 1,962 3,394 ,002b
Residuo 139,884 242 ,578
Totale 153,616 249
a. Variabile dipendente: Quanto sei felice?
b. Predittori: (costante), Introversione, Immaginazione, Empatia, Difensivita, Coscienziosita,
Vulnerabilita, Dinamicita
Regressione con variabili dummy
E se nel modello volessimo introdurre una variabile
categorica, per esempio la Categoria Lavorativa, con k
distinte modalità??

Occorre introdurre k-1 nuove variabili dicotomiche (o


binarie) per rappresentare tutte le categorie della
variabile.

Le variabili dicotomiche possono essere inserite


nell’equazione di regressione come predittori di variabili
quantitative
Esempio
Nel modello iniziale si considerino anche le variabili Genere
(maschio/femmina) e Categoria Lavorativa (impiegato /
funzionario / dirigente).

Il modello iniziale era nelle seguenti esplicative:


X1=salario iniziale
X2=età
X3=anni di studio
X4=anni di lavoro

Siano:
X5 il genere
X6 e X7 la categoria lavorativa
Esempio
X5 assume valore 0 per i maschi e 1 per le femmine

X6 assume valore 0 o 1: 1 per gli impiegati, 0 negli


altri casi
X7 assume valore 0 o 1: 1 per i funzionari, 0 negli
altri casi.

Quindi:
Impiegati: X6=1, X7=0
Funzionari: X6=0, X7=1
Dirigenti: X6=0; X7=0
Esempio
Esempio

Potrebbero piacerti anche