Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Regressione
2
• Studiare la relazione tra due variabili significa
descrivere in che modo una variabile “dipenda”
da un’altra
Yi = a + bx i + e
3
Parametri
4
Retta di regressione
Y © = dati campionari
= dati teorici
X1 X2 X3 X4 X5 X
6
Stima dei Parametri
Si dimostra che:
cov( X , Y ) Coefficiente
b=
s2X angolare
a = Y − bX Intercetta
ESEMPIO
ESEMPIO precedente
6 coppie di valori
Età:X(mesi) Peso:Y(kg)
3 6 25
6 8 20
9 9 15
12 10
10
24 13
5
0
36 20 0 5 10 15 20 25 30 35 40
ESEMPIO
cov( X , Y ) 51,5
b= b= = 0, 39
s2X 132
a = Y − bX a = 11 − 0,39 15 = 5,15
Necessità di definire
un indicatore di adattamento
10
Bontà di adattamento
Si dimostra che l’indice che misura la bontà di adattamento di una
retta di regressione è il coefficiente di determinazione r2
Essendo il 2
r =
cov 2
( X ,Y )
quadrato di r,
definito tra sX2 sY2
–1 e +1
0 r2 1
11
ESEMPIO precedente
Xi Yi Xi*Yi Xi 2 Yi2
3 6 18 9 36
6 8 48 36 64
9 9 81 81 81
12 10 120 144 100
24 13 312 576 169
36 20 720 1296 400
90 66 1299 2142 850
cov( X , Y ) 51,5
r = = = 0, 986
sX sY 132 20.667
r2 = 0,972
Modello
ottimo
ANALISI DI UN MODELLO
13
Domanda
E se le variabili indipendenti
(METRICHE)
che potrebbero spiegare la
variabile dipendente
(METRICA)
sono molte?
14
Modello di Regressione Multipla
Modello matematico per variabili su scala almeno ad
intervalli.
In genere si tratta di un modello lineare sia nei
parametri che nelle variabili, del tipo
y = a0 + a1x1 + a2 x2 + ... + ak xk
Quando ha senso…
1. Le variabili indipendenti non devono essere troppe
(principio della parsimonia)
2. Deve esistere una struttura di correlazione lineare
importante tra la V.D. e le V.I.
3. Ci può essere una struttura di correlazione tra le
V.I. (correlazioni troppo alte tra le indipendenti
portano a problemi di multicollinearità).
4. Le relazioni tra VI e VD devono essere maggiori
delle relazioni tra VI.
5. Le relazioni tra variabili devono essere di tipo
lineare
6. Assenza di valori e variabili outliers
Ipotesi e Assunzioni
1. Assenza di errori di specificazione del modello
2. Assenza di errori di misurazione
3. Variabilità non nulla
4. Assenza di collinearità
5. Omoschedasticità tra gli errori (media nulla,
varianza costante, normalità distributiva, assenza
di autocorrelazione)
Assunzione Principale
Come per tutte le tecniche multivariate, ancor di più
per la Regressione Multipla è FONDAMENTALE un
trattamento preliminare dei dati, al fine di eliminare
variabili e valori outliers.
- Grafici
- Analisi con valori trasformati standardizzati
- Test di Normalità
- Analisi dei Dati Mancanti
Obiettivi
1. individuare le variabili indipendenti con maggiore
potere esplicativo, ovvero che meglio spiegano
la VD
2. ricercare la combinazione lineare delle variabili
indipendenti che permettono la migliore
spiegazione della VD, ovvero costruire un
modello matematico
3. Prevedere il livello/valore della VD in funzione di
certi valori noti dei predittori, ovvero fare
previsioni
Esempio
Struttura di correlazione
(Analizza > Correlazione > Bivariata)
VD
La variabile dipendente sara’ il salario corrente, le
variabili indipendenti potenziali le altre.
ovvero
ANOVAa
Somma dei
Modello quadrati gl Media quadratica F Sign.
1 Regressione 13,732 7 1,962 3,394 ,002b
Residuo 139,884 242 ,578
Totale 153,616 249
a. Variabile dipendente: Quanto sei felice?
b. Predittori: (costante), Introversione, Immaginazione, Empatia, Difensivita, Coscienziosita,
Vulnerabilita, Dinamicita
Regressione con variabili dummy
E se nel modello volessimo introdurre una variabile
categorica, per esempio la Categoria Lavorativa, con k
distinte modalità??
Siano:
X5 il genere
X6 e X7 la categoria lavorativa
Esempio
X5 assume valore 0 per i maschi e 1 per le femmine
Quindi:
Impiegati: X6=1, X7=0
Funzionari: X6=0, X7=1
Dirigenti: X6=0; X7=0
Esempio
Esempio