Sei sulla pagina 1di 14

A.A.

2017 / 2018

Laboratorio
del corso di
STATISTICA
Donata Bonino
donata.bonino@polito.it

Corso di Laurea in Pianificazione Territoriale, Urbanistica e


Paesaggistico-Ambientale
Regressione lineare con il SAS

Parte II:
regressione multivariata

➢ Regressione lineare ai minimi quadrati multivariata


➢ Esercizio

2
Regressione lineare ai minimi quadrati
multivariata

Suppongo di avere un set di m osservazioni di n variabili indipendenti e di


una variabile dipendente y:
{(x11,x21, … , xn1,y1), …, (x1m,x2m, … , xnm,ym)}
Possiamo estendere il concetto di modello di regressione univariato al
caso di più variabili indipendenti, cercando la funzione
Y = a1X1 + a2X2 + … + anXn + b

che minimizzi la somma dei quadrati degli errori tra osservazioni e stime.

m
f ( a, b) = [
∑ yi − (a1 x1i + a2 x2i + ... + an xni + b) ] 2

i= 1

Nota: par. 1.6 e cap. 8 di “Elementi di statistica per le applicazioni”, F. Pellerey 3


Regressione lineare ai minimi quadrati
multivariata

Modello di regressione: Y = a1X1 + a2X2 + … + anXn + b

variabile
dipendente
variabili
indipendenti

Residui della regressione: Ei = yi – Yi = yi - (a1x1 + … + anxn + b)

ATTENZIONE!
In questo caso, però, si richiede che le variabili indipendenti Xi
siano tutte correlate con Y, ma tra loro mutuamente indipendenti.
4
Regressione lineare ai minimi quadrati:
valutazione del modello

Dobbiamo anche in questo caso controllare il valore del coefficiente di


determinazione R2:
Somma dei quadrati
SS dei residui
R2 = 1− R
SSY Somma totale dei
quadrati

R2 ~ 0: gran parte della variabilità dei dati è nei residui, ovvero il


modello di regressione ipotizzato non la spiega

R2 ~ 1: i punti sono allineati lungo la retta di regressione  gran parte


della variabilità dei dati è nel modello

5
Regressione lineare ai minimi quadrati:
analisi dei residui

Anche nel caso della regressione multivariata è necessario validare il


modello ottenuto tramite l'esame dei residui, che ricordiamo debbono
essere indipendenti, normalmente distribuiti e con varianza
costante:

E [ Ei ] = 0

Var[ Ei ] = σ 2

6
Analisi multivariata

1) Dalla procedura corr controlliamo che:


- le variabili indipendenti siano tra loro scorrelate
- le variabili indipendenti siano tutte correlate con la variabile dipendente.

2) Nella procedura “Statistiche/Regressione lineare” definiamo il modello


multivariato dichiarando prima nelle variabili continue tutti i regressori
(sezione “Dati”), poi andando a specificare la dipendenza lineare nella
sezione “Modello”.

3) Validiamo il modello andando ad analizzare il coefficiente R2 e i residui.

7
Analisi multivariata
Esercizio:
Si sono raccolti informazioni sull’età, il peso e l’altezza dei ragazzi di una
scuola media e superiore. Si vuole descrivere il peso in funzione degli altri
parametri. Ovviamente, maschi e femmine hanno uno sviluppo fisico
diverso.
I dati sono contenuti nel data set HeightWeight.
Verificare eventuali relazioni per mezzo dell’analisi di regressione.

Analisi dei dati e analisi di correlazione


Il data set contiene 237 osservazioni. Non ci sono dati mancanti.
Una prima analisi con il processo “Elenca Dati” ci mostra come ci siano 111
osservazioni riguardanti femmine e 126 maschi.
Procediamo con l'analisi di correlazione sui due sottogruppi.

8
Sia nel caso del gruppo femminile (a
sinistra) che del gruppo maschile (a
destra), la tabella di correlazione mostra
come età e altezza (var. indipendenti)
siano entrambi correlati con la var.
dipendente peso (cerchio rosso), ma
anche tra di loro (cerchio blu)
9
Correlazione lineare… cont
Possiamo anche richiedere la matrice dei grafici di dispersione:

10
Esercizio… analisi di regressione
Confrontiamo il modello in cui il peso dipende solo dall'altezza (modello
univariato) con il modello multivariato in cui utilizziamo entrambe le variabili
indipendenti.

11
Esercizio… cont
Per le femmine, il coefficiente R2
passa da 0.5642 (modello
univariato) a 0.5884 (modello
multivariato). Per entrambi i
modelli i residui hanno varianza
non costante (anche se i dati
sono ben concentrati).

Modello
univariato
(residui
normali)
12
Modello multivariato
(dati femminili)
I residui hanno
normalità più dubbia

13
Analogamente per i
maschi, dove R2 passa
da 0.6245 (modello
univariato) a 0.6616
(modello multivariato).

In conclusione, dato che altezza


e età sono correlate tra loro, il
modello multivariato non migliora
rispetto a quello univariato:
l'informazione aggiunta non è
decisiva.
14

Potrebbero piacerti anche