Sei sulla pagina 1di 14

A.A.

2017 / 2018

Laboratorio del corso di STATISTICA

Donata Bonino donata.bonino@polito.it

Corso di Laurea in Pianificazione Territoriale, Urbanistica e Paesaggistico-Ambientale

Regressione lineare con il SAS

Parte II:

regressione multivariata

Regressione lineare ai minimi quadrati multivariata Esercizio

2

Regressione lineare ai minimi quadrati multivariata

Suppongo di avere un set di m osservazioni di n variabili indipendenti e di una variabile dipendente y:

{(x 11 ,x 21 , … , x n1 ,y 1 ), …, (x 1m ,x 2m , … , x nm ,y m )}

Possiamo estendere il concetto di modello di regressione univariato al caso di più variabili indipendenti, cercando la funzione

Y = a 1 X 1 + a 2 X 2 + … + a n X n + b

che minimizzi la somma dei quadrati degli errori tra osservazioni e stime.

m

f a b

(

,

)

= [

y

i = 1

2 ( a x + a x + + a x + b ) ]
2
(
a x
+
a x
+
+
a x
+
b
)
]
i
1
1
i
2
2
i
n ni

Nota: par. 1.6 e cap. 8 di “Elementi di statistica per le applicazioni”, F. Pellerey

3

Regressione lineare ai minimi quadrati multivariata

Modello di regressione:

Y = a 1 X 1 + a 2 X 2 + … + a n X n + b

1 X 1 + a 2 X 2 + … + a n X n +
1 X 1 + a 2 X 2 + … + a n X n +
1 X 1 + a 2 X 2 + … + a n X n +

variabili

indipendenti

variabile

dipendente

Residui della regressione:

E i = y i – Y i = y i - (a 1 x 1 + … + a n x n + b)

ATTENZIONE!

In questo caso, però, si richiede che le variabili indipendenti X i

siano tutte correlate con Y, ma tra loro mutuamente indipendenti .

4

Regressione lineare ai minimi quadrati:

valutazione del modello

Dobbiamo anche in questo caso controllare il valore del coefficiente di determinazione R 2 :

R

2 = 1

SS

Somma dei quadrati dei residui

R 2 : R 2 = 1 SS Somma dei quadrati dei residui R SS Y

R

SS

Y

Somma totale dei quadrati

dei quadrati dei residui R SS Y Somma totale dei quadrati R 2 ~ 0: gran

R 2 ~ 0: gran parte della variabilità dei dati è nei residui, ovvero il modello di regressione ipotizzato non la spiega

R 2 ~ 1: i punti sono allineati lungo la retta di regressione gran parte della variabilità dei dati è nel modello

5

Regressione lineare ai minimi quadrati: analisi dei residui Anche nel caso della regressione multivariata è
Regressione lineare ai minimi quadrati:
analisi dei residui
Anche nel caso della regressione multivariata è necessario validare il
modello ottenuto tramite l'esame dei residui, che ricordiamo debbono
essere indipendenti, normalmente distribuiti e con varianza
costante:
E E
[
i ] = 0
2
Var E
[
] =
i
6

Analisi multivariata

1) Dalla procedura corr controlliamo che:

- le variabili indipendenti siano tra loro scorrelate

- le variabili indipendenti siano tutte correlate con la variabile dipendente.

2) Nella procedura “Statistiche/Regressione lineare” definiamo il modello multivariato dichiarando prima nelle variabili continue tutti i regressori (sezione “Dati”), poi andando a specificare la dipendenza lineare nella sezione “Modello”.

3) Validiamo il modello andando ad analizzare il coefficiente R 2 e i residui.

7

Analisi multivariata

Esercizio:

Si sono raccolti informazioni sull’età, il peso e l’altezza dei ragazzi di una scuola media e superiore. Si vuole descrivere il peso in funzione degli altri parametri. Ovviamente, maschi e femmine hanno uno sviluppo fisico diverso.

I dati sono contenuti nel data set HeightWeight.

Verificare eventuali relazioni per mezzo dell’analisi di regressione.

Analisi dei dati e analisi di correlazione

Il data set contiene 237 osservazioni. Non ci sono dati mancanti.

Una prima analisi con il processo “Elenca Dati” ci mostra come ci siano 111 osservazioni riguardanti femmine e 126 maschi.

Procediamo con l'analisi di correlazione sui due sottogruppi.

8

Sia nel caso del gruppo femminile (a sinistra) che del gruppo maschile (a destra), la
Sia nel caso del gruppo femminile (a sinistra) che del gruppo maschile (a destra), la
Sia nel caso del gruppo femminile (a sinistra) che del gruppo maschile (a destra), la

Sia nel caso del gruppo femminile (a sinistra) che del gruppo maschile (a destra), la tabella di correlazione mostra come età e altezza (var. indipendenti) siano entrambi correlati con la var. dipendente peso (cerchio rosso), ma anche tra di loro (cerchio blu)

indipendenti) siano entrambi correlati con la var. dipendente peso (cerchio rosso), ma anche tra di loro

9

Correlazione lineare… cont

Possiamo anche richiedere la matrice dei grafici di dispersione:

10

Correlazione lineare… cont Possiamo anche richiedere la matrice dei grafici di dispersione: 10

Esercizio… analisi di regressione

Confrontiamo il modello in cui il peso dipende solo dall'altezza (modello univariato) con il modello multivariato in cui utilizziamo entrambe le variabili indipendenti.

11

(modello univariato) con il modello multivariato in cui utilizziamo entrambe le variabili indipendenti. 11
(modello univariato) con il modello multivariato in cui utilizziamo entrambe le variabili indipendenti. 11
Esercizio… cont Per le femmine, il coefficiente R 2 passa da 0.5642 (modello univariato) a
Esercizio… cont
Per le femmine, il coefficiente R 2
passa da 0.5642 (modello
univariato) a 0.5884 (modello
multivariato). Per entrambi i
modelli i residui hanno varianza
non costante (anche se i dati
sono ben concentrati).
Modello
univariato
(residui
normali)
12
Modello multivariato (dati femminili) I residui hanno normalità più dubbia 13
Modello multivariato
(dati femminili)
I residui hanno
normalità più dubbia
13
Modello multivariato (dati femminili) I residui hanno normalità più dubbia 13
Analogamente per i maschi, dove R 2 passa da 0.6245 (modello univariato) a 0.6616 (modello
Analogamente per i
maschi, dove R 2 passa
da 0.6245 (modello
univariato) a 0.6616
(modello multivariato).
In conclusione, dato che altezza
e età sono correlate tra loro, il
modello multivariato non migliora
rispetto a quello univariato:
l'informazione aggiunta non è
decisiva.
14