Sei sulla pagina 1di 14

A.A.

2017 / 2018

Laboratorio
del corso di
STATISTICA
Donata Bonino

Corso di Laurea in Pianificazione Territoriale, Urbanistica e


Paesaggistico-Ambientale
Regressione lineare con il SAS:
esercizio

I dati contenuti nel dataset auction si riferiscono al prezzo di vendita all'asta


di orologi antichi, riportati insieme all'età dell'orologio e al numero di
persone che hanno fatto un'offerta d'asta.

E' possibile trovare una relazione tra i dati?

1. Prima analisi dei dati

Il file contiene 32 osservazioni di 3 variabili. Non ci sono dati mancanti.


E' ragionevole supporre che il prezzo di vendita dipenda dalle altre due variabili,
oppure che il numero di offerte d'asta dipenda dall'età dell'orologio e dal prezzo.

2
2. analisi grafica dei dati

Richiediamo i grafici di dispersione di price rispetto alle altre due variabili.


Possiamo usare diversi processi, tra cui “Grafico/Grafico a dispersione” oppure
“Statistiche/Esplorazione dei dati”.

E' possibile ipotizzare


una vaga dipendenza
lineare!

3
2. analisi grafica dei dati

E' difficile riconoscere


una dipendenza tra le
due variabili!

4
3. Analisi di correlazione
Eseguo un'analisi di correlazione tra le variabili, preliminare alla ricerca di un
eventuale modello lineare.

Le variabili age e price hanno un alto indice di correlazione positivo (0.73).


Le variabili bidders e price hanno un discreto indice di correlazione positivo (0.39),
mentre age e bidders hanno un indice di correlazione basso e negativo (-0.25).

5
4. Analisi di regressione:
Scelgo price come variabile dipendente. Dato che le due variabili indipendenti age
e bidders hanno una mutua correlazione bassa, ma sono entrambe correlate con
price, le scelgo entrambe come regressori. Il fatto che non siano indipendenti non
rende questo modello ottimale.

6
Modello: price = intercetta + c1 * age + c2 * bidders

Il coefficiente R2 è molto buono: 89.27%. E' necessario però validare il modello,


analizzandone graficamente i residui: normalità e varianza costante. Possiamo
scegliere tra i grafici proposti di default dalla procedura reg, oppure richiederne
espressamente con l'opzione plot.

7
1) Omogeneità della varianza dei residui (graficamente) contro i predittori (variabili
indipendenti): accettabile.

8
2) Normalità dei residui: i dati si dispongono lungo una retta, ma ci sono delle
oscillazioni. Le code in particolare si discostano dalla retta.
Possiamo accettare la normalità dei residui con delle riserve.

9
5. Analisi univariata.
Può essere utile confrontare tra loro il modello multivariato e i possibili modelli
univariati. Investigo quindi separatamente le due coppie di variabili (price e age,
price e bidders).

Modello 1: price = interc + coeff * age


Il coefficiente R2 è abbastanza buono, 0.5332, così anche i residui:

10
Modello 1: price = interc + coeff * age
Il coefficiente R2 è abbastanza buono, 0.5332, così anche i residui. Ci sono
delle oscillazioni, ma le code non si discostano:

11
Proviamo ancora il modello senza intercetta...

Modello 1: price = interc + coeff * age

Il coefficiente R2 è molto buono: 96.28%. Per validare il modello, analizzo i residui.


1) Omogeneità della varianza dei residui (graficamente): accettabile

model price=age

12
2) Normalità dei residui: accettabile

Modello 2: price = interc + coeff * bidders

R2 è molto basso: 0.1557. Viene confermata l'analisi del coefficiente di correlazione.


La variabile bidders, da sola, spiega molto poco della variabilità di price...

13
Conclusioni
L'analisi della bontà del fit in termini di R2, normalità e omogeneità dei residui porta
ad accettare sia il modello multivariato, in cui il prezzo degli orologi dipende dalla
loro età e dal numero di offerte d'asta, sia il modello in cui il prezzo degli orologi
dipende solo dalla loro età, senza intercetta. Dai risultati ottenuti, il modello
univariato descrive meglio la variabilità del prezzo!
Questo potrebbe essere spiegato dall'incerta correlazione lineare tra prezzo e
offerte d'asta: probabilmente la relazione tra queste due variabili è non lineare,
quindi un modello che le comprenda entrambe non può essere semplicemente
lineare.
Inoltre, secondo il nostro miglior modello (univariato senza intercetta), un orologio
nuovo (età = 0) ha un prezzo uguale a zero! Non dobbiamo però dimenticare che i
dati in nostro possesso riguardano solo orologi con un'età di almeno 100 anni,
quindi è ragionevole che questo modello NON si applichi a orologi nuovi.

Invece se si considera il numero di offerte ricevute come unica variabile di modello


non si riesce a descrivere il fenomeno dei prezzi.

Per quanto riguarda infine la possibile dipendenza del numero d'offerte d'asta dal
prezzo e dall'età (altra indagine ragionevole), escludiamo la prima relazione per la
considerazione precedente, e la seconda per la correlazione nulla tra le variabili.
14

Potrebbero piacerti anche