Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
2017 / 2018
Laboratorio
del corso di
STATISTICA
Donata Bonino
2
2. analisi grafica dei dati
3
2. analisi grafica dei dati
4
3. Analisi di correlazione
Eseguo un'analisi di correlazione tra le variabili, preliminare alla ricerca di un
eventuale modello lineare.
5
4. Analisi di regressione:
Scelgo price come variabile dipendente. Dato che le due variabili indipendenti age
e bidders hanno una mutua correlazione bassa, ma sono entrambe correlate con
price, le scelgo entrambe come regressori. Il fatto che non siano indipendenti non
rende questo modello ottimale.
6
Modello: price = intercetta + c1 * age + c2 * bidders
7
1) Omogeneità della varianza dei residui (graficamente) contro i predittori (variabili
indipendenti): accettabile.
8
2) Normalità dei residui: i dati si dispongono lungo una retta, ma ci sono delle
oscillazioni. Le code in particolare si discostano dalla retta.
Possiamo accettare la normalità dei residui con delle riserve.
9
5. Analisi univariata.
Può essere utile confrontare tra loro il modello multivariato e i possibili modelli
univariati. Investigo quindi separatamente le due coppie di variabili (price e age,
price e bidders).
10
Modello 1: price = interc + coeff * age
Il coefficiente R2 è abbastanza buono, 0.5332, così anche i residui. Ci sono
delle oscillazioni, ma le code non si discostano:
11
Proviamo ancora il modello senza intercetta...
model price=age
12
2) Normalità dei residui: accettabile
13
Conclusioni
L'analisi della bontà del fit in termini di R2, normalità e omogeneità dei residui porta
ad accettare sia il modello multivariato, in cui il prezzo degli orologi dipende dalla
loro età e dal numero di offerte d'asta, sia il modello in cui il prezzo degli orologi
dipende solo dalla loro età, senza intercetta. Dai risultati ottenuti, il modello
univariato descrive meglio la variabilità del prezzo!
Questo potrebbe essere spiegato dall'incerta correlazione lineare tra prezzo e
offerte d'asta: probabilmente la relazione tra queste due variabili è non lineare,
quindi un modello che le comprenda entrambe non può essere semplicemente
lineare.
Inoltre, secondo il nostro miglior modello (univariato senza intercetta), un orologio
nuovo (età = 0) ha un prezzo uguale a zero! Non dobbiamo però dimenticare che i
dati in nostro possesso riguardano solo orologi con un'età di almeno 100 anni,
quindi è ragionevole che questo modello NON si applichi a orologi nuovi.
Per quanto riguarda infine la possibile dipendenza del numero d'offerte d'asta dal
prezzo e dall'età (altra indagine ragionevole), escludiamo la prima relazione per la
considerazione precedente, e la seconda per la correlazione nulla tra le variabili.
14