Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Analisi di un dataset in R
Autori: Sabrina Cuomo, Chiara Ferraioli, Francesco Ferraù, Davide Gigante
Indice
1 Introduzione 5
1.1 Obiettivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Programma utilizzato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Dataset analizzato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Analisi preliminare 6
2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Indici sintetici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Istogrammi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5 Scatterplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1 Introduzione
1.1 Obiettivo
Lo scopo di questa relazione è quello di analizzare e commentare un dataset assegnato, sfruttando le nozioni
apprese durante il corso di Statistica Applicata.
Più nello specifico, l’obiettivo è quello di trovare un modello statistico che descriva la relazione tra la variabile
dipendente y attraverso una o più variabili indipendenti, che verranno descritte nella sezione 1.3. La relazione
sarà impostata in modo tale che per ogni argomento ci sia un’introduzione dedicata ai richiami teorici ed una
seconda parte in cui essi vengono applicati sul dataset.
2 Analisi preliminare
2.1 Introduzione
In questa sezione verrà effettuata un’analisi preliminare dei dati tramite gli strumenti della Statistica De-
scrittiva. Questa branca della statistica permette di sintetizzare e rappresentare efficacemente le informazioni
presenti in un insieme di dati, detto popolazione, tuttavia senza indagare sulle relazioni causali tra le variabili
in esame. In molti casi pratici purtroppo sono presenti dei vincoli che rendono impossibile l’analisi dell’intera
popolazione, per cui la procedura obbligata è quella di estrarne un sottoinsieme, detto campione. Una volta
ottenuto il campione tramite diverse possibili tecniche di campionamento, si applicano gli strumenti della
Statistica Descrittiva per rappresentare, sintetizzare e descrivere i dati in esame.
• indici di tendenza centrale, che hanno lo scopo di indicare intorno a quali valori tendono ad addensarsi
i valori della caratteristica di interesse;
• indici di dispersione, che hanno lo scopo di dare una misura della variabilità nelle osservazioni.
2.3 Boxplot
Il Boxplot è uno strumento che permette di rappresentare graficamente la distribuzione di un campione
attraverso alcuni indici sintetici, più nello specifico:
• minimo;
• primo quartile;
• mediana;
• terzo quartile;
• massimo;
I boxplot per ogni regressore possono essere ottenuti facilmente in R attraverso la funzione boxplot(), e sono
rappresentanti in figura 1.
Si noti che nessun boxplot presenta outliers: valori anomali o estremi dei dati, genericamente dovuti ad er-
rori di misurazione ed eventi eccezionali. Essi si discostano significativamente dalla maggior parte dei valori e
possono influire negativamente sulla descrizione del campione. La loro assenza, di conseguenza, è un fattore
significativamente positivo.
2.4 Istogrammi
Un campione, oltre che dagli indici, può essere rappresentato dalla propria distribuzione di frequenza, pre-
sentata in forma tabulare e/o grafica, rispettivamente attraverso le tabelle di frequenza e/o gli istogrammi.
Questa distribuzione si basa sul concetto di frequenza: il numero di volte che un valore specifico o un intervallo
di valori appare in un insieme di dati.
In R è possibile costruire l’istogramma (figura 2) di ciascun regressore attraverso la funzione hist(). In
particolare, il parametro booleano freq è di rilevante importanza, perché controlla se l’istogramma deve essere
visualizzato come frequenze assolute o relative:
• Se freq = TRUE (valore predefinito), l’istogramma mostra le frequenze assolute, ovvero il numero di
osservazioni in ogni classe di intervalli;
A giudicare dagli istogrammi, i regressori sembrano essere distribuiti come una Normale. È necessario, dunque,
effettuare il test di ipotesi:
H : X ∼ N (µ, σ 2 )
0 i
H : X ∼
1 i ̸ N (µ, σ 2 )
Per verificare l’ipotesi nulla si è scelto di utilizzare il Normal Q-Q plot, un grafico che mostra il confronto tra
quantili empirici e quantili teorici, in questo caso la distribuzione Normale. Se i dati seguono la distribuzione
Normale, i punti sul Q-Q plot devono in maniera più o meno precisa essere distribuiti su una retta.
In R è possibile costruire il Q-Q plot (figura 3) di ciascun regressore usando la funzione qqggplot()
della libreria ggpubr. Analizzandoli, è possibile affermare che tutti i regressori sono distribuiti con buona
approssimazione come una variabile aleatoria Normale, accettando quindi l’ipotesi H0 .
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
x7_PixDensity
−1 0 1 2
0.4
0.5
0.4
0.4
0.3
0.3
0.3
Densità
Densità
Densità
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
0.35
0.30
0.30
0.3
0.25
0.25
0.20
0.20
Densità
Densità
Densità
0.2
0.15
0.15
0.10
0.10
0.1
0.05
0.05
0.00
0.00
0.0
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
x7_PixDensity
0.4
0.3
Densità
0.2
0.1
0.0
−2 −1 0 1 2
Valori
Q−Q plot for x1_ISO Q−Q plot for x2_FRatio Q−Q plot for x3_Time
5.0
5.0
2.5 2.5
2.5
Sample
Sample
Sample
0.0
0.0 0.0
−2.5 −2.5
−2.5
−5.0 −5.0
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
Theoretical Theoretical Theoretical
(a) Q-Q plot di ISO (b) Q-Q plot di FRatio (c) Q-Q plot di Time
Q−Q plot for x4_MP Q−Q plot for x5_CROP Q−Q plot for x6_FOCAL
5.0
5.0
2.5
2.5 2.5
Sample
Sample
Sample
0.0
0.0 0.0
−2.5 −2.5
−2.5
−5.0
−5.0 −5.0
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
Theoretical Theoretical Theoretical
(d) Q-Q plot di MP (e) Q-Q plot di CROP (f) Q-Q plot di FOCAL
2
Sample
−2
−4
−2 −1 0 1 2
Theoretical
2.5 Scatterplot
Un altro aspetto fondamentale nell’analisi preliminare dei dati è l’eventuale presenza di relazioni tra due o più
variabili, oggetto di studio dell’analisi di correlazione. Infatti, essa può in molti casi essere utilizzata sia al
fine di agire sulle variabili di input per condizionare le variabili di output, che per stimare o predire il valore di
una variabile, basandosi solo sui valori dell’altra. È possibile analizzare la relazione che intercorre tra due o più
variabili:
Gli scatterplot rappresentano ogni osservazione come un punto sul grafico, costituito da due assi ortogonali, in
cui vengono riportate le due variabili: l’indipendente sull’asse orizzontale e la dipendente sull’asse verticale. In
R è possibile ottenere lo scatterplot (figura 4) di ciascun regressore usando la funzione ggplot() della libreria
ggplot2.
Spesso è preferibile usare un coefficiente matematico, detto coefficiente di correlazione R. Risulta, date due
variabili aleatorie X e Y :
COV (X, Y )
R= p −1≤R≤1
Var(X)Var(Y )
Pertanto, quanto più il valore di R è prossimo a ±1 tanto più le variabili aleatorie dipendono linearmente tra
loro. Nel caso di n variabili aleatorie, R si presenta in forma matriciale con elementi del tipo:
vij
rij = p i, j = 1, 2, ..., n
Var(Xi )Var(Xj )
dove vij è l’elemento appartenente alla riga i-esima e alla colonna j-esima della matrice di varianze e
covarianze. Si noti che R misura il grado di dipendenza lineare.
In R è possibile costruire la matrice di correlazione e presentarla in una forma più intuitiva ed accattivante
tramite le funzioni cor() e corrplot().
Osservando il correlation plot (figura 5) si evince che:
• esiste una buona anticorrelazione tra ImageQuality e ISO. Tuttavia, a giudicare dallo scatterplot,
sembra sussistere una relazione di grado superiore tra le due;
• esiste una forte anticorrelazione tra ImageQuality e FRatio, che però potrebbe essere spiegata in
maniera migliore attraverso relazioni di grado superiore;
• esiste una forte anticorrelazione tra ImageQuality e CROP, descrivibile al meglio tramite una relazione
di grado superiore.
Queste sono le variabili da cui ci si aspetta un rilevante contributo per la costruzione del modello statistico,
argomento della sezione 3.
75 75 75
Image Quality
Image Quality
Image Quality
50 50 50
25 25 25
0 0 0
−1 0 1 −1 0 1 −1 0 1
ISO FRatio Time
75 75 75
Image Quality
Image Quality
Image Quality
50 50 50
25 25 25
0 0 0
−1 0 1 −1 0 1 −1 0 1
MP CROP FOCAL
Scatterplot
PixDensity
100
75
Image Quality
50
25
−1 0 1
PixDensity
y_ImageQuality
x7_PixDensity
x6_FOCAL
x2_FRatio
x5_CROP
x3_Time
x1_ISO
x4_MP
1
y_ImageQuality
0.8
x1_ISO 0.6
x2_FRatio 0.4
0.2
x3_Time
0
x4_MP
−0.2
x5_CROP −0.4
x6_FOCAL −0.6
−0.8
x7_PixDensity
−1
x7_PixDensity
x6_FOCAL
x2_FRatio
x5_CROP
x3_Time
x1_ISO
x4_MP
x1_ISO −0.45 1.00 0.05 −0.05 −0.02 0.04 0.04 −0.01 0.6
x2_FRatio 0.4
−0.52 0.05 1.00 −0.10 0.05 −0.05 0.00 −0.02
0.2
x3_Time 0.30 −0.05 −0.10 1.00 −0.03 −0.12 0.00 0.00
0
x5_CROP −0.50 0.04 −0.05 −0.12 −0.17 1.00 −0.06 −0.27 −0.4
x6_FOCAL −0.6
−0.04 0.04 0.00 0.00 0.05 −0.06 1.00 −0.04
−0.8
x7_PixDensity 0.06 −0.01 −0.02 0.00 0.79 −0.27 −0.04 1.00
−1
SQR
R2 = 0 ≤ R2 ≤ 1
SQTOT
dove SQR e SQTOT sono, rispettivamente, la variabilità dovuta alla regressione e la variabilità totale.
Esso rappresenta una misura dell’importanza relativa che l’intero insieme di variabili indipendenti Xi ha
nell’interpretare il comportamento della variabile dipendente Y ;
• il p-value, che rappresenta la probabilità, nell’Analisi di regressione, che i coefficienti delle variabili
indipendenti siano nulli o che le loro relazioni con la variabile dipendente siano casuali.
Y = β0 + β1 Xi + ε
3.2.1 ISO
Come già osservato nel paragrafo 2.5, ci si aspettava una correlazione di tipo lineare tra ISO e ImageQuality.
Questa correlazione è confermata dall’output della funzione summary() del modello. Infatti, il p-value risulta
pressoché pari a zero e il valore di R2 è relativamente alto:
Call:
lm(formula = y_ImageQuality ~ x1_ISO)
Residuals:
Min 1Q Median 3Q Max
-53.481 -10.909 -0.016 13.877 47.781
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 52.582 1.977 26.60 < 2e-16 ***
Nonostante il fatto che dal punto di vista lineare ISO abbia già un ottima incidenza su ImageQuality, è
deducibile dal suo diagramma di dispersione che possa descriverla in maniera ancora più accurata attraverso un
modello di regressione polinomiale. Dopo differenti prove, si è pervenuti al seguente modello ottimale:
Call:
lm(formula = y_ImageQuality ~ I(x1_ISO^2) + I(x1_ISO^3))
Residuals:
Min 1Q Median 3Q Max
-44.285 -13.458 0.268 14.257 46.562
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 60.656 3.036 19.979 < 2e-16 ***
I(x1_ISO^2) -8.350 2.376 -3.514 0.000673 ***
I(x1_ISO^3) -6.378 1.057 -6.034 2.93e-08 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
3.2.2 FRatio
Anche in questo caso ci si aspettava che tra FRatio e ImageQuality sussistesse una correlazione lineare,
confermata dall’output della funzione summary() del modello. Infatti, come per ISO, il p-value risulta pressoché
pari a zero e il valore di R2 relativamente alto:
Call:
lm(formula = y_ImageQuality ~ x2_FRatio)
Residuals:
Min 1Q Median 3Q Max
-66.115 -9.036 1.968 13.491 41.005
Coefficients:
Estimate Std. Error t value Pr(>|t|)
Anche in questo caso, tuttavia, risulta più accurato il seguente modello polinomiale:
Call:
lm(formula = y_ImageQuality ~ I(x2_FRatio) + I(x2_FRatio^2))
Residuals:
Min 1Q Median 3Q Max
-61.761 -9.651 0.881 11.264 43.261
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 62.885 2.809 22.385 < 2e-16 ***
I(x2_FRatio) -10.306 1.724 -5.977 3.78e-08 ***
I(x2_FRatio^2) -7.549 2.108 -3.580 0.000538 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
3.2.3 Time
Time è statisticamente significativo per la descrizione di ImageQuality, anche se non come i due precedenti
regressori. Le conferme arrivano dal p-value pressoché pari a zero e dal valore di R2 :
Call:
lm(formula = y_ImageQuality ~ x3_Time)
Residuals:
Min 1Q Median 3Q Max
-61.192 -8.681 1.620 13.052 46.421
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 55.071 2.073 26.562 < 2e-16 ***
x3_Time 6.496 2.106 3.084 0.00265 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
3.2.4 MP
Differentemente da quanto successo con i primi tre regressori, MP non risulta statisticamente utile per la co-
struzione del modello e ciò è dovuto al p-value superiore alla soglia dello 0.05 e al basso valore del coefficiente
R2 :
Call:
lm(formula = y_ImageQuality ~ x4_MP)
Residuals:
Min 1Q Median 3Q Max
-68.108 -9.674 2.582 12.582 49.409
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 54.638 2.167 25.21 <2e-16 ***
x4_MP -1.133 2.137 -0.53 0.597
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
3.2.5 CROP
Così come ISO e FRatio, CROP può entrare a far parte del modello ma non in forma lineare. Infatti per il
primo grado si ha:
Call:
lm(formula = y_ImageQuality ~ x5_CROP)
Residuals:
Min 1Q Median 3Q Max
-60.435 -11.338 1.532 14.109 36.612
Coefficients:
Estimate Std. Error t value Pr(>|t|)
Residuals:
Min 1Q Median 3Q Max
-65.205 -10.262 2.871 12.105 30.912
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 52.0018 1.8534 28.058 < 2e-16 ***
I(x5_CROP^3) -5.6753 0.8658 -6.555 2.61e-09 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
3.2.6 FOCAL
FOCAL risulta statisticamente inefficiente a causa del valore altissimo del p-value, per cui appare naturale
escluderlo dal modello finale:
Call:
lm(formula = y_ImageQuality ~ x6_FOCAL)
Residuals:
Min 1Q Median 3Q Max
-70.172 -9.529 2.178 13.861 50.172
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 54.6167 2.1719 25.147 <2e-16 ***
x6_FOCAL -0.9462 2.1329 -0.444 0.658
---
3.2.7 PixDensity
Per le stesse motivazioni di FOCAL, PixDensity può essere escluso da un futuro modello di regressione multipla:
Call:
lm(formula = y_ImageQuality ~ x7_PixDensity)
Residuals:
Min 1Q Median 3Q Max
-70.468 -9.566 2.914 13.306 50.973
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 54.690 2.164 25.273 <2e-16 ***
x7_PixDensity 1.270 2.175 0.584 0.56
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
dove yi sono i valori osservati della variabile dipendente, mentre ŷi i valori predetti dal modello. L’approccio per
la definizione del modello su cui ci si è basati è molto semplice: partendo delle considerazioni fatte nel paragrafo
3.2, sono state aggiunte gradualmente tutte le variabili che sono risultate staticamente efficaci per la descrizione
di ImageQuality. Ciascun nuovo modello è poi stato valutato sul test di ipotesi:
H : Miglioramento significativo
0
H : Miglioramento non significativo
1
Il primo modello lineare valutato è quello che prende in considerazione i tre regressori statisticamente più
rilevanti dell’analisi di regressione semplice fatta nel paragrafo precedente, ossia ISO, FRatio e CROP:
Residuals:
Min 1Q Median 3Q Max
-30.2794 -5.9895 0.4141 7.3235 24.9717
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 50.950 1.238 41.149 < 2e-16 ***
x1_ISO -8.669 1.178 -7.357 6.34e-11 ***
x2_FRatio -10.939 1.167 -9.372 3.32e-15 ***
x5_CROP -10.613 1.164 -9.114 1.19e-14 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Da cui si ricava:
• SQE = 13563;
• R2 = 0.7055;
Il secondo ed ultimo modello lineare preso in considerazione si ottiene aggiungendo l’ultima variabile esplicativa
che presenta maggiore correlazione con ImageQuality e che è stata ritenuta statisticamente efficace, ossia
Time:
Y = β0 + β1 ISO + β2 FRatio + β3 Time + β4 CROP
Residuals:
Min 1Q Median 3Q Max
-28.223 -5.606 1.472 7.770 23.218
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 51.278 1.188 43.169 < 2e-16 ***
x1_ISO -8.522 1.127 -7.561 2.51e-11 ***
x2_FRatio -10.573 1.121 -9.427 2.77e-15 ***
x3_Time 3.724 1.172 3.178 0.002 **
x5_CROP -10.180 1.121 -9.080 1.53e-14 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Da cui si ricava:
• SQE = 12259;
• R2 = 0.7338;
Questo secondo modello rappresenta un miglioramento, seppur non significativo, del primo, poiché presenta
2
R più alto e SQE più basso. L’idea è quella di trovare un modello polinomiale che riesca a descrivere in maniera
ancora più precisa la variabile ImageQuality.
Residuals:
Min 1Q Median 3Q Max
-28.025 -9.045 0.315 9.270 34.786
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 67.6751 2.6692 25.354 < 2e-16 ***
I(x1_ISO^2) -9.1902 1.7047 -5.391 5.10e-07 ***
I(x1_ISO^3) -6.4570 0.7615 -8.479 2.91e-13 ***
I(x2_FRatio) -11.3767 1.2981 -8.764 7.23e-14 ***
I(x2_FRatio^2) -5.5631 1.5946 -3.489 0.000738 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Da cui si ricava:
• SQE = 16368;
• R2 = 0.6446;
Residuals:
Min 1Q Median 3Q Max
-24.646 -9.199 0.138 7.921 32.417
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 68.0294 2.4398 27.883 < 2e-16 ***
I(x1_ISO^2) -8.7853 1.5601 -5.631 1.85e-07 ***
I(x1_ISO^3) -6.3973 0.6958 -9.194 9.51e-15 ***
I(x2_FRatio) -10.7978 1.1930 -9.051 1.92e-14 ***
I(x2_FRatio^2) -6.0001 1.4601 -4.109 8.48e-05 ***
x3_Time 5.4804 1.2309 4.453 2.33e-05 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Da cui si ricava:
• SQE = 13517;
• R2 = 0.7065;
Sebbene l’SQE sia ancora relativamente alto, è possibile accettare l’ipotesi nulla H0 poiché sia SQE che R2
rispettano i criteri di accettazione definiti nel paragrafo 3.3.
Si noti che avere un modello di regressione semplice più prestante rispetto ad altro non garantisce necessaria-
mente che poi, nella costruzione del modello di regressione multipla, non vi siano problemi. Ne è un esempio
proprio CROP, che nel modello di regressione semplice descriveva più accuratamente ImageQuality solo se
elevato al cubo, mentre adesso risulta più efficace il suo polinomio di primo grado.
Infatti, dalla funzione summary() del modello con CROP3 :
Call:
lm(formula = y_ImageQuality ~ I(x1_ISO^2) + I(x1_ISO^3) + I(x2_FRatio) +
I(x2_FRatio^2) + x3_Time + I(x5_CROP^3))
Residuals:
Min 1Q Median 3Q Max
-19.8142 -5.7421 -0.9599 5.8652 19.7832
Coefficients:
Residuals:
Min 1Q Median 3Q Max
-18.4538 -4.2618 -0.4429 4.0321 20.5672
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 65.9966 1.4977 44.064 < 2e-16 ***
I(x1_ISO^2) -8.0280 0.9540 -8.415 4.58e-13 ***
I(x1_ISO^3) -5.6512 0.4288 -13.180 < 2e-16 ***
I(x2_FRatio) -11.2267 0.7289 -15.402 < 2e-16 ***
I(x2_FRatio^2) -6.3610 0.8916 -7.134 2.08e-10 ***
x3_Time 4.3372 0.7567 5.732 1.22e-07 ***
I(x5_CROP) -9.2018 0.7289 -12.624 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
si deduce che, sebbene l’aggiunta di CROP3 rappresenti comunque un miglioramento rispetto al secondo modello,
esso conferisce un contributo minore rispetto al suo equivalente di primo grado.
Infatti, per CROP3 risulta:
• SQE = 6424.6;
• R2 = 0.8605;
• SQE = 4981.4;
• R2 = 0.8918;
Risulta evidente che, se l’ipotesi nulla H0 del confronto tra modelli poteva già essere accettata nel caso di CROP3 ,
sarà logicamente accettata anche nel caso di CROP, ma con maggiore forza, pervenendo alla definizione del terzo
modello:
Y = β0 + β1 ISO2 + β2 ISO3 + β3 FRatio + β4 FRatio2 + β5 Time + β6 CROP + ε
Sebbene il terzo modello sia già di per sé ottimo poiché è composto da tutti regressori ritenuti validi per
ImageQuality, non si è esclusa la possibilità della presenza di un regressore di interazione. Dopo differenti
prove, è stato ottenuto il modello finale:
Y = β0 +β1 ISO2 +β2 ISO3 +β3 FRatio+β4 FRatio2 +β5 Time+β6 CROP+β7 PixDensity2 ISO3 FOCAL +ε
Residuals:
Min 1Q Median 3Q Max
-18.1849 -3.6223 -0.4383 3.7971 20.4614
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 65.7718 1.3930 47.217 < 2e-16 ***
I(x1_ISO^2) -8.2255 0.8879 -9.264 8.09e-15 ***
I(x1_ISO^3) -5.9075 0.4037 -14.635 < 2e-16 ***
I(x2_FRatio) -11.1119 0.6780 -16.389 < 2e-16 ***
I(x2_FRatio^2) -6.4136 0.8286 -7.740 1.25e-11 ***
x3_Time 3.8594 0.7134 5.410 4.97e-07 ***
I(x5_CROP) -9.7827 0.6931 -14.115 < 2e-16 ***
I(x1_ISO^3):I(x6_FOCAL):I(x7_PixDensity^2) 1.0855 0.2740 3.962 0.000147 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Da cui si ricava:
• SQE = 4255.4;
• R2 = 0.9076;
Si noti che le variabili esplicative PixDensity e FOCAL erano state escluse preventivamente dal modello.
Infatti, non sono presenti singolarmente, ma sottoforma di interazione con gli altri regressori.
• Semplicità. Il metodo dei minimi quadrati è semplice da implementare e da interpretare. Le equazioni per
stimare i parametri sono ben conosciute e facili da calcolare;
• Affidabilità. Il metodo dei minimi quadrati è molto affidabile e produce risultati precisi se i presupposti
del modello sono soddisfatti;
• Stabilità. Il metodo dei minimi quadrati è stabile e produce risultati affidabili anche se i dati sono rumorosi
o contengono outlier.
Questo metodo impone che la somma dei quadrati delle differenze tra i valori osservati Yi e i valori stimati Ŷi
sia minima. Dal punto di vista algebrico:
n
( n )
X Xh i2
SQE = (yi − ŷi )2 = min yi − (β̂0 + β̂1 x1 + · · · + β̂n xn )
i=1 β̂i i=1
Per determinare questo minimo, basta risolvere il sistema di k + 1 equazioni nei k + 1 parametri incogniti che
si ottiene uguagliando a zero le sue derivate parziali prime. Talvolta è preferibile utilizzare la Design Matrix
X, una matrice di dimensione n(k + 1), dove n è la numerosità campionaria e k è il numero di parametri
del modello, in cui sono raccolte tutte le osservazioni dei regressori. Essa è legata ad Y = (y1 , . . . , yn )T dalla
seguente relazione:
Y = Xβ + ε
dove β = (β1 , . . . , βn )T e ε = (ε1 , . . . , εn )T . Sotto opportune ipotesi, il vettore di parametri stimati β̂ si ottiene
attraverso il prodotto:
−1
β̂ = XT X XT Y = arg min SQE(β)
β
In R non è necessario svolgere tutti questi calcoli, perché la funzione lm() fornisce già la stima ai minimi
quadrati nel suo campo coefficients. Facendo riferimento all’estratto 17, si ottiene:
=1−α
Da cui si ricava:
L = β̂i − t1−α/2;ν SE(β̂i )
U = β̂i + t1−α/2;ν SE(β̂i )
In R è possibile calcolare direttamente gli intervalli di confidenza di ciascun regressore semplicemente usando
la funzione confint(), da cui si ottengono:
Ȳ − E(Ŷ | X = x)
T = √ ∼ tn−k−1
S/ n
si distribuisce come una T di Student con ν = n − k − 1 gradi di libertà. Il procedimento è lo stesso del paragrafo
precedente:
√
L = Ȳ − t1−α/2;ν S/ n
√
U = Ȳ + t1−α/2;ν S/ n
5.2 Linearità
In un modello di regressione semplice la relazione lineare tra la variabile dipendente e quella indipendente è
verificabile attraverso lo scatterplot. Per verificarlo nel caso di più di un regressore, è possibile utilizzare la
proprietà di linearità: se il modello è lineare nei residui, allora i residui dovrebbero essere distribuiti in modo
uniforme intorno allo zero per ogni valore previsto. Dal punto di vista algebrico, questa ipotesi si traduce nella
formula:
n
X
êi = 0
i=1
La linearità può essere verificata attraverso uno scatterplot, confrontando i fitted values con i residui. L’ideale
è che i punti abbiano un andamento lineare intorno allo zero, proprio come avviene in figura 6, per cui si può
affermare che la prima ipotesi è verificata.
Residuals vs Fitted
3
20
10
Residuals
0
−10
37
84
−20
0 20 40 60 80 100
Fitted values
lm(y_ImageQuality ~ I(x1_ISO^2) + I(x1_ISO^3) + I(x2_FRatio) + I(x2_FRatio^ ...
Figura 6: Linearità
20
10
Sample
−10
−20
−2 −1 0 1 2
Theoretical
Figura 7: Normalità
5.3 Omoschedasticità
In un modello di regressione lineare è fondamentale che la varianza sia costante, ossia che vi sia omoschedasti-
cità. Per verificarlo è possibile valutare la pendenza della retta dello scatterplot tra i fitted values della variabile
dipendente e il modulo dei residui, la quale deve essere tendente allo zero. Usando la funzione summary() si
nota che questa seconda ipotesi è verificata:
Call:
lm(formula = abs(res) ~ modelX$fitted.values)
Residuals:
Min 1Q Median 3Q Max
-5.204 -2.976 -1.192 1.573 15.069
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.30585 1.20548 3.572 0.000551 ***
modelX$fitted.values 0.01274 0.02065 0.617 0.538680
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
5.4 Normalità
L’ipotesi di Normalità migliora sensibilmente tutte le proprietà degli stimatori per i parametri del modello,
per cui rappresenta un requisito auspicabile. Questa terza ipotesi può essere verificata tramite un Normal Q-Q
5.5 Incorrelazione
L’ultima ipotesi classica da verificare è l’incorrelazione degli errori. Infatti, una loro eventuale correlazione
può influire sulla precisione delle stime del modello: ciò potrebbe significare che non sono state catturate tutte
le relazioni presenti nei dati e che potrebbe essere necessario considerare un modello più complesso.
Per verificare l’incorrelazione degli errori è possibile usare il test di Durbin-Watson. Il test è basato sulla
differenza tra i quadrati delle successive differenze tra i residui e restituisce un valore reale, DW, compreso tra
0 e 4, dove:
• un valore vicino a 2 indica che non c’è correlazione seriale negli errori;
In R è possibile svolgere il test di Durbin-Watson con la funzione dwtest() della libreria lmtest:
data: modelX
DW = 1.9062, p-value = 0.3309
alternative hypothesis: true autocorrelation is greater than 0
Si noti che DW= 1.90, per cui si può assumere verificata anche quest’ultima ipotesi.
dove k è il numero di variabili esplicative e ℓ(θ̂) è la funzione di log-verosimigilianza del modello, calcolata
nel punto di massimo stimato θ̂;
dove k è il numero di variabili esplicative, ℓ(θ̂) è la funzione di log-verosimigilianza del modello, calcolata
nel punto di massimo stimato θ̂ e n è la numerosità campionaria.
Entrambi gli indici richiedono che i propri errori siano indipendenti e abbiano una distribuzione Normale, poiché
sfruttano la funzione di log-verosimiglianza. D’altro canto, si differiscono perché:
• AIC è un criterio di selezione basato sul trade-off tra la complessità del modello e la sua capacità di
descrivere i dati;
• BIC è un criterio di selezione basato sul trade-off tra la complessità del modello e la sua capacità di
prevedere i dati.
Indipendentemente da quale criterio venga considerato, tra due modelli si sceglie quello che lo minimizza.
Step: AIC=488.42
y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time + x4_MP + x5_CROP +
x6_FOCAL
Step: AIC=487.56
y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time + x4_MP + x5_CROP
Si noti che questo algoritmo ha generato un modello di regressione lineare in cui è presente anche la variabile MP,
che non era stata presa in considerazione poiché reputata statistcamente non rilevante per il modello (paragrafo
3.2.4).
y_ImageQuality ~ 1
Step: AIC=586.15
y_ImageQuality ~ x2_FRatio
Step: AIC=541.71
y_ImageQuality ~ x2_FRatio + x5_CROP
Step: AIC=498.99
y_ImageQuality ~ x2_FRatio + x5_CROP + x1_ISO
Step: AIC=490.89
y_ImageQuality ~ x2_FRatio + x5_CROP + x1_ISO + x3_Time
Step: AIC=487.56
y_ImageQuality ~ x2_FRatio + x5_CROP + x1_ISO + x3_Time + x4_MP
Anche in questo caso l’algoritmo ha generato un modello di regressione lineare, per giunta identico a quello della
backward selection, in cui è presente anche la variabile MP.
• la procedura backward è usata per verificare quale variabile deve essere eliminata dal modello;
• la procedura forward è usata per verificare quale variabile deve essere inserita nel modello;
Step: AIC=488.42
y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time + x4_MP + x5_CROP +
x6_FOCAL
Step: AIC=487.56
y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time + x4_MP + x5_CROP
Anche questo ultimo algoritmo ha generato un modello di regressione lineare, identico agli altri due, in cui è
presente la variabile MP.
Residuals:
Min 1Q Median 3Q Max
-29.912 -6.003 1.364 7.455 23.484
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 51.052 1.167 43.745 < 2e-16 ***
x1_ISO -8.574 1.104 -7.770 9.68e-12 ***
x2_FRatio -10.477 1.099 -9.536 1.78e-15 ***
x3_Time 3.609 1.148 3.143 0.00223 **
x4_MP -2.531 1.116 -2.268 0.02563 *
x5_CROP -10.612 1.114 -9.527 1.86e-15 ***
---
Sebbene questo modello riesca a descrivere efficacemente la variabile dipendente ImageQuality, come si
deduce dal valore del coefficiente di determinazione R2 e dal p-value, non è accurato quanto il modello ottenuto
precedentemente mediante le forme polinomiali dei regressori. Infatti, confrontando questa relazione con quella
del paragrafo 3.3.6, ossia:
Y = β0 +β1 ISO2 +β2 ISO3 +β3 FRatio+β4 FRatio2 +β5 Time+β6 CROP+β7 PixDensity2 ISO3 FOCAL +ε
tramite i criteri AIC e BIC, è evidente che il modello polinomiale sia migliore rispetto al modello lineare, poiché
li minimizza. Infatti risulta:
AICsub = 773.35 AICpol = 676.86
BICsub = 791.59 BICpol = 700.31
Dove gli indici con il pedice sub fanno riferimento al modello trovato con le procedure di Best Subset Selection,
mentre quelli con il pedice pol all’altro.
Y = 66.67 − 8.23 X12 − 5.9 X13 − 11.11 X2 − 6.41 X22 + 3.86 X3 − 9.78 X5 + 1.08 X6 X72 X13