Re Lazio Negru Ppo 2

UNIVERSITÀ DEGLI STUDI DI SALERNO
FACOLTÀ DI INGEGNERIA INFORMATICA

ANNO ACCADEMICO 2022/2023
Professor Fabio Postiglione
Progetto di Statistica Applicata
Analisi di un dataset in R
Autori: Sabrina Cuomo, Chiara Ferraioli, Francesco Ferraù, Davide Gigante
SALERNO, GENNAIO 2023

Università degli Studi di Salerno
Facoltà di Ingegneria Informatica
Indice
1 Introduzione 5
1.1 Obiettivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Programma utilizzato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Dataset analizzato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Analisi preliminare 6
2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Indici sintetici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Istogrammi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5 Scatterplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 Ricerca del modello di regressione 14

3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Modelli di regressione semplice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.1 ISO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.2 FRatio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.3 Time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.4 MP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.5 CROP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.6 FOCAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.7 PixDensity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Modelli di regressione multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3.1 Primo modello lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3.2 Secondo modello lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.3 Primo modello polinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.4 Secondo modello polinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.5 Terzo modello polinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.6 Modello finale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4 Stima puntuale ed intervallare 27

4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2 Stima puntuale dei parametri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.3 Stima intervallare dei parametri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.4 Stima del valore atteso di ImageQuality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Progetto di Statistica Applicata Pagina 2/37

5 Diagnostica del modello di regressione 29

5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2 Linearità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.3 Omoschedasticità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.4 Normalità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.5 Incorrelazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
6 Confronto tra modelli statistici 32

6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.2 Backward selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.3 Forward Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.4 Stepwise Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.5 Scelta del modello finale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.6 Considerazioni finali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

Elenco degli estratti di codice

1 Modello di regressione lineare con ISO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Modello di regressione polinomiale con ISO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Modello di regressione lineare con FRatio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4 Modello di regressione polinomiale con FRatio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5 Modello di regressione lineare con Time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6 Modello di regressione lineare con MP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
7 Modello di regressione lineare con CROP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
8 Modello di regressione polinomiale con CROP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
9 Modello di regressione lineare con FOCAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
10 Modello di regressione lineare con PixDensity . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
11 Primo modello lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
12 Secondo modello lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
13 Primo modello di regressione polinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
14 Secondo modello di regressione polinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
15 Terzo modello di regressione polinomiale (CROP3 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
16 Terzo modello di regressione multipla (CROP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
17 Modello finale di regressione multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
18 Omoschedasticità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
19 Test di Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
20 Backward Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
21 Forward Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
22 Stepwise Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
23 Modello costruito tramite best subset regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

1 Introduzione
1.1 Obiettivo
Lo scopo di questa relazione è quello di analizzare e commentare un dataset assegnato, sfruttando le nozioni
apprese durante il corso di Statistica Applicata.
Più nello specifico, l’obiettivo è quello di trovare un modello statistico che descriva la relazione tra la variabile
dipendente y attraverso una o più variabili indipendenti, che verranno descritte nella sezione 1.3. La relazione
sarà impostata in modo tale che per ogni argomento ci sia un’introduzione dedicata ai richiami teorici ed una
seconda parte in cui essi vengono applicati sul dataset.
1.2 Programma utilizzato

R è un linguaggio di programmazione e un ambiente di sviluppo integrato (IDE ), rispettivamente RStudio,
utilizzato per l’analisi statistica e la visualizzazione dei dati. Infatti, R offre una vasta gamma di librerie per la
creazione di modelli statistici, la produzione di grafici di alta qualità e la manipolazione dei dati. Viene utilizzato
comunemente in ambito accademico e in settori come la finanza, la farmaceutica e il marketing.
1.3 Dataset analizzato

Il dataset fornito è composto da 100 campioni di una popolazione di dati di tipo quantitativo continuo. Questo
dataset presenta lungo la prima colonna le osservazioni della variabile dipendente y_ImageQuality, che
rappresenta la qualità dell’immagine, mentre nelle colonne successive:
• x1_ISO, che rappresenta la sensibilità del sensore;
• x2_FRatio, che rappresenta il rapporto focale;
• x3_Time, che rappresenta il tempo di esposizione;
• x4_MP, che rappresenta i megaPixel del sensore;
• x5_CROP, che rappresenta il fattore di Crop;
• x6_FOCAL, che rappresenta il focale;
• x7_PixDensity, che rappresenta la densità in Pixel.
Nello script R consegnato (progettoGruppo2.R), i dati conservati nel file Dataset_AH_Gruppo2.csv

sono stati importati nel data frame data, dopo aver eseguito delle operazioni preliminari, quali la pulizia della
memoria di R e il set della working directory. Di seguito, è stato necessario assicurarsi dell’affidabilità e della
consistenza dei dati del data frame, modificando i nomi delle colonne (con scopo puramente visivo) e controllando
che:
• ogni oggetto fosse del tipo corretto;
• non ci fossero entry vuote.

Tabella 1: Indici di posizione
ImageQuality ISO FRatio Time MP CROP FOCAL PixDensity

Min. -15.03 -1.7228 -1.70652 -1.7155 -1.71299 -1.6773 -1.6550 -1.75654
1st Qu. 44.73 -1.1277 -0.91695 -0.7757 -0.92342 -1.0702 -0.9901 -0.78849
Median 56.95 -0.2608 0.06184 -0.1882 -0.01281 -0.2842 -0.1002 -0.08835
Mean 54.69 -0.2189 0.03111 -0.0587 -0.04586 -0.2057 -0.0776 0.00000
3rd Qu. 67.92 0.7140 1.00799 0.8487 0.84109 0.6281 0.8690 0.69575
Max. 105.73 1.6884 1.72189 1.7111 1.70459 1.6410 1.6942 2.18297
2 Analisi preliminare
2.1 Introduzione
In questa sezione verrà effettuata un’analisi preliminare dei dati tramite gli strumenti della Statistica De-
scrittiva. Questa branca della statistica permette di sintetizzare e rappresentare efficacemente le informazioni
presenti in un insieme di dati, detto popolazione, tuttavia senza indagare sulle relazioni causali tra le variabili
in esame. In molti casi pratici purtroppo sono presenti dei vincoli che rendono impossibile l’analisi dell’intera
popolazione, per cui la procedura obbligata è quella di estrarne un sottoinsieme, detto campione. Una volta
ottenuto il campione tramite diverse possibili tecniche di campionamento, si applicano gli strumenti della
Statistica Descrittiva per rappresentare, sintetizzare e descrivere i dati in esame.
2.2 Indici sintetici

Un campione può essere descritto facendo riferimento ad alcuni indici sintetici che, pur contenendo un livello
di informazione modesto, forniscono dettagli aggiuntivi nelle considerazioni successive. Gli indici sintetici si
suddividono in:
• indici di tendenza centrale, che hanno lo scopo di indicare intorno a quali valori tendono ad addensarsi
i valori della caratteristica di interesse;
• indici di dispersione, che hanno lo scopo di dare una misura della variabilità nelle osservazioni.
Tramite la funzione summary() di R è possibile tabularli facilmente, ed ottenere la tabella 1.
2.3 Boxplot
Il Boxplot è uno strumento che permette di rappresentare graficamente la distribuzione di un campione
attraverso alcuni indici sintetici, più nello specifico:
• minimo;
• primo quartile;
• mediana;

• terzo quartile;
• massimo;
I boxplot per ogni regressore possono essere ottenuti facilmente in R attraverso la funzione boxplot(), e sono
rappresentanti in figura 1.
Si noti che nessun boxplot presenta outliers: valori anomali o estremi dei dati, genericamente dovuti ad er-
rori di misurazione ed eventi eccezionali. Essi si discostano significativamente dalla maggior parte dei valori e
possono influire negativamente sulla descrizione del campione. La loro assenza, di conseguenza, è un fattore
significativamente positivo.
2.4 Istogrammi
Un campione, oltre che dagli indici, può essere rappresentato dalla propria distribuzione di frequenza, pre-
sentata in forma tabulare e/o grafica, rispettivamente attraverso le tabelle di frequenza e/o gli istogrammi.
Questa distribuzione si basa sul concetto di frequenza: il numero di volte che un valore specifico o un intervallo
di valori appare in un insieme di dati.
In R è possibile costruire l’istogramma (figura 2) di ciascun regressore attraverso la funzione hist(). In
particolare, il parametro booleano freq è di rilevante importanza, perché controlla se l’istogramma deve essere
visualizzato come frequenze assolute o relative:
• Se freq = TRUE (valore predefinito), l’istogramma mostra le frequenze assolute, ovvero il numero di
osservazioni in ogni classe di intervalli;
• Se freq = FALSE, l’istogramma mostra le frequenze relative, ovvero la percentuale di osservazioni in

ogni classe di intervalli.
A giudicare dagli istogrammi, i regressori sembrano essere distribuiti come una Normale. È necessario, dunque,
effettuare il test di ipotesi: 
H : X ∼ N (µ, σ 2 )
0 i
H : X ∼
1 i ̸ N (µ, σ 2 )
Per verificare l’ipotesi nulla si è scelto di utilizzare il Normal Q-Q plot, un grafico che mostra il confronto tra
quantili empirici e quantili teorici, in questo caso la distribuzione Normale. Se i dati seguono la distribuzione
Normale, i punti sul Q-Q plot devono in maniera più o meno precisa essere distribuiti su una retta.
In R è possibile costruire il Q-Q plot (figura 3) di ciascun regressore usando la funzione qqggplot()
della libreria ggpubr. Analizzandoli, è possibile affermare che tutti i regressori sono distribuiti con buona
approssimazione come una variabile aleatoria Normale, accettando quindi l’ipotesi H0 .

x1_ISO x2_FRatio x3_Time
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
(a) Boxplot di ISO (b) Boxplot di FRatio (c) Boxplot di Time
x4_MP x5_CROP x6_FOCAL
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
(d) Boxplot di MP (e) Boxplot di CROP (f) Boxplot di FOCAL
x7_PixDensity
−1 0 1 2
(g) Boxplot di PixDensity
Figura 1: Boxplot dei regressori

x1_ISO x2_FRatio x3_Time
0.4
0.5
0.4
0.4
0.3
0.3
0.3
Densità
Densità
Densità
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
Valori Valori Valori
(a) Istogramma di ISO (b) Istogramma di FRatio (c) Istogramma di Time
x4_MP x5_CROP x6_FOCAL

0.35
0.35
0.30
0.30
0.3
0.25
0.25
0.20
0.20
Densità
Densità
Densità
0.2
0.15
0.15
0.10
0.10
0.1
0.05
0.05
0.00
0.00
0.0
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
Valori Valori Valori
(d) Istogramma di MP (e) Istogramma di CROP (f) Istogramma di FOCAL
x7_PixDensity
0.4
0.3
Densità
0.2
0.1
0.0
−2 −1 0 1 2
Valori
(g) Istogramma di PixDensity
Figura 2: Istogrammi dei regressori

Q−Q plot for x1_ISO Q−Q plot for x2_FRatio Q−Q plot for x3_Time
5.0
5.0
2.5 2.5
2.5
Sample
Sample
Sample
0.0
0.0 0.0
−2.5 −2.5
−2.5
−5.0 −5.0
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
Theoretical Theoretical Theoretical
(a) Q-Q plot di ISO (b) Q-Q plot di FRatio (c) Q-Q plot di Time
Q−Q plot for x4_MP Q−Q plot for x5_CROP Q−Q plot for x6_FOCAL
5.0
5.0
2.5
2.5 2.5
Sample
Sample
Sample
0.0
0.0 0.0
−2.5 −2.5
−2.5
−5.0
−5.0 −5.0
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
Theoretical Theoretical Theoretical
(d) Q-Q plot di MP (e) Q-Q plot di CROP (f) Q-Q plot di FOCAL
Q−Q plot for x7_PixDensity

4
2
Sample
−2
−4
−2 −1 0 1 2
Theoretical
(g) Q-Q plot di PixDensity
Figura 3: Q-Q plot dei regressori

2.5 Scatterplot
Un altro aspetto fondamentale nell’analisi preliminare dei dati è l’eventuale presenza di relazioni tra due o più
variabili, oggetto di studio dell’analisi di correlazione. Infatti, essa può in molti casi essere utilizzata sia al
fine di agire sulle variabili di input per condizionare le variabili di output, che per stimare o predire il valore di
una variabile, basandosi solo sui valori dell’altra. È possibile analizzare la relazione che intercorre tra due o più
variabili:
• graficamente attraverso gli scatterplot;
• algebricamente attraverso la matrice di correlazione.
Gli scatterplot rappresentano ogni osservazione come un punto sul grafico, costituito da due assi ortogonali, in
cui vengono riportate le due variabili: l’indipendente sull’asse orizzontale e la dipendente sull’asse verticale. In
R è possibile ottenere lo scatterplot (figura 4) di ciascun regressore usando la funzione ggplot() della libreria
ggplot2.
Spesso è preferibile usare un coefficiente matematico, detto coefficiente di correlazione R. Risulta, date due
variabili aleatorie X e Y :
COV (X, Y )
R= p −1≤R≤1
Var(X)Var(Y )
Pertanto, quanto più il valore di R è prossimo a ±1 tanto più le variabili aleatorie dipendono linearmente tra
loro. Nel caso di n variabili aleatorie, R si presenta in forma matriciale con elementi del tipo:
vij
rij = p i, j = 1, 2, ..., n
Var(Xi )Var(Xj )
dove vij è l’elemento appartenente alla riga i-esima e alla colonna j-esima della matrice di varianze e
covarianze. Si noti che R misura il grado di dipendenza lineare.
In R è possibile costruire la matrice di correlazione e presentarla in una forma più intuitiva ed accattivante
tramite le funzioni cor() e corrplot().
Osservando il correlation plot (figura 5) si evince che:
• esiste una buona anticorrelazione tra ImageQuality e ISO. Tuttavia, a giudicare dallo scatterplot,
sembra sussistere una relazione di grado superiore tra le due;
• esiste una forte anticorrelazione tra ImageQuality e FRatio, che però potrebbe essere spiegata in
maniera migliore attraverso relazioni di grado superiore;
• esiste una debole correlazione tra ImageQuality e Time;
• esiste una forte anticorrelazione tra ImageQuality e CROP, descrivibile al meglio tramite una relazione
di grado superiore.
Queste sono le variabili da cui ci si aspetta un rilevante contributo per la costruzione del modello statistico,
argomento della sezione 3.

Scatterplot Scatterplot Scatterplot

ISO FRatio Time
100 100 100
75 75 75
Image Quality
Image Quality
Image Quality
50 50 50
25 25 25
0 0 0
−1 0 1 −1 0 1 −1 0 1
ISO FRatio Time
(a) Scatterplot di ISO (b) Scatterplot di FRatio (c) Scatterplot di Time
Scatterplot Scatterplot Scatterplot

MP CROP FOCAL
100 100 100
75 75 75
Image Quality
Image Quality
Image Quality
50 50 50
25 25 25
0 0 0
−1 0 1 −1 0 1 −1 0 1
MP CROP FOCAL
(d) Scatterplot di MP (e) Scatterplot di CROP (f) Scatterplot di FOCAL
Scatterplot
PixDensity
100
75
Image Quality
50
25
−1 0 1
PixDensity
(g) Scatterplot di PixDensity
Figura 4: Scatterplot dei regressori

y_ImageQuality
x7_PixDensity
x6_FOCAL
x2_FRatio
x5_CROP
x3_Time
x1_ISO
x4_MP
1
y_ImageQuality
0.8
x1_ISO 0.6
x2_FRatio 0.4
0.2
x3_Time
0
x4_MP
−0.2
x5_CROP −0.4
x6_FOCAL −0.6
−0.8
x7_PixDensity
−1
(a) Versione con ellissi

y_ImageQuality
x7_PixDensity
x6_FOCAL
x2_FRatio
x5_CROP
x3_Time
x1_ISO
x4_MP
y_ImageQuality 1.00 −0.45 −0.52 0.30 −0.05 −0.50 −0.04 0.06

0.8
x1_ISO −0.45 1.00 0.05 −0.05 −0.02 0.04 0.04 −0.01 0.6
x2_FRatio 0.4
−0.52 0.05 1.00 −0.10 0.05 −0.05 0.00 −0.02
0.2
x3_Time 0.30 −0.05 −0.10 1.00 −0.03 −0.12 0.00 0.00
0
x4_MP −0.05 −0.02 0.05 −0.03 1.00 −0.17 0.05 0.79

−0.2
x5_CROP −0.50 0.04 −0.05 −0.12 −0.17 1.00 −0.06 −0.27 −0.4
x6_FOCAL −0.6
−0.04 0.04 0.00 0.00 0.05 −0.06 1.00 −0.04
−0.8
x7_PixDensity 0.06 −0.01 −0.02 0.00 0.79 −0.27 −0.04 1.00
−1
(b) Versione con valori numerici
Figura 5: Correlation plot

3 Ricerca del modello di regressione

3.1 Introduzione
In questa sezione verrà ricercato il modello matematico che meglio risponde all’esigenza di descrivere Image-
Quality, sfruttando l’Analisi di Regressione. Per la costruzione dei modello sono stati presi in considerazione
due parametri differenti:
• il coefficiente di determinazione R2 , definito dal rapporto
SQR
R2 = 0 ≤ R2 ≤ 1
SQTOT
dove SQR e SQTOT sono, rispettivamente, la variabilità dovuta alla regressione e la variabilità totale.
Esso rappresenta una misura dell’importanza relativa che l’intero insieme di variabili indipendenti Xi ha
nell’interpretare il comportamento della variabile dipendente Y ;
• il p-value, che rappresenta la probabilità, nell’Analisi di regressione, che i coefficienti delle variabili
indipendenti siano nulli o che le loro relazioni con la variabile dipendente siano casuali.
3.2 Modelli di regressione semplice

Preliminarmente si è studiata la relazione tra la variabile dipendente Y (ImageQuality) ed ogni singola
variabile esplicativa Xi , attraverso dei modelli di regressione semplice, che si presentano nella forma:
Y = β0 + β1 Xi + ε
dove β0 + β1 Xi rappresenta un contributo deterministico, mentre ε un contributo aleatorio che indica le

fluttuazioni casuali nei dati non prevedibili.
3.2.1 ISO
Come già osservato nel paragrafo 2.5, ci si aspettava una correlazione di tipo lineare tra ISO e ImageQuality.
Questa correlazione è confermata dall’output della funzione summary() del modello. Infatti, il p-value risulta
pressoché pari a zero e il valore di R2 è relativamente alto:
Call:
lm(formula = y_ImageQuality ~ x1_ISO)
Residuals:
Min 1Q Median 3Q Max
-53.481 -10.909 -0.016 13.877 47.781
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 52.582 1.977 26.60 < 2e-16 ***

x1_ISO -9.632 1.911 -5.04 2.13e-06 ***

---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 19.32 on 98 degrees of freedom

Multiple R-squared: 0.2058, Adjusted R-squared: 0.1977
F-statistic: 25.4 on 1 and 98 DF, p-value: 2.131e-06
Estratto di codice 1: Modello di regressione lineare con ISO
Nonostante il fatto che dal punto di vista lineare ISO abbia già un ottima incidenza su ImageQuality, è
deducibile dal suo diagramma di dispersione che possa descriverla in maniera ancora più accurata attraverso un
modello di regressione polinomiale. Dopo differenti prove, si è pervenuti al seguente modello ottimale:
Call:
lm(formula = y_ImageQuality ~ I(x1_ISO^2) + I(x1_ISO^3))
Residuals:
-44.285 -13.458 0.268 14.257 46.562
Coefficients:
(Intercept) 60.656 3.036 19.979 < 2e-16 ***
I(x1_ISO^2) -8.350 2.376 -3.514 0.000673 ***
I(x1_ISO^3) -6.378 1.057 -6.034 2.93e-08 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Estratto di codice 2: Modello di regressione polinomiale con ISO
3.2.2 FRatio
Anche in questo caso ci si aspettava che tra FRatio e ImageQuality sussistesse una correlazione lineare,
confermata dall’output della funzione summary() del modello. Infatti, come per ISO, il p-value risulta pressoché
pari a zero e il valore di R2 relativamente alto:
Call:
lm(formula = y_ImageQuality ~ x2_FRatio)
Residuals:
-66.115 -9.036 1.968 13.491 41.005
Coefficients:

(Intercept) 55.028 1.857 29.639 < 2e-16 ***

x2_FRatio -10.865 1.818 -5.977 3.69e-08 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Estratto di codice 3: Modello di regressione lineare con FRatio
Anche in questo caso, tuttavia, risulta più accurato il seguente modello polinomiale:
Call:
lm(formula = y_ImageQuality ~ I(x2_FRatio) + I(x2_FRatio^2))
Residuals:
-61.761 -9.651 0.881 11.264 43.261
Coefficients:
(Intercept) 62.885 2.809 22.385 < 2e-16 ***
I(x2_FRatio) -10.306 1.724 -5.977 3.78e-08 ***
I(x2_FRatio^2) -7.549 2.108 -3.580 0.000538 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Estratto di codice 4: Modello di regressione polinomiale con FRatio
3.2.3 Time
Time è statisticamente significativo per la descrizione di ImageQuality, anche se non come i due precedenti
regressori. Le conferme arrivano dal p-value pressoché pari a zero e dal valore di R2 :
Call:
lm(formula = y_ImageQuality ~ x3_Time)
Residuals:
-61.192 -8.681 1.620 13.052 46.421
Coefficients:
(Intercept) 55.071 2.073 26.562 < 2e-16 ***
x3_Time 6.496 2.106 3.084 0.00265 **

---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

F-statistic: 9.514 on 1 and 98 DF, p-value: 0.00265
Estratto di codice 5: Modello di regressione lineare con Time
3.2.4 MP
Differentemente da quanto successo con i primi tre regressori, MP non risulta statisticamente utile per la co-
struzione del modello e ciò è dovuto al p-value superiore alla soglia dello 0.05 e al basso valore del coefficiente
R2 :
Call:
lm(formula = y_ImageQuality ~ x4_MP)
Residuals:
-68.108 -9.674 2.582 12.582 49.409
Coefficients:
(Intercept) 54.638 2.167 25.21 <2e-16 ***
x4_MP -1.133 2.137 -0.53 0.597
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Multiple R-squared: 0.00286, Adjusted R-squared: -0.007314
Estratto di codice 6: Modello di regressione lineare con MP
3.2.5 CROP
Così come ISO e FRatio, CROP può entrare a far parte del modello ma non in forma lineare. Infatti per il
primo grado si ha:
Call:
lm(formula = y_ImageQuality ~ x5_CROP)
Residuals:
-60.435 -11.338 1.532 14.109 36.612
Coefficients:

(Intercept) 52.547 1.919 27.381 < 2e-16 ***

x5_CROP -10.422 1.840 -5.665 1.47e-07 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Estratto di codice 7: Modello di regressione lineare con CROP
Mentre è stato trovato che per il terzo grado si ha:

Call:
lm(formula = y_ImageQuality ~ I(x5_CROP^3))
Residuals:
-65.205 -10.262 2.871 12.105 30.912
Coefficients:
(Intercept) 52.0018 1.8534 28.058 < 2e-16 ***
I(x5_CROP^3) -5.6753 0.8658 -6.555 2.61e-09 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Estratto di codice 8: Modello di regressione polinomiale con CROP
3.2.6 FOCAL
FOCAL risulta statisticamente inefficiente a causa del valore altissimo del p-value, per cui appare naturale
escluderlo dal modello finale:
Call:
lm(formula = y_ImageQuality ~ x6_FOCAL)
Residuals:
-70.172 -9.529 2.178 13.861 50.172
Coefficients:
(Intercept) 54.6167 2.1719 25.147 <2e-16 ***
x6_FOCAL -0.9462 2.1329 -0.444 0.658
---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Estratto di codice 9: Modello di regressione lineare con FOCAL
3.2.7 PixDensity
Per le stesse motivazioni di FOCAL, PixDensity può essere escluso da un futuro modello di regressione multipla:
Call:
lm(formula = y_ImageQuality ~ x7_PixDensity)
Residuals:
-70.468 -9.566 2.914 13.306 50.973
Coefficients:
(Intercept) 54.690 2.164 25.273 <2e-16 ***
x7_PixDensity 1.270 2.175 0.584 0.56
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Estratto di codice 10: Modello di regressione lineare con PixDensity
3.3 Modelli di regressione multipla

Una volta studiati i singoli modelli di regressione semplice, è opportuno passare alla costruzione di un modello
di regressione multipla. Per farlo, oltre al coefficiente di determinazione R2 e al p-value, è stato preso in consi-
derazione anche l’SQE, o RSS. L’SQE rappresenta una misura della variabilità non spiegata dal modello ed è
definito dalla relazione:
n
X
(yi − ŷi )2
i=1
dove yi sono i valori osservati della variabile dipendente, mentre ŷi i valori predetti dal modello. L’approccio per
la definizione del modello su cui ci si è basati è molto semplice: partendo delle considerazioni fatte nel paragrafo
3.2, sono state aggiunte gradualmente tutte le variabili che sono risultate staticamente efficaci per la descrizione

di ImageQuality. Ciascun nuovo modello è poi stato valutato sul test di ipotesi:

H : Miglioramento significativo
0
H : Miglioramento non significativo
1
i cui criteri di accettazione dell’ipotesi nulla H0 sono stati:
• valore del coefficiente di determinazione più alto;
• valore dell’SQE più basso.
3.3.1 Primo modello lineare
Il primo modello lineare valutato è quello che prende in considerazione i tre regressori statisticamente più
rilevanti dell’analisi di regressione semplice fatta nel paragrafo precedente, ossia ISO, FRatio e CROP:
Y = β0 + β1 ISO + β2 FRatio + β4 CROP
La funzione summary() restituisce:

Call:
lm(formula = y_ImageQuality ~ x1_ISO + x2_FRatio + x5_CROP)
Residuals:
-30.2794 -5.9895 0.4141 7.3235 24.9717
Coefficients:
(Intercept) 50.950 1.238 41.149 < 2e-16 ***
x1_ISO -8.669 1.178 -7.357 6.34e-11 ***
x2_FRatio -10.939 1.167 -9.372 3.32e-15 ***
x5_CROP -10.613 1.164 -9.114 1.19e-14 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

F-statistic: 76.65 on 3 and 96 DF, p-value: < 2.2e-16
Estratto di codice 11: Primo modello lineare
Da cui si ricava:
• SQE = 13563;
• R2 = 0.7055;
• p-value < 2.2e−16 .

3.3.2 Secondo modello lineare
Il secondo ed ultimo modello lineare preso in considerazione si ottiene aggiungendo l’ultima variabile esplicativa
che presenta maggiore correlazione con ImageQuality e che è stata ritenuta statisticamente efficace, ossia
Time:
Y = β0 + β1 ISO + β2 FRatio + β3 Time + β4 CROP

Call:
lm(formula = y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time +
x5_CROP)
Residuals:
-28.223 -5.606 1.472 7.770 23.218
Coefficients:
(Intercept) 51.278 1.188 43.169 < 2e-16 ***
x1_ISO -8.522 1.127 -7.561 2.51e-11 ***
x2_FRatio -10.573 1.121 -9.427 2.77e-15 ***
x3_Time 3.724 1.172 3.178 0.002 **
x5_CROP -10.180 1.121 -9.080 1.53e-14 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Estratto di codice 12: Secondo modello lineare
Da cui si ricava:
• SQE = 12259;
• R2 = 0.7338;
• p-value < 2.2e−16 .
Questo secondo modello rappresenta un miglioramento, seppur non significativo, del primo, poiché presenta
2
R più alto e SQE più basso. L’idea è quella di trovare un modello polinomiale che riesca a descrivere in maniera
ancora più precisa la variabile ImageQuality.
3.3.3 Primo modello polinomiale
Il primo modello polinomiale valutato è:
Y = β0 + β1 ISO2 + β2 ISO3 + β3 FRatio + β4 FRatio2 + ε


Call:
lm(formula = y_ImageQuality ~ I(x1_ISO^2) + I(x1_ISO^3) + I(x2_FRatio) +
I(x2_FRatio^2))
Residuals:
-28.025 -9.045 0.315 9.270 34.786
Coefficients:
(Intercept) 67.6751 2.6692 25.354 < 2e-16 ***
I(x1_ISO^2) -9.1902 1.7047 -5.391 5.10e-07 ***
I(x1_ISO^3) -6.4570 0.7615 -8.479 2.91e-13 ***
I(x2_FRatio) -11.3767 1.2981 -8.764 7.23e-14 ***
I(x2_FRatio^2) -5.5631 1.5946 -3.489 0.000738 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Estratto di codice 13: Primo modello di regressione polinomiale
Da cui si ricava:
• SQE = 16368;
• R2 = 0.6446;
• p-value < 2.2e−16 .
3.3.4 Secondo modello polinomiale
Procedendo in ordine, il secondo modello è stato ottenuto aggiungendo la variabile Time:
Y = β0 + β1 ISO2 + β2 ISO3 + β3 FRatio + β4 FRatio2 + β5 Time + ε

Call:
I(x2_FRatio^2) + x3_Time)
Residuals:
-24.646 -9.199 0.138 7.921 32.417

Coefficients:
(Intercept) 68.0294 2.4398 27.883 < 2e-16 ***
I(x1_ISO^2) -8.7853 1.5601 -5.631 1.85e-07 ***
I(x1_ISO^3) -6.3973 0.6958 -9.194 9.51e-15 ***
I(x2_FRatio) -10.7978 1.1930 -9.051 1.92e-14 ***
I(x2_FRatio^2) -6.0001 1.4601 -4.109 8.48e-05 ***
x3_Time 5.4804 1.2309 4.453 2.33e-05 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Estratto di codice 14: Secondo modello di regressione polinomiale
Da cui si ricava:
• SQE = 13517;
• R2 = 0.7065;
• p-value < 2.2e−16 .
Sebbene l’SQE sia ancora relativamente alto, è possibile accettare l’ipotesi nulla H0 poiché sia SQE che R2
rispettano i criteri di accettazione definiti nel paragrafo 3.3.
3.3.5 Terzo modello polinomiale
Il terzo modello è stato ottenuto aggiungendo la variabile CROP3 :
Y = β0 + β1 ISO2 + β2 ISO3 + β3 FRatio + β4 FRatio2 + β5 Time + β6 CROP3 + ε
Si noti che avere un modello di regressione semplice più prestante rispetto ad altro non garantisce necessaria-
mente che poi, nella costruzione del modello di regressione multipla, non vi siano problemi. Ne è un esempio
proprio CROP, che nel modello di regressione semplice descriveva più accuratamente ImageQuality solo se
elevato al cubo, mentre adesso risulta più efficace il suo polinomio di primo grado.
Infatti, dalla funzione summary() del modello con CROP3 :
Call:
I(x2_FRatio^2) + x3_Time + I(x5_CROP^3))
Residuals:
-19.8142 -5.7421 -0.9599 5.8652 19.7832
Coefficients:


(Intercept) 65.4262 1.7105 38.250 < 2e-16 ***
I(x1_ISO^2) -7.8367 1.0853 -7.221 1.39e-10 ***
I(x1_ISO^3) -5.4698 0.4909 -11.143 < 2e-16 ***
I(x2_FRatio) -10.1194 0.8296 -12.198 < 2e-16 ***
I(x2_FRatio^2) -6.0137 1.0120 -5.942 4.85e-08 ***
x3_Time 4.6098 0.8574 5.376 5.63e-07 ***
I(x5_CROP^3) -4.1416 0.4087 -10.132 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Estratto di codice 15: Terzo modello di regressione polinomiale (CROP3 )
e dalla summary() del modello con CROP:

Call:
I(x2_FRatio^2) + x3_Time + I(x5_CROP))
Residuals:
-18.4538 -4.2618 -0.4429 4.0321 20.5672
Coefficients:
(Intercept) 65.9966 1.4977 44.064 < 2e-16 ***
I(x1_ISO^2) -8.0280 0.9540 -8.415 4.58e-13 ***
I(x1_ISO^3) -5.6512 0.4288 -13.180 < 2e-16 ***
I(x2_FRatio) -11.2267 0.7289 -15.402 < 2e-16 ***
I(x2_FRatio^2) -6.3610 0.8916 -7.134 2.08e-10 ***
x3_Time 4.3372 0.7567 5.732 1.22e-07 ***
I(x5_CROP) -9.2018 0.7289 -12.624 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Estratto di codice 16: Terzo modello di regressione multipla (CROP)
si deduce che, sebbene l’aggiunta di CROP3 rappresenti comunque un miglioramento rispetto al secondo modello,
esso conferisce un contributo minore rispetto al suo equivalente di primo grado.
Infatti, per CROP3 risulta:
• SQE = 6424.6;

• R2 = 0.8605;
• p-value < 2.2e−16 .
Mentre per CROP:
• SQE = 4981.4;
• R2 = 0.8918;
• p-value < 2.2e−16 .
Risulta evidente che, se l’ipotesi nulla H0 del confronto tra modelli poteva già essere accettata nel caso di CROP3 ,
sarà logicamente accettata anche nel caso di CROP, ma con maggiore forza, pervenendo alla definizione del terzo
modello:
Y = β0 + β1 ISO2 + β2 ISO3 + β3 FRatio + β4 FRatio2 + β5 Time + β6 CROP + ε
3.3.6 Modello finale
Sebbene il terzo modello sia già di per sé ottimo poiché è composto da tutti regressori ritenuti validi per
ImageQuality, non si è esclusa la possibilità della presenza di un regressore di interazione. Dopo differenti
prove, è stato ottenuto il modello finale:
Y = β0 +β1 ISO2 +β2 ISO3 +β3 FRatio+β4 FRatio2 +β5 Time+β6 CROP+β7 PixDensity2 ISO3 FOCAL +ε


Call:
I(x2_FRatio^2) + x3_Time + I(x5_CROP) + I(x1_ISO^3):I(x6_FOCAL):I(x7_PixDensity^2))
Residuals:
-18.1849 -3.6223 -0.4383 3.7971 20.4614
Coefficients:
(Intercept) 65.7718 1.3930 47.217 < 2e-16 ***
I(x1_ISO^2) -8.2255 0.8879 -9.264 8.09e-15 ***
I(x1_ISO^3) -5.9075 0.4037 -14.635 < 2e-16 ***
I(x2_FRatio) -11.1119 0.6780 -16.389 < 2e-16 ***
I(x2_FRatio^2) -6.4136 0.8286 -7.740 1.25e-11 ***
x3_Time 3.8594 0.7134 5.410 4.97e-07 ***
I(x5_CROP) -9.7827 0.6931 -14.115 < 2e-16 ***
I(x1_ISO^3):I(x6_FOCAL):I(x7_PixDensity^2) 1.0855 0.2740 3.962 0.000147 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1


Estratto di codice 17: Modello finale di regressione multipla
Da cui si ricava:
• SQE = 4255.4;
• R2 = 0.9076;
• p-value < 2.2e−16 .
Si noti che le variabili esplicative PixDensity e FOCAL erano state escluse preventivamente dal modello.
Infatti, non sono presenti singolarmente, ma sottoforma di interazione con gli altri regressori.

4 Stima puntuale ed intervallare

4.1 Introduzione
In questa sezione verranno utilizzati gli strumenti della Teoria della Stima per stimare i parametri del modello
ritrovato nel paragrafo 3.3.6. Si effettuerà prima una stima puntuale e poi una stima intervallare dei parametri,
per poi calcolare il valore atteso di ImageQuality.
4.2 Stima puntuale dei parametri

Esistono diversi metodi per stimare i parametri di un modello di regressione lineare multipla. In questo caso è
stato scelto il metodo dei minimi quadrati, che presenta diversi vantaggi:
• Semplicità. Il metodo dei minimi quadrati è semplice da implementare e da interpretare. Le equazioni per
stimare i parametri sono ben conosciute e facili da calcolare;
• Affidabilità. Il metodo dei minimi quadrati è molto affidabile e produce risultati precisi se i presupposti
del modello sono soddisfatti;
• Stabilità. Il metodo dei minimi quadrati è stabile e produce risultati affidabili anche se i dati sono rumorosi
o contengono outlier.
Questo metodo impone che la somma dei quadrati delle differenze tra i valori osservati Yi e i valori stimati Ŷi
sia minima. Dal punto di vista algebrico:
n
( n )
X Xh i2
SQE = (yi − ŷi )2 = min yi − (β̂0 + β̂1 x1 + · · · + β̂n xn )
i=1 β̂i i=1
Per determinare questo minimo, basta risolvere il sistema di k + 1 equazioni nei k + 1 parametri incogniti che
si ottiene uguagliando a zero le sue derivate parziali prime. Talvolta è preferibile utilizzare la Design Matrix
X, una matrice di dimensione n(k + 1), dove n è la numerosità campionaria e k è il numero di parametri
del modello, in cui sono raccolte tutte le osservazioni dei regressori. Essa è legata ad Y = (y1 , . . . , yn )T dalla
seguente relazione:
Y = Xβ + ε
dove β = (β1 , . . . , βn )T e ε = (ε1 , . . . , εn )T . Sotto opportune ipotesi, il vettore di parametri stimati β̂ si ottiene
attraverso il prodotto:
−1
β̂ = XT X XT Y = arg min SQE(β)
β
In R non è necessario svolgere tutti questi calcoli, perché la funzione lm() fornisce già la stima ai minimi
quadrati nel suo campo coefficients. Facendo riferimento all’estratto 17, si ottiene:
βˆ0 = 66.77 βˆ1 = −8.23 βˆ2 = −5.9 βˆ3 = −11.11

βˆ4 = −6.41 βˆ5 = 3.86 βˆ6 = −9.78 βˆ7 = 1.08

4.3 Stima intervallare dei parametri

Alternativamente, piuttosto che stimare puntualmente ciascun parametro, è possibile definire per ognuno di essi
un intervallo di confidenza al livello 1 − α, ossia un intervallo all’interno del quale vi è una sicurezza pari ad
1 − α di ritrovare il vero valore del parametro, dove α è il livello di rischio.
Per stimare l’intervallo di confidenza al livello 1 − α per il parametro βi è possibile utilizzare la variabile
aleatoria:
β̂i − βi
T = ∼ tn−k−1
SE(β̂i )
che si distribuisce come una T di Student con ν = n − k − 1 gradi di libertà. Attraverso delle semplici
manipolazioni matematiche risulta:
( )
β̂i − βi n o
Pr −t1−α/2;ν ≤ ≤ t1−α/2;ν = Pr −t1−α/2;ν SE(β̂i ) ≤ β̂i − βi ≤ t1−α/2;ν SE(β̂i ) =
SE(β̂i )
n o
= Pr β̂i − t1−α/2;ν SE(β̂i ) ≤ βi ≤ β̂i + t1−α/2;ν SE(β̂i ) =
=1−α
Da cui si ricava:
L = β̂i − t1−α/2;ν SE(β̂i )
U = β̂i + t1−α/2;ν SE(β̂i )
In R è possibile calcolare direttamente gli intervalli di confidenza di ciascun regressore semplicemente usando
la funzione confint(), da cui si ottengono:
β0 ∈ [63.0, 68.54] β1 ∈ [−9.99, −6.46]

β2 ∈ [−6.70, −5.11] β3 ∈ [−12.46, −9.77]
β4 ∈ [−8.06, −4.77] β5 ∈ [2.44, 5.28]
β6 ∈ [−11.16, −8.41] β7 ∈ [0.54, 1.63]
4.4 Stima del valore atteso di ImageQuality

Lo stesso discorso fatto per i parametri delle variabili esplicative può essere fatto per il valore atteso di
ImageQuality, indicato con E(Ŷ | X = x). Per cui, la variabile aleatoria:
Ȳ − E(Ŷ | X = x)
T = √ ∼ tn−k−1
S/ n
si distribuisce come una T di Student con ν = n − k − 1 gradi di libertà. Il procedimento è lo stesso del paragrafo
precedente:
√
L = Ȳ − t1−α/2;ν S/ n
√
U = Ȳ + t1−α/2;ν S/ n

5 Diagnostica del modello di regressione

5.1 Introduzione
In questa sezione sarà effettuata la Diagnostica del modello di regressione trovato nel paragrafo 3.3.6, basata
sullo studio dei residui: la differenza tra i valori osservati e quelli stimati dal modello. In altre parole, indicano
l’errore da esso non spiegato. Le loro proprietà sono molto utili e definiscono le cosiddette ipotesi classiche,
usate per verificare se il modello è sostenibile o meno in rapporto al campione osservato.
5.2 Linearità
In un modello di regressione semplice la relazione lineare tra la variabile dipendente e quella indipendente è
verificabile attraverso lo scatterplot. Per verificarlo nel caso di più di un regressore, è possibile utilizzare la
proprietà di linearità: se il modello è lineare nei residui, allora i residui dovrebbero essere distribuiti in modo
uniforme intorno allo zero per ogni valore previsto. Dal punto di vista algebrico, questa ipotesi si traduce nella
formula:
n
X
êi = 0
i=1
La linearità può essere verificata attraverso uno scatterplot, confrontando i fitted values con i residui. L’ideale
è che i punti abbiano un andamento lineare intorno allo zero, proprio come avviene in figura 6, per cui si può
affermare che la prima ipotesi è verificata.
Residuals vs Fitted
3
20
10
Residuals
0
−10
37
84
−20
0 20 40 60 80 100
Fitted values
lm(y_ImageQuality ~ I(x1_ISO^2) + I(x1_ISO^3) + I(x2_FRatio) + I(x2_FRatio^ ...
Figura 6: Linearità

Q−Q plot for residuals
20
10
Sample
−10
−20
−2 −1 0 1 2
Theoretical
Figura 7: Normalità
5.3 Omoschedasticità
In un modello di regressione lineare è fondamentale che la varianza sia costante, ossia che vi sia omoschedasti-
cità. Per verificarlo è possibile valutare la pendenza della retta dello scatterplot tra i fitted values della variabile
dipendente e il modulo dei residui, la quale deve essere tendente allo zero. Usando la funzione summary() si
nota che questa seconda ipotesi è verificata:
Call:
lm(formula = abs(res) ~ modelX$fitted.values)
Residuals:
-5.204 -2.976 -1.192 1.573 15.069
Coefficients:
(Intercept) 4.30585 1.20548 3.572 0.000551 ***
modelX$fitted.values 0.01274 0.02065 0.617 0.538680
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Estratto di codice 18: Omoschedasticità
5.4 Normalità
L’ipotesi di Normalità migliora sensibilmente tutte le proprietà degli stimatori per i parametri del modello,
per cui rappresenta un requisito auspicabile. Questa terza ipotesi può essere verificata tramite un Normal Q-Q

plot. Dalla figura 7 si evince che anche questa ipotesi è verificata.
5.5 Incorrelazione
L’ultima ipotesi classica da verificare è l’incorrelazione degli errori. Infatti, una loro eventuale correlazione
può influire sulla precisione delle stime del modello: ciò potrebbe significare che non sono state catturate tutte
le relazioni presenti nei dati e che potrebbe essere necessario considerare un modello più complesso.
Per verificare l’incorrelazione degli errori è possibile usare il test di Durbin-Watson. Il test è basato sulla
differenza tra i quadrati delle successive differenze tra i residui e restituisce un valore reale, DW, compreso tra
0 e 4, dove:
• un valore vicino a 2 indica che non c’è correlazione seriale negli errori;
• un valore vicino a 0 indica la presenza di correlazione seriale positiva degli errori;
• un valore vicino a 4 indica la presenza di correlazione seriale negativa degli errori.
In R è possibile svolgere il test di Durbin-Watson con la funzione dwtest() della libreria lmtest:
data: modelX
DW = 1.9062, p-value = 0.3309
alternative hypothesis: true autocorrelation is greater than 0
Estratto di codice 19: Test di Durbin-Watson
Si noti che DW= 1.90, per cui si può assumere verificata anche quest’ultima ipotesi.

6 Confronto tra modelli statistici

6.1 Introduzione
In questa sezione verranno utilizzate le tecniche di forward, backward e stepwise selection per trovare un nuovo
modello statistico candidato alla rappresentazione della variabile ImageQuality, per poi confrontarlo con
quello trovato nel paragrafo 3.3.6 tramite due indici:
• AIC, acronimo di Akaike’s Information Criterion. Esso è definito come:
AIC = −2ℓ(θ̂) + 2(k + 1)
dove k è il numero di variabili esplicative e ℓ(θ̂) è la funzione di log-verosimigilianza del modello, calcolata
nel punto di massimo stimato θ̂;
• BIC, acronimo di Bayesian Information Criterion. Esso è definito come:
BIC = −2ℓ(θ̂) + 2(k + 1) ln(n)
dove k è il numero di variabili esplicative, ℓ(θ̂) è la funzione di log-verosimigilianza del modello, calcolata
nel punto di massimo stimato θ̂ e n è la numerosità campionaria.
Entrambi gli indici richiedono che i propri errori siano indipendenti e abbiano una distribuzione Normale, poiché
sfruttano la funzione di log-verosimiglianza. D’altro canto, si differiscono perché:
• AIC è un criterio di selezione basato sul trade-off tra la complessità del modello e la sua capacità di
descrivere i dati;
• BIC è un criterio di selezione basato sul trade-off tra la complessità del modello e la sua capacità di
prevedere i dati.
Indipendentemente da quale criterio venga considerato, tra due modelli si sceglie quello che lo minimizza.
6.2 Backward selection

L’algoritmo di backward selection parte dal modello di regressione con tutti i k regressori disponibili, eli-
minando una alla volta le variabili che risultano non significative. Termina quando non vi sono più variabili
significative eliminabili.
In R è possibile effettuare la backward selection attraverso la funzione step():
Start: AIC=490.42
y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time + x4_MP + x5_CROP +
x6_FOCAL + x7_PixDensity
Df Sum of Sq RSS AIC

- x7_PixDensity 1 0.2 11492 488.42

- x6_FOCAL 1 127.3 11619 489.52

<none> 11492 490.42
- x4_MP 1 243.9 11736 490.52
- x3_Time 1 1215.9 12708 498.48
- x1_ISO 1 7357.5 18849 537.91
- x5_CROP 1 10673.9 22166 554.11
- x2_FRatio 1 11133.7 22626 556.17
Step: AIC=488.42
x6_FOCAL

- x6_FOCAL 1 131.3 11623 487.56
<none> 11492 488.42
- x4_MP 1 612.4 12104 491.62
- x3_Time 1 1215.9 12708 496.48
- x1_ISO 1 7364.8 18857 535.95
- x2_FRatio 1 11261.2 22753 554.73
- x5_CROP 1 11325.6 22818 555.01
Step: AIC=487.56
y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time + x4_MP + x5_CROP

<none> 11623 487.56
- x4_MP 1 636.0 12259 490.89
- x3_Time 1 1221.8 12845 495.55
- x1_ISO 1 7464.7 19088 535.16
- x5_CROP 1 11223.2 22847 553.14
- x2_FRatio 1 11245.5 22869 553.24
Estratto di codice 20: Backward Selection
Si noti che questo algoritmo ha generato un modello di regressione lineare in cui è presente anche la variabile MP,
che non era stata presa in considerazione poiché reputata statistcamente non rilevante per il modello (paragrafo
3.2.4).
6.3 Forward Selection

L’algoritmo di forward selection fa l’opposto del precedente: si parte dal modello di regressione in cui figura
solo la variabile esplicativa massimamente correlata con quella dipendente e si aggiungono uno alla volta gli
altri regressori, sempre seguendo il grado di correlazione maggiore.
Si noti che questo algoritmo è meno efficiente degli altri due, perché potrebbe capitare che una variabile che
prima era significativa, non lo diventi più per via dell’inserimento di altre.
In R è possibile effettuare la forward selection attraverso la funzione step():
Start: AIC=615.24

y_ImageQuality ~ 1

+ x2_FRatio 1 12302.5 33749 586.15
+ x5_CROP 1 11361.7 34690 588.90
+ x1_ISO 1 9479.4 36572 594.19
+ x3_Time 1 4075.2 41977 607.97
<none> 46052 615.24
+ x7_PixDensity 1 159.8 45892 616.89
+ x4_MP 1 131.7 45920 616.95
+ x6_FOCAL 1 92.3 45960 617.03
Step: AIC=586.15
y_ImageQuality ~ x2_FRatio

+ x5_CROP 1 12538.9 21210 541.71
+ x1_ISO 1 8450.4 25299 559.33
+ x3_Time 1 2825.4 30924 579.41
<none> 33749 586.15
+ x7_PixDensity 1 119.8 33630 587.80
+ x6_FOCAL 1 90.3 33659 587.89
+ x4_MP 1 35.7 33714 588.05
Step: AIC=541.71
y_ImageQuality ~ x2_FRatio + x5_CROP

+ x1_ISO 1 7647.5 13563 498.99
+ x3_Time 1 1574.2 19636 536.00
+ x4_MP 1 630.8 20580 540.69
<none> 21211 541.71
+ x7_PixDensity 1 402.5 20808 541.79
+ x6_FOCAL 1 273.1 20937 542.41
Step: AIC=498.99
y_ImageQuality ~ x2_FRatio + x5_CROP + x1_ISO

+ x3_Time 1 1303.65 12259 490.89
+ x4_MP 1 717.85 12845 495.55
+ x7_PixDensity 1 388.18 13175 498.09
<none> 13563 498.99
+ x6_FOCAL 1 163.05 13400 499.78
Step: AIC=490.89
y_ImageQuality ~ x2_FRatio + x5_CROP + x1_ISO + x3_Time

+ x4_MP 1 635.99 11623 487.56

+ x7_PixDensity 1 341.32 11918 490.06
<none> 12259 490.89
+ x6_FOCAL 1 154.80 12104 491.62
Step: AIC=487.56
y_ImageQuality ~ x2_FRatio + x5_CROP + x1_ISO + x3_Time + x4_MP

<none> 11623 487.56
+ x6_FOCAL 1 131.260 11492 488.42
+ x7_PixDensity 1 4.141 11619 489.52
Estratto di codice 21: Forward Selection
Anche in questo caso l’algoritmo ha generato un modello di regressione lineare, per giunta identico a quello della
backward selection, in cui è presente anche la variabile MP.
6.4 Stepwise Selection

L’algoritmo di stepwise selection rappresenta un ibrido tra backward e forward, perché li usa entrambi:
• la procedura backward è usata per verificare quale variabile deve essere eliminata dal modello;
• la procedura forward è usata per verificare quale variabile deve essere inserita nel modello;
In R è possibile effettuare la stepwise selection attraverso la funzione step():

Start: AIC=490.42
x6_FOCAL + x7_PixDensity

- x7_PixDensity 1 0.2 11492 488.42
- x6_FOCAL 1 127.3 11619 489.52
<none> 11492 490.42
- x4_MP 1 243.9 11736 490.52
- x3_Time 1 1215.9 12708 498.48
- x1_ISO 1 7357.5 18849 537.91
- x5_CROP 1 10673.9 22166 554.11
- x2_FRatio 1 11133.7 22626 556.17
Step: AIC=488.42
x6_FOCAL

- x6_FOCAL 1 131.3 11623 487.56
<none> 11492 488.42
+ x7_PixDensity 1 0.2 11492 490.42

- x4_MP 1 612.4 12104 491.62

- x3_Time 1 1215.9 12708 496.48
- x1_ISO 1 7364.8 18857 535.95
- x2_FRatio 1 11261.2 22753 554.73
- x5_CROP 1 11325.6 22818 555.01
Step: AIC=487.56
y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time + x4_MP + x5_CROP

<none> 11623 487.56
+ x6_FOCAL 1 131.3 11492 488.42
+ x7_PixDensity 1 4.1 11619 489.52
- x4_MP 1 636.0 12259 490.89
- x3_Time 1 1221.8 12845 495.55
- x1_ISO 1 7464.7 19088 535.16
- x5_CROP 1 11223.2 22847 553.14
- x2_FRatio 1 11245.5 22869 553.24
Estratto di codice 22: Stepwise Selection
Anche questo ultimo algoritmo ha generato un modello di regressione lineare, identico agli altri due, in cui è
presente la variabile MP.
6.5 Scelta del modello finale

Indipendentemente della procedura scelta, il modello statistico generato è stato lo stesso, ossia:
Y = β0 + β1 ISO + β2 FRatio + β3 Time + β4 MP + β5 CROP
L’output generato dalla funzione summary() è:

Call:
lm(formula = y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time +
x4_MP + x5_CROP, data = data[, -1])
Residuals:
-29.912 -6.003 1.364 7.455 23.484
Coefficients:
(Intercept) 51.052 1.167 43.745 < 2e-16 ***
x1_ISO -8.574 1.104 -7.770 9.68e-12 ***
x2_FRatio -10.477 1.099 -9.536 1.78e-15 ***
x3_Time 3.609 1.148 3.143 0.00223 **
x4_MP -2.531 1.116 -2.268 0.02563 *
x5_CROP -10.612 1.114 -9.527 1.86e-15 ***
---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Estratto di codice 23: Modello costruito tramite best subset regression
Sebbene questo modello riesca a descrivere efficacemente la variabile dipendente ImageQuality, come si
deduce dal valore del coefficiente di determinazione R2 e dal p-value, non è accurato quanto il modello ottenuto
precedentemente mediante le forme polinomiali dei regressori. Infatti, confrontando questa relazione con quella
del paragrafo 3.3.6, ossia:
Y = β0 +β1 ISO2 +β2 ISO3 +β3 FRatio+β4 FRatio2 +β5 Time+β6 CROP+β7 PixDensity2 ISO3 FOCAL +ε

tramite i criteri AIC e BIC, è evidente che il modello polinomiale sia migliore rispetto al modello lineare, poiché
li minimizza. Infatti risulta:
AICsub = 773.35 AICpol = 676.86
BICsub = 791.59 BICpol = 700.31
Dove gli indici con il pedice sub fanno riferimento al modello trovato con le procedure di Best Subset Selection,
mentre quelli con il pedice pol all’altro.
6.6 Considerazioni finali

L’obiettivo di questa relazione era quello di definire un modello statistico che sapesse descrivere in maniera
efficiente la variabile dipendente ImageQuality.
Nella sezione 2 sono stati analizzati i regressori, sfruttando strumenti grafici ed algebrici, quali istogrammi e
matrice di correlazione, per trarre delle conclusioni iniziali sulla natura delle distribuzioni e sul rapporto che
intercorreva tra la variabile dipendente e tutte le altre.
Nella sezione 3 è stato trovato un modello polinomiale che rispondesse alla richiesta del progetto, passando
prima per l’analisi di regressione semplice e poi per l’analisi di regressione multipla.
Nella sezione 4 sono stati stimati i parametri sia attraverso la stima puntuale che attraverso la stima intervallare,
calcolando anche l’intervallo di confidenza della variabile dipendente ImageQuality.
Nella sezione 5 è stata valutata l’affidabilità del modello statistico trovato attraverso le ipotesi classiche.
In quest’ultima sezione, infine, il modello polinomiale è stato confrontato con un modello ottenuto attraverso
gli algoritmi di selezione delle variabili esplicative, sfruttando i criteri AIC e BIC, risultando comunque la scelta
migliore in termini di fit.
Ne consegue, che per il dataset fornito e per la variabile dipendente ImageQuality, il modello migliore risulta
essere:
Y = 66.67 − 8.23 X12 − 5.9 X13 − 11.11 X2 − 6.41 X22 + 3.86 X3 − 9.78 X5 + 1.08 X6 X72 X13

Re Lazio Negru Ppo 2

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Re Lazio Negru Ppo 2

Caricato da

Copyright:

Formati disponibili

UNIVERSITÀ DEGLI STUDI DI SALERNO

FACOLTÀ DI INGEGNERIA INFORMATICA

Professor Fabio Postiglione

Progetto di Statistica Applicata

SALERNO, GENNAIO 2023

3 Ricerca del modello di regressione 14

4 Stima puntuale ed intervallare 27

Progetto di Statistica Applicata Pagina 2/37

5 Diagnostica del modello di regressione 29

6 Confronto tra modelli statistici 32

Progetto di Statistica Applicata Pagina 3/37

Elenco degli estratti di codice

Progetto di Statistica Applicata Pagina 4/37

1.2 Programma utilizzato

1.3 Dataset analizzato

• x1_ISO, che rappresenta la sensibilità del sensore;

• x2_FRatio, che rappresenta il rapporto focale;

• x3_Time, che rappresenta il tempo di esposizione;

• x4_MP, che rappresenta i megaPixel del sensore;

• x5_CROP, che rappresenta il fattore di Crop;

• x6_FOCAL, che rappresenta il focale;

• x7_PixDensity, che rappresenta la densità in Pixel.

Nello script R consegnato (progettoGruppo2.R), i dati conservati nel file Dataset_AH_Gruppo2.csv

• ogni oggetto fosse del tipo corretto;

• non ci fossero entry vuote.

Progetto di Statistica Applicata Pagina 5/37

Tabella 1: Indici di posizione

ImageQuality ISO FRatio Time MP CROP FOCAL PixDensity

2.2 Indici sintetici

Tramite la funzione summary() di R è possibile tabularli facilmente, ed ottenere la tabella 1.

Progetto di Statistica Applicata Pagina 6/37

• Se freq = FALSE, l’istogramma mostra le frequenze relative, ovvero la percentuale di osservazioni in

Progetto di Statistica Applicata Pagina 7/37

x1_ISO x2_FRatio x3_Time

(a) Boxplot di ISO (b) Boxplot di FRatio (c) Boxplot di Time

x4_MP x5_CROP x6_FOCAL

(d) Boxplot di MP (e) Boxplot di CROP (f) Boxplot di FOCAL

(g) Boxplot di PixDensity

Figura 1: Boxplot dei regressori

Progetto di Statistica Applicata Pagina 8/37

x1_ISO x2_FRatio x3_Time

Valori Valori Valori

(a) Istogramma di ISO (b) Istogramma di FRatio (c) Istogramma di Time

x4_MP x5_CROP x6_FOCAL

Valori Valori Valori

(d) Istogramma di MP (e) Istogramma di CROP (f) Istogramma di FOCAL

(g) Istogramma di PixDensity

Figura 2: Istogrammi dei regressori

Progetto di Statistica Applicata Pagina 9/37

Q−Q plot for x7_PixDensity

(g) Q-Q plot di PixDensity

Figura 3: Q-Q plot dei regressori

Progetto di Statistica Applicata Pagina 10/37

• graficamente attraverso gli scatterplot;

• algebricamente attraverso la matrice di correlazione.

• esiste una debole correlazione tra ImageQuality e Time;

Progetto di Statistica Applicata Pagina 11/37

Scatterplot Scatterplot Scatterplot

100 100 100

(a) Scatterplot di ISO (b) Scatterplot di FRatio (c) Scatterplot di Time

Scatterplot Scatterplot Scatterplot

100 100 100

(d) Scatterplot di MP (e) Scatterplot di CROP (f) Scatterplot di FOCAL

(g) Scatterplot di PixDensity

Signif. codes: 0 * 0.001 0.01 * 0.05 . 0.1 1