Sei sulla pagina 1di 37

UNIVERSITÀ DEGLI STUDI DI SALERNO

FACOLTÀ DI INGEGNERIA INFORMATICA


ANNO ACCADEMICO 2022/2023

Professor Fabio Postiglione

Progetto di Statistica Applicata

Analisi di un dataset in R
Autori: Sabrina Cuomo, Chiara Ferraioli, Francesco Ferraù, Davide Gigante

SALERNO, GENNAIO 2023


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

Indice
1 Introduzione 5
1.1 Obiettivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Programma utilizzato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Dataset analizzato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Analisi preliminare 6
2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Indici sintetici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Istogrammi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5 Scatterplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3 Ricerca del modello di regressione 14


3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Modelli di regressione semplice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.1 ISO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.2 FRatio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.3 Time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.4 MP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.5 CROP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.6 FOCAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.7 PixDensity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Modelli di regressione multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3.1 Primo modello lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3.2 Secondo modello lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.3 Primo modello polinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.4 Secondo modello polinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.5 Terzo modello polinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.6 Modello finale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4 Stima puntuale ed intervallare 27


4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2 Stima puntuale dei parametri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.3 Stima intervallare dei parametri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.4 Stima del valore atteso di ImageQuality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

Progetto di Statistica Applicata Pagina 2/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

5 Diagnostica del modello di regressione 29


5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2 Linearità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.3 Omoschedasticità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.4 Normalità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.5 Incorrelazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

6 Confronto tra modelli statistici 32


6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.2 Backward selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.3 Forward Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.4 Stepwise Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.5 Scelta del modello finale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.6 Considerazioni finali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

Progetto di Statistica Applicata Pagina 3/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

Elenco degli estratti di codice


1 Modello di regressione lineare con ISO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Modello di regressione polinomiale con ISO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Modello di regressione lineare con FRatio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4 Modello di regressione polinomiale con FRatio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5 Modello di regressione lineare con Time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6 Modello di regressione lineare con MP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
7 Modello di regressione lineare con CROP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
8 Modello di regressione polinomiale con CROP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
9 Modello di regressione lineare con FOCAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
10 Modello di regressione lineare con PixDensity . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
11 Primo modello lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
12 Secondo modello lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
13 Primo modello di regressione polinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
14 Secondo modello di regressione polinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
15 Terzo modello di regressione polinomiale (CROP3 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
16 Terzo modello di regressione multipla (CROP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
17 Modello finale di regressione multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
18 Omoschedasticità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
19 Test di Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
20 Backward Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
21 Forward Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
22 Stepwise Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
23 Modello costruito tramite best subset regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Progetto di Statistica Applicata Pagina 4/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

1 Introduzione
1.1 Obiettivo
Lo scopo di questa relazione è quello di analizzare e commentare un dataset assegnato, sfruttando le nozioni
apprese durante il corso di Statistica Applicata.
Più nello specifico, l’obiettivo è quello di trovare un modello statistico che descriva la relazione tra la variabile
dipendente y attraverso una o più variabili indipendenti, che verranno descritte nella sezione 1.3. La relazione
sarà impostata in modo tale che per ogni argomento ci sia un’introduzione dedicata ai richiami teorici ed una
seconda parte in cui essi vengono applicati sul dataset.

1.2 Programma utilizzato


R è un linguaggio di programmazione e un ambiente di sviluppo integrato (IDE ), rispettivamente RStudio,
utilizzato per l’analisi statistica e la visualizzazione dei dati. Infatti, R offre una vasta gamma di librerie per la
creazione di modelli statistici, la produzione di grafici di alta qualità e la manipolazione dei dati. Viene utilizzato
comunemente in ambito accademico e in settori come la finanza, la farmaceutica e il marketing.

1.3 Dataset analizzato


Il dataset fornito è composto da 100 campioni di una popolazione di dati di tipo quantitativo continuo. Questo
dataset presenta lungo la prima colonna le osservazioni della variabile dipendente y_ImageQuality, che
rappresenta la qualità dell’immagine, mentre nelle colonne successive:

• x1_ISO, che rappresenta la sensibilità del sensore;

• x2_FRatio, che rappresenta il rapporto focale;

• x3_Time, che rappresenta il tempo di esposizione;

• x4_MP, che rappresenta i megaPixel del sensore;

• x5_CROP, che rappresenta il fattore di Crop;

• x6_FOCAL, che rappresenta il focale;

• x7_PixDensity, che rappresenta la densità in Pixel.

Nello script R consegnato (progettoGruppo2.R), i dati conservati nel file Dataset_AH_Gruppo2.csv


sono stati importati nel data frame data, dopo aver eseguito delle operazioni preliminari, quali la pulizia della
memoria di R e il set della working directory. Di seguito, è stato necessario assicurarsi dell’affidabilità e della
consistenza dei dati del data frame, modificando i nomi delle colonne (con scopo puramente visivo) e controllando
che:

• ogni oggetto fosse del tipo corretto;

• non ci fossero entry vuote.

Progetto di Statistica Applicata Pagina 5/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

Tabella 1: Indici di posizione

ImageQuality ISO FRatio Time MP CROP FOCAL PixDensity


Min. -15.03 -1.7228 -1.70652 -1.7155 -1.71299 -1.6773 -1.6550 -1.75654
1st Qu. 44.73 -1.1277 -0.91695 -0.7757 -0.92342 -1.0702 -0.9901 -0.78849
Median 56.95 -0.2608 0.06184 -0.1882 -0.01281 -0.2842 -0.1002 -0.08835
Mean 54.69 -0.2189 0.03111 -0.0587 -0.04586 -0.2057 -0.0776 0.00000
3rd Qu. 67.92 0.7140 1.00799 0.8487 0.84109 0.6281 0.8690 0.69575
Max. 105.73 1.6884 1.72189 1.7111 1.70459 1.6410 1.6942 2.18297

2 Analisi preliminare
2.1 Introduzione
In questa sezione verrà effettuata un’analisi preliminare dei dati tramite gli strumenti della Statistica De-
scrittiva. Questa branca della statistica permette di sintetizzare e rappresentare efficacemente le informazioni
presenti in un insieme di dati, detto popolazione, tuttavia senza indagare sulle relazioni causali tra le variabili
in esame. In molti casi pratici purtroppo sono presenti dei vincoli che rendono impossibile l’analisi dell’intera
popolazione, per cui la procedura obbligata è quella di estrarne un sottoinsieme, detto campione. Una volta
ottenuto il campione tramite diverse possibili tecniche di campionamento, si applicano gli strumenti della
Statistica Descrittiva per rappresentare, sintetizzare e descrivere i dati in esame.

2.2 Indici sintetici


Un campione può essere descritto facendo riferimento ad alcuni indici sintetici che, pur contenendo un livello
di informazione modesto, forniscono dettagli aggiuntivi nelle considerazioni successive. Gli indici sintetici si
suddividono in:

• indici di tendenza centrale, che hanno lo scopo di indicare intorno a quali valori tendono ad addensarsi
i valori della caratteristica di interesse;

• indici di dispersione, che hanno lo scopo di dare una misura della variabilità nelle osservazioni.

Tramite la funzione summary() di R è possibile tabularli facilmente, ed ottenere la tabella 1.

2.3 Boxplot
Il Boxplot è uno strumento che permette di rappresentare graficamente la distribuzione di un campione
attraverso alcuni indici sintetici, più nello specifico:

• minimo;

• primo quartile;

• mediana;

Progetto di Statistica Applicata Pagina 6/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

• terzo quartile;

• massimo;

I boxplot per ogni regressore possono essere ottenuti facilmente in R attraverso la funzione boxplot(), e sono
rappresentanti in figura 1.
Si noti che nessun boxplot presenta outliers: valori anomali o estremi dei dati, genericamente dovuti ad er-
rori di misurazione ed eventi eccezionali. Essi si discostano significativamente dalla maggior parte dei valori e
possono influire negativamente sulla descrizione del campione. La loro assenza, di conseguenza, è un fattore
significativamente positivo.

2.4 Istogrammi
Un campione, oltre che dagli indici, può essere rappresentato dalla propria distribuzione di frequenza, pre-
sentata in forma tabulare e/o grafica, rispettivamente attraverso le tabelle di frequenza e/o gli istogrammi.
Questa distribuzione si basa sul concetto di frequenza: il numero di volte che un valore specifico o un intervallo
di valori appare in un insieme di dati.
In R è possibile costruire l’istogramma (figura 2) di ciascun regressore attraverso la funzione hist(). In
particolare, il parametro booleano freq è di rilevante importanza, perché controlla se l’istogramma deve essere
visualizzato come frequenze assolute o relative:

• Se freq = TRUE (valore predefinito), l’istogramma mostra le frequenze assolute, ovvero il numero di
osservazioni in ogni classe di intervalli;

• Se freq = FALSE, l’istogramma mostra le frequenze relative, ovvero la percentuale di osservazioni in


ogni classe di intervalli.

A giudicare dagli istogrammi, i regressori sembrano essere distribuiti come una Normale. È necessario, dunque,
effettuare il test di ipotesi: 
H : X ∼ N (µ, σ 2 )
0 i
H : X ∼
1 i ̸ N (µ, σ 2 )

Per verificare l’ipotesi nulla si è scelto di utilizzare il Normal Q-Q plot, un grafico che mostra il confronto tra
quantili empirici e quantili teorici, in questo caso la distribuzione Normale. Se i dati seguono la distribuzione
Normale, i punti sul Q-Q plot devono in maniera più o meno precisa essere distribuiti su una retta.
In R è possibile costruire il Q-Q plot (figura 3) di ciascun regressore usando la funzione qqggplot()
della libreria ggpubr. Analizzandoli, è possibile affermare che tutti i regressori sono distribuiti con buona
approssimazione come una variabile aleatoria Normale, accettando quindi l’ipotesi H0 .

Progetto di Statistica Applicata Pagina 7/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

x1_ISO x2_FRatio x3_Time

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

(a) Boxplot di ISO (b) Boxplot di FRatio (c) Boxplot di Time

x4_MP x5_CROP x6_FOCAL

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

(d) Boxplot di MP (e) Boxplot di CROP (f) Boxplot di FOCAL

x7_PixDensity

−1 0 1 2

(g) Boxplot di PixDensity

Figura 1: Boxplot dei regressori

Progetto di Statistica Applicata Pagina 8/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

x1_ISO x2_FRatio x3_Time

0.4
0.5

0.4
0.4

0.3
0.3
0.3
Densità

Densità

Densità

0.2
0.2
0.2

0.1
0.1
0.1
0.0

0.0

0.0
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2

Valori Valori Valori

(a) Istogramma di ISO (b) Istogramma di FRatio (c) Istogramma di Time

x4_MP x5_CROP x6_FOCAL


0.35

0.35
0.30

0.30

0.3
0.25

0.25
0.20

0.20
Densità

Densità

Densità

0.2
0.15

0.15
0.10

0.10

0.1
0.05

0.05
0.00

0.00

0.0

−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2

Valori Valori Valori

(d) Istogramma di MP (e) Istogramma di CROP (f) Istogramma di FOCAL

x7_PixDensity
0.4
0.3
Densità

0.2
0.1
0.0

−2 −1 0 1 2

Valori

(g) Istogramma di PixDensity

Figura 2: Istogrammi dei regressori

Progetto di Statistica Applicata Pagina 9/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

Q−Q plot for x1_ISO Q−Q plot for x2_FRatio Q−Q plot for x3_Time
5.0
5.0

2.5 2.5
2.5
Sample

Sample

Sample
0.0
0.0 0.0

−2.5 −2.5
−2.5

−5.0 −5.0

−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
Theoretical Theoretical Theoretical

(a) Q-Q plot di ISO (b) Q-Q plot di FRatio (c) Q-Q plot di Time

Q−Q plot for x4_MP Q−Q plot for x5_CROP Q−Q plot for x6_FOCAL
5.0
5.0

2.5
2.5 2.5
Sample

Sample

Sample

0.0
0.0 0.0

−2.5 −2.5
−2.5

−5.0
−5.0 −5.0
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
Theoretical Theoretical Theoretical

(d) Q-Q plot di MP (e) Q-Q plot di CROP (f) Q-Q plot di FOCAL

Q−Q plot for x7_PixDensity


4

2
Sample

−2

−4

−2 −1 0 1 2
Theoretical

(g) Q-Q plot di PixDensity

Figura 3: Q-Q plot dei regressori

Progetto di Statistica Applicata Pagina 10/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

2.5 Scatterplot
Un altro aspetto fondamentale nell’analisi preliminare dei dati è l’eventuale presenza di relazioni tra due o più
variabili, oggetto di studio dell’analisi di correlazione. Infatti, essa può in molti casi essere utilizzata sia al
fine di agire sulle variabili di input per condizionare le variabili di output, che per stimare o predire il valore di
una variabile, basandosi solo sui valori dell’altra. È possibile analizzare la relazione che intercorre tra due o più
variabili:

• graficamente attraverso gli scatterplot;

• algebricamente attraverso la matrice di correlazione.

Gli scatterplot rappresentano ogni osservazione come un punto sul grafico, costituito da due assi ortogonali, in
cui vengono riportate le due variabili: l’indipendente sull’asse orizzontale e la dipendente sull’asse verticale. In
R è possibile ottenere lo scatterplot (figura 4) di ciascun regressore usando la funzione ggplot() della libreria
ggplot2.
Spesso è preferibile usare un coefficiente matematico, detto coefficiente di correlazione R. Risulta, date due
variabili aleatorie X e Y :
COV (X, Y )
R= p −1≤R≤1
Var(X)Var(Y )

Pertanto, quanto più il valore di R è prossimo a ±1 tanto più le variabili aleatorie dipendono linearmente tra
loro. Nel caso di n variabili aleatorie, R si presenta in forma matriciale con elementi del tipo:

vij
rij = p i, j = 1, 2, ..., n
Var(Xi )Var(Xj )

dove vij è l’elemento appartenente alla riga i-esima e alla colonna j-esima della matrice di varianze e
covarianze. Si noti che R misura il grado di dipendenza lineare.
In R è possibile costruire la matrice di correlazione e presentarla in una forma più intuitiva ed accattivante
tramite le funzioni cor() e corrplot().
Osservando il correlation plot (figura 5) si evince che:

• esiste una buona anticorrelazione tra ImageQuality e ISO. Tuttavia, a giudicare dallo scatterplot,
sembra sussistere una relazione di grado superiore tra le due;

• esiste una forte anticorrelazione tra ImageQuality e FRatio, che però potrebbe essere spiegata in
maniera migliore attraverso relazioni di grado superiore;

• esiste una debole correlazione tra ImageQuality e Time;

• esiste una forte anticorrelazione tra ImageQuality e CROP, descrivibile al meglio tramite una relazione
di grado superiore.

Queste sono le variabili da cui ci si aspetta un rilevante contributo per la costruzione del modello statistico,
argomento della sezione 3.

Progetto di Statistica Applicata Pagina 11/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

Scatterplot Scatterplot Scatterplot


ISO FRatio Time

100 100 100

75 75 75
Image Quality

Image Quality

Image Quality
50 50 50

25 25 25

0 0 0

−1 0 1 −1 0 1 −1 0 1
ISO FRatio Time

(a) Scatterplot di ISO (b) Scatterplot di FRatio (c) Scatterplot di Time

Scatterplot Scatterplot Scatterplot


MP CROP FOCAL

100 100 100

75 75 75
Image Quality

Image Quality

Image Quality

50 50 50

25 25 25

0 0 0

−1 0 1 −1 0 1 −1 0 1
MP CROP FOCAL

(d) Scatterplot di MP (e) Scatterplot di CROP (f) Scatterplot di FOCAL

Scatterplot
PixDensity

100

75
Image Quality

50

25

−1 0 1
PixDensity

(g) Scatterplot di PixDensity

Figura 4: Scatterplot dei regressori

Progetto di Statistica Applicata Pagina 12/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

y_ImageQuality

x7_PixDensity
x6_FOCAL
x2_FRatio

x5_CROP
x3_Time
x1_ISO

x4_MP
1

y_ImageQuality
0.8

x1_ISO 0.6

x2_FRatio 0.4

0.2
x3_Time
0

x4_MP
−0.2

x5_CROP −0.4

x6_FOCAL −0.6

−0.8
x7_PixDensity
−1

(a) Versione con ellissi


y_ImageQuality

x7_PixDensity
x6_FOCAL
x2_FRatio

x5_CROP
x3_Time
x1_ISO

x4_MP

y_ImageQuality 1.00 −0.45 −0.52 0.30 −0.05 −0.50 −0.04 0.06


0.8

x1_ISO −0.45 1.00 0.05 −0.05 −0.02 0.04 0.04 −0.01 0.6

x2_FRatio 0.4
−0.52 0.05 1.00 −0.10 0.05 −0.05 0.00 −0.02

0.2
x3_Time 0.30 −0.05 −0.10 1.00 −0.03 −0.12 0.00 0.00
0

x4_MP −0.05 −0.02 0.05 −0.03 1.00 −0.17 0.05 0.79


−0.2

x5_CROP −0.50 0.04 −0.05 −0.12 −0.17 1.00 −0.06 −0.27 −0.4

x6_FOCAL −0.6
−0.04 0.04 0.00 0.00 0.05 −0.06 1.00 −0.04

−0.8
x7_PixDensity 0.06 −0.01 −0.02 0.00 0.79 −0.27 −0.04 1.00
−1

(b) Versione con valori numerici

Figura 5: Correlation plot

Progetto di Statistica Applicata Pagina 13/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

3 Ricerca del modello di regressione


3.1 Introduzione
In questa sezione verrà ricercato il modello matematico che meglio risponde all’esigenza di descrivere Image-
Quality, sfruttando l’Analisi di Regressione. Per la costruzione dei modello sono stati presi in considerazione
due parametri differenti:

• il coefficiente di determinazione R2 , definito dal rapporto

SQR
R2 = 0 ≤ R2 ≤ 1
SQTOT

dove SQR e SQTOT sono, rispettivamente, la variabilità dovuta alla regressione e la variabilità totale.
Esso rappresenta una misura dell’importanza relativa che l’intero insieme di variabili indipendenti Xi ha
nell’interpretare il comportamento della variabile dipendente Y ;

• il p-value, che rappresenta la probabilità, nell’Analisi di regressione, che i coefficienti delle variabili
indipendenti siano nulli o che le loro relazioni con la variabile dipendente siano casuali.

3.2 Modelli di regressione semplice


Preliminarmente si è studiata la relazione tra la variabile dipendente Y (ImageQuality) ed ogni singola
variabile esplicativa Xi , attraverso dei modelli di regressione semplice, che si presentano nella forma:

Y = β0 + β1 Xi + ε

dove β0 + β1 Xi rappresenta un contributo deterministico, mentre ε un contributo aleatorio che indica le


fluttuazioni casuali nei dati non prevedibili.

3.2.1 ISO

Come già osservato nel paragrafo 2.5, ci si aspettava una correlazione di tipo lineare tra ISO e ImageQuality.
Questa correlazione è confermata dall’output della funzione summary() del modello. Infatti, il p-value risulta
pressoché pari a zero e il valore di R2 è relativamente alto:
Call:
lm(formula = y_ImageQuality ~ x1_ISO)

Residuals:
Min 1Q Median 3Q Max
-53.481 -10.909 -0.016 13.877 47.781

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 52.582 1.977 26.60 < 2e-16 ***

Progetto di Statistica Applicata Pagina 14/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

x1_ISO -9.632 1.911 -5.04 2.13e-06 ***


---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 19.32 on 98 degrees of freedom


Multiple R-squared: 0.2058, Adjusted R-squared: 0.1977
F-statistic: 25.4 on 1 and 98 DF, p-value: 2.131e-06

Estratto di codice 1: Modello di regressione lineare con ISO

Nonostante il fatto che dal punto di vista lineare ISO abbia già un ottima incidenza su ImageQuality, è
deducibile dal suo diagramma di dispersione che possa descriverla in maniera ancora più accurata attraverso un
modello di regressione polinomiale. Dopo differenti prove, si è pervenuti al seguente modello ottimale:
Call:
lm(formula = y_ImageQuality ~ I(x1_ISO^2) + I(x1_ISO^3))

Residuals:
Min 1Q Median 3Q Max
-44.285 -13.458 0.268 14.257 46.562

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 60.656 3.036 19.979 < 2e-16 ***
I(x1_ISO^2) -8.350 2.376 -3.514 0.000673 ***
I(x1_ISO^3) -6.378 1.057 -6.034 2.93e-08 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 18.43 on 97 degrees of freedom


Multiple R-squared: 0.2845, Adjusted R-squared: 0.2698
F-statistic: 19.29 on 2 and 97 DF, p-value: 8.855e-08

Estratto di codice 2: Modello di regressione polinomiale con ISO

3.2.2 FRatio

Anche in questo caso ci si aspettava che tra FRatio e ImageQuality sussistesse una correlazione lineare,
confermata dall’output della funzione summary() del modello. Infatti, come per ISO, il p-value risulta pressoché
pari a zero e il valore di R2 relativamente alto:
Call:
lm(formula = y_ImageQuality ~ x2_FRatio)

Residuals:
Min 1Q Median 3Q Max
-66.115 -9.036 1.968 13.491 41.005

Coefficients:
Estimate Std. Error t value Pr(>|t|)

Progetto di Statistica Applicata Pagina 15/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

(Intercept) 55.028 1.857 29.639 < 2e-16 ***


x2_FRatio -10.865 1.818 -5.977 3.69e-08 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 18.56 on 98 degrees of freedom


Multiple R-squared: 0.2671, Adjusted R-squared: 0.2597
F-statistic: 35.72 on 1 and 98 DF, p-value: 3.686e-08

Estratto di codice 3: Modello di regressione lineare con FRatio

Anche in questo caso, tuttavia, risulta più accurato il seguente modello polinomiale:
Call:
lm(formula = y_ImageQuality ~ I(x2_FRatio) + I(x2_FRatio^2))

Residuals:
Min 1Q Median 3Q Max
-61.761 -9.651 0.881 11.264 43.261

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 62.885 2.809 22.385 < 2e-16 ***
I(x2_FRatio) -10.306 1.724 -5.977 3.78e-08 ***
I(x2_FRatio^2) -7.549 2.108 -3.580 0.000538 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 17.53 on 97 degrees of freedom


Multiple R-squared: 0.3527, Adjusted R-squared: 0.3393
F-statistic: 26.43 on 2 and 97 DF, p-value: 6.904e-10

Estratto di codice 4: Modello di regressione polinomiale con FRatio

3.2.3 Time

Time è statisticamente significativo per la descrizione di ImageQuality, anche se non come i due precedenti
regressori. Le conferme arrivano dal p-value pressoché pari a zero e dal valore di R2 :
Call:
lm(formula = y_ImageQuality ~ x3_Time)

Residuals:
Min 1Q Median 3Q Max
-61.192 -8.681 1.620 13.052 46.421

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 55.071 2.073 26.562 < 2e-16 ***
x3_Time 6.496 2.106 3.084 0.00265 **

Progetto di Statistica Applicata Pagina 16/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 20.7 on 98 degrees of freedom


Multiple R-squared: 0.08849, Adjusted R-squared: 0.07919
F-statistic: 9.514 on 1 and 98 DF, p-value: 0.00265

Estratto di codice 5: Modello di regressione lineare con Time

3.2.4 MP

Differentemente da quanto successo con i primi tre regressori, MP non risulta statisticamente utile per la co-
struzione del modello e ciò è dovuto al p-value superiore alla soglia dello 0.05 e al basso valore del coefficiente
R2 :
Call:
lm(formula = y_ImageQuality ~ x4_MP)

Residuals:
Min 1Q Median 3Q Max
-68.108 -9.674 2.582 12.582 49.409

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 54.638 2.167 25.21 <2e-16 ***
x4_MP -1.133 2.137 -0.53 0.597
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 21.65 on 98 degrees of freedom


Multiple R-squared: 0.00286, Adjusted R-squared: -0.007314
F-statistic: 0.2811 on 1 and 98 DF, p-value: 0.5972

Estratto di codice 6: Modello di regressione lineare con MP

3.2.5 CROP

Così come ISO e FRatio, CROP può entrare a far parte del modello ma non in forma lineare. Infatti per il
primo grado si ha:
Call:
lm(formula = y_ImageQuality ~ x5_CROP)

Residuals:
Min 1Q Median 3Q Max
-60.435 -11.338 1.532 14.109 36.612

Coefficients:
Estimate Std. Error t value Pr(>|t|)

Progetto di Statistica Applicata Pagina 17/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

(Intercept) 52.547 1.919 27.381 < 2e-16 ***


x5_CROP -10.422 1.840 -5.665 1.47e-07 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 18.81 on 98 degrees of freedom


Multiple R-squared: 0.2467, Adjusted R-squared: 0.239
F-statistic: 32.1 on 1 and 98 DF, p-value: 1.471e-07

Estratto di codice 7: Modello di regressione lineare con CROP

Mentre è stato trovato che per il terzo grado si ha:


Call:
lm(formula = y_ImageQuality ~ I(x5_CROP^3))

Residuals:
Min 1Q Median 3Q Max
-65.205 -10.262 2.871 12.105 30.912

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 52.0018 1.8534 28.058 < 2e-16 ***
I(x5_CROP^3) -5.6753 0.8658 -6.555 2.61e-09 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 18.07 on 98 degrees of freedom


Multiple R-squared: 0.3048, Adjusted R-squared: 0.2977
F-statistic: 42.97 on 1 and 98 DF, p-value: 2.609e-09

Estratto di codice 8: Modello di regressione polinomiale con CROP

3.2.6 FOCAL

FOCAL risulta statisticamente inefficiente a causa del valore altissimo del p-value, per cui appare naturale
escluderlo dal modello finale:
Call:
lm(formula = y_ImageQuality ~ x6_FOCAL)

Residuals:
Min 1Q Median 3Q Max
-70.172 -9.529 2.178 13.861 50.172

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 54.6167 2.1719 25.147 <2e-16 ***
x6_FOCAL -0.9462 2.1329 -0.444 0.658
---

Progetto di Statistica Applicata Pagina 18/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 21.66 on 98 degrees of freedom


Multiple R-squared: 0.002004, Adjusted R-squared: -0.00818
F-statistic: 0.1968 on 1 and 98 DF, p-value: 0.6583

Estratto di codice 9: Modello di regressione lineare con FOCAL

3.2.7 PixDensity

Per le stesse motivazioni di FOCAL, PixDensity può essere escluso da un futuro modello di regressione multipla:
Call:
lm(formula = y_ImageQuality ~ x7_PixDensity)

Residuals:
Min 1Q Median 3Q Max
-70.468 -9.566 2.914 13.306 50.973

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 54.690 2.164 25.273 <2e-16 ***
x7_PixDensity 1.270 2.175 0.584 0.56
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 21.64 on 98 degrees of freedom


Multiple R-squared: 0.00347, Adjusted R-squared: -0.006699
F-statistic: 0.3412 on 1 and 98 DF, p-value: 0.5605

Estratto di codice 10: Modello di regressione lineare con PixDensity

3.3 Modelli di regressione multipla


Una volta studiati i singoli modelli di regressione semplice, è opportuno passare alla costruzione di un modello
di regressione multipla. Per farlo, oltre al coefficiente di determinazione R2 e al p-value, è stato preso in consi-
derazione anche l’SQE, o RSS. L’SQE rappresenta una misura della variabilità non spiegata dal modello ed è
definito dalla relazione:
n
X
(yi − ŷi )2
i=1

dove yi sono i valori osservati della variabile dipendente, mentre ŷi i valori predetti dal modello. L’approccio per
la definizione del modello su cui ci si è basati è molto semplice: partendo delle considerazioni fatte nel paragrafo
3.2, sono state aggiunte gradualmente tutte le variabili che sono risultate staticamente efficaci per la descrizione

Progetto di Statistica Applicata Pagina 19/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

di ImageQuality. Ciascun nuovo modello è poi stato valutato sul test di ipotesi:

H : Miglioramento significativo
0
H : Miglioramento non significativo
1

i cui criteri di accettazione dell’ipotesi nulla H0 sono stati:

• valore del coefficiente di determinazione più alto;

• valore dell’SQE più basso.

3.3.1 Primo modello lineare

Il primo modello lineare valutato è quello che prende in considerazione i tre regressori statisticamente più
rilevanti dell’analisi di regressione semplice fatta nel paragrafo precedente, ossia ISO, FRatio e CROP:

Y = β0 + β1 ISO + β2 FRatio + β4 CROP

La funzione summary() restituisce:


Call:
lm(formula = y_ImageQuality ~ x1_ISO + x2_FRatio + x5_CROP)

Residuals:
Min 1Q Median 3Q Max
-30.2794 -5.9895 0.4141 7.3235 24.9717

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 50.950 1.238 41.149 < 2e-16 ***
x1_ISO -8.669 1.178 -7.357 6.34e-11 ***
x2_FRatio -10.939 1.167 -9.372 3.32e-15 ***
x5_CROP -10.613 1.164 -9.114 1.19e-14 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 11.89 on 96 degrees of freedom


Multiple R-squared: 0.7055, Adjusted R-squared: 0.6963
F-statistic: 76.65 on 3 and 96 DF, p-value: < 2.2e-16

Estratto di codice 11: Primo modello lineare

Da cui si ricava:

• SQE = 13563;

• R2 = 0.7055;

• p-value < 2.2e−16 .

Progetto di Statistica Applicata Pagina 20/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

3.3.2 Secondo modello lineare

Il secondo ed ultimo modello lineare preso in considerazione si ottiene aggiungendo l’ultima variabile esplicativa
che presenta maggiore correlazione con ImageQuality e che è stata ritenuta statisticamente efficace, ossia
Time:
Y = β0 + β1 ISO + β2 FRatio + β3 Time + β4 CROP

La funzione summary() restituisce:


Call:
lm(formula = y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time +
x5_CROP)

Residuals:
Min 1Q Median 3Q Max
-28.223 -5.606 1.472 7.770 23.218

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 51.278 1.188 43.169 < 2e-16 ***
x1_ISO -8.522 1.127 -7.561 2.51e-11 ***
x2_FRatio -10.573 1.121 -9.427 2.77e-15 ***
x3_Time 3.724 1.172 3.178 0.002 **
x5_CROP -10.180 1.121 -9.080 1.53e-14 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 11.36 on 95 degrees of freedom


Multiple R-squared: 0.7338, Adjusted R-squared: 0.7226
F-statistic: 65.47 on 4 and 95 DF, p-value: < 2.2e-16

Estratto di codice 12: Secondo modello lineare

Da cui si ricava:

• SQE = 12259;

• R2 = 0.7338;

• p-value < 2.2e−16 .

Questo secondo modello rappresenta un miglioramento, seppur non significativo, del primo, poiché presenta
2
R più alto e SQE più basso. L’idea è quella di trovare un modello polinomiale che riesca a descrivere in maniera
ancora più precisa la variabile ImageQuality.

3.3.3 Primo modello polinomiale

Il primo modello polinomiale valutato è:

Y = β0 + β1 ISO2 + β2 ISO3 + β3 FRatio + β4 FRatio2 + ε

Progetto di Statistica Applicata Pagina 21/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

La funzione summary() restituisce:


Call:
lm(formula = y_ImageQuality ~ I(x1_ISO^2) + I(x1_ISO^3) + I(x2_FRatio) +
I(x2_FRatio^2))

Residuals:
Min 1Q Median 3Q Max
-28.025 -9.045 0.315 9.270 34.786

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 67.6751 2.6692 25.354 < 2e-16 ***
I(x1_ISO^2) -9.1902 1.7047 -5.391 5.10e-07 ***
I(x1_ISO^3) -6.4570 0.7615 -8.479 2.91e-13 ***
I(x2_FRatio) -11.3767 1.2981 -8.764 7.23e-14 ***
I(x2_FRatio^2) -5.5631 1.5946 -3.489 0.000738 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 13.13 on 95 degrees of freedom


Multiple R-squared: 0.6446, Adjusted R-squared: 0.6296
F-statistic: 43.07 on 4 and 95 DF, p-value: < 2.2e-16

Estratto di codice 13: Primo modello di regressione polinomiale

Da cui si ricava:

• SQE = 16368;

• R2 = 0.6446;

• p-value < 2.2e−16 .

3.3.4 Secondo modello polinomiale

Procedendo in ordine, il secondo modello è stato ottenuto aggiungendo la variabile Time:

Y = β0 + β1 ISO2 + β2 ISO3 + β3 FRatio + β4 FRatio2 + β5 Time + ε

La funzione summary() restituisce:


Call:
lm(formula = y_ImageQuality ~ I(x1_ISO^2) + I(x1_ISO^3) + I(x2_FRatio) +
I(x2_FRatio^2) + x3_Time)

Residuals:
Min 1Q Median 3Q Max
-24.646 -9.199 0.138 7.921 32.417

Progetto di Statistica Applicata Pagina 22/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 68.0294 2.4398 27.883 < 2e-16 ***
I(x1_ISO^2) -8.7853 1.5601 -5.631 1.85e-07 ***
I(x1_ISO^3) -6.3973 0.6958 -9.194 9.51e-15 ***
I(x2_FRatio) -10.7978 1.1930 -9.051 1.92e-14 ***
I(x2_FRatio^2) -6.0001 1.4601 -4.109 8.48e-05 ***
x3_Time 5.4804 1.2309 4.453 2.33e-05 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 11.99 on 94 degrees of freedom


Multiple R-squared: 0.7065, Adjusted R-squared: 0.6909
F-statistic: 45.25 on 5 and 94 DF, p-value: < 2.2e-16

Estratto di codice 14: Secondo modello di regressione polinomiale

Da cui si ricava:

• SQE = 13517;

• R2 = 0.7065;

• p-value < 2.2e−16 .

Sebbene l’SQE sia ancora relativamente alto, è possibile accettare l’ipotesi nulla H0 poiché sia SQE che R2
rispettano i criteri di accettazione definiti nel paragrafo 3.3.

3.3.5 Terzo modello polinomiale

Il terzo modello è stato ottenuto aggiungendo la variabile CROP3 :

Y = β0 + β1 ISO2 + β2 ISO3 + β3 FRatio + β4 FRatio2 + β5 Time + β6 CROP3 + ε

Si noti che avere un modello di regressione semplice più prestante rispetto ad altro non garantisce necessaria-
mente che poi, nella costruzione del modello di regressione multipla, non vi siano problemi. Ne è un esempio
proprio CROP, che nel modello di regressione semplice descriveva più accuratamente ImageQuality solo se
elevato al cubo, mentre adesso risulta più efficace il suo polinomio di primo grado.
Infatti, dalla funzione summary() del modello con CROP3 :
Call:
lm(formula = y_ImageQuality ~ I(x1_ISO^2) + I(x1_ISO^3) + I(x2_FRatio) +
I(x2_FRatio^2) + x3_Time + I(x5_CROP^3))

Residuals:
Min 1Q Median 3Q Max
-19.8142 -5.7421 -0.9599 5.8652 19.7832

Coefficients:

Progetto di Statistica Applicata Pagina 23/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

Estimate Std. Error t value Pr(>|t|)


(Intercept) 65.4262 1.7105 38.250 < 2e-16 ***
I(x1_ISO^2) -7.8367 1.0853 -7.221 1.39e-10 ***
I(x1_ISO^3) -5.4698 0.4909 -11.143 < 2e-16 ***
I(x2_FRatio) -10.1194 0.8296 -12.198 < 2e-16 ***
I(x2_FRatio^2) -6.0137 1.0120 -5.942 4.85e-08 ***
x3_Time 4.6098 0.8574 5.376 5.63e-07 ***
I(x5_CROP^3) -4.1416 0.4087 -10.132 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 8.312 on 93 degrees of freedom


Multiple R-squared: 0.8605, Adjusted R-squared: 0.8515
F-statistic: 95.61 on 6 and 93 DF, p-value: < 2.2e-16

Estratto di codice 15: Terzo modello di regressione polinomiale (CROP3 )

e dalla summary() del modello con CROP:


Call:
lm(formula = y_ImageQuality ~ I(x1_ISO^2) + I(x1_ISO^3) + I(x2_FRatio) +
I(x2_FRatio^2) + x3_Time + I(x5_CROP))

Residuals:
Min 1Q Median 3Q Max
-18.4538 -4.2618 -0.4429 4.0321 20.5672

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 65.9966 1.4977 44.064 < 2e-16 ***
I(x1_ISO^2) -8.0280 0.9540 -8.415 4.58e-13 ***
I(x1_ISO^3) -5.6512 0.4288 -13.180 < 2e-16 ***
I(x2_FRatio) -11.2267 0.7289 -15.402 < 2e-16 ***
I(x2_FRatio^2) -6.3610 0.8916 -7.134 2.08e-10 ***
x3_Time 4.3372 0.7567 5.732 1.22e-07 ***
I(x5_CROP) -9.2018 0.7289 -12.624 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 7.319 on 93 degrees of freedom


Multiple R-squared: 0.8918, Adjusted R-squared: 0.8849
F-statistic: 127.8 on 6 and 93 DF, p-value: < 2.2e-16

Estratto di codice 16: Terzo modello di regressione multipla (CROP)

si deduce che, sebbene l’aggiunta di CROP3 rappresenti comunque un miglioramento rispetto al secondo modello,
esso conferisce un contributo minore rispetto al suo equivalente di primo grado.
Infatti, per CROP3 risulta:

• SQE = 6424.6;

Progetto di Statistica Applicata Pagina 24/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

• R2 = 0.8605;

• p-value < 2.2e−16 .

Mentre per CROP:

• SQE = 4981.4;

• R2 = 0.8918;

• p-value < 2.2e−16 .

Risulta evidente che, se l’ipotesi nulla H0 del confronto tra modelli poteva già essere accettata nel caso di CROP3 ,
sarà logicamente accettata anche nel caso di CROP, ma con maggiore forza, pervenendo alla definizione del terzo
modello:
Y = β0 + β1 ISO2 + β2 ISO3 + β3 FRatio + β4 FRatio2 + β5 Time + β6 CROP + ε

3.3.6 Modello finale

Sebbene il terzo modello sia già di per sé ottimo poiché è composto da tutti regressori ritenuti validi per
ImageQuality, non si è esclusa la possibilità della presenza di un regressore di interazione. Dopo differenti
prove, è stato ottenuto il modello finale:

Y = β0 +β1 ISO2 +β2 ISO3 +β3 FRatio+β4 FRatio2 +β5 Time+β6 CROP+β7 PixDensity2 ISO3 FOCAL +ε


La funzione summary() restituisce:


Call:
lm(formula = y_ImageQuality ~ I(x1_ISO^2) + I(x1_ISO^3) + I(x2_FRatio) +
I(x2_FRatio^2) + x3_Time + I(x5_CROP) + I(x1_ISO^3):I(x6_FOCAL):I(x7_PixDensity^2))

Residuals:
Min 1Q Median 3Q Max
-18.1849 -3.6223 -0.4383 3.7971 20.4614

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 65.7718 1.3930 47.217 < 2e-16 ***
I(x1_ISO^2) -8.2255 0.8879 -9.264 8.09e-15 ***
I(x1_ISO^3) -5.9075 0.4037 -14.635 < 2e-16 ***
I(x2_FRatio) -11.1119 0.6780 -16.389 < 2e-16 ***
I(x2_FRatio^2) -6.4136 0.8286 -7.740 1.25e-11 ***
x3_Time 3.8594 0.7134 5.410 4.97e-07 ***
I(x5_CROP) -9.7827 0.6931 -14.115 < 2e-16 ***
I(x1_ISO^3):I(x6_FOCAL):I(x7_PixDensity^2) 1.0855 0.2740 3.962 0.000147 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Progetto di Statistica Applicata Pagina 25/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

Residual standard error: 6.801 on 92 degrees of freedom


Multiple R-squared: 0.9076, Adjusted R-squared: 0.9006
F-statistic: 129.1 on 7 and 92 DF, p-value: < 2.2e-16

Estratto di codice 17: Modello finale di regressione multipla

Da cui si ricava:

• SQE = 4255.4;

• R2 = 0.9076;

• p-value < 2.2e−16 .

Si noti che le variabili esplicative PixDensity e FOCAL erano state escluse preventivamente dal modello.
Infatti, non sono presenti singolarmente, ma sottoforma di interazione con gli altri regressori.

Progetto di Statistica Applicata Pagina 26/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

4 Stima puntuale ed intervallare


4.1 Introduzione
In questa sezione verranno utilizzati gli strumenti della Teoria della Stima per stimare i parametri del modello
ritrovato nel paragrafo 3.3.6. Si effettuerà prima una stima puntuale e poi una stima intervallare dei parametri,
per poi calcolare il valore atteso di ImageQuality.

4.2 Stima puntuale dei parametri


Esistono diversi metodi per stimare i parametri di un modello di regressione lineare multipla. In questo caso è
stato scelto il metodo dei minimi quadrati, che presenta diversi vantaggi:

• Semplicità. Il metodo dei minimi quadrati è semplice da implementare e da interpretare. Le equazioni per
stimare i parametri sono ben conosciute e facili da calcolare;

• Affidabilità. Il metodo dei minimi quadrati è molto affidabile e produce risultati precisi se i presupposti
del modello sono soddisfatti;

• Stabilità. Il metodo dei minimi quadrati è stabile e produce risultati affidabili anche se i dati sono rumorosi
o contengono outlier.

Questo metodo impone che la somma dei quadrati delle differenze tra i valori osservati Yi e i valori stimati Ŷi
sia minima. Dal punto di vista algebrico:

n
( n )
X Xh i2
SQE = (yi − ŷi )2 = min yi − (β̂0 + β̂1 x1 + · · · + β̂n xn )
i=1 β̂i i=1

Per determinare questo minimo, basta risolvere il sistema di k + 1 equazioni nei k + 1 parametri incogniti che
si ottiene uguagliando a zero le sue derivate parziali prime. Talvolta è preferibile utilizzare la Design Matrix
X, una matrice di dimensione n(k + 1), dove n è la numerosità campionaria e k è il numero di parametri
del modello, in cui sono raccolte tutte le osservazioni dei regressori. Essa è legata ad Y = (y1 , . . . , yn )T dalla
seguente relazione:
Y = Xβ + ε

dove β = (β1 , . . . , βn )T e ε = (ε1 , . . . , εn )T . Sotto opportune ipotesi, il vettore di parametri stimati β̂ si ottiene
attraverso il prodotto:
 −1
β̂ = XT X XT Y = arg min SQE(β)
β

In R non è necessario svolgere tutti questi calcoli, perché la funzione lm() fornisce già la stima ai minimi
quadrati nel suo campo coefficients. Facendo riferimento all’estratto 17, si ottiene:

βˆ0 = 66.77 βˆ1 = −8.23 βˆ2 = −5.9 βˆ3 = −11.11


βˆ4 = −6.41 βˆ5 = 3.86 βˆ6 = −9.78 βˆ7 = 1.08

Progetto di Statistica Applicata Pagina 27/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

4.3 Stima intervallare dei parametri


Alternativamente, piuttosto che stimare puntualmente ciascun parametro, è possibile definire per ognuno di essi
un intervallo di confidenza al livello 1 − α, ossia un intervallo all’interno del quale vi è una sicurezza pari ad
1 − α di ritrovare il vero valore del parametro, dove α è il livello di rischio.
Per stimare l’intervallo di confidenza al livello 1 − α per il parametro βi è possibile utilizzare la variabile
aleatoria:
β̂i − βi
T = ∼ tn−k−1
SE(β̂i )
che si distribuisce come una T di Student con ν = n − k − 1 gradi di libertà. Attraverso delle semplici
manipolazioni matematiche risulta:
( )
β̂i − βi n o
Pr −t1−α/2;ν ≤ ≤ t1−α/2;ν = Pr −t1−α/2;ν SE(β̂i ) ≤ β̂i − βi ≤ t1−α/2;ν SE(β̂i ) =
SE(β̂i )
n o
= Pr β̂i − t1−α/2;ν SE(β̂i ) ≤ βi ≤ β̂i + t1−α/2;ν SE(β̂i ) =

=1−α

Da cui si ricava:
L = β̂i − t1−α/2;ν SE(β̂i )
U = β̂i + t1−α/2;ν SE(β̂i )

In R è possibile calcolare direttamente gli intervalli di confidenza di ciascun regressore semplicemente usando
la funzione confint(), da cui si ottengono:

β0 ∈ [63.0, 68.54] β1 ∈ [−9.99, −6.46]


β2 ∈ [−6.70, −5.11] β3 ∈ [−12.46, −9.77]
β4 ∈ [−8.06, −4.77] β5 ∈ [2.44, 5.28]
β6 ∈ [−11.16, −8.41] β7 ∈ [0.54, 1.63]

4.4 Stima del valore atteso di ImageQuality


Lo stesso discorso fatto per i parametri delle variabili esplicative può essere fatto per il valore atteso di
ImageQuality, indicato con E(Ŷ | X = x). Per cui, la variabile aleatoria:

Ȳ − E(Ŷ | X = x)
T = √ ∼ tn−k−1
S/ n

si distribuisce come una T di Student con ν = n − k − 1 gradi di libertà. Il procedimento è lo stesso del paragrafo
precedente:

L = Ȳ − t1−α/2;ν S/ n

U = Ȳ + t1−α/2;ν S/ n

Progetto di Statistica Applicata Pagina 28/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

5 Diagnostica del modello di regressione


5.1 Introduzione
In questa sezione sarà effettuata la Diagnostica del modello di regressione trovato nel paragrafo 3.3.6, basata
sullo studio dei residui: la differenza tra i valori osservati e quelli stimati dal modello. In altre parole, indicano
l’errore da esso non spiegato. Le loro proprietà sono molto utili e definiscono le cosiddette ipotesi classiche,
usate per verificare se il modello è sostenibile o meno in rapporto al campione osservato.

5.2 Linearità
In un modello di regressione semplice la relazione lineare tra la variabile dipendente e quella indipendente è
verificabile attraverso lo scatterplot. Per verificarlo nel caso di più di un regressore, è possibile utilizzare la
proprietà di linearità: se il modello è lineare nei residui, allora i residui dovrebbero essere distribuiti in modo
uniforme intorno allo zero per ogni valore previsto. Dal punto di vista algebrico, questa ipotesi si traduce nella
formula:
n
X
êi = 0
i=1

La linearità può essere verificata attraverso uno scatterplot, confrontando i fitted values con i residui. L’ideale
è che i punti abbiano un andamento lineare intorno allo zero, proprio come avviene in figura 6, per cui si può
affermare che la prima ipotesi è verificata.

Residuals vs Fitted

3
20
10
Residuals

0
−10

37
84
−20

0 20 40 60 80 100

Fitted values
lm(y_ImageQuality ~ I(x1_ISO^2) + I(x1_ISO^3) + I(x2_FRatio) + I(x2_FRatio^ ...

Figura 6: Linearità

Progetto di Statistica Applicata Pagina 29/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

Q−Q plot for residuals

20

10
Sample

−10

−20
−2 −1 0 1 2
Theoretical

Figura 7: Normalità

5.3 Omoschedasticità
In un modello di regressione lineare è fondamentale che la varianza sia costante, ossia che vi sia omoschedasti-
cità. Per verificarlo è possibile valutare la pendenza della retta dello scatterplot tra i fitted values della variabile
dipendente e il modulo dei residui, la quale deve essere tendente allo zero. Usando la funzione summary() si
nota che questa seconda ipotesi è verificata:
Call:
lm(formula = abs(res) ~ modelX$fitted.values)

Residuals:
Min 1Q Median 3Q Max
-5.204 -2.976 -1.192 1.573 15.069

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.30585 1.20548 3.572 0.000551 ***
modelX$fitted.values 0.01274 0.02065 0.617 0.538680
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 4.221 on 98 degrees of freedom


Multiple R-squared: 0.003869, Adjusted R-squared: -0.006295
F-statistic: 0.3807 on 1 and 98 DF, p-value: 0.5387

Estratto di codice 18: Omoschedasticità

5.4 Normalità
L’ipotesi di Normalità migliora sensibilmente tutte le proprietà degli stimatori per i parametri del modello,
per cui rappresenta un requisito auspicabile. Questa terza ipotesi può essere verificata tramite un Normal Q-Q

Progetto di Statistica Applicata Pagina 30/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

plot. Dalla figura 7 si evince che anche questa ipotesi è verificata.

5.5 Incorrelazione
L’ultima ipotesi classica da verificare è l’incorrelazione degli errori. Infatti, una loro eventuale correlazione
può influire sulla precisione delle stime del modello: ciò potrebbe significare che non sono state catturate tutte
le relazioni presenti nei dati e che potrebbe essere necessario considerare un modello più complesso.
Per verificare l’incorrelazione degli errori è possibile usare il test di Durbin-Watson. Il test è basato sulla
differenza tra i quadrati delle successive differenze tra i residui e restituisce un valore reale, DW, compreso tra
0 e 4, dove:

• un valore vicino a 2 indica che non c’è correlazione seriale negli errori;

• un valore vicino a 0 indica la presenza di correlazione seriale positiva degli errori;

• un valore vicino a 4 indica la presenza di correlazione seriale negativa degli errori.

In R è possibile svolgere il test di Durbin-Watson con la funzione dwtest() della libreria lmtest:
data: modelX
DW = 1.9062, p-value = 0.3309
alternative hypothesis: true autocorrelation is greater than 0

Estratto di codice 19: Test di Durbin-Watson

Si noti che DW= 1.90, per cui si può assumere verificata anche quest’ultima ipotesi.

Progetto di Statistica Applicata Pagina 31/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

6 Confronto tra modelli statistici


6.1 Introduzione
In questa sezione verranno utilizzate le tecniche di forward, backward e stepwise selection per trovare un nuovo
modello statistico candidato alla rappresentazione della variabile ImageQuality, per poi confrontarlo con
quello trovato nel paragrafo 3.3.6 tramite due indici:

• AIC, acronimo di Akaike’s Information Criterion. Esso è definito come:

AIC = −2ℓ(θ̂) + 2(k + 1)

dove k è il numero di variabili esplicative e ℓ(θ̂) è la funzione di log-verosimigilianza del modello, calcolata
nel punto di massimo stimato θ̂;

• BIC, acronimo di Bayesian Information Criterion. Esso è definito come:

BIC = −2ℓ(θ̂) + 2(k + 1) ln(n)

dove k è il numero di variabili esplicative, ℓ(θ̂) è la funzione di log-verosimigilianza del modello, calcolata
nel punto di massimo stimato θ̂ e n è la numerosità campionaria.

Entrambi gli indici richiedono che i propri errori siano indipendenti e abbiano una distribuzione Normale, poiché
sfruttano la funzione di log-verosimiglianza. D’altro canto, si differiscono perché:

• AIC è un criterio di selezione basato sul trade-off tra la complessità del modello e la sua capacità di
descrivere i dati;

• BIC è un criterio di selezione basato sul trade-off tra la complessità del modello e la sua capacità di
prevedere i dati.

Indipendentemente da quale criterio venga considerato, tra due modelli si sceglie quello che lo minimizza.

6.2 Backward selection


L’algoritmo di backward selection parte dal modello di regressione con tutti i k regressori disponibili, eli-
minando una alla volta le variabili che risultano non significative. Termina quando non vi sono più variabili
significative eliminabili.
In R è possibile effettuare la backward selection attraverso la funzione step():
Start: AIC=490.42
y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time + x4_MP + x5_CROP +
x6_FOCAL + x7_PixDensity

Df Sum of Sq RSS AIC


- x7_PixDensity 1 0.2 11492 488.42

Progetto di Statistica Applicata Pagina 32/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

- x6_FOCAL 1 127.3 11619 489.52


<none> 11492 490.42
- x4_MP 1 243.9 11736 490.52
- x3_Time 1 1215.9 12708 498.48
- x1_ISO 1 7357.5 18849 537.91
- x5_CROP 1 10673.9 22166 554.11
- x2_FRatio 1 11133.7 22626 556.17

Step: AIC=488.42
y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time + x4_MP + x5_CROP +
x6_FOCAL

Df Sum of Sq RSS AIC


- x6_FOCAL 1 131.3 11623 487.56
<none> 11492 488.42
- x4_MP 1 612.4 12104 491.62
- x3_Time 1 1215.9 12708 496.48
- x1_ISO 1 7364.8 18857 535.95
- x2_FRatio 1 11261.2 22753 554.73
- x5_CROP 1 11325.6 22818 555.01

Step: AIC=487.56
y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time + x4_MP + x5_CROP

Df Sum of Sq RSS AIC


<none> 11623 487.56
- x4_MP 1 636.0 12259 490.89
- x3_Time 1 1221.8 12845 495.55
- x1_ISO 1 7464.7 19088 535.16
- x5_CROP 1 11223.2 22847 553.14
- x2_FRatio 1 11245.5 22869 553.24

Estratto di codice 20: Backward Selection

Si noti che questo algoritmo ha generato un modello di regressione lineare in cui è presente anche la variabile MP,
che non era stata presa in considerazione poiché reputata statistcamente non rilevante per il modello (paragrafo
3.2.4).

6.3 Forward Selection


L’algoritmo di forward selection fa l’opposto del precedente: si parte dal modello di regressione in cui figura
solo la variabile esplicativa massimamente correlata con quella dipendente e si aggiungono uno alla volta gli
altri regressori, sempre seguendo il grado di correlazione maggiore.
Si noti che questo algoritmo è meno efficiente degli altri due, perché potrebbe capitare che una variabile che
prima era significativa, non lo diventi più per via dell’inserimento di altre.
In R è possibile effettuare la forward selection attraverso la funzione step():
Start: AIC=615.24

Progetto di Statistica Applicata Pagina 33/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

y_ImageQuality ~ 1

Df Sum of Sq RSS AIC


+ x2_FRatio 1 12302.5 33749 586.15
+ x5_CROP 1 11361.7 34690 588.90
+ x1_ISO 1 9479.4 36572 594.19
+ x3_Time 1 4075.2 41977 607.97
<none> 46052 615.24
+ x7_PixDensity 1 159.8 45892 616.89
+ x4_MP 1 131.7 45920 616.95
+ x6_FOCAL 1 92.3 45960 617.03

Step: AIC=586.15
y_ImageQuality ~ x2_FRatio

Df Sum of Sq RSS AIC


+ x5_CROP 1 12538.9 21210 541.71
+ x1_ISO 1 8450.4 25299 559.33
+ x3_Time 1 2825.4 30924 579.41
<none> 33749 586.15
+ x7_PixDensity 1 119.8 33630 587.80
+ x6_FOCAL 1 90.3 33659 587.89
+ x4_MP 1 35.7 33714 588.05

Step: AIC=541.71
y_ImageQuality ~ x2_FRatio + x5_CROP

Df Sum of Sq RSS AIC


+ x1_ISO 1 7647.5 13563 498.99
+ x3_Time 1 1574.2 19636 536.00
+ x4_MP 1 630.8 20580 540.69
<none> 21211 541.71
+ x7_PixDensity 1 402.5 20808 541.79
+ x6_FOCAL 1 273.1 20937 542.41

Step: AIC=498.99
y_ImageQuality ~ x2_FRatio + x5_CROP + x1_ISO

Df Sum of Sq RSS AIC


+ x3_Time 1 1303.65 12259 490.89
+ x4_MP 1 717.85 12845 495.55
+ x7_PixDensity 1 388.18 13175 498.09
<none> 13563 498.99
+ x6_FOCAL 1 163.05 13400 499.78

Step: AIC=490.89
y_ImageQuality ~ x2_FRatio + x5_CROP + x1_ISO + x3_Time

Df Sum of Sq RSS AIC

Progetto di Statistica Applicata Pagina 34/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

+ x4_MP 1 635.99 11623 487.56


+ x7_PixDensity 1 341.32 11918 490.06
<none> 12259 490.89
+ x6_FOCAL 1 154.80 12104 491.62

Step: AIC=487.56
y_ImageQuality ~ x2_FRatio + x5_CROP + x1_ISO + x3_Time + x4_MP

Df Sum of Sq RSS AIC


<none> 11623 487.56
+ x6_FOCAL 1 131.260 11492 488.42
+ x7_PixDensity 1 4.141 11619 489.52

Estratto di codice 21: Forward Selection

Anche in questo caso l’algoritmo ha generato un modello di regressione lineare, per giunta identico a quello della
backward selection, in cui è presente anche la variabile MP.

6.4 Stepwise Selection


L’algoritmo di stepwise selection rappresenta un ibrido tra backward e forward, perché li usa entrambi:

• la procedura backward è usata per verificare quale variabile deve essere eliminata dal modello;

• la procedura forward è usata per verificare quale variabile deve essere inserita nel modello;

In R è possibile effettuare la stepwise selection attraverso la funzione step():


Start: AIC=490.42
y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time + x4_MP + x5_CROP +
x6_FOCAL + x7_PixDensity

Df Sum of Sq RSS AIC


- x7_PixDensity 1 0.2 11492 488.42
- x6_FOCAL 1 127.3 11619 489.52
<none> 11492 490.42
- x4_MP 1 243.9 11736 490.52
- x3_Time 1 1215.9 12708 498.48
- x1_ISO 1 7357.5 18849 537.91
- x5_CROP 1 10673.9 22166 554.11
- x2_FRatio 1 11133.7 22626 556.17

Step: AIC=488.42
y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time + x4_MP + x5_CROP +
x6_FOCAL

Df Sum of Sq RSS AIC


- x6_FOCAL 1 131.3 11623 487.56
<none> 11492 488.42
+ x7_PixDensity 1 0.2 11492 490.42

Progetto di Statistica Applicata Pagina 35/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

- x4_MP 1 612.4 12104 491.62


- x3_Time 1 1215.9 12708 496.48
- x1_ISO 1 7364.8 18857 535.95
- x2_FRatio 1 11261.2 22753 554.73
- x5_CROP 1 11325.6 22818 555.01

Step: AIC=487.56
y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time + x4_MP + x5_CROP

Df Sum of Sq RSS AIC


<none> 11623 487.56
+ x6_FOCAL 1 131.3 11492 488.42
+ x7_PixDensity 1 4.1 11619 489.52
- x4_MP 1 636.0 12259 490.89
- x3_Time 1 1221.8 12845 495.55
- x1_ISO 1 7464.7 19088 535.16
- x5_CROP 1 11223.2 22847 553.14
- x2_FRatio 1 11245.5 22869 553.24

Estratto di codice 22: Stepwise Selection

Anche questo ultimo algoritmo ha generato un modello di regressione lineare, identico agli altri due, in cui è
presente la variabile MP.

6.5 Scelta del modello finale


Indipendentemente della procedura scelta, il modello statistico generato è stato lo stesso, ossia:

Y = β0 + β1 ISO + β2 FRatio + β3 Time + β4 MP + β5 CROP

L’output generato dalla funzione summary() è:


Call:
lm(formula = y_ImageQuality ~ x1_ISO + x2_FRatio + x3_Time +
x4_MP + x5_CROP, data = data[, -1])

Residuals:
Min 1Q Median 3Q Max
-29.912 -6.003 1.364 7.455 23.484

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 51.052 1.167 43.745 < 2e-16 ***
x1_ISO -8.574 1.104 -7.770 9.68e-12 ***
x2_FRatio -10.477 1.099 -9.536 1.78e-15 ***
x3_Time 3.609 1.148 3.143 0.00223 **
x4_MP -2.531 1.116 -2.268 0.02563 *
x5_CROP -10.612 1.114 -9.527 1.86e-15 ***
---

Progetto di Statistica Applicata Pagina 36/37


Università degli Studi di Salerno
Facoltà di Ingegneria Informatica

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 11.12 on 94 degrees of freedom


Multiple R-squared: 0.7476, Adjusted R-squared: 0.7342
F-statistic: 55.69 on 5 and 94 DF, p-value: < 2.2e-16

Estratto di codice 23: Modello costruito tramite best subset regression

Sebbene questo modello riesca a descrivere efficacemente la variabile dipendente ImageQuality, come si
deduce dal valore del coefficiente di determinazione R2 e dal p-value, non è accurato quanto il modello ottenuto
precedentemente mediante le forme polinomiali dei regressori. Infatti, confrontando questa relazione con quella
del paragrafo 3.3.6, ossia:

Y = β0 +β1 ISO2 +β2 ISO3 +β3 FRatio+β4 FRatio2 +β5 Time+β6 CROP+β7 PixDensity2 ISO3 FOCAL +ε


tramite i criteri AIC e BIC, è evidente che il modello polinomiale sia migliore rispetto al modello lineare, poiché
li minimizza. Infatti risulta:
AICsub = 773.35 AICpol = 676.86
BICsub = 791.59 BICpol = 700.31
Dove gli indici con il pedice sub fanno riferimento al modello trovato con le procedure di Best Subset Selection,
mentre quelli con il pedice pol all’altro.

6.6 Considerazioni finali


L’obiettivo di questa relazione era quello di definire un modello statistico che sapesse descrivere in maniera
efficiente la variabile dipendente ImageQuality.
Nella sezione 2 sono stati analizzati i regressori, sfruttando strumenti grafici ed algebrici, quali istogrammi e
matrice di correlazione, per trarre delle conclusioni iniziali sulla natura delle distribuzioni e sul rapporto che
intercorreva tra la variabile dipendente e tutte le altre.
Nella sezione 3 è stato trovato un modello polinomiale che rispondesse alla richiesta del progetto, passando
prima per l’analisi di regressione semplice e poi per l’analisi di regressione multipla.
Nella sezione 4 sono stati stimati i parametri sia attraverso la stima puntuale che attraverso la stima intervallare,
calcolando anche l’intervallo di confidenza della variabile dipendente ImageQuality.
Nella sezione 5 è stata valutata l’affidabilità del modello statistico trovato attraverso le ipotesi classiche.
In quest’ultima sezione, infine, il modello polinomiale è stato confrontato con un modello ottenuto attraverso
gli algoritmi di selezione delle variabili esplicative, sfruttando i criteri AIC e BIC, risultando comunque la scelta
migliore in termini di fit.
Ne consegue, che per il dataset fornito e per la variabile dipendente ImageQuality, il modello migliore risulta
essere:

Y = 66.67 − 8.23 X12 − 5.9 X13 − 11.11 X2 − 6.41 X22 + 3.86 X3 − 9.78 X5 + 1.08 X6 X72 X13

Progetto di Statistica Applicata Pagina 37/37

Potrebbero piacerti anche