Sei sulla pagina 1di 420

CORSO DI INFERENZA STATISTICA

ANALISI ROBUSTA DEI DATI E


E INFERENZA DISTRIBUTION-FREE

TESTI CONSIGLIATI
Per la preparazione di base dell'esame sono suggeriti i seguenti testi:
Barabesi, L. (1998) Elementi di statistica non parametrica, Stamperia della Facolt di Economia, Universit di Siena.
Barabesi, L. (1996) Elementi di statistica inferenziale classica, Stamperia della Facolt di Economia, Universit di
Siena.

La versione elettronica (in formato .pdf) dei precedenti testi, delle diapositive e dei dati analizzati durante le lezioni
sono disponibili nel sito:
http://www.econ-pol.unisi.it/barabesi/download.html

PACCHETTI CONSIGLIATI PER L'ELABORAZIONE DEI DATI


Per l'elaborazione dei dati suggerito il programma gratuito R che disponibile al sito
http://www.r-project.org/didattica.html

Nello stesso sito sono disponibili manuali ed introduzioni al programma (sezione Contributed).

CAPITOLO 1
ANALISI PRELIMINARE DEI DATI

MATRICE DEI DATI


Se si rilevano . variabili su 8 unit, in generale le osservazioni raccolte possono essere organizzate nella matrice dei
dati
B""
B
D #"

B8"

B"#
B##

B8#

B".
B#.

B8.

L'i-esima riga di D rappresenta le osservazioni raccolte sull'i-esima unit, mentre la j-esima colonna di D rappresenta
le osservazioni relative a tutte le unit per la j-esima variabile.
Le variabili possono essere di tipo qualitativo o quantitativo. Le variabili quantitative possono essere continue o
discrete. Le variabili qualitative sono dette anche fattori.
L'analisi delle variabili sulla base della matrice dei dati viene usualmente effettuata sia in modo marginale (ovvero
rispetto ad ogni singola variabile) che in modo congiunto (ovvero rispetto a gruppi di variabili o alla totalit delle
variabili).

MATRICE DEI DATI


Pu essere conveniente adottare una differente notazione quando si vuole distinguere le variabili esplicative da quelle
di risposta. Se vi sono : variabili esplicative e . : variabili di risposta, la matrice D pu essere opportunamente
suddivisa nelle due matrici X (relativa alle osservazioni delle variabili esplicative) e Y (relativa alle osservazioni delle
variabili di risposta)
B""
B#"
D X Y

B8"

B"#
B##

B8#

B":
B#:

B8:

C""
C#"

C8"

C"#
C##

C8#

C".:
C#.:

C8.:

MATRICE DEI DATI


Per parsimonia, se . " si assume la notazione

mentre se . # e : ", si adotta la notazione

B"
B
Dx #

B8

B"
B
D x y #

B8

C"
C#

C8

Con un lieve abuso si adotta la medesima notazione quando ci si riferisce marginalmente ad una variable o ad una
coppia di variabili.

MATRICE DEI DATI


Esempio. La seguente matrice dei dati relativa ad un esperimento finalizzato ad analizzare i tempi per completare
un semplice gioco enigmistico quando si odora un profumo e quando non lo si odora (Fonte: Hirsch, A.R. and
Johnston, L.H., Odors and Learning, Smell & Taste Treatment and Research Foundation, Chicago). I dati, contenuti
nel file scent.txt, vengono letti e resi disponibili mediante i seguenti comandi
> d <- read.table("c:\\Rwork\\examples\\scent.txt", header = T)
> attach(d)
Vi sono 8 #" soggetti su cui vengono misurate . "" variabili. I nomi delle variabili vengono ottenuti mediante il
seguente comando
> names(d)
[1] "Sex"
[8] "U.T3"

"Smoker"
"S.T1"

"Opinion" "Age"
"S.T2"
"S.T3"

"Order"

"U.T1"

"U.T2"

Le prime tre variabili e la quinta sono di tipo qualitativo, mentre le restanti sono di tipo quantitativo. La quarta variabile
quantitativa discreta, mentre le ultime sei sono quantitative continue. Le prime : & variabili (sesso, fumo, effetto
percepito del profumo, et, ordine con cui si effettua l'esperimento) sono esplicative, mentre le ultime . : '
varibili (tempi di reazione in tre esperimenti indipendenti in cui si odorato o non si odorato il profumo) sono di
risposta.

MATRICE DEI DATI


Esempio (segue). La matrice dei dati viene ottenuta mediante il seguente comando
> d
Sex Smoker Opinion Age Order U.T1 U.T2 U.T3 S.T1 S.T2 S.T3
1
M
N
Pos 23
1 38.4 27.7 25.7 53.1 30.6 30.2
2
F
Y
Neg 43
2 46.2 57.2 41.9 54.7 43.3 56.7
3
M
N
Pos 43
1 72.5 57.9 51.9 74.2 53.4 42.4
4
M
N
Neg 32
2 38.0 38.0 32.2 49.6 37.4 34.4
5
M
N
Neg 15
1 82.8 57.9 64.7 53.6 48.6 44.8
6
F
Y
Pos 37
2 33.9 32.0 31.4 51.3 35.5 42.9
7
F
N
Pos 26
1 50.4 40.6 40.1 44.1 46.9 42.7
8
F
N
Pos 35
2 35.0 33.1 43.2 34.0 26.4 24.8
9
M
N
Pos 26
1 32.8 26.8 33.9 34.5 25.1 25.1
10
F
N
Ind 31
2 60.1 53.2 40.4 59.1 87.1 59.2
11
F
Y
Pos 35
1 75.1 63.1 58.0 67.3 43.8 42.2
12
F
Y
Ind 55
2 57.6 57.7 61.5 75.5 126.6 48.4
13
F
Y
Pos 25
1 55.5 63.3 44.6 41.1 41.8 32.0
14
M
Y
Ind 39
2 49.5 45.8 35.3 52.2 53.8 48.1
15
M
N
Ind 25
1 40.9 35.7 37.2 28.3 26.0 33.7
16
M
N
Pos 26
2 44.3 46.8 39.4 74.9 45.3 42.6
17
M
Y
Neg 33
1 93.8 91.9 77.4 77.5 55.8 54.9
18
M
N
Neg 62
2 47.9 59.9 52.8 50.9 58.6 64.5
19
F
Y
Pos 54
1 75.2 54.1 63.6 70.1 44.0 43.1
20
F
N
Neg 38
2 46.2 39.3 56.6 60.3 47.8 52.8
21
M
N
Neg 65
1 56.3 45.8 58.9 59.9 36.8 44.3

ANALISI MARGINALE DELLE SINGOLE VARIABILI


L'analisi esplorativa dei dati viene usualmente iniziata con l'analisi marginale delle . variabili. Questa indagine
condotta mediante sintesi grafiche e numeriche.
Se la variabile quantitativa, si considera inizialmente i quantili ed il connesso diagramma a scatola e baffi.
Successivamente, si considera l'istogramma e ulteriori indici di sintesi.
Se la variabile qualitativa, si adotta il diagramma a nastri.

QUANTILI
Supponiamo di considerare una variabile quantitativa e si desideri effettuare una prima analisi esplorativa marginale.
Le osservazioni relative alla variabile, ovvero B" B# B8 , possono essere convenientemente ordinate, ottenendo le
nuove osservazioni B" B# B8 . Inizialmente, queste quantit vengono rappresentate mediante segmenti su un
asse ordinato per graficizzare la relativa distribuzione, ovvero l'insieme di valori assunti dalla variabile.
~ che separa in due gruppi le osservazioni ordinate, ovvero la
Il quantile di ordine ( ! ") un valore B
frazione di osservazioni pi piccole e la frazione " di quelle pi elevate.
~ eccetto che in alcuni casi particolari. Ad esempio, quando !&
Evidentemente, non esiste una valore unico di B
~!& B
~
e 8 dispari, si ottiene immediatamente il valore unico B
8#"# , mentre se !& e 8 pari, allora B!& pu
essere scelto come un qualsiasi valore fra B8# e B8#" .
Esistono varie proposte per la selezione di un generico quantile che tendono comunque a coincidere per 8 elevato.

QUANTILI
~!& detta mediana, B
~!#& detto primo quartile, mentre B
~!(& detto terzo quartile. Inoltre, per
In particolare, B
~! B e B
~" B , ovvero per ! e " si ottiene il minimo e il massimo delle osservazioni.
definizione si ha B
"
8
I precedenti cinque quantili sono detti di base, in quanto caratterizzano sommariamente la distribuzione delle
osservazioni.
La mediana individua il valore centrale della distribuzione.
Il primo e terzo quartile individuano un intervallo che contiene il &!% delle osservazioni pi interne della
distribuzione, ovvero danno un'informazione sulla dispersione della variabile.
Il minimo e il massimo individuano il dominio delle osservazioni, ovvero l'intervallo che contiene tutte le
osservazioni.

DIAGRAMMA A SCATOLA E BAFFI


Sulla base dei cinque quantili di base si pu produrre un grafico importante per una prima analisi esplorativa
marginale, ovvero il diagramma a scatola e baffi.
Questo diagramma basato su una scatola di larghezza arbitraria, la cui lunghezza data dalla differenza fra il terzo
e il primo quartile.
Due segmenti (i cosiddetti baffi) si estendono oltre la scatola. Il primo baffo si estende fra il primo quartile e il valore
~!#& "&B
~!(& B
~!#& .
adiacente inferiore, ovvero la pi piccola osservazione maggiore di B
Il secondo baffo si estende fra il terzo quartile e il valore adiacente superiore, ovvero la pi grande osservazione
~!(& "&B
~!(& B
~!#& . La costante "& arbitraria e dettata da una scelta di compromesso.
minore di B
Un valore anomalo una osservazione pi piccola del valore adiacente inferiore o pi grande del valore adiacente
superiore.
Parallelamente al diagramma a scatola e baffi vengono usualmente riportati anche i segmenti relativi alle
osservazioni ordinate.

10

DIAGRAMMA A SCATOLA E BAFFI

10

Box-and-whiskers plot
Upper adjacent value
(largest value
outliers excepted)

Upper quartile

6
4

Lower quartile

Lower adjacent value


(smallest value
outliers excepted)

Observed values

Median

Outlier

11

DIAGRAMMA A SCATOLA E BAFFI


Esempio. Si considera di nuovo i dati relativi all'esperimento con i profumi e si analizzano i tempi di risposta alla
prima prova quando i soggetti non odorano profumo (variabile U.T1). I cinque quantili fondamentali vengono
calcolati mediante il seguente comando
> summary(U.T1)
Min. 1st Qu.
32.80
40.90

Median
49.50

Mean 3rd Qu.


53.92
60.10

Max.
93.80

Il diagramma a scatola e baffi viene ottenuto mediante i seguenti comandi


> boxplot(U.T1, boxwex = 0.3, ylab = "Unscented first trial time (seconds)",
+
main = "Box-and-whiskers plot")
> rug(U.T1, side = 2)

12

DIAGRAMMA A SCATOLA E BAFFI


Esempio (segue). I precedenti comandi producono il seguente grafico

80
70
60
50
40

Unscented first trial time (seconds)

90

Box-and-whiskers plot

13

DIAGRAMMA A SCATOLA E BAFFI


Esempio (segue). Le distribuzioni marginali di pi variabili omogenee (quali ad esempio le variabili U.T1, U.T2,
U.T3, S.T1, S.T2, S.T3) possono essere confrontate riportando in un unico grafico i vari diagrammi a scatola e
baffi corrispondenti ad ogni variabile. Il comando per effettuare questa analisi il seguente
> boxplot(d[, 6:11], boxwex = 0.3, ylab = "Time (seconds)",
+
main = "Box-and-whiskers plot")

14

DIAGRAMMA A SCATOLA E BAFFI


Esempio (segue). Il precedente comando fornisce il seguente grafico

80
60
40

Time (seconds)

100

120

Box-and-whiskers plot

U.T1

U.T2

U.T3

S.T1

S.T2

S.T3

15

DISTRIBUZIONE DI FREQUENZA
Quando si considera una variabile quantitativa discreta o se vi sono arrondamenti nelle misurazioni di una
variabile quantitativa continua, molte determinazioni della variabile possono coincidere.
Si supponga che vi siano < determinazioni distinte della variabile e che vengano indicate con -" -# -< .
In questo caso, conveniente considerare la frequenza delle osservazioni, ovvero il numero di ripetizioni di ogni
determinazione distinta della variabile. Le frequenze vengono indicate con i simboli 8" 8# 8< .
L'insieme delle coppie -4 84 detta distribuzione di frequenza e pu essere organizzata in una tavola di # righe
per 8 colonne.

16

DISTRIBUZIONE DI FREQUENZA
Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare la variabile Age. Il
comando per ottenere la distribuzione il seguente
> table(Age)
Age
15 23 25 26 31 32 33 35 37 38 39 43 54 55 62 65
1 1 2 3 1 1 1 2 1 1 1 2 1 1 1 1

17

ISTOGRAMMA
Un ulteriore grafico che permette un'analisi esplorativa marginale di una variabile quantitativa l'istogramma.
Questo grafico si ottiene suddividendo le osservazioni in un insieme di classi (ovvero intervalli di valori) mutuamente
esclusive ed esaustive (selezionate opportunamente). Ovviamente, sussiste una certa arbitrariet nella scelta delle
classi.
L'istogramma viene implementato ottenendo le frequenze di classe (ovvero il numero di osservazioni per ogni
classe) e le relative densit (ovvero il rapporto fra le frequenze di classe e la lunghezza della relativa classe). L'insieme
delle classi e delle corrispondenti frequenze detta distribuzione di frequenza per classi.
L'istogramma si ottiene riportando su ogni classe un rettangolo la cui base coincide con la classe, mentre l'altezza
proporzionale alla densit. Evidentemente, l'area del rettangolo proporzionale alla frequenza di classe. Le altezze
vengono generalmente riproporzionate in modo tale che l'area totale dei rettangoli sia pari ad uno.

18

ISTOGRAMMA
Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi e si analizzano i tempi di risposta alla
prima prova quando i soggetti non odorano profumo (variabile U.T1). In questo caso, le classi adottate sono
#& $% $% %% %% &' &' '& '& )& )& *&. La distribuzione di frequenza in classi si ottiene eseguendo il
comando
> table(cut(U.T1, breaks = c(25, 34, 44, 56, 65, 85, 95)))
(25,34] (34,44] (44,56] (56,65] (65,85] (85,95]
2
4
7
3
4
1
Il comando per ottenere l'istogramma il seguente
> hist(U.T1, breaks = c(25, 34, 44, 56, 65, 85, 95),
+
xlab = "Unscented first trial time (seconds)",
+
ylab = "Density", main = "Histogram")

19

ISTOGRAMMA
Esempio (segue). Il precedente comando fornisce la seguente elaborazione

0.015
0.010
0.005
0.000

Density

0.020

0.025

Histogram

30

40

50

60

70

80

90

Unscented first trial time (seconds)

20

INDICI DI SINTESI
L'analisi esplorativa marginale viene rifinita mediante quattro ulteriori indici di sintesi. Per quanto riguarda la
tendenza centrale un primo indice la media
"
B
8

B3
3"

La mediana viene talvolta preferita alla media come indice di tendenza centrale in quanto meno sensibile ai valori
anomali.
Per quanto riguarda la variabilit un secondo indice la varianza
=B#

"

#
B3 B

3"

Al fine di ottenere un indice lineare nell'unit di misura si considera usualmente la radice della varianza, ovvero lo
scarto quadratico medio =B . Anche =B# e =B sono sensibili ai valori anomali e si preferisce talvolta adottare come
~!(& B
~!#& piuttosto che lo scarto quadratico medio =B .
indice di variabilit il rango interquartile IQRB B
Se si devono confrontare le variabilit di distribuzioni marginali per variabili omogenee conveniente adottare
o il rango
indici di variabilit che non dipendono dall'unit di misura, quali il coefficiente di variazione =B lBl
~!& l.
interquartile standardizzato IQRB lB

21

INDICI DI SINTESI
Per quanto riguarda l'analisi dell'asimmetria della distribuzione, un terzo indice il coefficiente di asimmetria
"
+$ $
8=B

$
B3 B

3"

Questo indice non dipende ovviamente dall'unit di misura. Il coefficiente di asimmetria assume valori intorno allo !
per distribuzioni approssimativamente simmetriche (ovvero distribuzioni con code simili), valori negativi per
distribuzioni con asimmetria negativa (ovvero con code che si allungano verso sinistra) e valori positivi per
distribuzioni con asimmetria positiva (ovvero con code che si allungano verso destra).
Per quanto riguarda l'analisi della forma della distribuzione, un quarto indice il coefficiente di curtosi
"
+% %
8=B

%
B3 B

3"

Il valore di riferimento per questo indice $. Il coefficiente di curtosi assume valori elevati per distribuzioni
leptocurtiche (ovvero distribuzioni con code molto allungate), mentre assume valori bassi per distribuzioni
platicurtiche (ovvero distribuzioni con code molto brevi).

22

INDICI DI SINTESI
Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare la variabile U.T1. Non
esiste un comando specifico per calcolare gli indici di sintesi eccetto che per la media, anche se immediato
programmare le seguenti funzioni per il calcolo della varianza e dei coefficienti di asimmetria e curtosi
> variance <- function(x){
+
m2 <- sum((x - mean(x))^2)/length(x)
+
m2}
>
> skewness <- function(x){
+
s3 <- sum((x - mean(x))^3)/length(x)/sqrt(variance(x))^3
+
s3}
>
> kurtosis <- function(x){
+
s4 <- sum((x - mean(x))^4)/length(x)/variance(x)^2
+
s4}

23

INDICI DI SINTESI
Esempio (segue). Gli indici di sintesi vengono dunque ottenuti mediante i seguenti comandi
> mean(U.T1)
[1] 53.92381
> variance(U.T1)^(1/2)
[1] 16.7326
> skewness(U.T1)
[1] 0.782112
> kurtosis(U.T1)
[1] 2.677314

24

INDICI DI SINTESI
Esempio (segue). La variabilit relativa delle distribuzioni marginali per le variabili U.T1, U.T2, U.T3, S.T1,
S.T2, S.T3 possono essere confrontate mediante i seguenti comandi che calcolano i coefficienti di variazione
> variance(U.T1)^(1/2)/abs(mean(U.T1))
[1] 0.3103008
> variance(U.T2)^(1/2)/abs(mean(U.T2))
[1] 0.3051359
> variance(U.T3)^(1/2)/abs(mean(U.T3))
[1] 0.2794869
> variance(S.T1)^(1/2)/abs(mean(S.T1))
[1] 0.2513865
> variance(S.T2)^(1/2)/abs(mean(S.T2))
[1] 0.456505
> variance(S.T3)^(1/2)/abs(mean(S.T3))
[1] 0.2418836

25

DIAGRAMMA A NASTRI
Se la variabile qualitativa, l'analisi esplorativa si riduce semplicemente nel determinare la distribuzione di
frequenza, ovvero l'insieme delle determinazioni distinte e delle relative frequenze -4 84 .
Da un punto di vista grafico la distribuzione di frequenza viene rappresentata mediante il diagramma a nastri, che
un grafico basato su nastri di lunghezza pari alle frequenze di ogni determinazione della variabile e di identica
larghezza (scelti in modo soggettivo).

26

DIAGRAMMA A NASTRI
Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare la variabile Opinion. Il
comando per ottenere la distribuzione di frequenza il seguente
> table(Opinion)
Opinion
Ind Neg Pos
4
7 10
Inoltre, richiamando la libreria lattice che permette di implementare metodi grafici avanzati, il diagramma a nastri
si ottiene mediante i seguenti comandi
> library(lattice)
> barchart(table(Opinion), xlab = "Frequency", ylab = "Opinion",
+
main = "Barplot")

27

DIAGRAMMA A NASTRI
Esempio (segue). Il precedente comando fornisce il seguente grafico
Barplot

Opinion

Pos

Neg

Ind

10

Frequency

28

ANALISI MARGINALE DI COPPIE DI VARIABILI


Questa indagine viene condotta mediante sintesi numeriche e grafiche. Se la coppia di variabili quantitativa, si
rappresenta i dati mediante il diagramma di dispersione e si analizza la relazione fra variabili mediante indici di
dipendenza.
Se una delle variabili quantitativa e l'altra qualitativa, si adottano diagrammi a scatola e baffi condizionati.
Se entrambe le variabili sono qualitative i dati vengono sintetizzati in una tabella a doppia entrata e sintetizzate
mediante diagrammi a nastro condizionati.

29

DIAGRAMMA DI DISPERSIONE
Se entrambe le variabili analizzate sono quantitative, le osservazioni sono costituite da 8 coppie
B" C" B# C# B8 C8 che possono venire rappresentate mediante un grafico detto diagramma di dispersione.
Il diagramma di dispersione permette di avere una prima impressione sull'esistenza di dipendenza fra le variabili.

30

DIAGRAMMA DI DISPERSIONE
Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare le variabili U.T1 e S.T1.
Il comando per ottenere il diagramma di dipersione il seguente
> plot(U.T1, S.T1, xlab = "Unscented first trial time (seconds)",
+
ylab = "Scented first trial time (seconds)", main = "Scatter plot")

31

DIAGRAMMA DI DISPERSIONE
Esempio (segue). Il precedente comando fornisce il seguente grafico

60
50
40
30

Scented first trial time (seconds)

70

Scatter plot

40

50

60

70

80

90

Unscented first trial time (seconds)

32

INDICI DI DIPENDENZA
Una volta che si verificata l'esistenza di una relazione fra le variabili, conveniente ottenere indici per quantificare
la dipendenza esistente fra le variabili.
Se si sospetta una dipendenza lineare opportuno calcolare il coefficiente di correlazione lineare
<BC

=BC
=B =C

dove
=BC

"

3 C

B3 BC

3"

detta covarianza.
Risulta <BC " " e i valori estremi sono raggiunti quando vi dipendenza lineare perfetta inversa (<BC ")
e dipendenza lineare perfetta diretta (<BC "). Un valore di <BC intorno allo zero denota mancanza di dipendenza
lineare.

33

INDICI DI DIPENDENZA
Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare le variabili U.T1 e S.T1.
Il comando per ottenere il coefficiente di correlazione il seguente
> cor(U.T1, S.T1)
[1] 0.6316886

34

TABELLA A DOPPIA ENTRATA


Quando si considera coppie di variabili quantitative discrete o se vi sono forti arrondamenti nelle misurazioni di
coppie di variabili quantitative continue, molte determinazioni possono coincidere. Analogamente, la stessa
situazione si ha quando una variabile della coppia discreta (o arrotondata) e l'altra qualitativa o quando le
osservazioni vengono poste in classi.
Si supponga che vi siano < determinazioni distinte della prima variabile (indicate con -" -# -< ) e = determinazioni
distinte della seconda variabile (indicate con ." .# .= ).
In questo caso conveniente considerare la frequenza congiunta di -4 .6 , ovvero il numero di ripetizioni di ogni
coppia di determinazioni distinte. Le frequenza congiunta di -4 .6 viene indicata con il simbolo 846 . La matrice di
frequenze (di ordine < =) che si ottiene in questo modo detta tabella a doppia entrata.
L'insieme delle terne -4 .6 846 detta distribuzione di frequenza congiunta.

35

TABELLA A DOPPIA ENTRATA


La distribuzione di frequenza marginale della prima variabile data dalle coppie -4 84 dove
=

84

846
6"

mentre la distribuzione di frequenza marginale della seconda variabile data dalle coppie .6 86 dove
<

86

846
4"

Evidentemente, le distribuzioni di frequenza marginali sono quelle che si ottengono considerando una variabile come
se l'altra non fosse presente.

36

TABELLA A DOPPIA ENTRATA


Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare le variabili Sex e Age. Il
comando per ottenere la tabella a doppia entrata il seguente
> table(Sex, Age)
Age
Sex 15 23 25 26 31 32 33 35 37 38 39 43 54 55 62 65
F 0 0 1 1 1 0 0 2 1 1 0 1 1 1 0 0
M 1 1 1 2 0 1 1 0 0 0 1 1 0 0 1 1
La prima distribuzione marginale viene ottenuta mediante il seguente comando
> margin.table(table(Sex, Age), 1)
Sex
F M
10 11
mentre la seconda distribuzione marginale viene ottenuta mediante il seguente comando
> margin.table(table(Sex, Age), 2)
Age
15 23 25 26 31 32 33 35 37 38 39 43 54 55 62 65
1 1 2 3 1 1 1 2 1 1 1 2 1 1 1 1

37

TABELLA A DOPPIA ENTRATA


Esempio (segue). Si consideri le variabili U.T1 e U.T2 che vengono poste nelle classi
#& $% $% %% %% &' &' '& '& )& )& *&. La tabella a doppia entrata con le frequenze di classe si ottiene
eseguendo il comando
> table(cut(U.T1, breaks = c(25, 34, 44, 56, 65, 85, 95)),
+
cut(U.T2, breaks = c(25, 34, 44, 56, 65, 85, 95)))

(25,34]
(34,44]
(44,56]
(56,65]
(65,85]
(85,95]

(25,34] (34,44] (44,56] (56,65] (65,85] (85,95]


2
0
0
0
0
0
2
2
0
0
0
0
0
2
2
3
0
0
0
0
2
1
0
0
0
0
1
3
0
0
0
0
0
0
0
1

38

TABELLA A DOPPIA ENTRATA


Esempio (segue). La prima distribuzione marginale viene ottenuta mediante il seguente comando
> margin.table(table(cut(U.T1, breaks = c(25, 34, 44, 56, 65, 85, 95)),
+
cut(U.T2, breaks = c(25, 34, 44, 56, 65, 85, 95))), 1)
(25,34] (34,44] (44,56] (56,65] (65,85] (85,95]
2
4
7
3
4
1
mentre la seconda distribuzione marginale viene ottenuta mediante il seguente comando
> margin.table(table(cut(U.T1, breaks = c(25, 34, 44, 56, 65, 85, 95)),
+
cut(U.T2, breaks = c(25, 34, 44, 56, 65, 85, 95))), 2)
(25,34] (34,44] (44,56] (56,65] (65,85] (85,95]
4
4
5
7
0
1

39

DIAGRAMMI A SCATOLA E BAFFI CONDIZIONATI


Se una delle variabili quantitativa e l'altra qualitatitiva allora non possibile dare una rappresentazione cartesiana
delle coppie di osservazioni.
In questo caso conveniente considerare diagrammi a scatola e baffi condizionati. Questo grafico si ottiene
riportando un diagramma a scatola e baffi per le osservazioni della variabile quantitativa in corrispondenza di ogni
determinazione della variabile qualitativa.
I diagrammi a scatola e baffi condizionati differiscono in maniera sostanziale dalla serie di diagrammi a scatola e
baffi che si adottano quando si confrontano pi variabili omogenee. Infatti, nel primo caso ogni diagramma riferito
alla solita variabile e calcolato solamente sulla parte di osservazioni che manifesta la medesima determinazione della
variabile qualitativa, mentre nel secondo caso ogni diagramma riferito a variabili differenti (anche se omogenee) e
calcolato sulla totalit delle 8 osservazioni.

40

DIAGRAMMI A SCATOLA E BAFFI CONDIZIONATI


Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare le variabili U.T1 e Sex. Il
comando per ottenere i diagrammi a scatola e baffi condizionati il seguente
> boxplot(U.T1 ~ Sex, boxwex = 0.3,
+
ylab = "Unscented first trial time (seconds)",
+
main = "Box-and-whiskers plot")

41

DIAGRAMMI A SCATOLA E BAFFI CONDIZIONATI


Esempio (segue). Il precedente comando fornisce il seguente grafico

80
70
60
50
40

Unscented first trial time (seconds)

90

Box-and-whiskers plot

42

TABELLA A DOPPIA ENTRATA


Se le entrambe variabili sono qualitative, l'analisi esplorativa si riduce semplicemente nel determinare la
distribuzione di frequenza congiunta.
Da un punto di vista grafico la distribuzione di frequenza bivariata viene rappresentata mediante i diagrammi a
nastri condizionati, che sono basati su nastri (di lunghezza pari alle frequenze di ogni determinazione della prima
variabile) che vengono ripartiti rispetto alla composizione della seconda variabile.

43

DIAGRAMMI A NASTRI DI CONDIZIONATI


Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare le variabili Sex e
Opinion. Il comando per ottenere la tabella a doppia entrata il seguente
> table(Sex, Opinion)
Opinion
Sex Ind Neg Pos
F
2
2
6
M
2
5
4
Inoltre, richiamando la libreria lattice che permette di implementare metodi grafici avanzati, i diagrammi a nastri
condizionati si ottengono mediante i seguenti comandi
> library(lattice)
> barchart(table(Sex, Opinion), ylab = "Sex",
+
auto.key = list(title = "Opinion", cex = 0.8))

44

DIAGRAMMI A NASTRI DI CONDIZIONATI


Esempio (segue). I precedenti comandi forniscono il seguente grafico
Opinion
Ind
Neg
Pos

Sex

10

Freq

45

ANALISI DI GRUPPI DI VARIABILI


Quando si vuole analizzare gruppi di variabili o la globalit delle variabili, l'analisi diventa ovviamente pi
complessa. Tuttavia possibile introdurre alcune tecniche che permettono di facilitare l'indagine esplorativa.

46

MATRICE DEI DIAGRAMMI DI DISPERSIONE


Se si analizza un gruppo di variabili quantitative si pu considerare la dipendenza fra coppie di variabili organizzando
la cosiddetta matrice dei diagrammi di dispersione che costituita da una matrice di grafici che rappresentano i
diagrammi di dispersione per tutte le coppie di variabili.
Questa matrice consente di evidenziare una parte della struttura di dipendenza fra le variabili, ovvero la dipendenza
per coppie di variabili.
La matrice dei grafici di dispersione pu perdere caratteristiche salienti della dipendenza congiunta. Ad esempio,
pu esistere una relazione lineare perfetta fra un gruppo di variabili e non esistere nessuna dipendenza marginale
fra tutte le coppie di variabili.

47

MATRICE DEI DIAGRAMMI DI DISPERSIONE


Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi e in particolare le variabili U.T1, U.T2,
U.T3, S.T1, S.T2, S.T3. Il comando per ottenere la matrice dei diagrammi di dispersione il seguente
> pairs(d[, 6:11], main = "Scatter-plot matrix")

48

MATRICE DEI DIAGRAMMI DI DISPERSIONE


Esempio (segue). Il precedente comando fornisce il seguente grafico
Scatter-plot matrix
30

50

70

30

50
40 60 80

30 50 70 90

60

90

U.T1

70

30

U.T2

70

30

50

U.T3

80 120

30

50

S.T1

50

40

S.T2

30

S.T3
40 60 80

30

50

70

40

80

120

49

MATRICE DEI DIAGRAMMI DI DISPERSIONE


Esempio (segue). Il comportamento di una ulteriore variabile qualitativa pu essere analizzato introducendo nella
matrice dei diagrammi di dispersione differenti colori (o simboli) dei punti per ogni livello del fattore. Ad esempio, la
variabile Sex pu essere analizzata nella matrice dei diagrammi di dispersione mediante il seguente comando
> pairs(d[, 6:11], pch = 21, bg = c("red", "blue")[as.integer(Sex)],
+
main = "Scatter-plot matrix (Red=F, Blue=M)")

50

MATRICE DEI DIAGRAMMI DI DISPERSIONE


Esempio (segue). Il precedente comando fornisce il seguente grafico
Scatter-plot matrix (Red=F, Blue=M)
30

50

70

30

50
40 60 80

30 50 70 90

60

90

U.T1

70

30

U.T2

70

30

50

U.T3

80 120

30

50

S.T1

50

40

S.T2

30

S.T3
40 60 80

30

50

70

40

80

120

51

MATRICE DI CORRELAZIONE
Accanto alla matrice dei diagrammi di dispersione conveniente considerare anche la matrice di correlazione,
ovvero la matrice che contiene tutti i coefficienti di correlazione fra coppie di variabili.
Come la matrice dei diagrammi di dispersione, la matrice di correlazione non permette di analizzare in modo globale
la dipendenza fra le variabili, ma offre solamente una interpretazione della dipendenza per coppie di variabili.

52

MATRICE DI CORRELAZIONE
Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi e in particolare le variabili U.T1, U.T2,
U.T3, S.T1, S.T2, S.T3. Il comando per ottenere la matrice di correlazione il seguente
> cor(d[, 6:11])
U.T1
U.T2
U.T1 1.0000000 0.8409657
U.T2 0.8409657 1.0000000
U.T3 0.8357371 0.7678098
S.T1 0.6316886 0.5986291
S.T2 0.3348490 0.4371346
S.T3 0.3961762 0.5727865

U.T3
0.8357371
0.7678098
1.0000000
0.5879344
0.3745938
0.4432778

S.T1
0.6316886
0.5986291
0.5879344
1.0000000
0.5430833
0.5167140

S.T2
0.3348490
0.4371346
0.3745938
0.5430833
1.0000000
0.5600428

S.T3
0.3961762
0.5727865
0.4432778
0.5167140
0.5600428
1.0000000

53

DIAGRAMMI DI DISPERSIONE CONDIZIONATI


possibile analizzare la dipendenza di una coppia di variabili quantitative al variare di una terza (o eventualmente di
una quarta) mediante diagrammi di dispersione condizionati.
Questa grafici si ottengono riportando una serie di diagrammi di dispersione condizionate a vari livelli di ulteriori
variabili.

54

DIAGRAMMI DI DISPERSIONE CONDIZIONATI


Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi e in particolare le variabili Smoker,
U.T1, U.T2. I comandi per ottenere i diagrammi di dispersione di U.T1 e U.T2 condizionati a Smoker sono i
seguenti
> library(lattice)
> xyplot(U.T2 ~ U.T1 | Smoker, xlab = "Unscented first trial time (seconds)",
+
ylab = "Unscented second trial time (seconds)",
+
main = "Scatter plot conditioned to smoke")

55

DIAGRAMMI DI DISPERSIONE CONDIZIONATI


Esempio (segue). I precedenti comandi forniscono il seguente grafico
Scatter plot conditioned to smoke
30

40

50

60

Unscented second trial time (seconds)

70

80

90

80

60

40

30

40

50

60

70

80

90

Unscented first trial time (seconds)

56

DIAGRAMMI DI DISPERSIONE CONDIZIONATI


Esempio (segue). Quando la variabile a cui ci si condiziona quantitativa, allora i diagrammi di dispersione
condizionati possono essere implementati suddividendo questa variabile in opportuni intervalli. Ad esempio, le
osservazioni corrispondenti alla variabile Age possono essere posti nelle classi "%& $%& e $%& '&&, che
rappresentano due grossolane classi per individui giovani e pi anziani, rispettivamente. L'analisi pu essere
ulteriormente approfondita condizionandosi anche rispetto ad una seconda variabile ovvero la variabile Order. I
comandi per ottenere i diagrammi di dispersione di U.T1 e U.T2 condizionati alle variabili Age e Order sono i
seguenti
> library(lattice)
> AgeClass = equal.count(Age, number = 2, overlap = 0.0)
> xyplot(U.T2 ~ U.T1 | AgeClass * Order,
+
strip = strip.custom(strip.names = T, strip.levels = T),
+
xlab = "Unscented first trial time (seconds)",
+
ylab = "Unscented second trial time (seconds)",
+
main = "Scatter plot conditioned to age and order")

57

DIAGRAMMI DI DISPERSIONE CONDIZIONATI


Esempio (segue). I precedenti comandi forniscono il seguente grafico
Scatter plot conditioned to age and order
30

Order : { 2 }
AgeClass : [ 14.5, 33.5 ]

40

50

60

70

80

90

Order : { 2 }
AgeClass : [ 34.5, 65.5 ]

Unscented second trial time (seconds)

80

60

40

Order : { 1 }
AgeClass : [ 14.5, 33.5 ]

Order : { 1 }
AgeClass : [ 34.5, 65.5 ]

80

60

40

30

40

50

60

70

80

90

Unscented first trial time (seconds)

58

TABELLE A PI ENTRATE
Il concetto di tabella a doppia entrata pu essere generalizzato quando si hanno tre o pi variabili. In questo caso si
ottengono tabelle a tre o pi entrate.
Le definizioni di frequenza congiunta e marginale possono essere adattate facilmente a questa struttura (anche se la
notazione diviene pi complessa).
Per la rappresentazione di questi dati conveniente costruire matrici di diagrammi a nastro condizionati.

59

TABELLE A PI ENTRATE
Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi e in particolare le variabili Sex, Opinion,
Order. Il comando per ottenere la tabella a tre entrate il seguente
> table(Sex, Opinion, Order)
, , Order = 1
Opinion
Sex Ind Neg Pos
F
0
0
4
M
1
3
3
, , Order = 2
Opinion
Sex Ind Neg Pos
F
2
2
2
M
1
2
1

60

TABELLE A PI ENTRATE
Esempio (segue). I comandi per ottenere i diagrammi a nastri condizionati sono i seguenti
> library(lattice)
> barchart(table(Sex, Opinion, Order), ylab = "Sex",
+
auto.key = list(title = "Order", cex = 0.8))

61

DIAGRAMMI DI DISPERSIONE CONDIZIONATI


Esempio (segue). I precedenti comandi forniscono il seguente grafico
Order
1
2

Pos

Sex

Ind

Neg

Freq

62

LETTURE SUGGERITE
Chambers, J.M., Cleveland, W.S., Kleiner B. and Tukey, P.A. (1983) Graphical methods for data analysis, Wadsworth
& Brooks/Cole, New York.
Cleveland, W.S. (1985) The elements of graphing data, Wadsworth, Monterey.
Cleveland, W.S. (1993) Visualizing data, Hobart Press, Summit, New Jersey.
Crawley, M.J. (2007) The R book, Wiley, New York.
Everitt, B.S. and Hothorn, T. (2006) A handbook of statistical analyses using R, Chapman & Hall/CRC Press, New
York.
Maindonald, J.H. and Braun, W.J. (2003) Data analysis and graphics using R - An example-based approach,
Cambridge University Press, Cambridge.
Murrell, P. (2005) R Graphics, Chapman & Hall/CRC Press, New York.
Tufte, E.R. (1997) Visual explanations, Graphics Press, Cheshire, Connecticut.
Tukey, J.W. (1977) Exploratory data analysis, Addison-Wesley, Reading.
Venables, W.N. and Ripley, B.D. (2002) Modern applied statistics with S, Springer, New York.

63

CAPITOLO 2
DISTRIBUZIONI DI PROBABILIT

VARIBIALI CASUALI
Una variabile casuale \ caratterizzata da una funzione di ripartizione J B tale che
J B T \ B

Evidentemente J B una funzione monotona non decrescente che assume valori in ! ".
Una variabile casuale \ detta continua se J B una funzione continua.
Una variabile casuale \ detta discreta se J B costante a tratti con un insieme numerabile di salti.

VARIBIALI CASUALI
Una variabile casuale continua caratterizzata da una funzione di densit
0 B J w B
che rappresenta la probabilit di osservare un valore della variabile casuale nell'intervallo infinitesimo di B.
Evidentemente, 0 B una funzione non negativa.
Il supporto W di una variabile casuale continua l'insieme di valori per cui 0 B strettamente positiva, ovvero
Evidentemente, si ha 'W 0 B ".

W B 0 B !

VARIBIALI CASUALI
Una variabile casuale discreta caratterizzata da una funzione di probabilit :B che rappresenta il salto della
funzione di ripartizione in B, ovvero
:B J B .B J B

La funzione di probabilit non nulla solo nell'insieme numerabile in cui la funzione di ripartizione effettua un salto.
Il supporto W di una variabile casuale discreta l'insieme numerabile di valori
W B :B !
Evidentemente, :B assume valori strettamente positivi solo se B W . Inoltre, si ha

BW :B

".

VARIABILI CASUALI
Il quantile di ordine ( ! ") di una variabile casuale \ dato da
B inf B J B
B

Nel caso di una variabile casuale continua il quantile di ordine risulta semplicemente B J " .
Il momento di ordine 5 di una variabile casuale continua dato da
.5 ( B5 0 B.B
W

mentre il momento di ordine 5 di una variabile casuale discreta dato da


B5 :B

.5
BW

VARIABILI CASUALI
Nel caso particolare 5 " il momento detto media e si adotta la notazione
. E\

La varianza data dalla quantit


5 # Var\ .# .#

Il coefficiente di asimmetria risulta


$

"
E\ .$
$
5

"
E\ .%
%
5

Il coefficiente di curtosi risulta

FAMIGLIA DI POSIZIONE E SCALA


A partire da una variabile casuale continua standard ^ con funzione di ripartizione J D e funzione di densit
0 D, la famiglia di distribuzioni di posizione e scala viene generata attraverso la trasformazione lineare
\ - $^
Il parametro - detto di posizione mentre il parametro $ detto di scala.
La variabile casuale non standard \ possiede funzione di ripartizione e funzione di densit date da
J

B$

e
"
B0
$
$

FAMIGLIA DI POSIZIONE E SCALA


Supponendo E^ # , risulta
. - $ E^
e
5 # $ # Var^

In particolare, se E^ ! e Var^ ", i parametri di posizione e di scala coincidono rispettivamente con la


media e lo scarto quadratico medio.
I parametri rimanenti di una distribuzione sono detti parametri di forma e vengono eventualmente indicati con : e ; .

DISTRIBUZIONE NORMALE
La variabile casuale continua ^ detta Normale standard se possiede funzione di densit 0 D 9D con
9D

"
"
exp D #
#1
#

La funzione di ripartizione di ^ viene indicata con FD.


Risulta E^ ! e Var^ ", mentre $ ! e % $.
Per la Normale non standard \ i parametri di posizione e di scala coincidono con la media . e con lo scarto
quadratico medio 5 .
Per indicare che ^ Normale standard si adotta la notazione ^ R ! ", mentre se \ Normale non standard
si scrive \ R . 5 # .
Il quantile di ordine della Normale standard viene indicato con D .

DISTRIBUZIONE NORMALE
I grafici della funzione di densit e di ripartizione di ^ sono riportati nelle seguenti figure.

Normal distribution function

0.6
0.0

0.2

0.4

Probability

0.2
0.1
0.0

Density

0.3

0.8

1.0

0.4

Normal density function

-3

-2

-1

-3

-2

-1

10

DISTRIBUZIONE UNIFORME
La variabile casuale continua ^ detta Uniforme standard se possiede la funzione di densit
0 D I!" D
dove IW B rappresenta la funzione indicatrice dell'insieme W , ovvero IW B " se B W e IW B ! altrimenti.
Risulta E^ "# e Var^ ""#, mentre $ ! e % *&.
Per indicare che ^ Uniforme standard si adotta la notazione ^ Y ! ", mentre se \ Uniforme non standard
si scrive \ Y - - $ .
La parametrizzazione in termini di - e - $ si usa per evidenziare che il supporto della variabile casuale non
standard \ dato da - - $ .

11

DISTRIBUZIONE UNIFORME
I grafici della funzione di densit e di ripartizione di ^ sono riportati nelle seguenti figure.

0.8
0.6
0.4
0.2
0.0

0.0

0.2

0.4

Density

Probability

0.6

0.8

1.0

Uniform distribution function

1.0

Uniform density function

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

1.2

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

1.2

12

DISTRIBUZIONE GAMMA
La variabile casuale continua ^ detta Gamma standard se possiede la funzione di densit
0 D

"
D :" exp D I! D
>:

dove : un parametro di forma.


Per : " la variabile casuale ^ detta Esponenziale standard.
Si ha E^ : e Var^ :, mentre $ #:"# e % $ ':.
Per indicare che ^ Gamma standard con parametro di forma : si adopera la notazione ^ K! " :, mentre se
\ Gamma non standard si scrive \ K- $ :.
Per indicare che ^ Esponenziale standard si adotta la notazione ^ I! ", mentre se \ Esponenziale non
standard si scrive \ I- 5, dal momento che il parametro di scala coincide con lo scarto quadratico medio.

13

DISTRIBUZIONE GAMMA
I grafici della funzione di densit e di ripartizione di ^ per : " # $ sono riportati nelle seguenti figure.

Gamma distribution function

0.8

0.8

1.0

1.0

Gamma density function

0.6
0.4

0.4

Density

Probability

0.6

p=1
p=2
p=3

0.0

0.0

0.2

0.2

p=1
p=2
p=3

14

DISTRIBUZIONE BETA
La variabile casuale continua ^ detta Beta standard se possiede la funzione di densit
0 D

>: ; :"
D " D;" I!" D
>:>;

dove : e ; sono parametri di forma.


Risulta
E^

:
:;

e
Var^

:;
: ;# : ; "

Per indicare che ^ Beta standard con parametri di forma : e ; si adotta la notazione ^ F/! " : ;, mentre se
\ Beta non standard si scrive \ F/- - $ : ;.
La parametrizzazione in termini di - e - $ viene impiegata per evidenziare che il supporto della variabile casuale
non standard \ risulta - - $ .

15

DISTRIBUZIONE BETA
I grafici della funzione di densit e di ripartizione di ^ per : ; !.$ !.$ ".$ !.( !.( ".$ sono riportati nelle
seguenti figure

Beta distribution function

3.0

1.0

3.5

Beta density function

0.8
0.6
0.4

Probability

2.0
1.5
1.0

0.2

p=1.3, q=0.7
p=0.3, q=0.3
p=0.7, q=1.3

0.0

0.5
0.0

Density

2.5

p=1.3, q=0.7
p=0.3, q=0.3
p=0.7, q=1.3

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

16

DISTRIBUZIONE BETA
I grafici della funzione di densit e di ripartizione di ^ per : ; # # # % % # sono riportati nelle seguenti
figure

Beta distribution function

0.6
0.2

0.4

Probability

1.0
0.5

p=4, q=2
p=2, q=2
p=2, q=4

0.0

p=4, q=2
p=2, q=2
p=2, q=4
0.0

Density

1.5

0.8

2.0

1.0

Beta density function

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

17

DISTRIBUZIONE DI CAUCHY
La variabile casuale continua ^ detta di Cauchy standard se possiede la funzione di densit
0 D

"
1" D #

La Cauchy standard non possiede momenti di alcun ordine.


Per indicare che ^ Cauchy standard si adotta la notazione ^ G! ", mentre se \ Cauchy non standard
\ G- $ .

18

DISTRIBUZIONE DI CAUCHY
I grafici della funzione di densit e di ripartizione di ^ sono riportati nelle seguenti figure.

Cauchy distribution function

0.4

0.6

Probability

0.15

0.2

0.10
0.05

Density

0.20

0.25

0.8

0.30

Cauchy density function

-4

-2

-4

-2

19

DISTRIBUZIONE BINOMIALE
La variabile casuale discreta ^ detta Binomiale se possiede la seguente funzione di probabilit
8
:D :D " :8D I!"8 D
D

dove : ! " e 8 un intero.


Per la Binomiale si ha E^ 8: e Var^ 8:" :.
Per indicare che ^ Binomiale si adotta la notazione ^ F38 :.

20

DISTRIBUZIONE BINOMIALE
I grafici della funzione di probabilit di ^ per 8 : "! !.$ "! !.& sono riportati nelle seguenti figure.

Binomial probability function

0.15
0.05

0.10

Probability

0.15
0.10

0.00

0.05
0.00

Probability

0.20

0.20

0.25

Binomial probability function

10

10

21

DISTRIBUZIONE DI POISSON
La variabile casuale discreta ^ detta di Poisson se possiede la funzione di probabilit
.D
:D exp .
I!" D
Dx
dove . un parametro positivo.
Per la Poisson si ha E^ . e Var^ ..
Per indicare che ^ Poisson si adotta la notazione ^ T 9..

22

DISTRIBUZIONE DI POISSON
I grafici della funzione di probabilit di ^ per . # % sono riportati nelle seguenti figure.

Poisson probability function

0.10

Probability

0.15

0.05

0.10

0.00

0.05
0.00

Probability

0.20

0.15

0.25

Poisson probability function

10

10

23

DISTRIBUZIONE CHI-QUADRATO
Se ^" ^# ^8 sono variabili casuali indipendenti tali che ^3 R ! ", la trasformata
8

^3#

Y
3"

detta variabile casuale Chi-quadrato con 8 gradi di libert.


Si ha che Y K! # 8#.
Per indicare che Y Chi-quadrato con 8 gradi di libert si adotta la notazione Y ;#8 .
Il quantile di ordine della Chi-quadrato con 8 gradi di libert viene indicato con ;#8 .

24

DISTRIBUZIONE CHI-QUADRATO
I grafici della funzione di densit di Y per i valori di 8 # $ % sono riportati nella seguente figura.

0.4

0.5

Chi-square density function

0.3
0.2
0.1

Density

n=2
n=3
n=4

25

DISTRIBUZIONE > DI STUDENT


Se ^ R ! " e Y ;#8 sono indipendenti, la trasformata
X

^
Y 8

detta variabile casuale > di Student con 8 gradi di libert.


Per indicare che X > di Student con 8 gradi di libert si adotta la notazione X >8 .
Il quantile di ordine della > di Student con 8 gradi di libert viene indicato con >8 .

26

DISTRIBUZIONE > DI STUDENT


I grafici della funzione di densit di X per i valori 8 " $ "! sono riportati nella seguente figura.

0.4

t-Student density function

0.2
0.1
0.0

Density

0.3

n=1
n=3
n=10

-4

-2

27

DISTRIBUZIONE J DI SNEDECOR
Se Y ;#7 e Z ;8# sono indipendenti, la trasformata
J

Y 7
Z 8

detta variabile casuale J di Snedecor con 7 e 8 gradi di libert.


Per indicare che la variabile casuale J J di Snedecor con 7 e 8 gradi di libert si adotta la notazione J J78 .
Il quantile di ordine della J di Snedecor con 7 e 8 gradi di libert viene indicato con J78 .

28

DISTRIBUZIONE J DI SNEDECOR
I grafici della funzione di densit di J per 7 8 % % "# "# sono riportati nella seguente figura.

0.6

0.8

Snedecor density function

0.4
0.2
0.0

Density

n=4, m=4
n=12, m=12

29

VETTORI DI VARIABILI CASUALI


Il concetto di variabile casuale pu essere esteso al caso multivariato.
Un vettore di variabili casuali continue \" \# \. caratterizzato da una funzione di densit congiunta
0 B" B# B. .
Un vettore di variabili casuali discrete \" \# \. caratterizzato da una funzione di probabilit congiunta
:B" B# B. .
Si definisce vettore medio il vettore . ." .# .. T dove .4 E\4 .
Si definisce inoltre matrice di varianza-covarianza la matrice D il cui j-esimo elemento diagonale la varianza di
\4 , ovvero 54# Var\4 , mentre il generico elemento di posto 4 6 dato dalla covarianza di \4 e \6 , ovvero
546 Cov\4 \6 E\4 .4 \6 .6

30

DISTRIBUZIONE NORMALE MULTIVARIATA


Il vettore di variabili casuali continue \" \# \. Normale multivariato se possiede funzione di densit
congiunta
0 x det#1D"# exp

"
x .T D" x .
#

dove . il vettore medio e D la matrice di varianza-covarianza.


Per indicare che il vettore di variabili casuali Normale multivariato si adotta la notazione R. . D.

31

LA DISTRIBUZIONE NORMALE MULTIVARIATA


Il seguente il grafico della funzione di densit (con relativo grafico di contorno) di un vettore Normale multivariato
!
" !
per . # con .
eD
.
!
! "
Bivariate normal density function

0
-3

-2

-1

x2

Bivariate normal density function

x2

x1
-3

-2

-1

x1

32

LA DISTRIBUZIONE NORMALE MULTIVARIATA


Il seguente il grafico della funzione di densit (con relativo grafico di contorno) di un vettore Normale multivariato
!
# "
per . # con .
eD
.
!
" #
Bivariate normal density function

0
-3

-2

-1

x2

Bivariate normal density function

x2

x1
-3

-2

-1

x1

33

LA DISTRIBUZIONE NORMALE MULTIVARIATA


Il seguente il grafico della funzione di densit (con relativo grafico di contorno) di un vettore Normale multivariato
!
#
"
per . # con .
eD
.
!
"
#
Bivariate normal density function

0
-3

-2

-1

x2

Bivariate normal density function

x2

x1
-3

-2

-1

x1

34

LETTURE SUGGERITE
Billingsley, P. (1990) Measure theory, Wiley, New York.
Feller W. (1971) An introduction to probability theory and its applications, vol. I-II, Wiley, New York.
Johnson, N.L. and Kotz, S. (1972) Distributions in statistics, vol. I-IV, Wiley, New York.
Wilks, S.S. (1962) Mathematical statistics, Wiley, New York.

35

CAPITOLO 3
CAMPIONAMENTO

MODELLI STATISTICI
La matrice dei dati (o una sua parte) pu essere pensata come la realizzazione di un esperimento casuale. In questo
caso le colonne di D (o alcune sue colonne) sono delle variabili casuali a priori della rilevazione. L'insieme di queste
variabili casuali detto campione, mentre 8 detta numerosit campionaria.
Se le osservazioni su ogni unit vengono ottenute nelle medesime condizioni sperimentali e se il campionamento
effettuato in modo da assicurare l'indipendenza delle osservazioni fra le unit, il campione detto casuale.
L'insieme delle distribuzioni di probabilit congiunte ammissibili per il campione delimita una classe detta modello
statistico.

MODELLI STATISTICI
Il modello statistico detto classico se la morfologia funzionale della distribuzione congiunta completamente
specificata a meno di un insieme di parametri non noti. Il modello statistico detto distribution-free se la
morfologia funzionale della distribuzione congiunta non specificata.
In modo improprio, spesso un modello statistico classico detto parametrico, mentre un modello statistico
distribution-free detto non parametrico. Questa terminologia fuorviante, in quanto entrambi i casi nella
specificazione del modello sono presenti comunque dei parametri.
In ogni caso, l'obiettivo dell'inferenza statistica si riduce a fare affermazioni sui veri valori dei parametri presenti
nella specificazione del modello.

MODELLI STATISTICI
Esempio. Il modello statistico pi semplice assume una sola variabile (. ") e un campione casuale. In questo caso,
B" B# B8 sono le realizzazioni di 8 copie indipendenti \" \# \8 di una variabile casuale \ .
In questa situazione statistica, il tipico modello classico assume che \ R . 5 # e quindi la distribuzione
congiunta del campione la fattorizzazione di distribuzioni marginali della stessa forma specificate a meno dei
parametri . e 5 # .
Nella medesima situazione, un modello distribution-free assume semplicemente che \ sia una variabile casuale
continua con mediana pari a -. In questo caso, la funzione di ripartizione J B di \ e - sono i parametri del
modello.

MODELLI STATISTICI
Esempio. Nella sua struttura pi semplice il modello statistico di regressione assume che vi siano due variabili
(. #), di cui una sotto controllo dello sperimentatore (detta regressore) e l'altra di risposta.
Se B" B# B8 rappresentano i valori del regressore per ogni unit, queste quantit vengono considerate fissate
dallo sperimentatore. Per quanto riguarda invece le osservazioni relative alla variabile di risposta C" C# C8 , queste
vengono considerate realizzazioni delle variabili casuali ]" ]# ]8 tali che
]3 7B3 X3
dove 7 la cosiddetta funzione di regressione, mentre X" X# X8 sono variabili casuali indipendenti dette errori
tali che EX3 ! e VarX3 5 # .
La formulazione alternativa del modello di regressione quindi data dalle relazioni E]3 7B3 e Var]3 5 # .
Evidentemente, il campione in questo caso non casuale.

MODELLI STATISTICI
Esempio (segue). Il modello di regressione lineare assume che
7B3 "! "" B3
ovvero la parte strutturale del modello viene specificata a meno di due parametri. In un approccio classico, il modello
lineare viene completato con l'assunzione distribuzionale X3 R ! 5 # , ovvero ]3 R "! "" B3 5 # . Questo
modello caratterizzato dunque dai parametri "! , "" e 5 # .
In un approccio distribution-free non viene specificata n la funzione di regressione n la distribuzione degli X3 .

STATISTICHE CAMPIONARIE
Una statistica campionaria una trasformata del campione.
Essendo una trasformata di variabili casuali, anche la statistica campionaria una variabile casuale.
Una statistica detta distribution-free se la sua distribuzione rimane invariata sull'intera classe di distribuzioni
definite da un modello distribution-free.

MEDIA CAMPIONARIA
Dato un modello statistico relativo ad un campionamento casuale da una variabile casuale \ tale che . E\ e
5 # Var\ , la media campionaria data dalla variabile casuale
"

\
8

\3
3"

.
la cui realizzazione indicata con B
Si ha

E\ .
e
5#

Var\
8

Anche se questi due risultati sono validi per qualsiasi modello, la media campionaria non distribution-free in
quanto la sua distribuzione dipende dalla variabile casuale \ da cui si effettua il campionamento.

Per il Teorema Fondamentale del Limite, la variabile casuale standardizzata 8\ .5 converge in


distribuzione a una variabile casuale R ! " per 8 . Dunque, questa statistica risulta distribution-free per
grandi campioni dal momento che la sua distribuzione asintotica rimane invariata per qualsiasi variabile casuale \ .
8

MEDIA CAMPIONARIA

Esempio. Dato un campione casuale da una Esponenziale \ I! 5, possibile dimostrare che \ K! 58 8.

Quindi, per la propriet della variabile casuale Gamma si ha E\ 5 e Var\ 5 # 8. Dunque, risultano verificati i
risultati generali visti in precedenza, in quanto per la Esponenziale I! 5 si ha E\ 5 e Var\ 5 # . Assumendo

5 ", i seguenti grafici riportano le funzioni di densit di \ per 8 & "! #!. Risulta evidente che la distribuzione di

\ si avvicina rapidamente a quella della Normale per 8 anche quando si campiona da una distribuzione
asimmetrica come quella Esponenziale.

MEDIA CAMPIONARIA
Esempio (segue).

1.5

Probability density function

1.0
0.5
0.0

Density

n=5
n=10
n=20

0.0

0.5

1.0

1.5

2.0

2.5

Sample mean

10

VARIANZA CAMPIONARIA
Dato un modello statistico relativo ad un campionamento casuale da una variabile casuale \ tale che Var\
5 # , la varianza campionaria data dalla variabile casuale
" 8

#
WB
\3 \#
8 3"
la cui realizzazione indicata con =B# .
Si ha
EWB#

8" #
5
8

La varianza campionaria corretta data dalla variabile


#
W-B

"

8"

\3 \#

3"

#
la cui realizzazione indicata con =-B
, ed tale che
#
EW-B
5#

Anche se questi propriet sono valide per qualsiasi modello, la varianza campionaria non distribution-free. La

variabile casuale standardizzata con lo scarto quadratico campionario 8\ .W-B converge in distribuzione a
una variabile casuale R ! " per 8 . Dunque, anche questa statistica risulta distribution-free per grandi
campioni.
11

VARIANZA CAMPIONARIA

#
Esempio. Dato un campione casuale da una Normale \ R . 5 # possibile dimostrare che W-B
e \ sono
indipendenti. Si pu dimostrare che questo risultato valido solo per questo particolare modello statistico. Inoltre, si ha
#
W-B
8 " # ;#8"
5

#
per cui risulta EW-B
5 # , ovvero viene convalidato il risultato generale. Inoltre, risulta \ R . 5 # 8, ovvero per
questo modello la media campionaria distribuita normalmente anche per 8 finito. Assumendo 5 ", i seguenti
#
grafici riportano le funzioni di densit di W-B
per 8 & "! #!.

12

VARIANZA CAMPIONARIA
Esempio (segue).

1.0

1.2

Probability density function

0.6
0.4
0.2
0.0

Density

0.8

n=5
n=10
n=20

0.0

0.5

1.0

1.5

2.0

2.5

Sample variance

13

FUNZIONE DI RIPARTIZIONE EMPIRICA


Dato un modello statistico relativo ad un campionamento casuale da una variabile casuale \ con funzione di
ripartizione J B, la funzione di ripartizione empirica data da
s B "
J
8

IB \3
3"

Ovviamente, la funzione di ripartizione empirica fornisce la percentuale di osservazioni campionarie minori od


uguali ad un dato valore B.
Si ha
s B J B
EJ
e
s B J B" J B
VarJ
8
s B non dipende da J B e quindi questa statistica distribution-free.
La distribuzione di J

14

FUNZIONE DI RIPARTIZIONE EMPIRICA


Esempio. Si dispone delle osservazioni delle precipitazioni medie (in pollici) per 70 citt degli Stati Uniti (Fonte:
McNeil, D.R., 1977, Interactive data analysis, Wiley, New York). I dati sono contenuti nel file rainfall.txt e
vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\rainfall.txt", header = T)
> attach(d)
Il grafico della funzione di ripartizione empirica viene ottenuto mediante il seguente comando
> plot(ecdf(Rainfall), xlab = "Rainfall (inches)", ylab = "Probability",
+
main = "Empirical distribution function")
> rug(Rainfall)

15

FUNZIONE DI RIPARTIZIONE EMPIRICA


Esempio (segue). Il precedente comando fornisce il seguente grafico.

0.6
0.4
0.2
0.0

Probability

0.8

1.0

Empirical distribution function

10

20

30

40

50

60

70

Rainfall (inches)

16

FUNZIONE DI RIPARTIZIONE EMPIRICA


Esempio (segue). Al fine di analizzare la funzione di ripartizione empirica conveniente comparare il suo grafico con
l'istogramma, che si ottiene con il seguente comando
> hist(Rainfall, xlab = "Rainfall (inches)", ylab = "Density",
+
main = "Histogram")
> rug(Rainfall)

17

FUNZIONE DI RIPARTIZIONE EMPIRICA


Esempio (segue). Il precedente comando fornisce il seguente grafico.

10

Density

15

20

25

Histogram

10

20

30

40

50

60

70

Rainfall (inches)

18

FUNZIONE DI RIPARTIZIONE EMPIRICA


Esempio (segue). Inoltre, pu essere conveniente riportare il grafico della funzione di ripartizione empirica con
segmenti uniti per una migliore interpretazione grafica
> plot(ecdf(Rainfall), do.points = F, verticals = T,
+
xlab = "Rainfall (inches)", ylab = "Probability",
+
main = "Empirical distribution function")
> rug(Rainfall)

19

FUNZIONE DI RIPARTIZIONE EMPIRICA


Esempio (segue). Il precedente comando fornisce il seguente grafico.

0.6
0.4
0.2
0.0

Probability

0.8

1.0

Empirical distribution function

10

20

30

40

50

60

70

Rainfall (inches)

20

STATISTICA ORDINATA
Dato un campionamento casuale da una variabile casuale \ , le osservazioni ordinate B" B# B8 sono la
realizzazione campionaria del vettore di statistiche \" \# \8 , detto statistica ordinata.
La statistica \3 detta i-esima statistica ordinata.
La mediana campionaria funzione della statistica ordinata. In effetti, se 8 dispari, la mediana campionaria
~
definita come \ !& \8#"# . Alternativamente, se 8 pari, allora la mediana campionaria viene usualmente
~
definita come \ !& \8# \8#" #. Analogamente anche i quantili campionari sono funzioni della statistica
ordinata.
La statistica ordinata non distribution-free.

21

SEGNI
Dato un campionamento casuale da una variabile casuale continua \ con mediana pari a -, le statistiche segno sono
le 8 variabili casuali
^3 I! \3 -

Evidentemente, la variabile casuale ^3 binaria ed assume valore " se \3 maggiore della mediana e valore !
altrimenti. In particolare ogni ^3 distribuita come una variabile casuale di Bernoulli di parametro "#.
Le statistiche segno sono indipendenti e distribution-free. Evidentemente, anche trasformate di queste statistiche
sono distribution-free.

22

RANGHI
Dato un campionamento casuale da una variabile casuale continua \ , le statistiche rango sono le seguenti
trasformate
8

V3

I! \3 \4
4"

Ovviamente l'i-esimo rango V3 fornisce il numero di osservazioni minori di \3 , ovvero V3 rappresenta la posizione
di \3 all'interno del campione ordinato. Si ha quindi la relazione
\3 \V3

Le statistiche rango non sono indipendenti e assumono valori su tutte le permutazioni dei primi 8 interi. La
distribuzione congiunta delle statistiche rango uniforme su quest'insieme. Di conseguenza le statistiche rango sono
distribution-free.
Evidentemente, anche trasformate di queste statistiche sono distribution-free.

23

LETTURE SUGGERITE
Azzalini, A. (1996) Statistical inference, Chapman and Hall, London.
Ferguson, T.S. (1996) A course in large sample theory, Chapman and Hall, London.
Hettmansperger, T.P. and McKean, J.W. (1998) Robust nonparametric statistical methods, Arnold, London.
Lehmann, E.L. (1999) Elements of large sample theory, Springer, New York.
Randles, R.H. and Wolfe, D.A. (1979) Introduction to the theory of nonparametric statistics, Wiley, New York.
Serfling, R.J. (1980) Approximation theorems of mathematical statistics, Wiley, New York.

24

CAPITOLO 4
METODI DI STIMA

STIMATORE
Una volta scelto un modello statistico, un primo obiettivo dell'inferenza quello di selezionare dei valori (sulla base
del campione) per i parametri che caratterizzano il modello.
Il procedimento di stima fa corrispondere ad ogni campione un valore per i parametri, ovvero considera una
trasformata del campione detto stimatore.
Uno stimatore per definizione una statistica o un insieme di statistiche. La realizzazione campionaria dello
stimatore detta stima. Questo tipo di procedimento detto stima per punti perch ad ogni campione fa corrispondere
una stima (ovvero un singolo punto dello spazio parametrico).
Anche se uno stimatore gode di propriet ottimali, la stima pu essere molto differente dal vero valore del
parametro a causa della variabilit campionaria. Dunque, in un procedimento di stima per punti, la stima deve sempre
essere accompagnata da un indice di precisione dello stimatore nello stimare il vero parametro.

PROPRIET DELLO STIMATORE


Se si considera un modello statistico caratterizzato da un parametro o un insieme di parametri ), la propriet della
correttezza richiede che, a priori dal campionamento, la determinazione campionaria dello stimatore sia
tendenzialmente prossima al valore vero.
~
Lo stimatore K detto corretto per il parametro ) se
~
EK )

Uno stimatore non corretto detto distorto e la distorsione definita come


~
~
BiasK EK )

Uno stimatore detto asintoticamente corretto per ) se


~
lim EK )

PROPRIET DELLO STIMATORE

Esempio. La media campionaria uno stimatore corretto essendo E\ .. Al contrario, la varianza campionaria WB#
uno stimatore distorto per 5 # . La distorsione pari a
BiasWB#

EWB#

5#
5
8
#

Lo stimatore WB# asintoticamente corretto per 5 # , dal momento che


lim EWB# 5 #

#
Evidentemente, lo stimatore W-B
corretto per 5 # , dal momento che
#
EW-B
5#

PROPRIET DELLO STIMATORE


Si richiede usualmente che la distribuzione dello stimatore si concentri sempre di pi intorno a ) all'aumentare della
~
numerosit campionaria, ovvero si richiede la propriet della coerenza. Dunque, uno stimatore K si dice coerente per
) se converge in probabilit a ) per 8 .
Condizione sufficiente affinch lo stimatore sia coerente per ) che sia asintoticamente corretto e che
~
lim VarK !
8

PROPRIET DELLO STIMATORE

Esempio. Per la Legge dei Grandi Numeri la media campionaria \ converge in probabilit a . per 8 e quindi

uno stimatore coerente. In effetti, \ uno stimatore corretto e


5#

lim Var\ lim


!
8
8 8
Anche la varianza campionaria WB# uno stimatore coerente essendo asintoticamente corretto e
lim VarWB# !

PROPRIET DELLO STIMATORE


Quando si deve valutare la precisione di uno stimatore si adotta solitamente il criterio dell'errore quadratico medio
che tiene conto sia della distorsione che della varianza dello stimatore. L'errore quadratico medio definito come
~
~
~
MSEK BiasK# VarK

Evidentemente, basandosi su questo criterio, uno stimatore leggermente distorto e con bassa varianza pu essere
preferibile ad uno stimatore corretto ma con varianza elevata.

PROPRIET DELLO STIMATORE


Quando si adotta un modello classico, vi sono due ulteriori propriet desiderabili in uno stimatore.
La prima propriet quella dell'efficienza, che richiede che uno stimatore corretto abbia varianza minima. Sotto
alcune condizioni possibile dimostrare che per un determinato modello lo stimatore efficiente esiste ed possibile
ottenere una espressione della varianza minima.
La seconda propriet quella della sufficienza, che assicura che lo stimatore conserva tutta l'informazione fornita dal
campione senza alcuna perdita.

VEROSIMIGLIANZA
Si supponga di nuovo un modello classico. Supponendo per semplicit di esposizione una sola variabile, quando il
campione \" \# \8 stato osservato, la distribuzione congiunta del campione 08 B" B# B8 ) funzione
solo del parametro ). Questa funzione rappresenta la probabilit di osservare a priori esattamente il campione che
stato estratto e contiene tutta l'informazione relativa al campione stesso.
In questo caso si dice funzione di verosimiglianza (o verosimiglianza) la funzione data da
P) -08 B" B8 )
dove - una costante che non dipende da ).
Molto spesso viene considerata anche la funzione di log-verosimiglianza, data da
6) ln P)
con la convenzione che 6) se P) !.

VEROSIMIGLIANZA
Esempio. Dato un campione casuale da \ R . ", per l'indipenenza delle osservazioni campionarie la
distribuzione congiunta del campione risulta
08 B" B8 . $ 9B3 . $
8

3"

3"

"
"
exp B3 .#
#1
#

e di conseguenza la verosimiglianza risulta


P. - $ exp
8

3"

"
8
.#
B3 .# - exp =B# B
#
#

" e =# # riportato di seguito.


Il grafico di questa verosimiglianza per - ", 8 &, B
B

10

VEROSIMIGLIANZA
Esempio (segue).

0.004
0.003
0.002
0.001
0.000

Probability

0.005

0.006

0.007

Likelihood

-0.5

0.0

0.5

1.0

1.5

2.0

2.5

11

VEROSIMIGLIANZA
Esempio. Dato un campione casuale da \ R . 5 # , data l'indipenenza delle osservazioni campionarie la
distribuzione congiunta del campione risulta
08 B" B8 . 5 $
8

3"

#15 #
"

exp

"
#
B

#5 #

e quindi la verosimiglianza risulta


P. 5 - $ 5 # "# exp
8

3"

"
8 #
#
# 8#
.#
B

-
5

=B B
exp

#
#
#5
#5

" e =# #
Il grafico di questa verosimiglianza (e il relativo grafico per linee di livello) per - ", 8 &, B
B
riportato di seguito.

12

VEROSIMIGLIANZA
Esempio (segue).
Likelihood

10

Likelihood

-1

13

PRINCIPIO DI CORRISPONDENZA
Il principio di corrispondenza fornisce la tecnica di stima pi elementare.
Per semplicit di esposizione si consideri un campione casuale \" \# \8 da una variabile casuale \ e si
supponga che il parametro possa essere rappresentato come la media di una opportuna trasformata di \ , ovvero
) E>\

Lo stimatore di ) fornito dalla controparte campionaria


"
~
K
8

>\3
3"

Evidentemente, stimatori come la media campionaria o la funzione di ripartizione campionaria sono giustificati
dal principio di corrispondenza.

14

METODO DELLA MASSIMA VEROSIMIGLIANZA


Il metodo della massima verosimiglianza consiste nello scegliere il valore del parametro che massimizza la
probabilit di ottenere proprio il campione che stato estratto. Evidentemente, questo metodo di stima pu essere
adoperato quando si considera modelli classici.
Dunque, si dice stima di massima verosimiglianza di ) quel valore s
) tale che
Ps
) max P)
)@

Dal momento che la funzione logaritmo monotona crescente, la precedente condizione equivalente a
6s
) max 6)
)@

s , detto appunto stimatore di massima


La stima di massima verosimiglianza la realizzazione campionaria di K
verosimiglianza.
Sotto alcune condizioni sul modello, lo stimatore di massima verosimiglianza fornisce usualmente stimatori con
propriet ottimali sia per campioni finiti che per grandi campioni.

15

METODO DELLA MASSIMA VEROSIMIGLIANZA


Esempio. Dato un campione casuale da \ R . 5 # , la log-verosimiglianza
6. 5 #

8
8
.#
log5 # # =B# B
#
#5

e5
viene massimizata per .
sB
s # =B# .

16

METODO DELLA MASSIMA VEROSIMIGLIANZA


Esempio. Si dispone di un campione casuale di diametri di sfere misurate in micron (Fonte: Romano, A., 1977,
Applied statistics for science and industry, Allyn and Bacon, Boston). I dati sono contenuti nel file ball.txt e
vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\ball.txt", header = T)
> attach(d)
Assumendo un campionamento casuale da una variabile casuale normale le stime di massima verosimiglianza di . e 5 #
risultano
> mean(Diameter)
[1] 1.194
> variance(Diameter)
[1] 0.075524
Pu essere opportuno verificare la validit del modello controllando i valori dei coefficienti campionari di asimmetria e
curtosi (ovviamente per una distribuzione normale i coefficienti di asimmetria e curtosi devono risultare pari a ! e $
rispettivamente)
> skewness(Diameter)
[1] -0.1763099
> kurtosis(Diameter)
[1] 2.170784
17

METODO DELLA MASSIMA VEROSIMIGLIANZA


Esempio (segue). La validit del modello pu essere anche controllata graficamente mediante il diagramma quantilequantile, che fornisce il diagramma delle osservazioni (standardizzate mediante la media e la varianza campionarie)
rispetto ai quantili della distribuzione normale standardizzata. Questo grafico dovrebbe avere una disposizione dei
punti lungo la bisettrice se l'ipotesi di normalit per le osservazioni valida. I comandi per ottenere il diagramma
quantile-quantile sono i seguenti
> qqnorm(Diameter)
> qqline(Diameter)

18

METODO DELLA MASSIMA VEROSIMIGLIANZA


Esempio (segue). Il precedente comando fornisce il seguente grafico.

1.2
1.0
0.8

Sample Quantiles

1.4

1.6

Normal Q-Q Plot

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

Theoretical Quantiles

19

METODO DEI MINIMI QUADRATI


Il metodo dei minimi quadrati viene solitamente applicato quando si considera la stima dei parametri con un
modello di regressione. Nel caso pi semplice di un modello di regressione lineare, il metodo dei minimi quadrati
consiste nel minimizzare la somma degli scarti dei valori osservati dai valori teorici al quadrato della variabile di
risposta, ovvero nel minimizzare la funzione obiettivo
8

C3 "! "" B3 #

:"! ""
3"

In questo caso la minimizzazione fornisce le stime

s
" ! C s
""B
e
=BC
s
"" #
=B
per cui la retta di regressione stimata risulta 7
"! s
" " B.
sB s
Il metodo dei minimi quadrati pu essere adoperato in modo generale con modelli complessi.

20

METODO DEI MINIMI QUADRATI


Esempio. Si dispone delle osservazioni del livello del lago Vittoria (in m) e del numero di macchie solari per gli anni
1902-1921 (Fonte: Shaw, N., 1942, Manual of metereology, Cambridge University Press, London, p.284). La variabile
di risposta il livello del lago (in metri) rispetto ad un valore di riferimento, mentre il regressore il numero di
macchie solari. I dati sono contenuti nel file lake.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\lake.txt", header = T)
> attach(d)
Le stime dei parametri del modello di regressione lineare vengono ottenute mediante il seguente comando
> lm(Level ~ Sunspot)
Call:
lm(formula = Level ~ Sunspot)
Coefficients:
(Intercept)
-8.0418

Sunspot
0.4128

21

METODO DEI MINIMI QUADRATI


Esempio (segue). Il diagramma di dispersione con retta di regressione stimata viene ottenuto mediante i seguenti
comandi
> plot(Sunspot, Level, xlab = "Number of sunspot", ylab = "Level (meters)",
+
main = "Scatter plot")
> abline(lm(Level ~ Sunspot))

22

METODO DEI MINIMI QUADRATI


Esempio (segue). I precedenti comandi forniscono il seguente grafico.

10
0
-10

Level (meters)

20

30

Scatter plot

20

40

60

80

100

Number of sunspot

23

METODI BASATI SU MINIMIZZAZIONE DI FUNZIONI OBIETTIVO


Pi generalmente, supponendo per semplicit un campione casuale da una singola variabile, i metodi di stima di un
parametro ) possono essere basati sulla minimizzazione una generica funzione obiettivo del tipo
8

9 )

3B3 )
3"

dove 3@ una opportuna funzione di distanza.


Sotto alcune condizioni la stima basata sulla minimizzazione della funzione obiettivo equivalente alla (pseudo)
soluzione dell'equazione
8

<B3 ) !
3"

dove <B 3w B.
Gli stimatori basati su questa procedura sono detti stimatori di tipo M.

24

METODI BASATI SU MINIMIZZAZIONE DI FUNZIONI OBIETTIVO


Esempio. Se ) un parametro di posizione, allora si pu scegliere la funzione di distanza 3@ @# . In questo caso, lo
~

stimatore di ) risulta K \ , ovvero la media campionaria. Se invece la funzione di distanza risulta 3@ l@l, lo
~
~
stimatore di ) risulta K \ !& , ovvero la mediana campionaria.
Se ) di nuovo un parametro di posizione, supponendo un approccio classico, sia 0 B ) la funzione di densit di
\ . In questo caso, lo stimatore di massima verosimiglianza di ) uno stimatore di tipo M dove 3@ log- log0 @.
Evidentemente, anche il metodo dei minimi quadrati si basa su una funzione di distanza del tipo 3@ @# .

25

LETTURE SUGGERITE
Azzalini, A. (1996) Statistical inference, Chapman and Hall, London.
Cox, D.R. and Hinkley, D.V. (1974) Theoretical statistics, Chapman and Hall, London.
Ferguson, T.S. (1996) A course in large sample theory, Chapman and Hall, London.
Hettmansperger, T.P. and McKean, J.W. (1998) Robust nonparametric statistical methods, Arnold, London.
Huber, P.J. (1981) Robust statistics, Wiley, New York.
Lehmann, E.L. (1983) The theory of point estimation, Wiley, New York.
Lehmann, E.L. (1999) Elements of large sample theory, Springer, New York.
Maritz, J.S. (1981) Distribution-free statisitical methods, Chapman and Hall, London.
Noether, G.E. (1967) Elements of nonparametric statistics, Wiley, New York.
Randles, R.H. and Wolfe, D.A. (1979) Introduction to the theory of nonparametric statistics, Wiley, New York.
Rao, C.R. (1973) Linear statistical inference and its applications, Wiley, New York.
Wilks, S.S. (1962) Mathematical statistics, Wiley, New York.

26

CAPITOLO 5
METODI DI SMORZAMENTO

STIMATORI DI NUCLEO
Quando si analizza una variabile casuale continua, conveniente effettuare una indagine esplorativa della
rispettiva funzione di densit eventualmente finalizzata alla selezione di un modello.
Grossolanamente l'istogramma fornisce informazioni sulla funzione di densit. Una tecnica pi raffinata per stimare
la funzione di densit si basa sullo stimatore di nucleo.

STIMATORI DI NUCLEO
Sia \" \# \8 un campione casuale da una variabile casuale continua \ con funzione di densit 0 B. Lo
stimatore di nucleo per 0 nel punto B dato da
"
0s2 B
8

O2 B \3
3"

dove
O2 B

"
O2" B
2

mentre 2 ! detto parametro di smorzamento.


La funzione O detta nucleo ed tale che
( OB .B "

STIMATORI DI NUCLEO
Una giustificazione della genesi di questo stimatore pu essere data attraverso la seguente rappresentazione di 0 B
0 B ( I! B C0 C .C EI! B \

Per 2 ! si ha O2 B I! B e dunque risulta la seguente approssimazione


EI! B \ EO2 B \

In base al principio di corrispondenza, EO2 B \ pu essere evidentemente stimato mediante 0s2 B.

SCELTA DEL NUCLEO


Usualmente O viene selezionato come una funzione di densit simmetrica. Questo assicura che 0s2 B sia a sua
volta una funzione di densit.
Una scelta comune per O la funzione di densit di una variabile casuale normale standard
Una alternativa rappresentata dalla funzione di densit di una variabile casuale bipesata standard, ovvero
OB

"&
" B# # I"" B
"'

EFFETTO DEL PARAMETRO DI SMORZAMENTO


Il parametro 2 controlla la quantit di smorzamento applicata allo stimatore di nucleo.
All'aumentare di 2 la stima risulta pi liscia, mentre al diminuire di 2 la stima diventa pi rugosa e tende alla
funzione di densit empirica, ovvero alla distribuzione di probabilit che pone una probabilit pari a "8 su ogni
osservazione.

EFFETTO DEL PARAMETRO DI SMORZAMENTO


Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. La stima di nucleo viene ottenuta richiamando la
libreria sm che permette di implementare metodi di smorzamento avanzati. In particolare, i grafici della stima di nucleo
per 2 "!! !$$ !!& vengono ottenuti mediante i seguenti comandi
>
+
>
>
+
>
>
+
>

sm.density(Diameter, 1.00, yht = 2, xlim =


xlab = "Ball diameter (micron)")
title(main = "Kernel density estimation (h
sm.density(Diameter, 0.33, yht = 2, xlim =
xlab = "Ball diameter (micron)")
title(main = "Kernel density estimation (h
sm.density(Diameter, 0.05, yht = 2, xlim =
xlab = "Ball diameter (micron)")
title(main = "Kernel density estimation (h

c(-0.35, 2.65),
= 1.00)")
c(-0.35, 2.65),
= 0.33)")
c(-0.35, 2.65),
= 0.05)")

EFFETTO DEL PARAMETRO DI SMORZAMENTO


Esempio (segue). I precedenti comandi forniscono i seguenti grafici.

0.0

0.5

1.0

1.5

Ball diameter (micron)

2.0

2.5

2.0
1.5
1.0
0.0

0.5

Probability density function

1.5
1.0
0.0

0.5

Probability density function

1.5
1.0
0.5
0.0

Probability density function

Kernel density estimation (h = 0.05)

2.0

Kernel density estimation (h = 0.33)

2.0

Kernel density estimation (h = 1.00)

0.0

0.5

1.0

1.5

Ball diameter (micron)

2.0

2.5

0.0

0.5

1.0

1.5

2.0

2.5

Ball diameter (micron)

PRECISIONE DELLO STIMATORE DI NUCLEO


La precisione di uno stimatore di nucleo nel punto B viene misurata attraverso l'errore quadratico medio
MSE0s2 B Bias0s2 B# Var0s2 B
Dal momento che usualmente si richiede la stima sull'intero supporto, una misura globale della precisione di 0s2 B
data dall'errore quadratico medio integrato, ovvero
MISE0s2 ( MSE0s2 B .B

APPROSSIMAZIONE PER GRANDI CAMPIONI DELLA


DISTORSIONE E VARIANZA PER LO STIMATORE DI NUCLEO
Si assuma che 0 ww B esista per ogni B e sia continua ed integrabile. Inoltre, per una generica funzione 1 si ponga
.# 1 ( B# 1B .B , V1 ( 1B# .B

Sotto queste condizioni si pu dimostrare che per 2 ! si ha


"
E0s2 B 0 B 2 # 0 ww B.# O
#
Quindi 0s2 B uno stimatore distorto la cui distorsione tende a ! quando 2 !.
Inoltre, per 2 ! e 82 , si pu dimostrare che
"
Var0s2 B
VO0 B
82
Dunque 0s2 B uno stimatore coerente se 2 ! e 82 quando 8 .

10

APPROSSIMAZIONE PER GRANDI CAMPIONI DELLA MISE


L'errore quadratico medio per grandi campioni risulta dunque
"
"
AMSE0s2 B 2% 0 ww B# .# O#
VO0 B
%
82
per cui l'errore medio quadratico integrato per grandi campioni dato da
"
"
AMISE0s2 2% .# O# V0 ww
VO
%
82

E' immediato verificare che l'AMISE minimizzata quando


VO
2
.# O# V0 ww

"&

8"&

mentre
min AMISE0s2 8%&
2!

11

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO


Mentre la scelta del nucleo quasi ininfluente nella stima della funzione di densit, risulta fondamentale la selezione
del parametro di smorzamento. Quando questa selezione viene effettuata sulla base dei dati campionari, si ha una scelta
automatica del parametro di smorzamento.
Le quantit MISE0s2 e AMISE0s2 dipendono da 0 e quindi non possibile adoperarle per la selezione ottima di 2 .
Quindi si deve adottare opportune stime di queste quantit per implementare selettori da adoperare in pratica.
Una prima classe di selettori del parametro di smorzamento basata sulla minimizzazione di una opportuna stima di
MISE0s2 . Il principale metodo basato su questo criterio la cosiddetta cross-validation.
Una seconda classe di selettori del parametro di smorzamento invece basata sulla minimizzazione di una opportuna
stima di AMISE0s2 . Il principale metodo basato su questo criterio il cosiddetto plug-in.

12

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO


Esempio. Si considera di nuovo i dati relativi ai diametri delle sfere. I grafici della stima di nucleo con i selettori
basati sui metodi cross-validation e plug-in si ottengono mediante i seguenti comandi
>
>
+
>
>
+
>

library(sm)
sm.density(Diameter, hcv(Diameter, hstart = 0.01, hend = 1),
yht = 0.92, xlim = c(-0.35, 2.65), xlab = "Ball diameter (micron)")
title(main = "Kernel density estimation ('CV' h = 0.32)")
sm.density(Diameter, hsj(Diameter), yht = 1.06, xlim = c(-0.05, 2.35),
xlab = "Ball diameter (micron)")
title(main = "Kernel density estimation ('Plug-in' h = 0.23)")

13

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO


Esempio (segue).

0.6
0.4
0.2
0.0

Probability density function

0.8

Kernel density estimation ('CV' h = 0.32)

0.0

0.5

1.0

1.5

2.0

2.5

Ball diameter (micron)

14

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO


Esempio (segue).

0.8
0.6
0.4
0.2
0.0

Probability density function

1.0

Kernel density estimation ('Plug-in' h = 0.23)

0.0

0.5

1.0

1.5

2.0

Ball diameter (micron)

15

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO


Esempio. Si dispone di un campione casuale di tempi di attesa in minuti fra eruzioni di un geyger nel parco nazionale
di Yellowstone (Fonte: Azzalini, A. and Bowman, A.W., 1990, A look at some data on the Old Faithful geyger,
Journal of the Royal Statistical Society C39, 357-366). I dati sono contenuti nel file geyger.txt e vengono resi
disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\geyger.txt", header = T)
> attach(d)
I grafici della stima di nucleo con i selettori basati sui metodi della cross-validation e del plug-in si ottengono
mediante i seguenti comandi
>
>
+
>
>
+
>

library(sm)
sm.density(Duration, hcv(Duration, hstart = 0.01, hend = 1),
yht = 0.69, xlim = c(1.4, 5.1), xlab = "Waiting time (minutes)")
title(main = "Kernel density estimation ('CV' h = 0.10)")
sm.density(Duration, hsj(Duration), yht = 0.69, xlim = c(1.4, 5.1),
xlab = "Waiting time (minutes)")
title(main = "Kernel density estimation ('Plug-in' h = 0.20)")

16

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO


Esempio (segue).

0.5
0.4
0.3
0.2
0.1
0.0

Probability density function

0.6

0.7

Kernel density estimation ('CV' h = 0.10)

Waiting time (minutes)

17

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO


Esempio (segue).

0.5
0.4
0.3
0.2
0.1
0.0

Probability density function

0.6

0.7

Kernel density estimation ('Plug-in' h = 0.20)

Waiting time (minutes)

18

STIMATORI DI NUCLEO TRASFORMATI


Nel derivare le propriet dello stimatore di nucleo per grandi campioni si assunto che 0 ww B sia continua. Tuttavia
frequente che perfino 0 B non sia continua. Ad esempio, molte funzioni di densit sono discontinue in un punto
estremo del supporto. In questo caso, supponendo per semplicit (ma senza perdita di generalit) che il supporto di
0 B sia ! e che la discontinuit si trovi nell'origine, se si vuole stimare 0 ! facile vericare che 0s2 ! distorto
perfino se 2 !.
Al fine di evitare difficolt di stima di questo tipo si preferisce (quando possibile) considerare una opportuna
variabile casuale trasformata >\ con funzione di densit 1 e supporto , dove > una trasformazione monotona.
Dal momento che per le propriet delle trasformazioni di variabili casuali si ha
0 B 1>B>w B
si pu stimare 1 sulla base delle osservazioni trasformate >\" >\# >\8 e quindi lo stimatore di nucleo si
riduce a
>w B
s
0 2 B
8

O2 >B >\3
3"

19

STIMATORI DI NUCLEO TRASFORMATI


Esempio. Si dispone di un campione casuale di velocit massime in chilometri orari di aerei costruiti fra il 1914 e il
1984 (Fonte: Saviotti, P.P. and Bowman, A.W., 1984, Indicators of output of technology, in Proceedings of the
ICSSR/SSRC Workshop on Science and Technology in the 1980's, M. Gibbons et al., eds., Harvester Press, Brighton). I
dati sono contenuti nel file aircraft.txt e vengono resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\aircraft.txt", header = T)
> attach(d)
Assumendo una traformata logaritmica delle osservazioni, i grafici della stima di nucleo con i selettori basati sui
metodi della cross-validation e del plug-in si ottengono mediante i seguenti comandi
> library(sm)
> sm.density(Speed, hcv(log(Speed), hstart = 0.01, hend = 1),
+
yht = 0.0022, xlim = c(0, 3300),
+
xlab = "Aircraft speed (km/h)", rugplot = F, positive = T)
> title(main = "Kernel density estimation ('CV' h = 0.10)")

20

STIMATORI DI NUCLEO TRASFORMATI


Esempio (segue).

0.0015
0.0010
0.0005
0.0000

Probability density function

0.0020

Kernel density estimation ('CV' h = 0.10)

500

1000

1500

2000

2500

3000

Aircraft speed (km/h)

21

STIMATORI DI NUCLEO BIVARIATI


Sia \" ]" \# ]# \8 ]8 un campione casuale da una variabile casuale continua \ ] con funzione di
densit 0 B C. Lo stimatore di nucleo nel punto B C pu essere costruito come
"
0s2" 2# B C
8

O2" B \3 O2# C ]3
3"

In una formulazione pi generale si potrebbe adoperare anche una funzione di nucleo bivariata (con tre parametri di
smorzamento) invece di un prodotto di funzioni di nucleo marginali. La presente formulazione tuttavia conveniente
e sufficiente nelle applicazioni pratiche.
Le propriet dello stimatore di nucleo bivariate si possono ottenere in modo analogo a quelle dello stimatore di nucleo
univariato. Si tenga presente tuttavia che la precisione dello stimatore di nucleo bivariato diminuisce rispetto alla
controparte univariata. Questo fenomeno, noto come maledizione della dimensionalit, dovuto al fatto che 8
osservazioni si rarefanno all'aumentare della dimensione dello spazio di riferimento.

22

STIMATORI DI NUCLEO BIVARIATI


Esempio. Si dispone delle osservazioni relative ad alcune variabili per le guardie nel campionato professionistico di
basket NBA nel 1992-93 (Fonte: Chatterjee, S., Handcock, M.S. and Simonoff, J.S., 1995, A casebook for a first
course in statistics and data analysis, Wiley, New York). Le variabili considerate sono state punti segnati per minuto
giocato e assist per minuto giocato. I dati sono contenuti nel file basket.txt e vengono rese disponibili mediante i
comandi
> d <- read.table("c:\\Rwork\\examples\\basket.txt", header = T)
> attach(d)

23

STIMATORI DI NUCLEO BIVARIATI

Esempio (segue). I grafici (tridimensionale, per curve di livello e a toni di colori) della stima di nucleo bivariata si
ottengono mediante i seguenti comandi
>
>
+
+
>
>
+
>
+
>
>
+
+
>

library(sm)
sm.density(d[, c(1, 2)], hcv(d[, c(1, 2)]),
xlim = c(0, 0.9), ylim = c(0, 0.4), zlim = c(0, 20),
xlab = "Points per minute", ylab = "Assists per minute")
title(main = "Kernel density estimation ('CV' h1 = 0.06, h2 = 0.03)")
plot(Score, Assist, xlim = c(0, 0.9), ylim = c(0, 0.4),
xlab = "Points per minute", ylab = "Assists per minute")
sm.density(d[, c(1, 2)], hcv(d[, c(1, 2)]), display = "slice",
props = c(75, 50, 25, 2), add = T)
title(main = "Kernel density estimation ('CV' h1 = 0.06, h2 = 0.03)")
sm.density(d[, c(1, 2)], hcv(d[, c(1, 2)]),
display = "image", xlim = c(0, 0.9), ylim = c(0, 0.4),
xlab = "Points per minute", ylab = "Assists per minute")
title(main = "Kernel density estimation ('CV' h1 = 0.06, h2 = 0.03)")

24

STIMATORI DI NUCLEO BIVARIATI


Esempio (segue).
Kernel density estimation ('CV' h1 = 0.06, h2 = 0.03)

20
nction
Density fu

15
10
5
0
0.4
sis
As

0.3
ts

0.2

pe

0.8

inu
rm

0.1

te

0.00.0

0.6
0.4 inute
rm
0.2 ts pe
in
Po

25

STIMATORI DI NUCLEO BIVARIATI


Esempio (segue).

0.2
0.1
0.0

Assists per minute

0.3

0.4

Kernel density estimation ('CV' h1 = 0.06, h2 = 0.03)

0.0

0.2

0.4

0.6

0.8

Points per minute

26

STIMATORI DI NUCLEO BIVARIATI


Esempio (segue).

0.2
0.1
0.0

Assists per minute

0.3

0.4

Kernel density estimation ('CV' h1 = 0.06, h2 = 0.03)

0.0

0.2

0.4

0.6

0.8

Points per minute

27

STIMATORI DI NUCLEO BIVARIATI


Esempio. Si dispone delle osservazioni relative alla larghezza e alla lunghezza della diagonale in millimetri
dell'immagine contenuta in banconote svizzere la cui met sono falsificate (Fonte: Flury, B. and Riedwyl, H., 1988,
Multivariate statistics: a practical approach, Chapman and Hall, London). I dati sono contenuti nel file
swissmoney.txt. e vengono resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\swissmoney.txt", header = T)
> attach(d)
I grafici (tridimensionale, per curve di livello e a toni di colori) della stima di nucleo bivariata si ottengono mediante i
seguenti comandi (le banconote false vengono contrassegnate da punti in grassetto nel diagramma di dispersione)
>
>
+
+
>
>
+
>
>
+
>
>
+
+
>

library(sm)
sm.density(d[, c(2, 3)], hcv(d[, c(2, 3)]),
xlim = c(6, 14), ylim = c(137, 143), zlim = c(0, 0.2),
xlab = "Width (mm)", ylab = "Length (mm)")
title(main = "Kernel density estimation ('CV' h1 = 0.35, h2 =
plot(d[1:100, 2], d[1:100, 3], xlim = c(6, 14), ylim = c(137,
xlab = "Width (mm)", ylab = "Length (mm)")
points(d[101:200, 2], d[101:200, 3], pch = 16)
sm.density(d[, c(2, 3)], hcv(d[, c(2, 3)]),
display = "slice", props = c(75, 50, 25), add = T)
title(main = "Kernel density estimation ('CV' h1 = 0.35, h2 =
sm.density(d[, c(2, 3)], hcv(d[, c(2, 3)]),
display = "image", xlim = c(6, 14), ylim = c(137, 143),
xlab = "Width (mm)", ylab = "Length (mm)")
title(main = "Kernel density estimation ('CV' h1 = 0.35, h2 =

0.25)")
143),

0.25)")

0.25)")
28

STIMATORI DI NUCLEO BIVARIATI


Esempio (segue).
Kernel density estimation ('CV' h1 = 0.35, h2 = 0.25)

0.20
nction
Density fu

0.15
0.10
0.05

Le

0.00
143
142
141
ng

14

(
th

140
)
mm

139
138
137 6

12
10 m)
m
th (
d
i
W

29

STIMATORI DI NUCLEO BIVARIATI


Esempio (segue).

140
139
138
137

Length (mm)

141

142

143

Kernel density estimation ('CV' h1 = 0.35, h2 = 0.25)

10

12

14

Width (mm)

30

STIMATORI DI NUCLEO BIVARIATI


Esempio (segue).

140
139
138
137

Length (mm)

141

142

143

Kernel density estimation ('CV' h1 = 0.35, h2 = 0.25)

10

12

14

Width (mm)

31

REGRESSIONE LINEARE LOCALE


Prima di adottare un modello di regressione per la relazione fra la variabile esplicativa e quella di risposta
conveniente indagare la natura del legame con metodi esplorativi.
Un modo distribution-free per stimare la funzione di regressione attraverso la regressione lineare locale.

32

REGRESSIONE LINEARE LOCALE


Se ]" ]# ]8 sono le osservazioni della variabile di risposta per i livelli del regressore B" B# B8 , il modello
di regressione risulta
]3 7B3 X3
dove 7 una funzione di regressione non nota, mentre EX3 ! e VarX3 5 # .
In generale, la funzione 7 non lineare. Tuttavia, se 7 risulta abbastanza regolare, allora in un intorno di un punto B
approssimativamente lineare, ovvero 7B "! "" B per valori prossimi ad B.
La funzione obiettivo smorzata localmente nel punto B da adottare per il metodo dei minimi quadrati data da
8

O2 B3 BC3 "! "" B3 B#

:"! ""
3"

dove la funzione O2 definita come per lo stimatore di nucleo della funzione di densit. Senza perdita di generalit e
per semplicit di notazione, i valori del regressore sono stati centrati rispetto al punto B.

33

REGRESSIONE LINEARE LOCALE


Minimizzando la funzione obiettivo si ottengono delle stime locali di "! e "" nel punto B, che forniscono di
conseguenza il seguente stimatore di 7
"
7
s2 B
8

8
3"

=#2 B ="2 BB3 BO2 B3 B]3


=#2 B=!2 B ="2 B#

dove
"
=<2 B
8

B3 B< O2 B3 B
3"

Il parametro 2 controlla il livello di smorzamento, ovvero quanto locale deve essere la stima di 7.
Per 2 la stima di 7 coincide con quella ottenuta con il metodo dei minimi quadrati quando si assume un
modello lineare.

34

REGRESSIONE LINEARE LOCALE


Esempio. Si dispone delle osservazioni per tre variabili misurate su alcuni motori a etanolo, ovvero la concentrazione
di ossido di nitrogeno (in microgrammi/J), il rapporto di compressione e il rapporto di equivalenza che una misura
della ricchezza della miscela di aria e etanolo (Fonte: Brinkman, N.D., 1981, Ethanol Fuel - A Single-Cylinder Engine
Study of Efficiency and Exhaust Emissions, SAE Transactions 90, 14101424). La variabile di risposta la
concentrazione di ossido di nitrogeno, mentre il regressore il rapporto di equivalenza. I dati sono contenuti nel file
ethanol.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\ethanol.txt", header = T)
> attach(d)

35

REGRESSIONE LINEARE LOCALE


Esempio (segue). La stima della funzione di regressione viene ottenuta richiamando la libreria sm. In particolare, i
grafici della stima della funzione di regressione per 2 "!! !!& !!" vengono ottenuti mediante i seguenti comandi
>
>
+
>
>
>
+
>
>
>
+
>
>

library(sm)
plot(Equivalence, NOx, xlab = "Equivalence ratio",
ylab = "Concentration of nitrogen oxides (micrograms/J)")
sm.regression(Equivalence, NOx, h = 1.00, add = T)
title(main = "Local linear regression (h = 1.00)")
plot(Equivalence, NOx, xlab = "Equivalence ratio",
ylab = "Concentration of nitrogen oxides (micrograms/J)")
sm.regression(Equivalence, NOx, h = 0.05, add = T)
title(main = "Local linear regression (h = 0.05)")
plot(Equivalence, NOx, xlab = "Equivalence ratio",
ylab = "Concentration of nitrogen oxides (micrograms/J)")
sm.regression(Equivalence, NOx, h = 0.01, add = T)
title(main = "Local linear regression (h = 0.01)")

36

REGRESSIONE LINEARE LOCALE


Esempio (segue).

0.6

0.7

0.8

0.9

Equivalence ratio

1.0

1.1

1.2

0.7

0.8

0.9

Equivalence ratio

1.0

1.1

1.2

4
0.6

Concentration of nitrogen oxides (micrograms/J)

3
2
1

Concentration of nitrogen oxides (micrograms/J)

3
2
1

Concentration of nitrogen oxides (micrograms/J)

Local linear regression (h = 0.01)

Local linear regression (h = 0.05)

Local linear regression (h = 1.00)

0.6

0.7

0.8

0.9

1.0

1.1

1.2

Equivalence ratio

37

PRECISIONE DELLO STIMATORE DI REGRESSIONE LINEARE LOCALE


Si assuma che 7ww B esista per ogni B, che i regressori siano generati da una variabile casuale continua con funzione
di densit 0 B e che valgano alcune alcune opportune condizioni sulla disposizione dei regressori all'aumentare della
numerosit campionaria.
Si pu dimostrare che per 2 ! si ha
E7
s 2 B 7B

" # ww
2 7 B.# O
#

Inoltre, per 2 ! e 82 , si pu dimostrare che


" 5 # VO
Var7
s 2 B
82 0 B

Dunque 7
s 2 B uno stimatore coerente se 2 ! e 82 quando 8 .

38

PRECISIONE DELLO STIMATORE DI REGRESSIONE LINEARE LOCALE


Anche per lo stimatore 7
s 2 B si pu definire l'errore quadratico medio integrato, ovvero
MISE7
s 2 ( MSE7
s 2 B .B

e l'errore medio quadratico integrato per grandi campioni, ovvero


" %
" 5 # VO
#
ww
AMISE7
s 2 2 .# O V7
%
82 0 B

39

STIMA DELLA VARIANZA


Al fine di stimare 5 # opportuno notare che la stima della funzione di regressione lineare rispetto alle realizzazioni
della variabile di risposta, ovvero in notazione matriciale 7
s2 B Sy. In analogia con la regressione lineare multipla,
si pu definire lo stimatore
"
5
s
df/

C3 7
s 2 B3 #
3"

dove df/ trI S rappresentano i gradi di libert approssimati dell'errore.

40

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO


In modo simile alla stima di nucleo della funzione di densit, la scelta del nucleo quasi ininfluente mentre risulta
fondamentale la selezione del parametro di smorzamento. Di nuovo, la quantit MISE7
s 2 dipende da 7 e quindi non
possibile adoperarla per la selezione ottima di 2 .
Una prima classe di selettori basato sui gradi di libert approssimati.
Una seconda classe di selettori basata sulla minimizzazione di una opportuna stima di MISE0s2 , ovvero sul metodo
cross-validation.

41

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO


Esempio. Si considera di nuovo i dati relativi ai motori a etanolo. I grafici della stima della funzione di regressione
con i selettori basati sui metodi dei gradi di libert approssimati e della cross-validation si ottengono mediante i
seguenti comandi
>
>
+
>
>
+
>

library(sm)
plot(Equivalence, NOx, xlab = "Equivalence ratio",
ylab = "Concentration of nitrogen oxides")
sm.regression(Equivalence, NOx, method = "df", add = TRUE)
plot(Equivalence, NOx, xlab = "Equivalence ratio",
ylab = "Concentration of nitrogen oxides")
sm.regression(Equivalence, NOx, method = "cv", add = TRUE)

42

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO


Esempio (segue).

3
2
1

Concentration of nitrogen oxides (micrograms/J)

Local linear regression ('df')

0.6

0.7

0.8

0.9

1.0

1.1

1.2

Equivalence ratio

43

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO


Esempio (segue).

3
2
1

Concentration of nitrogen oxides (micrograms/J)

Local linear regression ('CV')

0.6

0.7

0.8

0.9

1.0

1.1

1.2

Equivalence ratio

44

PARAMETRO DI SMORZAMENTO VARIABILE


Un approccio alternativo alla regressione lineare locale basato su un parametro di smorzamento variabile per
ogni punto B. Pi esattamente, si considera la minimizzazione della funzione criterio con una funzione di nucleo con
parametro di smorzamento variabile del tipo
8

O.5 B3 B3 BC3 "! "" B3 B#

:"! ""
3"

dove .5 B3 la distanza di B3 dal k-esimo vicino pi prossimo dei restanti valori del regressore. Questo metodo
detto loess.
Il metodo loess evita la scelta di un selettore e si limita a richiedere la specificazione del parametro 5 .
Il parametro 5 evidentemente legato alla proporzione del campione che contribuisce al peso attribuito per ogni
punto B. Una scelta grossolana di questo parametro solitamente sufficiente e l'usuale scelta di compromesso risulta
5 !&.

45

PARAMETRO DI SMORZAMENTO VARIABILE


Esempio. Si considera di nuovo i dati relativi ai motori a etanolo. Il grafico della stima della funzione di regressione
con il metodo loess si pu ottenere mediante i seguenti comandi
>
+
>
>
>

plot(Equivalence, NOx, xlab = "Equivalence ratio",


ylab = "Concentration of nitrogen oxides (micrograms/J)")
od <- d[order(Equivalence), 1:3]
lines(od[, 3], fitted.values(loess(od[, 1] ~ od[, 3], span = 0.5)))
title(main = "Local linear regression ('loess')")

46

PARAMETRO DI SMORZAMENTO VARIABILE


Esempio (segue).

3
2
1

Concentration of nitrogen oxides (micrograms/J)

Local linear regression ('loess')

0.6

0.7

0.8

0.9

1.0

1.1

1.2

Equivalence ratio

47

LETTURE SUGGERITE
Bowman, A.W. and Azzalini, A. (1997) Applied smoothing techniques for data analysis, Oxford University Press,
Oxford.
Loader, C. (1999) Local regression and likelihood, Springer, New York.
Scott, D.W. (1992) Multivariate density estimation, Wiley, New York.
Silverman, B.W. (1986) Density estimation, Chapman and Hall, London.
Simonoff, J.S. (1996) Smoothing methods in statistics, Springer, New York.
Wand, M.P. and Jones, M.C. (1995) Kernel smoothing, Chapman and Hall, London.

48

CAPITOLO 6
VERIFICA DELLE IPOTESI E
INTERVALLI DI CONFIDENZA

VERIFICA DI IPOTESI
Sulla base del campione osservato si interessati a stabilire se il vero valore del parametro appartiene ad un certo
sottoinsieme dello spazio parametrico @ (l'insieme di tutti i valori plausibili per il parametro )).
Dato un modello statistico, se gli insiemi @! e @" costituiscono una partizione di @, la verifica di ipotesi consiste in
un procedimento decisionale di scelta fra l'ipotesi di base L! ) @! e l'ipotesi alternativa L" ) @" .
L'insieme delle ipotesi ammissibili e la sua partizione in L! e L" detto sistema di ipotesi.

VERIFICA DI IPOTESI
Esempio. Nella semplice situazione in cui si ha un campione casuale da una variabile casuale casuale \ , il tipico
modello classico assume che \ R . 5 # e l'usuale sistema di ipotesi consiste nel verificare L! . .! contro
L" . .! . Dal momento che lo spazio parametrico in questo caso dato da
@ . 5 # . 5 # !
risulta @! . 5 # . .! 5 # ! e @" . 5 # . .! 5 # ! .
Al contrario, in un approccio distribution-free, si assume solo che \ una variabile casuale continua con funzione
di ripartizione J e mediana -, mentre il sistema di ipotesi risulta L! - -! contro L" - -! . In questo caso, lo
spazio parametrico dato da
@ - J - J _
dove _ lo spazio delle funzioni di ripartizione continue. In questo caso si ha @! - J - -! J _, mentre
@" - J - -! J _.

TEST STATISTICO
Lo strumento statistico che sulla base del campione consente di concludere in favore dell'una o dell'altra ipotesi il
test statistico.
Scelta una opportuna statistica X con supporto g , si dice test basato su X la funzione
H g L! L"
mentre X detta statistica test.
Il test basato su X una regola decisionale che suddivide g negli insiemi complementari g! e g" , in modo tale che si
accetta L! se la realizzazione > di X tale che > g! , mentre si accetta L" se > g" .
L'insieme g" detto regione critica del test basato su X .
Un test detto distribution-free se basato su una statistica test distribution-free.

TEST STATISTICO
Esempio. In un approccio classico, si consideri un campione casuale da \ R . " e il sistema di ipotesi

L! . .! contro L" . .! , dove .! una quantit nota. Se si suppone che la statistica test sia \ , risulta g .
Una possibile scelta per g! potrebbe essere data da
lB
.! l +
g! B

con + costante. Di conseguenza, la regione critica del test basato su \ risulta


lB
.! l +
g" B
Questa scelta di g" appare logica, in quanto pi la realizzazione della media campionaria differisce dal valore ipotizzato
.! per la media, pi si propensi ad accettare l'ipotesi alternativa. Resta aperto il problema della scelta della costante +.
In un approccio distribution-free, si consideri un campione casuale da una variabile casuale continua con mediana
pari a -. Si vuole verificare il sistema di ipotesi L! - -! contro L" - -! . Si consideri dunque il test basato sulla
statistica
8

I! \3 -!

F
3"

che distribution-free essendo una traformata di variabili casuali segno. Risulta g , , ! " 8, mentre
ragionevole assumere g! , , + " + # 8 + dove + un intero tale che + 8#. In effetti, sotto
ipotesi di base si attende una realizzazione , prossima a 8#. Di nuovo si deve decidere il valore della costante +.

FUNZIONE POTENZA
Uno strumento per misurare la capacit discriminatoria del test basato su una statistica la funzione potenza. La
funzione potenza del test basato su X data da
TX ) T X g"
dove la probabilit indotta dalla distribuzione specificata dal modello quando il valore del parametro pari a ) .
Per ogni ) @! la funzione potenza TX ) fornisce la probabilit di respingere L! quando questa vera, ovvero la
probabilit di commettere il cosiddetto errore di I specie.
Analogamente, per ogni ) @" la quantit " TX ) fornisce la probabilit di accettare L! quando vera L" ,
ovvero la probabilit di commettere il cosiddetto errore di II specie. Per ogni ) @" , la funzione potenza TX )
fornisce la probabilit di accettare L" quando questa vera.
Si dice che il test basato su X al livello di significativit se
sup TX )
)@!

Il livello di significativit rappresenta la massima probabilit di commettere un errore di I specie.

FUNZIONE POTENZA
Esempio. Dato un campione casuale da \ R . ", si consideri il sistema di ipotesi L! . ! contro L" . !. Se

si suppone che la statistica test sia \ , dato che g , si pu scegliere


g! D" 8

g" D" 8

Questa selezione di g" appare logica, in quanto pi la realizzazione della media campionaria elevata, pi si propensi

ad accettare l'ipotesi alternativa. Dal momento che risulta \ R . "8 per ogni . , allora la funzione potenza
data da
T\ . F8. D"

Dal momento che T\ . crescente e che


sup T \ .
.!

il test basato su \ al livello di significativit .

PROPRIET DEL TEST


Dal momento che non si pu rendere contemporaneamente pari a zero gli errori di I e II specie, si deve stabilire un
insieme di propriet desiderabili per un test.
Una prima propriet opportuna per un test quella della correttezza. Un test basato su X al livello di significativit
con funzione potenza TX ) detto corretto al livello di significativit se
TX ) , a) @"
La propriet della correttezza permette di controllare l'errore di I specie e al tempo stesso assicura che la probabilit
di accettare L" quando vera risulta maggiore dell'errore di I specie.
Una seconda propriet riguarda il comportamento per grandi campioni del test. Il test al livello di significativit
detto coerente se
lim TX8 ) " , a) @"

La propriet della coerenza assicura che la probabilit di commettere un errore di II specie tende a zero quando si
dispone di grandi campioni.

PROPRIET DEL TEST


Esempio. Dato un campione casuale da \ R . ", si consideri il sistema di ipotesi L! . ! contro L" . !. Il

test basato su \ corretto in quanto si ha T \ . per ogni . ! e T \ . per ogni . !. Dal momento che
la successione di funzioni F8. D" converge uniformemente ad una funzione costante pari ad " per . !,
allora
lim T \ . " , a. !

ovvero il test coerente.

PROPRIET DEL TEST


Anche se si vorrebbe che TX ) fosse pi alta possibile quando ) @" e la pi piccola possibile quando ) @! ,
questi requisiti sono conflittuali tra loro. Un possibile modo di procedere quello di fissare il livello di significativit
e scegliere quel test che ha pi alta potenza per ogni ) @" .
Un test basato su X al livello di significativit con funzione potenza TX ) detto uniformemente pi potente al
livello di significativit se
TX ) TX ) , a) @"
per ogni altro test basato su una qualsiasi statistica X al livello di significativit .
I test uniformente pi potenti esistono solo quando si considera un approccio classico. Al contrario, quando si
considera test distribution-free in generale non possibile determinare un test uniformemente pi potente.

10

TEST DEL RAPPORTO DELLE VEROSIMIGLIANZE


Un modo per costruire test ottimali quando si considera un approccio classico mediante il rapporto delle
verosimiglianze. Il test del rapporto delle verosimiglianze basato sulla statistica test
maxP)
V

)@!

max P)
) @

Questa statistica test ha un'interpretazione intuitiva, nel senso che se si sta confrontando la plausibilit di un valore
) rispetto ad un altro sulla base di un campione, siamo portati a scegliere quel valore che fornisce la verosimiglianza
pi alta. Se non esiste un valore ) che fornisce una verosimiglianza sensibilmente pi alta in @ rispetto alla
verosimiglianza massima in @! , siamo propensi ad accettare L! .
Ovviamente, per una realizzazione < di V si ha ! < ". Se < prossimo ad " si pi propensi ad accettare L! ,
mentre se la realizzazione < prossima ad ! si pi propensi ad accettare L" . Di conseguenza, si pu scegliere come
regione critica al livello di significativit l'insieme g" < < < , dove < il quantile di ordine della
distribuzione di V .

11

TEST DEL RAPPORTO DELLE VEROSIMIGLIANZE


Esempio. Dato un campione casuale da \ R . ", si consideri il sistema di ipotesi L! . .! contro L" . .! .
La determinazione campionaria del rapporto delle verosimiglianze data da
.! #
exp 8#=# B
8
#
<

exp

!
exp 8=# #
#
.! # , la regione critica indotta da V la stessa indotta da
Dal momento che < una funzione biunivoca di B

\ .! # e quindi i relativi test sono equivalenti. Inoltre, dal momento che se vera L! si ha

8\
.! R ! ", allora 8\ .! # ;#" . Tenendo presente che < una funzione monotona decrescente di

.! # e dunque si respinge L! per realizzazioni elevate di \


B
.! # , allora la regione critica del test basato sul
rapporto delle verosimiglianze data da
8B
.! # ;#
g" B
""

Essendo D"# ;#"" per la relazione fra la R ! " e la ;#" , la precedente regione critica pu essere anche
espressa in modo equivalente come

8 lB
.! l D"#
g" B

12

TEST DEL RAPPORTO DELLE VEROSIMIGLIANZE


Per quanto riguarda la distribuzione per grandi campioni del rapporto delle verosimiglianze, se 5 il numero di
parametri nel modello e ; il numero di parametri da stimare sotto ipotesi di base, allora # ln V si distribuisce come
una variabile casuale ;#5; .
La regione critica per grandi campioni del test basato sul rapporto delle verosimiglianze data da
g" < # ln < ;#5;"

13

SIGNIFICATIVIT OSSERVATA
Nel presente approccio, l'ipotesi di base e l'ipotesi alternativa vengono trattate in modo non simmetrico. In effetti,
usualmente L! costituisce una affermazione privilegiata e si preferisce controllare il livello di significativit del test
(ovvero l'errore di I specie) che comporta l'erroneo rifiuto di questa ipotesi privilegiata.
Anche se per sviluppare la teoria necessario fissare il livello di significativit , quando si lavora operativamente
non esiste nessuna regola per stabilirne la scelta. Questa considerazione porta al concetto di livello di significativit
osservato o valore-P.
Se la regione critica del test basato su X data da g" > > -, per un determinato valore campionario > si dice
significativit osservata la quantit
9== sup T X >
)@!

mentre, se la regione critica data da g" > > -, allora si dice significativit osservata la quantit
9== sup T X >
)@!

Quando invece la statistica test X ha una distribuzione simmetrica, se la regione critica del test basato su X data da
g" > > -" > -# , si dice significativit osservata la quantit
9== # min sup T X > sup T X >
)@!

)@!

14

SIGNIFICATIVIT OSSERVATA
La significativit osservata rappresenta la probabilit di ottenere, quando L! vera, un valore campionario > di X
estremo (nella appropriata direzione) almeno quanto quello osservato. Dunque, la significativit osservata fornisce
una misura su quanto l'ipotesi di base risulta compatibile con i dati campionari.
Una significativit osservata bassa porta a ritenere poco compatibile con i dati campionari l'ipotesi di base, mentre
con una significativit osservata elevata vera l'affermazione contraria.
In una verifica di ipotesi si pu semplicemente riportare la significativit osservata, oppure si pu arrivare ad una
decisione sull'accettazione di L! fissando un livello di significativit .
Se il livello di significativit osservato minore o uguale ad , allora si respinge L! , altrimenti si accetta L! . Il
livello di significativit osservato diventa in questo caso il pi elevato livello di significativit per cui si accetta L! . In
questo caso il livello di significativit osservato diventa non solo uno strumento per la decisione nella verifica di
ipotesi, ma anche una misura quantitativa di questa decisione.

15

INTERVALLI DI CONFIDENZA
Piuttosto che selezionare sulla base del campione un unico valore come nella stima per punti, pu essere utile dal
punto di vista operativo ottenere un insieme di valori plausibili del parametro.
Considerato per semplicit il caso in cui si ha un singolo campione casuale \" \# \8 , sia
T T \" \# \8 ) una quantit pivotale, ovvero una trasformata che dipende dal parametro ma con una
distribuzione non dipende dal parametro stesso. Se -" e -# sono due valori tali che
T -" T \" \# \8 ) -# 1
con ! " e se P P\" \# \8 e Y Y \" \# \8 sono statistiche tali che per ogni )
B" B# B8 -" T B" B# B8 ) -# B" B# B8 PB" B# B 8 ) Y B " B # B 8
allora l'intervallo casuale P Y detto intervallo di confidenza di ) al livello di confidenza " .
Se la quantit pivotale distribution-free, ovvero se la sua distribuzione rimane invariata per un modello
distribution-free, allora il realtivo intervallo di confidenza detto distributon-free.
La nozione di intervallo di confidenza deve essere adoperata con un cautela, ovvero non si deve affermare che il
vero valore del parametro contenuto in un intervallo con probabilit pari a " . In termini rigorosi di probabilit,
una volta che l'intervallo di confidenza stato determinato sul campione, questo contiene il vero valore con probabilit
! o ". Si pu affermare invece che l'intervallo di confidenza la determinazione di un procedimento casuale che sceglie
intervalli in modo tale che la probabilit di ottenere un intervallo contenente il vero valore del parametro pari a
" .
16

INTERVALLI DI CONFIDENZA
Esiste una stretta connessione tra il problema della stima per intervalli e quello della verifica di ipotesi. Questa
anche la ragione per cui la stima per intervalli viene analizzata successivamente alla teoria relativa alla verifica di
ipotesi.
Pi esattamente, se si considera il sistema di ipotesi L! ) )! contro L" ) )! , esiste una equivalenza tra la
regione critica della statistica test e l'intervallo di confidenza di ). Questa considerazione consente di costruire un
intervallo di confidenza per un dato parametro partendo da un opportuno sistema di ipotesi.
Evidentemente nel caso di un modello classico, l'intervallo di confidenza viene costruito a partire dal test del
rapporto delle verosimiglianze. Al contrario, l'intervallo di confidenza risulta distribution-free se costruito a
partire da un test distribution-free.
Esiste anche una connessione fra test e stima per punti. La stima per punti risulta usualmente il valore centrale
dell'intervallo di confidenza.

17

INTERVALLI DI CONFIDENZA

Esempio. Se si considera un campione casuale da \ R . ", una possibile quantit pivot data da 8\ ..
Questa variabile casuale in effetti una quantit pivot, dal momento che la sua distribuzione non dipende da . essendo

8\
. R ! ". Scelto un livello di confidenza " , risulta

Pr. D"# 8\ . D"# " ,

da cui

. D"# B" B8 B
D"# 8 . B D"# 8
B" B8 D"# 8B

Si deve dunque concludere che

D"# 8 B
D"# 8
B

un intervallo di confidenza per . al livello di confidenza " .


Se si considera il sistema di ipotesi L! . .! contro L" . .! , la regione di accettazione per il test del rapporto
delle verosimiglianze risulta
. D"#
g! B" B8 D"# 8B

che equivalente all'insieme


D"# " . B
D"# "
B" B8 B
8
8
che fornisce il medesimo intervallo di confidenza visto in precedenza.
18

LETTURE SUGGERITE
Azzalini, A. (1996) Statistical inference, Chapman and Hall, London.
Cox, D.R. and Hinkley, D.V. (1974) Theoretical statistics, Chapman and Hall, London.
Lehmann, E.L. (1983) Testing statistical hypothesis, Wiley, New York.
Maritz, J.S. (1981) Distribution-free statisitical methods, Chapman and Hall, London.
Noether, G.E. (1967) Elements of nonparametric statistics, Wiley, New York.
Randles, R.H. and Wolfe, D.A. (1979) Introduction to the theory of nonparametric statistics, Wiley, New York.
Rao, C.R. (1973) Linear statistical inference and its applications, Wiley, New York.
Wilks, S.S. (1962) Mathematical statistics, Wiley, New York.

19

CAPITOLO 7
INFERENZA CON UNA VARIABILE

INFERENZA CON UNA VARIABILE


Il modello statistico pi semplice assume un campionamento da una singola variabile.
Se la variabile quantitativa si pu avere sia un approccio classico sia un approccio distribution-free.
Se la variabile qualitativa si ha in effetti un approccio distribution-free.

TEST > DI STUDENT


Con un tipico approccio classico, si consideri un campione casuale da una variabile casuale \ R . 5 # .

Gli stimatori di massima verosimiglianza di . e 5 # risultano .


s\e5
s # WB# .
Se si considera il sistema di ipotesi L! . .! contro L" . .! (o una ipotesi direzionale), il test del rapporto delle
verosimiglianze fornisce il test di > di Student basato sulla statistica test

8\
.!
X
W-B
che sotto ipotesi di base si distribuisce come X >8" .
Nel caso dell'ipotesi alternativa bilaterale L" . .! , si rifiuta L! per realizzazioni basse o elevate di X . Nel caso
dell'ipotesi alternativa direzionale L" . .! (L" . .! ), si rifiuta L! per realizzazioni elevate (basse) di X .
Inoltre, l'intervallo di confidenza per . al livello di confidenza " basato sul test X risulta
W-B
W-B

>

>
8""

#
8""

8
8

TEST > DI STUDENT


Il test basato su X distribution-free per grandi campioni dal momento che X converge in distribuzione a una
variabile casuale R ! " per 8 con ogni variabile casuale \ tale che Var\ .
L'intervallo di confidenza per grandi campioni per . al livello di confidenza " risulta
W-B
W-B

D
"#
"#

8
8
Il test > di Student quindi robusto rispetto all'assunzione di normalit.

TEST > DI STUDENT


Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. Dal momento che l'azienda che produce le sfere
desidera produrre sfere con un diametro standard di un micron, il sistema di ipotesi risulta L! . " contro L" . ".
Il comando t.test fornisce l'implementazione del test > di Student e il relativo intervallo di confidenza
> t.test(Diameter, alternative = "two.sided", mu = 1)
One Sample t-test
data: Diameter
t = 2.1178, df = 9, p-value = 0.06327
alternative hypothesis: true mean is not equal to 1
95 percent confidence interval:
0.9867741 1.4012259
sample estimates:
mean of x
1.194

TEST DEI SEGNI


Con un approccio distribution-free, si consideri un campione casuale da una variabile casuale continua \ con
funzione di ripartizione J B -, dove - rappresenta la mediana.
Se si considera il sistema di ipotesi L! - -! contro L" - -! (o una ipotesi direzionale), il test dei segni
basato sulla statistica test
8

I! \3 -!
3"

che sotto ipotesi di base si distribuisce come F F38 "#.


Nel caso dell'ipotesi alternativa bilaterale L" - -! , si rifiuta L! per realizzazioni basse o elevate di F . Nel caso
dell'ipotesi alternativa direzionale L" - -! (L" - -! ), si rifiuta L! per realizzazioni elevate (basse) di F .
~
Lo stimatore di - basato sul test F la mediana campionaria \ !& .
Inoltre, se ,8 rappresenta il quantile di ordine di F , l'intervallo di confidenza per - al livello di confidenza
" basato sul test F risulta
\,8# " \8,8#

TEST DEI SEGNI


Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio e il sistema di ipotesi L! - " contro L" - ".
Anche se non esiste un comando specifico per il test dei segni, si pu equivalentemente adottare il comando
binom.test per verifiche di ipotesi sulle proporzioni
> binom.test(length(Diameter[Diameter > 1]), length(Diameter),
+
p = 1/2, alternative = "two.sided")
Exact binomial test
data: length(Diameter[Diameter > 1]) and length(Diameter)
number of successes = 8, number of trials = 10, p-value = 0.1094
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.4439045 0.9747893
sample estimates:
probability of success
0.8

TEST DEI SEGNI


Esempio. Inoltre, la stima per punti e gli estremi dell'intervallo di confidenza per - possono essere ottenuti mediante i
seguenti comandi
> median(Diameter)
[1] 1.185
> sd <- sort(Diameter)
> sd[qbinom(0.025, length(Diameter), 1 / 2)]
[1] 0.88
> sd[qbinom(0.975, length(Diameter), 1 / 2)]
[1] 1.42

TEST DI WILCOXON
Con un approccio distribution-free, si consideri un campione casuale da una variabile casuale continua e
simmetrica \ con funzione di ripartizione J B -, dove - rappresenta la mediana. Quindi rispetto alle assunzioni
del test dei segni, si assume l'ulteriore ipotesi di simmetria della distribuzione rispetto alla mediana.
Se si considera il sistema di ipotesi L! - -! contro L" - -! (o una ipotesi direzionale), il test di Wilcoxon
basato sulla statistica test
8

I! \3 -! V3

3"

dove V" V# V8 rappresentano i ranghi assegnati alle trasformate l\" -! l l\# -! l l\8 -! l. La
distribuzione di [ sotto ipotesi di base pu essere tabulata anche se non pu essere espressa in forma chiusa.
Nel caso dell'ipotesi alternativa bilaterale L" - -! , si rifiuta L! per realizzazioni basse o elevate di F . Nel caso
dell'ipotesi alternativa direzionale L" - -! (L" - -! ), si rifiuta L! per realizzazioni elevate (basse) di F .
Se 5 88 "#, siano [" [# [5 le medie di Walsh, ovvero tutte le possibili 5 semisomme distinte delle
8 osservazioni. La stima di - basata sul test [ la mediana delle medie di Walsh (la pseudomediana). Se A8
rappresenta il quantile di ordine di [ e se [" [# [5 la statistica ordinata relativa alle medie di Walsh,
allora l'intervallo di confidenza per - al livello di confidenza " basato sul test di Wilcoxon risulta
[A8# " [5A8#
9

TEST DI WILCOXON
Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio e il sistema di ipotesi L! - " contro L" - ". Il
comando wilcox.test fornisce l'implementazione del test di Wilcoxon
> wilcox.test(Diameter, alternative = "two.sided", mu = 1, conf.int = TRUE)
Wilcoxon signed rank test
data: Diameter
V = 46, p-value = 0.06445
alternative hypothesis: true location is not equal to 1
95 percent confidence interval:
0.985 1.405
sample estimates:
(pseudo)median
1.19

10

TEST DI PERMUTAZIONE
Con un approccio distribution-free, si consideri un campione scambiabile da una variabile casuale continua e
simmetrica \ con funzione di ripartizione J B -, dove - rappresenta la mediana.
Se si considera il sistema di ipotesi L! - -! contro L" - -! (o una ipotesi direzionale), condizionatamente
alla realizzazione del campione B" B# B8 , sotto ipotesi di base i valori lB3 -! l e lB3 -! l sono ugualmente
probabili. Un test di permutazione basato sulle #8 (ugualmente probabili) permutazioni dei segni delle osservazioni
trasformate lB" -! l lB# -! l lB8 -! l.
Se W" W# W8 rappresenta un vettore scambiabile di variabili casuali di Bernoulli ognuna con parametro "# e
supporto " " il test di permutazione dei segni basato sulla statistica test
8

lB3 -! l W3

X
3"

La distribuzione della statistica test sotto ipotesi di base pu essere tabulata, anche se ovviemente non possibile
esprimerla in forma chiusa.
Nel caso dell'ipotesi alternativa bilaterale L" - -! , si rifiuta L! per realizzazioni basse o elevate di F . Nel caso
dell'ipotesi alternativa direzionale L" - -! (L" - -! ), si rifiuta L! per realizzazioni elevate (basse) di F .

11

TEST DI PERMUTAZIONE
Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. Richiamando la libreria exactRankTests, il
comando wilcox.test fornisce l'implementazione del test di permutazione dei segni. Le osservazioni sono state
moltiplicate per cento al fine di ottenere valori interi per ottenere una elaborazione pi rapida. Di conseguenza anche il
sistema di ipotesi risulta L! - "!! contro L" - "!!.
> library(exactRankTests)
> perm.test(round(100 * Diameter), paired = FALSE,
+
alternative = "two.sided", mu = 100)
1-sample Permutation Test
data: round(100 * Diameter)
T = 237, p-value = 0.07031
alternative hypothesis: true mu is not equal to 100

12

BOOTSTRAP
Con un approccio distribution-free, si supponga che B" B# B8 sia la determinazione di un campione casuale
da una variabile casuale \ con media ..
Condizionatamente alla realizzazione del campione B" B# B8 , la distribuzione bootstrap della media
campionaria pu essere ottenuta considerando tutti i campioni con ripetizione di ordine 8 dai valori B" B# B8 .
Se F" F# F8 rappresenta un vettore di variabili casuali Binomiali (ognuna con parametri 8 e "8) tali che
8
3" F3 8, allora la media campionaria bootstrap data dalla statistica
"

\ BOOT
8

B 3 F3
3"

Se si considera il sistema di ipotesi L! . .! contro L" . .! (o una ipotesi direzionale), il test bootstrap e il

relativo intervallo di confidenza bootstrap possono essere basati sulla statistica test \ BOOT .
La distribuzione della statistica test sotto ipotesi di base pu essere tabulata, anche se ovviemente non possibile
esprimerla in forma chiusa.
Nel caso dell'ipotesi alternativa bilaterale L" . .! , si rifiuta L! per realizzazioni basse o elevate di X . Nel caso
dell'ipotesi alternativa direzionale L" . .! (L" . .! ), si rifiuta L! per realizzazioni elevate (basse) di X .
13

BOOTSTRAP
Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. La distribuzione bootstrap della media campionaria
si pu ottenere mediante i seguenti comandi
> Boot.mean <- numeric(10000)
> for (i in 1:10000) Boot.mean[i] <- mean(sample(Diameter, replace = T))
> hist(Boot.mean, xlab = "Bootstrap sample mean",
+
ylab = "Density", main = "Histogram")
Inoltre, la significativit osservata del test bootstrap pu essere ottenuta mediante il seguente comando
> 2 * length(Boot.mean[Boot.mean < 1]) / 10000
[1] 0.0218

14

BOOTSTRAP
Esempio (segue).

1000
500
0

Density

1500

2000

Histogram

0.8

1.0

1.2

1.4

Bootstrap sample mean

15

BOOTSTRAP
Esempio (segue). Richiamando la libreria exactRankTests, il comando boot fornisce l'implementazione della
stima bootstrap.
> library(boot)
> m <- function(x, w) sum(x$Diameter * w)
> boot(d, m, R = 9999, stype = "w")
ORDINARY NONPARAMETRIC BOOTSTRAP

Call:
boot(data = d, statistic = m, R = 9999, stype = "w")

Bootstrap Statistics :
original
bias
t1*
1.194 0.0006592659

std. error
0.08684963

16

BOOTSTRAP
Esempio (segue). Il comando boot.ci fornisce l'implementazione dell'intervallo di confidenza bootstrap.
> boot.ci(boot(d, m, R = 9999, stype = "w"), conf = 0.95,
+
type = c("norm", "basic", "perc", "bca"))
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 9999 bootstrap replicates
CALL :
boot.ci(boot.out = boot(d, m, R = 9999, stype = "w"), conf = 0.95,
type = c("norm", "basic", "perc", "bca"))
Intervals :
Level
Normal
95%
( 1.025, 1.363 )

Basic
( 1.028, 1.363 )

Level
Percentile
BCa
95%
( 1.025, 1.360 )
( 1.021, 1.356 )
Calculations and Intervals on Original Scale

17

CAMPIONI APPAIATI
Si consideri le osservazioni relative a 8 soggetti su cui stata osservata una certa variabile prima e dopo un
trattamento, ovvero si hanno le osservazioni B"" B#" B8" prima del trattamento e le osservazioni B"# B## B8#
dopo il trattamento. L'obiettivo quello di valutare l'efficacia del trattamento e i dati di questo tipo sono detti appaiati.
Al fine di analizzare queste osservazioni si costruiscono le differenze delle osservazioni ." .# .8 , dove
.3 B3# B3" .
Supponendo che queste differenze siano realizzazioni di un campione casuale proveniente da una variabile casuale da
H R . 8, la verifica dell'efficacia del trattamento si riduce a considerare il sistema di ipotesi sulla media
L! . ! contro L" . ! (o una ipotesi direzionale). Alternativamente, assumendo H come una variabile casuale
con funzione di ripartizione (non nota) J B - dove - rappresenta la mediana, si pu considerare il sistema di
ipotesi sulla mediana L! - ! contro L" - ! (o una ipotesi direzionale).
In questo caso, sufficiente applicare le procedure di verifica di ipotesi viste in precedenza.

18

CAMPIONI APPAIATI
Esempio. Su 8 pazienti con anemia cronica grave stato misurato l'indice di infarto (in ml/battito/m2 ) prima e dopo
un trattamento medico (Fonte: Bhatia, M.L., Manchanda, S.C. and Roy, S.B., 1969, Coronary haemodinamic studies in
chronic severe anaemia, British Heart Journal 31, 365-374). I dati sono contenuti nel file stroke.txt e vengono
letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\stroke.txt", header = T)
> attach(d)
> Difference <- Post - Pre
La stima di nucleo della funzione di densit viene ottenuta mediante i seguenti comandi
> library(sm)
> sm.density(Difference, hcv(Difference, hstart = 0.01, hend = 100),
+
yht = 0.02, xlim = c(-70, 30), xlab = "Stroke index difference")
> title(main = "Kernel density estimation ('CV' h = 18.272)")
Il diagramma quantile-quantile per la normalit viene ottenuto mediante i seguenti comandi
> qqnorm(Difference)
> qqline(Difference)

19

CAMPIONI APPAIATI
Esempio (segue).

0.015
0.010
0.005
0.000

Probability density function

0.020

Kernel density estimation ('CV' h = 18.272)

-60

-40

-20

20

Stroke index difference

20

CAMPIONI APPAIATI
Esempio (segue).

-20
-30
-40
-50

Sample Quantiles

-10

Normal Q-Q Plot

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

Theoretical Quantiles

21

CAMPIONI APPAIATI
Esempio (segue). Il sistema di ipotesi L! . ! contro L" . ! pu essere verificato con il test > di Student
> t.test(Difference, alternative = "less", mu = 0)
One Sample t-test
data: Difference
t = -2.8055, df = 7, p-value = 0.01316
alternative hypothesis: true mean is less than 0
95 percent confidence interval:
-Inf -5.64162
sample estimates:
mean of x
-17.375

22

CAMPIONI APPAIATI
Esempio (segue). Il sistema di ipotesi L! - ! contro L" - ! pu essere verificato con il test di Wilcoxon
> wilcox.test(Difference, alternative = "less", mu = 0, conf.int = F)
Wilcoxon signed rank test with continuity correction
data: Difference
V = 1.5, p-value = 0.01244
alternative hypothesis: true location is less than 0

23

TEST DI KOLMOGOROV
Si consideri un campione casuale da una variabile casuale continua \ con funzione di ripartizione J B. Si desidera
verificare il sistema di ipotesi funzionale L! J B J! B aB contro L" J B J! B bB dove J! B una
funzione di ripartizione completamente specificata. Il test si basa sulla statistica di Kolmogorov
s B J! Bl
H sup lJ
B

Questo tipo di test sono detti per la bont d'adattamento.


La distribuzione di H non dipende da J B e quindi il test distribution-free. Inoltre, la distribuzione della
statistica test sotto ipotesi di base nota e pu essere tabulata.
Evidentemente, se la funzione di ripartizione empirica si discosta molto da quella ipotizzata, allora si hanno valori
elevati di H che conseguentemente portano a respingere l'ipotesi di base in favore dell'ipotesi alternativa.
Per un calcolo pratico, la statistica H pu essere convenientemente espressa come
H max maxl38 J! \3 l l3 "8 J! \3 l
"38

24

TEST DI KOLMOGOROV
Esempio. Sono stati determinati i carichi da applicare a un campione di fibre di poliestere al fine di provocarne il
cedimento (Fonte: Quesenberry, C.P. and Hales, C., 1980, Concentration bands for uniformity plots, Journal of
Statistical Computation and Simulation 11, 41-53). Si sospetta che la distribuzione dei carichi segua una distribuzione
log-normale. Le osservazioni originali sono state ricalcolate mediante una trasformazione che conduce all'uniformit,
ovvero il nuovo campione deve provenire da una Y ! 1 se l'ipotesi di lognormalit vera . In questo caso si ha
J! B BI!" B I" B
I dati sono contenuti nel file tensile.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\tensile.txt", header = T)
> attach(d)
Il grafico della funzione di ripartizione empirica e di quella teorica viene ottenuto mediante i seguenti comandi
>
+
+
>
>
+
>

plot(ecdf(Strength), do.points = F, verticals = T,


xlab = "Transformed tensile strength", ylab = "Probability",
main = "Distribution function")
rug(Strength)
plot(function(x) punif(x), -0.05, 1.05, lty = 3,
ylab = "Probability", add = T)
legend(0.6, 0.3, c("Empirical", "Theorical"), lty = c(1, 3))

25

TEST DI KOLMOGOROV
Esempio (segue).

0.6
0.4
0.2

Empirical
Theorical

0.0

Probability

0.8

1.0

Distribution function

0.0

0.2

0.4

0.6

0.8

1.0

Transformed tensile strength

26

TEST DI KOLMOGOROV
Esempio (segue). Il test di Kolmogorov viene ottenuto mediante il seguente comando
> ks.test(Strength, "punif", 0, 1)
One-sample Kolmogorov-Smirnov test
data: Strength
D = 0.2377, p-value = 0.05644
alternative hypothesis: two-sided

27

TEST ;#
Se si considera un campionamento casuale da una variabile casuale discreta a supporto finito o da una variabile
qualitativa \ , allora le osservazioni campionarie sono le frequenze osservate 8" 8# 8< delle realizzazioni
distinte -" -# -< . Se la funzione di probabilit di \ data da :-4 14 (4 " # <), le quantit
81" 81# 81< sono dette frequenze attese.
Si interessati a verificare il sistema di ipotesi L! 14 1!4 a4 contro L" 14 1!4 b4. Dal momento che le
probabilit 14 specificano completamente la funzione di ripartizione di \ , la precedente ipotesi a tutti gli effetti una
ipotesi funzionale.
Per verificare questo sistema di ipotesi si adotta la statistica test Chi-quadrato per la bont d'adattamento data da
<
#

;
4"

84 81!4 #
81!4

La distribuzione per grandi campioni di ;# non dipende dai valori 1!4 e quindi il test distribution-free per
grandi campioni. Sotto ipotesi di base, per 8 la statistica test ;# converge in distribuzione a una ;#<" .
L'approssimazione valida per campioni finiti se 8 $! e se tutte le frequenze attese sono maggiori di uno.
Se le frequenze osservate si discostano molto dalle frequenze attese, si ottengono determinazioni elevate della
statistica test che portano a respingere l'ipotesi di base.
28

TEST ;#
Esempio. stata osservata la prima cifra dei numeri contenuti in un volume della rivista Reader's Digest scelto
casualmente (Fonte: Benford, F., 1938, The law of anomalous numbers, Proceedings of the American Philosophical
Society 78, 551-572). Un modello teorico per questi dati la cosiddetta distribuzione anomala con funzione di
probabilit
:! B log"! B " log"! BI"#* B
I dati sono contenuti nel file benford.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\benford.txt", header = T)
> attach(d)
Le probabilit teoriche vengono calcolate mediante i seguenti comandi
> Theory.Probs <- numeric(9)
> for (i in 1:9) Theory.Probs[i] <- logb(1 + 1 / i, 10)
Il grafico delle distribuzioni di probabilit osservata e di quella teorica viene ottenuto mediante i seguenti comandi
> h <- list(Digit = c(Digit, Digit), Type = c(rep("Theorical", 9),
+
rep("Observed", 9)), Probs = c(Theory.Probs, Counts / sum(Counts)))
> class(Table <- xtabs(Probs ~ ., h))
[1] "xtabs" "table"
> barplot(t(Table), beside = T, legend = colnames(Table),
+
xlab = "Digit", ylab = "Probability",
+
main = "Probability distribution")
29

TEST ;#
Esempio (segue).
Probability distribution

0.20
0.15
0.10
0.05
0.00

Probability

0.25

0.30

Observed
Theorical

Digit

30

TEST ;#
Esempio. Il test ;# viene ottenuto mediante il seguente comando
> chisq.test(xtabs(Counts ~ ., d), p = Theory.Probs)
Chi-squared test for given probabilities
data: xtabs(Counts ~ ., d)
X-squared = 3.2735, df = 8, p-value = 0.916

31

TEST ;#
Esempio. In un esperimento di genetica sono stati considerati ibridi di pomodoro con un rapporto atteso di quattro
fenotipi pari a 9 3 3 1 ottenendo le frequenze del numero di piante generate per ogni fenotipo (Fonte: McArthur, J.W.,
1931, Linkage studies with the tomato III. Fifteen factors in six groups, Transaction of the Royal Canadian Institute 18,
1-19. Si vuole verificare sperimentalmente i risultati della teoria genetica, ovvero l'ipotesi di base
L! 1" *"' 1# $"' 1$ $"' 1% ""'. I dati sono contenuti nel file tomato.txt e vengono letti e resi
disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\tomato.txt", header = T)
> attach(d)
Le probabilit teoriche vengono calcolate mediante i seguenti comandi
> Theory.Probs <- c(9 / 16, 3 / 16, 3 / 16, 1 / 16)

32

TEST ;#
Esempio (segue). Il grafico delle distribuzioni di probabilit osservata e di quella teorica viene ottenuto mediante i
seguenti comandi
> h <- list(Phenotype = c(Phenotype, Phenotype),
+
Type = c(rep("Theoretical", 4), rep("Observed", 4)),
+
Probs = c(Theory.Probs, Counts / sum(Counts)))
> class(Table <- xtabs(Probs ~ ., h))
[1] "xtabs" "table"
> barplot(t(Table), beside = T, legend = colnames(Table),
+
names.arg = c("Tall cut-leaf", "Tall potato-leaf",
+
"Dwarf cut-leaf", "Dwarf potato-leaf"),
+
xlab = "Phenotype", ylab = "Probability",
+
main = "Probability distribution")

33

TEST ;#
Esempio (segue).
Probability distribution

0.3
0.2
0.1
0.0

Probability

0.4

0.5

Observed
Theoretical

Tall cut-leaf

Tall potato-leaf

Dwarf cut-leaf

Dwarf potato-leaf

Phenotype

34

TEST ;#
Esempio. Il test ;# viene ottenuto mediante il seguente comando
> chisq.test(xtabs(Counts ~ ., d), p = Theory.Probs)
Chi-squared test for given probabilities
data: xtabs(Counts ~ ., d)
X-squared = 1.4687, df = 3, p-value = 0.6895

35

TEST ;#
Se la funzione di probabilit di \ dipende da un insieme di 5 parametri non noti ), ovvero se :-4 14 ), il
sistema di ipotesi diventa L! 14 1!4 ) a4 contro L" 14 1!4 ) b4.
s coerente, efficiente per grandi campioni e distribuito normalmente per grandi
Si assuma l'esistenza uno stimatore K
s viene
campioni. Le quantit 81" s) 81# s) 81< s) sono dette frequenze attese stimate. Lo stimatore K
usualmente ottenuto con il metodo della massima verosimiglianza.
Per verificare questo sistema di ipotesi si adotta una opportuna modifica della statistica test Chi-quadrato data da
<
#

;
4"

s #
84 81!4 K
s
81!4 K

La distribuzione per grandi campioni di ;# non dipende dai valori 14 e quindi il test distribution-free per
grandi campioni. Sotto ipotesi di base, per 8 la statistica test ;# converge in distribuzione a ;#<5" .
L'approssimazione valida per campioni finiti se 8 $! e se tutte le frequenze attese stimate sono maggiori di uno.
Se le frequenze osservate si discostano molto dalle frequenze attese stimate, si ottengono determinazioni elevate
della statistica test che portano a respingere l'ipotesi di base.

36

TEST ;#
Esempio. stato osservato il numero di taxi arrivati in ogni intervalli di un minuto alla stazione di Euston a Londra fra
le 9.00 e le 10.00 di una mattina del 1950 (Fonte: Kendall, D.G., 1951, Some problems in the theory of queues, Journal
of the Royal Statistical Society B13, 151-185). Se gli arrivi sono casuali, per la teoria dei processi stocastici, le
osservazioni provengono da una T 9.. Il supporto della Poisson non limitato, e quindi si devono raggruppare le
osservazioni maggiori di un predeterminato valore (in questo caso &) in una unica classe. Si pu verificare inoltre che
lo stimatore di massima verosimiglianza di . coincide con la media campionaria in questo caso. I dati sono contenuti
nel file taxi.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\taxi.txt", header = T)
> attach(d)
Le probabilit teoriche stimate vengono calcolate mediante i seguenti comandi
>
>
>
>

mu <- sum(Taxi * Counts) / sum(Counts)


Theory.Probs <- numeric(6)
for (i in 0:4) Theory.Probs[i + 1] <- dpois(i, mu)
Theory.Probs[6] <- 1 - sum(Theory.Probs)

37

TEST ;#
Esempio (segue). Il grafico delle distribuzioni di probabilit osservata e di quella teorica viene ottenuto mediante i
seguenti comandi
> h <- list(Taxi = c(Taxi, Taxi), Type = c(rep("Estimated", 6),
+
rep("Observed", 6)), Probs = c(Theory.Probs, Counts / sum(Counts)))
> class(Table <- xtabs(Probs ~ ., h))
[1] "xtabs" "table"
> barplot(t(Table), beside = T, legend = colnames(Table),
+
names.arg = c("0", "1", "2", "3", "4", "+5"),
+
xlab = "Taxi", ylab = "Probability", main = "Probability distribution")

38

TEST ;#
Esempio (segue).

0.35

Probability distribution

0.20
0.15
0.10
0.05
0.00

Probability

0.25

0.30

Estimated
Observed

+5

Taxi

39

TEST ;#
Esempio. Il test ;# viene ottenuto mediante il seguente comando
> 1 - pchisq(sum((Counts - sum(Counts) * Theory.Probs)^2 /
+
(sum(Counts) * Theory.Probs)), 4)
[1] 0.7380024

40

LETTURE SUGGERITE
Azzalini, A. (1996) Statistical inference, Chapman and Hall, London.
Davison, A.C. and Hinkley, D.V. (1997) Bootstrap methods and their application, Cambridge University Press,
Cambridge.
Efron, B. and Tibshirani, R. (1993) An introduction to the bootstrap, Chapman & Hall, London.
Gibbons, J. D. and Chakraborti, S. (1992) Nonparametric statistical inference, Dekker, New York.

Hajek,
J. (1969) Nonparametric statistics, Holden Day, San Francisco.

Z. (1967) Theory of rank tests, Academic Press, New York.


Hajek,
J. and idak,
Hettmansperger, T.P. and McKean, J.W. (1998) Robust nonparametric statistical methods, Arnold, London.
Lehmann, E.L. (1983) Testing statistical hypothesis, Wiley, New York.
Randles, R.H. and Wolfe, D.A. (1979) Introduction to the theory of nonparametric statistics, Wiley, New York.
Siegel, S. (1956) Nonparametric statistics for behavioral sciences, McGraw Hill, New York.
Siegel, S. and Castellan, N.J. (1988) Nonparametric statistics for behavioral sciences, McGraw Hill, New York.

41

CAPITOLO 8
INFERENZA CON DUE VARIABILI

INFERENZA CON DUE VARIABILI


Un modello statistico pi elaborato assume un campionamento da due variabili.
Se la prima variabile qualitativa e sotto controllo dello sperimentatore (ovvero un fattore) mentre l'altra variabile
quantitativa si ha la tipica situazione descritta come analisi con due campioni (se il fattore assume due
determinazioni) o analisi della varianza (se il fattore assume pi determinazioni). Ovviamente, queste stutture
campionarie possono essere analizzate sia con un approccio classico che con un approccio distribution-free.
L'analisi della dipendenza finalizzata invece all'indagine dell'esistenza di un legame fra le due variabili (che
possono essere entrambe quantitative o entrambe qualitative).

INFERENZA CON DUE VARIABILI


importante una cautela per quanto riguarda l'uso della notazione nel caso che si analizzi una variabile qualitativa e
una quantitativa.
Ad esempio, quando si considera l'analisi con due campioni, viene solitamente assunta l'esistenza di due campioni
casuali di numerosit 8" e 8# (tali che 8 8" 8# ) provenienti da due variabili casuali. Tuttavia, si dovrebbe
affermare pi correttamente che si dispone di 8" osservazioni della variabile quantitativa ] al livello -" della variabile
qualitativa \ e 8# osservazioni della variabile quantitativa ] al livello -# della variabile qualitativa \ .
Dunque, si dovrebbe adoperare la notazione ] \ -" e ] \ -# per specificare le due variabili casuali da
cui si sta campionando. Tuttavia, per parsimonia e con un lieve abuso di notazione, queste due variabili casuali
vengono denotate con ]-" e ]-# nel seguito.
Analogamente, se il fattore \ assume < livelli -" -# -< (ovvero quando si considera l'analisi della varianza) si
adotta la notazione ]-" ]-# ]-< .

TEST > DI STUDENT PER DUE CAMPIONI


Con un tipico approccio classico, si consideri due campioni casuali indipendenti (di numerosit 8" e 8# con
8 8" 8# ) da una variabile casuale ] a due livelli differenti -" e -# di un fattore, tali che ]-" R ." 5 # e
] -# R . # 5 # .
Quando si assume l'omogeneit delle varianze come in questo caso, si ha la cosiddetta ipotesi di omoschedasticit.

Si indichi con ] -" e W-#" la media campionaria e la varianza campionaria delle osservazioni provenienti da ]-" .

Analogamente, si indichi con ] -# e W-## la media campionaria e la varianza campionaria delle osservazioni provenienti
da ]-# .
Sia inoltre
WA#

"
8" W-#" 8# W-##
8

la media delle varianze.



Gli stimatori ] -" , ] -# e WA# sono gli stimatori di massima verosimiglianza di ." , .# e 5 # .

TEST > DI STUDENT PER DUE CAMPIONI


Se si considera il sistema di ipotesi L! ." .# contro L" ." .# (o una ipotesi direzionale), il test del rapporto
delle verosimiglianze fornisce il test > di Student a due campioni basato sulla statistica test

8" 8# 8 # ] -# ] -"
X
8#
WA
che sotto ipotesi di base si distribuisce come X >8# .
Nel caso dell'ipotesi alternativa bilaterale L" ." .# , si rifiuta L! per realizzazioni basse o elevate di X . Nel caso
dell'ipotesi alternativa direzionale L" ." .# (L" ." .# ), si rifiuta L! per realizzazioni basse (elevate) di X .
Il test basato su X distribution-free per grandi campioni dal momento che X converge in distribuzione a una
variabile casuale R ! " per 8 .
Il test > di Student a due campioni quindi robusto rispetto all'assunzione di normalit.

TEST > DI STUDENT PER DUE CAMPIONI


Il test > di Student a due campioni assume l'omoschedasticit. Al fine di verificare l'omogeneit delle varianze
opportuno assumere ]-" R ." 5"# e ]-# R .# 5## e verificare il sistema di ipotesi L! 5"# 5## contro
L" 5"# 5## .
In questo caso, il test del rapporto delle verosimiglianze fornisce il test di Fisher basato sulla statistica test
W-#"
J #
W -#
che sotto ipotesi di base si distribuisce come J J8" "8# " .
L'ipotesi di base viene rifiutata per realizzazioni elevate di J .
Nel caso che l'ipotesi di omoschedasticit venga respinta, per verificare l'omogeneit delle medie si pu comunque
adoperare la statistica test

] -# ] - "
X
W-#" 8" W-## 8#
che converge in distribuzione a una variabile casuale R ! " per 8 ed quindi distribution-free per grandi
campioni.

TEST > DI STUDENT PER DUE CAMPIONI


Esempio. Si dispone delle osservazioni di due campioni casuali di diametri di sfere misurate in micron provenienti da
due differenti linee di produzione (Fonte: Romano, A., 1977, Applied statistics for science and industry, Allyn and
Bacon, Boston). I dati sono contenuti nel file ball2.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\ball2.txt", header = T)
> attach(d)
I dati originali vengono ripartiti nei due campioni mediante i comandi
> Diameter.1 <- split(Diameter, Line)[[1]]
> Diameter.2 <- split(Diameter, Line)[[2]]
Il diagramma a scatola e baffi condizionato viene ottenuto mediante il comando
> boxplot(Diameter ~ Line, boxwex = 0.3, ylab = "Ball diameter (micron)",
+
main = "Box-and-whiskers plot")

TEST > DI STUDENT PER DUE CAMPIONI


Esempio (segue).

1.6
1.4
1.2
1.0
0.8

Ball diameter (micron)

1.8

2.0

Box-and-whiskers plot

L1

L2

TEST > DI STUDENT PER DUE CAMPIONI


Esempio (segue). Le stime di nucleo vengono ottenute mediante i comandi
>
>
>
+
+
>
>
>
+
+
>

library(sm)
hcv(Diameter.1, hstart = 0.01, hend = 1)
sm.density(Diameter.1, hcv(Diameter, hstart =
yht = 0.92, xlim = c(-0.35, 2.65),
xlab = "Line 1 ball diameter (micron)")
title(main = "Kernel density estimation ('CV'
hcv(Diameter.2, hstart = 0.01, hend = 1)
sm.density(Diameter.2, hcv(Diameter, hstart =
yht = 0.92, xlim = c(-0.35, 2.65),
xlab = "Line 2 ball diameter (micron)")
title(main = "Kernel density estimation ('CV'

0.01, hend = 1),

h = 0.32)")
0.01, hend = 1),

h = 0.37)")

TEST > DI STUDENT PER DUE CAMPIONI


Esempio (segue).

0.6
0.0

0.2

0.4

Probability density function

0.6
0.4
0.2
0.0

Probability density function

0.8

Kernel density estimation ('CV' h = 0.37)

0.8

Kernel density estimation ('CV' h = 0.32)

0.0

0.5

1.0

1.5

Line 1 ball diameter (micron)

2.0

2.5

0.0

0.5

1.0

1.5

2.0

2.5

Line 2 ball diameter (micron)

10

TEST > DI STUDENT PER DUE CAMPIONI


Esempio (segue). Il sistema di ipotesi L! 5"# 5## contro L" 5"# 5## pu essere verificato mediante il comando
var.test che fornisce l'implementazione del test J di Fisher.
> var.test(Diameter.1, Diameter.2, paired = F, alternative = "two.sided")
F test to compare two variances
data: Diameter.1 and Diameter.2
F = 0.4574, num df = 9, denom df = 9, p-value = 0.2595
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.1136199 1.8416221
sample estimates:
ratio of variances
0.4574329

11

TEST > DI STUDENT PER DUE CAMPIONI


Esempio (segue). Il sistema di ipotesi L! ." .# contro L" ." .# pu essere verificato mediante il comando
t.test che fornisce l'implementazione del test > di Student per due campioni
> t.test(Diameter.1, Diameter.2, var.equal = T, alternative = "two.sided")
Two Sample t-test
data: Diameter.1 and Diameter.2
t = -1.2965, df = 18, p-value = 0.2112
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.5555277 0.1315277
sample estimates:
mean of x mean of y
1.194
1.406

12

TEST > DI STUDENT PER DUE CAMPIONI


Esempio (segue). Il test per l'omogeneit delle medie senza assunzione di omoschedasticit viene ottenuto mediante i
seguenti comandi
> 2 * pnorm((mean(Diameter.1) - mean(Diameter.2)) /
+
(variance(Diameter.1) / length(Diameter.1) +
+
variance(Diameter.2) / length(Diameter.2))^(1 / 2))
[1] 0.1717296

13

TEST DI MANN-WHITNEY
Con un approccio distribution-free, si consideri due campioni casuali indipendenti (di numerosit 8" e 8# con
8 8" 8# ) da una variabile casuale da una variabile casuale ] a due livelli differenti -" e -# di un fattore, tali che
]-" ha funzione di ripartizione J C -" e ]-# ha funzione di ripartizione J C -# , mentre -" e -# rappresentano le
rispettive mediane.
Si indichi come campione misto l'insieme di tutte le 8 osservazioni senza considerare l'effetto del fattore. Inoltre, si
assuma che V" V# V8" siano i ranghi assegnati alle osservazioni provenienti da ]-" nel campione misto, mentre
siano V8" " V8" # V8 i ranghi assegnati alle osservazioni provenienti da ]-# nel campione misto.
Se si considera il sistema di ipotesi L! -" -# contro L" -" -# (o una ipotesi direzionale), il test di MannWithney basato sulla statistica test
8"

V3
3"

La distribuzione di [ sotto ipotesi di base pu essere tabulata anche se non pu essere espressa in forma chiusa.
Nel caso dell'ipotesi alternativa bilaterale L" -" -# , si rifiuta L! per realizzazioni basse o elevate di X . Nel caso
dell'ipotesi alternativa direzionale L" -" -# (L" -" -# ), si rifiuta L! per realizzazioni (basse) di X .

14

TEST DI MANN-WHITNEY
Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. Il sistema di ipotesi L! -" -# contro L" -" -#
pu essere verificato mediante il comando wilcox.test che fornisce l'implementazione del test di Mann-Whitney.
> wilcox.test(Diameter ~ Line, alternative = "two.sided")
Wilcoxon rank sum test with continuity correction
data: Diameter by Line
W = 32.5, p-value = 0.1986
alternative hypothesis: true location shift is not equal to 0

15

TEST DI PERMUTAZIONE
Con un approccio distribution-free, si consideri due campioni scambiabili da una variabile casuale ] a due livelli
differenti -" e -# di un fattore, tali che ]-" ha funzione di ripartizione J C -" e ]-# ha funzione di ripartizione
J C -# , mentre -" e -# rappresentano le rispettive mediane.
Se si considera il sistema di ipotesi L! -" -# contro L" -" -# (o una ipotesi direzionale), condizionatamente
alla realizzazione del campione misto, sotto ipotesi di base ogni partizione del campione misto in due gruppi di
#
numerosit 8" e 8# ugualmente probabile. Dunque, un test di permutazione basato sulle 8"88
(ugualmente
"

probabili) permutazioni di livelli del fattore assegnati al campione misto.


Se W" W# W8 rappresenta un vettore scambiabile di variabili casuali di Bernoulli ognuna con parametro "# e
supporto " " tali che 83" W3 8" 8# , il test di permutazione dei segni basato sulla statistica test
8

B3 W3
3"

La distribuzione della statistica test sotto ipotesi di base pu essere tabulata, anche se ovviemente non possibile
esprimerla in forma chiusa.
Nel caso dell'ipotesi alternativa bilaterale L" -" -# , si rifiuta L! per realizzazioni basse o elevate di X . Nel caso
dell'ipotesi alternativa direzionale L" -" -# (L" -" -# ), si rifiuta L! per realizzazioni (basse) di X .
16

TEST DI PERMUTAZIONE
Si considera di nuovo i dati relativi alle sfere di acciaio. Richiamando la libreria exactRankTests, il comando
wilcox.test fornisce l'implementazione del test di permutazione dei segni. Le osservazioni sono state moltiplicate
per cento al fine di ottenere valori interi per ottenere una elaborazione pi rapida.
> perm.test(round(100 * Diameter.1), round(100 * Diameter.2), paired = F,
+
alternative = "two.sided")
2-sample Permutation Test
data: round(100 * Diameter.1) and round(100 * Diameter.2)
T = 1194, p-value = 0.2105
alternative hypothesis: true mu is not equal to 0

17

BOOTSTRAP
Con un approccio distribution-free, si consideri due campioni casuali da una variabile casuale ] a due livelli
differenti -" e -# di un fattore, tali che ]-" ha funzione di ripartizione J C ." e ]-# ha funzione di ripartizione
J C .# , dove ." e .# rappresentano le rispettive medie.
Condizionatamente alla realizzazione del campione misto, la distribuzione bootstrap della differenza delle medie
campionarie indicata con XBOOT pu essere ottenuta considerando tutti i campioni con ripetizione di ordine 8 dal
campione misto che vengono successivamente ripartiti in due campioni di numerosit 8" e 8# .
Se si considera il sistema di ipotesi L! ." .# contro L" ." .# (o una ipotesi direzionale), il test bootstrap e il
relativo intervallo di confidenza bootstrap pu essere basato sulla statistica test XBOOT .
La distribuzione della statistica test sotto ipotesi di base pu essere tabulata, anche se ovviemente non possibile
esprimerla in forma chiusa.

18

BOOTSTRAP
Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. La significativit osservata del test bootstrap pu
essere ottenuta mediante i seguenti comandi
> Boot.meandif <- numeric(10000)
> Boot.sample <- numeric(length(Diameter))
> for (i in 1:10000) {Boot.sample <- sample(Diameter, replace = T);
+
Boot.diameter1 <- Boot.sample[c(1:length(Diameter.1))];
+
Boot.diameter2 <+
Boot.sample[c((length(Diameter.1) + 1):length(Diameter))];
+
Boot.meandif[i] <- mean(Boot.diameter1) - mean(Boot.diameter2)}
> hist(Boot.meandif, xlab = "Bootstrap sample mean difference",
+
ylab = "Density", main = "Histogram")
> 2 * length(Boot.meandif[Boot.meandif <
+
mean(Diameter.1) - mean(Diameter.2)]) / 10000
[1] 0.191

19

TEST DI KOLMOGOROV-SMIRNOV
Con un approccio distribution-free, si consideri due campioni casuali indipendenti (di numerosit 8" e 8# con
8 8" 8# ) da una variabile casuale da una variabile casuale ] a due livelli differenti -" e -# di un fattore, tali che
s -" C e J
s -# C siano
]-" ha funzione di ripartizione J-" C e ]-# ha funzione di ripartizione J-# C. Si assuma che J
rispettivamente le funzioni di ripartizione empiriche relativa alle osservazioni provenienti da ]-" e ]-# nel campione
misto.
Se si considera il sistema di ipotesi L! J-" C J-# C aC contro L" J-" C J-# C bC , il test di KolmogorovSmirnov basato sulla statistica test
s -" C J
s -# Cl
H sup lJ
C

La distribuzione di H non dipende da J C sotto ipotesi di base e quindi il test distribution-free. La


distribuzione della statistica test sotto ipotesi di base nota e pu essere tabulata.
Evidentemente, se le due funzioni di ripartizione empiriche si discostano molto fra loro, allora si hanno valori elevati
di H che conseguentemente portano a respingere l'ipotesi di base in favore dell'ipotesi alternativa.
Per un calcolo pratico, se ]" ]# ]8 la statistica ordinata relativa al campione misto, la statistica H pu
essere espressa come
s -" ]3 J
s -# ]3 l
H max lJ
"38

20

TEST DI KOLMOGOROV-SMIRNOV
Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. I grafici delle due funzioni di ripartizione empiriche
sono ottenute mediante i seguenti comandi
> plot(ecdf(Diameter.1), do.points = F, verticals = T, xlim = c(0.5, 2.0),
+
lty = 1, xlab = "Ball diameter (micron)", ylab = "Probability",
+
main = "Empirical distribution function")
> plot(ecdf(Diameter.2), do.points = F, verticals = T, lty = 3, add = T)
> legend(1.5, 0.3, c("Line 1", "Line 2"), lty = c(1, 3))

21

TEST DI KOLMOGOROV-SMIRNOV
Esempio (segue).

0.6
0.4
0.2

Line 1
Line 2

0.0

Probability

0.8

1.0

Empirical distribution function

0.5

1.0

1.5

2.0

Ball diameter (micron)

22

TEST DI KOLMOGOROV-SMIRNOV
Esempio. Il sistema di ipotesi L! J-" C J-# C aC contro L" J-" C J-# C bC pu essere verificato mediante il
seguente comando
> ks.test(Diameter.1, Diameter.2)
Two-sample Kolmogorov-Smirnov test
data: Diameter.1 and Diameter.2
D = 0.4, p-value = 0.4005
alternative hypothesis: two-sided

23

ANALISI DELLA VARIANZA


Con un tipico approccio classico, si consideri < campioni casuali indipendenti (ciascuno di numerosit 84 e tali che
<
#
4" 84 8) da una variabile casuale ] a < livelli differenti -" -# -< di un fattore, tali che ]-4 R .4 5 .

Siano ] -4 e W-#4 la media campionaria e la varianza campionaria delle osservazioni provenienti da ] -4 , mentre siano
W,#

"

<

84 ] -4 ] #

4"

e
WA#

"

<

84 W-#4
4"

le cosiddette varianza between (ovvero fra i gruppi) e varianza within (ovvero all'interno dei gruppi). Gli

stimatori ] -" ] -# ] -< e WA# sono gli stimatori di massima verosimiglianza di ." .# .< e 5 # ,
rispettivamente.
Se si considera il sistema di ipotesi L! ." .# .< contro L" .4 .6 b4 6 il test del rapporto delle
verosimiglianze fornisce il test J di Fisher per l'analisi della varianza basato sulla statistica test
8 7W,#
J
7 "WA#
che sotto ipotesi di base si distribuisce J J<"8< . L'ipotesi di base viene rifiutata per realizzazioni elevate di J .
24

ANALISI DELLA VARIANZA


Quando l'ipotesi di base viene rifiutata, si desidera conoscere da quale coppia di medie dipende il rifiuto.
Non opportuno effettuare singoli test per la verifica dell'omogeneit di coppie di medie, in quanto le statistiche test
sono dipendenti e quindi la significativit globale non pu essere calcolata a partire da quella dei singoli test.
La procedura di Tukey genera un insieme di intervalli di confidenza simultanei per le << "# possibili
differenze .4 .6 . Questa procedura distribution-free per grandi campioni.
Data la dualit esistente fra intervallo di confidenza e test statistico, verificando gli intervalli di confidenza simultanei
che non contengono il valore !, si pu risalire alle coppie di medie che hanno causato il rifiuto dell'ipotesi di base
nell'analisi della varianza.

25

ANALISI DELLA VARIANZA


Esempio. In un famoso esperimento di Michelson e Morley sono stati fatti 5 esperimenti di 20 prove ognuno per
determinare la velocit della luce (Fonte: Weekes, A.J., 1986, A Genstat Primer, Arnold, London). Queste misurazioni
riportano solo le ultime 3 cifre (senza decimali) della velocit della luce (in km/sec). Si noti che la moderna
misurazione risulta 299,792.458 (km/sec). I dati sono contenuti nel file light.txt e vengono letti e resi disponibili
mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\light.txt", header = T)
> attach(d)
I dati originali vengono ripartiti nei cinque campioni mediante i comandi
>
>
>
>
>

Speed.1
Speed.2
Speed.3
Speed.4
Speed.5

<<<<<-

split(Speed,
split(Speed,
split(Speed,
split(Speed,
split(Speed,

Trial)[[1]]
Trial)[[2]]
Trial)[[3]]
Trial)[[4]]
Trial)[[5]]

Il diagramma a scatola e baffi condizionato viene ottenuto mediante il comando


> boxplot(Speed ~ Trial, main = "Box-and-whiskers plot",
+
xlab = "Experiment Number")

26

ANALISI DELLA VARIANZA


Esempio (segue).

700

800

900

1000

Box-and-whiskers plot

T1

T2

T3

T4

T5

Experiment Number

27

ANALISI DELLA VARIANZA


Esempio (segue). Le stime di nucleo vengono ottenute mediante i comandi
>
>
>
+
>
>
+
>
>
+
>
>
+
>
>
+
>
>

library(sm)
par(mfrow = c(3, 2))
sm.density(Speed.1, hnorm(Speed.1), yht =
xlab = "Ligth speed (Trial 1)")
title(main = "Kernel density estimation")
sm.density(Speed.2, hnorm(Speed.2), yht =
xlab = "Ligth speed (Trial 2)")
title(main = "Kernel density estimation")
sm.density(Speed.3, hnorm(Speed.3), yht =
xlab = "Ligth speed (Trial 3)")
title(main = "Kernel density estimation")
sm.density(Speed.4, hnorm(Speed.4), yht =
xlab = "Ligth speed (Trial 4)")
title(main = "Kernel density estimation")
sm.density(Speed.5, hnorm(Speed.5), yht =
xlab = "Ligth speed (Trial 5)")
title(main = "Kernel density estimation")
par(mfrow = c(1, 1))

0.008, xlim = c(580, 1120),

0.008, xlim = c(580, 1120),

0.008, xlim = c(580, 1120),

0.008, xlim = c(580, 1120),

0.008, xlim = c(580, 1120),

28

ANALISI DELLA VARIANZA

700

800

900

1000

1100

0.008
0.004
0.000

700

800

900

1000

700

800

900

1000

1100

1100

0.000

0.004

0.008

Kernel density estimation

Probability density function

Kernel density estimation

Ligth speed (Trial 3)

600

700

800

900

1000

1100

Ligth speed (Trial 4)

0.004

0.008

Kernel density estimation

0.000

Probability density function

600

Ligth speed (Trial 2)

0.004
600

Kernel density estimation

Ligth speed (Trial 1)

0.008

600

Probability density function

0.000

0.004

0.008

Kernel density estimation

0.000

Probability density function

Probability density function

Esempio (segue).

600

700

800

900

1000

1100

Ligth speed (Trial 5)

29

ANALISI DELLA VARIANZA


Esempio (segue). L'analisi della varianza viene implementata mediante il comando
> summary(aov(Speed ~ Trial))
Df Sum Sq Mean Sq F value
Pr(>F)
Trial
4 94514
23629 4.2878 0.003114 **
Residuals
95 523510
5511
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

30

ANALISI DELLA VARIANZA


Esempio (segue). La procedura di Tukey pu essere implementata mediante il seguente comando
> TukeyHSD(aov(Speed ~ Trial), "Trial")
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = Speed ~ Trial)
$Trial
T2-T1
T3-T1
T4-T1
T5-T1
T3-T2
T4-T2
T5-T2
T4-T3
T5-T3
T5-T4

diff
-53.0
-64.0
-88.5
-77.5
-11.0
-35.5
-24.5
-24.5
-13.5
11.0

lwr
upr
p adj
-118.28006 12.280058 0.1679880
-129.28006
1.280058 0.0574625
-153.78006 -23.219942 0.0025733
-142.78006 -12.219942 0.0115793
-76.28006 54.280058 0.9899661
-100.78006 29.780058 0.5571665
-89.78006 40.780058 0.8343360
-89.78006 40.780058 0.8343360
-78.78006 51.780058 0.9784065
-54.28006 76.280058 0.9899661

31

TEST DI KRUSKAL-WALLIS
Con un approccio distribution-free, si consideri < campioni casuali indipendenti (ciascuno di numerosit 84 e tali
che <4" 84 8) da una variabile casuale ] a < livelli differenti -" -# -< di un fattore, tali che ]-4 ha funzione di
ripartizione J C -4 e -4 rappresenta la rispettiva mediana.
Si assuma che V-4 sia la somma dei ranghi assegnati alle osservazioni provenienti da ]-4 nel campione misto.
Se si considera il sistema di ipotesi L! -" -# -< contro L" -4 -6 b4 6, il test di Kruskal-Wallis
basato sulla statistica test
"#
L
88 "

<

84 V-4 84 8 "##
4"

La distribuzione di L sotto ipotesi di base pu essere tabulata anche se non pu essere espressa in forma chiusa.
Inoltre, per grandi campioni L converge in distribuzione ad una ;#<" .
Evidentemente, valori elevati della realizzazione di J portano al rifiuto dell'ipotesi di base.

32

TEST DI KRUSKAL-WALLIS
Il test di Kruskal-Wallis viene implementato mediante il seguente comando
> kruskal.test(Speed ~ Trial)
Kruskal-Wallis rank sum test
data: Speed by Trial
Kruskal-Wallis chi-squared = 15.0221, df = 4, p-value = 0.004656

33

TEST PER L'INDIPENDENZA


Con un tipico approccio classico, si consideri un campione casuale \" ]" \# ]# \8 ]8 da una variabile
casuale normale bivariata \ ] . Per una propriet di caratterizzazione della normale bivariata, esclusivamente per
questa distribuzione si ha che la nullit del coefficiente di correlazione
3BC

Cov\ ]
Var\Var]

implica l'indipendenza delle componenti marginali \ e ] . Dunque la verifica dell'indipendenza si riduce alla verifica
dell'ipotesi L! 3BC ! contro L" 3BC !.
Il test del rapporto delle verosimiglianze fornisce il test basato sul rapporto di correlazione campionario
X 8 #

VBC

#
" VBC

che sotto ipotesi di base si distribuisce come X >8# . Si noti inoltre che J X # J"8# .
Evidentemente, valori elevati della realizzazione di J portano al rifiuto dell'ipotesi di base.

34

TEST PER L'INDIPENDENZA


Esempio. Si sono considerate le misure (in metri) fatte nel lancio del peso e del giavellotto dalle 25 atlete partecipanti
alla gara di eptathlon femminile alle Olimpiadi del 1988 (Fonte: Lunn, A.D. and McNeil, D.R., 1991, Computerinteractive data analysis, Wiley, New York). I dati sono contenuti nel file heptathlon.txt e vengono letti e resi
disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\heptathlon.txt", header = T)
> attach(d)
Il diagramma di dispersione con la funzione di nucleo viene ottenuto mediante il comando
>
>
>
+
>

library(sm)
plot(Shot, Javelin, xlab = "Shot (meters)", ylab = "Javelin (meters)")
sm.density(d[, c(1, 2)], hcv(d[, c(1, 2)]), display = "slice",
props = c(75, 50, 25), add = T)
title(main = "Kernel density estimation ('CV' h1 = 1.11, h2 = 2.64)")

35

TEST PER L'INDIPENDENZA


Esempio (segue).

42
40
38
36

Javelin (meters)

44

46

Kernel density estimation ('CV' h1 = 1.11, h2 = 2.64)

10

11

12

13

14

15

16

Shot (meters)

36

TEST PER L'INDIPENDENZA


Esempio (segue). Il sistema di ipotesi L! 3BC ! contro L" 3BC ! pu essere verificato mediante il comando
cor.test che fornisce l'implementazione del test per l'indipendenza.
> cor.test(Shot, Javelin, method = "pearson")
Pearson's product-moment correlation
data: Shot and Javelin
t = 1.3394, df = 23, p-value = 0.1935
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.1411436 0.6003148
sample estimates:
cor
0.2689888

37

TEST PER L'ASSOCIAZIONE


In un ambito generale non possibile verificare l'ipotesi di indipendenza basandosi su ipotesi su un singolo
parametro che descrive la dipendenza fra le componenti della coppia di variabili casuali.
In questo caso ci si deve limitare a verificare la presenza o l'assenza di associazione, ovvero dell'esistenza di una
relazione di dipendenza diretta o inversa tra le variabili.

38

TEST DI SPEARMAN
Si consideri un campione casuale \" ]" \# ]# \8 ]8 da una variabile casuale bivariata \ ] . Il
coefficiente di correlazione campionario di Spearman il coefficiente di correlazione campionario calcolato sui
ranghi relativi a \" \# \8 e sui ranghi relativi a ]" ]# ]8 .
Il coefficiente di correlazione di Spearman pu essere ottenuto semplicemente ordinando rispetto alle realizzazioni di
]" ]# ]8 e successivamente assegnando i ranghi V" V# V8 alle realizzazioni di \" \# \8 . Il
coefficiente di correlazione di Spearman risulta dunque
"#
3W
88# "

3V3
3"

$8 "
8"

La statistica 3W gode ovviamente di tutte le propriet di un coefficiente di correlazione campionario. Evidentemente,


valori intorno allo zero denotano mancanza di associazione, mentre valori vicino ad " o " denotano presenza di
associazione monotona diretta e inversa.
La statistica test 3W pu essere dunque adottata per la verifica dell'ipotesi di associazione.
La distribuzione di 3W sotto ipotesi di base pu essere tabulata anche se non pu essere espressa in forma chiusa.

39

TEST DI SPEARMAN
Esempio. Si considera di nuovo i dati dell'eptathlon. Il comando cor.test fornisce l'implementazione del test di
Spearman.
> cor.test(Shot, Javelin, method = "spearman")
Spearman's rank correlation rho
data: Shot and Javelin
S = 2062.793, p-value = 0.3217
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.2066179

40

TEST DI KENDALL
Si consideri un campione casuale \" ]" \# ]# \8 ]8 da una variabile casuale bivariata \ ] . Il
coefficiente di correlazione di Kendall dato dalla percentuale di coppie campionarie concordanti (ovvero coppie
campionarie con lo stesso segno)
#
7
88 "

8"

segn\4 \3 segn]4 ]3
3" 43"

dove segnB #I! B ".


La statistica 7 gode delle propriet di un indice di dipendenza. Evidentemente, valori intorno allo zero denotano
mancanza di associazione, mentre valori vicino ad " o " denotano presenza di associazione monotona diretta e
inversa.
La statistica test 7 pu essere dunque adottata per la verifica dell'ipotesi di associazione.
La distribuzione di 7 sotto ipotesi di base pu essere tabulata anche se non pu essere espressa in forma chiusa.

41

TEST DI KENDALL
Esempio. Si considera di nuovo i dati dell'eptathlon. Il comando cor.test fornisce l'implementazione del test di
Kendall.
> cor.test(Shot, Javelin, method = "kendall")
Kendall's rank correlation tau
data: Shot and Javelin
z = 1.0515, p-value = 0.293
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
0.1505017

42

TEST ;# PER L'INDIPENDENZA


Se si considera un campionamento casuale da una una variabile qualitativa bivariata \ ] , allora le osservazioni
campionarie sono le frequenze osservate congiunte 846 delle realizzazioni distinte -4 .6 della variabile. Si assuma
inoltre che la funzione di probabilit congiunta di \ ] sia data da :-4 .6 146 (4 " # < 6 " # =),
mentre la distribuzione marginale di probabilit di \ sia data da :-4 14 (4 " # <) con 14 =6" 146 e
quella di ] sia data da :.6 16 (6 " # =) con 16 <4" 146 .
Si interessati a verificare l'indipendenza di \ e ] , ovvero il sistema di ipotesi L! 146 14 16 a4 6 contro
L" 146 14 16 b4 6.
Per verificare questo sistema di ipotesi si adotta la statistica test Chi-quadrato per l'indipendenza data da
<

;
4" 6"

846 84 86 8#
84 86 8

Le quantit 84 86 8 sono le frequenze attese stimate sotto ipotesi d'indipendenza.


La distribuzione per grandi campioni di ;# non dipende dai valori 14 e quindi il test distribution-free per
grandi campioni. Sotto ipotesi di base, per 8 la statistica test ;# converge in distribuzione a una ;#<"=" .
L'approssimazione valida per campioni finiti se 8 $! e se tutte le frequenze attese stimate sono maggiori di uno.
Se le frequenze osservate si discostano molto dalle frequenze attese stimate, si ottengono determinazioni elevate
della statistica test che portano a respingere l'ipotesi di base.
43

TEST ;# PER L'INDIPENDENZA


Esempio. Durante uno studio della malattia di Hodgkin sono stati considerati 538 malati, ognuno dei quali stato
classificato per tipologie istologiche (indicate con le sigle LP, NS, MC e LD) e per la risposta al trattamento dopo tre
mesi di cura (Fonte: Dunsmore, I.R. and Daly, F., 1987, M345 Statistical methods, Unit 9: categorical data, The Open
University, Milton Keynes). I dati sono contenuti nel file hodgkin.txt e vengono letti e resi disponibili mediante i
comandi
> d <- read.table("c:\\Rwork\\examples\\hodgkin.txt", header = T)
> attach(d)
La tabella a doppia entrata viene ottenuta mediante il comando
> xtabs(Count ~ Type + Response)
Response
Type None Part Pos
LD
44
10 18
LP
12
18 74
MC
58
54 154
NS
12
16 68
mentre il diagramma a nastri condizionato viene ottenuto mediante il comando
> library(lattice)
> barchart(xtabs(Count ~ Type + Response), ylab = "Hystological type",
+
auto.key = list(title = "Response", cex = 0.8))
44

TEST ;# PER L'INDIPENDENZA


Esempio (segue).
Response
None
Part
Pos

Hystological type

NS

MC

LP

LD

50

100

150

200

250

Freq

45

TEST ;# PER L'INDIPENDENZA


Esempio (segue). Il comando chisq.test fornisce l'implementazione del test ;# per l'indipendenza.
> chisq.test(xtabs(Count ~ Type + Response))
Pearson's Chi-squared test
data: xtabs(Count ~ Type + Response)
X-squared = 75.8901, df = 6, p-value = 2.517e-14

46

TEST ESATTO DI FISHER


Estendendo i risultati del test di permutazione, condizionatamente alla realizzazione del campione, sotto ipotesi di
base (ovvero di indipendenza delle variabili) ogni partizione delle osservazioni relative alla seconda variabile in gruppi
di numerosit 8" 8# 8< ugualmente probabile. Dunque, si pu costruire un test di permutazione basato sulle
8" 8#8 8< (ugualmente probabili) permutazioni di livelli della prima variabile rispetto alla seconda variabile.

Il test esatto di Fisher basato sulla statistica test ;# di permutazione che si ottiene calcolando la statistica ;# sulle
8" 8#8 8< tabelle a doppia entrata, ognuna relativa ad una delle possibili permutazioni di gruppi.

La distribuzione della statistica test sotto ipotesi di base pu essere tabulata, anche se ovviemente non possibile
esprimerla in forma chiusa.
Determinazioni elevate della statistica test portano a respingere l'ipotesi di base.

47

TEST ESATTO DI FISHER


Esempio. In un famoso studio sono state considerate coppie di gemelli ognuna delle quali stata classificata per
tipologia (ovvero se la coppia costituita da gemelli omozigoti o eterozigoti) e per propensione alla criminalit (ovvero
se entrambi i gemelli sono stati detenuti in prigione) (Fonte: Fisher, R. A., 1970, Statistical methods for research
workers, Oliver & Boyd, London). I dati sono contenuti nel file twins.txt e vengono letti e resi disponibili
mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\twins.txt", header = T)
> attach(d)
La tabella a doppia entrata viene ottenuta mediante il comando
> xtabs(Count ~ Type + Conviction)
Conviction
Type
No Yes
Dizygotic
15
2
Monozygotic 3 10
mentre il diagramma a nastri condizionato viene ottenuto mediante il comando
> library(lattice)
> barchart(xtabs(Count ~ Type + Conviction), ylab = "Type",
+
auto.key = list(title = "Conviction", cex = 0.8))

48

TEST ESATTO DI FISHER


Esempio (segue).
Conviction
No
Yes

Type

Monozygotic

Dizygotic

10

15

Freq

49

TEST ESATTO DI FISHER


Esempio (segue). Il comando fisher.test fornisce l'implementazione del test esatto di Fisher.
> fisher.test(xtabs(Count ~ Type + Conviction))
Fisher's Exact Test for Count Data
data: xtabs(Count ~ Type + Conviction)
p-value = 0.0005367
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
2.753438 300.682787
sample estimates:
odds ratio
21.30533

50

LETTURE SUGGERITE
Azzalini, A. (1996) Statistical inference, Chapman and Hall, London.
Davison, A.C. and Hinkley, D.V. (1997) Bootstrap methods and their application, Cambridge University Press,
Cambridge.
Efron, B. and Tibshirani, R. (1993) An introduction to the bootstrap, Chapman & Hall, London.
Fisher, R. A. (1970) Statistical methods for research workers, Oliver & Boyd, London.
Gibbons, J. D. and Chakraborti, S. (1992) Nonparametric statistical inference, Dekker, New York.

Hajek,
J. (1969) Nonparametric statistics, Holden Day, San Francisco.

Z. (1967) Theory of rank tests, Academic Press, New York.


Hajek,
J. and idak,
Hettmansperger, T.P. and McKean, J.W. (1998) Robust nonparametric statistical methods, Arnold, London.
Lehmann, E.L. (1983) Testing statistical hypothesis, Wiley, New York.
Miller, R. G. (1981) Simultaneous statistical inference, Springer, New York.
Pesarin, F. (2001) Multivariate permutation tests with applications in biostatistics, Wiley, New York.
Randles, R.H. and Wolfe, D.A. (1979) Introduction to the theory of nonparametric statistics, Wiley, New York.
Siegel, S. (1956) Nonparametric statistics for behavioral sciences, McGraw Hill, New York.
Siegel, S. and Castellan, N.J. (1988) Nonparametric statistics for behavioral sciences, McGraw Hill, New York.
Shao, J. and Tu, D. (1995) The jackknife and bootstrap, Springer, New York.

51

CAPITOLO 9
REGRESSIONE

REGRESSIONE
Nella sua versione pi semplice, ovvero quando si dispone di un regressore e di una variabile di risposta, il modello
statistico di regressione analizza la struttura di dipendenza fra le due variabili.
Il modello di regressione lineare assume ovviamente un legame lineare fra le variabili.
I modelli di regressione lineari generalizzati estendono il modello di regressione lineare. Casi particolari di questi
modelli sono la regressione di Poisson e la regressione logistica.

REGRESSIONE LINEARE
Si consideri il modello di regressione lineare
]3 "! "" B3 X3
dove X" X# X8 sono variabili casuali indipendenti (detti errori) tali che EX3 ! e VarX3 5 # .
La formulazione alternativa del modello di regressione lineare data quindi dalle relazioni
E]3 "! "" B3
e
Var]3 5 #

REGRESSIONE LINEARE
Le stime di "! e "" ottenute con il metodo dei minimi quadrati (che coincidono con le stime di massima
verosimiglianza assumendo la normalit di X3 ) risultano

s
" ! C s
""B
e
=BC
s
"" #
=B
Indicando per semplicit di notazione stima e stimatore con lo stesso simbolo, si ha che s
"! e s
" " sono corretti con
varianze
5# # #
s
Var" ! # =B B
8=B
e
5#
s
Var" " #
8=B

REGRESSIONE LINEARE
I valori stimati risultano inoltre
s! s
" " B3
sC3 "
mentre le quantit C3 sC3 sono detti residui.
Il parametro 5 # pu essere stimato in modo corretto mediante la varianza dei residui, ovvero
=%#

"

8#

C3 sC3 #
3"

Le stime di Vars
" ! e Vars
" " possono essere ottenute sostituendo =%# al posto di 5 # .

REGRESSIONE LINEARE
La variabilit totale delle osservazioni relative alla variabile di risposta pu essere scomposta come
"
8

8
3"

# "
C3 C
8

"
C3 sC 3
8

3"

#
sC 3 C

3"

dove la prima componente rappresenta la variabilit degli errori e la seconda componente la variabilit dovuta al
modello lineare.
Di conseguenza, la quantit
#
VBC

8
C3
3" s
8
3" C3

#
C
# "
C

8
C 3 #
3" C3 s
8
#
3" C3 C

rappresenta la percentuale di variabilit spiegata dalla relazione lineare rispetto alla variabilit totale e rappresenta
il cosiddetto coefficiente di determinazione.
#
Ovviamente, risulta VBC
! " e il valore uno indica la presenza di linearit perfetta. Si dimostra facilmente che
#
#
VBC
<BC
. Evidentemente, ci pu essere una relazione (non lineare) perfetta fra variabile di risposta e regressore per
#
cui VBC
!

REGRESSIONE LINEARE
Esempio. Si dispone delle osservazioni di distanze lineari e stradali fra localit a Sheffield (in km) (Fonte: Gilchrist,
W., 1984, Statistical modelling, Wiley, New York, p.5). La variabile di risposta la distanza stradale, mentre il
regressore la distanza lineare. I dati sono contenuti nel file roaddistance.txt e vengono letti e resi disponibili
mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\roaddistance.txt", header = T)
> attach(d)
Le stime dei parametri del modello di regressione lineare vengono ottenute mediante il seguente comando
> lm(Road ~ Linear)
Call:
lm(formula = Road ~ Linear)
Coefficients:
(Intercept)
0.3791

Linear
1.2694

REGRESSIONE LINEARE
Esempio (segue). Il diagramma di dispersione con retta di regressione stimata viene ottenuto mediante i seguenti
comandi
> plot(Linear, Road, xlab = "Linear distance (km)",
+
ylab = "Road distance (km)", main = "Scatter plot")
> abline(lm(Road ~ Linear))

REGRESSIONE LINEARE
Esempio (segue).

30
25
20
15
10

Road distance (km)

35

40

Scatter plot

10

15

20

25

Linear distance (km)

REGRESSIONE LINEARE
Oltre alla costruzione dell'indice di determinazione, i residui permettono di considerare le diagnostiche grafiche per
esaminare la validit della relazione linerare.
Il diagramma di Anscombe, che fornisce il diagramma cartesiano dei residui rispetto ai valori stimati, dovrebbe
presentare una disposizione casuale dei punti se effettivamente il modello lineare valido. Questo grafico viene anche
riportato con le radici dei valori assoluti dei residui.
Il diagramma quantile-quantile, che fornisce il diagramma cartesiano dei residui standardizzati e ordinati
rispetto ai quantili della distribuzione normale standardizzata, dovrebbe avere una disposizione dei punti lungo la
bisettrice se l'ipotesi di normalit per gli errori valida.
Il diagramma con le distanze di Cook consente di verificare l'impatto della rimozione di ogni singola osservazione
sulle stime dei parametri e quindi l'influenza delle singole osservazioni.

10

REGRESSIONE LINEARE
Esempio. Si considerano di nuovo i dati relativi alle distanze stradali. I diagrammi di Anscombe, il diagramma
quantile-quantile e il diagramma con le distanze di Cook vengono ottenuti mediante i seguenti comandi
> par(mfrow = c(2, 2))
> plot(lm(Road ~ Linear), which = c(1:4), add.smooth = F)
> par(mfrow = c(1, 1))

11

REGRESSIONE LINEARE
Esempio (segue).

15

20

25

30

2.0

1.0

2
0
-2

Residuals

10

35

-2

17

1.2

11

0.4

0.8

Cook's distance

0.0

Standardized residuals

Scale-Location

15

20

25

Fitted values

-1

Theoretical Quantiles

30

35

0.0 0.1 0.2 0.3 0.4 0.5

Fitted values

10

17
11

0.0

17

-1.0

11

Normal Q-Q
Standardized residuals

Residuals vs Fitted

Cook's distance
17

20
12

10

15

20

Obs. number

12

REGRESSIONE LINEARE
Esempio (segue). I punti che hanno maggiore influenza possono essere evidenzianti sul diagramma di dispersione
mediante i seguenti comandi. Di seguito anche riportato il grafico della stima della funzione di regressione basata
sulla regressione lineare locale.
>
+
>
>
>
>

plot(Linear, Road, xlab = "Linear distance (km)",


ylab = "Road distance (km)", main = "Scatter plot")
abline(lm(Road ~ Linear))
text(x = Linear[9] + 0.3, y = Road[9], labels = "9", adj=0)
text(x = Linear[11] + 0.3, y = Road[11], labels = "11", adj=0)
text(x = Linear[17] - 0.5, y = Road[17] - 1, labels = "17", adj=0)

13

REGRESSIONE LINEARE
Esempio (segue).

40

Scatter plot

30
25
20
15

11
9

10

Road distance (km)

35

17

10

15

20

25

Linear distance (km)

14

REGRESSIONE LINEARE
Esempio (segue). Il grafico della stima della funzione di regressione basata sulla regressione lineare locale ottenuto
mediante i seguenti comandi.
> library(sm)
> plot(Linear, Road, xlab = "Linear distance (km)",
+
ylab = "Road distance (km)", main = "Scatter plot")
> sm.regression(Linear, Road, method = "df", add = T)

15

REGRESSIONE LINEARE
Esempio (segue).

30
25
20
15
10

Road distance (km)

35

40

Scatter plot

10

15

20

25

Linear distance (km)

16

REGRESSIONE LINEARE
Per quanto riguarda la verifica delle ipotesi, supponendo la normalit degli errori e di conseguenza la normalit di
]" ]# ]8 , la validit del modello lineare viene verificata considerando il sistema di ipotesi L! "" ! contro
L" "" !.
Questo sistema di ipotesi viene verificato attraverso la statistica test fornita dal rapporto delle verosimiglianze
#
VBC
J 8 #
#
" VBC

che si distribuisce come una variabile casuale di Snedecor J"8# .


Una simile verifica di ipotesi pu essere condotta anche su "! .

17

REGRESSIONE LINEARE
Esempio (segue). Si considerano di nuovo i dati relativi alle distanze stradali. L'analisi relativa alla verifica delle
ipotesi viene implementata mediante il seguente comando
> summary(lm(Road ~ Linear))
Call:
lm(formula = Road ~ Linear)
Residuals:
Min
1Q Median
-2.8231 -1.8604 -0.2011

3Q
1.0263

Max
4.3416

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.37908
1.34401
0.282
0.781
Linear
1.26943
0.07617 16.665 2.19e-12 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.436 on 18 degrees of freedom
Multiple R-Squared: 0.9391,
Adjusted R-squared: 0.9358
F-statistic: 277.7 on 1 and 18 DF, p-value: 2.187e-12

18

REGRESSIONE LINEARE
Esempio (segue). L'analisi relativa alla verifica delle ipotesi con il modello senza intercetta viene implementata
mediante il seguente comando
> summary(lm(Road ~ -1 + Linear))
Call:
lm(formula = Road ~ -1 + Linear)
Residuals:
Min
1Q Median
-2.994 -1.728 -0.097

3Q
1.029

Max
4.489

Coefficients:
Estimate Std. Error t value Pr(>|t|)
Linear 1.28907
0.03012
42.8
<2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.376 on 19 degrees of freedom
Multiple R-Squared: 0.9897,
Adjusted R-squared: 0.9892
F-statistic: 1832 on 1 and 19 DF, p-value: < 2.2e-16

19

REGRESSIONE LINEARE CON TRASFORMAZIONI DELLE VARIABILI


Anche se la relazione fra variabile di risposta e regressore non lineare, ci si pu spesso ricondurre alla linearit
applicando alle osservazioni trasformazioni monotone opportune.
Se K e L sono trasformazioni monotone, il modello di regressione lineare per le osservazioni trasformate risulta
K]3 "! "" LB3 X3

La relazione fra la variabile di risposta e il regressore data dalla funzione C K" "! "" LB.

20

REGRESSIONE LINEARE CON TRASFORMAZIONI DELLE VARIABILI


Esempio. Si dispone delle osservazioni della percentuale di ricordi nel tempo (in minuti) relativi ad un esperimento
psicometrico su un soggetto (Fonte: Mosteller, F., Rourke, R.E.K. and Thomas, G.B. (1970) Probability with statistical
applications, Addison-Wesley, Reading, p.383). La variabile di risposta la percentuale di ricordi, mentre il regressore
il tempo. I dati sono contenuti nel file memory.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\memory.txt", header = T)
> attach(d)

21

REGRESSIONE LINEARE CON TRASFORMAZIONI DELLE VARIABILI


Esempio (segue). Da una analisi del diagramma di dispersione evidente che una trasformazione logaritmo sulle
osservazioni relative al regressore pu essere opportuna. L'analisi relativa al modello di regressione lineare con le
variabili trasformate viene ottenuta mediante il seguente comando
> summary(lm(Memory ~ log(Time)))
Call:
lm(formula = Memory ~ log(Time))
Residuals:
Min
1Q
Median
-0.036077 -0.015330 -0.006415

3Q
0.017967

Max
0.037799

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.846415
0.014195
59.63 3.65e-15 ***
log(Time)
-0.079227
0.002416 -32.80 2.53e-12 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.02339 on 11 degrees of freedom
Multiple R-Squared: 0.9899,
Adjusted R-squared: 0.989
F-statistic: 1076 on 1 and 11 DF, p-value: 2.525e-12

22

REGRESSIONE LINEARE CON TRASFORMAZIONI DELLE VARIABILI


Esempio (segue). Il diagramma di dispersione con la relativa funzione di regressione si pu ottenere mediante i
seguenti comandi
> plot(Time, Memory, xlab = "Time (minutes)", ylab = "Memory retention",
+
main = "Scatter plot")
> lines(seq(1, 11000, 1),
+
predict(lm(Memory ~ log(Time)), data.frame(Time = seq(1, 11000, 1))))

23

REGRESSIONE LINEARE CON TRASFORMAZIONI DELLE VARIABILI


Esempio (segue).

0.4
0.2

Memory retention

0.6

0.8

Scatter plot

2000

4000

6000

8000

10000

Time (minutes)

24

REGRESSIONE LINEARE E TEST > DI STUDENT A DUE CAMPIONI


La struttura inferenziale basata su due campioni casuali indipendenti (di numerosit 8" e 8# con 8 8" 8# ) da
una variabile casuale ] a due livelli differenti -" e -# di un fattore, tali che E]-" ." , E]-# .# e
Var]-" Var]-# 5 # , pu essere riportata ad un modello di regressione lineare.
Se ]" ]# ]8 sono le osservazioni relative al campione misto, allora si pu scrivere il modello lineare
E]3 "! "" B3
e
Var]3 5 #
dove "! ." , "" .# ." , mentre B" B# B8 sono i valori assunti da un regressore binario che vale uno se
l'osservazione relativa al secondo livello del fattore e zero altrimenti.
L'ipotesi di omogeneit delle medie, supponendo la normalit di ]" ]# ]8 , viene verificata considerando il
sistema di ipotesi L! "" ! contro L" "" !. Di conseguenza le tecniche viste in precedenza possono essere
applicate anche in questo caso.

25

REGRESSIONE LINEARE E TEST > DI STUDENT A DUE CAMPIONI


Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. Il sistema di ipotesi L! ." .# contro L" ." .#
pu essere verificato mediante il seguente comando
> summary(lm(Diameter ~ Line))
Call:
lm(formula = Diameter ~ Line)
Residuals:
Min
1Q
-0.6360 -0.2090

Median
0.0150

3Q
0.2915

Max
0.5540

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
1.1940
0.1156 10.327 5.43e-09 ***
LineL2
0.2120
0.1635
1.297
0.211
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3656 on 18 degrees of freedom
Multiple R-Squared: 0.08541,
Adjusted R-squared: 0.0346
F-statistic: 1.681 on 1 and 18 DF, p-value: 0.2112

26

MODELLI LINEARI GENERALIZZATI


Una generalizzazione del modello di regressione lineare pu essere ottenuta assumendo una distribuzione non
normale per ]" ]# ]8 e considerando una opportuna funzione legame 1 tale che
1E]3 "! "" B3
La classe dei modelli lineari generalizzati basata appunto su questa relazione.
Il modello di regressione lineare un caso particolare della classe quando le variabili di risposta sono normali e 1
la funzione identit. Il modello lineare generalizzato consente di gestire in modo pi appropriato variabili di risposta
che sono asimmetriche, discrete o binarie.
Per ogni distribuzione che si assume per la variabile di risposta esiste una funzione legame canonica, ovvero una
parametrizzazione naturale del modello.
In generale non possibile ottenere in forma chiusa le stime di massima verosimiglianza s
"! e s
" " di "! e "" e delle
relative varianze. Quindi si deve ricorrere a procedure numeriche per ottenere queste stime.

27

MODELLI LINEARI GENERALIZZATI


L'analisi per la validit del modello si basa ancora sul sistema di ipotesi L! "" ! contro L" "" !.
Questo sistema di ipotesi basato sulla devianza, che una statistica test basata sul metodo del rapporto delle
verosimiglianze. La statistica test si distribuisce per grandi campioni come una variabile casuale ;# con opportuni gradi
di libert.
La devianza si pu scomporre in devianza sotto ipotesi di base e devianza residua.
Una valore elevato della devianza residua rispetto ai rispettivi gradi di libert indice di super dispersione, ovvero
della presenza di una variabilit pi accentuata delle stime rispetto a quella prevista dal modello lineare
generalizzato. Questo fenomeno pu essere gestito mediante l'uso di tecniche basate sulla quasi-verosimiglianza per la
stima della variabilit degli stimatori di "! e "" .

28

REGRESSIONE DI POISSON
Quando le variabili di risposta sono discrete conveniente assumere che ]" ]# ]8 siano variabli casuali di
Poisson.
Questo caso particolare del modello lineare generalizzato costituisce la regressione di Poisson.
La funzione legame canonica la funzione logaritmo, ovvero si ha
logE]3 "! "" B3

29

REGRESSIONE DI POISSON
Esempio. Si dispone delle osservazioni relative alla lunghezza di pezzi di stoffa (in metri) e del relativo numero di
difetti (Fonte: Bissel, A.F., 1972, A negative binomial model with varying element sizes, Biometrika 59, 435-441). La
variabile di risposta il numero di difetti riscontrati, mentre il regressore la lunghezza. I dati sono contenuti nel file
clothes.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\clothes.txt", header = T)
> attach(d)

30

REGRESSIONE DI POISSON
Esempio (segue). L'analisi relativa al modello di regressione di Poisson viene ottenuta mediante il seguente comando
> summary(glm(Defects ~ Length, poisson))
Call:
glm(formula = Defects ~ Length, family = poisson)
Deviance Residuals:
Min
1Q
Median
-2.74127 -1.13312 -0.03904

3Q
0.66179

Coefficients:
Estimate Std. Error z
(Intercept) 0.9717506 0.2124693
Length
0.0019297 0.0003063
--Signif. codes: 0 '***' 0.001 '**'

Max
3.07446

value Pr(>|z|)
4.574 4.79e-06 ***
6.300 2.97e-10 ***
0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for poisson family taken to be 1)


Null deviance: 103.714
Residual deviance: 61.758
AIC: 189.06

on 31
on 30

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 4

31

REGRESSIONE DI POISSON
Esempio (segue). L'analisi della devianza residua indica la presenza di super dispersione e quindi conveniente
impiegare un metodo di quasi-verosimiglianza, ovvero
> summary(glm(Defects ~ Length, quasipoisson))
Call:
glm(formula = Defects ~ Length, family = quasipoisson)
Deviance Residuals:
Min
1Q
Median
-2.74127 -1.13312 -0.03904

3Q
0.66179

Coefficients:
Estimate Std. Error t
(Intercept) 0.9717506 0.3095033
Length
0.0019297 0.0004462
--Signif. codes: 0 '***' 0.001 '**'

Max
3.07446

value Pr(>|t|)
3.140 0.003781 **
4.325 0.000155 ***
0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for quasipoisson family taken to be 2.121965)


Null deviance: 103.714
Residual deviance: 61.758
AIC: NA

on 31
on 30

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 4


32

REGRESSIONE DI POISSON
Esempio (segue). La precedente elaborazione indica la validit del modello. Il diagramma di dispersione con la relativa
funzione legame stimata viene ottenuto mediante i seguenti comandi
> plot(Length, Defects, xlab = "Cloth length (m)", ylab = "Defects",
+
main = "Scatter plot")
> lines(seq(0, 1000, 1),
+
exp(predict(glm(Defects ~ Length, quasipoisson),
+
data.frame(Length = seq(0, 1000, 1)))))

33

REGRESSIONE DI POISSON
Esempio (segue).

15
10
5
0

Defects

20

25

Scatter plot

200

400

600

800

Cloth length (m)

34

REGRESSIONE LOGISTICA
Quando le variabili di risposta sono binarie conveniente assumere che ]" ]# ]8 siano variabli casuali di
Bernoulli.
Questo caso particolare del modello lineare generalizzato costituisce la regressione logistica.
La funzione legame canonica la funzione logit, ovvero si ha
log

E]3
" E]3

"! "" B3

35

REGRESSIONE LOGISTICA
Esempio. Si dispone delle osservazioni relative alla presenza di danneggiamento dei pannelli di protezione e delle
temperature (in gradi Fahrenheit) per alcuni voli di shuttle (Fonte: Dalal, S.R., Fowlkes, E.B. e Hoadley, B. (1989) Risk
analysis of the space shuttle: pre-challenger prediction of failure, Journal of the American Statistical Association 84,
945-957). La variabile di risposta la presenza di danneggiamento, mentre il regressore la temperatura. I dati sono
contenuti nel file shuttle.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\shuttle.txt", header = T)
> attach(d)

36

REGRESSIONE LOGISTICA
Esempio (segue). L'analisi relativa al modello di regressione logistica viene ottenuta mediante il seguente comando
> summary(glm(Failure ~ Temp, binomial))
Call:
glm(formula = Failure ~ Temp, family = binomial)
Deviance Residuals:
Min
1Q
Median
-1.0611 -0.7613 -0.3783

3Q
0.4524

Max
2.2175

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 15.0429
7.3786
2.039
0.0415 *
Temp
-0.2322
0.1082 -2.145
0.0320 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 28.267
Residual deviance: 20.315
AIC: 24.315

on 22
on 21

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 5

37

REGRESSIONE LOGISTICA
Esempio (segue). La precedente elaborazione indica una certa adeguatezza del modello. Il diagramma di dispersione
con la relativa funzione legame stimata viene ottenuto mediante i seguenti comandi
> plot(Temp, Failure, xlab = "Temperature (F)", ylab = "Failure",
+
main = "Scatter plot")
> lines(seq(50, 90, 0.1),
+
predict(glm(Failure ~ Temp, binomial),
+
data.frame(Temp = seq(50, 90, 0.1)), type = "response"))

38

REGRESSIONE LOGISTICA
Esempio (segue).

0.0

0.2

0.4

Failure

0.6

0.8

1.0

Scatter plot

55

60

65

70

75

80

Temperature (F)

39

REGRESSIONE LOGISTICA
La regressione logistica pu essere applicata anche quando esistono solo -" -# -< livelli distinti del regressore
(che potrebbero essere anche i valori centrali di classi opportune) per i due livelli (." ! .# " della variabile di
risposta e quindi le osservazioni possono essere organizzate in una tabella a doppia entrata con < righe e # colonne.
In questo caso la regressione logistica pu essere applicata considerando le variabili di risposta
8"# 8" 8## 8# 8<# 8< , ovvero le proporzioni della variabile di risposta per ogni livello del regressore,
ottenendo il modello
log

E84# 84
" E84# 84

"! "" -4

40

REGRESSIONE LOGISTICA
Esempio. Si dispone delle osservazioni relative alla percentuale di un gruppo di adolescenti polacche con menarca per
vari livelli d'et (Fonte: Morgan, B.J.T. (1989) Analysis of quantal response data, Chapman and Hall, London, p.7). La
variabile di risposta la percentuale di adolescenti che hanno avuto il menarca, mentre il regressore l'et. I dati sono
contenuti nel file menarche.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\menarche.txt", header = T)
> attach(d)

41

REGRESSIONE LOGISTICA
Esempio (segue). L'analisi relativa al modello di regressione logistica viene ottenuta mediante il seguente comando
> Proportion <- cbind(Menarche, Total - Menarche)
> summary(glm(Proportion ~ Age, binomial))
Call:
glm(formula = Proportion ~ Age, family = binomial)
Deviance Residuals:
Min
1Q
Median
-2.0363 -0.9953 -0.4900

3Q
0.7780

Max
1.3675

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -21.22639
0.77068 -27.54
<2e-16 ***
Age
1.63197
0.05895
27.68
<2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 3693.884
Residual deviance:
26.703
AIC: 114.76

on 24
on 23

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 4


42

REGRESSIONE LOGISTICA
Esempio (segue). La precedente elaborazione indica la validit del modello. Il diagramma di dispersione con la relativa
funzione legame stimata viene ottenuto mediante i seguenti comandi
> plot(Age, Menarche / Total, xlab = "Age (years)",
+
ylab = "Proportion of menstruated girls",
+
main = "Scatter plot")
> lines(seq(9, 18, 0.1),
+
predict(glm(Proportion ~ Age, binomial),
+
data.frame(Age = seq(9, 18, 0.1)), type = "response"))

43

REGRESSIONE LOGISTICA
Esempio (segue).

0.6
0.4
0.2
0.0

Proportion of menstruated girls

0.8

1.0

Scatter plot

10

12

14

16

Age (years)

44

LETTURE SUGGERITE
Agresti, A. (1990) Categorical data analysis, Wiley, New York.
Agresti, A. (1996) An introduction to categorical data analysis, Wiley, New York.
Belsley, D.A., Kuh, E. and Welsch, R.E. (1980) Regression diagnostics, Wiley, New York.
Cook, R.D. and Weisberg, S. (1982) Residuals and influence in regression, Chapman and Hall, London.
Cook, R.D. and Weisberg, S. (1999) Applied regression including computing and graphics, Wiley, New York.
McCullagh, P. and Nelder, J.A. (1989) Generalized linear models, Chapman and Hall, London.
Simonoff, J.S. (2003) Analyzing categorical data, Springer, New York.

45

CAPITOLO 10
REGRESSIONE MULTIPLA

REGRESSIONE MULTIPLA
Il modello di regressione multipla analizza la struttura di dipendenza fra un insieme di regressori e di una
variabile di risposta.
Nella versione pi semplice il modello di regressione multipla assume un legame lineare fra le variabili. Questo
modello include come caso particolare anche l'analisi della varianza.
I modelli di regressione lineari generalizzati possono essere considerati anche quando esistono pi regressori.

REGRESSIONE LINEARE MULTIPLA


Quando la variabile di risposta dipende da : regressori si considera il modello di regressione lineare multipla
]3 "! "" B3" "# B3# ": B3: X3
dove X" X# X8 sono variabili casuali indipendenti (detti errori) tali che EX3 ! e VarX3 5 # .
La formulazione alternativa del modello di regressione lineare multipla data quindi dalle relazioni
E]3 "! "" B3" "# B3# ": B3:
e
Var]3 5 #

In questo modello esistono quindi : # parametri.

REGRESSIONE LINEARE MULTIPLA


Sia " "! "" ": T il vettore dei parametri. Inoltre, sia X la matrice di ordine 8 : " delle osservazioni
relative ai regressori e in cui la prima colonna composta da unit (ovvero in pratica si aggiunto un ulteriore
regressore che assume vlori pari all'unit).
La stima di " ottenuta con il metodo dei minimi quadrati (che coincide con le stima di massima verosimiglianza
assumendo la normalit di X3 ) risulta
s XT X" XT y
"

s risulta corretto con matrice di


Indicando per semplicit di notazione stima e stimatore con lo stesso simbolo, "
varianza-covarianza
s 5 # XT X"
Var"

REGRESSIONE LINEARE MULTIPLA


I valori stimati risultano inoltre
s! s
" " B3" s
" # B3# s
" : B3:
sC3 "
mentre le quantit C3 sC3 sono i residui.
Il parametro 5 # pu essere stimato in modo corretto mediante la varianza dei residui, ovvero
=%#

"

8:"

C3 sC3 #
3"

s pu essere ottenuta sostituendo =%# al posto di 5 # .


La stima di Var"
Anche per il modello di regressione multipla il coefficiente di determinazione viene definito come
#
VBC

8
C3
3" s
8
3" C3

#
C
# "
C

8
C 3 #
3" C3 s
8
#
3" C3 C

REGRESSIONE LINEARE MULTIPLA


Per quanto riguarda la verifica delle ipotesi, supponendo la normalit degli errori e di conseguenza la normalit di
]" ]# ]8 , la validit del modello lineare viene verificata considerando il sistema di ipotesi
L! "" "# ": ! contro L" "4 ! b4.
Questo sistema di ipotesi viene verificato attraverso la statistica test fornita dal rapporto delle verosimiglianze
#
8 : VBC
J
#
: " " VBC

che si distribuisce come una variabile casuale di Snedecor J:"8: .


Inoltre, la verifica di ipotesi su uno specifico parametro "4 , ovvero L! "4 ! contro L" "4 !, viene verificato
attraverso la statistica test fornita dal rapporto delle verosimiglianze
s
"4
X
=% @44
dove @44 l'elemento di posizione 4 sulla diagonale della matrice V XT X" .
La statistica test X si distribuisce come X >8: .

REGRESSIONE LINEARE MULTIPLA


Quando si verificato che alcuni parametri del modello sono nulli, si cerca di costruire un modello pi semplice
(ovvero con meno regressori) di quello iniziale. Evidentemente, se si eliminano alcuni parametri del modello di
regressione il modello diventa pi semplice, ma la sua adeguatezza ai dati diminuisce.
Ipotizzando un modello con 5 parametri )" )# )5 , modelli differenti possono essere confrontati mediante il
criterio di Akaike
AIC #logPs)" s)# s)5 5
dove P)" )# )5 la funzione di verosimiglianza relativa al modello.
Il criterio AIC in effetti il massimo della log-verosimiglianza penalizzato dal numero di parametri presenti nel
modello stesso (il tutto moltiplicato da una costante negativa), ovvero un indice finalizzato a valutare il compromesso
fra adeguatezza e semplicit del modello.
Quando si deve scegliere fra pi modelli, il modello che si preferisce quindi quello che fornisce il valore minimo
del criterio AIC.

REGRESSIONE LINEARE MULTIPLA


Esempio. Si dispone delle osservazioni del numero di specie di uccelli in isole di vegetazione nel nord delle Ande
(Fonte: Vuilleumier, F., 1970, Insular biogeography in continental regions. I. The northern Andes of South America,
American Naturalist 104, 373-388). I regressori sono l'area dell'isola di vegetazione (in migliaia di km quadrati), la sua
elevazione (in km), la sua distanza dall'equatore (in km) e la sua distanza dall'isola di vegetazione pi vicina (in km). I
dati sono contenuti nel file paramo.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\paramo.txt", header = T)
> attach(d)
La matrice dei diagrammi di dispersione viene ottenuta mediante il seguente comando
> pairs(d, main = "Scatter-plot matrix")

REGRESSIONE LINEARE MULTIPLA


Esempio (segue).
Scatter-plot matrix
1.0

2.0

400

1000

25

35

0.0

1.0

2.0

15

Species

1.5

0.0

Area

1000

0.5

Elevation

NearestDistance

15

25

35

0.5 1.0 1.5 2.0

20 40 60 80

400

EquatorDistance

20 40 60 80

REGRESSIONE LINEARE MULTIPLA


Esempio (segue). L'analisi del modello lineare con tutti i regressori viene implementata mediante il seguente comando
> summary(lm(Species ~ Area + Elevation + EquatorDistance + NearestDistance))
Call:
lm(formula = Species ~ Area + Elevation + EquatorDistance + NearestDistance)
Residuals:
Min
1Q
-10.66596 -3.40900

Median
0.08345

3Q
3.55920

Max
8.23565

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
27.889386
6.181843
4.511 0.00146 **
Area
5.153864
3.098074
1.664 0.13056
Elevation
3.075136
4.000326
0.769 0.46175
EquatorDistance -0.017216
0.005243 -3.284 0.00947 **
NearestDistance 0.016591
0.077573
0.214 0.83541
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.705 on 9 degrees of freedom
Multiple R-Squared: 0.7301,
Adjusted R-squared: 0.6101
F-statistic: 6.085 on 4 and 9 DF, p-value: 0.01182

10

REGRESSIONE LINEARE MULTIPLA


Esempio (segue). La semplificazione automatica del modello mediante il criterio AIC viene implementata mediante il
seguente comando
> summary(step(lm(Species ~ Area + Elevation + EquatorDistance +
+
NearestDistance)))
Start: AIC=57.09
Species ~ Area + Elevation + EquatorDistance + NearestDistance
Df Sum of Sq
- NearestDistance 1
2.06
- Elevation
1
26.57
<none>
- Area
1
124.41
- EquatorDistance 1
484.71

RSS
406.65
431.15
404.59
529.00
889.30

AIC
55.16
55.98
57.09
58.85
66.12

Step: AIC=55.16
Species ~ Area + Elevation + EquatorDistance
Df Sum of Sq
RSS
- Elevation
1
26.06 432.71
<none>
406.65
- Area
1
133.51 540.15
- EquatorDistance 1
537.39 944.04

AIC
54.03
55.16
57.14
64.96

11

REGRESSIONE LINEARE MULTIPLA


Esempio (segue).
Step: AIC=54.03
Species ~ Area + EquatorDistance
Df Sum of Sq
<none>
- Area
- EquatorDistance

1
1

RSS
432.71
342.64 775.35
557.23 989.94

AIC
54.03
60.20
63.62

Call:
lm(formula = Species ~ Area + EquatorDistance)
Residuals:
Min
1Q
-10.637 -4.396

Median
0.899

3Q
4.084

Max
7.273

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
30.797969
4.648155
6.626 3.73e-05 ***
Area
6.683038
2.264403
2.951 0.01318 *
EquatorDistance -0.017057
0.004532 -3.764 0.00313 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.272 on 11 degrees of freedom
Multiple R-Squared: 0.7113,
Adjusted R-squared: 0.6588
F-statistic: 13.55 on 2 and 11 DF, p-value: 0.001077
12

REGRESSIONE LINEARE MULTIPLA


Esempio (segue). I diagrammi di Anscombe, il diagramma quantile-quantile e il diagramma con le distanze di Cook
del modello ridotto vengono ottenuti mediante i seguenti comandi
> par(mfrow = c(2, 2))
> plot(lm(Species ~ Area + EquatorDistance), which = c(1:4), add.smooth = FALSE)
> par(mfrow = c(1, 1))

13

REGRESSIONE LINEARE
Esempio (segue).
Residuals vs Fitted

Normal Q-Q

15

20

25

30

1
0

12

-2

10

14

-1

0
-5

12

-10

Residuals

Standardized residuals

14

35

-1

Fitted values

1.5

0.6
0.4

11

14

0.0

0.2

Cook's distance

12

0.8

0.5

1.0

Cook's distance
6

0.0

Standardized residuals

Theoretical Quantiles

Scale-Location
14

10

15

20

25

Fitted values

30

35

10

12

14

Obs. number

14

REGRESSIONE LINEARE MULTIPLA


Al fine di migliorare l'adeguatezza del modello iniziale di regressione multipla, pu essere utile considerare
interazioni o ulteriori trasformate dei regressori originali.
Ad esempio, un modello iniziale con due regressori
E]3 "! "" B3" "# B3#
potrebbe essere esteso considerando l'interazione fra le variabili
E]3 "! "" B3" "# B3# "$ B3" B3#
e introducendo di fatto un nuovo regressore (dato dal prodotto dei due regressori originali).
Il modello iniziale potrebbe essere ulteriormente esteso considerando effetti non lineari dei regressori come nel
seguente modello che introduce dipendenze quadratiche
#
E]3 "! "" B3" "# B3# "$ B#3" "% B3#

considerando di fatto due nuovi regressori (dati dai quadrati dei due regressori originali).
Evidentemente, interazioni e dipendenze non lineari potrebbero essere introdotte congiuntamente
#
E]3 "! "" B3" "# B3# "$ B3" B3# "% B#3" "& B3#

considerando di fatto tre nuovi regressori.


15

REGRESSIONE LINEARE MULTIPLA


I modelli estesi costruiti in questo modo sono comunque lineari nei parametri e possono essere trattati come visto in
precedenza.
Tuttavia, i nuovi modelli perdono la semplicit del modello originale e possono introdurre difficolt di
interpretazione dei parametri.
Modelli pi complessi devono dunque essere adottati con cautela.

16

REGRESSIONE LINEARE MULTIPLA


Esempio. Si dispone delle osservazioni delle temperature medie del mese di gennaio (in F) nel periodo 1931-1960 in
alcune citt degli Stati Uniti (Fonte: Peixoto, J.L., 1990, A property of well-formulated polynomial regression models,
American Statistician 44, 26-30). I regressori sono la latitudine e la longitudine della citt. I dati sono contenuti nel file
temperature.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\temperature.txt", header = T)
> attach(d)
La matrice dei diagrammi di dispersione viene ottenuta mediante il seguente comando
> pairs(d, main = "Scatter-plot matrix")

17

REGRESSIONE LINEARE MULTIPLA


Esempio (segue).
Scatter-plot matrix
30

35

40

45
10 20 30 40 50 60

25

40

45

Temperature

70

80

90

Longitude

100 110 120

25

30

35

Latitude

10 20 30 40 50 60

70

80

90

100 110 120

18

REGRESSIONE LINEARE MULTIPLA


Esempio (segue). L'analisi del modello lineare con i regressori originali viene implementata mediante il seguente
comando
> summary(lm(Temperature ~ Latitude + Longitude))
Call:
lm(formula = Temperature ~ Latitude + Longitude)
Residuals:
Min
1Q
-12.9983 -3.8957

Median
0.5577

3Q
3.7330

Max
22.0113

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 98.64523
8.32708 11.846
<2e-16 ***
Latitude
-2.16355
0.17570 -12.314
<2e-16 ***
Longitude
0.13396
0.06314
2.122
0.0386 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.935 on 53 degrees of freedom
Multiple R-Squared: 0.7411,
Adjusted R-squared: 0.7314
F-statistic: 75.88 on 2 and 53 DF, p-value: 2.792e-16

19

REGRESSIONE LINEARE MULTIPLA


Esempio (segue). I diagrammi di Anscombe, il diagramma quantile-quantile e il diagramma con le distanze di Cook
del modello vengono ottenuti mediante i seguenti comandi
> par(mfrow = c(2, 2))
> plot(lm(Temperature ~ Latitude + Longitude), which = c(1:4),
+
add.smooth = FALSE)
> par(mfrow = c(1, 1))

20

REGRESSIONE LINEARE MULTIPLA


Esempio (segue).

20

30

40

3
2
-2

-1

Fitted values

Theoretical Quantiles

Scale-Location

Cook's distance

0.4

0.6

52

41

12

0.0

0.0

0.5

1.0

32

0.2

Cook's distance

41

1.5

32

50

52

Standardized residuals

1
-2

32

41

10
0
-10

Residuals

41

52

-1

Standardized residuals

20

52

10

Normal Q-Q

Residuals vs Fitted

10

20

30

40

Fitted values

50

10

20

30

40

50

Obs. number

21

REGRESSIONE LINEARE MULTIPLA


Esempio (segue). L'analisi del modello lineare con i regressori originali senza l'osservazione anomala viene
implementata mediante il seguente comando
> summary(lm(Temperature ~ Latitude + Longitude,
+
subset = (1:length(Temperature) != 52)))
Call:
lm(formula = Temperature ~ Latitude + Longitude, subset = (1:length(Temperature)
!=
52))
Residuals:
Min
-12.092772

1Q
-3.678680

Median
0.001197

3Q
3.505167

Max
19.667543

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 108.30043
7.84331 13.808
<2e-16 ***
Latitude
-2.28584
0.15992 -14.294
<2e-16 ***
Longitude
0.07522
0.05837
1.289
0.203
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.184 on 52 degrees of freedom
Multiple R-Squared: 0.7971,
Adjusted R-squared: 0.7893
F-statistic: 102.2 on 2 and 52 DF, p-value: < 2.2e-16
22

REGRESSIONE LINEARE MULTIPLA


Esempio (segue). I diagrammi di Anscombe, il diagramma quantile-quantile e il diagramma con le distanze di Cook
del modello con i regressori originali e senza l'osservazione anomala sono ottenuti mediante i seguenti comandi
> par(mfrow = c(2, 2))
> plot(lm(Temperature ~ Latitude + Longitude,
+
subset = (1:length(Temperature) != 52)),
+
which = c(1:4), add.smooth = FALSE)
> par(mfrow = c(1, 1))

23

REGRESSIONE LINEARE MULTIPLA


Esempio (segue).

20

30

40

4
3

-1

Fitted values

Theoretical Quantiles

Scale-Location

Cook's distance
0.6

41

53

0.0

0.5
0.0

0.4

Cook's distance

53

1.0

1.5

2
-2

41

Standardized residuals

50

0.2

10

536

-2

32

41

10

Normal Q-Q

-1

Standardized residuals

41

-10

Residuals

20

Residuals vs Fitted

10

20

30

40

Fitted values

50

10

20

30

40

50

Obs. number

24

REGRESSIONE LINEARE MULTIPLA


Esempio (segue). L'analisi del modello lineare con i regressori originali e l'interazione viene implementata mediante il
seguente comando
> summary(lm(Temperature ~ Latitude * Longitude))
Call:
lm(formula = Temperature ~ Latitude * Longitude)
Residuals:
Min
1Q
-11.6738 -2.8165

Median
-0.1268

3Q
3.4107

Max
15.0605

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
259.48952
44.71515
5.803 3.93e-07 ***
Latitude
-6.07039
1.08235 -5.609 7.94e-07 ***
Longitude
-1.61025
0.48139 -3.345 0.001533 **
Latitude:Longitude
0.04220
0.01156
3.649 0.000611 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.247 on 52 degrees of freedom
Multiple R-Squared: 0.7939,
Adjusted R-squared: 0.782
F-statistic: 66.77 on 3 and 52 DF, p-value: < 2.2e-16

25

REGRESSIONE LINEARE MULTIPLA


Esempio (segue). I diagrammi di Anscombe, il diagramma quantile-quantile e il diagramma con le distanze di Cook
del modello con interazione sono ottenuti mediante i seguenti comandi
> par(mfrow = c(2, 2))
> plot(lm(Temperature ~ Latitude * Longitude), which = c(1:4),
+
add.smooth = FALSE)
> par(mfrow = c(1, 1))

26

REGRESSIONE LINEARE MULTIPLA


Esempio (segue).
Normal Q-Q
3

Residuals vs Fitted
2
1
0

5
0

-2

-5
-15

20

40

50

60

-2

-1

Fitted values

Theoretical Quantiles

Scale-Location

Cook's distance
0.6

52

0.0

0.0

0.5

1.0

Cook's distance

0.4

52

1.5

30

0.2

Residuals

10

Standardized residuals

5
6 52

-1

Standardized residuals

10

52

10

20

30

40

Fitted values

50

60

10

20

30

40

50

Obs. number

27

REGRESSIONE LINEARE MULTIPLA


Esempio (segue). L'analisi del modello lineare con i regressori originali, l'interazione e una dipendenza cubica dalla
longitudine viene implementata mediante il seguente comando
> summary(lm(Temperature ~ Latitude * Longitude + I(Longitude^3)))
Call:
lm(formula = Temperature ~ Latitude * Longitude + I(Longitude^3))
Residuals:
Min
1Q
-7.30440 -2.85850

Median
0.04342

3Q
2.49406

Max
9.06776

Coefficients:
Estimate Std. Error t value
(Intercept)
3.908e+02 3.151e+01 12.402
Latitude
-5.891e+00 6.773e-01 -8.698
Longitude
-3.632e+00 3.750e-01 -9.687
I(Longitude^3)
8.064e-05 8.912e-06
9.050
Latitude:Longitude 3.656e-02 7.261e-03
5.035
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05

Pr(>|t|)
< 2e-16
1.20e-11
3.77e-13
3.47e-12
6.34e-06

***
***
***
***
***

'.' 0.1 ' ' 1

Residual standard error: 3.908 on 51 degrees of freedom


Multiple R-Squared: 0.9209,
Adjusted R-squared: 0.9147
F-statistic: 148.5 on 4 and 51 DF, p-value: < 2.2e-16

28

REGRESSIONE LINEARE MULTIPLA


Esempio (segue). I diagrammi di Anscombe, il diagramma quantile-quantile e il diagramma con le distanze di Cook
del modello con interazione e dipendenza cubica sono ottenuti mediante i seguenti comandi
> par(mfrow = c(2, 2))
> plot(lm(Temperature ~ Latitude * Longitude + I(Longitude^3)), which = c(1:4),
+
add.smooth = FALSE)
> par(mfrow = c(1, 1))

29

REGRESSIONE LINEARE MULTIPLA


Esempio (segue).
Normal Q-Q

30

40

50

2
1
32

60

-2

-1

Theoretical Quantiles

Scale-Location

Cook's distance

0.4

Fitted values

25

52

1.0
0.5

0.3

32

Cook's distance

52

0.2

1.5

20

13

0.0

0.0

Standardized residuals

10

-2

32

25
52

0
-5

Residuals

52

-1

Standardized residuals

25

0.1

10

Residuals vs Fitted

10

20

30

40

Fitted values

50

60

10

20

30

40

50

Obs. number

30

REGRESSIONE LINEARE MULTIPLA


Esempio (segue). Il modello esteso con interazione e dipendenza cubica dalla longitudine non pu essere semplificato.
> summary(step(lm(Temperature ~ Latitude * Longitude + I(Longitude^3))))
Start: AIC=157.41
Temperature ~ Latitude * Longitude + I(Longitude^3)
Df Sum of Sq
<none>
- Latitude:Longitude
- I(Longitude^3)

1
1

RSS
778.71
387.05 1165.76
1250.42 2029.12

AIC
157.41
178.00
209.04

Call:
lm(formula = Temperature ~ Latitude * Longitude + I(Longitude^3))
Residuals:
Min
1Q
-7.30440 -2.85850

Median
0.04342

3Q
2.49406

Max
9.06776

31

REGRESSIONE LINEARE MULTIPLA


Esempio (segue).
Coefficients:
Estimate Std. Error t value
(Intercept)
3.908e+02 3.151e+01 12.402
Latitude
-5.891e+00 6.773e-01 -8.698
Longitude
-3.632e+00 3.750e-01 -9.687
I(Longitude^3)
8.064e-05 8.912e-06
9.050
Latitude:Longitude 3.656e-02 7.261e-03
5.035
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05

Pr(>|t|)
< 2e-16
1.20e-11
3.77e-13
3.47e-12
6.34e-06

***
***
***
***
***

'.' 0.1 ' ' 1

Residual standard error: 3.908 on 51 degrees of freedom


Multiple R-Squared: 0.9209,
Adjusted R-squared: 0.9147
F-statistic: 148.5 on 4 and 51 DF, p-value: < 2.2e-16

32

REGRESSIONE LINEARE MULTIPLA E ANALISI DELLA VARIANZA


La struttura inferenziale dell'analisi della varianza basata su < campioni casuali indipendenti (ciascuno di numerosit
84 e tali che <4" 84 8) da una variabile casuale ] a < livelli -" -# -< di un fattore, tali che E]-4 .4 e
Var]-4 5 # , pu essere riportata ad un modello di regressione lineare.
Se ]" ]# ]8 sono le osservazioni relative al campione misto, allora si pu scrivere il modello lineare
E]3 "! "" B3" "# B3# "<" B3<"
e
Var]3 5 #
dove "! ." e "4 .4" ." , mentre B34 il valore assunto sull'i-esima unit da un regressore binario che vale uno
se l'osservazione relativa al 4 "-esimo livello del fattore e zero altrimenti.
L'ipotesi di omogeneit delle medie, supponendo la normalit di ]" ]# ]8 , viene verificata considerando il
sistema di ipotesi L! "" "# "<" ! contro L" "4 ! b4. Di conseguenza le tecniche viste in precedenza
possono essere applicate anche in questo caso.
Il vantaggio di questo approccio quello di individuare da quale livello del fattore dipende l'eventuale rifiuto
dell'ipotesi di base.

33

REGRESSIONE LINEARE MULTIPLA E ANALISI DELLA VARIANZA


Esempio. Si considera di nuovo i dati relativi alla velocit della luce. L'ipotesi di omogeneit delle medie pu essere
verificato mediante il seguente comando
> summary.lm(lm(Speed ~ Trial))
Call:
lm(formula = Speed ~ Trial)
Residuals:
Min
1Q
-259.00 -42.62

Median
2.25

3Q
41.75

Max
161.00

Coefficients:
Estimate Std. Error t value
(Intercept)
909.00
16.60 54.762
TrialT2
-53.00
23.47 -2.258
TrialT3
-64.00
23.47 -2.726
TrialT4
-88.50
23.47 -3.770
TrialT5
-77.50
23.47 -3.301
--Signif. codes: 0 '***' 0.001 '**' 0.01

Pr(>|t|)
< 2e-16
0.026251
0.007627
0.000283
0.001356

***
*
**
***
**

'*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 74.23 on 95 degrees of freedom


Multiple R-Squared: 0.1529,
Adjusted R-squared: 0.1173
F-statistic: 4.288 on 4 and 95 DF, p-value: 0.003114

34

REGRESSIONE LINEARE MULTIPLA E ANALISI DELLA VARIANZA


L'analisi della varianza pu essere estesa anche al caso che si abbiano due o pi fattori. In questo caso si parla di
analisi della varianza a due o pi criteri. Anche in questo caso l'analisi pu essere riportata ad un modello di
regressione lineare.
Per descrivere questo modello si consideri per semplicit una analisi della varianza a due criteri, dove ogni fattore
assume due livelli. In questo caso si hanno 4 campioni, ovvero un campione per ogni combinazione di livelli.
Assumendo la normalit delle osservazioni, se ]" ]# ]8 sono le osservazioni relative al campione misto, allora si
pu scrivere il modello lineare
E]3 "! "" B3" "# B3# "$ B3" B3#
e
Var]3 5 #
dove B3" il valore assunto sull'i-esima unit da un regressore binario che vale uno se l'osservazione relativa al
secondo livello del primo fattore e zero altrimenti, mentre B3# il valore assunto sull'i-esima unit da un regressore
binario che vale uno se l'osservazione relativa al secondo livello del secondo fattore e zero altrimenti.

35

REGRESSIONE LINEARE MULTIPLA E ANALISI DELLA VARIANZA


Evidentemente, in questo caso la verifica d'ipotesi risulta pi complessa. In effetti, si pu voler verificare l'effetto
marginale del primo fattore (ovvero l'ipotesi L! "" !), l'effetto marginale del secondo fattore (ovvero l'ipotesi
L! "# !) o l'effetto dell'interazione dei due fattori (ovvero l'ipotesi L! "$ !).
In una maniera simile anche se con complessit in notazione, il caso generale dell'analisi della varianza a pi criteri
pu essere riportata ad un modello di regressione.
Il vantaggio di questo approccio quello di individuare da quale combinazioni di livelli dei fattori dipende la media
delle osservazioni.

36

REGRESSIONE LINEARE MULTIPLA E ANALISI DELLA VARIANZA


Esempio. Si dispone delle osservazioni dei pesi di topi (in grammi) con quattro differenti genotipi per la madre e
quattro differenti genotipi per la nidiata (Fonte: Scheffe, H., 1959, Analysis of variance, Wiley, New York, p.140). I
dati sono contenuti nel file foster.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\foster.txt", header = T)
> attach(d)
Il seguente comando permette di ottenere le medie per tutte le combinazioni dei fattori
> tapply(Weight, list(Mother, Litter), mean)
A
B
I
J
A 63.680 52.325 47.10000 54.35000
B 52.400 60.640 64.36667 56.10000
I 54.125 53.925 51.60000 54.53333
J 48.960 45.900 49.43333 49.06000

37

REGRESSIONE LINEARE MULTIPLA E ANALISI DELLA VARIANZA


Esempio (segue). L'analisi della varianza a due criteri pu essere implementata mediante il seguente comando
> summary(aov(Weight ~ Litter * Mother))
Df Sum Sq Mean Sq F value
Pr(>F)
Litter
3
60.16
20.05 0.3697 0.775221
Mother
3 775.08 258.36 4.7632 0.005736 **
Litter:Mother 9 824.07
91.56 1.6881 0.120053
Residuals
45 2440.82
54.24
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

38

REGRESSIONE LINEARE MULTIPLA E ANALISI DELLA VARIANZA


Esempio (segue). Il seguente comando che semplifica il modello di regressione equivalente alla precedente analisi
della varianza
> summary(step(lm(Weight ~ Litter * Mother)))
Start: AIC=257.04
Weight ~ Litter * Mother
Df Sum of Sq
RSS
- Litter:Mother 9
824.1 3264.9
<none>
2440.8

AIC
256.8
257.0

Step: AIC=256.79
Weight ~ Litter + Mother
Df Sum of Sq
RSS
- Litter 3
63.6 3328.5
<none>
3264.9
- Mother 3
775.1 4040.0

AIC
252.0
256.8
263.8

Step: AIC=251.96
Weight ~ Mother
Df Sum of Sq
<none>
- Mother

RSS
3328.5
771.6 4100.1

AIC
252.0
258.7

39

REGRESSIONE LINEARE MULTIPLA E ANALISI DELLA VARIANZA


Esempio (segue).
Call:
lm(formula = Weight ~ Mother)
Residuals:
Min
1Q Median
-19.10 -5.90
1.50

3Q
5.32

Max
12.80

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
55.400
1.910 28.999
<2e-16 ***
MotherB
3.300
2.797
1.180
0.2429
MotherI
-2.038
2.702 -0.754
0.4539
MotherJ
-6.720
2.746 -2.447
0.0175 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 7.642 on 57 degrees of freedom
Multiple R-Squared: 0.1882,
Adjusted R-squared: 0.1455
F-statistic: 4.405 on 3 and 57 DF, p-value: 0.007433

40

MODELLI ADDITIVI GENERALIZZATI


In molti casi risulta difficile specificare la struttura di dipendenza della variabile di risposta dai regressori e questo
impedisce di costruire un modello di regressione lineare (o comunque riconducibile a tale).
Un approccio distribution-free alla regressione multipla pu essere ottenuto considerando il modello additivo
generalizzato
E]3 "! 7" B3" 7# B3# 7: B3:
e
Var]3 5 #
dove 7" B" 7# B# 7: B: sono funzioni non note.
Dunque, il modello additivo generalizzato suppone che la variabile di risposta sia dipendente da trasformazioni non
note dei regressori.

41

MODELLI ADDITIVI GENERALIZZATI


Le funzioni 7" B" 7# B# 7: B: e la quantit "! vengono stimate con una procedura simile al caso della
regressione lineare locale, ottenendo i valori stimati
"! 7
sC3 s
s" B3" 7
s# B3# 7
s: B3:

L'adeguatezza del modello pu essere valutata mediante la devianza che semplicemente la somma dei quadrati dei
residui, ovvero
8

C3 sC3 #

H
3"

42

MODELLI ADDITIVI GENERALIZZATI


Esempio. Si considera di nuovo i dati relativi alle temperature delle citt degli Stati Uniti. La stima del modello viene
ottenuta richiamando la libreria mgcv. L'analisi del modello additivo generalizzato viene implementata come segue
> library(mgcv)
> summary(gam(Temperature ~ s(Latitude) + s(Longitude)))
Family: gaussian
Link function: identity
Formula:
Temperature ~ s(Latitude) + s(Longitude)
Parametric coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 26.5179
0.3487
76.04
<2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Approximate significance of smooth terms:
edf Est.rank
F p-value
s(Latitude) 6.579
9 119.85 < 2e-16 ***
s(Longitude) 4.867
9 31.31 3.46e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
R-sq.(adj) = 0.962
GCV score = 8.7557

Deviance explained =
Scale est. = 6.8098

97%
n = 56
43

MODELLI ADDITIVI GENERALIZZATI


Esempio (segue). I grafici delle funzioni 7
s" B" e 7
s# B# possono essere ottenuti mediante il comando
> plot(gam(Temperature ~ s(Latitude) + s(Longitude)))

44

MODELLI ADDITIVI GENERALIZZATI

20
10
0
-10
-20

s(Latitude,6.58)

30

40

Esempio (segue).

25

30

35

40

45

Latitude

45

MODELLI ADDITIVI GENERALIZZATI

20
10
0
-10
-20

s(Longitude,4.87)

30

40

Esempio (segue).

70

80

90

100

110

120

Longitude

46

MODELLI LINEARI GENERALIZZATI


Il modello lineare generalizzato multiplo ottenuto assumendo una distribuzione non normale per ]" ]# ]8 e
considerando una opportuna funzione legame 1 tale che
1E]3 "! "" B3" "# B3# ": B3:

Il modello di regressione lineare multiplo un caso particolare di questa classe classe quando le variabili di risposta
sono normali e 1 la funzione identit.
Come nel caso univariato, per ogni distribuzione che si assume per la variabile di risposta esiste una funzione legame
canonica, ovvero una parametrizzazione naturale del modello.

47

MODELLI LINEARI GENERALIZZATI


Quando si assume che ]" ]# ]8 siano variabli casuali di Poisson, si ha la regressione di Poisson multipla e la
funzione legame canonica la funzione logaritmo, ovvero si ha
logE]3 "! "" B3" "# B3# ": B3:

Quando si assume che ]" ]# ]8 siano variabili casuali di Bernoulli, si ha la regressione logistica multipla e la
funzione legame canonica la funzione logit, ovvero si ha
log

E]3
" E]3

"! "" B3" "# B3# ": B3:

Quando si hanno delle frequenze relative ai vari livelli dei regressori, la regressione logistica pu essere applicata
considerando le proporzioni della variabile di risposta per ogni livello dei regressori.
I modelli additivi possono essere adattati anche ai modelli lineari generalizzati introducendo una relazione el tipo
1E]3 "! 7" B3" 7# B3# 7: B3:
dove 7" B" 7# B# 7: B: sono funzioni non note.

48

MODELLI LINEARI GENERALIZZATI


Esempio. Si dispone dei dati relativi ai fallimenti di industrie degli Stati Uniti che hanno operato nelle
telecomunicazioni fra il 2000 e il 2002 (Fonte: Simonoff, J.S., 2003, Analyzing categorical data, Springer, New York,
p.381). I regressori sono il capitale da lavoro rapportato all'attivo totale, il guadagno rapportato all'attivo totale, il
guadagno al netto di interessi e tasse rapportato all'attivo totale, le vendite rapportate all'attivo totale e il valore
dell'azienda rapportato alla passivit. I dati sono contenuti nel file bankruptcy.txt e vengono letti e resi
disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\bankruptcy.txt", header = T)
> attach(d)
La matrice dei diagrammi di dispersione viene ottenuta mediante il seguente comando
> pairs(d[,2:7], main = "Scatter-plot matrix")

49

MODELLI LINEARI GENERALIZZATI


Esempio (segue).
Scatter-plot matrix
-100

40 80

0.0

0.4

0.8

-400

-100

-100

WC.TA

-40 0

-400

RE.TA

40 80

-100

EBIT.TA

25

S.TA

0.0 0.4 0.8

0 10

BVE.BVL

Bankrupt

-100

-100

-40 0

0 10

25

50

MODELLI LINEARI GENERALIZZATI


Esempio (segue). L'analisi del modello di regressione logistica viene effettuata sui primi quattro regressori, dato che il
quinto non sembra influenzare la probabilit di bancarotta. La semplificazione automatica di questo modello mediante
il criterio AIC viene implementata mediante il seguente comando
> summary(step(glm(Bankrupt ~ WC.TA + RE.TA + EBIT.TA + S.TA, binomial)))
Start: AIC=32.92
Bankrupt ~ WC.TA + RE.TA + EBIT.TA + S.TA
Df Deviance
AIC
- S.TA
1
22.968 30.968
- WC.TA
1
24.493 32.493
<none>
22.923 32.923
- RE.TA
1
26.347 34.347
- EBIT.TA 1
28.529 36.529
Step: AIC=30.97
Bankrupt ~ WC.TA + RE.TA + EBIT.TA
Df Deviance
AIC
- WC.TA
1
24.532 30.532
<none>
22.968 30.968
- RE.TA
1
26.407 32.407
- EBIT.TA 1
28.594 34.594

51

MODELLI LINEARI GENERALIZZATI


Esempio (segue).
Step: AIC=30.53
Bankrupt ~ RE.TA + EBIT.TA
Df Deviance
AIC
<none>
24.532 30.532
- EBIT.TA 1
28.697 32.697
- RE.TA
1
35.979 39.979
Call:
glm(formula = Bankrupt ~ RE.TA + EBIT.TA, family = binomial)
Deviance Residuals:
Min
1Q
Median
-1.66450 -0.33579 -0.01778

3Q
0.28999

Max
1.97243

52

MODELLI LINEARI GENERALIZZATI


Esempio (segue).
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.95801
0.81637 -2.398
0.0165 *
RE.TA
-0.04405
0.01989 -2.214
0.0268 *
EBIT.TA
-0.10761
0.06445 -1.670
0.0950 .
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 69.315
Residual deviance: 24.532
AIC: 30.532

on 49
on 47

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 7

53

MODELLI LINEARI GENERALIZZATI


Esempio (segue). Un modello pi semplice basato sul solo primo regrassore potrebbe essere ottenuto notando che
esiste un valore anomalo, ovvero la prima osservazione. L'analisi di questo modello viene implementata come segue
> summary(glm(Bankrupt ~ RE.TA, binomial, subset = (1:length(Bankrupt) != 1)))
Call:
glm(formula = Bankrupt ~ RE.TA, family = binomial, subset = (1:length(Bankrupt)
!=
1))
Deviance Residuals:
Min
1Q
Median
-2.07214 -0.30405 -0.03211

3Q
0.24542

Max
2.07304

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.05107
1.08850 -2.803 0.00506 **
RE.TA
-0.08277
0.02591 -3.194 0.00140 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 67.908
Residual deviance: 24.256
AIC: 28.256

on 48
on 47

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 8


54

MODELLI LINEARI GENERALIZZATI


Esempio (segue). Nell'ultimo modello, il diagramma di dispersione con la relativa funzione legame stimata viene
ottenuto mediante i seguenti comandi
>
>
>
+
>
+
+

Bankrupt.h <- Bankrupt[2:50]


RE.TA.h <- RE.TA[2:50]
plot(RE.TA.h, Bankrupt.h, xlab = "Retairned earning / Total assets",
ylab = "Bankrupt", main = "Scatter plot")
lines(seq(-500, 100, 1),
predict(glm(Bankrupt.h ~ RE.TA.h, binomial),
data.frame(RE.TA.h = seq(-500, 100, 1)), type = "response"))

55

MODELLI LINEARI GENERALIZZATI


Esempio (segue).

0.6
0.4
0.2
0.0

Bankrupt

0.8

1.0

Scatter plot

-400

-300

-200

-100

Retairned earning / Total assets

56

MODELLI LINEARI GENERALIZZATI


I modelli lineari generalizzati possono essere applicati anche all'analisi delle tabelle a due o pi entrate. Questi
modelli sono detti log-lineari.
Per descrivere questo modello si consideri per semplicit una tabella a doppia entrata, dove ogni fattore assume due
livelli. Supponendo che le quattro frequenze osservate 834 siano delle variabili casuali di Poisson, il modello log-lineare
dato da
logE846 "! "" B" "# B# "$ B" B#
dove B" un regressore binario che vale uno se la frequenza relativa al secondo livello del primo fattore e zero
altrimenti, mentre B# un regressore binario che vale uno se la frequenza relativa al secondo livello del secondo
fattore e zero altrimenti.
In questo caso, si pu voler verificare l'effetto marginale del primo fattore (ovvero l'ipotesi L! "" !), l'effetto
marginale del secondo fattore (ovvero l'ipotesi L! "# !) o l'effetto dell'interazione dei due fattori (ovvero l'ipotesi
L! "$ !).
In una maniera simile anche se con complessit in notazione, il caso generale dell'analisi delle tabelle a pi entrate
pu essere riportata ad un modello lineare generalizzato.

57

MODELLI LINEARI GENERALIZZATI


Esempio. Durante uno studio sull'uso di droghe da parte degli studenti nell'universit di Dayton (Ohio) nel 1992 sono
stati considerati un gruppo di studenti, ognuno dei quali stato classificato per l'uso o meno di alcolici, di sigarette e di
marijuana (Agresti, A., 1990, Categorical data analysis, Wiley, New York, p.152). I dati sono contenuti nel file
drug.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\drug.txt", header = T)
> attach(d)

58

MODELLI LINEARI GENERALIZZATI


Esempio (segue). La tabella a pi entrate viene ottenuta mediante il comando
> xtabs(Count ~ Alcohol + Cigarette + Marijuana)
, , Marijuana = No
Cigarette
Alcohol No Yes
No 279 43
Yes 456 538
, , Marijuana = Yes
Cigarette
Alcohol No Yes
No
2
3
Yes 44 911
mentre il diagramma a nastri condizionato viene ottenuto mediante il comando
> library(lattice)
> barchart(xtabs(Count ~ Alcohol + Cigarette + Marijuana),
+
ylab = "Alcohol use",
+
auto.key = list(title = "Marijuana use", cex = 0.8),
+
strip = strip.custom(strip.names = T, strip.levels = T))

59

MODELLI LINEARI GENERALIZZATI


Esempio (segue).
Marijuana use
No
Yes
0

Cigarette : No

500

1000

1500

Cigarette : Yes

Alcohol use

Yes

No

500

1000

1500

Freq

60

MODELLI LINEARI GENERALIZZATI


Esempio (segue). Il comando chisq.test fornisce l'implementazione del test ;# per l'indipendenza.
> chisq.test(xtabs(Count ~ Alcohol + Cigarette + Marijuana))
Chi-squared test for given probabilities
data: xtabs(Count ~ Alcohol + Cigarette + Marijuana)
X-squared = 2676.337, df = 7, p-value < 2.2e-16

61

MODELLI LINEARI GENERALIZZATI


Esempio (segue). Una volta verificata la dipendenza, il modello log-lineare pu essere analizzato mediante il seguente
comando
> summary(step(glm(Count ~ Alcohol * Cigarette * Marijuana, poisson)))
Start: AIC=65.04
Count ~ Alcohol * Cigarette * Marijuana
Df Deviance
AIC
- Alcohol:Cigarette:Marijuana 1
0.374 63.417
<none>
-2.92e-13 65.043
Step: AIC=63.42
Count ~ Alcohol + Cigarette + Marijuana + Alcohol:Cigarette +
Alcohol:Marijuana + Cigarette:Marijuana
Df Deviance
AIC
<none>
0.37 63.42
- Alcohol:Marijuana
1
92.02 153.06
- Alcohol:Cigarette
1
187.75 248.80
- Cigarette:Marijuana 1
497.37 558.41

62

MODELLI LINEARI GENERALIZZATI


Esempio (segue).
Call:
glm(formula = Count ~ Alcohol + Cigarette + Marijuana + Alcohol:Cigarette +
Alcohol:Marijuana + Cigarette:Marijuana, family = poisson)
Deviance Residuals:
1
2
3
0.02044 -0.02658 -0.09256
8
-0.03690

4
0.02890

5
-0.33428

6
0.09452

7
0.49134

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
5.63342
0.05970 94.361 < 2e-16
AlcoholYes
0.48772
0.07577
6.437 1.22e-10
CigaretteYes
-1.88667
0.16270 -11.596 < 2e-16
MarijuanaYes
-5.30904
0.47520 -11.172 < 2e-16
AlcoholYes:CigaretteYes
2.05453
0.17406 11.803 < 2e-16
AlcoholYes:MarijuanaYes
2.98601
0.46468
6.426 1.31e-10
CigaretteYes:MarijuanaYes 2.84789
0.16384 17.382 < 2e-16
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

***
***
***
***
***
***
***

(Dispersion parameter for poisson family taken to be 1)

63

MODELLI LINEARI GENERALIZZATI


Esempio (segue).
Null deviance: 2851.46098
Residual deviance:
0.37399
AIC: 63.417

on 7
on 1

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 4

64

LETTURE SUGGERITE
Agresti, A. (1990) Categorical data analysis, Wiley, New York.
Belsley, D.A., Kuh, E. and Welsch, R.E. (1980) Regression diagnostics, Wiley, New York.
Cook, R.D. and Weisberg, S. (1999) Applied regression including computing and graphics, Wiley, New York.
Chambers, J.M. and Hastie, T.J. (1992) Statistical models in S, Wadsworth & Brooks/Cole, New York.
Green, P.J. and Silverman, B.W. (1994) Nonparametric Regression and Generalized Linear Models: A Roughness
Penalty Approach, Chapman and Hall, London.
Hastie, T.J. and Tibshirani, R.J. (1990) Generalized additive models, Chapman and Hall, London.
McCullagh, P. and Nelder, J.A. (1989) Generalized linear models, Chapman and Hall, London.
Simonoff, J.S. (2003) Analyzing categorical data, Springer, New York.
Wood S.N. (2006) Generalized additive models: an introduction with R, Chapman and Hall/CRC Press, London.

65