Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
TESTI CONSIGLIATI
Per la preparazione di base dell'esame sono suggeriti i seguenti testi:
Barabesi, L. (1998) Elementi di statistica non parametrica, Stamperia della Facolt di Economia, Universit di Siena.
Barabesi, L. (1996) Elementi di statistica inferenziale classica, Stamperia della Facolt di Economia, Universit di
Siena.
La versione elettronica (in formato .pdf) dei precedenti testi, delle diapositive e dei dati analizzati durante le lezioni
sono disponibili nel sito:
http://www.econ-pol.unisi.it/barabesi/download.html
Nello stesso sito sono disponibili manuali ed introduzioni al programma (sezione Contributed).
CAPITOLO 1
ANALISI PRELIMINARE DEI DATI
B8"
B"#
B##
B8#
B".
B#.
B8.
L'i-esima riga di D rappresenta le osservazioni raccolte sull'i-esima unit, mentre la j-esima colonna di D rappresenta
le osservazioni relative a tutte le unit per la j-esima variabile.
Le variabili possono essere di tipo qualitativo o quantitativo. Le variabili quantitative possono essere continue o
discrete. Le variabili qualitative sono dette anche fattori.
L'analisi delle variabili sulla base della matrice dei dati viene usualmente effettuata sia in modo marginale (ovvero
rispetto ad ogni singola variabile) che in modo congiunto (ovvero rispetto a gruppi di variabili o alla totalit delle
variabili).
B8"
B"#
B##
B8#
B":
B#:
B8:
C""
C#"
C8"
C"#
C##
C8#
C".:
C#.:
C8.:
B"
B
Dx #
B8
B"
B
D x y #
B8
C"
C#
C8
Con un lieve abuso si adotta la medesima notazione quando ci si riferisce marginalmente ad una variable o ad una
coppia di variabili.
"Smoker"
"S.T1"
"Opinion" "Age"
"S.T2"
"S.T3"
"Order"
"U.T1"
"U.T2"
Le prime tre variabili e la quinta sono di tipo qualitativo, mentre le restanti sono di tipo quantitativo. La quarta variabile
quantitativa discreta, mentre le ultime sei sono quantitative continue. Le prime : & variabili (sesso, fumo, effetto
percepito del profumo, et, ordine con cui si effettua l'esperimento) sono esplicative, mentre le ultime . : '
varibili (tempi di reazione in tre esperimenti indipendenti in cui si odorato o non si odorato il profumo) sono di
risposta.
QUANTILI
Supponiamo di considerare una variabile quantitativa e si desideri effettuare una prima analisi esplorativa marginale.
Le osservazioni relative alla variabile, ovvero B" B# B8 , possono essere convenientemente ordinate, ottenendo le
nuove osservazioni B" B# B8 . Inizialmente, queste quantit vengono rappresentate mediante segmenti su un
asse ordinato per graficizzare la relativa distribuzione, ovvero l'insieme di valori assunti dalla variabile.
~ che separa in due gruppi le osservazioni ordinate, ovvero la
Il quantile di ordine ( ! ") un valore B
frazione di osservazioni pi piccole e la frazione " di quelle pi elevate.
~ eccetto che in alcuni casi particolari. Ad esempio, quando !&
Evidentemente, non esiste una valore unico di B
~!& B
~
e 8 dispari, si ottiene immediatamente il valore unico B
8#"# , mentre se !& e 8 pari, allora B!& pu
essere scelto come un qualsiasi valore fra B8# e B8#" .
Esistono varie proposte per la selezione di un generico quantile che tendono comunque a coincidere per 8 elevato.
QUANTILI
~!& detta mediana, B
~!#& detto primo quartile, mentre B
~!(& detto terzo quartile. Inoltre, per
In particolare, B
~! B e B
~" B , ovvero per ! e " si ottiene il minimo e il massimo delle osservazioni.
definizione si ha B
"
8
I precedenti cinque quantili sono detti di base, in quanto caratterizzano sommariamente la distribuzione delle
osservazioni.
La mediana individua il valore centrale della distribuzione.
Il primo e terzo quartile individuano un intervallo che contiene il &!% delle osservazioni pi interne della
distribuzione, ovvero danno un'informazione sulla dispersione della variabile.
Il minimo e il massimo individuano il dominio delle osservazioni, ovvero l'intervallo che contiene tutte le
osservazioni.
10
10
Box-and-whiskers plot
Upper adjacent value
(largest value
outliers excepted)
Upper quartile
6
4
Lower quartile
Observed values
Median
Outlier
11
Median
49.50
Max.
93.80
12
80
70
60
50
40
90
Box-and-whiskers plot
13
14
80
60
40
Time (seconds)
100
120
Box-and-whiskers plot
U.T1
U.T2
U.T3
S.T1
S.T2
S.T3
15
DISTRIBUZIONE DI FREQUENZA
Quando si considera una variabile quantitativa discreta o se vi sono arrondamenti nelle misurazioni di una
variabile quantitativa continua, molte determinazioni della variabile possono coincidere.
Si supponga che vi siano < determinazioni distinte della variabile e che vengano indicate con -" -# -< .
In questo caso, conveniente considerare la frequenza delle osservazioni, ovvero il numero di ripetizioni di ogni
determinazione distinta della variabile. Le frequenze vengono indicate con i simboli 8" 8# 8< .
L'insieme delle coppie -4 84 detta distribuzione di frequenza e pu essere organizzata in una tavola di # righe
per 8 colonne.
16
DISTRIBUZIONE DI FREQUENZA
Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare la variabile Age. Il
comando per ottenere la distribuzione il seguente
> table(Age)
Age
15 23 25 26 31 32 33 35 37 38 39 43 54 55 62 65
1 1 2 3 1 1 1 2 1 1 1 2 1 1 1 1
17
ISTOGRAMMA
Un ulteriore grafico che permette un'analisi esplorativa marginale di una variabile quantitativa l'istogramma.
Questo grafico si ottiene suddividendo le osservazioni in un insieme di classi (ovvero intervalli di valori) mutuamente
esclusive ed esaustive (selezionate opportunamente). Ovviamente, sussiste una certa arbitrariet nella scelta delle
classi.
L'istogramma viene implementato ottenendo le frequenze di classe (ovvero il numero di osservazioni per ogni
classe) e le relative densit (ovvero il rapporto fra le frequenze di classe e la lunghezza della relativa classe). L'insieme
delle classi e delle corrispondenti frequenze detta distribuzione di frequenza per classi.
L'istogramma si ottiene riportando su ogni classe un rettangolo la cui base coincide con la classe, mentre l'altezza
proporzionale alla densit. Evidentemente, l'area del rettangolo proporzionale alla frequenza di classe. Le altezze
vengono generalmente riproporzionate in modo tale che l'area totale dei rettangoli sia pari ad uno.
18
ISTOGRAMMA
Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi e si analizzano i tempi di risposta alla
prima prova quando i soggetti non odorano profumo (variabile U.T1). In questo caso, le classi adottate sono
#& $% $% %% %% &' &' '& '& )& )& *&. La distribuzione di frequenza in classi si ottiene eseguendo il
comando
> table(cut(U.T1, breaks = c(25, 34, 44, 56, 65, 85, 95)))
(25,34] (34,44] (44,56] (56,65] (65,85] (85,95]
2
4
7
3
4
1
Il comando per ottenere l'istogramma il seguente
> hist(U.T1, breaks = c(25, 34, 44, 56, 65, 85, 95),
+
xlab = "Unscented first trial time (seconds)",
+
ylab = "Density", main = "Histogram")
19
ISTOGRAMMA
Esempio (segue). Il precedente comando fornisce la seguente elaborazione
0.015
0.010
0.005
0.000
Density
0.020
0.025
Histogram
30
40
50
60
70
80
90
20
INDICI DI SINTESI
L'analisi esplorativa marginale viene rifinita mediante quattro ulteriori indici di sintesi. Per quanto riguarda la
tendenza centrale un primo indice la media
"
B
8
B3
3"
La mediana viene talvolta preferita alla media come indice di tendenza centrale in quanto meno sensibile ai valori
anomali.
Per quanto riguarda la variabilit un secondo indice la varianza
=B#
"
#
B3 B
3"
Al fine di ottenere un indice lineare nell'unit di misura si considera usualmente la radice della varianza, ovvero lo
scarto quadratico medio =B . Anche =B# e =B sono sensibili ai valori anomali e si preferisce talvolta adottare come
~!(& B
~!#& piuttosto che lo scarto quadratico medio =B .
indice di variabilit il rango interquartile IQRB B
Se si devono confrontare le variabilit di distribuzioni marginali per variabili omogenee conveniente adottare
o il rango
indici di variabilit che non dipendono dall'unit di misura, quali il coefficiente di variazione =B lBl
~!& l.
interquartile standardizzato IQRB lB
21
INDICI DI SINTESI
Per quanto riguarda l'analisi dell'asimmetria della distribuzione, un terzo indice il coefficiente di asimmetria
"
+$ $
8=B
$
B3 B
3"
Questo indice non dipende ovviamente dall'unit di misura. Il coefficiente di asimmetria assume valori intorno allo !
per distribuzioni approssimativamente simmetriche (ovvero distribuzioni con code simili), valori negativi per
distribuzioni con asimmetria negativa (ovvero con code che si allungano verso sinistra) e valori positivi per
distribuzioni con asimmetria positiva (ovvero con code che si allungano verso destra).
Per quanto riguarda l'analisi della forma della distribuzione, un quarto indice il coefficiente di curtosi
"
+% %
8=B
%
B3 B
3"
Il valore di riferimento per questo indice $. Il coefficiente di curtosi assume valori elevati per distribuzioni
leptocurtiche (ovvero distribuzioni con code molto allungate), mentre assume valori bassi per distribuzioni
platicurtiche (ovvero distribuzioni con code molto brevi).
22
INDICI DI SINTESI
Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare la variabile U.T1. Non
esiste un comando specifico per calcolare gli indici di sintesi eccetto che per la media, anche se immediato
programmare le seguenti funzioni per il calcolo della varianza e dei coefficienti di asimmetria e curtosi
> variance <- function(x){
+
m2 <- sum((x - mean(x))^2)/length(x)
+
m2}
>
> skewness <- function(x){
+
s3 <- sum((x - mean(x))^3)/length(x)/sqrt(variance(x))^3
+
s3}
>
> kurtosis <- function(x){
+
s4 <- sum((x - mean(x))^4)/length(x)/variance(x)^2
+
s4}
23
INDICI DI SINTESI
Esempio (segue). Gli indici di sintesi vengono dunque ottenuti mediante i seguenti comandi
> mean(U.T1)
[1] 53.92381
> variance(U.T1)^(1/2)
[1] 16.7326
> skewness(U.T1)
[1] 0.782112
> kurtosis(U.T1)
[1] 2.677314
24
INDICI DI SINTESI
Esempio (segue). La variabilit relativa delle distribuzioni marginali per le variabili U.T1, U.T2, U.T3, S.T1,
S.T2, S.T3 possono essere confrontate mediante i seguenti comandi che calcolano i coefficienti di variazione
> variance(U.T1)^(1/2)/abs(mean(U.T1))
[1] 0.3103008
> variance(U.T2)^(1/2)/abs(mean(U.T2))
[1] 0.3051359
> variance(U.T3)^(1/2)/abs(mean(U.T3))
[1] 0.2794869
> variance(S.T1)^(1/2)/abs(mean(S.T1))
[1] 0.2513865
> variance(S.T2)^(1/2)/abs(mean(S.T2))
[1] 0.456505
> variance(S.T3)^(1/2)/abs(mean(S.T3))
[1] 0.2418836
25
DIAGRAMMA A NASTRI
Se la variabile qualitativa, l'analisi esplorativa si riduce semplicemente nel determinare la distribuzione di
frequenza, ovvero l'insieme delle determinazioni distinte e delle relative frequenze -4 84 .
Da un punto di vista grafico la distribuzione di frequenza viene rappresentata mediante il diagramma a nastri, che
un grafico basato su nastri di lunghezza pari alle frequenze di ogni determinazione della variabile e di identica
larghezza (scelti in modo soggettivo).
26
DIAGRAMMA A NASTRI
Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare la variabile Opinion. Il
comando per ottenere la distribuzione di frequenza il seguente
> table(Opinion)
Opinion
Ind Neg Pos
4
7 10
Inoltre, richiamando la libreria lattice che permette di implementare metodi grafici avanzati, il diagramma a nastri
si ottiene mediante i seguenti comandi
> library(lattice)
> barchart(table(Opinion), xlab = "Frequency", ylab = "Opinion",
+
main = "Barplot")
27
DIAGRAMMA A NASTRI
Esempio (segue). Il precedente comando fornisce il seguente grafico
Barplot
Opinion
Pos
Neg
Ind
10
Frequency
28
29
DIAGRAMMA DI DISPERSIONE
Se entrambe le variabili analizzate sono quantitative, le osservazioni sono costituite da 8 coppie
B" C" B# C# B8 C8 che possono venire rappresentate mediante un grafico detto diagramma di dispersione.
Il diagramma di dispersione permette di avere una prima impressione sull'esistenza di dipendenza fra le variabili.
30
DIAGRAMMA DI DISPERSIONE
Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare le variabili U.T1 e S.T1.
Il comando per ottenere il diagramma di dipersione il seguente
> plot(U.T1, S.T1, xlab = "Unscented first trial time (seconds)",
+
ylab = "Scented first trial time (seconds)", main = "Scatter plot")
31
DIAGRAMMA DI DISPERSIONE
Esempio (segue). Il precedente comando fornisce il seguente grafico
60
50
40
30
70
Scatter plot
40
50
60
70
80
90
32
INDICI DI DIPENDENZA
Una volta che si verificata l'esistenza di una relazione fra le variabili, conveniente ottenere indici per quantificare
la dipendenza esistente fra le variabili.
Se si sospetta una dipendenza lineare opportuno calcolare il coefficiente di correlazione lineare
<BC
=BC
=B =C
dove
=BC
"
3 C
B3 BC
3"
detta covarianza.
Risulta <BC " " e i valori estremi sono raggiunti quando vi dipendenza lineare perfetta inversa (<BC ")
e dipendenza lineare perfetta diretta (<BC "). Un valore di <BC intorno allo zero denota mancanza di dipendenza
lineare.
33
INDICI DI DIPENDENZA
Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare le variabili U.T1 e S.T1.
Il comando per ottenere il coefficiente di correlazione il seguente
> cor(U.T1, S.T1)
[1] 0.6316886
34
35
84
846
6"
mentre la distribuzione di frequenza marginale della seconda variabile data dalle coppie .6 86 dove
<
86
846
4"
Evidentemente, le distribuzioni di frequenza marginali sono quelle che si ottengono considerando una variabile come
se l'altra non fosse presente.
36
37
(25,34]
(34,44]
(44,56]
(56,65]
(65,85]
(85,95]
38
39
40
41
80
70
60
50
40
90
Box-and-whiskers plot
42
43
44
Sex
10
Freq
45
46
47
48
50
70
30
50
40 60 80
30 50 70 90
60
90
U.T1
70
30
U.T2
70
30
50
U.T3
80 120
30
50
S.T1
50
40
S.T2
30
S.T3
40 60 80
30
50
70
40
80
120
49
50
50
70
30
50
40 60 80
30 50 70 90
60
90
U.T1
70
30
U.T2
70
30
50
U.T3
80 120
30
50
S.T1
50
40
S.T2
30
S.T3
40 60 80
30
50
70
40
80
120
51
MATRICE DI CORRELAZIONE
Accanto alla matrice dei diagrammi di dispersione conveniente considerare anche la matrice di correlazione,
ovvero la matrice che contiene tutti i coefficienti di correlazione fra coppie di variabili.
Come la matrice dei diagrammi di dispersione, la matrice di correlazione non permette di analizzare in modo globale
la dipendenza fra le variabili, ma offre solamente una interpretazione della dipendenza per coppie di variabili.
52
MATRICE DI CORRELAZIONE
Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi e in particolare le variabili U.T1, U.T2,
U.T3, S.T1, S.T2, S.T3. Il comando per ottenere la matrice di correlazione il seguente
> cor(d[, 6:11])
U.T1
U.T2
U.T1 1.0000000 0.8409657
U.T2 0.8409657 1.0000000
U.T3 0.8357371 0.7678098
S.T1 0.6316886 0.5986291
S.T2 0.3348490 0.4371346
S.T3 0.3961762 0.5727865
U.T3
0.8357371
0.7678098
1.0000000
0.5879344
0.3745938
0.4432778
S.T1
0.6316886
0.5986291
0.5879344
1.0000000
0.5430833
0.5167140
S.T2
0.3348490
0.4371346
0.3745938
0.5430833
1.0000000
0.5600428
S.T3
0.3961762
0.5727865
0.4432778
0.5167140
0.5600428
1.0000000
53
54
55
40
50
60
70
80
90
80
60
40
30
40
50
60
70
80
90
56
57
Order : { 2 }
AgeClass : [ 14.5, 33.5 ]
40
50
60
70
80
90
Order : { 2 }
AgeClass : [ 34.5, 65.5 ]
80
60
40
Order : { 1 }
AgeClass : [ 14.5, 33.5 ]
Order : { 1 }
AgeClass : [ 34.5, 65.5 ]
80
60
40
30
40
50
60
70
80
90
58
TABELLE A PI ENTRATE
Il concetto di tabella a doppia entrata pu essere generalizzato quando si hanno tre o pi variabili. In questo caso si
ottengono tabelle a tre o pi entrate.
Le definizioni di frequenza congiunta e marginale possono essere adattate facilmente a questa struttura (anche se la
notazione diviene pi complessa).
Per la rappresentazione di questi dati conveniente costruire matrici di diagrammi a nastro condizionati.
59
TABELLE A PI ENTRATE
Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi e in particolare le variabili Sex, Opinion,
Order. Il comando per ottenere la tabella a tre entrate il seguente
> table(Sex, Opinion, Order)
, , Order = 1
Opinion
Sex Ind Neg Pos
F
0
0
4
M
1
3
3
, , Order = 2
Opinion
Sex Ind Neg Pos
F
2
2
2
M
1
2
1
60
TABELLE A PI ENTRATE
Esempio (segue). I comandi per ottenere i diagrammi a nastri condizionati sono i seguenti
> library(lattice)
> barchart(table(Sex, Opinion, Order), ylab = "Sex",
+
auto.key = list(title = "Order", cex = 0.8))
61
Pos
Sex
Ind
Neg
Freq
62
LETTURE SUGGERITE
Chambers, J.M., Cleveland, W.S., Kleiner B. and Tukey, P.A. (1983) Graphical methods for data analysis, Wadsworth
& Brooks/Cole, New York.
Cleveland, W.S. (1985) The elements of graphing data, Wadsworth, Monterey.
Cleveland, W.S. (1993) Visualizing data, Hobart Press, Summit, New Jersey.
Crawley, M.J. (2007) The R book, Wiley, New York.
Everitt, B.S. and Hothorn, T. (2006) A handbook of statistical analyses using R, Chapman & Hall/CRC Press, New
York.
Maindonald, J.H. and Braun, W.J. (2003) Data analysis and graphics using R - An example-based approach,
Cambridge University Press, Cambridge.
Murrell, P. (2005) R Graphics, Chapman & Hall/CRC Press, New York.
Tufte, E.R. (1997) Visual explanations, Graphics Press, Cheshire, Connecticut.
Tukey, J.W. (1977) Exploratory data analysis, Addison-Wesley, Reading.
Venables, W.N. and Ripley, B.D. (2002) Modern applied statistics with S, Springer, New York.
63
CAPITOLO 2
DISTRIBUZIONI DI PROBABILIT
VARIBIALI CASUALI
Una variabile casuale \ caratterizzata da una funzione di ripartizione J B tale che
J B T \ B
Evidentemente J B una funzione monotona non decrescente che assume valori in ! ".
Una variabile casuale \ detta continua se J B una funzione continua.
Una variabile casuale \ detta discreta se J B costante a tratti con un insieme numerabile di salti.
VARIBIALI CASUALI
Una variabile casuale continua caratterizzata da una funzione di densit
0 B J w B
che rappresenta la probabilit di osservare un valore della variabile casuale nell'intervallo infinitesimo di B.
Evidentemente, 0 B una funzione non negativa.
Il supporto W di una variabile casuale continua l'insieme di valori per cui 0 B strettamente positiva, ovvero
Evidentemente, si ha 'W 0 B ".
W B 0 B !
VARIBIALI CASUALI
Una variabile casuale discreta caratterizzata da una funzione di probabilit :B che rappresenta il salto della
funzione di ripartizione in B, ovvero
:B J B .B J B
La funzione di probabilit non nulla solo nell'insieme numerabile in cui la funzione di ripartizione effettua un salto.
Il supporto W di una variabile casuale discreta l'insieme numerabile di valori
W B :B !
Evidentemente, :B assume valori strettamente positivi solo se B W . Inoltre, si ha
BW :B
".
VARIABILI CASUALI
Il quantile di ordine ( ! ") di una variabile casuale \ dato da
B inf B J B
B
Nel caso di una variabile casuale continua il quantile di ordine risulta semplicemente B J " .
Il momento di ordine 5 di una variabile casuale continua dato da
.5 ( B5 0 B.B
W
.5
BW
VARIABILI CASUALI
Nel caso particolare 5 " il momento detto media e si adotta la notazione
. E\
"
E\ .$
$
5
"
E\ .%
%
5
B$
e
"
B0
$
$
DISTRIBUZIONE NORMALE
La variabile casuale continua ^ detta Normale standard se possiede funzione di densit 0 D 9D con
9D
"
"
exp D #
#1
#
DISTRIBUZIONE NORMALE
I grafici della funzione di densit e di ripartizione di ^ sono riportati nelle seguenti figure.
0.6
0.0
0.2
0.4
Probability
0.2
0.1
0.0
Density
0.3
0.8
1.0
0.4
-3
-2
-1
-3
-2
-1
10
DISTRIBUZIONE UNIFORME
La variabile casuale continua ^ detta Uniforme standard se possiede la funzione di densit
0 D I!" D
dove IW B rappresenta la funzione indicatrice dell'insieme W , ovvero IW B " se B W e IW B ! altrimenti.
Risulta E^ "# e Var^ ""#, mentre $ ! e % *&.
Per indicare che ^ Uniforme standard si adotta la notazione ^ Y ! ", mentre se \ Uniforme non standard
si scrive \ Y - - $ .
La parametrizzazione in termini di - e - $ si usa per evidenziare che il supporto della variabile casuale non
standard \ dato da - - $ .
11
DISTRIBUZIONE UNIFORME
I grafici della funzione di densit e di ripartizione di ^ sono riportati nelle seguenti figure.
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
Density
Probability
0.6
0.8
1.0
1.0
-0.2
0.0
0.2
0.4
0.6
0.8
1.0
1.2
-0.2
0.0
0.2
0.4
0.6
0.8
1.0
1.2
12
DISTRIBUZIONE GAMMA
La variabile casuale continua ^ detta Gamma standard se possiede la funzione di densit
0 D
"
D :" exp D I! D
>:
13
DISTRIBUZIONE GAMMA
I grafici della funzione di densit e di ripartizione di ^ per : " # $ sono riportati nelle seguenti figure.
0.8
0.8
1.0
1.0
0.6
0.4
0.4
Density
Probability
0.6
p=1
p=2
p=3
0.0
0.0
0.2
0.2
p=1
p=2
p=3
14
DISTRIBUZIONE BETA
La variabile casuale continua ^ detta Beta standard se possiede la funzione di densit
0 D
>: ; :"
D " D;" I!" D
>:>;
:
:;
e
Var^
:;
: ;# : ; "
Per indicare che ^ Beta standard con parametri di forma : e ; si adotta la notazione ^ F/! " : ;, mentre se
\ Beta non standard si scrive \ F/- - $ : ;.
La parametrizzazione in termini di - e - $ viene impiegata per evidenziare che il supporto della variabile casuale
non standard \ risulta - - $ .
15
DISTRIBUZIONE BETA
I grafici della funzione di densit e di ripartizione di ^ per : ; !.$ !.$ ".$ !.( !.( ".$ sono riportati nelle
seguenti figure
3.0
1.0
3.5
0.8
0.6
0.4
Probability
2.0
1.5
1.0
0.2
p=1.3, q=0.7
p=0.3, q=0.3
p=0.7, q=1.3
0.0
0.5
0.0
Density
2.5
p=1.3, q=0.7
p=0.3, q=0.3
p=0.7, q=1.3
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
16
DISTRIBUZIONE BETA
I grafici della funzione di densit e di ripartizione di ^ per : ; # # # % % # sono riportati nelle seguenti
figure
0.6
0.2
0.4
Probability
1.0
0.5
p=4, q=2
p=2, q=2
p=2, q=4
0.0
p=4, q=2
p=2, q=2
p=2, q=4
0.0
Density
1.5
0.8
2.0
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
17
DISTRIBUZIONE DI CAUCHY
La variabile casuale continua ^ detta di Cauchy standard se possiede la funzione di densit
0 D
"
1" D #
18
DISTRIBUZIONE DI CAUCHY
I grafici della funzione di densit e di ripartizione di ^ sono riportati nelle seguenti figure.
0.4
0.6
Probability
0.15
0.2
0.10
0.05
Density
0.20
0.25
0.8
0.30
-4
-2
-4
-2
19
DISTRIBUZIONE BINOMIALE
La variabile casuale discreta ^ detta Binomiale se possiede la seguente funzione di probabilit
8
:D :D " :8D I!"8 D
D
20
DISTRIBUZIONE BINOMIALE
I grafici della funzione di probabilit di ^ per 8 : "! !.$ "! !.& sono riportati nelle seguenti figure.
0.15
0.05
0.10
Probability
0.15
0.10
0.00
0.05
0.00
Probability
0.20
0.20
0.25
10
10
21
DISTRIBUZIONE DI POISSON
La variabile casuale discreta ^ detta di Poisson se possiede la funzione di probabilit
.D
:D exp .
I!" D
Dx
dove . un parametro positivo.
Per la Poisson si ha E^ . e Var^ ..
Per indicare che ^ Poisson si adotta la notazione ^ T 9..
22
DISTRIBUZIONE DI POISSON
I grafici della funzione di probabilit di ^ per . # % sono riportati nelle seguenti figure.
0.10
Probability
0.15
0.05
0.10
0.00
0.05
0.00
Probability
0.20
0.15
0.25
10
10
23
DISTRIBUZIONE CHI-QUADRATO
Se ^" ^# ^8 sono variabili casuali indipendenti tali che ^3 R ! ", la trasformata
8
^3#
Y
3"
24
DISTRIBUZIONE CHI-QUADRATO
I grafici della funzione di densit di Y per i valori di 8 # $ % sono riportati nella seguente figura.
0.4
0.5
0.3
0.2
0.1
Density
n=2
n=3
n=4
25
^
Y 8
26
0.4
0.2
0.1
0.0
Density
0.3
n=1
n=3
n=10
-4
-2
27
DISTRIBUZIONE J DI SNEDECOR
Se Y ;#7 e Z ;8# sono indipendenti, la trasformata
J
Y 7
Z 8
28
DISTRIBUZIONE J DI SNEDECOR
I grafici della funzione di densit di J per 7 8 % % "# "# sono riportati nella seguente figura.
0.6
0.8
0.4
0.2
0.0
Density
n=4, m=4
n=12, m=12
29
30
"
x .T D" x .
#
31
0
-3
-2
-1
x2
x2
x1
-3
-2
-1
x1
32
0
-3
-2
-1
x2
x2
x1
-3
-2
-1
x1
33
0
-3
-2
-1
x2
x2
x1
-3
-2
-1
x1
34
LETTURE SUGGERITE
Billingsley, P. (1990) Measure theory, Wiley, New York.
Feller W. (1971) An introduction to probability theory and its applications, vol. I-II, Wiley, New York.
Johnson, N.L. and Kotz, S. (1972) Distributions in statistics, vol. I-IV, Wiley, New York.
Wilks, S.S. (1962) Mathematical statistics, Wiley, New York.
35
CAPITOLO 3
CAMPIONAMENTO
MODELLI STATISTICI
La matrice dei dati (o una sua parte) pu essere pensata come la realizzazione di un esperimento casuale. In questo
caso le colonne di D (o alcune sue colonne) sono delle variabili casuali a priori della rilevazione. L'insieme di queste
variabili casuali detto campione, mentre 8 detta numerosit campionaria.
Se le osservazioni su ogni unit vengono ottenute nelle medesime condizioni sperimentali e se il campionamento
effettuato in modo da assicurare l'indipendenza delle osservazioni fra le unit, il campione detto casuale.
L'insieme delle distribuzioni di probabilit congiunte ammissibili per il campione delimita una classe detta modello
statistico.
MODELLI STATISTICI
Il modello statistico detto classico se la morfologia funzionale della distribuzione congiunta completamente
specificata a meno di un insieme di parametri non noti. Il modello statistico detto distribution-free se la
morfologia funzionale della distribuzione congiunta non specificata.
In modo improprio, spesso un modello statistico classico detto parametrico, mentre un modello statistico
distribution-free detto non parametrico. Questa terminologia fuorviante, in quanto entrambi i casi nella
specificazione del modello sono presenti comunque dei parametri.
In ogni caso, l'obiettivo dell'inferenza statistica si riduce a fare affermazioni sui veri valori dei parametri presenti
nella specificazione del modello.
MODELLI STATISTICI
Esempio. Il modello statistico pi semplice assume una sola variabile (. ") e un campione casuale. In questo caso,
B" B# B8 sono le realizzazioni di 8 copie indipendenti \" \# \8 di una variabile casuale \ .
In questa situazione statistica, il tipico modello classico assume che \ R . 5 # e quindi la distribuzione
congiunta del campione la fattorizzazione di distribuzioni marginali della stessa forma specificate a meno dei
parametri . e 5 # .
Nella medesima situazione, un modello distribution-free assume semplicemente che \ sia una variabile casuale
continua con mediana pari a -. In questo caso, la funzione di ripartizione J B di \ e - sono i parametri del
modello.
MODELLI STATISTICI
Esempio. Nella sua struttura pi semplice il modello statistico di regressione assume che vi siano due variabili
(. #), di cui una sotto controllo dello sperimentatore (detta regressore) e l'altra di risposta.
Se B" B# B8 rappresentano i valori del regressore per ogni unit, queste quantit vengono considerate fissate
dallo sperimentatore. Per quanto riguarda invece le osservazioni relative alla variabile di risposta C" C# C8 , queste
vengono considerate realizzazioni delle variabili casuali ]" ]# ]8 tali che
]3 7B3 X3
dove 7 la cosiddetta funzione di regressione, mentre X" X# X8 sono variabili casuali indipendenti dette errori
tali che EX3 ! e VarX3 5 # .
La formulazione alternativa del modello di regressione quindi data dalle relazioni E]3 7B3 e Var]3 5 # .
Evidentemente, il campione in questo caso non casuale.
MODELLI STATISTICI
Esempio (segue). Il modello di regressione lineare assume che
7B3 "! "" B3
ovvero la parte strutturale del modello viene specificata a meno di due parametri. In un approccio classico, il modello
lineare viene completato con l'assunzione distribuzionale X3 R ! 5 # , ovvero ]3 R "! "" B3 5 # . Questo
modello caratterizzato dunque dai parametri "! , "" e 5 # .
In un approccio distribution-free non viene specificata n la funzione di regressione n la distribuzione degli X3 .
STATISTICHE CAMPIONARIE
Una statistica campionaria una trasformata del campione.
Essendo una trasformata di variabili casuali, anche la statistica campionaria una variabile casuale.
Una statistica detta distribution-free se la sua distribuzione rimane invariata sull'intera classe di distribuzioni
definite da un modello distribution-free.
MEDIA CAMPIONARIA
Dato un modello statistico relativo ad un campionamento casuale da una variabile casuale \ tale che . E\ e
5 # Var\ , la media campionaria data dalla variabile casuale
"
\
8
\3
3"
.
la cui realizzazione indicata con B
Si ha
E\ .
e
5#
Var\
8
Anche se questi due risultati sono validi per qualsiasi modello, la media campionaria non distribution-free in
quanto la sua distribuzione dipende dalla variabile casuale \ da cui si effettua il campionamento.
MEDIA CAMPIONARIA
Quindi, per la propriet della variabile casuale Gamma si ha E\ 5 e Var\ 5 # 8. Dunque, risultano verificati i
risultati generali visti in precedenza, in quanto per la Esponenziale I! 5 si ha E\ 5 e Var\ 5 # . Assumendo
5 ", i seguenti grafici riportano le funzioni di densit di \ per 8 & "! #!. Risulta evidente che la distribuzione di
\ si avvicina rapidamente a quella della Normale per 8 anche quando si campiona da una distribuzione
asimmetrica come quella Esponenziale.
MEDIA CAMPIONARIA
Esempio (segue).
1.5
1.0
0.5
0.0
Density
n=5
n=10
n=20
0.0
0.5
1.0
1.5
2.0
2.5
Sample mean
10
VARIANZA CAMPIONARIA
Dato un modello statistico relativo ad un campionamento casuale da una variabile casuale \ tale che Var\
5 # , la varianza campionaria data dalla variabile casuale
" 8
#
WB
\3 \#
8 3"
la cui realizzazione indicata con =B# .
Si ha
EWB#
8" #
5
8
"
8"
\3 \#
3"
#
la cui realizzazione indicata con =-B
, ed tale che
#
EW-B
5#
Anche se questi propriet sono valide per qualsiasi modello, la varianza campionaria non distribution-free. La
variabile casuale standardizzata con lo scarto quadratico campionario 8\ .W-B converge in distribuzione a
una variabile casuale R ! " per 8 . Dunque, anche questa statistica risulta distribution-free per grandi
campioni.
11
VARIANZA CAMPIONARIA
#
Esempio. Dato un campione casuale da una Normale \ R . 5 # possibile dimostrare che W-B
e \ sono
indipendenti. Si pu dimostrare che questo risultato valido solo per questo particolare modello statistico. Inoltre, si ha
#
W-B
8 " # ;#8"
5
#
per cui risulta EW-B
5 # , ovvero viene convalidato il risultato generale. Inoltre, risulta \ R . 5 # 8, ovvero per
questo modello la media campionaria distribuita normalmente anche per 8 finito. Assumendo 5 ", i seguenti
#
grafici riportano le funzioni di densit di W-B
per 8 & "! #!.
12
VARIANZA CAMPIONARIA
Esempio (segue).
1.0
1.2
0.6
0.4
0.2
0.0
Density
0.8
n=5
n=10
n=20
0.0
0.5
1.0
1.5
2.0
2.5
Sample variance
13
IB \3
3"
14
15
0.6
0.4
0.2
0.0
Probability
0.8
1.0
10
20
30
40
50
60
70
Rainfall (inches)
16
17
10
Density
15
20
25
Histogram
10
20
30
40
50
60
70
Rainfall (inches)
18
19
0.6
0.4
0.2
0.0
Probability
0.8
1.0
10
20
30
40
50
60
70
Rainfall (inches)
20
STATISTICA ORDINATA
Dato un campionamento casuale da una variabile casuale \ , le osservazioni ordinate B" B# B8 sono la
realizzazione campionaria del vettore di statistiche \" \# \8 , detto statistica ordinata.
La statistica \3 detta i-esima statistica ordinata.
La mediana campionaria funzione della statistica ordinata. In effetti, se 8 dispari, la mediana campionaria
~
definita come \ !& \8#"# . Alternativamente, se 8 pari, allora la mediana campionaria viene usualmente
~
definita come \ !& \8# \8#" #. Analogamente anche i quantili campionari sono funzioni della statistica
ordinata.
La statistica ordinata non distribution-free.
21
SEGNI
Dato un campionamento casuale da una variabile casuale continua \ con mediana pari a -, le statistiche segno sono
le 8 variabili casuali
^3 I! \3 -
Evidentemente, la variabile casuale ^3 binaria ed assume valore " se \3 maggiore della mediana e valore !
altrimenti. In particolare ogni ^3 distribuita come una variabile casuale di Bernoulli di parametro "#.
Le statistiche segno sono indipendenti e distribution-free. Evidentemente, anche trasformate di queste statistiche
sono distribution-free.
22
RANGHI
Dato un campionamento casuale da una variabile casuale continua \ , le statistiche rango sono le seguenti
trasformate
8
V3
I! \3 \4
4"
Ovviamente l'i-esimo rango V3 fornisce il numero di osservazioni minori di \3 , ovvero V3 rappresenta la posizione
di \3 all'interno del campione ordinato. Si ha quindi la relazione
\3 \V3
Le statistiche rango non sono indipendenti e assumono valori su tutte le permutazioni dei primi 8 interi. La
distribuzione congiunta delle statistiche rango uniforme su quest'insieme. Di conseguenza le statistiche rango sono
distribution-free.
Evidentemente, anche trasformate di queste statistiche sono distribution-free.
23
LETTURE SUGGERITE
Azzalini, A. (1996) Statistical inference, Chapman and Hall, London.
Ferguson, T.S. (1996) A course in large sample theory, Chapman and Hall, London.
Hettmansperger, T.P. and McKean, J.W. (1998) Robust nonparametric statistical methods, Arnold, London.
Lehmann, E.L. (1999) Elements of large sample theory, Springer, New York.
Randles, R.H. and Wolfe, D.A. (1979) Introduction to the theory of nonparametric statistics, Wiley, New York.
Serfling, R.J. (1980) Approximation theorems of mathematical statistics, Wiley, New York.
24
CAPITOLO 4
METODI DI STIMA
STIMATORE
Una volta scelto un modello statistico, un primo obiettivo dell'inferenza quello di selezionare dei valori (sulla base
del campione) per i parametri che caratterizzano il modello.
Il procedimento di stima fa corrispondere ad ogni campione un valore per i parametri, ovvero considera una
trasformata del campione detto stimatore.
Uno stimatore per definizione una statistica o un insieme di statistiche. La realizzazione campionaria dello
stimatore detta stima. Questo tipo di procedimento detto stima per punti perch ad ogni campione fa corrispondere
una stima (ovvero un singolo punto dello spazio parametrico).
Anche se uno stimatore gode di propriet ottimali, la stima pu essere molto differente dal vero valore del
parametro a causa della variabilit campionaria. Dunque, in un procedimento di stima per punti, la stima deve sempre
essere accompagnata da un indice di precisione dello stimatore nello stimare il vero parametro.
Esempio. La media campionaria uno stimatore corretto essendo E\ .. Al contrario, la varianza campionaria WB#
uno stimatore distorto per 5 # . La distorsione pari a
BiasWB#
EWB#
5#
5
8
#
#
Evidentemente, lo stimatore W-B
corretto per 5 # , dal momento che
#
EW-B
5#
Esempio. Per la Legge dei Grandi Numeri la media campionaria \ converge in probabilit a . per 8 e quindi
Evidentemente, basandosi su questo criterio, uno stimatore leggermente distorto e con bassa varianza pu essere
preferibile ad uno stimatore corretto ma con varianza elevata.
VEROSIMIGLIANZA
Si supponga di nuovo un modello classico. Supponendo per semplicit di esposizione una sola variabile, quando il
campione \" \# \8 stato osservato, la distribuzione congiunta del campione 08 B" B# B8 ) funzione
solo del parametro ). Questa funzione rappresenta la probabilit di osservare a priori esattamente il campione che
stato estratto e contiene tutta l'informazione relativa al campione stesso.
In questo caso si dice funzione di verosimiglianza (o verosimiglianza) la funzione data da
P) -08 B" B8 )
dove - una costante che non dipende da ).
Molto spesso viene considerata anche la funzione di log-verosimiglianza, data da
6) ln P)
con la convenzione che 6) se P) !.
VEROSIMIGLIANZA
Esempio. Dato un campione casuale da \ R . ", per l'indipenenza delle osservazioni campionarie la
distribuzione congiunta del campione risulta
08 B" B8 . $ 9B3 . $
8
3"
3"
"
"
exp B3 .#
#1
#
3"
"
8
.#
B3 .# - exp =B# B
#
#
10
VEROSIMIGLIANZA
Esempio (segue).
0.004
0.003
0.002
0.001
0.000
Probability
0.005
0.006
0.007
Likelihood
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
11
VEROSIMIGLIANZA
Esempio. Dato un campione casuale da \ R . 5 # , data l'indipenenza delle osservazioni campionarie la
distribuzione congiunta del campione risulta
08 B" B8 . 5 $
8
3"
#15 #
"
exp
"
#
B
#5 #
3"
"
8 #
#
# 8#
.#
B
-
5
=B B
exp
#
#
#5
#5
" e =# #
Il grafico di questa verosimiglianza (e il relativo grafico per linee di livello) per - ", 8 &, B
B
riportato di seguito.
12
VEROSIMIGLIANZA
Esempio (segue).
Likelihood
10
Likelihood
-1
13
PRINCIPIO DI CORRISPONDENZA
Il principio di corrispondenza fornisce la tecnica di stima pi elementare.
Per semplicit di esposizione si consideri un campione casuale \" \# \8 da una variabile casuale \ e si
supponga che il parametro possa essere rappresentato come la media di una opportuna trasformata di \ , ovvero
) E>\
>\3
3"
Evidentemente, stimatori come la media campionaria o la funzione di ripartizione campionaria sono giustificati
dal principio di corrispondenza.
14
Dal momento che la funzione logaritmo monotona crescente, la precedente condizione equivalente a
6s
) max 6)
)@
15
8
8
.#
log5 # # =B# B
#
#5
e5
viene massimizata per .
sB
s # =B# .
16
18
1.2
1.0
0.8
Sample Quantiles
1.4
1.6
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
Theoretical Quantiles
19
C3 "! "" B3 #
:"! ""
3"
s
" ! C s
""B
e
=BC
s
"" #
=B
per cui la retta di regressione stimata risulta 7
"! s
" " B.
sB s
Il metodo dei minimi quadrati pu essere adoperato in modo generale con modelli complessi.
20
Sunspot
0.4128
21
22
10
0
-10
Level (meters)
20
30
Scatter plot
20
40
60
80
100
Number of sunspot
23
9 )
3B3 )
3"
<B3 ) !
3"
dove <B 3w B.
Gli stimatori basati su questa procedura sono detti stimatori di tipo M.
24
stimatore di ) risulta K \ , ovvero la media campionaria. Se invece la funzione di distanza risulta 3@ l@l, lo
~
~
stimatore di ) risulta K \ !& , ovvero la mediana campionaria.
Se ) di nuovo un parametro di posizione, supponendo un approccio classico, sia 0 B ) la funzione di densit di
\ . In questo caso, lo stimatore di massima verosimiglianza di ) uno stimatore di tipo M dove 3@ log- log0 @.
Evidentemente, anche il metodo dei minimi quadrati si basa su una funzione di distanza del tipo 3@ @# .
25
LETTURE SUGGERITE
Azzalini, A. (1996) Statistical inference, Chapman and Hall, London.
Cox, D.R. and Hinkley, D.V. (1974) Theoretical statistics, Chapman and Hall, London.
Ferguson, T.S. (1996) A course in large sample theory, Chapman and Hall, London.
Hettmansperger, T.P. and McKean, J.W. (1998) Robust nonparametric statistical methods, Arnold, London.
Huber, P.J. (1981) Robust statistics, Wiley, New York.
Lehmann, E.L. (1983) The theory of point estimation, Wiley, New York.
Lehmann, E.L. (1999) Elements of large sample theory, Springer, New York.
Maritz, J.S. (1981) Distribution-free statisitical methods, Chapman and Hall, London.
Noether, G.E. (1967) Elements of nonparametric statistics, Wiley, New York.
Randles, R.H. and Wolfe, D.A. (1979) Introduction to the theory of nonparametric statistics, Wiley, New York.
Rao, C.R. (1973) Linear statistical inference and its applications, Wiley, New York.
Wilks, S.S. (1962) Mathematical statistics, Wiley, New York.
26
CAPITOLO 5
METODI DI SMORZAMENTO
STIMATORI DI NUCLEO
Quando si analizza una variabile casuale continua, conveniente effettuare una indagine esplorativa della
rispettiva funzione di densit eventualmente finalizzata alla selezione di un modello.
Grossolanamente l'istogramma fornisce informazioni sulla funzione di densit. Una tecnica pi raffinata per stimare
la funzione di densit si basa sullo stimatore di nucleo.
STIMATORI DI NUCLEO
Sia \" \# \8 un campione casuale da una variabile casuale continua \ con funzione di densit 0 B. Lo
stimatore di nucleo per 0 nel punto B dato da
"
0s2 B
8
O2 B \3
3"
dove
O2 B
"
O2" B
2
STIMATORI DI NUCLEO
Una giustificazione della genesi di questo stimatore pu essere data attraverso la seguente rappresentazione di 0 B
0 B ( I! B C0 C .C EI! B \
"&
" B# # I"" B
"'
c(-0.35, 2.65),
= 1.00)")
c(-0.35, 2.65),
= 0.33)")
c(-0.35, 2.65),
= 0.05)")
0.0
0.5
1.0
1.5
2.0
2.5
2.0
1.5
1.0
0.0
0.5
1.5
1.0
0.0
0.5
1.5
1.0
0.5
0.0
2.0
2.0
0.0
0.5
1.0
1.5
2.0
2.5
0.0
0.5
1.0
1.5
2.0
2.5
10
"&
8"&
mentre
min AMISE0s2 8%&
2!
11
12
library(sm)
sm.density(Diameter, hcv(Diameter, hstart = 0.01, hend = 1),
yht = 0.92, xlim = c(-0.35, 2.65), xlab = "Ball diameter (micron)")
title(main = "Kernel density estimation ('CV' h = 0.32)")
sm.density(Diameter, hsj(Diameter), yht = 1.06, xlim = c(-0.05, 2.35),
xlab = "Ball diameter (micron)")
title(main = "Kernel density estimation ('Plug-in' h = 0.23)")
13
0.6
0.4
0.2
0.0
0.8
0.0
0.5
1.0
1.5
2.0
2.5
14
0.8
0.6
0.4
0.2
0.0
1.0
0.0
0.5
1.0
1.5
2.0
15
library(sm)
sm.density(Duration, hcv(Duration, hstart = 0.01, hend = 1),
yht = 0.69, xlim = c(1.4, 5.1), xlab = "Waiting time (minutes)")
title(main = "Kernel density estimation ('CV' h = 0.10)")
sm.density(Duration, hsj(Duration), yht = 0.69, xlim = c(1.4, 5.1),
xlab = "Waiting time (minutes)")
title(main = "Kernel density estimation ('Plug-in' h = 0.20)")
16
0.5
0.4
0.3
0.2
0.1
0.0
0.6
0.7
17
0.5
0.4
0.3
0.2
0.1
0.0
0.6
0.7
18
O2 >B >\3
3"
19
20
0.0015
0.0010
0.0005
0.0000
0.0020
500
1000
1500
2000
2500
3000
21
O2" B \3 O2# C ]3
3"
In una formulazione pi generale si potrebbe adoperare anche una funzione di nucleo bivariata (con tre parametri di
smorzamento) invece di un prodotto di funzioni di nucleo marginali. La presente formulazione tuttavia conveniente
e sufficiente nelle applicazioni pratiche.
Le propriet dello stimatore di nucleo bivariate si possono ottenere in modo analogo a quelle dello stimatore di nucleo
univariato. Si tenga presente tuttavia che la precisione dello stimatore di nucleo bivariato diminuisce rispetto alla
controparte univariata. Questo fenomeno, noto come maledizione della dimensionalit, dovuto al fatto che 8
osservazioni si rarefanno all'aumentare della dimensione dello spazio di riferimento.
22
23
Esempio (segue). I grafici (tridimensionale, per curve di livello e a toni di colori) della stima di nucleo bivariata si
ottengono mediante i seguenti comandi
>
>
+
+
>
>
+
>
+
>
>
+
+
>
library(sm)
sm.density(d[, c(1, 2)], hcv(d[, c(1, 2)]),
xlim = c(0, 0.9), ylim = c(0, 0.4), zlim = c(0, 20),
xlab = "Points per minute", ylab = "Assists per minute")
title(main = "Kernel density estimation ('CV' h1 = 0.06, h2 = 0.03)")
plot(Score, Assist, xlim = c(0, 0.9), ylim = c(0, 0.4),
xlab = "Points per minute", ylab = "Assists per minute")
sm.density(d[, c(1, 2)], hcv(d[, c(1, 2)]), display = "slice",
props = c(75, 50, 25, 2), add = T)
title(main = "Kernel density estimation ('CV' h1 = 0.06, h2 = 0.03)")
sm.density(d[, c(1, 2)], hcv(d[, c(1, 2)]),
display = "image", xlim = c(0, 0.9), ylim = c(0, 0.4),
xlab = "Points per minute", ylab = "Assists per minute")
title(main = "Kernel density estimation ('CV' h1 = 0.06, h2 = 0.03)")
24
20
nction
Density fu
15
10
5
0
0.4
sis
As
0.3
ts
0.2
pe
0.8
inu
rm
0.1
te
0.00.0
0.6
0.4 inute
rm
0.2 ts pe
in
Po
25
0.2
0.1
0.0
0.3
0.4
0.0
0.2
0.4
0.6
0.8
26
0.2
0.1
0.0
0.3
0.4
0.0
0.2
0.4
0.6
0.8
27
library(sm)
sm.density(d[, c(2, 3)], hcv(d[, c(2, 3)]),
xlim = c(6, 14), ylim = c(137, 143), zlim = c(0, 0.2),
xlab = "Width (mm)", ylab = "Length (mm)")
title(main = "Kernel density estimation ('CV' h1 = 0.35, h2 =
plot(d[1:100, 2], d[1:100, 3], xlim = c(6, 14), ylim = c(137,
xlab = "Width (mm)", ylab = "Length (mm)")
points(d[101:200, 2], d[101:200, 3], pch = 16)
sm.density(d[, c(2, 3)], hcv(d[, c(2, 3)]),
display = "slice", props = c(75, 50, 25), add = T)
title(main = "Kernel density estimation ('CV' h1 = 0.35, h2 =
sm.density(d[, c(2, 3)], hcv(d[, c(2, 3)]),
display = "image", xlim = c(6, 14), ylim = c(137, 143),
xlab = "Width (mm)", ylab = "Length (mm)")
title(main = "Kernel density estimation ('CV' h1 = 0.35, h2 =
0.25)")
143),
0.25)")
0.25)")
28
0.20
nction
Density fu
0.15
0.10
0.05
Le
0.00
143
142
141
ng
14
(
th
140
)
mm
139
138
137 6
12
10 m)
m
th (
d
i
W
29
140
139
138
137
Length (mm)
141
142
143
10
12
14
Width (mm)
30
140
139
138
137
Length (mm)
141
142
143
10
12
14
Width (mm)
31
32
:"! ""
3"
dove la funzione O2 definita come per lo stimatore di nucleo della funzione di densit. Senza perdita di generalit e
per semplicit di notazione, i valori del regressore sono stati centrati rispetto al punto B.
33
8
3"
dove
"
=<2 B
8
B3 B< O2 B3 B
3"
Il parametro 2 controlla il livello di smorzamento, ovvero quanto locale deve essere la stima di 7.
Per 2 la stima di 7 coincide con quella ottenuta con il metodo dei minimi quadrati quando si assume un
modello lineare.
34
35
library(sm)
plot(Equivalence, NOx, xlab = "Equivalence ratio",
ylab = "Concentration of nitrogen oxides (micrograms/J)")
sm.regression(Equivalence, NOx, h = 1.00, add = T)
title(main = "Local linear regression (h = 1.00)")
plot(Equivalence, NOx, xlab = "Equivalence ratio",
ylab = "Concentration of nitrogen oxides (micrograms/J)")
sm.regression(Equivalence, NOx, h = 0.05, add = T)
title(main = "Local linear regression (h = 0.05)")
plot(Equivalence, NOx, xlab = "Equivalence ratio",
ylab = "Concentration of nitrogen oxides (micrograms/J)")
sm.regression(Equivalence, NOx, h = 0.01, add = T)
title(main = "Local linear regression (h = 0.01)")
36
0.6
0.7
0.8
0.9
Equivalence ratio
1.0
1.1
1.2
0.7
0.8
0.9
Equivalence ratio
1.0
1.1
1.2
4
0.6
3
2
1
3
2
1
0.6
0.7
0.8
0.9
1.0
1.1
1.2
Equivalence ratio
37
" # ww
2 7 B.# O
#
Dunque 7
s 2 B uno stimatore coerente se 2 ! e 82 quando 8 .
38
39
C3 7
s 2 B3 #
3"
40
41
library(sm)
plot(Equivalence, NOx, xlab = "Equivalence ratio",
ylab = "Concentration of nitrogen oxides")
sm.regression(Equivalence, NOx, method = "df", add = TRUE)
plot(Equivalence, NOx, xlab = "Equivalence ratio",
ylab = "Concentration of nitrogen oxides")
sm.regression(Equivalence, NOx, method = "cv", add = TRUE)
42
3
2
1
0.6
0.7
0.8
0.9
1.0
1.1
1.2
Equivalence ratio
43
3
2
1
0.6
0.7
0.8
0.9
1.0
1.1
1.2
Equivalence ratio
44
:"! ""
3"
dove .5 B3 la distanza di B3 dal k-esimo vicino pi prossimo dei restanti valori del regressore. Questo metodo
detto loess.
Il metodo loess evita la scelta di un selettore e si limita a richiedere la specificazione del parametro 5 .
Il parametro 5 evidentemente legato alla proporzione del campione che contribuisce al peso attribuito per ogni
punto B. Una scelta grossolana di questo parametro solitamente sufficiente e l'usuale scelta di compromesso risulta
5 !&.
45
46
3
2
1
0.6
0.7
0.8
0.9
1.0
1.1
1.2
Equivalence ratio
47
LETTURE SUGGERITE
Bowman, A.W. and Azzalini, A. (1997) Applied smoothing techniques for data analysis, Oxford University Press,
Oxford.
Loader, C. (1999) Local regression and likelihood, Springer, New York.
Scott, D.W. (1992) Multivariate density estimation, Wiley, New York.
Silverman, B.W. (1986) Density estimation, Chapman and Hall, London.
Simonoff, J.S. (1996) Smoothing methods in statistics, Springer, New York.
Wand, M.P. and Jones, M.C. (1995) Kernel smoothing, Chapman and Hall, London.
48
CAPITOLO 6
VERIFICA DELLE IPOTESI E
INTERVALLI DI CONFIDENZA
VERIFICA DI IPOTESI
Sulla base del campione osservato si interessati a stabilire se il vero valore del parametro appartiene ad un certo
sottoinsieme dello spazio parametrico @ (l'insieme di tutti i valori plausibili per il parametro )).
Dato un modello statistico, se gli insiemi @! e @" costituiscono una partizione di @, la verifica di ipotesi consiste in
un procedimento decisionale di scelta fra l'ipotesi di base L! ) @! e l'ipotesi alternativa L" ) @" .
L'insieme delle ipotesi ammissibili e la sua partizione in L! e L" detto sistema di ipotesi.
VERIFICA DI IPOTESI
Esempio. Nella semplice situazione in cui si ha un campione casuale da una variabile casuale casuale \ , il tipico
modello classico assume che \ R . 5 # e l'usuale sistema di ipotesi consiste nel verificare L! . .! contro
L" . .! . Dal momento che lo spazio parametrico in questo caso dato da
@ . 5 # . 5 # !
risulta @! . 5 # . .! 5 # ! e @" . 5 # . .! 5 # ! .
Al contrario, in un approccio distribution-free, si assume solo che \ una variabile casuale continua con funzione
di ripartizione J e mediana -, mentre il sistema di ipotesi risulta L! - -! contro L" - -! . In questo caso, lo
spazio parametrico dato da
@ - J - J _
dove _ lo spazio delle funzioni di ripartizione continue. In questo caso si ha @! - J - -! J _, mentre
@" - J - -! J _.
TEST STATISTICO
Lo strumento statistico che sulla base del campione consente di concludere in favore dell'una o dell'altra ipotesi il
test statistico.
Scelta una opportuna statistica X con supporto g , si dice test basato su X la funzione
H g L! L"
mentre X detta statistica test.
Il test basato su X una regola decisionale che suddivide g negli insiemi complementari g! e g" , in modo tale che si
accetta L! se la realizzazione > di X tale che > g! , mentre si accetta L" se > g" .
L'insieme g" detto regione critica del test basato su X .
Un test detto distribution-free se basato su una statistica test distribution-free.
TEST STATISTICO
Esempio. In un approccio classico, si consideri un campione casuale da \ R . " e il sistema di ipotesi
L! . .! contro L" . .! , dove .! una quantit nota. Se si suppone che la statistica test sia \ , risulta g .
Una possibile scelta per g! potrebbe essere data da
lB
.! l +
g! B
I! \3 -!
F
3"
che distribution-free essendo una traformata di variabili casuali segno. Risulta g , , ! " 8, mentre
ragionevole assumere g! , , + " + # 8 + dove + un intero tale che + 8#. In effetti, sotto
ipotesi di base si attende una realizzazione , prossima a 8#. Di nuovo si deve decidere il valore della costante +.
FUNZIONE POTENZA
Uno strumento per misurare la capacit discriminatoria del test basato su una statistica la funzione potenza. La
funzione potenza del test basato su X data da
TX ) T X g"
dove la probabilit indotta dalla distribuzione specificata dal modello quando il valore del parametro pari a ) .
Per ogni ) @! la funzione potenza TX ) fornisce la probabilit di respingere L! quando questa vera, ovvero la
probabilit di commettere il cosiddetto errore di I specie.
Analogamente, per ogni ) @" la quantit " TX ) fornisce la probabilit di accettare L! quando vera L" ,
ovvero la probabilit di commettere il cosiddetto errore di II specie. Per ogni ) @" , la funzione potenza TX )
fornisce la probabilit di accettare L" quando questa vera.
Si dice che il test basato su X al livello di significativit se
sup TX )
)@!
FUNZIONE POTENZA
Esempio. Dato un campione casuale da \ R . ", si consideri il sistema di ipotesi L! . ! contro L" . !. Se
g" D" 8
Questa selezione di g" appare logica, in quanto pi la realizzazione della media campionaria elevata, pi si propensi
ad accettare l'ipotesi alternativa. Dal momento che risulta \ R . "8 per ogni . , allora la funzione potenza
data da
T\ . F8. D"
La propriet della coerenza assicura che la probabilit di commettere un errore di II specie tende a zero quando si
dispone di grandi campioni.
test basato su \ corretto in quanto si ha T \ . per ogni . ! e T \ . per ogni . !. Dal momento che
la successione di funzioni F8. D" converge uniformemente ad una funzione costante pari ad " per . !,
allora
lim T \ . " , a. !
10
)@!
max P)
) @
Questa statistica test ha un'interpretazione intuitiva, nel senso che se si sta confrontando la plausibilit di un valore
) rispetto ad un altro sulla base di un campione, siamo portati a scegliere quel valore che fornisce la verosimiglianza
pi alta. Se non esiste un valore ) che fornisce una verosimiglianza sensibilmente pi alta in @ rispetto alla
verosimiglianza massima in @! , siamo propensi ad accettare L! .
Ovviamente, per una realizzazione < di V si ha ! < ". Se < prossimo ad " si pi propensi ad accettare L! ,
mentre se la realizzazione < prossima ad ! si pi propensi ad accettare L" . Di conseguenza, si pu scegliere come
regione critica al livello di significativit l'insieme g" < < < , dove < il quantile di ordine della
distribuzione di V .
11
exp
!
exp 8=# #
#
.! # , la regione critica indotta da V la stessa indotta da
Dal momento che < una funzione biunivoca di B
\ .! # e quindi i relativi test sono equivalenti. Inoltre, dal momento che se vera L! si ha
8\
.! R ! ", allora 8\ .! # ;#" . Tenendo presente che < una funzione monotona decrescente di
Essendo D"# ;#"" per la relazione fra la R ! " e la ;#" , la precedente regione critica pu essere anche
espressa in modo equivalente come
8 lB
.! l D"#
g" B
12
13
SIGNIFICATIVIT OSSERVATA
Nel presente approccio, l'ipotesi di base e l'ipotesi alternativa vengono trattate in modo non simmetrico. In effetti,
usualmente L! costituisce una affermazione privilegiata e si preferisce controllare il livello di significativit del test
(ovvero l'errore di I specie) che comporta l'erroneo rifiuto di questa ipotesi privilegiata.
Anche se per sviluppare la teoria necessario fissare il livello di significativit , quando si lavora operativamente
non esiste nessuna regola per stabilirne la scelta. Questa considerazione porta al concetto di livello di significativit
osservato o valore-P.
Se la regione critica del test basato su X data da g" > > -, per un determinato valore campionario > si dice
significativit osservata la quantit
9== sup T X >
)@!
mentre, se la regione critica data da g" > > -, allora si dice significativit osservata la quantit
9== sup T X >
)@!
Quando invece la statistica test X ha una distribuzione simmetrica, se la regione critica del test basato su X data da
g" > > -" > -# , si dice significativit osservata la quantit
9== # min sup T X > sup T X >
)@!
)@!
14
SIGNIFICATIVIT OSSERVATA
La significativit osservata rappresenta la probabilit di ottenere, quando L! vera, un valore campionario > di X
estremo (nella appropriata direzione) almeno quanto quello osservato. Dunque, la significativit osservata fornisce
una misura su quanto l'ipotesi di base risulta compatibile con i dati campionari.
Una significativit osservata bassa porta a ritenere poco compatibile con i dati campionari l'ipotesi di base, mentre
con una significativit osservata elevata vera l'affermazione contraria.
In una verifica di ipotesi si pu semplicemente riportare la significativit osservata, oppure si pu arrivare ad una
decisione sull'accettazione di L! fissando un livello di significativit .
Se il livello di significativit osservato minore o uguale ad , allora si respinge L! , altrimenti si accetta L! . Il
livello di significativit osservato diventa in questo caso il pi elevato livello di significativit per cui si accetta L! . In
questo caso il livello di significativit osservato diventa non solo uno strumento per la decisione nella verifica di
ipotesi, ma anche una misura quantitativa di questa decisione.
15
INTERVALLI DI CONFIDENZA
Piuttosto che selezionare sulla base del campione un unico valore come nella stima per punti, pu essere utile dal
punto di vista operativo ottenere un insieme di valori plausibili del parametro.
Considerato per semplicit il caso in cui si ha un singolo campione casuale \" \# \8 , sia
T T \" \# \8 ) una quantit pivotale, ovvero una trasformata che dipende dal parametro ma con una
distribuzione non dipende dal parametro stesso. Se -" e -# sono due valori tali che
T -" T \" \# \8 ) -# 1
con ! " e se P P\" \# \8 e Y Y \" \# \8 sono statistiche tali che per ogni )
B" B# B8 -" T B" B# B8 ) -# B" B# B8 PB" B# B 8 ) Y B " B # B 8
allora l'intervallo casuale P Y detto intervallo di confidenza di ) al livello di confidenza " .
Se la quantit pivotale distribution-free, ovvero se la sua distribuzione rimane invariata per un modello
distribution-free, allora il realtivo intervallo di confidenza detto distributon-free.
La nozione di intervallo di confidenza deve essere adoperata con un cautela, ovvero non si deve affermare che il
vero valore del parametro contenuto in un intervallo con probabilit pari a " . In termini rigorosi di probabilit,
una volta che l'intervallo di confidenza stato determinato sul campione, questo contiene il vero valore con probabilit
! o ". Si pu affermare invece che l'intervallo di confidenza la determinazione di un procedimento casuale che sceglie
intervalli in modo tale che la probabilit di ottenere un intervallo contenente il vero valore del parametro pari a
" .
16
INTERVALLI DI CONFIDENZA
Esiste una stretta connessione tra il problema della stima per intervalli e quello della verifica di ipotesi. Questa
anche la ragione per cui la stima per intervalli viene analizzata successivamente alla teoria relativa alla verifica di
ipotesi.
Pi esattamente, se si considera il sistema di ipotesi L! ) )! contro L" ) )! , esiste una equivalenza tra la
regione critica della statistica test e l'intervallo di confidenza di ). Questa considerazione consente di costruire un
intervallo di confidenza per un dato parametro partendo da un opportuno sistema di ipotesi.
Evidentemente nel caso di un modello classico, l'intervallo di confidenza viene costruito a partire dal test del
rapporto delle verosimiglianze. Al contrario, l'intervallo di confidenza risulta distribution-free se costruito a
partire da un test distribution-free.
Esiste anche una connessione fra test e stima per punti. La stima per punti risulta usualmente il valore centrale
dell'intervallo di confidenza.
17
INTERVALLI DI CONFIDENZA
Esempio. Se si considera un campione casuale da \ R . ", una possibile quantit pivot data da 8\ ..
Questa variabile casuale in effetti una quantit pivot, dal momento che la sua distribuzione non dipende da . essendo
8\
. R ! ". Scelto un livello di confidenza " , risulta
da cui
. D"# B" B8 B
D"# 8 . B D"# 8
B" B8 D"# 8B
D"# 8 B
D"# 8
B
LETTURE SUGGERITE
Azzalini, A. (1996) Statistical inference, Chapman and Hall, London.
Cox, D.R. and Hinkley, D.V. (1974) Theoretical statistics, Chapman and Hall, London.
Lehmann, E.L. (1983) Testing statistical hypothesis, Wiley, New York.
Maritz, J.S. (1981) Distribution-free statisitical methods, Chapman and Hall, London.
Noether, G.E. (1967) Elements of nonparametric statistics, Wiley, New York.
Randles, R.H. and Wolfe, D.A. (1979) Introduction to the theory of nonparametric statistics, Wiley, New York.
Rao, C.R. (1973) Linear statistical inference and its applications, Wiley, New York.
Wilks, S.S. (1962) Mathematical statistics, Wiley, New York.
19
CAPITOLO 7
INFERENZA CON UNA VARIABILE
8\
.!
X
W-B
che sotto ipotesi di base si distribuisce come X >8" .
Nel caso dell'ipotesi alternativa bilaterale L" . .! , si rifiuta L! per realizzazioni basse o elevate di X . Nel caso
dell'ipotesi alternativa direzionale L" . .! (L" . .! ), si rifiuta L! per realizzazioni elevate (basse) di X .
Inoltre, l'intervallo di confidenza per . al livello di confidenza " basato sul test X risulta
W-B
W-B
>
>
8""
#
8""
8
8
D
"#
"#
8
8
Il test > di Student quindi robusto rispetto all'assunzione di normalit.
I! \3 -!
3"
TEST DI WILCOXON
Con un approccio distribution-free, si consideri un campione casuale da una variabile casuale continua e
simmetrica \ con funzione di ripartizione J B -, dove - rappresenta la mediana. Quindi rispetto alle assunzioni
del test dei segni, si assume l'ulteriore ipotesi di simmetria della distribuzione rispetto alla mediana.
Se si considera il sistema di ipotesi L! - -! contro L" - -! (o una ipotesi direzionale), il test di Wilcoxon
basato sulla statistica test
8
I! \3 -! V3
3"
dove V" V# V8 rappresentano i ranghi assegnati alle trasformate l\" -! l l\# -! l l\8 -! l. La
distribuzione di [ sotto ipotesi di base pu essere tabulata anche se non pu essere espressa in forma chiusa.
Nel caso dell'ipotesi alternativa bilaterale L" - -! , si rifiuta L! per realizzazioni basse o elevate di F . Nel caso
dell'ipotesi alternativa direzionale L" - -! (L" - -! ), si rifiuta L! per realizzazioni elevate (basse) di F .
Se 5 88 "#, siano [" [# [5 le medie di Walsh, ovvero tutte le possibili 5 semisomme distinte delle
8 osservazioni. La stima di - basata sul test [ la mediana delle medie di Walsh (la pseudomediana). Se A8
rappresenta il quantile di ordine di [ e se [" [# [5 la statistica ordinata relativa alle medie di Walsh,
allora l'intervallo di confidenza per - al livello di confidenza " basato sul test di Wilcoxon risulta
[A8# " [5A8#
9
TEST DI WILCOXON
Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio e il sistema di ipotesi L! - " contro L" - ". Il
comando wilcox.test fornisce l'implementazione del test di Wilcoxon
> wilcox.test(Diameter, alternative = "two.sided", mu = 1, conf.int = TRUE)
Wilcoxon signed rank test
data: Diameter
V = 46, p-value = 0.06445
alternative hypothesis: true location is not equal to 1
95 percent confidence interval:
0.985 1.405
sample estimates:
(pseudo)median
1.19
10
TEST DI PERMUTAZIONE
Con un approccio distribution-free, si consideri un campione scambiabile da una variabile casuale continua e
simmetrica \ con funzione di ripartizione J B -, dove - rappresenta la mediana.
Se si considera il sistema di ipotesi L! - -! contro L" - -! (o una ipotesi direzionale), condizionatamente
alla realizzazione del campione B" B# B8 , sotto ipotesi di base i valori lB3 -! l e lB3 -! l sono ugualmente
probabili. Un test di permutazione basato sulle #8 (ugualmente probabili) permutazioni dei segni delle osservazioni
trasformate lB" -! l lB# -! l lB8 -! l.
Se W" W# W8 rappresenta un vettore scambiabile di variabili casuali di Bernoulli ognuna con parametro "# e
supporto " " il test di permutazione dei segni basato sulla statistica test
8
lB3 -! l W3
X
3"
La distribuzione della statistica test sotto ipotesi di base pu essere tabulata, anche se ovviemente non possibile
esprimerla in forma chiusa.
Nel caso dell'ipotesi alternativa bilaterale L" - -! , si rifiuta L! per realizzazioni basse o elevate di F . Nel caso
dell'ipotesi alternativa direzionale L" - -! (L" - -! ), si rifiuta L! per realizzazioni elevate (basse) di F .
11
TEST DI PERMUTAZIONE
Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. Richiamando la libreria exactRankTests, il
comando wilcox.test fornisce l'implementazione del test di permutazione dei segni. Le osservazioni sono state
moltiplicate per cento al fine di ottenere valori interi per ottenere una elaborazione pi rapida. Di conseguenza anche il
sistema di ipotesi risulta L! - "!! contro L" - "!!.
> library(exactRankTests)
> perm.test(round(100 * Diameter), paired = FALSE,
+
alternative = "two.sided", mu = 100)
1-sample Permutation Test
data: round(100 * Diameter)
T = 237, p-value = 0.07031
alternative hypothesis: true mu is not equal to 100
12
BOOTSTRAP
Con un approccio distribution-free, si supponga che B" B# B8 sia la determinazione di un campione casuale
da una variabile casuale \ con media ..
Condizionatamente alla realizzazione del campione B" B# B8 , la distribuzione bootstrap della media
campionaria pu essere ottenuta considerando tutti i campioni con ripetizione di ordine 8 dai valori B" B# B8 .
Se F" F# F8 rappresenta un vettore di variabili casuali Binomiali (ognuna con parametri 8 e "8) tali che
8
3" F3 8, allora la media campionaria bootstrap data dalla statistica
"
\ BOOT
8
B 3 F3
3"
Se si considera il sistema di ipotesi L! . .! contro L" . .! (o una ipotesi direzionale), il test bootstrap e il
relativo intervallo di confidenza bootstrap possono essere basati sulla statistica test \ BOOT .
La distribuzione della statistica test sotto ipotesi di base pu essere tabulata, anche se ovviemente non possibile
esprimerla in forma chiusa.
Nel caso dell'ipotesi alternativa bilaterale L" . .! , si rifiuta L! per realizzazioni basse o elevate di X . Nel caso
dell'ipotesi alternativa direzionale L" . .! (L" . .! ), si rifiuta L! per realizzazioni elevate (basse) di X .
13
BOOTSTRAP
Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. La distribuzione bootstrap della media campionaria
si pu ottenere mediante i seguenti comandi
> Boot.mean <- numeric(10000)
> for (i in 1:10000) Boot.mean[i] <- mean(sample(Diameter, replace = T))
> hist(Boot.mean, xlab = "Bootstrap sample mean",
+
ylab = "Density", main = "Histogram")
Inoltre, la significativit osservata del test bootstrap pu essere ottenuta mediante il seguente comando
> 2 * length(Boot.mean[Boot.mean < 1]) / 10000
[1] 0.0218
14
BOOTSTRAP
Esempio (segue).
1000
500
0
Density
1500
2000
Histogram
0.8
1.0
1.2
1.4
15
BOOTSTRAP
Esempio (segue). Richiamando la libreria exactRankTests, il comando boot fornisce l'implementazione della
stima bootstrap.
> library(boot)
> m <- function(x, w) sum(x$Diameter * w)
> boot(d, m, R = 9999, stype = "w")
ORDINARY NONPARAMETRIC BOOTSTRAP
Call:
boot(data = d, statistic = m, R = 9999, stype = "w")
Bootstrap Statistics :
original
bias
t1*
1.194 0.0006592659
std. error
0.08684963
16
BOOTSTRAP
Esempio (segue). Il comando boot.ci fornisce l'implementazione dell'intervallo di confidenza bootstrap.
> boot.ci(boot(d, m, R = 9999, stype = "w"), conf = 0.95,
+
type = c("norm", "basic", "perc", "bca"))
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 9999 bootstrap replicates
CALL :
boot.ci(boot.out = boot(d, m, R = 9999, stype = "w"), conf = 0.95,
type = c("norm", "basic", "perc", "bca"))
Intervals :
Level
Normal
95%
( 1.025, 1.363 )
Basic
( 1.028, 1.363 )
Level
Percentile
BCa
95%
( 1.025, 1.360 )
( 1.021, 1.356 )
Calculations and Intervals on Original Scale
17
CAMPIONI APPAIATI
Si consideri le osservazioni relative a 8 soggetti su cui stata osservata una certa variabile prima e dopo un
trattamento, ovvero si hanno le osservazioni B"" B#" B8" prima del trattamento e le osservazioni B"# B## B8#
dopo il trattamento. L'obiettivo quello di valutare l'efficacia del trattamento e i dati di questo tipo sono detti appaiati.
Al fine di analizzare queste osservazioni si costruiscono le differenze delle osservazioni ." .# .8 , dove
.3 B3# B3" .
Supponendo che queste differenze siano realizzazioni di un campione casuale proveniente da una variabile casuale da
H R . 8, la verifica dell'efficacia del trattamento si riduce a considerare il sistema di ipotesi sulla media
L! . ! contro L" . ! (o una ipotesi direzionale). Alternativamente, assumendo H come una variabile casuale
con funzione di ripartizione (non nota) J B - dove - rappresenta la mediana, si pu considerare il sistema di
ipotesi sulla mediana L! - ! contro L" - ! (o una ipotesi direzionale).
In questo caso, sufficiente applicare le procedure di verifica di ipotesi viste in precedenza.
18
CAMPIONI APPAIATI
Esempio. Su 8 pazienti con anemia cronica grave stato misurato l'indice di infarto (in ml/battito/m2 ) prima e dopo
un trattamento medico (Fonte: Bhatia, M.L., Manchanda, S.C. and Roy, S.B., 1969, Coronary haemodinamic studies in
chronic severe anaemia, British Heart Journal 31, 365-374). I dati sono contenuti nel file stroke.txt e vengono
letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\stroke.txt", header = T)
> attach(d)
> Difference <- Post - Pre
La stima di nucleo della funzione di densit viene ottenuta mediante i seguenti comandi
> library(sm)
> sm.density(Difference, hcv(Difference, hstart = 0.01, hend = 100),
+
yht = 0.02, xlim = c(-70, 30), xlab = "Stroke index difference")
> title(main = "Kernel density estimation ('CV' h = 18.272)")
Il diagramma quantile-quantile per la normalit viene ottenuto mediante i seguenti comandi
> qqnorm(Difference)
> qqline(Difference)
19
CAMPIONI APPAIATI
Esempio (segue).
0.015
0.010
0.005
0.000
0.020
-60
-40
-20
20
20
CAMPIONI APPAIATI
Esempio (segue).
-20
-30
-40
-50
Sample Quantiles
-10
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
Theoretical Quantiles
21
CAMPIONI APPAIATI
Esempio (segue). Il sistema di ipotesi L! . ! contro L" . ! pu essere verificato con il test > di Student
> t.test(Difference, alternative = "less", mu = 0)
One Sample t-test
data: Difference
t = -2.8055, df = 7, p-value = 0.01316
alternative hypothesis: true mean is less than 0
95 percent confidence interval:
-Inf -5.64162
sample estimates:
mean of x
-17.375
22
CAMPIONI APPAIATI
Esempio (segue). Il sistema di ipotesi L! - ! contro L" - ! pu essere verificato con il test di Wilcoxon
> wilcox.test(Difference, alternative = "less", mu = 0, conf.int = F)
Wilcoxon signed rank test with continuity correction
data: Difference
V = 1.5, p-value = 0.01244
alternative hypothesis: true location is less than 0
23
TEST DI KOLMOGOROV
Si consideri un campione casuale da una variabile casuale continua \ con funzione di ripartizione J B. Si desidera
verificare il sistema di ipotesi funzionale L! J B J! B aB contro L" J B J! B bB dove J! B una
funzione di ripartizione completamente specificata. Il test si basa sulla statistica di Kolmogorov
s B J! Bl
H sup lJ
B
24
TEST DI KOLMOGOROV
Esempio. Sono stati determinati i carichi da applicare a un campione di fibre di poliestere al fine di provocarne il
cedimento (Fonte: Quesenberry, C.P. and Hales, C., 1980, Concentration bands for uniformity plots, Journal of
Statistical Computation and Simulation 11, 41-53). Si sospetta che la distribuzione dei carichi segua una distribuzione
log-normale. Le osservazioni originali sono state ricalcolate mediante una trasformazione che conduce all'uniformit,
ovvero il nuovo campione deve provenire da una Y ! 1 se l'ipotesi di lognormalit vera . In questo caso si ha
J! B BI!" B I" B
I dati sono contenuti nel file tensile.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\tensile.txt", header = T)
> attach(d)
Il grafico della funzione di ripartizione empirica e di quella teorica viene ottenuto mediante i seguenti comandi
>
+
+
>
>
+
>
25
TEST DI KOLMOGOROV
Esempio (segue).
0.6
0.4
0.2
Empirical
Theorical
0.0
Probability
0.8
1.0
Distribution function
0.0
0.2
0.4
0.6
0.8
1.0
26
TEST DI KOLMOGOROV
Esempio (segue). Il test di Kolmogorov viene ottenuto mediante il seguente comando
> ks.test(Strength, "punif", 0, 1)
One-sample Kolmogorov-Smirnov test
data: Strength
D = 0.2377, p-value = 0.05644
alternative hypothesis: two-sided
27
TEST ;#
Se si considera un campionamento casuale da una variabile casuale discreta a supporto finito o da una variabile
qualitativa \ , allora le osservazioni campionarie sono le frequenze osservate 8" 8# 8< delle realizzazioni
distinte -" -# -< . Se la funzione di probabilit di \ data da :-4 14 (4 " # <), le quantit
81" 81# 81< sono dette frequenze attese.
Si interessati a verificare il sistema di ipotesi L! 14 1!4 a4 contro L" 14 1!4 b4. Dal momento che le
probabilit 14 specificano completamente la funzione di ripartizione di \ , la precedente ipotesi a tutti gli effetti una
ipotesi funzionale.
Per verificare questo sistema di ipotesi si adotta la statistica test Chi-quadrato per la bont d'adattamento data da
<
#
;
4"
84 81!4 #
81!4
La distribuzione per grandi campioni di ;# non dipende dai valori 1!4 e quindi il test distribution-free per
grandi campioni. Sotto ipotesi di base, per 8 la statistica test ;# converge in distribuzione a una ;#<" .
L'approssimazione valida per campioni finiti se 8 $! e se tutte le frequenze attese sono maggiori di uno.
Se le frequenze osservate si discostano molto dalle frequenze attese, si ottengono determinazioni elevate della
statistica test che portano a respingere l'ipotesi di base.
28
TEST ;#
Esempio. stata osservata la prima cifra dei numeri contenuti in un volume della rivista Reader's Digest scelto
casualmente (Fonte: Benford, F., 1938, The law of anomalous numbers, Proceedings of the American Philosophical
Society 78, 551-572). Un modello teorico per questi dati la cosiddetta distribuzione anomala con funzione di
probabilit
:! B log"! B " log"! BI"#* B
I dati sono contenuti nel file benford.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\benford.txt", header = T)
> attach(d)
Le probabilit teoriche vengono calcolate mediante i seguenti comandi
> Theory.Probs <- numeric(9)
> for (i in 1:9) Theory.Probs[i] <- logb(1 + 1 / i, 10)
Il grafico delle distribuzioni di probabilit osservata e di quella teorica viene ottenuto mediante i seguenti comandi
> h <- list(Digit = c(Digit, Digit), Type = c(rep("Theorical", 9),
+
rep("Observed", 9)), Probs = c(Theory.Probs, Counts / sum(Counts)))
> class(Table <- xtabs(Probs ~ ., h))
[1] "xtabs" "table"
> barplot(t(Table), beside = T, legend = colnames(Table),
+
xlab = "Digit", ylab = "Probability",
+
main = "Probability distribution")
29
TEST ;#
Esempio (segue).
Probability distribution
0.20
0.15
0.10
0.05
0.00
Probability
0.25
0.30
Observed
Theorical
Digit
30
TEST ;#
Esempio. Il test ;# viene ottenuto mediante il seguente comando
> chisq.test(xtabs(Counts ~ ., d), p = Theory.Probs)
Chi-squared test for given probabilities
data: xtabs(Counts ~ ., d)
X-squared = 3.2735, df = 8, p-value = 0.916
31
TEST ;#
Esempio. In un esperimento di genetica sono stati considerati ibridi di pomodoro con un rapporto atteso di quattro
fenotipi pari a 9 3 3 1 ottenendo le frequenze del numero di piante generate per ogni fenotipo (Fonte: McArthur, J.W.,
1931, Linkage studies with the tomato III. Fifteen factors in six groups, Transaction of the Royal Canadian Institute 18,
1-19. Si vuole verificare sperimentalmente i risultati della teoria genetica, ovvero l'ipotesi di base
L! 1" *"' 1# $"' 1$ $"' 1% ""'. I dati sono contenuti nel file tomato.txt e vengono letti e resi
disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\tomato.txt", header = T)
> attach(d)
Le probabilit teoriche vengono calcolate mediante i seguenti comandi
> Theory.Probs <- c(9 / 16, 3 / 16, 3 / 16, 1 / 16)
32
TEST ;#
Esempio (segue). Il grafico delle distribuzioni di probabilit osservata e di quella teorica viene ottenuto mediante i
seguenti comandi
> h <- list(Phenotype = c(Phenotype, Phenotype),
+
Type = c(rep("Theoretical", 4), rep("Observed", 4)),
+
Probs = c(Theory.Probs, Counts / sum(Counts)))
> class(Table <- xtabs(Probs ~ ., h))
[1] "xtabs" "table"
> barplot(t(Table), beside = T, legend = colnames(Table),
+
names.arg = c("Tall cut-leaf", "Tall potato-leaf",
+
"Dwarf cut-leaf", "Dwarf potato-leaf"),
+
xlab = "Phenotype", ylab = "Probability",
+
main = "Probability distribution")
33
TEST ;#
Esempio (segue).
Probability distribution
0.3
0.2
0.1
0.0
Probability
0.4
0.5
Observed
Theoretical
Tall cut-leaf
Tall potato-leaf
Dwarf cut-leaf
Dwarf potato-leaf
Phenotype
34
TEST ;#
Esempio. Il test ;# viene ottenuto mediante il seguente comando
> chisq.test(xtabs(Counts ~ ., d), p = Theory.Probs)
Chi-squared test for given probabilities
data: xtabs(Counts ~ ., d)
X-squared = 1.4687, df = 3, p-value = 0.6895
35
TEST ;#
Se la funzione di probabilit di \ dipende da un insieme di 5 parametri non noti ), ovvero se :-4 14 ), il
sistema di ipotesi diventa L! 14 1!4 ) a4 contro L" 14 1!4 ) b4.
s coerente, efficiente per grandi campioni e distribuito normalmente per grandi
Si assuma l'esistenza uno stimatore K
s viene
campioni. Le quantit 81" s) 81# s) 81< s) sono dette frequenze attese stimate. Lo stimatore K
usualmente ottenuto con il metodo della massima verosimiglianza.
Per verificare questo sistema di ipotesi si adotta una opportuna modifica della statistica test Chi-quadrato data da
<
#
;
4"
s #
84 81!4 K
s
81!4 K
La distribuzione per grandi campioni di ;# non dipende dai valori 14 e quindi il test distribution-free per
grandi campioni. Sotto ipotesi di base, per 8 la statistica test ;# converge in distribuzione a ;#<5" .
L'approssimazione valida per campioni finiti se 8 $! e se tutte le frequenze attese stimate sono maggiori di uno.
Se le frequenze osservate si discostano molto dalle frequenze attese stimate, si ottengono determinazioni elevate
della statistica test che portano a respingere l'ipotesi di base.
36
TEST ;#
Esempio. stato osservato il numero di taxi arrivati in ogni intervalli di un minuto alla stazione di Euston a Londra fra
le 9.00 e le 10.00 di una mattina del 1950 (Fonte: Kendall, D.G., 1951, Some problems in the theory of queues, Journal
of the Royal Statistical Society B13, 151-185). Se gli arrivi sono casuali, per la teoria dei processi stocastici, le
osservazioni provengono da una T 9.. Il supporto della Poisson non limitato, e quindi si devono raggruppare le
osservazioni maggiori di un predeterminato valore (in questo caso &) in una unica classe. Si pu verificare inoltre che
lo stimatore di massima verosimiglianza di . coincide con la media campionaria in questo caso. I dati sono contenuti
nel file taxi.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\taxi.txt", header = T)
> attach(d)
Le probabilit teoriche stimate vengono calcolate mediante i seguenti comandi
>
>
>
>
37
TEST ;#
Esempio (segue). Il grafico delle distribuzioni di probabilit osservata e di quella teorica viene ottenuto mediante i
seguenti comandi
> h <- list(Taxi = c(Taxi, Taxi), Type = c(rep("Estimated", 6),
+
rep("Observed", 6)), Probs = c(Theory.Probs, Counts / sum(Counts)))
> class(Table <- xtabs(Probs ~ ., h))
[1] "xtabs" "table"
> barplot(t(Table), beside = T, legend = colnames(Table),
+
names.arg = c("0", "1", "2", "3", "4", "+5"),
+
xlab = "Taxi", ylab = "Probability", main = "Probability distribution")
38
TEST ;#
Esempio (segue).
0.35
Probability distribution
0.20
0.15
0.10
0.05
0.00
Probability
0.25
0.30
Estimated
Observed
+5
Taxi
39
TEST ;#
Esempio. Il test ;# viene ottenuto mediante il seguente comando
> 1 - pchisq(sum((Counts - sum(Counts) * Theory.Probs)^2 /
+
(sum(Counts) * Theory.Probs)), 4)
[1] 0.7380024
40
LETTURE SUGGERITE
Azzalini, A. (1996) Statistical inference, Chapman and Hall, London.
Davison, A.C. and Hinkley, D.V. (1997) Bootstrap methods and their application, Cambridge University Press,
Cambridge.
Efron, B. and Tibshirani, R. (1993) An introduction to the bootstrap, Chapman & Hall, London.
Gibbons, J. D. and Chakraborti, S. (1992) Nonparametric statistical inference, Dekker, New York.
Hajek,
J. (1969) Nonparametric statistics, Holden Day, San Francisco.
41
CAPITOLO 8
INFERENZA CON DUE VARIABILI
Si indichi con ] -" e W-#" la media campionaria e la varianza campionaria delle osservazioni provenienti da ]-" .
Analogamente, si indichi con ] -# e W-## la media campionaria e la varianza campionaria delle osservazioni provenienti
da ]-# .
Sia inoltre
WA#
"
8" W-#" 8# W-##
8
8" 8# 8 # ] -# ] -"
X
8#
WA
che sotto ipotesi di base si distribuisce come X >8# .
Nel caso dell'ipotesi alternativa bilaterale L" ." .# , si rifiuta L! per realizzazioni basse o elevate di X . Nel caso
dell'ipotesi alternativa direzionale L" ." .# (L" ." .# ), si rifiuta L! per realizzazioni basse (elevate) di X .
Il test basato su X distribution-free per grandi campioni dal momento che X converge in distribuzione a una
variabile casuale R ! " per 8 .
Il test > di Student a due campioni quindi robusto rispetto all'assunzione di normalit.
] -# ] - "
X
W-#" 8" W-## 8#
che converge in distribuzione a una variabile casuale R ! " per 8 ed quindi distribution-free per grandi
campioni.
1.6
1.4
1.2
1.0
0.8
1.8
2.0
Box-and-whiskers plot
L1
L2
library(sm)
hcv(Diameter.1, hstart = 0.01, hend = 1)
sm.density(Diameter.1, hcv(Diameter, hstart =
yht = 0.92, xlim = c(-0.35, 2.65),
xlab = "Line 1 ball diameter (micron)")
title(main = "Kernel density estimation ('CV'
hcv(Diameter.2, hstart = 0.01, hend = 1)
sm.density(Diameter.2, hcv(Diameter, hstart =
yht = 0.92, xlim = c(-0.35, 2.65),
xlab = "Line 2 ball diameter (micron)")
title(main = "Kernel density estimation ('CV'
h = 0.32)")
0.01, hend = 1),
h = 0.37)")
0.6
0.0
0.2
0.4
0.6
0.4
0.2
0.0
0.8
0.8
0.0
0.5
1.0
1.5
2.0
2.5
0.0
0.5
1.0
1.5
2.0
2.5
10
11
12
13
TEST DI MANN-WHITNEY
Con un approccio distribution-free, si consideri due campioni casuali indipendenti (di numerosit 8" e 8# con
8 8" 8# ) da una variabile casuale da una variabile casuale ] a due livelli differenti -" e -# di un fattore, tali che
]-" ha funzione di ripartizione J C -" e ]-# ha funzione di ripartizione J C -# , mentre -" e -# rappresentano le
rispettive mediane.
Si indichi come campione misto l'insieme di tutte le 8 osservazioni senza considerare l'effetto del fattore. Inoltre, si
assuma che V" V# V8" siano i ranghi assegnati alle osservazioni provenienti da ]-" nel campione misto, mentre
siano V8" " V8" # V8 i ranghi assegnati alle osservazioni provenienti da ]-# nel campione misto.
Se si considera il sistema di ipotesi L! -" -# contro L" -" -# (o una ipotesi direzionale), il test di MannWithney basato sulla statistica test
8"
V3
3"
La distribuzione di [ sotto ipotesi di base pu essere tabulata anche se non pu essere espressa in forma chiusa.
Nel caso dell'ipotesi alternativa bilaterale L" -" -# , si rifiuta L! per realizzazioni basse o elevate di X . Nel caso
dell'ipotesi alternativa direzionale L" -" -# (L" -" -# ), si rifiuta L! per realizzazioni (basse) di X .
14
TEST DI MANN-WHITNEY
Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. Il sistema di ipotesi L! -" -# contro L" -" -#
pu essere verificato mediante il comando wilcox.test che fornisce l'implementazione del test di Mann-Whitney.
> wilcox.test(Diameter ~ Line, alternative = "two.sided")
Wilcoxon rank sum test with continuity correction
data: Diameter by Line
W = 32.5, p-value = 0.1986
alternative hypothesis: true location shift is not equal to 0
15
TEST DI PERMUTAZIONE
Con un approccio distribution-free, si consideri due campioni scambiabili da una variabile casuale ] a due livelli
differenti -" e -# di un fattore, tali che ]-" ha funzione di ripartizione J C -" e ]-# ha funzione di ripartizione
J C -# , mentre -" e -# rappresentano le rispettive mediane.
Se si considera il sistema di ipotesi L! -" -# contro L" -" -# (o una ipotesi direzionale), condizionatamente
alla realizzazione del campione misto, sotto ipotesi di base ogni partizione del campione misto in due gruppi di
#
numerosit 8" e 8# ugualmente probabile. Dunque, un test di permutazione basato sulle 8"88
(ugualmente
"
B3 W3
3"
La distribuzione della statistica test sotto ipotesi di base pu essere tabulata, anche se ovviemente non possibile
esprimerla in forma chiusa.
Nel caso dell'ipotesi alternativa bilaterale L" -" -# , si rifiuta L! per realizzazioni basse o elevate di X . Nel caso
dell'ipotesi alternativa direzionale L" -" -# (L" -" -# ), si rifiuta L! per realizzazioni (basse) di X .
16
TEST DI PERMUTAZIONE
Si considera di nuovo i dati relativi alle sfere di acciaio. Richiamando la libreria exactRankTests, il comando
wilcox.test fornisce l'implementazione del test di permutazione dei segni. Le osservazioni sono state moltiplicate
per cento al fine di ottenere valori interi per ottenere una elaborazione pi rapida.
> perm.test(round(100 * Diameter.1), round(100 * Diameter.2), paired = F,
+
alternative = "two.sided")
2-sample Permutation Test
data: round(100 * Diameter.1) and round(100 * Diameter.2)
T = 1194, p-value = 0.2105
alternative hypothesis: true mu is not equal to 0
17
BOOTSTRAP
Con un approccio distribution-free, si consideri due campioni casuali da una variabile casuale ] a due livelli
differenti -" e -# di un fattore, tali che ]-" ha funzione di ripartizione J C ." e ]-# ha funzione di ripartizione
J C .# , dove ." e .# rappresentano le rispettive medie.
Condizionatamente alla realizzazione del campione misto, la distribuzione bootstrap della differenza delle medie
campionarie indicata con XBOOT pu essere ottenuta considerando tutti i campioni con ripetizione di ordine 8 dal
campione misto che vengono successivamente ripartiti in due campioni di numerosit 8" e 8# .
Se si considera il sistema di ipotesi L! ." .# contro L" ." .# (o una ipotesi direzionale), il test bootstrap e il
relativo intervallo di confidenza bootstrap pu essere basato sulla statistica test XBOOT .
La distribuzione della statistica test sotto ipotesi di base pu essere tabulata, anche se ovviemente non possibile
esprimerla in forma chiusa.
18
BOOTSTRAP
Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. La significativit osservata del test bootstrap pu
essere ottenuta mediante i seguenti comandi
> Boot.meandif <- numeric(10000)
> Boot.sample <- numeric(length(Diameter))
> for (i in 1:10000) {Boot.sample <- sample(Diameter, replace = T);
+
Boot.diameter1 <- Boot.sample[c(1:length(Diameter.1))];
+
Boot.diameter2 <+
Boot.sample[c((length(Diameter.1) + 1):length(Diameter))];
+
Boot.meandif[i] <- mean(Boot.diameter1) - mean(Boot.diameter2)}
> hist(Boot.meandif, xlab = "Bootstrap sample mean difference",
+
ylab = "Density", main = "Histogram")
> 2 * length(Boot.meandif[Boot.meandif <
+
mean(Diameter.1) - mean(Diameter.2)]) / 10000
[1] 0.191
19
TEST DI KOLMOGOROV-SMIRNOV
Con un approccio distribution-free, si consideri due campioni casuali indipendenti (di numerosit 8" e 8# con
8 8" 8# ) da una variabile casuale da una variabile casuale ] a due livelli differenti -" e -# di un fattore, tali che
s -" C e J
s -# C siano
]-" ha funzione di ripartizione J-" C e ]-# ha funzione di ripartizione J-# C. Si assuma che J
rispettivamente le funzioni di ripartizione empiriche relativa alle osservazioni provenienti da ]-" e ]-# nel campione
misto.
Se si considera il sistema di ipotesi L! J-" C J-# C aC contro L" J-" C J-# C bC , il test di KolmogorovSmirnov basato sulla statistica test
s -" C J
s -# Cl
H sup lJ
C
20
TEST DI KOLMOGOROV-SMIRNOV
Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. I grafici delle due funzioni di ripartizione empiriche
sono ottenute mediante i seguenti comandi
> plot(ecdf(Diameter.1), do.points = F, verticals = T, xlim = c(0.5, 2.0),
+
lty = 1, xlab = "Ball diameter (micron)", ylab = "Probability",
+
main = "Empirical distribution function")
> plot(ecdf(Diameter.2), do.points = F, verticals = T, lty = 3, add = T)
> legend(1.5, 0.3, c("Line 1", "Line 2"), lty = c(1, 3))
21
TEST DI KOLMOGOROV-SMIRNOV
Esempio (segue).
0.6
0.4
0.2
Line 1
Line 2
0.0
Probability
0.8
1.0
0.5
1.0
1.5
2.0
22
TEST DI KOLMOGOROV-SMIRNOV
Esempio. Il sistema di ipotesi L! J-" C J-# C aC contro L" J-" C J-# C bC pu essere verificato mediante il
seguente comando
> ks.test(Diameter.1, Diameter.2)
Two-sample Kolmogorov-Smirnov test
data: Diameter.1 and Diameter.2
D = 0.4, p-value = 0.4005
alternative hypothesis: two-sided
23
Siano ] -4 e W-#4 la media campionaria e la varianza campionaria delle osservazioni provenienti da ] -4 , mentre siano
W,#
"
<
84 ] -4 ] #
4"
e
WA#
"
<
84 W-#4
4"
le cosiddette varianza between (ovvero fra i gruppi) e varianza within (ovvero all'interno dei gruppi). Gli
stimatori ] -" ] -# ] -< e WA# sono gli stimatori di massima verosimiglianza di ." .# .< e 5 # ,
rispettivamente.
Se si considera il sistema di ipotesi L! ." .# .< contro L" .4 .6 b4 6 il test del rapporto delle
verosimiglianze fornisce il test J di Fisher per l'analisi della varianza basato sulla statistica test
8 7W,#
J
7 "WA#
che sotto ipotesi di base si distribuisce J J<"8< . L'ipotesi di base viene rifiutata per realizzazioni elevate di J .
24
25
Speed.1
Speed.2
Speed.3
Speed.4
Speed.5
<<<<<-
split(Speed,
split(Speed,
split(Speed,
split(Speed,
split(Speed,
Trial)[[1]]
Trial)[[2]]
Trial)[[3]]
Trial)[[4]]
Trial)[[5]]
26
700
800
900
1000
Box-and-whiskers plot
T1
T2
T3
T4
T5
Experiment Number
27
library(sm)
par(mfrow = c(3, 2))
sm.density(Speed.1, hnorm(Speed.1), yht =
xlab = "Ligth speed (Trial 1)")
title(main = "Kernel density estimation")
sm.density(Speed.2, hnorm(Speed.2), yht =
xlab = "Ligth speed (Trial 2)")
title(main = "Kernel density estimation")
sm.density(Speed.3, hnorm(Speed.3), yht =
xlab = "Ligth speed (Trial 3)")
title(main = "Kernel density estimation")
sm.density(Speed.4, hnorm(Speed.4), yht =
xlab = "Ligth speed (Trial 4)")
title(main = "Kernel density estimation")
sm.density(Speed.5, hnorm(Speed.5), yht =
xlab = "Ligth speed (Trial 5)")
title(main = "Kernel density estimation")
par(mfrow = c(1, 1))
28
700
800
900
1000
1100
0.008
0.004
0.000
700
800
900
1000
700
800
900
1000
1100
1100
0.000
0.004
0.008
600
700
800
900
1000
1100
0.004
0.008
0.000
600
0.004
600
0.008
600
0.000
0.004
0.008
0.000
Esempio (segue).
600
700
800
900
1000
1100
29
30
diff
-53.0
-64.0
-88.5
-77.5
-11.0
-35.5
-24.5
-24.5
-13.5
11.0
lwr
upr
p adj
-118.28006 12.280058 0.1679880
-129.28006
1.280058 0.0574625
-153.78006 -23.219942 0.0025733
-142.78006 -12.219942 0.0115793
-76.28006 54.280058 0.9899661
-100.78006 29.780058 0.5571665
-89.78006 40.780058 0.8343360
-89.78006 40.780058 0.8343360
-78.78006 51.780058 0.9784065
-54.28006 76.280058 0.9899661
31
TEST DI KRUSKAL-WALLIS
Con un approccio distribution-free, si consideri < campioni casuali indipendenti (ciascuno di numerosit 84 e tali
che <4" 84 8) da una variabile casuale ] a < livelli differenti -" -# -< di un fattore, tali che ]-4 ha funzione di
ripartizione J C -4 e -4 rappresenta la rispettiva mediana.
Si assuma che V-4 sia la somma dei ranghi assegnati alle osservazioni provenienti da ]-4 nel campione misto.
Se si considera il sistema di ipotesi L! -" -# -< contro L" -4 -6 b4 6, il test di Kruskal-Wallis
basato sulla statistica test
"#
L
88 "
<
84 V-4 84 8 "##
4"
La distribuzione di L sotto ipotesi di base pu essere tabulata anche se non pu essere espressa in forma chiusa.
Inoltre, per grandi campioni L converge in distribuzione ad una ;#<" .
Evidentemente, valori elevati della realizzazione di J portano al rifiuto dell'ipotesi di base.
32
TEST DI KRUSKAL-WALLIS
Il test di Kruskal-Wallis viene implementato mediante il seguente comando
> kruskal.test(Speed ~ Trial)
Kruskal-Wallis rank sum test
data: Speed by Trial
Kruskal-Wallis chi-squared = 15.0221, df = 4, p-value = 0.004656
33
Cov\ ]
Var\Var]
implica l'indipendenza delle componenti marginali \ e ] . Dunque la verifica dell'indipendenza si riduce alla verifica
dell'ipotesi L! 3BC ! contro L" 3BC !.
Il test del rapporto delle verosimiglianze fornisce il test basato sul rapporto di correlazione campionario
X 8 #
VBC
#
" VBC
che sotto ipotesi di base si distribuisce come X >8# . Si noti inoltre che J X # J"8# .
Evidentemente, valori elevati della realizzazione di J portano al rifiuto dell'ipotesi di base.
34
library(sm)
plot(Shot, Javelin, xlab = "Shot (meters)", ylab = "Javelin (meters)")
sm.density(d[, c(1, 2)], hcv(d[, c(1, 2)]), display = "slice",
props = c(75, 50, 25), add = T)
title(main = "Kernel density estimation ('CV' h1 = 1.11, h2 = 2.64)")
35
42
40
38
36
Javelin (meters)
44
46
10
11
12
13
14
15
16
Shot (meters)
36
37
38
TEST DI SPEARMAN
Si consideri un campione casuale \" ]" \# ]# \8 ]8 da una variabile casuale bivariata \ ] . Il
coefficiente di correlazione campionario di Spearman il coefficiente di correlazione campionario calcolato sui
ranghi relativi a \" \# \8 e sui ranghi relativi a ]" ]# ]8 .
Il coefficiente di correlazione di Spearman pu essere ottenuto semplicemente ordinando rispetto alle realizzazioni di
]" ]# ]8 e successivamente assegnando i ranghi V" V# V8 alle realizzazioni di \" \# \8 . Il
coefficiente di correlazione di Spearman risulta dunque
"#
3W
88# "
3V3
3"
$8 "
8"
39
TEST DI SPEARMAN
Esempio. Si considera di nuovo i dati dell'eptathlon. Il comando cor.test fornisce l'implementazione del test di
Spearman.
> cor.test(Shot, Javelin, method = "spearman")
Spearman's rank correlation rho
data: Shot and Javelin
S = 2062.793, p-value = 0.3217
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.2066179
40
TEST DI KENDALL
Si consideri un campione casuale \" ]" \# ]# \8 ]8 da una variabile casuale bivariata \ ] . Il
coefficiente di correlazione di Kendall dato dalla percentuale di coppie campionarie concordanti (ovvero coppie
campionarie con lo stesso segno)
#
7
88 "
8"
segn\4 \3 segn]4 ]3
3" 43"
41
TEST DI KENDALL
Esempio. Si considera di nuovo i dati dell'eptathlon. Il comando cor.test fornisce l'implementazione del test di
Kendall.
> cor.test(Shot, Javelin, method = "kendall")
Kendall's rank correlation tau
data: Shot and Javelin
z = 1.0515, p-value = 0.293
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
0.1505017
42
;
4" 6"
846 84 86 8#
84 86 8
Hystological type
NS
MC
LP
LD
50
100
150
200
250
Freq
45
46
Il test esatto di Fisher basato sulla statistica test ;# di permutazione che si ottiene calcolando la statistica ;# sulle
8" 8#8 8< tabelle a doppia entrata, ognuna relativa ad una delle possibili permutazioni di gruppi.
La distribuzione della statistica test sotto ipotesi di base pu essere tabulata, anche se ovviemente non possibile
esprimerla in forma chiusa.
Determinazioni elevate della statistica test portano a respingere l'ipotesi di base.
47
48
Type
Monozygotic
Dizygotic
10
15
Freq
49
50
LETTURE SUGGERITE
Azzalini, A. (1996) Statistical inference, Chapman and Hall, London.
Davison, A.C. and Hinkley, D.V. (1997) Bootstrap methods and their application, Cambridge University Press,
Cambridge.
Efron, B. and Tibshirani, R. (1993) An introduction to the bootstrap, Chapman & Hall, London.
Fisher, R. A. (1970) Statistical methods for research workers, Oliver & Boyd, London.
Gibbons, J. D. and Chakraborti, S. (1992) Nonparametric statistical inference, Dekker, New York.
Hajek,
J. (1969) Nonparametric statistics, Holden Day, San Francisco.
51
CAPITOLO 9
REGRESSIONE
REGRESSIONE
Nella sua versione pi semplice, ovvero quando si dispone di un regressore e di una variabile di risposta, il modello
statistico di regressione analizza la struttura di dipendenza fra le due variabili.
Il modello di regressione lineare assume ovviamente un legame lineare fra le variabili.
I modelli di regressione lineari generalizzati estendono il modello di regressione lineare. Casi particolari di questi
modelli sono la regressione di Poisson e la regressione logistica.
REGRESSIONE LINEARE
Si consideri il modello di regressione lineare
]3 "! "" B3 X3
dove X" X# X8 sono variabili casuali indipendenti (detti errori) tali che EX3 ! e VarX3 5 # .
La formulazione alternativa del modello di regressione lineare data quindi dalle relazioni
E]3 "! "" B3
e
Var]3 5 #
REGRESSIONE LINEARE
Le stime di "! e "" ottenute con il metodo dei minimi quadrati (che coincidono con le stime di massima
verosimiglianza assumendo la normalit di X3 ) risultano
s
" ! C s
""B
e
=BC
s
"" #
=B
Indicando per semplicit di notazione stima e stimatore con lo stesso simbolo, si ha che s
"! e s
" " sono corretti con
varianze
5# # #
s
Var" ! # =B B
8=B
e
5#
s
Var" " #
8=B
REGRESSIONE LINEARE
I valori stimati risultano inoltre
s! s
" " B3
sC3 "
mentre le quantit C3 sC3 sono detti residui.
Il parametro 5 # pu essere stimato in modo corretto mediante la varianza dei residui, ovvero
=%#
"
8#
C3 sC3 #
3"
Le stime di Vars
" ! e Vars
" " possono essere ottenute sostituendo =%# al posto di 5 # .
REGRESSIONE LINEARE
La variabilit totale delle osservazioni relative alla variabile di risposta pu essere scomposta come
"
8
8
3"
# "
C3 C
8
"
C3 sC 3
8
3"
#
sC 3 C
3"
dove la prima componente rappresenta la variabilit degli errori e la seconda componente la variabilit dovuta al
modello lineare.
Di conseguenza, la quantit
#
VBC
8
C3
3" s
8
3" C3
#
C
# "
C
8
C 3 #
3" C3 s
8
#
3" C3 C
rappresenta la percentuale di variabilit spiegata dalla relazione lineare rispetto alla variabilit totale e rappresenta
il cosiddetto coefficiente di determinazione.
#
Ovviamente, risulta VBC
! " e il valore uno indica la presenza di linearit perfetta. Si dimostra facilmente che
#
#
VBC
<BC
. Evidentemente, ci pu essere una relazione (non lineare) perfetta fra variabile di risposta e regressore per
#
cui VBC
!
REGRESSIONE LINEARE
Esempio. Si dispone delle osservazioni di distanze lineari e stradali fra localit a Sheffield (in km) (Fonte: Gilchrist,
W., 1984, Statistical modelling, Wiley, New York, p.5). La variabile di risposta la distanza stradale, mentre il
regressore la distanza lineare. I dati sono contenuti nel file roaddistance.txt e vengono letti e resi disponibili
mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\roaddistance.txt", header = T)
> attach(d)
Le stime dei parametri del modello di regressione lineare vengono ottenute mediante il seguente comando
> lm(Road ~ Linear)
Call:
lm(formula = Road ~ Linear)
Coefficients:
(Intercept)
0.3791
Linear
1.2694
REGRESSIONE LINEARE
Esempio (segue). Il diagramma di dispersione con retta di regressione stimata viene ottenuto mediante i seguenti
comandi
> plot(Linear, Road, xlab = "Linear distance (km)",
+
ylab = "Road distance (km)", main = "Scatter plot")
> abline(lm(Road ~ Linear))
REGRESSIONE LINEARE
Esempio (segue).
30
25
20
15
10
35
40
Scatter plot
10
15
20
25
REGRESSIONE LINEARE
Oltre alla costruzione dell'indice di determinazione, i residui permettono di considerare le diagnostiche grafiche per
esaminare la validit della relazione linerare.
Il diagramma di Anscombe, che fornisce il diagramma cartesiano dei residui rispetto ai valori stimati, dovrebbe
presentare una disposizione casuale dei punti se effettivamente il modello lineare valido. Questo grafico viene anche
riportato con le radici dei valori assoluti dei residui.
Il diagramma quantile-quantile, che fornisce il diagramma cartesiano dei residui standardizzati e ordinati
rispetto ai quantili della distribuzione normale standardizzata, dovrebbe avere una disposizione dei punti lungo la
bisettrice se l'ipotesi di normalit per gli errori valida.
Il diagramma con le distanze di Cook consente di verificare l'impatto della rimozione di ogni singola osservazione
sulle stime dei parametri e quindi l'influenza delle singole osservazioni.
10
REGRESSIONE LINEARE
Esempio. Si considerano di nuovo i dati relativi alle distanze stradali. I diagrammi di Anscombe, il diagramma
quantile-quantile e il diagramma con le distanze di Cook vengono ottenuti mediante i seguenti comandi
> par(mfrow = c(2, 2))
> plot(lm(Road ~ Linear), which = c(1:4), add.smooth = F)
> par(mfrow = c(1, 1))
11
REGRESSIONE LINEARE
Esempio (segue).
15
20
25
30
2.0
1.0
2
0
-2
Residuals
10
35
-2
17
1.2
11
0.4
0.8
Cook's distance
0.0
Standardized residuals
Scale-Location
15
20
25
Fitted values
-1
Theoretical Quantiles
30
35
Fitted values
10
17
11
0.0
17
-1.0
11
Normal Q-Q
Standardized residuals
Residuals vs Fitted
Cook's distance
17
20
12
10
15
20
Obs. number
12
REGRESSIONE LINEARE
Esempio (segue). I punti che hanno maggiore influenza possono essere evidenzianti sul diagramma di dispersione
mediante i seguenti comandi. Di seguito anche riportato il grafico della stima della funzione di regressione basata
sulla regressione lineare locale.
>
+
>
>
>
>
13
REGRESSIONE LINEARE
Esempio (segue).
40
Scatter plot
30
25
20
15
11
9
10
35
17
10
15
20
25
14
REGRESSIONE LINEARE
Esempio (segue). Il grafico della stima della funzione di regressione basata sulla regressione lineare locale ottenuto
mediante i seguenti comandi.
> library(sm)
> plot(Linear, Road, xlab = "Linear distance (km)",
+
ylab = "Road distance (km)", main = "Scatter plot")
> sm.regression(Linear, Road, method = "df", add = T)
15
REGRESSIONE LINEARE
Esempio (segue).
30
25
20
15
10
35
40
Scatter plot
10
15
20
25
16
REGRESSIONE LINEARE
Per quanto riguarda la verifica delle ipotesi, supponendo la normalit degli errori e di conseguenza la normalit di
]" ]# ]8 , la validit del modello lineare viene verificata considerando il sistema di ipotesi L! "" ! contro
L" "" !.
Questo sistema di ipotesi viene verificato attraverso la statistica test fornita dal rapporto delle verosimiglianze
#
VBC
J 8 #
#
" VBC
17
REGRESSIONE LINEARE
Esempio (segue). Si considerano di nuovo i dati relativi alle distanze stradali. L'analisi relativa alla verifica delle
ipotesi viene implementata mediante il seguente comando
> summary(lm(Road ~ Linear))
Call:
lm(formula = Road ~ Linear)
Residuals:
Min
1Q Median
-2.8231 -1.8604 -0.2011
3Q
1.0263
Max
4.3416
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.37908
1.34401
0.282
0.781
Linear
1.26943
0.07617 16.665 2.19e-12 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.436 on 18 degrees of freedom
Multiple R-Squared: 0.9391,
Adjusted R-squared: 0.9358
F-statistic: 277.7 on 1 and 18 DF, p-value: 2.187e-12
18
REGRESSIONE LINEARE
Esempio (segue). L'analisi relativa alla verifica delle ipotesi con il modello senza intercetta viene implementata
mediante il seguente comando
> summary(lm(Road ~ -1 + Linear))
Call:
lm(formula = Road ~ -1 + Linear)
Residuals:
Min
1Q Median
-2.994 -1.728 -0.097
3Q
1.029
Max
4.489
Coefficients:
Estimate Std. Error t value Pr(>|t|)
Linear 1.28907
0.03012
42.8
<2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.376 on 19 degrees of freedom
Multiple R-Squared: 0.9897,
Adjusted R-squared: 0.9892
F-statistic: 1832 on 1 and 19 DF, p-value: < 2.2e-16
19
La relazione fra la variabile di risposta e il regressore data dalla funzione C K" "! "" LB.
20
21
3Q
0.017967
Max
0.037799
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.846415
0.014195
59.63 3.65e-15 ***
log(Time)
-0.079227
0.002416 -32.80 2.53e-12 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.02339 on 11 degrees of freedom
Multiple R-Squared: 0.9899,
Adjusted R-squared: 0.989
F-statistic: 1076 on 1 and 11 DF, p-value: 2.525e-12
22
23
0.4
0.2
Memory retention
0.6
0.8
Scatter plot
2000
4000
6000
8000
10000
Time (minutes)
24
25
Median
0.0150
3Q
0.2915
Max
0.5540
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
1.1940
0.1156 10.327 5.43e-09 ***
LineL2
0.2120
0.1635
1.297
0.211
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3656 on 18 degrees of freedom
Multiple R-Squared: 0.08541,
Adjusted R-squared: 0.0346
F-statistic: 1.681 on 1 and 18 DF, p-value: 0.2112
26
27
28
REGRESSIONE DI POISSON
Quando le variabili di risposta sono discrete conveniente assumere che ]" ]# ]8 siano variabli casuali di
Poisson.
Questo caso particolare del modello lineare generalizzato costituisce la regressione di Poisson.
La funzione legame canonica la funzione logaritmo, ovvero si ha
logE]3 "! "" B3
29
REGRESSIONE DI POISSON
Esempio. Si dispone delle osservazioni relative alla lunghezza di pezzi di stoffa (in metri) e del relativo numero di
difetti (Fonte: Bissel, A.F., 1972, A negative binomial model with varying element sizes, Biometrika 59, 435-441). La
variabile di risposta il numero di difetti riscontrati, mentre il regressore la lunghezza. I dati sono contenuti nel file
clothes.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\clothes.txt", header = T)
> attach(d)
30
REGRESSIONE DI POISSON
Esempio (segue). L'analisi relativa al modello di regressione di Poisson viene ottenuta mediante il seguente comando
> summary(glm(Defects ~ Length, poisson))
Call:
glm(formula = Defects ~ Length, family = poisson)
Deviance Residuals:
Min
1Q
Median
-2.74127 -1.13312 -0.03904
3Q
0.66179
Coefficients:
Estimate Std. Error z
(Intercept) 0.9717506 0.2124693
Length
0.0019297 0.0003063
--Signif. codes: 0 '***' 0.001 '**'
Max
3.07446
value Pr(>|z|)
4.574 4.79e-06 ***
6.300 2.97e-10 ***
0.01 '*' 0.05 '.' 0.1 ' ' 1
on 31
on 30
degrees of freedom
degrees of freedom
31
REGRESSIONE DI POISSON
Esempio (segue). L'analisi della devianza residua indica la presenza di super dispersione e quindi conveniente
impiegare un metodo di quasi-verosimiglianza, ovvero
> summary(glm(Defects ~ Length, quasipoisson))
Call:
glm(formula = Defects ~ Length, family = quasipoisson)
Deviance Residuals:
Min
1Q
Median
-2.74127 -1.13312 -0.03904
3Q
0.66179
Coefficients:
Estimate Std. Error t
(Intercept) 0.9717506 0.3095033
Length
0.0019297 0.0004462
--Signif. codes: 0 '***' 0.001 '**'
Max
3.07446
value Pr(>|t|)
3.140 0.003781 **
4.325 0.000155 ***
0.01 '*' 0.05 '.' 0.1 ' ' 1
on 31
on 30
degrees of freedom
degrees of freedom
REGRESSIONE DI POISSON
Esempio (segue). La precedente elaborazione indica la validit del modello. Il diagramma di dispersione con la relativa
funzione legame stimata viene ottenuto mediante i seguenti comandi
> plot(Length, Defects, xlab = "Cloth length (m)", ylab = "Defects",
+
main = "Scatter plot")
> lines(seq(0, 1000, 1),
+
exp(predict(glm(Defects ~ Length, quasipoisson),
+
data.frame(Length = seq(0, 1000, 1)))))
33
REGRESSIONE DI POISSON
Esempio (segue).
15
10
5
0
Defects
20
25
Scatter plot
200
400
600
800
34
REGRESSIONE LOGISTICA
Quando le variabili di risposta sono binarie conveniente assumere che ]" ]# ]8 siano variabli casuali di
Bernoulli.
Questo caso particolare del modello lineare generalizzato costituisce la regressione logistica.
La funzione legame canonica la funzione logit, ovvero si ha
log
E]3
" E]3
"! "" B3
35
REGRESSIONE LOGISTICA
Esempio. Si dispone delle osservazioni relative alla presenza di danneggiamento dei pannelli di protezione e delle
temperature (in gradi Fahrenheit) per alcuni voli di shuttle (Fonte: Dalal, S.R., Fowlkes, E.B. e Hoadley, B. (1989) Risk
analysis of the space shuttle: pre-challenger prediction of failure, Journal of the American Statistical Association 84,
945-957). La variabile di risposta la presenza di danneggiamento, mentre il regressore la temperatura. I dati sono
contenuti nel file shuttle.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\shuttle.txt", header = T)
> attach(d)
36
REGRESSIONE LOGISTICA
Esempio (segue). L'analisi relativa al modello di regressione logistica viene ottenuta mediante il seguente comando
> summary(glm(Failure ~ Temp, binomial))
Call:
glm(formula = Failure ~ Temp, family = binomial)
Deviance Residuals:
Min
1Q
Median
-1.0611 -0.7613 -0.3783
3Q
0.4524
Max
2.2175
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 15.0429
7.3786
2.039
0.0415 *
Temp
-0.2322
0.1082 -2.145
0.0320 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 28.267
Residual deviance: 20.315
AIC: 24.315
on 22
on 21
degrees of freedom
degrees of freedom
37
REGRESSIONE LOGISTICA
Esempio (segue). La precedente elaborazione indica una certa adeguatezza del modello. Il diagramma di dispersione
con la relativa funzione legame stimata viene ottenuto mediante i seguenti comandi
> plot(Temp, Failure, xlab = "Temperature (F)", ylab = "Failure",
+
main = "Scatter plot")
> lines(seq(50, 90, 0.1),
+
predict(glm(Failure ~ Temp, binomial),
+
data.frame(Temp = seq(50, 90, 0.1)), type = "response"))
38
REGRESSIONE LOGISTICA
Esempio (segue).
0.0
0.2
0.4
Failure
0.6
0.8
1.0
Scatter plot
55
60
65
70
75
80
Temperature (F)
39
REGRESSIONE LOGISTICA
La regressione logistica pu essere applicata anche quando esistono solo -" -# -< livelli distinti del regressore
(che potrebbero essere anche i valori centrali di classi opportune) per i due livelli (." ! .# " della variabile di
risposta e quindi le osservazioni possono essere organizzate in una tabella a doppia entrata con < righe e # colonne.
In questo caso la regressione logistica pu essere applicata considerando le variabili di risposta
8"# 8" 8## 8# 8<# 8< , ovvero le proporzioni della variabile di risposta per ogni livello del regressore,
ottenendo il modello
log
E84# 84
" E84# 84
"! "" -4
40
REGRESSIONE LOGISTICA
Esempio. Si dispone delle osservazioni relative alla percentuale di un gruppo di adolescenti polacche con menarca per
vari livelli d'et (Fonte: Morgan, B.J.T. (1989) Analysis of quantal response data, Chapman and Hall, London, p.7). La
variabile di risposta la percentuale di adolescenti che hanno avuto il menarca, mentre il regressore l'et. I dati sono
contenuti nel file menarche.txt e vengono letti e resi disponibili mediante i comandi
> d <- read.table("c:\\Rwork\\examples\\menarche.txt", header = T)
> attach(d)
41
REGRESSIONE LOGISTICA
Esempio (segue). L'analisi relativa al modello di regressione logistica viene ottenuta mediante il seguente comando
> Proportion <- cbind(Menarche, Total - Menarche)
> summary(glm(Proportion ~ Age, binomial))
Call:
glm(formula = Proportion ~ Age, family = binomial)
Deviance Residuals:
Min
1Q
Median
-2.0363 -0.9953 -0.4900
3Q
0.7780
Max
1.3675
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -21.22639
0.77068 -27.54
<2e-16 ***
Age
1.63197
0.05895
27.68
<2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 3693.884
Residual deviance:
26.703
AIC: 114.76
on 24
on 23
degrees of freedom
degrees of freedom
REGRESSIONE LOGISTICA
Esempio (segue). La precedente elaborazione indica la validit del modello. Il diagramma di dispersione con la relativa
funzione legame stimata viene ottenuto mediante i seguenti comandi
> plot(Age, Menarche / Total, xlab = "Age (years)",
+
ylab = "Proportion of menstruated girls",
+
main = "Scatter plot")
> lines(seq(9, 18, 0.1),
+
predict(glm(Proportion ~ Age, binomial),
+
data.frame(Age = seq(9, 18, 0.1)), type = "response"))
43
REGRESSIONE LOGISTICA
Esempio (segue).
0.6
0.4
0.2
0.0
0.8
1.0
Scatter plot
10
12
14
16
Age (years)
44
LETTURE SUGGERITE
Agresti, A. (1990) Categorical data analysis, Wiley, New York.
Agresti, A. (1996) An introduction to categorical data analysis, Wiley, New York.
Belsley, D.A., Kuh, E. and Welsch, R.E. (1980) Regression diagnostics, Wiley, New York.
Cook, R.D. and Weisberg, S. (1982) Residuals and influence in regression, Chapman and Hall, London.
Cook, R.D. and Weisberg, S. (1999) Applied regression including computing and graphics, Wiley, New York.
McCullagh, P. and Nelder, J.A. (1989) Generalized linear models, Chapman and Hall, London.
Simonoff, J.S. (2003) Analyzing categorical data, Springer, New York.
45
CAPITOLO 10
REGRESSIONE MULTIPLA
REGRESSIONE MULTIPLA
Il modello di regressione multipla analizza la struttura di dipendenza fra un insieme di regressori e di una
variabile di risposta.
Nella versione pi semplice il modello di regressione multipla assume un legame lineare fra le variabili. Questo
modello include come caso particolare anche l'analisi della varianza.
I modelli di regressione lineari generalizzati possono essere considerati anche quando esistono pi regressori.
"
8:"
C3 sC3 #
3"
8
C3
3" s
8
3" C3
#
C
# "
C
8
C 3 #
3" C3 s
8
#
3" C3 C
2.0
400
1000
25
35
0.0
1.0
2.0
15
Species
1.5
0.0
Area
1000
0.5
Elevation
NearestDistance
15
25
35
20 40 60 80
400
EquatorDistance
20 40 60 80
Median
0.08345
3Q
3.55920
Max
8.23565
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
27.889386
6.181843
4.511 0.00146 **
Area
5.153864
3.098074
1.664 0.13056
Elevation
3.075136
4.000326
0.769 0.46175
EquatorDistance -0.017216
0.005243 -3.284 0.00947 **
NearestDistance 0.016591
0.077573
0.214 0.83541
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.705 on 9 degrees of freedom
Multiple R-Squared: 0.7301,
Adjusted R-squared: 0.6101
F-statistic: 6.085 on 4 and 9 DF, p-value: 0.01182
10
RSS
406.65
431.15
404.59
529.00
889.30
AIC
55.16
55.98
57.09
58.85
66.12
Step: AIC=55.16
Species ~ Area + Elevation + EquatorDistance
Df Sum of Sq
RSS
- Elevation
1
26.06 432.71
<none>
406.65
- Area
1
133.51 540.15
- EquatorDistance 1
537.39 944.04
AIC
54.03
55.16
57.14
64.96
11
1
1
RSS
432.71
342.64 775.35
557.23 989.94
AIC
54.03
60.20
63.62
Call:
lm(formula = Species ~ Area + EquatorDistance)
Residuals:
Min
1Q
-10.637 -4.396
Median
0.899
3Q
4.084
Max
7.273
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
30.797969
4.648155
6.626 3.73e-05 ***
Area
6.683038
2.264403
2.951 0.01318 *
EquatorDistance -0.017057
0.004532 -3.764 0.00313 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.272 on 11 degrees of freedom
Multiple R-Squared: 0.7113,
Adjusted R-squared: 0.6588
F-statistic: 13.55 on 2 and 11 DF, p-value: 0.001077
12
13
REGRESSIONE LINEARE
Esempio (segue).
Residuals vs Fitted
Normal Q-Q
15
20
25
30
1
0
12
-2
10
14
-1
0
-5
12
-10
Residuals
Standardized residuals
14
35
-1
Fitted values
1.5
0.6
0.4
11
14
0.0
0.2
Cook's distance
12
0.8
0.5
1.0
Cook's distance
6
0.0
Standardized residuals
Theoretical Quantiles
Scale-Location
14
10
15
20
25
Fitted values
30
35
10
12
14
Obs. number
14
considerando di fatto due nuovi regressori (dati dai quadrati dei due regressori originali).
Evidentemente, interazioni e dipendenze non lineari potrebbero essere introdotte congiuntamente
#
E]3 "! "" B3" "# B3# "$ B3" B3# "% B#3" "& B3#
16
17
35
40
45
10 20 30 40 50 60
25
40
45
Temperature
70
80
90
Longitude
25
30
35
Latitude
10 20 30 40 50 60
70
80
90
18
Median
0.5577
3Q
3.7330
Max
22.0113
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 98.64523
8.32708 11.846
<2e-16 ***
Latitude
-2.16355
0.17570 -12.314
<2e-16 ***
Longitude
0.13396
0.06314
2.122
0.0386 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.935 on 53 degrees of freedom
Multiple R-Squared: 0.7411,
Adjusted R-squared: 0.7314
F-statistic: 75.88 on 2 and 53 DF, p-value: 2.792e-16
19
20
20
30
40
3
2
-2
-1
Fitted values
Theoretical Quantiles
Scale-Location
Cook's distance
0.4
0.6
52
41
12
0.0
0.0
0.5
1.0
32
0.2
Cook's distance
41
1.5
32
50
52
Standardized residuals
1
-2
32
41
10
0
-10
Residuals
41
52
-1
Standardized residuals
20
52
10
Normal Q-Q
Residuals vs Fitted
10
20
30
40
Fitted values
50
10
20
30
40
50
Obs. number
21
1Q
-3.678680
Median
0.001197
3Q
3.505167
Max
19.667543
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 108.30043
7.84331 13.808
<2e-16 ***
Latitude
-2.28584
0.15992 -14.294
<2e-16 ***
Longitude
0.07522
0.05837
1.289
0.203
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.184 on 52 degrees of freedom
Multiple R-Squared: 0.7971,
Adjusted R-squared: 0.7893
F-statistic: 102.2 on 2 and 52 DF, p-value: < 2.2e-16
22
23
20
30
40
4
3
-1
Fitted values
Theoretical Quantiles
Scale-Location
Cook's distance
0.6
41
53
0.0
0.5
0.0
0.4
Cook's distance
53
1.0
1.5
2
-2
41
Standardized residuals
50
0.2
10
536
-2
32
41
10
Normal Q-Q
-1
Standardized residuals
41
-10
Residuals
20
Residuals vs Fitted
10
20
30
40
Fitted values
50
10
20
30
40
50
Obs. number
24
Median
-0.1268
3Q
3.4107
Max
15.0605
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
259.48952
44.71515
5.803 3.93e-07 ***
Latitude
-6.07039
1.08235 -5.609 7.94e-07 ***
Longitude
-1.61025
0.48139 -3.345 0.001533 **
Latitude:Longitude
0.04220
0.01156
3.649 0.000611 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.247 on 52 degrees of freedom
Multiple R-Squared: 0.7939,
Adjusted R-squared: 0.782
F-statistic: 66.77 on 3 and 52 DF, p-value: < 2.2e-16
25
26
Residuals vs Fitted
2
1
0
5
0
-2
-5
-15
20
40
50
60
-2
-1
Fitted values
Theoretical Quantiles
Scale-Location
Cook's distance
0.6
52
0.0
0.0
0.5
1.0
Cook's distance
0.4
52
1.5
30
0.2
Residuals
10
Standardized residuals
5
6 52
-1
Standardized residuals
10
52
10
20
30
40
Fitted values
50
60
10
20
30
40
50
Obs. number
27
Median
0.04342
3Q
2.49406
Max
9.06776
Coefficients:
Estimate Std. Error t value
(Intercept)
3.908e+02 3.151e+01 12.402
Latitude
-5.891e+00 6.773e-01 -8.698
Longitude
-3.632e+00 3.750e-01 -9.687
I(Longitude^3)
8.064e-05 8.912e-06
9.050
Latitude:Longitude 3.656e-02 7.261e-03
5.035
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05
Pr(>|t|)
< 2e-16
1.20e-11
3.77e-13
3.47e-12
6.34e-06
***
***
***
***
***
28
29
30
40
50
2
1
32
60
-2
-1
Theoretical Quantiles
Scale-Location
Cook's distance
0.4
Fitted values
25
52
1.0
0.5
0.3
32
Cook's distance
52
0.2
1.5
20
13
0.0
0.0
Standardized residuals
10
-2
32
25
52
0
-5
Residuals
52
-1
Standardized residuals
25
0.1
10
Residuals vs Fitted
10
20
30
40
Fitted values
50
60
10
20
30
40
50
Obs. number
30
1
1
RSS
778.71
387.05 1165.76
1250.42 2029.12
AIC
157.41
178.00
209.04
Call:
lm(formula = Temperature ~ Latitude * Longitude + I(Longitude^3))
Residuals:
Min
1Q
-7.30440 -2.85850
Median
0.04342
3Q
2.49406
Max
9.06776
31
Pr(>|t|)
< 2e-16
1.20e-11
3.77e-13
3.47e-12
6.34e-06
***
***
***
***
***
32
33
Median
2.25
3Q
41.75
Max
161.00
Coefficients:
Estimate Std. Error t value
(Intercept)
909.00
16.60 54.762
TrialT2
-53.00
23.47 -2.258
TrialT3
-64.00
23.47 -2.726
TrialT4
-88.50
23.47 -3.770
TrialT5
-77.50
23.47 -3.301
--Signif. codes: 0 '***' 0.001 '**' 0.01
Pr(>|t|)
< 2e-16
0.026251
0.007627
0.000283
0.001356
***
*
**
***
**
34
35
36
37
38
AIC
256.8
257.0
Step: AIC=256.79
Weight ~ Litter + Mother
Df Sum of Sq
RSS
- Litter 3
63.6 3328.5
<none>
3264.9
- Mother 3
775.1 4040.0
AIC
252.0
256.8
263.8
Step: AIC=251.96
Weight ~ Mother
Df Sum of Sq
<none>
- Mother
RSS
3328.5
771.6 4100.1
AIC
252.0
258.7
39
3Q
5.32
Max
12.80
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
55.400
1.910 28.999
<2e-16 ***
MotherB
3.300
2.797
1.180
0.2429
MotherI
-2.038
2.702 -0.754
0.4539
MotherJ
-6.720
2.746 -2.447
0.0175 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 7.642 on 57 degrees of freedom
Multiple R-Squared: 0.1882,
Adjusted R-squared: 0.1455
F-statistic: 4.405 on 3 and 57 DF, p-value: 0.007433
40
41
L'adeguatezza del modello pu essere valutata mediante la devianza che semplicemente la somma dei quadrati dei
residui, ovvero
8
C3 sC3 #
H
3"
42
Deviance explained =
Scale est. = 6.8098
97%
n = 56
43
44
20
10
0
-10
-20
s(Latitude,6.58)
30
40
Esempio (segue).
25
30
35
40
45
Latitude
45
20
10
0
-10
-20
s(Longitude,4.87)
30
40
Esempio (segue).
70
80
90
100
110
120
Longitude
46
Il modello di regressione lineare multiplo un caso particolare di questa classe classe quando le variabili di risposta
sono normali e 1 la funzione identit.
Come nel caso univariato, per ogni distribuzione che si assume per la variabile di risposta esiste una funzione legame
canonica, ovvero una parametrizzazione naturale del modello.
47
Quando si assume che ]" ]# ]8 siano variabili casuali di Bernoulli, si ha la regressione logistica multipla e la
funzione legame canonica la funzione logit, ovvero si ha
log
E]3
" E]3
Quando si hanno delle frequenze relative ai vari livelli dei regressori, la regressione logistica pu essere applicata
considerando le proporzioni della variabile di risposta per ogni livello dei regressori.
I modelli additivi possono essere adattati anche ai modelli lineari generalizzati introducendo una relazione el tipo
1E]3 "! 7" B3" 7# B3# 7: B3:
dove 7" B" 7# B# 7: B: sono funzioni non note.
48
49
40 80
0.0
0.4
0.8
-400
-100
-100
WC.TA
-40 0
-400
RE.TA
40 80
-100
EBIT.TA
25
S.TA
0 10
BVE.BVL
Bankrupt
-100
-100
-40 0
0 10
25
50
51
3Q
0.28999
Max
1.97243
52
on 49
on 47
degrees of freedom
degrees of freedom
53
3Q
0.24542
Max
2.07304
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.05107
1.08850 -2.803 0.00506 **
RE.TA
-0.08277
0.02591 -3.194 0.00140 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 67.908
Residual deviance: 24.256
AIC: 28.256
on 48
on 47
degrees of freedom
degrees of freedom
55
0.6
0.4
0.2
0.0
Bankrupt
0.8
1.0
Scatter plot
-400
-300
-200
-100
56
57
58
59
Cigarette : No
500
1000
1500
Cigarette : Yes
Alcohol use
Yes
No
500
1000
1500
Freq
60
61
62
4
0.02890
5
-0.33428
6
0.09452
7
0.49134
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
5.63342
0.05970 94.361 < 2e-16
AlcoholYes
0.48772
0.07577
6.437 1.22e-10
CigaretteYes
-1.88667
0.16270 -11.596 < 2e-16
MarijuanaYes
-5.30904
0.47520 -11.172 < 2e-16
AlcoholYes:CigaretteYes
2.05453
0.17406 11.803 < 2e-16
AlcoholYes:MarijuanaYes
2.98601
0.46468
6.426 1.31e-10
CigaretteYes:MarijuanaYes 2.84789
0.16384 17.382 < 2e-16
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
***
***
***
***
***
***
***
63
on 7
on 1
degrees of freedom
degrees of freedom
64
LETTURE SUGGERITE
Agresti, A. (1990) Categorical data analysis, Wiley, New York.
Belsley, D.A., Kuh, E. and Welsch, R.E. (1980) Regression diagnostics, Wiley, New York.
Cook, R.D. and Weisberg, S. (1999) Applied regression including computing and graphics, Wiley, New York.
Chambers, J.M. and Hastie, T.J. (1992) Statistical models in S, Wadsworth & Brooks/Cole, New York.
Green, P.J. and Silverman, B.W. (1994) Nonparametric Regression and Generalized Linear Models: A Roughness
Penalty Approach, Chapman and Hall, London.
Hastie, T.J. and Tibshirani, R.J. (1990) Generalized additive models, Chapman and Hall, London.
McCullagh, P. and Nelder, J.A. (1989) Generalized linear models, Chapman and Hall, London.
Simonoff, J.S. (2003) Analyzing categorical data, Springer, New York.
Wood S.N. (2006) Generalized additive models: an introduction with R, Chapman and Hall/CRC Press, London.
65