Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
con R 2.0.1
Fabio Frascati1
Universit`a degli Studi di Firenze
Firenze
Versione 1.0
Giugno 2005
1 Fabio
Indice
1 Le funzioni matematiche
1.1 Funzioni Operatore . . . . .
1.1.1 Operatori matematici
1.1.2 Operatori relazionali
1.1.3 Operatori logici . . .
1.2 Funzioni di base . . . . . . .
1.2.1 sum() . . . . . . . .
1.2.2 prod() . . . . . . . .
1.2.3 abs() . . . . . . . . .
1.2.4 sign() . . . . . . . .
1.3 Funzioni insiemistiche . . .
1.3.1 union() . . . . . . . .
1.3.2 intersect() . . . . . .
1.3.3 setdiff() . . . . . . .
1.4 Funzioni indice . . . . . . .
1.4.1 which() . . . . . . .
1.4.2 which.min() . . . . .
1.4.3 which.max() . . . . .
1.5 Funzioni combinatorie . . .
1.5.1 choose() . . . . . . .
1.5.2 lchoose() . . . . . . .
1.5.3 factorial() . . . . . .
1.6 Funzioni trigonometriche . .
1.6.1 sin() . . . . . . . . .
1.6.2 cos() . . . . . . . . .
1.6.3 tan() . . . . . . . . .
1.6.4 asin() . . . . . . . .
1.6.5 acos() . . . . . . . .
1.6.6 atan() . . . . . . . .
1.6.7 asinh() . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
13
13
14
14
14
15
16
16
17
17
17
18
18
18
18
19
19
19
20
20
21
21
21
22
22
22
23
23
INDICE
1.7
1.8
1.9
1.10
1.11
1.12
1.13
1.14
1.6.8 acosh() . . . . . . . . . . . .
1.6.9 atanh() . . . . . . . . . . .
Funzioni esponenziali e logaritmiche
1.7.1 exp() . . . . . . . . . . . . .
1.7.2 log2() . . . . . . . . . . . .
1.7.3 log10() . . . . . . . . . . . .
1.7.4 log() . . . . . . . . . . . . .
1.7.5 sqrt() . . . . . . . . . . . .
Funzioni di successione . . . . . . .
1.8.1 : . . . . . . . . . . . . . . .
1.8.2 rep() . . . . . . . . . . . . .
1.8.3 sequence() . . . . . . . . . .
1.8.4 seq() . . . . . . . . . . . . .
Funzioni di ordinamento . . . . . .
1.9.1 sort() . . . . . . . . . . . . .
1.9.2 rev() . . . . . . . . . . . . .
1.9.3 order() . . . . . . . . . . . .
Funzioni di arrotondamento . . . .
1.10.1 floor() . . . . . . . . . . . .
1.10.2 ceiling() . . . . . . . . . . .
1.10.3 trunc() . . . . . . . . . . . .
1.10.4 round() . . . . . . . . . . .
1.10.5 signif() . . . . . . . . . . . .
Funzioni avanzate . . . . . . . . . .
1.11.1 gamma() . . . . . . . . . . .
1.11.2 lgamma() . . . . . . . . . .
1.11.3 beta() . . . . . . . . . . . .
1.11.4 lbeta() . . . . . . . . . . . .
Funzioni sui numeri complessi . . .
1.12.1 Re() . . . . . . . . . . . . .
1.12.2 Im() . . . . . . . . . . . . .
1.12.3 Mod() . . . . . . . . . . . .
1.12.4 Conj() . . . . . . . . . . . .
1.12.5 Arg() . . . . . . . . . . . . .
Funzioni cumulate . . . . . . . . .
1.13.1 cumsum() . . . . . . . . . .
1.13.2 cumprod() . . . . . . . . . .
1.13.3 cummin() . . . . . . . . . .
1.13.4 cummax() . . . . . . . . . .
Funzioni in parallelo . . . . . . . .
1.14.1 pmin() . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
24
24
24
25
25
26
26
27
27
27
28
28
29
29
29
29
30
30
31
31
32
32
32
32
33
33
34
35
35
35
35
36
36
37
37
37
37
38
38
38
INDICE
1.14.2 pmax() . . . . . . . .
1.15 Funzioni di analisi numerica
1.15.1 uniroot() . . . . . . .
1.15.2 polyroot() . . . . . .
1.15.3 DD() . . . . . . . . .
1.16 Miscellaneous . . . . . . . .
1.16.1 pi . . . . . . . . . . .
1.16.2 any() . . . . . . . . .
1.16.3 all() . . . . . . . . .
1.16.4 match() . . . . . . .
1.16.5 outer() . . . . . . . .
1.16.6 expression() . . . . .
1.16.7 eval() . . . . . . . .
2 Funzioni statistiche
2.1 Funzioni di base . . . . .
2.1.1 length() . . . . .
2.1.2 min() . . . . . . .
2.1.3 max() . . . . . .
2.2 Indici di posizione . . . .
2.2.1 mean() . . . . . .
2.2.2 weighted.mean()
2.2.3 mean.a() . . . . .
2.2.4 mean.g() . . . . .
2.3 Indici di variabilit`a . . .
2.3.1 range() . . . . . .
2.3.2 quantile() . . . .
2.3.3 median() . . . . .
2.3.4 IQR() . . . . . .
2.3.5 mad() . . . . . .
2.3.6 cv() . . . . . . .
2.3.7 sigma2() . . . . .
2.3.8 var() . . . . . . .
2.3.9 sd() . . . . . . .
2.3.10 COV() . . . . . .
2.3.11 cov() . . . . . . .
2.4 Indici di forma . . . . .
2.4.1 skew() . . . . . .
2.4.2 skewness() . . . .
2.4.3 kurt() . . . . . .
2.4.4 kurtosis() . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
39
40
40
41
41
42
42
42
42
43
43
44
44
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
45
45
45
45
46
46
46
47
48
49
50
50
50
51
51
52
53
53
54
55
55
56
57
57
58
58
59
INDICE
2.5
2.6
2.7
2.8
2.9
2.10
Indici di correlazione . . . . . . . . . .
2.5.1 cor() . . . . . . . . . . . . . . .
2.5.2 acf() . . . . . . . . . . . . . . .
Indici di connessione e di dipendenza in
2.6.1 eta() . . . . . . . . . . . . . . .
2.6.2 gini() . . . . . . . . . . . . . . .
2.6.3 chi2() . . . . . . . . . . . . . .
2.6.4 E() . . . . . . . . . . . . . . . .
Funzioni riassuntive . . . . . . . . . . .
2.7.1 summary() . . . . . . . . . . . .
2.7.2 fivenum() . . . . . . . . . . . .
2.7.3 basicStats() . . . . . . . . . . .
2.7.4 boxplot.stats() . . . . . . . . .
Funzioni di distribuzione di frequenza .
2.8.1 tabulate() . . . . . . . . . . . .
2.8.2 table() . . . . . . . . . . . . . .
2.8.3 unique() . . . . . . . . . . . . .
2.8.4 hist() . . . . . . . . . . . . . . .
2.8.5 cut() . . . . . . . . . . . . . . .
Funzioni di distanza . . . . . . . . . .
2.9.1 mahalanobis() . . . . . . . . . .
2.9.2 dist() . . . . . . . . . . . . . . .
Miscellaneous . . . . . . . . . . . . . .
2.10.1 ic.var() . . . . . . . . . . . . . .
2.10.2 sample() . . . . . . . . . . . . .
2.10.3 rank() . . . . . . . . . . . . . .
2.10.4 diff() . . . . . . . . . . . . . . .
2.10.5 scale() . . . . . . . . . . . . . .
2.10.6 ppoints() . . . . . . . . . . . . .
2.10.7 sweep() . . . . . . . . . . . . .
3 Matrici
3.1 Creazione . . . .
3.1.1 matrix() .
3.1.2 dim() . . .
3.1.3 cbind() . .
3.1.4 rbind() . .
3.1.5 toeplitz()
3.2 Operazioni . . . .
3.2.1 det() . . .
3.2.2 as.vector()
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . .
. . . .
. . . .
media
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
59
59
62
64
64
65
66
67
68
68
70
71
75
77
77
77
78
79
81
81
81
82
83
83
84
84
85
85
86
87
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
89
89
89
89
90
91
91
92
92
92
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE
3.3
3.2.3 norm() . . .
3.2.4 solve() . . .
3.2.5 eigen() . . .
3.2.6 crossprod()
3.2.7 % % . . .
3.2.8 * . . . . . .
3.2.9 kronecker()
3.2.10 diag() . . .
3.2.11 t() . . . . .
3.2.12 dim() . . . .
3.2.13 nrow() . . .
3.2.14 NROW() . .
3.2.15 ncol() . . .
3.2.16 NCOL() . .
3.2.17 colSums() .
3.2.18 colMeans() .
Fattorizzazioni . .
3.3.1 svd() . . . .
3.3.2 qr.Q() . . .
3.3.3 qr.R() . . .
3.3.4 chol() . . .
3.3.5 ginv() . . .
7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
93
94
95
95
96
96
97
97
98
99
99
99
100
100
100
101
101
101
102
102
103
103
.
.
.
.
.
.
.
.
105
. 105
. 105
. 106
. 107
. 107
. 107
. 108
. 109
111
. . . . 111
. . . . 111
. . . . 112
. . . . 114
. . . . 115
INDICE
5.2
5.3
5.4
6 Anova
6.1 Simbologia . . . . . . . . . . . . . . . . . .
6.2 Comandi utili in analisi della varianza . .
6.2.1 factor() . . . . . . . . . . . . . . .
6.2.2 by() . . . . . . . . . . . . . . . . .
6.2.3 tapply() . . . . . . . . . . . . . . .
6.2.4 gl() . . . . . . . . . . . . . . . . . .
6.2.5 levels() . . . . . . . . . . . . . . . .
6.2.6 nlevels() . . . . . . . . . . . . . . .
6.3 Modelli di analisi della varianza . . . . . .
6.3.1 Anova ad una via . . . . . . . . . .
6.3.2 Anova a due vie senza repliche . . .
6.3.3 Anova a due vie con uguale numero
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
di repliche
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
116
116
118
118
119
119
121
122
.
.
.
.
.
.
.
.
.
.
.
.
125
. 125
. 126
. 126
. 127
. 128
. 128
. 129
. 129
. 130
. 130
. 131
. 133
7 Confronti multipli
7.1 Metodo di Tukey . . . . . . . . . . . . . . . . . . . . . . . .
7.1.1 Applicazione in Anova ad una via . . . . . . . . . . .
7.1.2 Applicazione in Anova a due vie senza repliche . . . .
7.1.3 Applicazione in Anova a due vie con uguale numero di
repliche . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Metodo di Bonferroni . . . . . . . . . . . . . . . . . . . . . .
7.2.1 Applicazione in Anova ad una via . . . . . . . . . . .
7.3 Metodo di Student . . . . . . . . . . . . . . . . . . . . . . .
7.3.1 Applicazione in Anova ad una via . . . . . . . . . . .
.
.
.
.
.
143
. 143
. 143
. 144
. 144
. 145
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
137
. 137
. 137
. 138
139
141
141
142
142
INDICE
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
171
171
171
171
173
174
176
176
177
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
179
. 179
. 179
. 180
. 181
. 182
. 183
10
INDICE
11.2 Test basati su altre distribuzioni . . . . . . . . . . . . . . . . . 184
11.2.1 Test Chi-Quadrato GOF . . . . . . . . . . . . . . . . . 184
12 Regressione lineare
12.1 Simbologia . . . . . . . . .
12.2 Stima . . . . . . . . . . .
12.2.1 lm() . . . . . . . .
12.2.2 summary.lm() . . .
12.2.3 vcov() . . . . . . .
12.2.4 lm.fit() . . . . . . .
12.2.5 lsfit() . . . . . . . .
12.2.6 confint() . . . . . .
12.2.7 coef() . . . . . . .
12.2.8 coeftest() . . . . .
12.2.9 boxcox() . . . . . .
12.2.10 box.cox() . . . . .
12.2.11 fitted() . . . . . . .
12.2.12 predict() . . . . . .
12.2.13 predict.lm() . . . .
12.2.14 linear.hypothesis()
12.2.15 lm.ridge() . . . . .
12.3 Adattamento . . . . . . .
12.3.1 logLik() . . . . . .
12.3.2 dwtest() . . . . . .
12.3.3 AIC() . . . . . . .
12.3.4 extractAIC() . . .
12.3.5 deviance() . . . . .
12.3.6 leaps() . . . . . . .
12.3.7 anova() . . . . . .
12.3.8 drop1() . . . . . .
12.3.9 add1() . . . . . . .
12.3.10 bptest() . . . . . .
12.4 Diagnostica . . . . . . . .
12.4.1 ls.diag() . . . . . .
12.4.2 cooks.distance() . .
12.4.3 rstandard() . . . .
12.4.4 rstudent() . . . . .
12.4.5 dffits() . . . . . . .
12.4.6 covratio() . . . . .
12.4.7 lm.influence() . . .
12.4.8 residuals() . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
187
. 187
. 188
. 188
. 189
. 191
. 191
. 192
. 193
. 194
. 194
. 195
. 196
. 196
. 197
. 198
. 200
. 202
. 203
. 203
. 204
. 204
. 205
. 205
. 206
. 207
. 209
. 210
. 212
. 213
. 213
. 215
. 215
. 216
. 216
. 217
. 217
. 218
INDICE
12.4.9 df.residual() . .
12.4.10 hatvalues() . .
12.4.11 hat() . . . . . .
12.4.12 dfbeta() . . . .
12.4.13 dfbetas() . . . .
12.4.14 vif.lm() . . . .
12.4.15 outlier.test.lm()
11
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
218
219
219
220
220
221
221
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
223
. 223
. 224
. 224
. 225
. 227
. 228
. 229
. 230
. 230
. 231
. 232
. 232
. 233
. 235
. 236
. 236
. 237
. 237
. 238
. 238
. 238
. 239
. 239
. 240
. 241
. 241
. 242
. 242
. 243
. 243
. 244
12
INDICE
Capitolo 1
Le funzioni matematiche
1.1
Funzioni Operatore
1.1.1
Operatori matematici
1.1.2
Operatori relazionali
14
Le funzioni matematiche
Esempio:
> 1<2
[1] TRUE
> 3>1.2
[1] TRUE
> 3.4<=8.5
[1] TRUE
> 4==4
[1] TRUE
> 2!=3
[1] TRUE
1.1.3
Operatori logici
1.2
1.2.1
Funzioni di base
sum()
Parametri:
x
15
Significato: somma
Formula:
n
X
xi
i=1
Esempio:
> x
[1] 1.2 2.0 3.0
> sum(x)
[1] 6.2
1.2.2
prod()
Parametri:
x
Significato: prodotto
Formula:
n
Y
xi
i=1
Esempio:
> x
[1] 1 2 3
> prod(x)
[1] 6
16
Le funzioni matematiche
1.2.3
abs()
Parametri:
x
Significato: valore assoluto
Formula:
|x|
Esempio:
> x<--2.3
> abs(x)
[1] 2.3
1.2.4
sign()
Parametri:
x
Significato: segno
Formula:
1
0
sign(x) =
se x > 0
se x = 0
se x < 0
Esempio:
> sign(1.2)
[1] 1
> sign(0)
[1] 0
> sign(-1.2)
[1] -1
1.3
17
Funzioni insiemistiche
1.3.1
union()
Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione m
Significato: unione
Esempio:
> x
[1] 1 2 3 4
> y
[1] 1 2 6 11
> union(x,y)
[1] 1 2 3 4
1.3.2
9 10
9 10 11
intersect()
Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione m
Significato: intersezione
Esempio:
> x
[1] 1 2 3 4
> y
[1] 1 2 6 11
> intersect(x,y)
[1] 1 2 6
9 10
18
Le funzioni matematiche
1.3.3
setdiff()
Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione m
Significato: differenza
Esempio:
> x
[1] 1 2 3 4 5 6 7
> y
[1] 1 2 6 11
> setdiff(x,y)
[1] 3 4 5 7 8 9 10
> setdiff(y,x)
[1] 11
1.4
9 10
Funzioni indice
1.4.1
which()
1.4.2
which.min()
Parametri:
x vettore numerico di dimensione n
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
19
1.4.3
which.max()
Parametri:
x vettore numerico di dimensione n
Significato: indice del primo valore massimo del vettore
Esempio:
> x
[1] 1.2 1.0 2.3 4.0 1.0 4.0
> which.max(x)
[1] 4
1.5
1.5.1
Funzioni combinatorie
choose()
Parametri:
n naturale
k naturale
Significato: coefficiente binomiale
Formula:
n
n!
=
k ! (n k) !
k
20
Le funzioni matematiche
Esempio:
> n<-10
> k<-3
> choose(n,k)
[1] 120
1.5.2
lchoose()
Parametri:
n naturale
k naturale
Significato: logaritmo naturale del coefficiente binomiale
Formula:
n
n!
log
= log
k
k ! (n k) !
Esempio:
> n<-10
> k<-3
> choose(n,k)
[1] 120
> log(choose(n,k))
[1] 4.787492
> lchoose(n,k)
[1] 4.787492
1.5.3
factorial()
Parametri:
n naturale
Significato: fattoriale
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
21
Formula:
n!
Esempio:
> n<-4
> prod(1:n)
[1] 24
> factorial(n)
[1] 24
1.6
Funzioni trigonometriche
1.6.1
sin()
Parametri:
x radianti
Significato: seno
Esempio:
> x<-1.2
> sin(x)
[1] 0.932039
1.6.2
cos()
Parametri:
x radianti
Significato: coseno
Esempio:
> x<-1.2
> cos(x)
[1] 0.3623578
22
Le funzioni matematiche
1.6.3
tan()
Parametri:
x radianti
Significato: tangente
Esempio:
> x<-1.2
> tan(x)
[1] 2.572152
1.6.4
asin()
Parametri:
x tale che | x | 1
Significato: inversa seno
Esempio:
> x<-0.9
> asin(x)
[1] 1.119770
1.6.5
acos()
Parametri:
x tale che | x | 1
Significato: inversa coseno
Esempio:
> x<-0.9
> acos(x)
[1] 0.4510268
1.6.6
23
atan()
Parametri:
x tale che | x | / 2
Significato: inversa tangente
Esempio:
> x<-0.9
> atan(x)
[1] 0.7328151
1.6.7
asinh()
Parametri:
x
Significato: seno iperbolico
Formula:
sinh(x) =
ex ex
2
Esempio:
> x<-2.45
> (exp(x)-exp(-x))/2
[1] 5.751027
> sinh(x)
[1] 5.751027
1.6.8
acosh()
Parametri:
x
Significato: coseno iperbolico
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
24
Le funzioni matematiche
Formula:
cosh(x) =
ex + ex
2
Esempio:
> x<-2.45
> (exp(x)+exp(-x))/2
[1] 5.83732
> cosh(x)
[1] 5.83732
1.6.9
atanh()
Parametri:
x
Significato: tangente iperbolica
Formula:
tanh(x) =
e2 x 1
e2 x + 1
Esempio:
> x<-2.45
> (exp(2*x)-1)/(exp(2*x)+1)
[1] 0.985217
> tanh(x)
[1] 0.985217
1.7
1.7.1
Parametri:
x
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
1.7.2
log2()
Parametri:
x tale che x > 0
Significato: logaritmo in base 2
Formula:
log2 (x)
Esempio:
> x<-1.2
> log2(x)
[1] 0.2630344
1.7.3
log10()
Parametri:
x tale che x > 0
Significato: logaritmo in base 10
Formula:
log10 (x)
25
26
Le funzioni matematiche
Esempio:
> x<-1.2
> log10(x)
[1] 0.07918125
1.7.4
log()
Parametri:
x tale che x > 0
b tale che b > 0
Significato: logaritmo in base b
Formula:
logb (x)
Esempio:
> x<-2
> b<-4
> log(x,b)
[1] 0.5
1.7.5
sqrt()
Parametri:
x tale che x > 0
Significato: radice quadrata
Formula:
Esempio:
> x<-2
> sqrt(x)
[1] 1.414214
1.8
27
Funzioni di successione
1.8.1
1.8.2
9 10
4.1
5.1
6.1
7.1
8.1
9.1 10.1
4.1
5.1
6.1
7.1
8.1
9.1 10.1
rep()
Parametri:
x vettore numerico di dimensione n
times ogni elemento del vettore viene ripetuto lo stesso numero
times di volte
each ogni elemento del vettore viene ripetuto each volte
Significato: replicazioni
Esempio:
> rep(2,times=5)
[1] 2 2 2 2 2
> rep(c(1,2,3),times=5)
[1] 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3
> rep(c(1,2,3),each=2)
[1] 1 1 2 2 3 3
> rep(c(1,2,3),each=c(1,2,3))
[1] 1 2 2 3 3 3
28
Le funzioni matematiche
1.8.3
sequence()
1.8.4
seq()
Parametri:
from punto di partenza
to punto di arrivo
by incremento
length numero di valori
along nome di un secondo vettore
Significato: successione
Esempio:
> seq(from=1,to=3.4,by=0.4)
[1] 1.0 1.4 1.8 2.2 2.6 3.0 3.4
> seq(from=1,to=3.4,length=5)
[1] 1.0 1.6 2.2 2.8 3.4
> seq(from=3.4,to=1,length=5)
[1] 3.4 2.8 2.2 1.6 1.0
> x
[1] 1 2 6 11
> seq(along=x)
[1] 1 2 3 4
> x
[1] 1.2 3.0 7.0 9.0 66.0
> seq(along=x)
[1] 1 2 3 4 5
1.9
29
Funzioni di ordinamento
1.9.1
sort()
Parametri:
x vettore numerico di dimensione n
decreasing = T / F decremento oppure incremento
Significato: ordinamento crescente oppure decrescente
Esempio:
> x
[1] 0.0 1.0 2.0 3.0
> sort(x,decreasing=T)
[1] 87.0 6.7 5.6 3.0
1.9.2
5.6
6.7 87.0
2.0
1.0
0.0
rev()
Parametri:
x vettore numerico di dimensione n
Significato: ordinamento decrescente
Esempio:
> x
[1] 0.0
> rev(x)
[1] 87.0
1.9.3
1.0
2.0
3.0
5.6
6.7 87.0
6.7
5.6
3.0
2.0
1.0
0.0
order()
Parametri:
x vettore numerico di dimensione n
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
30
Le funzioni matematiche
Significato: restituisce la posizione di ogni elemento di x se questo
fosse ordinato in maniera crescente
Esempio:
> x
[1] 2 4
> order(x)
[1] 1 2
> x
[1] 5 5 5 4 4 4 3 3 3 2 2 2 1 1 1
> order(x)
[1] 13 14 15 10 11 12 7 8 9 4
1.10
Funzioni di arrotondamento
1.10.1
floor()
Parametri:
x
Significato: arrotonda allintero inferiore
Formula:
x
[x]
bxc =
[x]1
se x `e intero
se x `e positivo non intero
se x `e negativo non intero
Esempio:
> floor(2)
[1] 2
> floor(2.99)
[1] 2
> floor(-2.01)
[1] -3
1.10.2
31
ceiling()
Parametri:
x
Significato: arrotonda allintero superiore
Formula:
x
[x]+1
dxe =
[x]
se x `e intero
se x `e positivo non intero
se x `e negativo non intero
Esempio:
> ceiling(2)
[1] 2
> ceiling(2.001)
[1] 3
> ceiling(-2.01)
[1] -2
1.10.3
trunc()
Parametri:
x
Significato: tronca la parte decimale
Formula:
[x]
Esempio:
> trunc(2)
[1] 2
> trunc(2.999)
[1] 2
> trunc(-2.01)
[1] -2
32
Le funzioni matematiche
1.10.4
round()
Parametri:
x
n naturale
Significato: arrotonda al numero di cifre specificato da n
Esempio:
> pi
[1] 3.141593
> round(pi,4)
[1] 3.1416
1.10.5
signif()
Parametri:
x
n naturale
Significato: arrotonda al numero di cifre significative specificate da n
Esempio:
> pi
[1] 3.141593
> signif(pi,4)
[1] 3.142
1.11
Funzioni avanzate
1.11.1
gamma()
Parametri:
x tale che x > 0
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
33
Z
(x) =
ux1 eu du
Esempio:
> x<-3.45
> gamma(x)
[1] 3.146312
1.11.2
lgamma()
Parametri:
x tale che x > 0
Significato: logaritmo naturale della funzione gamma
Formula:
log (x)
Esempio:
> x<-3.45
> log(gamma(x))
[1] 1.146231
> lgamma(x)
[1] 1.146231
1.11.3
beta()
Parametri:
x tale che x > 0
y tale che y > 0
Significato: funzione beta
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
34
Le funzioni matematiche
Formula:
(x) (y)
(x + y)
Esempio:
> x<-3.45
> y<-2.3
> gamma(x)*gamma(y)/(gamma(x+y))
[1] 0.04659344
> beta(x,y)
[1] 0.04659344
1.11.4
lbeta()
Parametri:
x tale che x > 0
y tale che y > 0
Significato: logaritmo naturale della funzione beta
Formula:
log
(x) (y)
(x + y)
Esempio:
> x<-3.45
> y<-2.3
> log(gamma(x)*gamma(y)/(gamma(x+y)))
[1] -3.066296
> lbeta(x,y)
[1] -3.066296
1.12
1.12.1
Re()
Parametri:
x
Significato: parte reale
Esempio:
> x<-2+3i
> Re(x)
[1] 2
1.12.2
Im()
Parametri:
x
Significato: parte immaginaria
Esempio:
> x<-2+3i
> Im(x)
[1] 3
1.12.3
Mod()
Parametri:
x
Significato: modulo
35
36
Le funzioni matematiche
Esempio:
> x<-2+3i
> sqrt(2^2+3^2)
[1] 3.605551
> Mod(x)
[1] 3.605551
1.12.4
Conj()
Parametri:
x
Significato: coniugato
Esempio:
> x<-2+3i
> Conj(x)
[1] 2-3i
1.12.5
Arg()
Parametri:
x
Significato: argomento
Esempio:
> x<-2+3i
> atan(3/2)
[1] 0.9827937
> Arg(x)
[1] 0.9827937
1.13
Funzioni cumulate
1.13.1
cumsum()
Parametri:
x
Significato: somma cumulata
Esempio:
> x
[1] 1 2 4 3 5 6
> cumsum(x)
[1] 1 3 7 10 15 21
1.13.2
cumprod()
Parametri:
x
Significato: prodotto cumulato
Esempio:
> x
[1] 1 2 4 3 5 6
> cumprod(x)
[1]
1
2
8
1.13.3
24 120 720
cummin()
Parametri:
x
Significato: minimo cumulato
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
37
38
Le funzioni matematiche
Esempio:
> x
[1] 3 4 3 2
> cummin(x)
[1] 3 3 3 2
> x
[1] 1 3 2 4
> cummin(x)
[1] 1 1 1 1
1.13.4
4 1
2 1
5 1
1 1
cummax()
Parametri:
x
Significato: massimo cumulato
Esempio:
> x
[1] 1 3 2 4
> cummax(x)
[1] 1 3 3 4
> x
[1] 1 3 2 4
> cummax(x)
[1] 1 3 3 4
5 1
5 5
5 1
5 5
1.14
Funzioni in parallelo
1.14.1
pmin()
Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione m
Significato: minimo in parallelo
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
39
Esempio:
> x
[1] 1.20 2.30 0.11 4.50
> y
[1] 1.1 2.1 1.3 4.4
> pmin(x,y)
[1] 1.10 2.10 0.11 4.40
> x
[1] 1.20 2.30 0.11 4.50
> y
[1] 1.1 2.1
> pmin(x,y)
[1] 1.1 2.1 0.11 2.1
Osservazioni: Se m 6= n il vettore di dimensione minore viene ripetuto.
1.14.2
pmax()
Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione m
Significato: massimo in parallelo
Esempio:
> x
[1] 1.20 2.30 0.11 4.50
> y
[1] 1.1 2.1 1.3 4.4
> pmax(x,y)
[1] 1.2 2.3 1.3 4.5
> x
[1] 1.20 2.30 0.11 4.50
> y
[1] 1.1 2.1
> pmax(x,y)
[1] 1.2 2.3 1.1 4.5
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
40
Le funzioni matematiche
Osservazioni: Se m 6= n il vettore di dimensione minore viene ripetuto.
1.15
1.15.1
uniroot()
Parametri:
f funzione
lower estremo inferiore
upper estremo superiore
tol tolleranza
maxiter mumero massimo di iterazioni
Significato: ricerca di uno zero
Output:
$root radice
$f.root valore assunto dalla funzione nel punto individuato
$iter numero di iterazioni
$estim.prec tolleranza
Formula:
f (x) = 0
Esempio:
> f<-function(x) exp(-x)-x
> uniroot(f,lower=0,upper=1,tol=1e-4,maxiter=1000)
1.15.2
polyroot()
Parametri:
a vettore dei coefficienti
Significato: ricerca di uno zero in una funzione polinomiale
Formula:
a0 + a1 x + a2 x 2 + . . . + an x n = 0
Esempio:
>
>
>
>
>
1.15.3
a0<-1
a1<-2
a2<-1
a<-c(a0,a1,a2)
polyroot(a)
DD()
Parametri:
f funzione
name variabile di derivazione
order ordine di derivazione
Significato: derivata simbolica
Esempio:
> DD(expression(exp(-x)-x),name="x",order=1)
-(exp(-x) + 1)
> DD(expression(x*exp(-a)),name="x",order=1)
exp(-a)
41
42
Le funzioni matematiche
1.16
Miscellaneous
1.16.1
pi
Esempio:
> pi
[1] 3.141593
1.16.2
any()
Parametri:
x vettore numerico di dimensione n
Significato: restituisce T se almeno un elemento del vettore soddisfa
ad una condizione assegnata
Esempio:
> x<-c(3,4,3,2,4,1)
> any(x<2)
[1] T
1.16.3
all()
Parametri:
x vettore numerico di dimensione n
Significato: restituisce T se tutti gli elementi del vettore soddisfano
ad una condizione assegnata
1.16 Miscellaneous
43
Esempio:
> x<-c(3,4,3,2,4,1)
> all(x<2)
[1] F
1.16.4
match()
Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione m
nomatch alternativa da inserire al posto di NA
Significato: per ogni elemento di x restituisce la posizione della prima
occorrenza in y
Esempio:
> x
[1] 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5
> y
[1] 2 4
> match(x,y)
[1] NA NA NA 1 1 1 NA NA NA 2
> match(x,y,nomatch=0)
[1] 0 0 0 1 1 1 0 0 0 2 2 2 0 0 0
1.16.5
2 NA NA NA
outer()
Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione m
FUN funzione
Significato: applica FUN per ogni coppia ordinata costituita da un
elemento di x ed uno di y
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
44
Le funzioni matematiche
Esempio:
> x
[1] 1 2 2 4
> y
[1] 1.2 2.3
> outer(x,y,"*")
[,1] [,2]
[1,] 1.2 2.3
[2,] 2.4 4.6
[3,] 2.4 4.6
[4,] 4.8 9.2
1.16.6
expression()
1.16.7
eval()
Capitolo 2
Funzioni statistiche
2.1
Funzioni di base
2.1.1
length()
Parametri:
x vettore numerico di dimensione n
Significato: dimensione
Formula:
n
Esempio:
> x
[1] 1.2 2.3 4.5 6.5
> length(x)
[1] 4
2.1.2
min()
Parametri:
x vettore numerico di dimensione n
Significato: minimo
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
46
Funzioni statistiche
Formula:
x(1)
Esempio:
> x
[1] 1.2 2.3 4.5 6.5
> min(x)
[1] 1.2
2.1.3
max()
Parametri:
x vettore numerico di dimensione n
Significato: massimo
Formula:
x(n)
Esempio:
> x
[1] 1.2 2.3 4.5 6.5
> max(x)
[1] 6.5
2.2
2.2.1
Indici di posizione
mean()
Parametri:
x vettore numerico di dimensione n
trim parametro
Significato: media -trimmed
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
47
Formula:
1
x =
n 2 bn c
nbn c
x(i)
i=bn c+1
Esempio:
> x<-c(1,1.2,3.4,0.8,10.2,9.3,7.34)
> x<-sort(x)
> n<-length(x)
> alpha<-0.26
> mediatroncata<-mean(x[(floor(n*alpha)+1):(n-floor(n*alpha))])
> mediatroncata
[1] 4.448
> mean(x,trim=alpha)
[1] 4.448
> x
[1] 1.00 1.20 3.40
> n<-length(x)
> sum(x)/n
[1] 4.748571
> alpha<-0
> mean(x,trim=alpha)
[1] 4.748571
> x
[1] 1.00 1.20 3.40
> median(x)
[1] 3.4
> alpha<-0.5
> mean(x,trim=alpha)
[1] 3.4
2.2.2
0.80 10.20
9.30
7.34
0.80 10.20
9.30
7.34
weighted.mean()
Parametri:
x vettore numerico di dimensione n
w vettore numerico di pesi di dimensione n
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
48
Funzioni statistiche
Significato: media pesata
Formula:
xW =
n
X
wi
xi Pn
j=1
i=1
wj
Esempio:
> x
[1] 3.7 3.3 3.5 2.8
> w
[1] 5 5 4 1
> sum(x*w)/sum(w)
[1] 3.453333
> weighted.mean(x,w)
[1] 3.453333
> x
[1] 3.7 3.3 3.5 2.8
> w
[1] 0.25 0.25 0.25 0.25
> sum(w)
[1] 1
> sum(x*w)
[1] 3.325
> weighted.mean(x)
[1] 3.325
2.2.3
mean.a()
Parametri:
x vettore numerico di dimensione n di elementi non nulli
Significato: media armonica
Formula:
xA =
1
n
1
Pn
1
i=1 xi
49
Esempio:
> x
[1] 1.2 2.3 4.5 6.5
> 1/mean(1/x)
[1] 2.432817
> mean.a(x)
[1] 2.432817
Osservazioni: E necessario installare la libreria labstatR.
2.2.4
mean.g()
Parametri:
x vettore numerico di dimensione n di elementi positivi
Significato: media geometrica
Formula:
xG =
n
Y
!1 / n
xi
i=1
Esempio:
> x
[1] 1.2 2.3 4.5 6.5
> n<-length(x)
> prod(x)^(1/n)
[1] 2.997497
> mean.g(x)
[1] 2.997497
Osservazioni: E necessario installare la libreria labstatR.
50
Funzioni statistiche
2.3
Indici di variabilit`
a
2.3.1
range()
Parametri:
x vettore numerico di dimensione n
Significato: campo di variazione
Formula:
x(1)
x(n)
Esempio:
> x
[1] 1.0 1.2 3.4 0.8
> min(x)
[1] 0.8
> max(x)
[1] 3.4
> range(x)
[1] 0.8 3.4
2.3.2
quantile()
Parametri:
x vettore numerico di dimensione n
probs valore p di probabilit`a
Significato: quantile al (100 p)%
Formula:
Dato = 1 + (n 1) p
x()
Qp (x) =
x(bc) + ( bc) x(bc+1) x(bc)
se `e intero
se non `e intero
51
Esempio:
> x
[1] 1.20 2.30 0.11 4.50
> x<-sort(x)
> n<-length(x)
> p<-0.34
> alpha<-1+(n-1)*p
> alpha
[1] 2.02
> x[floor(alpha)]+(alpha-floor(alpha))*(x[floor(alpha)+1]-x[floor(alpha)])
[1] 1.222
> quantile(x,probs=p)
34%
1.222
2.3.3
median()
Parametri:
x vettore numerico di dimensione n
Significato: mediana
Formula:
(
Q0.5 (x) =
2.3.4
x( n+1 )
2
0.5 x( n2 ) + x( n2 +1)
se n `e dispari
se n `e pari
IQR()
Parametri:
x vettore numerico di dimensione n
Significato: range interquartile
Formula:
IQR(x) = Q0.75 (x) Q0.25 (x)
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
52
Funzioni statistiche
Esempio:
> Q1<-quantile(x,probs=0.25)[[1]]
> Q3<-quantile(x,probs=0.75)[[1]]
> Q3-Q1
[1] 3.275
> IQR(x)
[1] 3.275
Osservazioni: Calcola i quartili con la funzione quantile().
2.3.5
mad()
Parametri:
x vettore numerico di dimensione n
center parametro rispetto al quale si effettuano gli scarti
constant costante c
Significato: deviazione assoluta da center
Formula:
c Q0.5 ( | x center(x) | )
Esempio:
> x
[1] 3 5 11 14 15 20 22
> c<-1.23
> c*median(abs(x-median(x)))
[1] 7.38
> mad(x,center=median(x),constant=c)
[1] 7.38
>
> x
[1] 3 5 11 14 15 20 22
> c<-1.23
> c*median(abs(x-mean(x)))
[1] 8.785714
> mad(x,center=mean(x),constant=c)
[1] 8.785714
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
2.3.6
53
cv()
Parametri:
x vettore numerico di dimensione n
Significato: coefficiente di variazione
Formula:
cvx =
x
| x |
Esempio:
> x
[1] 1.0 1.2 3.4 0.8
> sigma<-sqrt(sigma2(x))
> sigma/abs(mean(x))
[1] 0.6555055
> cv(x)
[1] 0.6555055
Osservazioni: E necessario installare la libreria labstatR.
2.3.7
sigma2()
Parametri:
x vettore numerico di dimensione n
Significato: varianza della popolazione
Formula:
x2
n
1 X
(xi x)2
=
n i=1
54
Funzioni statistiche
Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> mean((x-mean(x))**2)
[1] 8.2256
> sigma2(x)
[1] 8.2256
>
>
>
>
x<-c(1,2.3,4.5,6.7,8.9)
y<-c(1,3,4,6,8)
z<-cbind(x,y)
sigma2(z)
x
y
x 9.2538 7.7265
y 7.7265 6.5700
Osservazioni: E necessario installare la libreria labstatR.
2.3.8
var()
Parametri:
x vettore numerico di dimensione n
Significato: varianza campionaria
Formula:
s2x
n
1 X
(xi x)2
=
n 1 i=1
Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> n<-length(x)
> sum((x-mean(x))**2)/(n-1)
[1] 10.282
> var(x)
[1] 10.282
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
55
>
>
>
>
x<-c(1,2.3,4.5,6.7,8.9)
y<-c(1,3,4,6,8)
z<-cbind(x,y)
var(z)
x
y
x 10.282 8.585
y 8.585 7.300
2.3.9
sd()
Parametri:
x vettore numerico di dimensione n
Significato: deviazione standard
Formula:
sx =
n
1 X
(xi x)2
n 1 i=1
!1 / 2
Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> n<-length(x)
> sqrt(sum((x-mean(x))**2)/(n-1))
[1] 3.206556
> sd(x)
[1] 3.206556
2.3.10
COV()
Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione n
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
56
Funzioni statistiche
Significato: covarianza nella popolazione
Formula:
xy
1
=
n
n
X
!
xi yi n x y
i=1
Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> y
[1] 1 3 4 6 8
> mean((x-mean(x))*(y-mean(y)))
[1] 6.868
> COV(x,y)
[1] 6.868
Osservazioni: E necessario installare la libreria labstatR.
2.3.11
cov()
Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione n
Significato: covarianza campionaria
Formula:
sxy
1
=
n1
n
X
!
xi yi n x y
i=1
Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> y
[1] 1 3 4 6 8
> n<-length(x)
> sum((x-mean(x))*(y-mean(y)))/(n-1)
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
57
[1] 8.585
> cov(x,y)
[1] 8.585
> z<-cbind(x,y)
> cov(z)
x
y
x 10.282 8.585
y 8.585 7.300
2.4
Indici di forma
2.4.1
skew()
Parametri:
x vettore numerico di dimensione n
Significato: asimmetria nella popolazione
Formula:
n
1 X xi x 3
1 =
n i=1
x
Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> sigma<-sqrt(sigma2(x))
> mean((x-mean(x))^3/sigma^3)
[1] 0.1701538
> skew(x)
[1] 0.1701538
Osservazioni: E necessario installare la libreria labstatR.
58
Funzioni statistiche
2.4.2
skewness()
Parametri:
x vettore numerico di dimensione n
Significato: asimmetria campionaria
Formula:
n
1 X xi x 3
1 =
n i=1
sx
Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> mean((x-mean(x))^3/sd(x)^3)
[1] 0.1217521
> skewness(x)
[1] 0.1217521
Osservazioni: E necessario installare la libreria fBasics.
2.4.3
kurt()
Parametri:
x vettore numerico di dimensione n
Significato: kurtosi nella popolazione
Formula:
n
1 X xi x 4
2 =
n i=1
x
Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> sigma<-sqrt(sigma2(x))
> mean((x-mean(x))^4/sigma^4)
[1] 1.623612
> kurt(x)
[1] 1.623612
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
59
2.4.4
kurtosis()
Parametri:
x vettore numerico di dimensione n
Significato: kurtosi campionaria
Formula:
2 =
n
1 X xi x 4
3
n i=1
sx
Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> mean((x-mean(x))^4/sd(x)^4)-3
[1] -1.960889
> kurtosis(x)
[1] -1.960889
Osservazioni: E necessario installare la libreria fBasics.
2.5
2.5.1
Indici di correlazione
cor()
Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione n
method = pearson / spearman / kendall
Significato: coefficiente di correlazione lineare
60
Funzioni statistiche
Formula:
method = pearson
Pn
r =
xi yi n x y
1 / 2 Pn
2
2 1/2
(x
)
(y
)
i
i
i=1
i=1
i=1
Pn
method = spearman
ai b i n a
b
1 / 2 Pn
Pn
2 1/2
)2
i=1 (ai a
i=1 (bi b)
Pn
rS =
i=1
method = kendall
rK =
Pn1 Pn
2 i=1
j=i+1 sign((xj xi ) (yj yi ))
1 / 2
1 / 2
P
Pg
n (n 1) hj=1 uj (uj 1)
n (n 1) i=1 ti (ti 1)
dove t, u sono i ties di x ed y rispettivamente.
Esempio:
> # coefficiente di pearson
> x
[1] 1 2 2 4 3 3
> y
[1] 6 6 7 7 7 9
> cov(x,y)/(sd(x)*sd(y))
[1] 0.522233
> cor(x,y,method="pearson")
[1] 0.522233
61
62
Funzioni statistiche
[1] 2 3
> den<-(n*(n-1)-sum(t*(t-1)))**0.5*(n*(n-1)-sum(u*(u-1)))^0.5
> num/den
[1] 0.5853694
> cor(x,y,method="kendall")
[1] 0.5853694
2.5.2
acf()
Parametri:
x vettore numerico di dimensione n
lag il valore d del ritardo
type = correlation / covariance / partial tipo di legame
Significato: autocovarianza o autocorrelazione
Output:
$acf autocovarianza o autocorrelazione
$n.used numerosit`a campionaria
$lag il valore d del ritardo
Formula:
$acf
type = correlation
Pnk
(xt x) (xt+k x)
t=1P
(k) =
n
)2
t=1 (xt x
k = 0, 1, 2, . . . , d
type = covariance
(k) =
nk
1 X
(xt x) (xt+k x)
n t=1
k = 0, 1, 2, . . . , d
63
type = partial
1
(1)
(2)
. . . (1)
(1)
1
(1)
. . . (2)
(2)
(1)
1
. . . (3)
.
.
.
.
.
.
.
.
..
.
.
.
.
.
(k 1) (k 2) (k 3) . . . (k)
(k) =
1
(1)
(2)
. . . (k 1)
(1)
1
(1)
. . . (k 2)
(2)
(1)
1
. . . (k 3)
.
.
.
.
.
.
.
.
..
.
.
.
.
.
(k 1) (k 2) (k 3) . . .
1
k = 1, 2, . . . , d
$n.used
n
$lag
d
Esempio:
> x
[1] 1 2 7 3 5 2 0 1 4 5
> n<-length(x)
> d<-4
> sum((x[1:(n-d)]-mean(x))*(x[(d+1):n]-mean(x)))/((n-1)*var(x))
[1] -0.3409091
> acf(x,lag=d,type="correlation",plot=F)$acf[d+1]
[1] -0.3409091
> x
[1] 1 2 7 3 5 2 0 1 4 5
> n<-length(x)
> d<-4
> sum((x[1:(n-d)]-mean(x))*(x[(d+1):n]-mean(x)))/n
[1] -1.5
> acf(x,lag=d,type="covariance",plot=F)$acf[d+1]
[1] -1.5
64
Funzioni statistiche
2.6
2.6.1
eta()
Parametri:
y vettore numerico di dimensione n
f fattore a k livelli
2
Significato: y|f
Formula:
2
y|f
Pk
yj y)2 nj
j=1 (
= Pn
yi y)2
i=1 (
Esempio:
> y
[1] 1.0 1.2 2.1 3.4 5.4 5.6 7.2 3.2 3.0 1.0 2.3
> f
[1] a b c b a c a b b c a
Levels: a b c
> k<-nlevels(f)
> k
[1] 3
> n<-length(f)
> n
[1] 11
> table(f)
f a b c 4 4 3
> n1<-4
> n2<-4
> n3<-3
> enne<-c(n1,n2,n3)
> enne
[1] 4 4 3
> y1medio<-mean(y[f=="a"])
> y2medio<-mean(y[f=="b"])
> y3medio<-mean(y[f=="c"])
> ymedio<-c(y1medio,y2medio,y3medio)
> ymedio
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
2.6.2
gini()
Parametri:
y vettore numerico di dimensione n
Significato: indici di concentrazione
Output:
$G indice di Gini
$R rapporto di concentrazione di Gini
$P proporzioni
$Q somme cumulate
Formula:
$G
G =
2
n1
$R
n
X
i=1
!
Pi
y
i
j=1 (j)
Pn
n
j=1 yj
n1
G
n
$P
0, i / n
i = 1, 2, . . . , n
$Q
0,
i
X
j=1
y(j)
n
.X
yj
i = 1, 2, . . . , n
j=1
65
66
Funzioni statistiche
Esempio:
> y<-c(1,1,1,4,4,5,7,10)
> y<-sort(y)
> n<-length(y)
> G<-2/(n-1)*sum((1:n)/n-cumsum(y)/sum(y))
> G
[1] 0.4545455
> gini(y,plot=F)$G
[1] 0.4545455
> R<-(n-1)/n*G
> R
[1] 0.3977273
> gini(y,plot=F)$R
[1] 0.3977273
Osservazioni: E necessario installare la libreria labstatR.
2.6.3
chi2()
Parametri:
f fattore a k livelli
g fattore a h livelli
Significato: indice di connessione 2
Formula:
Pk Ph (nij nij )2
Pk Ph
n2ij
2
1
i=1
j=1
j=1
i=1
n
n
ij
i nj
=
=
2 = 2
max
n min(k 1, h 1)
min(k 1, h 1)
Esempio:
> f
[1] a b c b a c a b b c a
Levels: a b c
> k<-nlevels(f)
> k
[1] 3
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
2.6.4
E()
Parametri:
f fattore a k livelli di dimensione n
Significato: indice di eterogeneit`a di Gini
Formula:
k
E=
k1
k
1 X 2
1 2
n
n i=1 i
Esempio:
> f
[1] a b c b a c a b b c a
Levels: a b c
> n<-length(f)
> k<-nlevels(f)
> n
> [1] 11
> table(f)
f a b c 4 4 3
> n1<-4
> n2<-4
> n3<-3
> enne<-c(n1,n2,n3)
> enne
[1] 4 4 3
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
67
68
Funzioni statistiche
> k/(k-1)*(1-1/n**2*sum(enne**2))
[1] 0.9917355
> E(f)
[1] 0.9917355
Osservazioni: E necessario installare la libreria labstatR.
2.7
2.7.1
Funzioni riassuntive
summary()
Parametri:
x vettore numerico di dimensione n
Significato: statistiche riassuntive
Output:
[[1]] minimo
[[2]] primo quartile
[[3]] mediana
[[4]] media aritmetica
[[5]] terzo quartile
[[6]] massimo
Formula:
[[1]]
x(1)
[[2]]
Q0.25 (x)
[[3]]
Q0.5 (x)
[[4]]
x
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
69
[[5]]
Q0.75 (x)
[[6]]
x(n)
Esempio:
> x
[1] 1.0 2.3 5.0 6.7 8.0
> min(x)
[1] 1
> summary(x)[[1]]
[1] 1
> quantile(x,probs=0.25)
25%
2.3
> summary(x)[[2]]
[1] 2.3
> median(x)
[1] 5
> summary(x)[[3]]
[1] 5
> mean(x)
[1] 4.6
> summary(x)[[4]]
[1] 4.6
> quantile(x,probs=0.75)
75%
6.7
> summary(x)[[5]]
[1] 6.7
> max(x)
[1] 8
> summary(x)[[6]]
[1] 8
Osservazioni: Calcola i quartili con la funzione quantile().
70
Funzioni statistiche
2.7.2
fivenum()
Parametri:
x vettore numerico di dimensione n
Significato: Tukey fivenumber summaries
Output:
[1] minimo
[2] primo quartile
[3] mediana
[4] terzo quartile
[5] massimo
Formula:
[1]
x(1)
[2]
Q0.25 (x) = Q0.5
x(1) , x(2) , . . . , Q0.5 (x)
[3]
Q0.5 (x)
[4]
Q0.75 (x) = Q0.5
[5]
x(n)
Esempio:
> x
[1] 1.0 2.3 5.0 6.7 8.0
> min(x)
[1] 1
> fivenum(x)[1]
[1] 1
> median(x[x<=median(x)])
[1] 2.3
> fivenum(x)[2]
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
2.7.3
basicStats()
Parametri:
x vettore numerico di dimensione n
ci livello di confidenza 1
Significato: statistiche riassuntive
Output:
[,1][1] numerosit`a campionaria
[,1][2] numero di valori mancanti
[,1][3] minimo
[,1][4] massimo
[,1][5] primo quartile
[,1][6] terzo quartile
[,1][7] media aritmetica
[,1][8] mediana
[,1][9] somma
[,1][10] errore standard della media
[,1][11] estremo inferiore dellintervallo di confidenza
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
71
72
Funzioni statistiche
[,1][12] estremo superiore dellintervallo di confidenza
[,1][13] varianza campionaria
[,1][14] deviazione standard
[,1][15] indice di asimmetria
[,1][16] indice di kurtosi
Formula:
[,1][1]
n
[,1][2]
# NA
[,1][3]
x(1)
[,1][4]
x(n)
[,1][5]
Q0.25 (x)
[,1][6]
Q0.75 (x)
[,1][7]
x
[,1][8]
Q0.5 (x)
[,1][9]
n
X
xi
i=1
[,1][10]
sx / n
[,1][11]
x t1 / 2, n1 sx / n
[,1][12]
x + t1 / 2, n1 sx / n
73
[,1][13]
s2x
[,1][14]
sx
[,1][15]
[,1][16]
n
1 X xi x 3
1 =
n i=1
sx
n
1 X xi x 4
2 =
3
n i=1
sx
Esempio:
> x
[1] 1.0 2.3 5.0 6.7 8.0
> length(x)
[1] 5
> basicStats(x)[,1][1]
[1] 5
> sum(is.na(x))
[1] 0
> basicStats(x)[,1][2]
[1] 0
> min(x)
[1] 1
> basicStats(x)[,1][3]
[1] 1
> max(x)
[1] 8
> basicStats(x)[,1][4]
[1] 8
> quantile(x,probs=0.25)
25%
2.3
> basicStats(x)[,1][5]
[1] 2.3
> quantile(x,probs=0.75)
75%
6.7
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
74
Funzioni statistiche
> basicStats(x)[,1][6]
[1] 6.7
> mean(x)
[1] 4.6
> basicStats(x)[,1][7]
[1] 4.6
> median(x)
[1] 5
> basicStats(x)[,1][8]
[1] 5
> sum(x)
[1] 23
> basicStats(x)[,1][9]
[1] 23
> sd(x)/sqrt(length(x))
[1] 1.311106
> basicStats(x)[,1][10]
[1] 1.311106
> alpha<-0.05
> mean(x)-qt(1-alpha/2,length(x)-1)*sd(x)/sqrt(length(x))
[1] 0.959785
> basicStats(x,ci=1-alpha)[,1][11]
[1] 0.959785
> mean(x)+qt(1-alpha/2,length(x)-1)*sd(x)/sqrt(length(x))
[1] 8.240215
> basicStats(x,ci=1-alpha)[,1][12]
[1] 8.240215
> var(x)
[1] 8.595
> basicStats(x)[,1][13]
[1] 8.595
> sd(x)
[1] 2.931723
> basicStats(x)[,1][14]
[1] 2.931723
> mean((x-mean(x))^3/sd(x)^3)
[1] -0.08091067
> basicStats(x)[,1][15]
[1] -0.08091067
> mean((x-mean(x))^4/sd(x)^4)-3
[1] -2.055005
75
> basicStats(x)[,1][16]
[1] -2.055005
Osservazioni 1: E necessario installare la libreria fBasics.
Osservazioni 2: Calcola i quartili con la funzione quantile().
2.7.4
boxplot.stats()
Parametri:
x vettore numerico di dimensione n
coef coefficiente positivo
Significato: statistiche per il boxplot
Output:
$stats statistiche riassuntive
$n dimensione del vettore di dati
$conf intervallo di notch
$out valori di x esterni allintervallo tra i baffi
Formula:
$stats[1]
min x| x<Q0.25 (x)
AN D
$stats[2]
Q0.25 (x)
$stats[3]
Q0.5 (x)
$stats[4]
Q0.75 (x)
$stats[5]
max x| x>Q0.75 (x)
AN D
76
Funzioni statistiche
$n
n
$conf
$out
x| x<Q0.25 (x)coef IQR(x)
OR
Esempio:
> x<-c(1:100,1000)
> fn<-fivenum(x)
> coef<-1.2
> min(x[x<fn[2] & x>=max(fn[1],fn[2]-coef*(fn[4]-fn[2]))])
[1] 1
> boxplot.stats(x,coef=1.2)$stats[1]
[1] 1
> fn[2]
[1] 26
> boxplot.stats(x,coef=1.2)$stats[2]
[1] 26
> fn[3]
[1] 51
> boxplot.stats(x,coef=1.2)$stats[3]
[1] 51
> fn[4]
[1] 76
> boxplot.stats(x,coef=1.2)$stats[4]
[1] 76
> max(x[x>fn[4] & x<=min(fn[5],fn[4]+coef*(fn[4]-fn[2]))])
[1] 100
> boxplot.stats(x,coef=1.2)$stats[5]
[1] 100
> length(x)
[1] 101
> boxplot.stats(x,coef=1.2)$n
[1] 101
> x[x<fn[2]-coef*(fn[4]-fn[2]) | x>fn[4]+coef*(fn[4]-fn[2])]
[1] 1000
> boxplot.stats(x,coef=1.2)$out
[1] 1000
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
2.8
2.8.1
tabulate()
Parametri:
bin vettore di interi positivi
nbins numero di classi
Significato: distribuzione di frequenza
Esempio:
> bin<-c(2,3,5)
> tabulate(bin)
[1] 0 1 1 0 1
> bin<-c(2,3,3,5)
> tabulate(bin,nbins=10)
[1] 0 1 2 0 1 0 0 0 0 0
> bin<-c(-2,0,2,3,3,5)
> tabulate(bin)
[1] 0 1 2 0 1
> bin<-c(-2,0,2,3,3,5)
> tabulate(bin,nbins=3)
[1] 0 1 2
> bin<-c(0,1,2,3,3,2,2.1)
> tabulate(bin)
[1] 1 3 2
2.8.2
table()
Parametri:
x vettore alfanumerico di dimensione n
Significato: distribuzione di frequenza
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
77
78
Funzioni statistiche
Esempio:
> x
[1] "a" "a" "b" "c" "a" "c"
> table(x)
x
a b c
3 1 2
> x
[1] a b c b a c a b b c a
Levels: a b c
> y
[1] A S A S S S A S S A A
Levels: A S
> table(f,g)
y
x
A S
a 3 1
b 0 4
c 2 1
> x
[1] 1 2 3 2 1 3 1 1 2 3
> table(x)
x
1 2 3
4 3 3
2.8.3
unique()
Parametri:
x vettore alfanumerico di dimensione n
Significato: valori distinti del vettore
79
Esempio:
> x
[1] "a" "a" "b" "c" "a" "c"
> unique(x)
a b c
> x<-c(1,2,3,2,1,3,1,1,2,3)
> unique(x)
[1] 1 2 3
2.8.4
hist()
Parametri:
y vettore numerico di dimensione n
breaks estremi delle classi di ampiezza ai
right = T / F classi chiuse a destra x(i) , x(i+1) oppure a sinistra x(i) , x(i+1)
Significato: istogramma
Output:
$breaks estremi delle classi
$counts frequenze assolute
$density densit`a di frequenza
$mids punti centrali delle classi
Formula:
$breaks
x(i)
i = 1, 2, . . . , m
$counts
ni
$density
ni
n ai
i = 1, 2, . . . , m 1
i = 1, 2, . . . , m 1
80
Funzioni statistiche
$mids
x(i) + x(i+1)
2
i = 1, 2, . . . , m 1
Esempio:
> y
[1] 51.10 52.30 66.70 77.10 77.15 77.17
> n<-length(y)
> m<-4
> x1<-50
> x2<-65
> x3<-70
> x4<-85
> x<-c(x1,x2,x3,x4)
> a1<-65-50
> a2<-70-65
> a3<-85-70
> a<-c(a1,a2,a3)
> x
[1] 50 65 70 85
> hist(y,breaks=x,right=F,plot=F)$breaks
[1] 50 65 70 85
> count<-numeric(m-1)
> count[1]<-sum(y>=x1 & y<x2)
> count[2]<-sum(y>=x2 & y<x3)
> count[3]<-sum(y>=x3 & y<x4)
> count
[1] 2 1 3
> hist(y,breaks=x,right=F,plot=F)$counts
[1] 2 1 3
> count/(n*a)
[1] 0.02222222 0.03333333 0.03333333
> hist(y,breaks=x,right=F,plot=F)$density
[1] 0.02222222 0.03333333 0.03333333
> (x[-m]+x[-1])/2
[1] 57.5 67.5 77.5
> hist(y,breaks=x,right=F,plot=F)$mids
[1] 57.5 67.5 77.5
2.8.5
81
cut()
Parametri:
y vettore numerico di dimensione n
breaks estremi delle classi di ampiezza ai
right = T / F classi chiuse a destra x(i) , x(i+1) oppure a sinistra x(i) , x(i+1)
labels etichette
Significato: raggruppamento dei dati in classi
Esempio:
> y
[1] 1.20 2.30 4.50 5.40 3.40 5.40 2.30 2.10 1.23 4.30 0.30
> cut(y,breaks=c(0,2,4,6),labels=c("0-2","2-4","4-6"))
[1] 0-2 2-4 4-6 4-6 2-4 4-6 2-4 2-4 0-2 4-6 0-2
Levels: 0-2 2-4 4-6
Osservazioni: Il comando cut crea un oggetto di tipo factor.
2.9
2.9.1
Funzioni di distanza
mahalanobis()
Parametri:
x vettore numerico di dimensione n
center parametro rispetto al quale si considerano gli scarti
A matrice invertibile di dimensione n n
inverted = T / F matrice A oppure A1
Significato: formula di Mahalanobis
Formula:
(x center(x))T A (x center(x))
(x center(x))T A1 (x center(x))
se inverted = T
se inverted = F
82
Funzioni statistiche
Esempio:
> x
[1] 1 2 3 4 5 6 7 8 9 10
> A<-matrix(rnorm(100),nrow=10,ncol=10)
> det(A)!=0
[1] TRUE
> as.numeric(t(x-mean(x))%*%A%*%(x-mean(x)))
[1] 127.1101
> mahalanobis(x,center=mean(x),A,inverted=T)
[1] 127.1101
> x
[1] 1 2 3 4 5 6 7 8 9 10
> A<-matrix(rnorm(100),nrow=10,ncol=10)
> as.numeric(t(x-median(x))%*%solve(A)%*%(x-median(x)))
[1] 42.86114
> mahalanobis(x,center=median(x),A,inverted=F)
[1] 42.86114
2.9.2
dist()
Parametri:
x matrice di dimensione k n
method = euclidean / minkowski formula per la distanza
p potenza per la distanza di minkowski
Significato: matrice di distanza per i k vettori di dimensione n
Formula:
method = euclidean
n
X
!1 / 2
(xih xjh )2
i, j = 1, 2, . . . , k
h=1
2.10 Miscellaneous
83
method = minkowski
n
X
!1 / p
p
|xih xjh |
i, j = 1, 2, . . . , k
h=1
Esempio:
>
>
>
>
>
x<-matrix(rnorm(30),nrow=3,ncol=10)
k<-3
n<-10
dist(x,method="euclidean",upper=T,diag=T)
dist(x,method="minkowski",p=1,upper=T,diag=T)
2.10
Miscellaneous
2.10.1
ic.var()
(n 1) s2x
21 / 2, n1
(n 1) s2x
2 / 2, n1
Esempio:
> x
[1] 1.2 3.4 4.2 12.4 13.4 17.3 18.1
> n<-length(x)
> alpha<-0.05
> lower<-(n-1)*var(x)/qchisq(1-alpha/2,n-1)
> upper<-(n-1)*var(x)/qchisq(alpha/2,n-1)
> c(lower,upper)
[1] 20.12959 235.06797
> ic.var(x,conf.level=1-alpha)
[1] 20.12959 235.06797
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
84
Funzioni statistiche
Osservazioni: E necessario installare la libreria labstatR.
2.10.2
sample()
Parametri:
x vettore alfanumerico
size ampiezza campionaria
replace = T / F estrazione con oppure senza ripetizione
Significato: estrazione campionaria
Esempio:
> sample(c("A","B"),size=10,replace=T)
[1] "A" "A" "A" "B" "A" "B" "A" "A" "B" "B"
> sample(c(0,1),size=5,replace=T)
[1] 0 1 0 0 0
> sample(1:10,size=3,replace=F)
[1] 6 8 4
2.10.3
rank()
Parametri:
x vettore numerico di dimensione n
Significato: rango
Esempio:
> x
[1] 1 2 3 4 2 3 4
> rank(x)
[1] 1.0 2.5 4.5 6.5 2.5 4.5 6.5
> x
[1]
9 10
2.10 Miscellaneous
> rank(x)
[1] 1 2
> x
[1] 10 9
> rank(x)
[1] 10 9
2.10.4
85
9 10
diff()
Parametri:
x vettore numerico di dimensione n
lag il parametro d del ritardo
Significato: differenze d-esime
Formula:
xt xtd
t = d + 1, d + 2, . . . , n
Esempio:
> x
[1] 1 2 4 3 5 6 -9
> n<-length(x)
> n
[1] 7
> d<-2
> x[-(1:d)]-x[-((n-d+1):n)]
[1]
3
1
1
3 -14
> diff(x,lag=d)
[1]
3
1
1
3 -14
2.10.5
scale()
Parametri:
x vettore numerico di dimensione n
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
86
Funzioni statistiche
center = T / F parametro di posizione
scale = T / F parametro di scala
Significato: centratura o normalizzazione
Formula:
center = T
center = F
x/
scale = T
(
x x ) / sx
q
P
1
n1
n
i=1
scale = F
x x
x2i
Esempio:
> x
[1] 1.2 3.4 4.2 12.4 13.4 17.3 18.1
> (x-mean(x))/sd(x)
[1] -1.264 -0.948 -0.833 0.345 0.488 1.048 1.163
> as.numeric(scale(x,center=T,scale=T))
[1] -1.264 -0.948 -0.833 0.345 0.488 1.048 1.163
> x-mean(x)
[1] -8.8 -6.6 -5.8 2.4 3.4 7.3 8.1
> as.numeric(scale(x,center=T,scale=F))
[1] -8.8 -6.6 -5.8 2.4 3.4 7.3 8.1
> x/sqrt(sum(x**2)/(length(x)-1))
[1] 0.0934 0.2646 0.3268 0.9649 1.0427 1.3462 1.4085
> as.numeric(scale(x,center=F,scale=T))
[1] 0.0934 0.2646 0.3268 0.9649 1.0427 1.3462 1.4085
> x
[1] 1.2 3.4 4.2 12.4 13.4 17.3 18.1
> as.numeric(scale(x,center=F,scale=F))
[1] 1.2 3.4 4.2 12.4 13.4 17.3 18.1
2.10.6
ppoints()
Parametri:
x vettore numerico di dimensione n
a parametro
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
2.10 Miscellaneous
87
ia
n 2a + 1
i = 1, 2, . . . , n
Esempio:
> x
[1] 1.2 3.4 4.2 12.4 13.4 17.3 18.1
> n<-length(x)
> n
[1] 7
> a<-3/8
> (1:n-a)/(n-2*a+1)
[1] 0.0862 0.2241 0.3621 0.5000 0.6379 0.7759 0.9138
> ppoints(x,a=3/8)
[1] 0.0862 0.2241 0.3621 0.5000 0.6379 0.7759 0.9138
2.10.7
sweep()
Parametri:
x dataframe
MARGIN = 1 / 2 righe oppure colonne
STATS statistica da sottrarre da ogni riga o colonna
Significato: modifica di un dataframe per riga o per colonna
Esempio:
> data
X1 X2 X3
1 6 26 60
2 15 29 52
3 8 56 20
> X1m<-mean(X1)
> X2m<-mean(X2)
> X3m<-mean(X3)
> mediecolonna<-c(X1m,X2m,X3m)
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
88
Funzioni statistiche
> mediecolonna
[1] 9.666667 59.533333 44.000000
> sweep(data,MARGIN=2,STATS=mediecolonna)
X1
X2 X3
1 -3.666667 -33.533333 16
2 5.333333 -30.533333
8
3 -1.666667 -3.533333 -24
Capitolo 3
Matrici
3.1
Creazione
3.1.1
matrix()
Parametri:
x vettore numerico di dimensione n
nrow numero di righe
ncol numero di colonne
byrow = T / F elementi disposti per riga o per colonna
Esempio:
> x<-c(1,-0.2,3,4,5.6,7.8,9.9,1,12)
> A<-matrix(x,nrow=3,ncol=3,byrow=T)
> A
[,1] [,2] [,3]
[1,] 1.0 -0.2 3.0
[2,] 4.0 5.6 7.8
[3,] 9.9 1.0 12.0
3.1.2
dim()
Parametri:
x vettore numerico di dimensione n
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
90
Matrici
Esempio:
> x<-1:9
> dim(x)<-c(3,3)
> x
[,1] [,2] [,3]
[1,]
1
4
7
[2,]
2
5
8
[3,]
3
6
9
3.1.3
cbind()
Parametri:
A matrice di dimensione n k
B matrice di dimensione n m
Significato: unisce due matrici accostandole per colonna
Esempio:
> A<-matrix(c(9.9,1,12),nrow=3,ncol=1)
> A
[,1]
[1,] 9.9
[2,] 1.0
[3,] 12.0
> B<-matrix(1:3,nrow=3,ncol=1)
> B
[,1]
[1,]
1
[2,]
2
[3,]
3
> cbind(A,B)
[,1] [,2]
[1,] 9.9
1
[2,] 1.0
2
[3,] 12.0
3
3.1 Creazione
3.1.4
rbind()
Parametri:
A matrice di dimensione n k
B matrice di dimensione m k
Significato: unisce due matrici accostandole per riga
Esempio:
> A<-matrix(c(9.9,1,12),nrow=1,ncol=3)
> A
[,1] [,2] [,3]
[1,] 9.9
1
12
> B<-matrix(1:3,nrow=1,ncol=3)
> B
[,1] [,2] [,3]
[1,]
1
2
3
> rbind(A,B)
[,1] [,2] [,3]
[1,] 9.9
1
12
[2,] 1.0
2
3
3.1.5
toeplitz()
Parametri:
x vettore numerico di dimensione n
Significato: matrice di Toeplitz di dimensione n n
Esempio:
> x
[1] 1 2 3
> toeplitz(x)
[,1] [,2] [,3]
[1,]
1
2
3
[2,]
2
1
2
[3,]
3
2
1
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
91
92
Matrici
> y
[1] -2.05 -1.04 0.92 -0.67 0.82 0.09 -0.64
> d<-3
> rho<-as.vector(acf(y,lag=d-1,plot=F)[[1]])
> rho<-round(rho,4)
> rho
[1] 1.0000 -0.0077 -0.0541
> toeplitz(rho)
[,1]
[,2]
[,3]
[1,] 1.0000 -0.0077 -0.0541
[2,] -0.0077 1.0000 -0.0077
[3,] -0.0541 -0.0077 1.0000
3.2
0.21
Operazioni
3.2.1
det()
Parametri:
A matrice di dimensione n n
Significato: determinante
Esempio:
> A<-matrix(c(1,-0.2,4,5.6),nrow=2,ncol=2,byrow=T)
> A
[,1] [,2]
[1,] 1.0 -0.2
[2,] 4.0 5.6
> det(A)
3.2.2
as.vector()
Parametri:
A matrice di dimensione n k
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
0.02
1.83
3.2 Operazioni
93
3.2.3
norm()
Parametri:
A matrice di dimensione n k
type = o / i / F / m tipo di norma
Formula:
type = o
max
n
X
!
| aij |
j = 1, 2, . . . , k
i=1
type = i
max
k
X
!
| aij |
i = 1, 2, . . . , n
j=1
94
Matrici
type = F
k
n X
X
!1 / 2
a2ij
i=1 j=1
type = m
max ( | aij |)
i = 1, 2, . . . , n j = 1, 2, . . . , k
Esempio:
> Matrice<-Matrix(c(1.2,3.4,.2,1.2,3.5,7,8,9,2.1),nrow=3,ncol=3)
> norm(Matrice,type="o")
Osservazioni: E necessario installare la libreria Matrix.
3.2.4
solve()
Parametri:
A matrice invertibile di dimensione n n
B matrice di dimensione n k
Formula:
A1 B
Esempio:
>
>
>
>
A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
B<-matrix(c(11,-2,3.4,4.1,5,7),nrow=3,ncol=2)
solve(A,B)
solve(A)
3.2 Operazioni
3.2.5
95
eigen()
Parametri:
A matrice simmetrica di dimensione n n
Significato: autovalori ed autovettori
Output:
$values la diagonale della matrice D di dimensione n n
$vectors matrice di dimensione n n
Formula:
A = D T
dove T = In = T
Esempio:
> A<-matrix(c(1,5.6,3.7,5.6,6.7,7.8,3.7,7.8,9),nrow=3,ncol=3)
> D<-diag(eigen(A)$values)
> GAMMA<-eigen(A)$vectors
3.2.6
crossprod()
Parametri:
A matrice di dimensione n m
B matrice di dimensione n k
Significato: prodotto scalare
Formula:
AT B
Esempio:
>
>
>
>
A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
B<-matrix(c(11,-2,3.4,4.1,5,7),nrow=3,ncol=2)
crossprod(A,B)
crossprod(A)
96
Matrici
3.2.7
%%
Parametri:
A matrice di dimensione n m
B matrice di dimensione n k
Significato: prodotto scalare
Formula:
AT B
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> B<-matrix(c(11,-2,3.4,4.1,5,7),nrow=3,ncol=2)
> t(A)%*%B
3.2.8
Parametri:
A matrice di dimensione n m
B matrice di dimensione n m
Significato: prodotto elemento per elemento
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> B<-matrix(c(11,-2,3.4,4.1,5,7),nrow=3,ncol=2)
> A*B
3.2 Operazioni
3.2.9
97
kronecker()
Parametri:
A matrice di dimensione n m
B matrice di dimensione h k
Significato: prodotto di Kronecker
Formula:
AB
Esempio:
> A<-matrix(1:3,nrow=3,ncol=1)
> A
[,1]
[1,]
1
[2,]
2
[3,]
3
> B<-matrix(7:9,nrow=1,ncol=3)
> B
[,1] [,2] [,3]
[1,]
7
8
9
> kronecker(A,B)
[,1] [,2] [,3]
[1,]
7
8
9
[2,]
14
16
18
[3,]
21
24
27
3.2.10
diag()
Parametri:
A matrice di dimensione n n
v vettore numerico di dimensione n
k naturale
Significato: estrae gli elementi diagonali o crea una matrice diagonale
98
Matrici
Esempio:
> A<-matrix(1:9,nrow=3,ncol=3)
> A
[,1] [,2] [,3]
[1,]
1
4
7
[2,]
2
5
8
[3,]
3
6
9
> diag(A)
[1] 1 5 9
> v<-1:3
> diag(v)
[,1] [,2] [,3]
[1,]
1
0
0
[2,]
0
2
0
[3,]
0
0
3
> k<-2
> diag(k)
[,1] [,2]
[1,]
1
0
[2,]
0
1
3.2.11
t()
Parametri:
A matrice di dimensione n m
Significato: trasposta
Formula:
AT
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> t(A)
3.2 Operazioni
3.2.12
99
dim()
Parametri:
A matrice di dimensione n m
Significato: numero di righe e di colonne
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> dim(A)
3.2.13
nrow()
Parametri:
A matrice di dimensione n m
Significato: numero di righe
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> nrow(A)
3.2.14
NROW()
Parametri:
A matrice di dimensione n m
Significato: numero di righe
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> NROW(A)
100
Matrici
3.2.15
ncol()
Parametri:
A matrice di dimensione n m
Significato: numero di colonne
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> ncol(A)
3.2.16
NCOL()
Parametri:
A matrice di dimensione n m
Significato: numero di colonne
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> NCOL(A)
3.2.17
colSums()
Parametri:
A matrice di dimensione n m
Significato: somme di colonna
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> colSums(A)
3.3 Fattorizzazioni
3.2.18
101
colMeans()
Parametri:
A matrice di dimensione n m
Significato: medie di colonna
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> colMeans(A)
3.3
Fattorizzazioni
3.3.1
svd()
Parametri:
A matrice di dimensione n k
Significato: fattorizzazione ai valori singolari
Output:
$d diagonale della matrice D di dimensione k k
$u matrice U di dimensione n k
$v matrice V di dimensione k k
Formula:
A = U DVT
dove U T U = Ik = V T V = V V T
Esempio:
>
>
>
>
A<-matrix(c(11,-2,3.4,4.1,5,7),nrow=3,ncol=2)
D<-diag(svd(A)$d)
U<-svd(A)$u
V<-svd(A)$v
102
Matrici
3.3.2
qr.Q()
Parametri:
A matrice di rango pieno di dimensione n k
Significato: matrice Q di dimensione n k
Formula:
A = QR
QT Q = Ik
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> Q<-qr.Q(qr(A))
3.3.3
qr.R()
Parametri:
A matrice di rango pieno di dimensione n m
Significato: matrice R triangolare superiore di dimensione k k
Formula:
A = QR
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> R<-qr.R(qr(A))
3.3 Fattorizzazioni
3.3.4
103
chol()
Parametri:
A matrice simmetrica definita positiva di dimensione n n
Significato: matrice P triangolare superiore di dimensione n n
Formula:
A = PT P
Esempio:
> A<-matrix(c(5,1,1,3),nrow=2,ncol=2)
> P<-chol(A)
3.3.5
ginv()
Parametri:
A matrice di dimensione n k
Significato: inversa generalizzata Ag
Formula:
A = A Ag A
Esempio:
> A<-matrix(1:6,nrow=2,ncol=3)
> Ag<-ginv(A)
Osservazioni: E necessario installare la libreria MASS.
104
Matrici
Capitolo 4
Analisi delle componenti
principali (ACP)
4.1
4.1.1
Simbologia
ZT Z
n1
= D T
j = 1, 2, . . . , k
j = 1, 2, . . . , k
deviazione
p standard della j-esima componente principale:
sxj = (kj+1) j = 1, 2, . . . , k
problema di ottimo vincolato:
xj = Z j j = 1, 2, . . . , k
xT xj
(Z )T (Z )
j
j
j
s2xj = n1
=
= jT Zn1Z j = jT R j j = 1, 2, . . . , k
n1
maxjT j = 1 s2xj = maxjT j = 1 jT R j = (kj+1) j = 1, 2, . . . , k
106
4.1.2
prcomp()
Parametri:
W matrice dei dati
Output:
$sdev deviazione standard delle componenti principali
$rotation matrice ortogonale degli autovalori
$center medie di colonna della matrice W
$scale deviazione standard di colonna della matrice W
$x componenti principali
Formula:
$sdev
s xj =
j = 1, 2, . . . , k
(kj+1)
$rotation
$center
wj
j = 1, 2, . . . , k
sw j
j = 1, 2, . . . , k
$scale
$x
xj = Z j
j = 1, 2, . . . , k
Esempio:
>
>
>
>
>
>
Z<-scale(W)
n<-dim(W)[1]
R<-1/(n-1)*t(Z)%*%Z
D<-diag(eigen(R)$values)
GAMMA<-eigen(R)$vectors
prcomp(W,scale=T)
4.1.3
107
summary()
Parametri:
pr oggetto di tipo prcomp()
Output:
$importance analisi delle componenti principali
Formula:
$importance[1,]
sxj =
(kj+1)
j = 1, 2, . . . , k
$importance[2,]
(kj+1)
k
j = 1, 2, . . . , k
$importance[3,]
l
1 X
(kj+1)
k j=1
l = 1, 2, . . . , k
Esempio:
> pr<-prcomp(W,scale=T)
> summary(pr)
4.2
4.2.1
108
ZT Z
n1
= D T
j = 1, 2, . . . , k
j = 1, 2, . . . , k
deviazione
p standard della j-esima componente principale:
sxj = (kj+1) j = 1, 2, . . . , k
problema di ottimo vincolato:
xj = Z j j = 1, 2, . . . , k
xT xj
(Z )T (Z )
j
j
j
=
= jT Zn1Z j = jT S j j = 1, 2, . . . , k
s2xj = n1
n1
maxjT j = 1 s2xj = maxjT j = 1 jT S j = (kj+1) j = 1, 2, . . . , k
4.2.2
prcomp()
Parametri:
W matrice dei dati
Output:
$sdev deviazione standard delle componenti principali
$rotation matrice ortogonale degli autovettori
$center medie di colonna della matrice W
$x componenti principali
Formula:
$sdev
s xj
q
= (kj+1)
j = 1, 2, . . . , k
$rotation
$center
wj
j = 1, 2, . . . , k
$x
xj = Z j
j = 1, 2, . . . , k
109
Esempio:
>
>
>
>
>
>
4.2.3
Z<-scale(W,scale=F)
n<-dim(W)[1]
S<-1/(n-1)*t(Z)%*%Z
D<-diag(eigen(S)$values)
GAMMA<-eigen(S)$vectors
prcomp(W,scale=F)
summary()
Parametri:
pr oggetto di tipo prcomp()
Output:
$importance analisi delle componenti principali
Formula:
$importance[1,]
sxj =
(kj+1)
j = 1, 2, . . . , k
$importance[2,]
(kj+1)
Pk
i=1 i
j = 1, 2, . . . , k
$importance[3,]
Pl
(kj+1)
Pk
i=1 i
j=1
l = 1, 2, . . . , k
Esempio:
> pr<-prcomp(W)
> summary(pr)
110
Capitolo 5
Test di ipotesi parametrici
5.1
5.1.1
Sintassi: t.test()
Parametri:
x vettore numerico di dimensione n
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
mu valore di 0
conf.level livello di confidenza 1
Output:
$statistic valore empirico della statistica t
$parameter gradi di libert`a
$p.value p-value
$conf.int intervallo di confidenza per la media incognita a livello
1
$estimate media campionaria
$null.value valore di 0
112
Formula:
$statistic
t =
x 0
sx / n
$parameter
df = n 1
$p.value
alt
less
greater
two.sided
$p.value P (tdf t) P (tdf t) 2 P (tdf | t |)
$conf.int
x t1 / 2, df sx / n
$estimate
x
$null.value
0
Esempio:
> t.test(x,mu=1.2,conf.level=0.95,alt="two.sided")
5.1.2
Sintassi: t.test()
Parametri:
x vettore numerico di dimensione nx
y vettore numerico di dimensione ny
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
mu valore di ( x y )| H0
conf.level livello di confidenza 1
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
113
Output:
$statistic valore empirico della statistica t
$parameter gradi di libert`a
$p.value p-value
$conf.int intervallo di confidenza per la differenza tra le medie
incognite a livello 1
$estimate medie campionarie
$null.value valore di ( x y )| H0
Formula:
$statistic
t =
(
x y) ( x y )| H0
p
sP 1 / n x + 1 / n y
dove s2P =
$parameter
df = nx + ny 2
$p.value
alt
less
greater
two.sided
$p.value P (tdf t) P (tdf t) 2 P (tdf | t |)
$conf.int
x y t1 / 2, df sP
1 / nx + 1 / ny
$estimate
x
$null.value
( x y )| H0
Esempio:
> t.test(x,y,mu=0.2,var.equal=T,conf.level=0.95,alt="two.sided")
114
5.1.3
Sintassi: t.test()
Parametri:
x vettore numerico di dimensione nx
y vettore numerico di dimensione ny
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
mu valore di ( x y )| H0
conf.level livello di confidenza 1
Output:
$statistic valore empirico della statistica t
$parameter gradi di libert`a
$p.value p-value
$conf.int intervallo di confidenza per la differenza tra le medie
incognite a livello 1
$estimate medie campionarie
$null.value valore di ( x y )| H0
Formula:
$statistic
t =
(
x y) ( x y )| H0
q
s2
s2x
+ nyy
nx
$parameter
df =
s2x
nx
s4x
n2x (nx 1)
+
+
s2y
ny
2
s4y
n2y (ny 1)
$p.value
alt
less
greater
two.sided
$p.value P (tdf t) P (tdf t) 2 P (tdf | t |)
115
$conf.int
x y t1 / 2, df
s2x / nx + s2y / ny
$estimate
x
$null.value
( x y )| H0
Esempio:
> t.test(x,y,mu=0.4,var.equal=F,alt="two.sided",conf.level=0.95)
5.1.4
Sintassi: t.test()
Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione n
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
mu valore di ( x y )| H0
conf.level livello di confidenza 1
Output:
$statistic valore empirico della statistica t
$parameter gradi di libert`a
$p.value p-value
$conf.int intervallo di confidenza per la differenza tra le medie
incognite a livello 1
$estimate differenza tra le medie campionarie
$null.value valore di ( x y )| H0
116
Formula:
$statistic
t =
(
x y) ( x y )| H0
sxy / n
dove s2xy =
n
2
1 X
xi yi (
x y)
n 1 i=1
$parameter
df = n 1
$p.value
alt
less
greater
two.sided
$p.value P (tdf t) P (tdf t) 2 P (tdf | t |)
$conf.int
x y t1 / 2, df sxy / n
$estimate
x y
$null.value
( x y )| H0
Esempio:
> t.test(x,y,mu=0.9,paired=T,alt="two.sided",conf.level=0.95)
5.2
5.2.1
Sintassi: test.var()
Parametri:
x vettore numerico di dimensione n
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
117
(n 1) s2x
c =
02
p-value
alt
less
greater
2
p-value P (n1 c) P (2n1 c)
livello del test
Quantile Chi-quadrato
alt
less
Quantile Chi-quadrato 2, n1
greater
21, n1
gdl
n1
118
Esempio:
> test.var(x,var0=24.3,alpha=0.05,alt="greater")
Osservazioni: E necessario installare la libreria labstatR.
5.3
5.3.1
Sintassi: var.test()
Parametri:
x vettore numerico di dimensione nx
y vettore numerico di dimensione ny
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
2
ratio il valore di x2 H0
y
conf.level livello di confidenza 1
Output:
$statistic valore empirico della statistica F
$parameter gradi di libert`a
$p.value p-value
$conf.int intervallo di confidenza al livello 1
$estimate rapporto tra le varianze campionarie
2
$null.value valore di x2 H0
y
Formula:
$statistic
F value =
s2x
s2y
x2
y2
1
H0
119
$parameter
num df
den df
nx 1
ny 1
$p.value
alt
less
greater
two.sided
$p.value P (Fnx 1,ny 1 F value) P (Fnx 1,ny 1 F value) 2 P (Fnx 1,ny 1 F value)
$conf.int
1
F1 2 ,nx 1, ny 1
s2x
s2y
$estimate
1
F 2 ,nx 1, ny 1
s2x
s2y
s2x
s2y
$null.value
x2
y2
H0
Esempio:
> var.test(x,y,conf.level=0.95,alt="two.sided",ratio=1.2)
5.4
5.4.1
Sintassi: prop.test()
Parametri:
x numero di successi
n dimensione campionaria
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
p il valore di p0
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
120
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
$conf.int intervallo di confidenza al livello 1
$estimate proporzione calcolata sulla base del campione
$null.value il valore di p0
Formula:
$statistic
x
n
z2 = q
p0
p0 (1p0 )
n
$parameter
1
$p.value
alt
less greater two.sided
$p.value (z) 1 (z) P (21 z 2 )
$conf.int
2
z1
/2
2n
r
+
x
n
z1 / 2
1+
$estimate
2
z1
/2
4 n2
2
z1
/2
x
n
$null.value
p0
x
n
x
1 n
121
Esempio:
> x<-9
> n<-23
> prop.test(x,n,p=0.5,alt="less",conf.level=0.95,correct=F)
Osservazioni: I limiti di confidenza non possono scendere sotto 0
oppure salire sopra 1.
5.4.2
Sintassi: power.prop.test()
Parametri:
n dimensione campionaria di ciascun campione
p1 valore p1 della proporzione sotto ipotesi nulla
p2 il valore p2 della proporzione sotto lipotesi alternativa
alt pu`o essere cambiata in one.sided, two.sided a seconda della coda che interessa
sig.level livello di significativit`a
Output:
$n dimensione campionaria di ciascun campione
$p1 il valore p1 della proporzione sotto lipotesi nulla
$p2 il valore p2 della proporzione sotto lipotesi alternativa
$sig.level livello di significativit`a
$power calcolo della potenza 1
Formula:
$n
n
$p1
p1
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
122
$power
alt = one.sided
p
Esempio:
>
>
>
>
>
5.4.3
n<-23
p1<-0.23
p2<-0.31
alpha<-0.05
power.prop.test(n,p1,p2,sig.level=alpha,alt="one.sided")
Sintassi: prop.test()
Parametri:
x rappresenta il numero di successi nel primo campione
y rappresenta il numero di successi nel secondo campione
nx dimensione del primo campione
ny dimensione del secondo campione
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
conf.level livello di confidenza 1
Output:
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
123
z2 = q
x
nx
x+y
nx +ny
y
ny
x+y
nx +ny
1
nx
1
ny
$parameter
1
$p.value
alt
less greater two.sided
$p.value (z) 1 (z) P (21 z 2 )
$conf.int
y
x
z1 / 2
nx ny
$estimate
x
nx
1
nx
x
nx
x
nx
+
y
ny
y
ny
ny
y
ny
Esempio:
>
>
>
>
>
x<-9
nx<-23
y<-11
ny<-32
prop.test(c(x,y),c(nx,ny),alt="less",conf.level=0.95,correct=F)
124
Capitolo 6
Anova
6.1
Simbologia
f (colonna) g (riga)
k
/
k
h
k
h
Anova
ad una via
a due vie senza replica
a due vie con uguale numero di repliche
Anova
ad una via
a due vie senza replica
a due vie con uguale numero di repliche
126
Anova
6.2
6.2.1
factor()
Parametri:
f vettore numerico o alfanumerico
levels etichette di livello
ordered = T / F imposizione di un ordinamento
Significato: crea un fattore
Esempio:
> sesso<-c(rep("U",4),rep("D",4))
> sesso
[1] "U" "U" "U" "U" "D" "D" "D" "D"
> sesso<-factor(sesso,levels=c("U","D"))
> sesso
[1] U U U U D D D D
Levels: U D
> sesso<-factor(sesso,levels=c("D","U"))
> sesso
[1] U U U U D D D D
Levels: D U
> sesso<-c(rep(1,4),rep(2,4))
> sesso
[1] 1 1 1 1 2 2 2 2
> sesso<-factor(sesso)
> sesso
[1] 1 1 1 1 2 2 2 2
Levels: 1 2
> levels(sesso)<-c("U","D")
> sesso
[1] U U U U D D D D
Levels: U D
> levels(sesso)<-c("D","U")
> sesso
[1] D D D D U U U U
Levels: D U
> fattore<-factor(scan(what="c"))
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
127
1: A
2: B
3: C
4: B
5: A
6: C
7: C
8: A
9:
Read 8 items
> fattore
[1] A B C B A C C A
Levels: A B C
6.2.2
by()
Parametri:
y vettore numerico di dimensione n
f fattore a k livelli
FUN funzione
Significato: applica FUN ad ogni vettore numerico per livello del fattore
Esempio:
> y
[1] 1.2 2.3 5.6 3.5 2.5 3.8 6.8 5.7 3.7 6.4
> f
[1] a b c a b b c c a b
Levels: a b c
> g
[1] alto medio basso alto medio basso medio alto alto basso
Levels: alto basso medio
> by(y,f,FUN=mean)
> by(y,list(f,g),FUN=mean)
128
Anova
6.2.3
tapply()
Parametri:
y vettore numerico di dimensione n
f fattore a k livelli
FUN funzione
Significato: applica FUN ad ogni vettore numerico per livello del fattore
Esempio:
> y
[1] 1.2 2.3 5.6 3.5 2.5 3.8 6.8 5.7 3.7 6.4
> f
[1] a b c a b b c c a b
Levels: a b c
> g
[1] alto medio basso alto medio basso medio alto alto basso
Levels: alto basso medio
> tapply(y,f,FUN=mean)
> tapply(y,list(f,g),FUN=mean)
6.2.4
gl()
Parametri:
n numero dei livelli
k numero delle repliche
length lunghezza del fattore
labels nomi dei livelli
Significato: crea un fattore
Esempio:
> n<-2
> k<-5
> gl(n,k,labels=c("M","F"))
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
M
F
> n<-2
> k<-1
> l<-10
> gl(n,k,length=l,labels=c("A","B"))
[1] A B A B A B A B A B
Levels: A B
6.2.5
levels()
Parametri:
f fattore a k livelli
Significato: nome dei livelli
Esempio:
> f<-factor(c(rep(1,5),rep(2,5)))
> f
[1] 1 1 1 1 1 2 2 2 2 2
Levels: 1 2
> levels(f)
[1] "1" "2"
6.2.6
nlevels()
Parametri:
f fattore a k livelli
Significato: numero di livelli
129
130
Anova
Esempio:
> f<-factor(c(rep(1,5),rep(2,5)))
> f
[1] 1 1 1 1 1 2 2 2 2 2
Levels: 1 2
> nlevels(f)
[1] 2
6.3
6.3.1
Sintassi: anova()
Parametri:
y vettore numerico di dimensione n
f fattore a k livelli
Output:
$Df gradi di libert`a
$Sum Sq somma dei quadrati
$Mean Sq media dei quadrati
$F value valore empirico della statistica F
$Pr(>F) p-value
Formula:
$Df
f
Residuals
k1
nk
131
$Sum Sq
f
Residuals
Pk
nj (
yj y)2
Pk j=1
Pnj
j )2
i=1 (yij y
j=1
$Mean Sq
f
Residuals
Pk
nj (
yj y)2 / (k 1)
j=1
Pk Pnj
j )2 / n k
i=1 (yij y
j=1
$F value
Pk
2
/ (k 1)
n
(
y
)
j
j
j=1
F value = Pk Pnj
2 / nk
(y
)
ij
j
i=1
j=1
$Pr(>F)
P (Fk1, nk) F value)
Esempio:
> y
[1] 1.0 4.0 10.0 2.1 3.5
> f
[1] a a a b b b c c c d d d
Levels: a b c d
> anova(lm(y~f))
6.3.2
5.6
8.4
12.0
Sintassi: anova()
Parametri:
y vettore numerico di dimensione kh
f fattore a k livelli
g fattore a h livelli
16.5
22.0
1.2
3.4
132
Anova
Output:
$Df gradi di libert`a
$Sum Sq somma dei quadrati
$Mean Sq media dei quadrati
$F value valore empirico della statistica F
$Pr(>F) p-value
Formula:
$Df
f
g
Residuals
k1
h1
(k 1) (h 1)
$Sum Sq
f
g
Residuals
Pk
j=1
P
yj y)2
h kj=1 (
Ph
(
y y)2
k
Ph i=1 i
i yj + y)2
i=1 (yij y
$Mean Sq
f
g
Residuals
Pk
j=1
Pk
yj y)2 / (k 1)
h j=1 (
Ph
k i=1 (
yi y)2 / (h 1)
Ph
i yj + y)2 / [(k 1) (h 1)]
i=1 (yij y
P
P
k
j=1
k
j=1
P
P
k
j=1
133
(
yj
y )2 / (k1)
h
i=1
(yi j
yi
yj +
y )2 / [(k1) (h1)]
h
i=1
(yij
yi
yj +
y )2 / [(k1) (h1)]
h
i=1
(
yi
y )2 / (h1)
$Pr(>F)
f
g
Esempio:
> y
[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0
> f
[1] a a b b c c d d
Levels: a b c d
> g
[1] basso alto basso alto basso alto basso alto
Levels: alto basso
> anova(lm(y~f+g))
6.3.3
Sintassi: anova()
Parametri:
y vettore numerico di dimensione khl
f fattore a k livelli
g fattore a h livelli
Output:
$Df gradi di libert`a
$Sum Sq somma dei quadrati
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
134
Anova
$Mean Sq media dei quadrati
$F value valore empirico della statistica F
$Pr(>F) p-value
Formula:
$Df
f
g
f:g
Residuals
k1
h1
(k 1) (h 1)
k h (l 1)
$Sum Sq
f
g
f:g
Residuals
Pk
Pj=1
k
j=1
P
yj y)2
hl kj=1 (
P
yi y)2
kl hi=1 (
Ph
(
yij yi yj + y)2
P
Pi=1
l
h
ij )2
m=1 (yijm y
i=1
$Mean Sq
f
g
f:g
Residuals
Pk
yj y)2 / (k 1)
hl j=1 (
Ph
yi y)2 / (h 1)
kl i=1 (
Pk Ph
yij yi yj + y)2 / [(k 1) (h 1)]
l j=1 i=1 (
Pk Ph Pl
ij )2 / [k h (l 1)]
j=1
i=1
m=1 (yijm y
P
Fg value
P
P
l
P
Ff :g value
P (y y) / (k1)
P P (y y ) / [k h (l1)]
P
kl
(
y
y ) / (h1)
P P (y y ) / [k h (l1)]
P (y y y +y) / [(k1) (h1)]
P P (y y ) / [kh (l1)]
k
j=1
k
j=1
k
j=1
135
k
j=1
hl
k
j=1
h
i=1
l
2
ijm
ij
m=1
h
2
i
i=1
h
i=1
h
i=1
h
i=1
l
m=1
ij
ijm
l
m=1
ijm
ij
ij
$Pr(>F)
f
g
f:g
Esempio:
> y
[1] 1.0 4.0 10.0 2.1 3.5
> f
[1] a a a a a a b b b b b b
Levels: a b
> g
[1] B A B A B A B A B A B A
Levels: A B
> anova(lm(y~f+g+f:g))
5.6
8.4
12.0
6.5
2.0
1.2
3.4
136
Anova
Capitolo 7
Confronti multipli
7.1
7.1.1
Metodo di Tukey
Applicazione in Anova ad una via
Sintassi: TukeyHSD()
Parametri:
y vettore numerico di dimensione n
f fattore a k livelli
conf.level livello di confidenza 1
Output:
$f intervallo di confidenza a livello 1 per il fattore
Formula:
$f[,1]
yi yj
i > j = 1, 2, . . . , k
$f[,c(2,3)]
sP
yi yj q1, k, nk
2
dove
s2P
1 / ni + 1 / nj
nj
k X
X
i, j = 1, 2, . . . , k
(yij yj )2 / (n k)
j=1 i=1
138
Confronti multipli
Esempio:
> y
[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4
> f
[1] a a a b b b c c c d d d
Levels: a b c d
> TukeyHSD(aov(y~f),conf.level=0.95)
7.1.2
12.0
16.5
22.0
Sintassi: TukeyHSD()
Parametri:
y vettore numerico di dimensione kh
f fattore a k livelli
g fattore a h livelli
conf.level livello di confidenza 1
Output:
$f intervallo di confidenza a livello 1 per il primo fattore
$g intervallo di confidenza a livello 1 per il secondo fattore
Formula:
$f[,1]
yi yj
i > j = 1, 2, . . . , k
$f[,c(2,3)]
dove s2P =
k X
h
X
(yij yi )2 / [h (k 1)]
j=1 i=1
$g[,1]
yi yj
i > j = 1, 2, . . . , h
1.2
3.4
139
$g[,c(2,3)]
dove s2P =
k X
h
X
i > j = 1, 2, . . . , h
(yij yj )2 / [k (h 1)]
j=1 i=1
Esempio:
> y
[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0
> f
[1] a a b b c c d d
Levels: a b c d
> g
[1] basso alto basso alto basso alto basso alto
Levels: alto basso
> TukeyHSD(aov(y~f+g),conf.level=0.95)
7.1.3
Sintassi: TukeyHSD()
Parametri:
y vettore numerico di dimensione khl
f fattore a k livelli
g fattore a h livelli
conf.level livello di confidenza 1
Output:
$f intervallo di confidenza a livello 1 per il primo fattore
$g intervallo di confidenza a livello 1 per il secondo fattore
$f:g intervallo di confidenza a livello 1 per linterazione
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
140
Confronti multipli
Formula:
$f[,1]
yi yj
i, j = 1, 2, . . . , k
$f[,c(2,3)]
yi yj q1, k h (l1) sP / h l
i > j = 1, 2, . . . , k
$g[,1]
yi yj
i, j = 1, 2, . . . , h
$g[,c(2,3)]
yi yj q1, h, k h (l1) sP / k l
i > j = 1, 2, . . . , h
$f:g[,1]
yij yuw
i, u = 1, 2, . . . , k
j, w = 1, 2, . . . , h
$f:g[,c(2,3)]
yij
yuw q1, k h, k h (l1) sP / l
dove
s2P
k X
h X
l
X
i, u = 1, 2, . . . , k
j, w = 1, 2, . . . , h
Esempio:
> y
[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0 16.5 22.0 1.2 3.4
> f
[1] a a a a a a b b b b b b
Levels: a b
> g
[1] basso alto basso alto basso alto basso alto basso alto basso alto
Levels: alto basso
> TukeyHSD(aov(y~f+g+f:g),conf.level=0.95)
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
7.2
141
Metodo di Bonferroni
7.2.1
Sintassi: pairwise.t.test()
Parametri:
y vettore numerico di dimensione n
f fattore a k livelli
Output:
$p.value p-value
Formula:
$p.value
k
2
P (tnk | t |)
2
dove t =
ed
sP
s2P
yi yj
1 / ni + 1 / nj
nj
k X
X
i > j = 1, 2, . . . , k
(yij yj )2 / (n k)
j=1 i=1
Esempio:
> y
[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0 16.5
> f
[1] a a a b b b c c c d d d
Levels: a b c d
> pairwise.t.test(y,f,p.adjust.method="bonferroni")
22.0
1.2
3.4
142
Confronti multipli
7.3
Metodo di Student
7.3.1
Sintassi: pairwise.t.test()
Parametri:
y vettore numerico di dimensione n
f fattore a k livelli
Output:
$p.value p-value
Formula:
$p.value
2 P (tnk | t |)
dove t =
ed
sP
s2P
yi yj
1 / ni + 1 / nj
nj
k X
X
i > j = 1, 2, . . . , k
(yij yj )2 / (n k)
j=1 i=1
Esempio:
> y
[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0
> f
[1] a a a b b b c c c d d d
Levels: a b c d
> pairwise.t.test(y,f,p.adjust.method="none")
16.5
22.0
1.2
3.4
Capitolo 8
Test di ipotesi sulla
correlazione
8.1
8.1.1
Sintassi: cor.test()
Parametri:
x vettore numerico di dimensione n 5
y vettore numerico di dimensione n 5
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
conf.level livello di confidenza 1
Output:
$statistic valore empirico della statistica t
$parameter gradi di libert`a
$p.value p-value
$conf.int intervallo di confidenza a livello 1 ottenuto con la
trasformazione Z di Fisher
$estimate coefficiente di correlazione campionario
144
Formula:
$statistic
r
t = r
n2
1 r2
Pn
dove
n x y
i=1 xi yiP
r = Pn
( i=1 (xi x)2 )1 / 2 ( ni=1 (yi y)2 )1 / 2
$parameter
df = n 2
$p.value
alt
less
greater
two.sided
$p.value P (tdf t) P (tdf t) 2 P (tdf | t |)
$conf.int
1+r
1
2 12 log ( 1r
)z1 / 2 n3
e
1
1+r
1
2 1 log ( 1r
)z1 / 2 n3
e 2
+1
1
2
1
2
1+r
log ( 1r
)+z1 / 2
1+r
log ( 1r
)+z1 / 2
1
n3
1
n3
$estimate
r
Esempio:
> cor.test(x,y,conf.level=0.95,alt="two.sided")
8.2
8.2.1
Sintassi: Box.test()
Parametri:
x vettore numerico di dimensione n
lag il valore d del ritardo
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
1
+1
145
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
Formula:
$statistic
c = n
d
X
2 (k)
k=1
Pnk
(xt x) (xt+k x)
t=1P
dove (k) =
n
)2
t=1 (xt x
k = 1, 2, . . . , d
$parameter
d
$p.value
P (2d c)
Esempio:
> x
[1] 1 2 7 3 5 2 0 1 4 5
> d<-4
> Box.test(x,lag=d,type="Box-Pierce")
8.2.2
Test di LjungBox
Sintassi: Box.test()
Parametri:
x vettore numerico di dimensione n
lag il valore d del ritardo
Output:
$statistic valore empirico della statistica 2
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
146
Formula:
$statistic
c = n (n + 2)
d
X
k=1
1
2 (k)
nk
Pnk
(xt x) (xt+k x)
t=1P
dove (k) =
n
)2
t=1 (xt x
$parameter
d
$p.value
P (2d c)
Esempio:
> x
[1] 1 2 7 3 5 2 0 1 4 5
> d<-4
> Box.test(x,lag=d,type="Ljung-Box")
k = 1, 2, . . . , d
Capitolo 9
Test di ipotesi non parametrici
9.1
Simbologia
j = 1, 2, . . . , k
media aritmetica
del campione j-esimo:
Pnj
1
xj = nj
j = 1, 2, . . . , k
i=1 xij
varianza nelPcampione j-esimo:
nj
(xij xj )2 j = 1, 2, . . . , k
s2j = nj11 i=1
varianza pooled: s2P =
Pk
j=1
(nj 1) s2j
nk
9.2
9.2.1
Sintassi: bartlett.test()
Parametri:
x vettore numerico di dimensione n
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
148
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
Formula:
$statistic
P
(n k) log (s2P ) kj=1 (nj 1) log (s2j )
P
c =
k
1
1
1
1 + 3 (k1)
j=1 nj 1
nk
$parameter
k1
$p.value
P (2k1 c)
Esempio:
> x
[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0 16.5 22.0
> f
[1] a a a b b b c c c d d d
Levels: a b c d
> n<-length(f)
> n
[1] 12
> k<-nlevels(f)
> k
[1] 4
> s2<-tapply(x,f,var)
> s2
a
b
c
d
21.000000
3.103333 16.470000 130.573333
> enne<-tapply(x,f,length)
> enne
a b c d
3 3 3 3
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
1.2
3.4
9.2.2
Test di Levene
Sintassi: levene.test()
Parametri:
x vettore numerico di dimensione n
f fattore a k livelli
Output:
$Df gradi di libert`a
$F value valore empirico della statistica F
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
149
150
Formula:
$Df
k1
nk
f
Residuals
$F value
Pk
Pnj
2
/ (k 1)
(y
)
ij
j
i=1
j=1
Pk
2
/
n
k
(n
1)
s
j
j
j=1
F value =
x1j , . . . , xnj j
| j = 1, . . . , k
i = 1, . . . , nj
$Pr(>F)
P (Fk1, nk F value)
Esempio:
> x
[1] 1.0 4.0 10.0 2.1 3.5
> f
[1] a a a b b b c c c d d d
Levels: a b c d
> n<-length(f)
> n
[1] 12
> k<-nlevels(f)
> k
[1] 4
> c(k-1,n-k)
[1] 3 8
> levene.test(x,f)$Df
[1] 3 8
> mediane<-tapply(x,f,median)
> mediane
a
b
c
d
4.0 3.5 12.0 3.4
> y<-abs(x-mediane[f])
5.6
1.2
3.4
151
> Fvalue<-anova(lm(y~f))$F
> Fvalue
[1] 0.608269
NA
> levene.test(x,f)$"F value"
[1] 0.608269
NA
> 1-pf(Fvalue,k-1,n-k)
[1] 0.6281414
NA
> levene.test(x,f)$"Pr(>F)"
[1] 0.6281414
NA
Osservazioni: E necessario installare la libreria car.
9.3
9.3.1
Sintassi: wilcox.test()
Parametri:
x vettore numerico di dimensione n
alt pu`o essere cambiata in less, greater o two.sided a seconda della coda che interessa
mu il valore di Q0.5 (x)| H0
Output:
$statistic valore empirico della statistica Vn
$p.value p-value
$null.value il valore di Q0.5 (x)| H0
Formula:
$statistic
V
152
alt
less
greater
two.sided
$p-value P (Vn V ) P (Vn V ) 2 min (P (Vn V ), P (Wn V ))
$null.value
Q0.5 (x)| H0
Esempio:
> x
[1] -0.1 -0.2 0.7 0.8 -1.2 -1.6 2.0 3.4 3.7
> mu<-3.3
> x-mu
[1] -3.4 -3.5 -2.6 -2.5 -4.5 -4.9 -1.3 0.1 0.4
> n<-length(x-mu)
> n
[1] 9
> prova<-rank(abs(x-mu))*sign(x-mu)
> V<-sum(prova[prova>0])
> V
[1] 3
> wilcox.test(x,alt="less",mu=3.3,exact=T)$statistic
V
3
> p.valueless<-psignrank(V,n)
> p.valueless
[1] 0.009765625
> wilcox.test(x,alt="less",mu=3.3,exact=T)$p.value
[1] 0.009765625
> p.valuegreater<-1-psignrank(V,n)+dsignrank(V,n)
> p.valuegreater
[1] 0.9941406
> wilcox.test(x,alt="greater",mu=3.3,exact=T)$p.value
[1] 0.9941406
> p.valuetwo.sided<-2*min(p.valueless,p.valuegreater)
> p.valuetwo.sided
[1] 0.01953125
> wilcox.test(x,alt="two.sided",mu=3.3,exact=T)$p.value
[1] 0.01953125
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
153
9.3.2
Sintassi: wilcox.test()
Parametri:
x vettore numerico di dimensione n
correct = T / F a seconda che sia applicata o no la correzione
di continuit`a di Yates
alt pu`o essere cambiata in less, greater o two.sided a seconda della coda che interessa
mu il valore di Q0.5 (x)| H0
Output:
$statistic valore empirico della statistica Z
$p.value p-value
$null.value il valore di Q0.5 (x)| H0
Formula:
$statistic
V
$p.value
correct = F
alt
less greater
two.sided
$p-value (z) 1 (z) 2 (1 (| z |))
z = h
V
1
24
n (n+1)
4
n (n + 1) (2 n + 1)
1
2
Pg
j=1
i1 / 2
tj (t2j 1)
154
zc = h
V
1
24
n (n+1)
4
n (n + 1) (2 n + 1)
1
2
+ 0.5
Pg
j=1
i1 / 2
tj (t2j 1)
$null.value
Q0.5 (x)| H0
Esempio:
> x
[1] 4 3 4 5 2 3 4 5 4 4 5 5 4 5 4 4 3 4 2 4 5 5 4 4
> copiadix<-x
> mu<-4
> x<-(x-mu)[(x-mu)!=0]
> x
[1] -1 1 -2 -1 1 1 1 1 -1 -2 1 1
> n<-length(x)
> n
[1] 12
> prova<-rank(abs(x))*sign(x)
> V<-sum(prova[prova>0])
> V
[1] 38.5
> wilcox.test(xx,correct=F,alt="less",mu=4,exact=F)$statistic
V
38.5
> table(rank(abs(x)))
5.5 11.5
10
2
> g<-2
> t1<-10
> t2<-2
> t<-c(t1,t2)
> t
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
155
[1] 10 2
> num<-V-n*(n+1)/4
> den<-sqrt(1/24*(n*(n+1)*(2*n+1)-0.5*sum(t*(t**2-1))))
> z<-num/den
> p.value<-pnorm(z)
> p.value
[1] 0.4832509
> wilcox.test(copiadix,correct=F,alt="less",mu=4,exact=F)$p.value
[1] 0.4832509
9.3.3
Sintassi: wilcox.test()
Parametri:
x vettore numerico di dimensione nx
y vettore numerico di dimensione ny
alt pu`o essere cambiata in less, greater o two.sided a seconda della coda che interessa
mu il valore di ( Q0.5 (x) Q0.5 (y) )| H0
Output:
$statistic valore empirico della statistica Wnx , ny
$p.value p-value
$null.value il valore di ( Q0.5 (x) Q0.5 (y) )| H0
Formula:
$statistic
W
$p.value
alt
less
greater
$p-value P (Wnx , ny W ) P (Wnx , ny W )
156
alt
two.sided
$p-value 2 min P (Wnx , ny W ), P (Wnx , ny W )
$null.value
( Q0.5 (x) Q0.5 (y) )| H0
Esempio:
> x
[1] 1.2 3.4 5.4 -5.6 7.3 2.1
> y
[1] -1.1 -0.1 0.9 1.9 2.9 3.9 4.9
> nx<-length(x)
> nx
[1] 6
> mu<--2.1
> copiadiy<-y
> y<-y+mu
> Rx<-sum(rank(c(x,y))[1:nx])
> W<-Rx-nx*(nx+1)/2
> W
[1] 32
> wilcox.test(x,copiadiy,alt="less",mu=-2.1,exact=T)$statistic
W
32
> p.valueless<-pwilcox(W,nx,ny)
> p.valueless
[1] 0.9493007
> wilcox.test(x,copiadiy,alt="less",mu=-2.1,exact=T)$p.value
[1] 0.9493007
> p.valuegreater<-1-pwilcox(W,nx,ny)+dwilcox(W,nx,ny)
> p.valuegreater
[1] 0.06876457
> wilcox.test(x,copiadiy,alt="greater",mu=-2.1,exact=T)$p.value
[1] 0.06876457
> p.valuetwo.sided<-2*min(p.valueless,p.valuegreater)
> p.valuetwo.sided
[1] 0.1375291
> wilcox.test(x,copiadiy,alt="two.sided",mu=-2.1,exact=T)$p.value
[1] 0.1375291
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
157
9.3.4
Sintassi: wilcox.test()
Parametri:
x vettore numerico di dimensione nx
y vettore numerico di dimensione ny
correct = T / F a seconda che sia applicata o no la correzione
di continuit`a di Yates
alt pu`o essere cambiata in less, greater o two.sided a seconda della coda che interessa
mu il valore di ( Q0.5 (x) Q0.5 (y) )| H0
Output:
$statistic valore empirico della statistica Z
$p.value p-value
$null.value il valore di ( Q0.5 (x) Q0.5 (y) )| H0
Formula:
$statistic
W
$p.value
correct = F
alt
less greater
two.sided
$p-value (z) 1 (z) 2 (1 (| z |))
z = h
W
nx ny
12
nx + ny + 1
nx ny
2
g
j=1
tj (t2j 1)
(nx +ny ) (nx +ny 1)
i1 / 2
158
z = h
W
nx ny
12
nx ny
2
nx + ny + 1
+ 0.5
g
j=1
tj (t2j 1)
(nx +ny ) (nx +ny 1)
i1 / 2
$null.value
( Q0.5 (x) Q0.5 (y) )| H0
Esempio:
> x
[1] -1 1 -2 -1 1 1 1 1 -1 -2 1 1
> y
[1] 1 2 3 4 5 6 7 8 9
> mu<-4
> y<-y+mu
> nx<-length(x)
> ny<-length(y)
> Rx<-sum(rank(c(x,y))[1:nx])
> W<-Rx-nx*(nx+1)/2
> W
[1] 0
> wilcox.test(x,y,correct=F,alt="less",mu=4,exact=F)$statistic
W
0
> table(rank(c(x,y)))
1.5
4
9 13 14
2
3
7
1
1
> g<-3
> t1<-2
> t2<-3
> t3<-7
> t<-c(t1,t2,t3)
> t
[1] 2 3 7
15
1
16
1
17
1
18
1
19
1
20
1
21
1
159
> num<-W-nx*ny/2
> den<-sqrt(nx*ny/12*(nx+ny+1-sum(t*(t**2-1))/((nx+ny)*(nx+ny-1))))
> z<-num/den
> p.value<-pnorm(z)
> p.value
[1] 4.502395e-05
> wilcox.test(x,y,correct=F,alt="less",mu=4,exact=F)$p.value
[1] 4.502395e-05
9.3.5
Sintassi: wilcox.test()
Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione n
alt pu`o essere cambiata in less, greater o two.sided a seconda della coda che interessa
mu il valore di ( Q0.5 (x) Q0.5 (y) )| H0
Output:
$statistic valore empirico della statistica V
$p.value p-value
$null.value il valore di ( Q0.5 (x) Q0.5 (y) )| H0
Formula:
$statistic
V
$p.value
alt
less
greater
two.sided
$p-value P (Wn V ) P (Wn V ) 2 min (P (Wn V ), P (Wn V ))
160
Esempio:
> x
[1] -0.1 -0.2 0.7 0.8 -1.2 -1.6 2.0 3.4 3.7
> y
[1] 1 2 3 4 5 6 7 8 9
> mu<--4
> x-y-mu
[1] 2.9 1.8 1.7 0.8 -2.2 -3.6 -1.0 -0.6 -1.3
> n<-length(x-y-mu)
> n
[1] 9
> prova<-rank(abs(x-y-mu))*sign(x-y-mu)
> V<-sum(prova[prova>0])
> V
[1] 21
> wilcox.test(x,y,paired=T,alt="less",mu=-4,exact=T)$statistic
V
21
> p.valueless<-psignrank(V,n)
> p.valueless
[1] 0.4550781
> wilcox.test(x,y,paired=T,alt="less",mu=-4,exact=T)$p.value
[1] 0.4550781
> p.valuegreater<-1-psignrank(V,n)+dsignrank(V,n)
> p.valuegreater
[1] 0.5898438
> wilcox.test(x,y,paired=T,alt="greater",mu=-4,exact=T)$p.value
[1] 0.5898438
> p.valuetwo.sided<-2*min(p.valueless,p.valuegreater)
> p.valuetwo.sided
[1] 0.9101563
> wilcox.test(x,y,paired=T,alt="two.sided",mu=-4,exact=T)$p.value
[1] 0.9101563
Osservazioni: Il vettore x - y - mu non deve contenere valori duplicati o nulli.
9.3.6
161
Sintassi: wilcox.test()
Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione n
correct = T / F a seconda che sia applicata o no la correzione
di continuit`a di Yates
alt pu`o essere cambiata in less, greater o two.sided a seconda della coda che interessa
mu il valore di ( Q0.5 (x) Q0.5 (y) )| H0
Output:
$statistic valore empirico della statistica Z
$p.value p-value
$null.value il valore di ( Q0.5 (x) Q0.5 (y) )| H0
Formula:
$statistic
V
$p.value
correct = F
alt
less greater
two.sided
$p-value (z) 1 (z) 2 (1 (| z |))
z = h
V
1
24
n (n+1)
4
n (n + 1) (2 n + 1)
1
2
Pg
2
j=1 tj (tj
i1 / 2
1)
correct = T
alt
less greater
two.sided
$p-value (zc ) 1 (zc ) 2 (1 (| zc |))
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
162
zc = h
V
1
24
n (n+1)
4
n (n + 1) (2 n + 1)
1
2
+ 0.5
Pg
2
j=1 tj (tj
i1 / 2
1)
$null.value
( Q0.5 (x) Q0.5 (y) )| H0
Esempio:
> x
[1] 4.0 4.0 3.0 4.0 2.0 4.0 5.0 5.0 4.0 3.3
> y
[1] 3.00 3.00 7.55 6.40 4.30 6.50 5.00 5.00 4.00 3.30
> mu<-1
> xy<-x-y
> xy<-(xy-mu)[(xy-mu)!=0]
> xy
[1] -5.55 -3.40 -3.30 -3.50 -1.00 -1.00 -1.00 -1.00
> n<-length(xy)
> n
[1] 8
> prova<-rank(abs(xy))*sign(xy)
> V<-sum(prova[prova>0])
> V
[1] 0
> wilcox.test(x,y,correct=F,alt="less",mu=1,exact=F,paired=T)$statistic
V
0
> table(rank(abs(xy)))
2.5
5
6
7
8
4
1
1
1
1
> g<-1
> t1<-4
> t<-c(t1)
> t
[1] 4
> num<-V-n*(n+1)/4
> den<-sqrt(1/24*(n*(n+1)*(2*n+1)-0.5*sum(t*(t**2-1))))
> z<-num/den
> p.value<-pnorm(z)
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
163
> p.value
[1] 0.005355751
> wilcox.test(x,y,correct=F,alt="less",mu=1,exact=F,paired=T)$p.value
[1] 0.005355751
9.4
9.4.1
Sintassi: kruskal.test()
Parametri:
y vettore numerico di dimensione n
f fattore a k livelli
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
Formula:
$statistic
c =
12
n (n+1)
Ri2
i=1 ni 3 (n
g
ti (t2i 1)
i=1
n (n2 1)
Pk
+ 1)
$parameter
k1
$p.value
P (2k1 c)
Esempio:
> y
[1] 2.1 3.0 2.1 5.3 5.3 2.1 5.6 7.5 2.1 5.3 2.1 7.5
> f
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
164
165
Kruskal-Wallis chi-squared
2.542784
> parameter<-k-1
> parameter
[1] 3
> kruskal.test(y~f)$parameter
df
3
> p.value<-1-pchisq(statistic,parameter)
> p.value
[1] 0.4676086
> kruskal.test(y~f)$p.value
[1] 0.4676086
9.5
9.5.1
Sintassi: friedman.test()
Parametri:
x matrice di dimensione n k
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
Formula:
$statistic
c =
k
X
12
R2 3 n (k + 1)
n k (k + 1) j=1 j
$parameter
k1
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
166
Esempio:
> x
X1 X2 X3
1 6 26 60
2 15 29 52
3 8 56 20
> n<-3
> n
[1] 3
> k<-3
> k
[1] 3
> matrice<-t(apply(x,1,rank))
> matrice
X1 X2 X3
1 1 2 3
2 1 2 3
3 1 3 2
> colSums(x)
X1 X2 X3
3
7
8
> R1<-3
> R2<-7
> R3<-8
> R<-c(R1,R2,R3)
> R
[1] 3 7 8
> statistic<-12/(n*k*(k+1))*sum(R**2)-3*n*(k+1)
> statistic
[1] 4.666667
> friedman.test(x)$statistic
Friedman chi-squared
4.666667
> parameter<-k-1
> parameter
[1] 2
> friedman.test(x)$parameter
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
167
df
2
> p.value<-1-pchisq(statistic,parameter)
[1] 0.09697197
> p.value
[1] 0.09697197
> friedman.test(x)$p.value
[1] 0.09697197
9.6
9.6.1
Sintassi: binom.test()
Parametri:
x numero di successi
n dimensione campionaria
conf.level livello di confidenza 1
p valore di p0
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
Output:
$statistic numero di successi
$parameter dimensione campionaria
$p.value p-value
$conf.int intervallo di confidenza per la proporzione incognita
a livello 1
$estimate proporzione campionaria
$null.value valore di p0
Formula:
$statistic
x
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
168
alt = two.sided
Caso
x = n p0
x < n p0
x > n p0
$p-value
1
FX (x) FX (n y) + 1 y = # pX (k) pX (x) k = dn p0 e, . . . , n
FX (y 1) FX (x 1) + 1 y = # pX (k) pX (x) k = 0, . . . , bn p0 c
X Binomiale(n, p0 )
n x
pX (x) =
p0 (1 p0 )nx x = 0, 1, . . . , n
x
x
X
n i
FX (x) =
p0 (1 p0 )ni x = 0, 1, . . . , n
i
i=0
$conf.int
FU1 ( / 2)
dove
FH1 (1 / 2)
U Beta(x, n x + 1) e H Beta(x + 1, n x)
$estimate :
x
n
169
$null.value
p0
Esempio:
>
>
>
>
9.7
9.7.1
x<-682
n<-682+243
p<-0.75
binom.test(x,n,p,conf.level=0.95,alt="two.sided")
Sintassi: runs.test()
Parametri:
f fattore di dimensione n a 2 livelli
alt pu`o essere cambiata in less, greater o two.sided a seconda della coda che interessa
Output:
$statistic valore empirico della statistica Z
$p.value p-value
Formula:
$statistic
z =
n1 +2 n1 n2 +n2
n1 +n2
2 n1 n2 (2 n1 n2 n1 n2 )
(n1 +n2 )2 (n1 +n2 1)
1 / 2
$p.value
alt
less greater
two.sided
$p-value (z) 1 (z) 2 (1 (| z |))
170
Esempio:
> f
[1] H T T H T H H H T H H T T H T H T H H T H T T H T H H T H T
Levels: H T
> n<-length(f)
> V<-1+sum(as.numeric(f[-1]!=f[-n]))
> V
[1] 22
> n1<-length(f[f=="H"])
> n1
[1] 16
> n2<-length(f[f=="T"])
> n2
[1] 14
> media<-(n1+2*n1*n2+n2)/(n1+n2)
> media
[1] 15.93333
> varianza<-(2*n1*n2*(2*n1*n2-n1-n2))/((n1+n2)**2*(n1+n2-1))
> varianza
[1] 7.174866
> z<-(V-media)/sqrt(varianza)
> z
[1] 2.26487
> runs.test(f,alt="less")$statistic
Standard Normal
2.26487
> p.value<-pnorm(z)
> p.value
[1] 0.9882397
> runs.test(f,alt="less")$p.value
[1] 0.9882397
Osservazioni: E necessario installare la libreria tseries.
Capitolo 10
Tabella di contingenza
10.1
Simbologia
i, j = 1, 2
n n
frequenze attese: n
ij = in j i, j = 1, 2
P
P
P
P
ij
totale frequenze: n = 2i=1 2j=1 nij = 2i=1 2j=1 n
10.2
Test di ipotesi
10.2.1
Sintassi: chisq.test()
Parametri:
x matrice di dimensione 2 2 contenente frequenze assolute
correct = T / F a seconda che sia applicata o meno la correzione di Yates
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
$observed frequenze osservate
$expected frequenze attese
$residuals residui di Pearson
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
172
Tabella di contingenza
Formula:
$statistic
correct = F
2 X
2
X
(nij n
ij )2
n (n11 n22 n12 n21 )2
c =
=
n
ij
n1 n2 n1 n2
i=1 j=1
correct = T
2 X
2
X
n (| n11 n22 n12 n21 | n / 2)2
(| nij n
ij | 1 / 2)2
=
c =
n
ij
n1 n2 n1 n2
i=1 j=1
$parameter
1
$p-value
P (21 c)
$observed
nij
i, j = 1, 2
n
ij
i, j = 1, 2
$expected
$residuals
nij n
p ij
n
ij
i, j = 1, 2
Esempio:
> x<-matrix(c(2,10,23,21),2,2,dimnames=list(c("A","B"),c("A","B")))
> x
A B
A 2 23
B 10 21
> chisq.test(x,correct=F)
10.2.2
173
Test di McNemar
Sintassi: mcnemar.test()
Parametri:
x matrice di dimensione 2 2 contenente frequenze assolute
correct = T / F a seconda che sia applicata o no la correzione
di Yates
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
Formula:
$statistic
correct = F
c =
(n12 n21 )2
n12 + n21
correct = T
c =
$parameter
1
$p-value
P (21 c)
Esempio:
> x<-matrix(c(2,10,23,21),2,2,dimnames=list(c("A","B"),c("A","B")))
> x
A B
A 2 23
B 10 21
> mcnemar.test(x,correct=F)
174
Tabella di contingenza
10.2.3
Sintassi: fisher.test()
Parametri:
x matrice di dimensione 2 2 contenente frequenze assolute
alt pu`o essere cambiata in less, greater o two.sided a seconda della coda che interessa
Output:
$p.value p-value
Formula:
$p.value
alt
$p-value
Pn11
less
p(i)
Pi=0
n11 1
greater
1 i=0 p(i)
Pn11
P
two.sided
p(i)p(n11 ) p(i) i = n11 + 1, . . . , min(n1 , n1 )
i=0 p(i) +
p(i) =
max (n1 , n1 )
i
nmax (n1 , n1 )
min (n1 , n1 )i
n
min (n1 , n1 )
i = 0, 1, . . . , min(n1 , n1 )
Esempio:
> x<-matrix(c(2,9,5,4),nrow=2,ncol=2)
> x
[,1] [,2]
[1,]
2
5
[2,]
9
4
> n11<-2
> n1.<-2+5
> n.1<-2+9
> n<-2+5+9+4
> n
[1] 20
> minimo<-min(n1.,n.1)
> minimo
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
175
176
Tabella di contingenza
10.3
10.3.1
margin.table()
i = 1, . . . , h
nj
j = 1, . . . , k
Esempio:
> x<-matrix(c(1,3,0,1,3,2,2,1,2),nrow=3,ncol=3,byrow=T)
> dimnames(x)<-list(c("a","b","c"),c("A","B","C"))
> x
A B C
a 1 3 0
b 1 3 2
c 2 1 2
> #marginale di riga (1)
> margin.table(x,margin=1)
a b c
4 6 5
> #marginale di colonna (2)
> margin.table(x,margin=2)
A B C
4 7 4
10.3.2
177
prop.table()
i = 1, . . . , h j = 1, . . . , k
nij / nj
i = 1, . . . , h j = 1, . . . , k
Esempio:
> x<-matrix(c(1,3,0,1,3,2,2,1,2),nrow=3,ncol=3,byrow=T)
> dimnames(x)<-list(c("a","b","c"),c("A","B","C"))
> x
A B C
a 1 3 0
b 1 3 2
c 2 1 2
> prop.table(x,margin=1)
A
B
C
a 0.2500000 0.75 0.0000000
b 0.1666667 0.50 0.3333333
c 0.4000000 0.20 0.4000000
> prop.table(x,margin=2)
A
B
C
a 0.25 0.4285714 0.0
b 0.25 0.4285714 0.5
c 0.50 0.1428571 0.5
178
Tabella di contingenza
Capitolo 11
Test di adattamento
11.1
11.1.1
Sintassi: jarque.bera.test()
Parametri:
x vettore numerico di dimensione n
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
Formula:
$statistic
n
c =
6
dove mj =
m3
3/2
m2
!2
n
+
24
n
1 X
(xi x)j
n i=1
2
m4
3
m22
j = 2, 3, 4
$parameter
2
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
180
Test di adattamento
$p.value
P (22 c)
Esempio:
> jarque.bera.test(x)
Osservazioni: E necessario installare la libreria tseries.
11.1.2
Sintassi: cvm.test()
Parametri:
x vettore numerico di dimensione n 7
Output:
$statistic valore empirico della statistica Z
$p.value p-value
Formula:
$statistic
n
X
x(i) x 2 i 1 2
1
W =
+
12 n i=1
sx
2n
$p.value
W W = (1 + 0.5 / n) W
WW
$p-value
< 0.0275
13.953+775.5 W W 12542.61 W W 2
1e
181
0.092
0.88631.62 W W +10.897 W W 2
1.11134.242 W W +12.832 W W 2
Esempio:
> cvm.test(x)
Osservazioni: E necessario installare la libreria nortest.
11.1.3
Sintassi: ad.test()
Parametri:
x vettore numerico di dimensione n 7
Output:
$statistic valore empirico della statistica Z
$p.value p-value
Formula:
$statistic
n
x
x(i) x
1 X
(ni+1) x
(2 i 1) log
+ log 1
A = n
n i=1
sx
sx
$p.value
AA = (1 + 0.75 / n + 2.25 / n2 ) A
AA
< 0.2
13.436+101.14 AA223.73 AA2
$p-value 1 e
182
Test di adattamento
AA
0.34 AND < 0.6
0.91774.279 AA1.38 AA2
$p-value e
0.6
1.29375.709 AA+0.0186 AA2
Esempio:
> ad.test(x)
Osservazioni: E necessario installare la libreria nortest.
11.1.4
Sintassi: sf.test()
Parametri:
x vettore numerico di dimensione 5 n 5000
Output:
$statistic valore empirico della statistica Z
$p.value p-value
Formula:
$statistic
2
x(i) yi n x y
P
W = Pn
)2 ni=1 ( yi y )2
i=1 ( xi x
Pn
i=1
dove yi =
i 3/8
n + 1/4
i = 1, 2, . . . , n
$p.value
1 (z)
dove z =
Esempio:
> sf.test(x)
Osservazioni: E necessario installare la libreria nortest.
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
11.1.5
183
Test di Lilliefors
Sintassi: lillie.test()
Parametri:
x vettore numerico di dimensione n 5
Output:
$statistic valore empirico della statistica Z
$p.value p-value
Formula:
$statistic
D = max
max
i
n
x
x x i 1
(i) x
(i)
, max
sx
sx
n i = 1, ..., n
i = 1, ..., n
$p.value
n
Kd
nd
n 100
n > 100
D
(n / 100)0.49 D
n
100
pvalue = e
nd+2.780190.122119+ 0.974598
+ 1.67997
nd
nd
pvalue 0.1
$p.value = pvalue
pvalue > 0.1
kk
$p.value
0.302
1
0.5
2.76773 19.828315 kk + 80.709644 kk 2 138.55152 kk 3 + 81.218052 kk 4
0.9 4.901232 + 40.662806 kk 97.490286 kk 2 + 94.029866 kk 3 32.355711 kk 4
1.31
6.198765 19.558097 kk + 23.186922 kk 2 12.234627 kk 3 + 2.423045 kk 4
> 1.31
0
kk = ( n 0.01 + 0.85 / n) D
184
Test di adattamento
Esempio:
> lillie.test(x)
Osservazioni: E necessario installare la libreria nortest.
11.2
11.2.1
Sintassi: chisq.test()
Parametri:
x vettore di frequenze assolute di dimensione k
p vettore p di probabilit`a di dimensione k
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
$observed valori osservati
$expected valori attesi
$residuals residui di Pearson
185
Formula:
$statistic
k
X
(ni n
i )2
c =
n
i
i=1
dove n
i = pi
k
X
nj = n p i
i = 1, 2, . . . , k
j=1
$parameter
k1
$p-value
P (2k1 c)
$observed
ni
i = 1, 2, . . . , k
$expected
n
i = pi
k
X
nj = n pi
i = 1, 2, . . . , k
j=1
$residuals
ni n
i
n
i
i = 1, 2, . . . , k
Esempio:
> x<-c(100,110,80,55,14)
> chisq.test(x,p=c(29,21,17,17,16)/100)
186
Test di adattamento
Capitolo 12
Regressione lineare
12.1
Simbologia
i = 1, 2, . . . , n
N (0, 2 In )
nkri2
nk1
i = 1, 2, . . . , n
diag((X T X)1 )
ei
1hi
i = 1, 2, . . . , n
188
Regressione lineare
si
ei
1hi
i = 1, 2, . . . , n
valori fittati: y = H y
valori di leva: h = diag(H)
stime OLS tolta la i-esima unit`a: i
correlazione tra le stime OLS: i, j =
i = 1, 2, . . . , n
s2 (X T X)1
(i, j)
i, j = 1, 2, . . . , k
se se
i
Pn
i=1
(yi y)2
RSS / (nk)
RSSnullo / (n1)
valore noto del regressore per la previsione: xT0 = (1, x01 , x02 , . . . , x0k1 )
2 ) = n log(2 ) + log RSS + 1
log-verosimiglianza normale: `(,
2
n
distanza di Cook : cdi =
hi rstandard2i
k (1hi )
covratio: cri = (1 hi )
12.2
Stima
12.2.1
lm()
1+
i = 1, 2, . . . , n
rstudent2i 1
nk
k
i = 1, 2, . . . , n
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: analisi di regressione lineare
Output:
$coefficients stime OLS
$residuals residui
$rank rango di X
$fitted.values valori fittati
$df.residual gradi di libert`a della devianza residua
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
12.2 Stima
189
Formula:
$coefficients
$residuals
e
$rank
k
$fitted.values
y
$df.residual
nk
Esempio:
> modello<-lm(y~x1+x2+x3)
12.2.2
summary.lm()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
correlation = T / F correlazione tra le stime OLS
Significato: analisi di regressione lineare
Output:
$residuals residui
$coefficients stima puntuale, standard error, t-value, p-value
$sigma stima di
$r.squared R2
2
$adj.r.squared Radj
190
Regressione lineare
$cov.unscaled matrice di varianza non scalata per 2
$correlation correlazione tra le stime OLS
Formula:
$residuals
e
$coefficients[,1]
j
j = 1, 2, . . . , k
$coefficients[,2]
sej
j = 1, 2, . . . , k
tj
j = 1, 2, . . . , k
$coefficients[,3]
$coefficients[,4]
2 P (tnk | tj |) j = 1, 2, . . . , k
$sigma
s
$r.squared
R2
$adj.r.squared
2
Radj
$fstatistic[1]
F value =
RSSnullo RSS / (k 1)
RSSnullo / (n 1)
$fstatistic[2]
k1
$fstatistic[3]
nk
$cov.unscaled
(X T X)1
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
12.2 Stima
191
$correlation
i, j = 1, 2, . . . , k
i, j
Esempio:
> modello<-lm(y~x1+x2+x3)
> summary.lm(modello,correlation=T)
12.2.3
vcov()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: matrice di covarianze delle stime OLS
Formula:
s2 (X T X)1
Esempio:
> modello<-lm(y~x1+x2+x3)
> vcov(modello)
12.2.4
lm.fit()
Parametri:
X matrice del modello
y variabile dipendente
Significato: analisi di regressione lineare
Output:
$coefficients stime OLS
$residuals residui
$rank rango di X
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
192
Regressione lineare
$fitted.values valori fittati
$df.residual gradi di libert`a della devianza residua
Formula:
$coefficients
$residuals
e
$rank
k
$fitted.values
y
$df.residual
nk
Esempio:
> modello<-lm(y~x1+x2+x3)
> X<-model.matrix(modello)
> lm.fit(X,y)
12.2.5
lsfit()
Parametri:
X matrice del modello
y variabile dipendente
Significato: analisi di regressione lineare
Output:
$coefficients stime OLS
$residuals residui
12.2 Stima
193
Formula:
$coefficients
$residuals
e
Esempio:
> modello<-lm(y~x1+x2+x3)
> X<-model.matrix(modello)
> lsfit(X,y)
12.2.6
confint()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
parm parametri del modello di cui vogliamo calcolare lintervallo
di confidenza
level livello di confidenza 1
Significato: intervallo di confidenza per le stime OLS
Formula:
j t1 / 2, nk sej
j = 1, 2, . . . , k
Esempio:
> modello<-lm(y~x1+x2+x3)
> confint(modello,parm=c(1,2,3),level=0.95)
194
Regressione lineare
12.2.7
coef()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: stime OLS
Formula:
Esempio:
> modello<-lm(y~x1+x2+x3)
> coef(modello)
12.2.8
coeftest()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
df = NULL / Inf significativit`a delle stime effettuata con la variabile casuale t oppure Z
Significato: stime OLS e significativit`a
Esempio:
> modello<-lm(y~x1+x2+x3)
> coeftest(modello,df=NULL)
Osservazioni: E necessario installare la libreria lmtest.
12.2 Stima
12.2.9
195
boxcox()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
lambda parametro di trasformazione
Significato: modello trasformato di BoxCox
Output
$x valore del parametro
$y funzione di verosimiglianza L() da minimizzare in
Formula:
$x
$y
n
X
n
log(yi )
L() = log RSSt (y) + ( 1)
2
i=1
dove t (y) =
y 1
log(y)
se 6= 0
se = 0
196
Regressione lineare
12.2.10
box.cox()
Parametri:
y vettore numerico positivo di dimensione n
p parametro di trasformazione
Significato: variabile y trasformata di BoxCox
Formula:
y 1
log(y)
se 6= 0
se = 0
Esempio:
> box.cox(y,p=0.5)
Osservazioni: E necessario installare la libreria car.
12.2.11
fitted()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: valori fittati
Formula:
y
Esempio:
> modello<-lm(y~x1+x2+x3)
> fitted(modello)
12.2 Stima
12.2.12
197
predict()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
nd il valore di x0
interval = co / pr confidenza o previsione
level livello di confidenza 1
Significato: intervallo di confidenza o di previsione utilizzando la variabile casuale Z
Output:
fit valori previsti dal modello
se.fit standard error delle stime
residual.scale stima di
Formula:
$fit[,1]
xT0
$fit[,c(2,3)]
interval = co
q
T
x0 z1 / 2 s xT0 (X T X)1 x0
interval = pr
q
T
x0 z1 / 2 s 1 + xT0 (X T X)1 x0
$se.fit
s
xT0 (X T X)1 x0
$residual.scale
s
198
Regressione lineare
Esempio:
> modello<-lm(y~x1+x2+x3)
> m<-modello
> s<-summary(m)$sigma
> k<-4
> x0<-numeric(k)
> x0<-c(1,1.3,2.1,2.3)
> yhat<-as.numeric(t(x0)%*%coef(m))
> yhat
[1] -67.63043
> nd<-data.frame(x1=1.3,x2=2.1,x3=2.3)
> ok<-predict.lm(m,nd,interval="pr",level=0.95,se.fit=T,scale=s,df=Inf)
> ok$fit[,1]
[1] -67.63043
> alpha<-0.05
> X<-model.matrix(m)
> yhat+c(-1,1)*qnorm(1-alpha/2)*s*sqrt(1+t(x0)%*%solve(t(X)%*%X)%*%x0)
[1] -103.39959 -31.86126
> ok$fit[,c(2,3)]
lwr
upr
-103.39959 -31.86126
> se.fit<-as.numeric(s*sqrt(t(x0)%*%solve(t(X)%*%X)%*%x0))
> se.fit
[1] 18.15023
> ok$se.fit
[1] 18.15023
> s
[1] 1.904851
> ok$residual.scale
[1] 1.904851
12.2.13
predict.lm()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
nd il valore di x0
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
12.2 Stima
199
interval = pr
q
T
x0 t1 / 2, nk s 1 + xT0 (X T X)1 x0
$se.fit
s
xT0 (X T X)1 x0
$df
nk
$residual.scale
s
200
Regressione lineare
Esempio:
> modello<-lm(y~x1+x2+x3)
> m<-modello
> s<-summary(m)$sigma
> k<-4
> x0<-numeric(k)
> x0<-c(1,1.3,2.1,2.3)
> yhat<-as.numeric(t(x0)%*%coef(m))
> yhat
[1] -67.63043
> nd<-data.frame(x1=1.3,x2=2.1,x3=2.3)
> ok<-predict.lm(m,nd,interval="pr",level=0.95,se.fit=T)
> ok$fit[,1]
[1] -67.63043
> alpha<-0.05
> X<-model.matrix(m)
> yhat+c(-1,1)*qt(1-alpha/2,n-k)*s*sqrt(1+t(x0)%*%solve(t(X)%*%X)%*%x0)
[1] -108.91459 -26.34627
> ok$fit[,c(2,3)]
lwr
upr
-108.91459 -26.34627
> se.fit<-as.numeric(s*sqrt(t(x0)%*%solve(t(X)%*%X)%*%x0))
> se.fit
[1] 18.15023
> ok$se.fit
[1] 18.15023
> s
[1] 1.904851
> ok$residual.scale
[1] 1.904851
12.2.14
linear.hypothesis()
Parametri:
modello modello di regressione lineare con 1 variabile esplicativa
ed n unit`a
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
12.2 Stima
201
xT0 b
s
!2
xT0 (X T X)1 x0
$Df
Regression
Residuals
1
n2
$p
P (F1, n2 F value)
Esempio:
>
>
>
>
>
modello<-lm(y~x)
xvalue<-1.2
x0<-c(1,xvalue)
b<-2.4
linear.hypothesis(modello,hypothesis.matrix=matrix(x0,1,2),rhs=b)
202
Regressione lineare
12.2.15
lm.ridge()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
lambda valore del parametro
Significato: RidgeRegression
Output:
$coef stime
$scales scarto quadratico medio delle k 1 variabili esplicative
$lambda
$ym media della variabile dipendente
$xm media delle k 1 variabili esplicative
$GCV i valori di e GCV
$kHKB kHKB
$kLW kLW
Formula:
$coef
V ( D2 + Ik1 )1 D U T (y y)
$scales
xj
j = 1, 2, . . . , k 1
$lambda
$ym
y
$xm
xj
j = 1, 2, . . . , k 1
$GCV
(y y)T ( In U D ( D2 + Ik1 )1 D U T )2 (y y)
2
2
Pk1 D(i,
i)
n i=1 +D2
(i, i)
12.3 Adattamento
203
$kHKB
k 3 (y y)T ( In U U T ) (y y)
n k (y y)T U D2 U T (y y)
$kLW
n (k 3) (y y)T ( In U U T ) (y y)
nk
(y y)T U U T (y y)
Esempio:
> modello<-lm(y~x1+x2+x3)
> lm.ridge(modello,lambda=1.2)
Osservazioni1: E necessario installare la libreria MASS.
Osservazioni2: Dalla matrice del modello X viene prima ricavata la
matrice standardizzata A e successivamente applicata la fattorizzazione
ai valori singolari A = U D V T mediante il comando svd.
12.3
Adattamento
12.3.1
logLik()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: log-verosimiglianza normale
Formula:
, 2 ) df = k + 1
`(y;
Esempio:
> modello<-lm(y~x1+x2+x3)
> logLik(modello)
204
Regressione lineare
12.3.2
dwtest()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: test di DurbinWatson
Output:
$statistic valore empirico della statistica DW
Formula:
$statistic
Pn
dw =
i=2
(ei ei1 )2
RSS
Esempio:
> modello<-lm(y~x1+x2+x3)
> dwtest(modello)
Osservazioni: E necessario installare la libreria lmtest.
12.3.3
AIC()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: indice AIC
Formula:
2 ) + 2 (k + 1)
2 `(,
Esempio:
> modello<-lm(y~x1+x2+x3)
> AIC(modello)
12.3 Adattamento
12.3.4
205
extractAIC()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: numero di parametri del modello ed indice AIC
Formula:
k
n log(RSS / n) + 2 k
Esempio:
> modello<-lm(y~x1+x2+x3)
> extractAIC(modello)
12.3.5
deviance()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: devianza residua
Formula:
RSS
Esempio:
> modello<-lm(y~x1+x2+x3)
> deviance(modello)
206
Regressione lineare
12.3.6
leaps()
Parametri:
A matrice delle h 1 variabili esplicative ed n unit`a
y variabile dipendente
Significato: Best Subsets
Output:
which variabili selezionate
size numero di parametri
method = r2 / adjr2 / Cp
Formula:
$size
kj
j = 1, 2, . . . , h 1
j
kj = j + 1
h-1
kh1 = h
Numero di Subsets
h1
1
h1
2
h1
j
h1
h1
$r2
method = r2
Rj2
j = 1, 2, . . . , h 1
Rj2 rappresenta il massimo R2 tra i h1
modelli di regressione
j
con j variabili esplicative oppure kj parametri.
12.3 Adattamento
207
$adjr2
method = adjr2
2
Radj
j
j = 1, 2, . . . , h 1
h1
2
2
Radj
rappresenta
il
massimo
R
tra
i
modelli di regressione
j
adj
j
con j variabili esplicative oppure kj parametri.
$Cp
method = Cp
Cpj = (n kh1 ) (1 Rj2 ) + 2 kj n j = 1, 2, . . . , h 1
Cpj rappresenta il minimo Cp tra i h1
modelli di regressione
j
con j variabili esplicative oppure kj parametri.
Esempio:
>
>
>
>
modello<-lm(y~x1+x2+x3+x4+x5)
X<-model.matrix(modello)
A<-X[,-1]
leaps(A,y,method="Cp",nbest=1)
12.3.7
anova()
Parametri:
mod modello di regressione lineare ridotto con 1 variabile esplicativa ed n unit`a
modello modello di regressione lineare con 1 variabile esplicativa
ed n unit`a
Significato: test di ipotesi per H0 : 2 = b contro H1 : 2 6= b
Output:
$Res.Df gradi di libert`a
$RSS devianza residua
$Df differenza dei gradi di libert`a
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
208
Regressione lineare
$Sum of Sq differenza tra le devianze residue
$F valore empirico della statistica F
$Pr(>F) p-value
Formula:
$Res.df
nk+1
nk
$RSS
n
X
(yi b xi1 (
y b x1 ))2
RSS
i=1
$Df
NA
$Sum of Sq
NA
n
X
(yi b xi1 (
y b x1 ))2 RSS
i=1
$F
Pn
NA F value =
i=1
(yi b xi1 (
y b x1 ))2 RSS
RSS / (n k)
$Pr(>F)
NA
P (F1, n2 F value)
Esempio:
>
>
>
>
b<-2
mod<-lm(y~offset(b*x))
modello<-lm(y~x)
anova(mod,modello)
12.3 Adattamento
12.3.8
209
drop1()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
scale = 0 / summary(modello)$sigma**2 indice AIC oppure
Cp
Significato: Submodels
Output:
$Df differenza tra gradi di libert`a
$Sum of Sq differenza tra devianze residue
$RSS devianza residua
$AIC indice AIC
$Cp indice Cp
$F value valore empirico della statistica F
$Pr(F) p-value
Formula:
$Df
1
$Sum of Sq
RSSxj RSS
j = 1, 2, . . . , k 1
j = 1, 2, . . . , k 1
$AIC
scale = 0
n log (RSS / n)+2 k, log RSSxj / n +2 (k1)
j = 1, 2, . . . , k1
210
Regressione lineare
$Cp
scale = summary(modello)$sigma**2
k, (n k)
RSSxj
+ 2 (k 1) n
RSS
j = 1, 2, . . . , k 1
$F value
Fxj =
RSSxj RSS
RSS / (n k)
j = 1, 2, . . . , k 1
$Pr(F)
P (F1, nk Fxj )
j = 1, 2, . . . , k 1
Esempio:
> #indice AIC
> modello<-lm(y~x1+x2+x3)
> drop1(modello,test="F",scale=0)
> #indice Cp
> modello<-lm(y~x1+x2+x3)
> drop1(modello,test="F",scale=summary(modello)$sigma**2)
12.3.9
add1()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
scale = 0 / summary(modello)$sigma**2 indice AIC oppure
Cp
Significato: Submodels
Output:
$Df differenza tra gradi di libert`a
$Sum of Sq differenza tra devianze residue
$RSS devianza residua
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
12.3 Adattamento
211
j = 1, 2, . . . , k 1
j = 1, 2, . . . , k 1
$AIC
scale = 0
RSSnullo , n log RSSxj / n + 4 j = 1, 2, . . . , k 1
$Cp
scale = summary(nullo)$sigma**2
1, (n 1)
RSSxj
+4n
RSSnullo
j = 1, 2, . . . , k 1
$F value
Fxj =
RSSnullo RSSxj
RSSxj / (n 2)
j = 1, 2, . . . , k 1
$Pr(F)
P (F1, n2 Fxj )
j = 1, 2, . . . , k 1
212
Regressione lineare
Esempio:
>
>
>
>
>
#indice AIC
nullo<-lm(y~1)
RSSnullo<-deviance(nullo)
modello<-lm(y~x1+x2+x3)
add1(nullo,modello,test="F",scale=0)
>
>
>
>
>
#indice Cp
nullo<-lm(y~1)
RSSnullo<-deviance(nullo)
modello<-lm(y~x1+x2+x3)
add1(nullo,modello,test="F",scale=summary(nullo)$sigma**2)
12.3.10
bptest()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
studentize = T / F metodo di Koenker
Significato: test di Breusch-Pagan per leteroschedasticit`a
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
Formula:
$statistic
studentize = T
vi = e2i RSS / n
i = 1, 2, . . . , n
T
c = n
v Hv
vT v
studentize = F
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
12.4 Diagnostica
213
vi = n e2i / RSS 1
c =
i = 1, 2, . . . , n
1 T
v Hv
2
$parameter
k1
$p.value
P (2k1 c)
Esempio:
> modello<-lm(y~x1+x2+x3)
> bptest(modello,studentize=T)
Osservazioni: E necessario installare la libreria lmtest.
12.4
Diagnostica
12.4.1
ls.diag()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: analisi di regressione lineare
Output:
$std.dev stima di
$hat valori di leva
$std.res residui standard
$stud.res residui studentizzati
$cooks distanza di Cook
$dfits dfits
$correlation matrice di correlazione tra le stime OLS
$std.err standard error delle stime OLS
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
214
Regressione lineare
$cov.scaled matrice di covarianza delle stime OLS
$cov.unscaled matrice di covarianza delle stime OLS non scalata per 2
Formula:
$std.dev
s
$hat
h
$std.res
rstandardi
i = 1, 2, . . . , n
$stud.res
rstudenti
i = 1, 2, . . . , n
$cooks
i = 1, 2, . . . , n
cdi
$dfits
r
rstudenti
hi
1 hi
i = 1, 2, . . . , n
$correlation
i, j
i, j = 1, 2, . . . , k
$std.err
sej
j = 1, 2, . . . , k
$cov.scaled
s2 (X T X)1
$cov.unscaled
(X T X)1
Esempio:
> modello<-lm(y~x1+x2+x3)
> ls.diag(modello)
12.4 Diagnostica
12.4.2
215
cooks.distance()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: distanza di Cook
Formula:
cdi
i = 1, 2, . . . , n
Esempio:
> modello<-lm(y~x1+x2+x3)
> cooks.distance(modello)
12.4.3
rstandard()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: residui standard
Formula:
rstandardi
i = 1, 2, . . . , n
Esempio:
> modello<-lm(y~x1+x2+x3)
> rstandard(modello)
216
Regressione lineare
12.4.4
rstudent()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: residui studentizzati
Formula:
rstudenti
i = 1, 2, . . . , n
Esempio:
> modello<-lm(y~x1+x2+x3)
> rstudent(modello)
12.4.5
dffits()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: dffits
Formula:
r
rstudenti
hi
1 hi
i = 1, 2, . . . , n
Esempio:
> modello<-lm(y~x1+x2+x3)
> dffits(modello)
12.4 Diagnostica
12.4.6
217
covratio()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: covratio
Formula:
cri
i = 1, 2, . . . , n
Esempio:
> modello<-lm(y~x1+x2+x3)
> covratio(modello)
12.4.7
lm.influence()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: diagnostica di regressione
Output:
$hat valori di leva
$coefficients differenza tra le stime OLS eliminando una unit`a
$sigma stima di eliminando una unit`a
$wt.res residui
Formula:
$hat
h
$coefficients
i = Xi (X T X)1
ei
i = 1, 2, . . . , n
1 hi
$sigma
si
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
218
Regressione lineare
$wt.res
e
Esempio:
> modello<-lm(y~x1+x2+x3)
> lm.influence(modello)
12.4.8
residuals()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: residui
Formula:
e
Esempio:
> modello<-lm(y~x1+x2+x3)
> residuals(modello)
12.4.9
df.residual()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: gradi di libert`a della devianza residua
Formula:
nk
Esempio:
> modello<-lm(y~x1+x2+x3)
> df.residual(modello)
12.4 Diagnostica
12.4.10
219
hatvalues()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: valori di leva
Formula:
h
Esempio:
> modello<-lm(y~x1+x2+x3)
> hatvalues(modello)
Osservazioni: E necessario installare la libreria car.
12.4.11
hat()
Parametri:
X matrice del modello
Significato: valori di leva
Formula:
h
Esempio:
> modello<-lm(y~x1+x2+x3)
> X<-model.matrix(modello)
> hat(X)
220
Regressione lineare
12.4.12
dfbeta()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: dfbeta
Formula:
i = Xi (X T X)1
ei
i = 1, 2, . . . , n
1 hi
Esempio:
> modello<-lm(y~x1+x2+x3)
> dfbeta(modello)
Osservazioni: E necessario installare la libreria car.
12.4.13
dfbetas()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: dfbetas
Formula:
i
si
diag((X T X)1 )
ei
1hi
Xi (X X)
p
si diag((X T X)1 )
Esempio:
> modello<-lm(y~x1+x2+x3)
> dfbetas(modello)
i = 1, 2, . . . , n
12.4 Diagnostica
12.4.14
221
vif.lm()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: variance inflation factor
Formula:
1
1 Rx2 j
j = 1, 2, . . . , k 1
12.4.15
outlier.test.lm()
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: test sugli outliers
Output:
$test verifica di ipotesi
Formula:
$test[1]
o
n
t = max
rstudenti
i = 1, 2, ... ,n
$test[2]
nk1
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
222
Regressione lineare
$test[3]
p = 2 P ( tnk1 | t |)
$test[4]
n p se n p 1
NA se n p > 1
Esempio:
> modello<-lm(y~x1+x2+x3)
> outlier.test.lm(modello)
Osservazioni: E necessario installare la libreria car.
Capitolo 13
Regressione lineare pesata
13.1
Simbologia
i = 1, 2, . . . , n
N (0, 2 W )
W = diag(w1 , w2 , . . . , wn )
nkri2
nk1
i = 1, 2, . . . , n
224
ei
wi (1hi )
i = 1, 2, . . . , n
ei
si
i = 1, 2, . . . , n
wi (1hi )
valori fittati: y = H y
valori di leva: h = diag(H)
stime WLS tolta la i-esima unit`a: i
correlazione tra le stime WLS: i, j =
i = 1, 2, . . . , n
s2 (X T W 1 X)1
(i, j)
se se
i
i, j = 1, 2, . . . , k
Pn
1
i=1 wi
yi
Pn
j=1
yj
wj1
n
i=1
2
wi1
RSS / (nk)
RSSnullo / (n1)
valore noto del regressore per la previsione: xT0 = (1, x01 , x02 , . . . , x0k1 )
2 ) = n log(2 ) + log RSS + 1 1 Pn log(wi )
log-verosimiglianza: `(,
i=1
2
n
2
distanza di Cook : cdi =
hi rstandard2i
k (1hi )
covratio: cri = (1 hi )1 1 +
13.2
Stima
13.2.1
lm()
i = 1, 2, . . . , n
rstudent2i 1
nk
k
i = 1, 2, . . . , n
Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
weights diagonale della matrice W 1
Significato: analisi di regressione lineare pesata
13.2 Stima
225
Output:
$coefficients stime WLS
$residuals residui
$rank rango di X
$fitted.values valori fittati
$df.residual gradi di libert`a della devianza residua
Formula:
$coefficients
$residuals
e
$rank
k
$fitted.values
y
$df.residual
nk
Esempio:
>
>
>
>
13.2.2
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
summary.lm()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
correlation = T / F matrice di correlazione delle stime WLS
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
226
j = 1, 2, . . . , k
$coefficients[,2]
sej
j = 1, 2, . . . , k
tj
j = 1, 2, . . . , k
$coefficients[,3]
$coefficients[,4]
2 P (tnk | tj |) j = 1, 2, . . . , k
$sigma
s
$r.squared
R2
$adj.r.squared
2
Radj
13.2 Stima
227
$fstatistic[1]
F value =
(RSSnullo RSS) / (k 1)
RSS / (n k)
$fstatistic[2]
k1
$fstatistic[3]
nk
$cov.unscaled
(X T W 1 X)1
$correlation
i, j
i, j = 1, 2, . . . , k
Esempio:
>
>
>
>
>
13.2.3
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
summary.lm(modello,correlation=T)
vcov()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: matrice di covarianze delle stime WLS
Formula:
s2 (X T W 1 X)1
Esempio:
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
vcov(modello)
228
13.2.4
lm.wfit()
Parametri:
X matrice del modello
y variabile dipendente
w diagonale della matrice W 1
Significato: analisi di regressione lineare pesata
Output:
$coefficients stime WLS
$residuals residui
$rank rango di X
$fitted.values valori fittati
$weights diagonale della matrice W 1
$df.residual gradi di libert`a della devianza residua
Formula:
$coefficients
$residuals
e
$rank
k
$weights
wi1
i = 1, 2, . . . , n
$fitted.values
y
$df.residual
nk
13.2 Stima
229
Esempio:
>
>
>
>
>
>
13.2.5
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
X<-model.matrix(modello)
lm.fit(X,y,w=diag(W)^-1)
lsfit()
Parametri:
X matrice del modello
y variabile dipendente
w diagonale della matrice W 1
Significato: analisi di regressione lineare pesata
Output:
$coefficients stime WLS
$residuals residui
$wt diagonale della matrice W 1
Formula:
$coefficients
$residuals
e
$wt
wi1
i = 1, 2, . . . , n
230
Esempio:
>
>
>
>
>
>
13.2.6
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
X<-model.matrix(modello)
lsfit(X,y,w=diag(W)^-1,intercept=T)
confint()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
parm parametri del modello di cui vogliamo calcolare lintervallo
di confidenza
level livello di confidenza 1
Significato: intervallo di confidenza per le stime WLS
Formula:
j t1 / 2, nk sej
j = 1, 2, . . . , k
Esempio:
>
>
>
>
>
13.2.7
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
confint(modello,parm=c(1,2,3),level=0.95)
coef()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
13.2 Stima
231
Esempio:
>
>
>
>
>
13.2.8
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
coef(modello)
coeftest()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
df = NULL / Inf significativit`a delle stime effettuata con la variabile casuale t oppure Z
Significato: stime WLS e significativit`a
Esempio:
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
coeftest(modello,df=NULL)
232
13.2.9
fitted()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: valori fittati
Formula:
y
Esempio:
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
fitted(modello)
13.2.10
predict()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
nd il valore di x0
interval = co / pr confidenza o previsione
level livello di confidenza 1
Significato: intervallo di confidenza o di previsione utilizzando la variabile casuale Z
Output:
fit valori previsti dal modello
se.fit standard error delle stime
residual.scale stima di
13.2 Stima
233
Formula:
$fit[,1]
xT0
$fit[,c(2,3)]
interval = co
q
T
x0 z1 / 2 s xT0 (X T W 1 X)1 x0
interval = pr
q
T
x0 z1 / 2 s 1 + xT0 (X T W 1 X)1 x0
$se.fit
s
q
xT0 (X T W 1 X)1 x0
$residual.scale
s
Esempio:
>
>
>
>
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
m<-modello
s<-summary(m)$sigma
x0<-c(1,1.3,2.1,2.3)
nd<-data.frame(x1=1.3,x2=2.1,x3=2.3)
predict.lm(m,nd,interval="pr",level=0.99,se.fit=T,scale=s,df=Inf)
13.2.11
predict.lm()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
nd il valore di x0
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
234
interval = pr
q
T
x0 t1 / 2, nk s 1 + xT0 (X T W 1 X)1 x0
$se.fit
s
xT0 (X T W 1 X)1 x0
$df
nk
$residual.scale
s
13.2 Stima
235
Esempio:
>
>
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
x0<-c(1,1.3,2.1,2.3)
nd<-data.frame(x1=1.3,x2=2.1,x3=2.3)
predict.lm(modello,nd,interval="pr",level=0.99,se.fit=T)
13.2.12
linear.hypothesis()
Parametri:
modello modello di regressione lineare pesata con 1 variabile esplicativa ed n unit`a
hypothesis.matrix matrice della variabile esplicativa di dimensione 1 2
rhs valore b della previsione lineare
Significato: test di ipotesi per H0 : xT0 = b contro H1 : xT0 6= b
Output:
$SSE devianza residua
$f valore empirico della statistica F
$Df gradi di libert`a
$p p-value
Formula:
$SSE
RSS
$f
F value =
xT0 b
s
xT0 (X T W 1 X)1 x0
!2
236
1
n2
$p
P (F1, n2 F value)
Esempio:
>
>
>
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x,weights=diag(W)^-1)
xvalue<-1.2
x0<-c(1,xvalue)
b<-2.4
linear.hypothesis(modello,hypothesis.matrix=matrix(x0,1,2),rhs=b)
13.3
Adattamento
13.3.1
logLik()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: funzione di verosimiglianza pesata nel caso normale
Formula:
2 ) df = k + 1
`(,
Esempio:
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
logLik(modello)
13.3 Adattamento
13.3.2
237
deviance()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: devianza residua
Formula:
RSS
Esempio:
>
>
>
>
>
13.3.3
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
deviance(modello)
AIC()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: indice AIC
Formula:
2 ) + 2 (k + 1)
2 `(,
Esempio:
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
AIC(modello)
238
13.3.4
extractAIC()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: numero di parametri ed indice AIC
Formula:
k
n log(RSS / n) + 2 k
Esempio:
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
extractAIC(modello)
13.4
Diagnostica
13.4.1
weighted.residuals()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: residui pesati
Formula:
ei / wi
i = 1, 2, . . . , n
Esempio:
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
weighted.residuals(modello)
13.4 Diagnostica
13.4.2
239
residuals()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: residui
Formula:
e
Esempio:
>
>
>
>
>
13.4.3
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
residuals(modello)
outlier.test.lm()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: test sugli outliers
Output:
$test verifica di ipotesi
Formula:
$test[1]
o
n
t = max
rstudenti
i = 1, 2, ... ,n
$test[2]
nk1
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1
240
Esempio:
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
outlier.test.lm(modello)
13.4.4
df.residual()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: gradi di libert`a della devianza residua
Formula:
nk
Esempio:
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
df.residual(modello)
13.4 Diagnostica
13.4.5
241
hatvalues()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: valori di leva
Formula:
h
Esempio:
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
hatvalues(modello)
13.4.6
hat()
Parametri:
X matrice del modello
Significato: valori di leva
Formula:
h
Esempio:
>
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
X<-model.matrix(modello)
hat(X)
242
13.4.7
rstandard()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: residui standard
Formula:
rstandardi
i = 1, 2, . . . , n
Esempio:
>
>
>
>
>
13.4.8
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
rstandard(modello)
rstudent()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: residui studentizzati
Formula:
rstudenti
i = 1, 2, . . . , n
Esempio:
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
rstudent(modello)
13.4 Diagnostica
13.4.9
243
dffits()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: dffits
Formula:
r
rstudenti
hi
1 hi
i = 1, 2, . . . , n
Esempio:
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
dffits(modello)
13.4.10
covratio()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: covratio
Formula:
cri
i = 1, 2, . . . , n
Esempio:
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x,weights=diag(W)^-1)
covratio(modello)
244
13.4.11
cooks.distance()
Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: distanza di Cook
Formula:
cdi
i = 1, 2, . . . , n
Esempio:
>
>
>
>
>
n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x,weights=diag(W)^-1)
cooks.distance(modello)
Indice analitico
% %, 96
*, 96
:, 27
AIC, 204, 237
Arg, 36
Box.test, 144, 145
COV, 55
Conj, 36
DD, 41
E, 67
IQR, 51
Im, 35
Mod, 35
NCOL, 100
NROW, 99
Re, 35
TukeyHSD, 137139
abs, 16
acf, 62
acosh, 23
acos, 22
ad.test, 181
add1, 210
all, 42
anova, 130, 131, 133, 207
any, 42
as.vector, 92
asinh, 23
asin, 22
atanh, 24
atan, 23
bartlett.test, 147
basicStats, 71
beta, 33
binom.test, 167
box.cox, 196
boxcox, 195
boxplot.stats, 75
bptest, 212
by, 127
cbind, 90
ceiling, 31
chi2, 66
chisq.test, 171, 184
chol, 103
choose, 19
cmv.test, 180
coeftest, 194, 231
coef, 194, 230
colMeans, 101
colSums, 100
confint, 193, 230
cooks.distance, 215, 244
cor.test, 143
cor, 59
cos, 21
covratio, 217, 243
cov, 56
crossprod, 95
cummax, 38
cummin, 37
cumprod, 37
cumsum, 37
cut, 81
cv, 53
det, 92
246
deviance, 205, 237
df.residual, 218, 240
dfbetas, 220
dfbeta, 220
dffits, 216, 243
diag, 97
diff, 85
dim, 89, 99
dist, 82
drop1, 209
dwtest, 204
eigen, 95
eta, 64
eval, 44
expression, 44
exp, 24
extractAIC, 205, 238
factorial, 20
factor, 126
fisher.test, 174
fitted, 196, 232
fivenum, 70
floor, 30
friedman.test, 165
gamma, 32
gini, 65
ginv, 103
gl, 128
hatvalues, 219, 241
hat, 219, 241
hist, 79
ic.var, 83
intersect, 17
jarque.bera.test, 179
kronecker, 97
kruskal.test, 163
kurtosis, 59
kurt, 58
lbeta, 34
lchoose, 20
leaps, 206
INDICE ANALITICO
length, 45
levels, 129
levene.test, 149
lgamma, 33
lillie.test, 183
linear.hypothesis, 200, 235
lm.fit, 191
lm.influence, 217
lm.ridge, 202
lm.wfit, 228
lm, 188, 224
log10, 25
log2, 25
logLik, 203, 236
log, 26
ls.diag, 213
lsfit, 192, 229
mad, 52
mahalanobis, 81
margin.table, 176
match, 43
matrix, 89
max, 46
mcnemar.test, 173
mean.a, 48
mean.g, 49
mean, 46
median, 51
min, 45
ncol, 100
nlevels, 129
norm, 93
nrow, 99
order, 29
outer, 43
outlier.test.lm, 221, 239
pairwise.t.test, 141, 142
pi, 42
pmax, 39
pmin, 38
polyroot, 41
INDICE ANALITICO
power.prop.test, 121
ppoints, 86
prcomp, 106, 108
predict.lm, 198, 233
predict, 197, 232
prod, 15
prop.table, 177
prop.test, 119, 122
qr.Q, 102
qr.R, 102
quantile, 50
range, 50
rank, 84
rbind, 91
rep, 27
residuals, 218, 239
rev, 29
round, 32
rstandard, 215, 242
rstudent, 216, 242
runs.test, 169
sample, 84
scale, 85
sd, 55
sequence, 28
seq, 28
setdiff, 18
sf.test, 182
sigma2, 53
signif, 32
sign, 16
sin, 21
skewness, 58
skew, 57
solve, 94
sort, 29
sqrt, 26
summary.lm, 189, 225
summary, 68, 107, 109
sum, 14, 15
svd, 101
247
sweep, 87
t.test, 111, 112, 114, 115
table, 77
tabulate, 77
tan, 22
tapply, 128
test.var, 116
toeplitz, 91
trunc, 31
union, 17
unique, 78
uniroot, 40
var.test, 118
var, 54
vcov, 191, 227
vif.lm, 221
weighted.mean, 47
weighted.residuals, 238
which.max, 19
which.min, 18
which, 18
wilcox.test, 151, 153, 155, 157, 159,
161