Sei sulla pagina 1di 247

Formulario di Statistica

con R 2.0.1
Fabio Frascati1
Universit`a degli Studi di Firenze
Firenze

Versione 1.0
Giugno 2005

1 Fabio

Frascati, Laurea in Statistica e Scienze Economiche conseguita presso


lUniversit`a degli Studi di Firenze, e-mail: fabiofrascati@freemail.it

` garantito il permesso di copiare, distribuire e/o modificare questo docuE


mento seguendo i termini della Licenza per Documentazione Libera GNU,
Versione 1.1 o ogni versione successiva pubblicata in maniera diretta dalla
Free Software Foundation. La Licenza per Documentazione Libera GNU `e
consultabile sul Web: originale in inglese:
http://www.fsf.org/licenses/licenses.html#FDL
e con traduzione in italiano:
http://www.softwarelibero.it/gnudoc/fdl.it.html
La creazione e distribuzione di copie fedeli di questo articolo `e concessa a
patto che la nota di copyright e questo permesso stesso vengano distribuiti
con ogni copia. Copie modificate di questo articolo possono essere copiate
e distribuite alle stesse condizioni delle copie fedeli, a patto che il lavoro
risultante venga distribuito con la medesima concessione.
R 2005 Fabio Frascati
Copyright

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

Indice
1 Le funzioni matematiche
1.1 Funzioni Operatore . . . . .
1.1.1 Operatori matematici
1.1.2 Operatori relazionali
1.1.3 Operatori logici . . .
1.2 Funzioni di base . . . . . . .
1.2.1 sum() . . . . . . . .
1.2.2 prod() . . . . . . . .
1.2.3 abs() . . . . . . . . .
1.2.4 sign() . . . . . . . .
1.3 Funzioni insiemistiche . . .
1.3.1 union() . . . . . . . .
1.3.2 intersect() . . . . . .
1.3.3 setdiff() . . . . . . .
1.4 Funzioni indice . . . . . . .
1.4.1 which() . . . . . . .
1.4.2 which.min() . . . . .
1.4.3 which.max() . . . . .
1.5 Funzioni combinatorie . . .
1.5.1 choose() . . . . . . .
1.5.2 lchoose() . . . . . . .
1.5.3 factorial() . . . . . .
1.6 Funzioni trigonometriche . .
1.6.1 sin() . . . . . . . . .
1.6.2 cos() . . . . . . . . .
1.6.3 tan() . . . . . . . . .
1.6.4 asin() . . . . . . . .
1.6.5 acos() . . . . . . . .
1.6.6 atan() . . . . . . . .
1.6.7 asinh() . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

13
13
13
13
14
14
14
15
16
16
17
17
17
18
18
18
18
19
19
19
20
20
21
21
21
22
22
22
23
23

INDICE

1.7

1.8

1.9

1.10

1.11

1.12

1.13

1.14

1.6.8 acosh() . . . . . . . . . . . .
1.6.9 atanh() . . . . . . . . . . .
Funzioni esponenziali e logaritmiche
1.7.1 exp() . . . . . . . . . . . . .
1.7.2 log2() . . . . . . . . . . . .
1.7.3 log10() . . . . . . . . . . . .
1.7.4 log() . . . . . . . . . . . . .
1.7.5 sqrt() . . . . . . . . . . . .
Funzioni di successione . . . . . . .
1.8.1 : . . . . . . . . . . . . . . .
1.8.2 rep() . . . . . . . . . . . . .
1.8.3 sequence() . . . . . . . . . .
1.8.4 seq() . . . . . . . . . . . . .
Funzioni di ordinamento . . . . . .
1.9.1 sort() . . . . . . . . . . . . .
1.9.2 rev() . . . . . . . . . . . . .
1.9.3 order() . . . . . . . . . . . .
Funzioni di arrotondamento . . . .
1.10.1 floor() . . . . . . . . . . . .
1.10.2 ceiling() . . . . . . . . . . .
1.10.3 trunc() . . . . . . . . . . . .
1.10.4 round() . . . . . . . . . . .
1.10.5 signif() . . . . . . . . . . . .
Funzioni avanzate . . . . . . . . . .
1.11.1 gamma() . . . . . . . . . . .
1.11.2 lgamma() . . . . . . . . . .
1.11.3 beta() . . . . . . . . . . . .
1.11.4 lbeta() . . . . . . . . . . . .
Funzioni sui numeri complessi . . .
1.12.1 Re() . . . . . . . . . . . . .
1.12.2 Im() . . . . . . . . . . . . .
1.12.3 Mod() . . . . . . . . . . . .
1.12.4 Conj() . . . . . . . . . . . .
1.12.5 Arg() . . . . . . . . . . . . .
Funzioni cumulate . . . . . . . . .
1.13.1 cumsum() . . . . . . . . . .
1.13.2 cumprod() . . . . . . . . . .
1.13.3 cummin() . . . . . . . . . .
1.13.4 cummax() . . . . . . . . . .
Funzioni in parallelo . . . . . . . .
1.14.1 pmin() . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

23
24
24
24
25
25
26
26
27
27
27
28
28
29
29
29
29
30
30
31
31
32
32
32
32
33
33
34
35
35
35
35
36
36
37
37
37
37
38
38
38

INDICE

1.14.2 pmax() . . . . . . . .
1.15 Funzioni di analisi numerica
1.15.1 uniroot() . . . . . . .
1.15.2 polyroot() . . . . . .
1.15.3 DD() . . . . . . . . .
1.16 Miscellaneous . . . . . . . .
1.16.1 pi . . . . . . . . . . .
1.16.2 any() . . . . . . . . .
1.16.3 all() . . . . . . . . .
1.16.4 match() . . . . . . .
1.16.5 outer() . . . . . . . .
1.16.6 expression() . . . . .
1.16.7 eval() . . . . . . . .
2 Funzioni statistiche
2.1 Funzioni di base . . . . .
2.1.1 length() . . . . .
2.1.2 min() . . . . . . .
2.1.3 max() . . . . . .
2.2 Indici di posizione . . . .
2.2.1 mean() . . . . . .
2.2.2 weighted.mean()
2.2.3 mean.a() . . . . .
2.2.4 mean.g() . . . . .
2.3 Indici di variabilit`a . . .
2.3.1 range() . . . . . .
2.3.2 quantile() . . . .
2.3.3 median() . . . . .
2.3.4 IQR() . . . . . .
2.3.5 mad() . . . . . .
2.3.6 cv() . . . . . . .
2.3.7 sigma2() . . . . .
2.3.8 var() . . . . . . .
2.3.9 sd() . . . . . . .
2.3.10 COV() . . . . . .
2.3.11 cov() . . . . . . .
2.4 Indici di forma . . . . .
2.4.1 skew() . . . . . .
2.4.2 skewness() . . . .
2.4.3 kurt() . . . . . .
2.4.4 kurtosis() . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

39
40
40
41
41
42
42
42
42
43
43
44
44

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

45
45
45
45
46
46
46
47
48
49
50
50
50
51
51
52
53
53
54
55
55
56
57
57
58
58
59

INDICE
2.5

2.6

2.7

2.8

2.9

2.10

Indici di correlazione . . . . . . . . . .
2.5.1 cor() . . . . . . . . . . . . . . .
2.5.2 acf() . . . . . . . . . . . . . . .
Indici di connessione e di dipendenza in
2.6.1 eta() . . . . . . . . . . . . . . .
2.6.2 gini() . . . . . . . . . . . . . . .
2.6.3 chi2() . . . . . . . . . . . . . .
2.6.4 E() . . . . . . . . . . . . . . . .
Funzioni riassuntive . . . . . . . . . . .
2.7.1 summary() . . . . . . . . . . . .
2.7.2 fivenum() . . . . . . . . . . . .
2.7.3 basicStats() . . . . . . . . . . .
2.7.4 boxplot.stats() . . . . . . . . .
Funzioni di distribuzione di frequenza .
2.8.1 tabulate() . . . . . . . . . . . .
2.8.2 table() . . . . . . . . . . . . . .
2.8.3 unique() . . . . . . . . . . . . .
2.8.4 hist() . . . . . . . . . . . . . . .
2.8.5 cut() . . . . . . . . . . . . . . .
Funzioni di distanza . . . . . . . . . .
2.9.1 mahalanobis() . . . . . . . . . .
2.9.2 dist() . . . . . . . . . . . . . . .
Miscellaneous . . . . . . . . . . . . . .
2.10.1 ic.var() . . . . . . . . . . . . . .
2.10.2 sample() . . . . . . . . . . . . .
2.10.3 rank() . . . . . . . . . . . . . .
2.10.4 diff() . . . . . . . . . . . . . . .
2.10.5 scale() . . . . . . . . . . . . . .
2.10.6 ppoints() . . . . . . . . . . . . .
2.10.7 sweep() . . . . . . . . . . . . .

3 Matrici
3.1 Creazione . . . .
3.1.1 matrix() .
3.1.2 dim() . . .
3.1.3 cbind() . .
3.1.4 rbind() . .
3.1.5 toeplitz()
3.2 Operazioni . . . .
3.2.1 det() . . .
3.2.2 as.vector()

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

. . . .
. . . .
. . . .
media
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

59
59
62
64
64
65
66
67
68
68
70
71
75
77
77
77
78
79
81
81
81
82
83
83
84
84
85
85
86
87

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

89
89
89
89
90
91
91
92
92
92

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

INDICE

3.3

3.2.3 norm() . . .
3.2.4 solve() . . .
3.2.5 eigen() . . .
3.2.6 crossprod()
3.2.7 % % . . .
3.2.8 * . . . . . .
3.2.9 kronecker()
3.2.10 diag() . . .
3.2.11 t() . . . . .
3.2.12 dim() . . . .
3.2.13 nrow() . . .
3.2.14 NROW() . .
3.2.15 ncol() . . .
3.2.16 NCOL() . .
3.2.17 colSums() .
3.2.18 colMeans() .
Fattorizzazioni . .
3.3.1 svd() . . . .
3.3.2 qr.Q() . . .
3.3.3 qr.R() . . .
3.3.4 chol() . . .
3.3.5 ginv() . . .

7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

4 Analisi delle componenti principali (ACP)


4.1 ACP con matrice di correlazione . . . . . .
4.1.1 Simbologia . . . . . . . . . . . . . .
4.1.2 prcomp() . . . . . . . . . . . . . .
4.1.3 summary() . . . . . . . . . . . . . .
4.2 ACP con matrice di varianza . . . . . . . .
4.2.1 Simbologia . . . . . . . . . . . . . .
4.2.2 prcomp() . . . . . . . . . . . . . .
4.2.3 summary() . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

5 Test di ipotesi parametrici


5.1 Test di ipotesi sulla media con uno o due campioni . .
5.1.1 Test di Student con un campione . . . . . . . .
5.1.2 Test di Student con due campioni indipendenti
con varianze non note ma supposte uguali . . .
5.1.3 Test di Student con due campioni indipendenti
con varianze non note e diverse . . . . . . . . .
5.1.4 Test di Student per dati appaiati . . . . . . . .
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

93
94
95
95
96
96
97
97
98
99
99
99
100
100
100
101
101
101
102
102
103
103

.
.
.
.
.
.
.
.

105
. 105
. 105
. 106
. 107
. 107
. 107
. 108
. 109

111
. . . . 111
. . . . 111
. . . . 112
. . . . 114
. . . . 115

INDICE
5.2
5.3
5.4

Test di ipotesi sulla varianza . . . . . . . . .


5.2.1 Test Chi-Quadrato . . . . . . . . . .
Test di ipotesi sul rapporto tra due varianze
5.3.1 Test di Fisher . . . . . . . . . . . . .
Test di ipotesi su proporzioni . . . . . . . .
5.4.1 Test con un campione . . . . . . . .
5.4.2 Potenza nel Test con un campione . .
5.4.3 Test con due campioni indipendenti .

6 Anova
6.1 Simbologia . . . . . . . . . . . . . . . . . .
6.2 Comandi utili in analisi della varianza . .
6.2.1 factor() . . . . . . . . . . . . . . .
6.2.2 by() . . . . . . . . . . . . . . . . .
6.2.3 tapply() . . . . . . . . . . . . . . .
6.2.4 gl() . . . . . . . . . . . . . . . . . .
6.2.5 levels() . . . . . . . . . . . . . . . .
6.2.6 nlevels() . . . . . . . . . . . . . . .
6.3 Modelli di analisi della varianza . . . . . .
6.3.1 Anova ad una via . . . . . . . . . .
6.3.2 Anova a due vie senza repliche . . .
6.3.3 Anova a due vie con uguale numero

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
di repliche

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

116
116
118
118
119
119
121
122

.
.
.
.
.
.
.
.
.
.
.
.

125
. 125
. 126
. 126
. 127
. 128
. 128
. 129
. 129
. 130
. 130
. 131
. 133

7 Confronti multipli
7.1 Metodo di Tukey . . . . . . . . . . . . . . . . . . . . . . . .
7.1.1 Applicazione in Anova ad una via . . . . . . . . . . .
7.1.2 Applicazione in Anova a due vie senza repliche . . . .
7.1.3 Applicazione in Anova a due vie con uguale numero di
repliche . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Metodo di Bonferroni . . . . . . . . . . . . . . . . . . . . . .
7.2.1 Applicazione in Anova ad una via . . . . . . . . . . .
7.3 Metodo di Student . . . . . . . . . . . . . . . . . . . . . . .
7.3.1 Applicazione in Anova ad una via . . . . . . . . . . .

.
.
.
.
.

8 Test di ipotesi sulla correlazione


8.1 Test di ipotesi sulla correlazione lineare
8.1.1 Test di Pearson . . . . . . . . .
8.2 Test di ipotesi sulla autocorrelazione .
8.2.1 Test di BoxPierce . . . . . . .
8.2.2 Test di LjungBox . . . . . . .

143
. 143
. 143
. 144
. 144
. 145

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

137
. 137
. 137
. 138
139
141
141
142
142

INDICE

9 Test di ipotesi non parametrici


147
9.1 Simbologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
9.2 Test di ipotesi sullomogeneit`a delle varianze . . . . . . . . . . 147
9.2.1 Test di Bartlett . . . . . . . . . . . . . . . . . . . . . . 147
9.2.2 Test di Levene . . . . . . . . . . . . . . . . . . . . . . . 149
9.3 Test di ipotesi sulla mediana con uno o due campioni . . . . . 151
9.3.1 Test exact di Wilcoxon con un campione . . . . . . . . 151
9.3.2 Test approx di Wilcoxon con un campione . . . . . . . 153
9.3.3 Test exact di Mann-Whitney con due campioni indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
9.3.4 Test approx di Mann-Whitney con due campioni indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . 157
9.3.5 Test exact di Wilcoxon con dati appaiati . . . . . . . . 159
9.3.6 Test approx di Wilcoxon con dati appaiati . . . . . . . 161
9.4 Test di ipotesi sulla mediana con pi`
u
campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
9.4.1 Test di Kruskal - Wallis . . . . . . . . . . . . . . . . . 163
9.5 Anova non parametrica a due vie senza repliche . . . . . . . . 165
9.5.1 Test di Friedman . . . . . . . . . . . . . . . . . . . . . 165
9.6 Test di ipotesi su una proporzione . . . . . . . . . . . . . . . . 167
9.6.1 Test di Bernoulli . . . . . . . . . . . . . . . . . . . . . 167
9.7 Test del ciclo di casualit`a . . . . . . . . . . . . . . . . . . . . . 169
9.7.1 Test dei Runs . . . . . . . . . . . . . . . . . . . . . . . 169
10 Tabella di contingenza
10.1 Simbologia . . . . . . . . . . . . . . . . . .
10.2 Test di ipotesi . . . . . . . . . . . . . . . .
10.2.1 Test Chi-Quadrato di indipendenza
10.2.2 Test di McNemar . . . . . . . . . .
10.2.3 Test esatto di Fisher . . . . . . . .
10.3 Comandi utili per le tabelle di contingenza
10.3.1 margin.table() . . . . . . . . . . . .
10.3.2 prop.table() . . . . . . . . . . . . .
11 Test di adattamento
11.1 Test basati sulla distribuzione normale
11.1.1 Test di Jarque - Bera . . . . . .
11.1.2 Test di Cramer - von Mises . .
11.1.3 Test di Anderson - Darlin . . .
11.1.4 Test di Shapiro - Francia . . . .
11.1.5 Test di Lilliefors . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

171
171
171
171
173
174
176
176
177

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

179
. 179
. 179
. 180
. 181
. 182
. 183

10

INDICE
11.2 Test basati su altre distribuzioni . . . . . . . . . . . . . . . . . 184
11.2.1 Test Chi-Quadrato GOF . . . . . . . . . . . . . . . . . 184

12 Regressione lineare
12.1 Simbologia . . . . . . . . .
12.2 Stima . . . . . . . . . . .
12.2.1 lm() . . . . . . . .
12.2.2 summary.lm() . . .
12.2.3 vcov() . . . . . . .
12.2.4 lm.fit() . . . . . . .
12.2.5 lsfit() . . . . . . . .
12.2.6 confint() . . . . . .
12.2.7 coef() . . . . . . .
12.2.8 coeftest() . . . . .
12.2.9 boxcox() . . . . . .
12.2.10 box.cox() . . . . .
12.2.11 fitted() . . . . . . .
12.2.12 predict() . . . . . .
12.2.13 predict.lm() . . . .
12.2.14 linear.hypothesis()
12.2.15 lm.ridge() . . . . .
12.3 Adattamento . . . . . . .
12.3.1 logLik() . . . . . .
12.3.2 dwtest() . . . . . .
12.3.3 AIC() . . . . . . .
12.3.4 extractAIC() . . .
12.3.5 deviance() . . . . .
12.3.6 leaps() . . . . . . .
12.3.7 anova() . . . . . .
12.3.8 drop1() . . . . . .
12.3.9 add1() . . . . . . .
12.3.10 bptest() . . . . . .
12.4 Diagnostica . . . . . . . .
12.4.1 ls.diag() . . . . . .
12.4.2 cooks.distance() . .
12.4.3 rstandard() . . . .
12.4.4 rstudent() . . . . .
12.4.5 dffits() . . . . . . .
12.4.6 covratio() . . . . .
12.4.7 lm.influence() . . .
12.4.8 residuals() . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

187
. 187
. 188
. 188
. 189
. 191
. 191
. 192
. 193
. 194
. 194
. 195
. 196
. 196
. 197
. 198
. 200
. 202
. 203
. 203
. 204
. 204
. 205
. 205
. 206
. 207
. 209
. 210
. 212
. 213
. 213
. 215
. 215
. 216
. 216
. 217
. 217
. 218

INDICE
12.4.9 df.residual() . .
12.4.10 hatvalues() . .
12.4.11 hat() . . . . . .
12.4.12 dfbeta() . . . .
12.4.13 dfbetas() . . . .
12.4.14 vif.lm() . . . .
12.4.15 outlier.test.lm()

11
.
.
.
.
.
.
.

.
.
.
.
.
.
.

13 Regressione lineare pesata


13.1 Simbologia . . . . . . . . .
13.2 Stima . . . . . . . . . . .
13.2.1 lm() . . . . . . . .
13.2.2 summary.lm() . . .
13.2.3 vcov() . . . . . . .
13.2.4 lm.wfit() . . . . . .
13.2.5 lsfit() . . . . . . . .
13.2.6 confint() . . . . . .
13.2.7 coef() . . . . . . .
13.2.8 coeftest() . . . . .
13.2.9 fitted() . . . . . . .
13.2.10 predict() . . . . . .
13.2.11 predict.lm() . . . .
13.2.12 linear.hypothesis()
13.3 Adattamento . . . . . . .
13.3.1 logLik() . . . . . .
13.3.2 deviance() . . . . .
13.3.3 AIC() . . . . . . .
13.3.4 extractAIC() . . .
13.4 Diagnostica . . . . . . . .
13.4.1 weighted.residuals()
13.4.2 residuals() . . . . .
13.4.3 outlier.test.lm() . .
13.4.4 df.residual() . . . .
13.4.5 hatvalues() . . . .
13.4.6 hat() . . . . . . . .
13.4.7 rstandard() . . . .
13.4.8 rstudent() . . . . .
13.4.9 dffits() . . . . . . .
13.4.10 covratio() . . . . .
13.4.11 cooks.distance() . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

218
219
219
220
220
221
221

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

223
. 223
. 224
. 224
. 225
. 227
. 228
. 229
. 230
. 230
. 231
. 232
. 232
. 233
. 235
. 236
. 236
. 237
. 237
. 238
. 238
. 238
. 239
. 239
. 240
. 241
. 241
. 242
. 242
. 243
. 243
. 244

12

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

INDICE

Capitolo 1
Le funzioni matematiche
1.1

Funzioni Operatore

1.1.1

Operatori matematici

Significato: addizione, sottrazione, moltiplicazione, elevamento a potenza, modulo


Esempio:
> 1+2
[1] 3
> 1.2-6.7
[1] -5.5
> 2.3*4
[1] 9.2
> 21/7
[1] 3
> 2^4
[1] 16
> 23%%3
[1] 2

1.1.2

Operatori relazionali

Significato: minore, maggiore, minore od uguale, maggiore od uguale,


uguale, diverso
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

14

Le funzioni matematiche
Esempio:
> 1<2
[1] TRUE
> 3>1.2
[1] TRUE
> 3.4<=8.5
[1] TRUE
> 4==4
[1] TRUE
> 2!=3
[1] TRUE

1.1.3

Operatori logici

Significato: AND, OR, EXCLUSIVE OR, NOT


Esempio:
> 1 & 5
[1] TRUE
> 5 | 0
[1] TRUE
> xor(4,5)
[1] FALSE
> ! 8
[1] FALSE

1.2
1.2.1

Funzioni di base
sum()

Parametri:
x

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.2 Funzioni di base

15

Significato: somma
Formula:
n
X

xi

i=1

Esempio:
> x
[1] 1.2 2.0 3.0
> sum(x)
[1] 6.2

1.2.2

prod()

Parametri:
x
Significato: prodotto
Formula:
n
Y

xi

i=1

Esempio:
> x
[1] 1 2 3
> prod(x)
[1] 6

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

16

Le funzioni matematiche

1.2.3

abs()

Parametri:
x
Significato: valore assoluto
Formula:
|x|
Esempio:
> x<--2.3
> abs(x)
[1] 2.3

1.2.4

sign()

Parametri:
x
Significato: segno
Formula:

1
0
sign(x) =

se x > 0
se x = 0
se x < 0

Esempio:
> sign(1.2)
[1] 1
> sign(0)
[1] 0
> sign(-1.2)
[1] -1

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.3 Funzioni insiemistiche

1.3

17

Funzioni insiemistiche

1.3.1

union()

Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione m
Significato: unione
Esempio:
> x
[1] 1 2 3 4
> y
[1] 1 2 6 11
> union(x,y)
[1] 1 2 3 4

1.3.2

9 10

9 10 11

intersect()

Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione m
Significato: intersezione
Esempio:
> x
[1] 1 2 3 4
> y
[1] 1 2 6 11
> intersect(x,y)
[1] 1 2 6

9 10

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

18

Le funzioni matematiche

1.3.3

setdiff()

Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione m
Significato: differenza
Esempio:
> x
[1] 1 2 3 4 5 6 7
> y
[1] 1 2 6 11
> setdiff(x,y)
[1] 3 4 5 7 8 9 10
> setdiff(y,x)
[1] 11

1.4

9 10

Funzioni indice

1.4.1

which()

Significato: indici per cui una condizione risulta vera


Esempio:
> x
[1] 1 2 6 11
> which(x>2)
[1] 3 4

1.4.2

which.min()

Parametri:
x vettore numerico di dimensione n
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.5 Funzioni combinatorie

19

Significato: indice del primo valore minimo del vettore


Esempio:
> x
[1] 1.2 1.0 2.3 4.0 1.0 4.0
> which.min(x)
[1] 2

1.4.3

which.max()

Parametri:
x vettore numerico di dimensione n
Significato: indice del primo valore massimo del vettore
Esempio:
> x
[1] 1.2 1.0 2.3 4.0 1.0 4.0
> which.max(x)
[1] 4

1.5
1.5.1

Funzioni combinatorie
choose()

Parametri:
n naturale
k naturale
Significato: coefficiente binomiale
Formula:

 
n
n!
=
k ! (n k) !
k

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

20

Le funzioni matematiche
Esempio:
> n<-10
> k<-3
> choose(n,k)
[1] 120

1.5.2

lchoose()

Parametri:
n naturale
k naturale
Significato: logaritmo naturale del coefficiente binomiale
Formula:

 


n
n!
log
= log
k
k ! (n k) !

Esempio:
> n<-10
> k<-3
> choose(n,k)
[1] 120
> log(choose(n,k))
[1] 4.787492
> lchoose(n,k)
[1] 4.787492

1.5.3

factorial()

Parametri:
n naturale
Significato: fattoriale
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.6 Funzioni trigonometriche

21

Formula:
n!
Esempio:
> n<-4
> prod(1:n)
[1] 24
> factorial(n)
[1] 24

1.6

Funzioni trigonometriche

1.6.1

sin()

Parametri:
x radianti
Significato: seno
Esempio:
> x<-1.2
> sin(x)
[1] 0.932039

1.6.2

cos()

Parametri:
x radianti
Significato: coseno
Esempio:
> x<-1.2
> cos(x)
[1] 0.3623578

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

22

Le funzioni matematiche

1.6.3

tan()

Parametri:
x radianti
Significato: tangente
Esempio:
> x<-1.2
> tan(x)
[1] 2.572152

1.6.4

asin()

Parametri:
x tale che | x | 1
Significato: inversa seno
Esempio:
> x<-0.9
> asin(x)
[1] 1.119770

1.6.5

acos()

Parametri:
x tale che | x | 1
Significato: inversa coseno
Esempio:
> x<-0.9
> acos(x)
[1] 0.4510268

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.6 Funzioni trigonometriche

1.6.6

23

atan()

Parametri:
x tale che | x | / 2
Significato: inversa tangente
Esempio:
> x<-0.9
> atan(x)
[1] 0.7328151

1.6.7

asinh()

Parametri:
x
Significato: seno iperbolico
Formula:
sinh(x) =

ex ex
2

Esempio:
> x<-2.45
> (exp(x)-exp(-x))/2
[1] 5.751027
> sinh(x)
[1] 5.751027

1.6.8

acosh()

Parametri:
x
Significato: coseno iperbolico
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

24

Le funzioni matematiche
Formula:
cosh(x) =

ex + ex
2

Esempio:
> x<-2.45
> (exp(x)+exp(-x))/2
[1] 5.83732
> cosh(x)
[1] 5.83732

1.6.9

atanh()

Parametri:
x
Significato: tangente iperbolica
Formula:
tanh(x) =

e2 x 1
e2 x + 1

Esempio:
> x<-2.45
> (exp(2*x)-1)/(exp(2*x)+1)
[1] 0.985217
> tanh(x)
[1] 0.985217

1.7
1.7.1

Funzioni esponenziali e logaritmiche


exp()

Parametri:
x
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.7 Funzioni esponenziali e logaritmiche


Significato: esponenziale
Formula:
ex
Esempio:
> x<-1.2
> exp(x)
[1] 3.320117

1.7.2

log2()

Parametri:
x tale che x > 0
Significato: logaritmo in base 2
Formula:
log2 (x)
Esempio:
> x<-1.2
> log2(x)
[1] 0.2630344

1.7.3

log10()

Parametri:
x tale che x > 0
Significato: logaritmo in base 10
Formula:
log10 (x)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

25

26

Le funzioni matematiche
Esempio:
> x<-1.2
> log10(x)
[1] 0.07918125

1.7.4

log()

Parametri:
x tale che x > 0
b tale che b > 0
Significato: logaritmo in base b
Formula:
logb (x)
Esempio:
> x<-2
> b<-4
> log(x,b)
[1] 0.5

1.7.5

sqrt()

Parametri:
x tale che x > 0
Significato: radice quadrata
Formula:

Esempio:
> x<-2
> sqrt(x)
[1] 1.414214

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.8 Funzioni di successione

1.8

27

Funzioni di successione

1.8.1

Significato: successione con intervallo unitario


Esempio:
> 1:10
[1] 1 2 3 4 5
> 1.1:10.1
[1] 1.1 2.1 3.1
> 1.1:10.2
[1] 1.1 2.1 3.1

1.8.2

9 10

4.1

5.1

6.1

7.1

8.1

9.1 10.1

4.1

5.1

6.1

7.1

8.1

9.1 10.1

rep()

Parametri:
x vettore numerico di dimensione n
times ogni elemento del vettore viene ripetuto lo stesso numero
times di volte
each ogni elemento del vettore viene ripetuto each volte
Significato: replicazioni
Esempio:
> rep(2,times=5)
[1] 2 2 2 2 2
> rep(c(1,2,3),times=5)
[1] 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3
> rep(c(1,2,3),each=2)
[1] 1 1 2 2 3 3
> rep(c(1,2,3),each=c(1,2,3))
[1] 1 2 2 3 3 3

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

28

Le funzioni matematiche

1.8.3

sequence()

Significato: successione di interi


Esempio:
> sequence(1:4)
[1] 1 1 2 1 2 3 1 2 3 4
> sequence(4:1)
[1] 1 2 3 4 1 2 3 1 2 1

1.8.4

seq()

Parametri:
from punto di partenza
to punto di arrivo
by incremento
length numero di valori
along nome di un secondo vettore
Significato: successione
Esempio:
> seq(from=1,to=3.4,by=0.4)
[1] 1.0 1.4 1.8 2.2 2.6 3.0 3.4
> seq(from=1,to=3.4,length=5)
[1] 1.0 1.6 2.2 2.8 3.4
> seq(from=3.4,to=1,length=5)
[1] 3.4 2.8 2.2 1.6 1.0
> x
[1] 1 2 6 11
> seq(along=x)
[1] 1 2 3 4
> x
[1] 1.2 3.0 7.0 9.0 66.0
> seq(along=x)
[1] 1 2 3 4 5

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.9 Funzioni di ordinamento

1.9

29

Funzioni di ordinamento

1.9.1

sort()

Parametri:
x vettore numerico di dimensione n
decreasing = T / F decremento oppure incremento
Significato: ordinamento crescente oppure decrescente
Esempio:
> x
[1] 0.0 1.0 2.0 3.0
> sort(x,decreasing=T)
[1] 87.0 6.7 5.6 3.0

1.9.2

5.6

6.7 87.0

2.0

1.0

0.0

rev()

Parametri:
x vettore numerico di dimensione n
Significato: ordinamento decrescente
Esempio:
> x
[1] 0.0
> rev(x)
[1] 87.0

1.9.3

1.0

2.0

3.0

5.6

6.7 87.0

6.7

5.6

3.0

2.0

1.0

0.0

order()

Parametri:
x vettore numerico di dimensione n
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

30

Le funzioni matematiche
Significato: restituisce la posizione di ogni elemento di x se questo
fosse ordinato in maniera crescente
Esempio:
> x
[1] 2 4
> order(x)
[1] 1 2
> x
[1] 5 5 5 4 4 4 3 3 3 2 2 2 1 1 1
> order(x)
[1] 13 14 15 10 11 12 7 8 9 4

1.10

Funzioni di arrotondamento

1.10.1

floor()

Parametri:
x
Significato: arrotonda allintero inferiore
Formula:

x
[x]
bxc =

[x]1

se x `e intero
se x `e positivo non intero
se x `e negativo non intero

Esempio:
> floor(2)
[1] 2
> floor(2.99)
[1] 2
> floor(-2.01)
[1] -3

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.10 Funzioni di arrotondamento

1.10.2

31

ceiling()

Parametri:
x
Significato: arrotonda allintero superiore
Formula:

x
[x]+1
dxe =

[x]

se x `e intero
se x `e positivo non intero
se x `e negativo non intero

Esempio:
> ceiling(2)
[1] 2
> ceiling(2.001)
[1] 3
> ceiling(-2.01)
[1] -2

1.10.3

trunc()

Parametri:
x
Significato: tronca la parte decimale
Formula:
[x]
Esempio:
> trunc(2)
[1] 2
> trunc(2.999)
[1] 2
> trunc(-2.01)
[1] -2

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

32

Le funzioni matematiche

1.10.4

round()

Parametri:
x
n naturale
Significato: arrotonda al numero di cifre specificato da n
Esempio:
> pi
[1] 3.141593
> round(pi,4)
[1] 3.1416

1.10.5

signif()

Parametri:
x
n naturale
Significato: arrotonda al numero di cifre significative specificate da n
Esempio:
> pi
[1] 3.141593
> signif(pi,4)
[1] 3.142

1.11

Funzioni avanzate

1.11.1

gamma()

Parametri:
x tale che x > 0
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.11 Funzioni avanzate

33

Significato: funzione gamma


Formula:

Z
(x) =

ux1 eu du

Esempio:
> x<-3.45
> gamma(x)
[1] 3.146312

1.11.2

lgamma()

Parametri:
x tale che x > 0
Significato: logaritmo naturale della funzione gamma
Formula:

log (x)
Esempio:
> x<-3.45
> log(gamma(x))
[1] 1.146231
> lgamma(x)
[1] 1.146231

1.11.3

beta()

Parametri:
x tale che x > 0
y tale che y > 0
Significato: funzione beta
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

34

Le funzioni matematiche
Formula:
(x) (y)
(x + y)
Esempio:
> x<-3.45
> y<-2.3
> gamma(x)*gamma(y)/(gamma(x+y))
[1] 0.04659344
> beta(x,y)
[1] 0.04659344

1.11.4

lbeta()

Parametri:
x tale che x > 0
y tale che y > 0
Significato: logaritmo naturale della funzione beta
Formula:
log

(x) (y)
(x + y)

Esempio:
> x<-3.45
> y<-2.3
> log(gamma(x)*gamma(y)/(gamma(x+y)))
[1] -3.066296
> lbeta(x,y)
[1] -3.066296

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.12 Funzioni sui numeri complessi

1.12

Funzioni sui numeri complessi

1.12.1

Re()

Parametri:
x
Significato: parte reale
Esempio:
> x<-2+3i
> Re(x)
[1] 2

1.12.2

Im()

Parametri:
x
Significato: parte immaginaria
Esempio:
> x<-2+3i
> Im(x)
[1] 3

1.12.3

Mod()

Parametri:
x
Significato: modulo

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

35

36

Le funzioni matematiche
Esempio:
> x<-2+3i
> sqrt(2^2+3^2)
[1] 3.605551
> Mod(x)
[1] 3.605551

1.12.4

Conj()

Parametri:
x
Significato: coniugato
Esempio:
> x<-2+3i
> Conj(x)
[1] 2-3i

1.12.5

Arg()

Parametri:
x
Significato: argomento
Esempio:
> x<-2+3i
> atan(3/2)
[1] 0.9827937
> Arg(x)
[1] 0.9827937

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.13 Funzioni cumulate

1.13

Funzioni cumulate

1.13.1

cumsum()

Parametri:
x
Significato: somma cumulata
Esempio:
> x
[1] 1 2 4 3 5 6
> cumsum(x)
[1] 1 3 7 10 15 21

1.13.2

cumprod()

Parametri:
x
Significato: prodotto cumulato
Esempio:
> x
[1] 1 2 4 3 5 6
> cumprod(x)
[1]
1
2
8

1.13.3

24 120 720

cummin()

Parametri:
x
Significato: minimo cumulato
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

37

38

Le funzioni matematiche
Esempio:
> x
[1] 3 4 3 2
> cummin(x)
[1] 3 3 3 2
> x
[1] 1 3 2 4
> cummin(x)
[1] 1 1 1 1

1.13.4

4 1
2 1
5 1
1 1

cummax()

Parametri:
x
Significato: massimo cumulato
Esempio:
> x
[1] 1 3 2 4
> cummax(x)
[1] 1 3 3 4
> x
[1] 1 3 2 4
> cummax(x)
[1] 1 3 3 4

5 1
5 5
5 1
5 5

1.14

Funzioni in parallelo

1.14.1

pmin()

Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione m
Significato: minimo in parallelo
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.14 Funzioni in parallelo

39

Esempio:
> x
[1] 1.20 2.30 0.11 4.50
> y
[1] 1.1 2.1 1.3 4.4
> pmin(x,y)
[1] 1.10 2.10 0.11 4.40
> x
[1] 1.20 2.30 0.11 4.50
> y
[1] 1.1 2.1
> pmin(x,y)
[1] 1.1 2.1 0.11 2.1
Osservazioni: Se m 6= n il vettore di dimensione minore viene ripetuto.

1.14.2

pmax()

Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione m
Significato: massimo in parallelo
Esempio:
> x
[1] 1.20 2.30 0.11 4.50
> y
[1] 1.1 2.1 1.3 4.4
> pmax(x,y)
[1] 1.2 2.3 1.3 4.5
> x
[1] 1.20 2.30 0.11 4.50
> y
[1] 1.1 2.1
> pmax(x,y)
[1] 1.2 2.3 1.1 4.5
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

40

Le funzioni matematiche
Osservazioni: Se m 6= n il vettore di dimensione minore viene ripetuto.

1.15

Funzioni di analisi numerica

1.15.1

uniroot()

Parametri:
f funzione
lower estremo inferiore
upper estremo superiore
tol tolleranza
maxiter mumero massimo di iterazioni
Significato: ricerca di uno zero
Output:
$root radice
$f.root valore assunto dalla funzione nel punto individuato
$iter numero di iterazioni
$estim.prec tolleranza
Formula:
f (x) = 0
Esempio:
> f<-function(x) exp(-x)-x
> uniroot(f,lower=0,upper=1,tol=1e-4,maxiter=1000)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.15 Funzioni di analisi numerica

1.15.2

polyroot()

Parametri:
a vettore dei coefficienti
Significato: ricerca di uno zero in una funzione polinomiale
Formula:
a0 + a1 x + a2 x 2 + . . . + an x n = 0
Esempio:
>
>
>
>
>

1.15.3

a0<-1
a1<-2
a2<-1
a<-c(a0,a1,a2)
polyroot(a)

DD()

Parametri:
f funzione
name variabile di derivazione
order ordine di derivazione
Significato: derivata simbolica
Esempio:
> DD(expression(exp(-x)-x),name="x",order=1)
-(exp(-x) + 1)
> DD(expression(x*exp(-a)),name="x",order=1)
exp(-a)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

41

42

Le funzioni matematiche

1.16

Miscellaneous

1.16.1

pi

Significato: costante pi greco


Formula:

Esempio:
> pi
[1] 3.141593

1.16.2

any()

Parametri:
x vettore numerico di dimensione n
Significato: restituisce T se almeno un elemento del vettore soddisfa
ad una condizione assegnata
Esempio:
> x<-c(3,4,3,2,4,1)
> any(x<2)
[1] T

1.16.3

all()

Parametri:
x vettore numerico di dimensione n
Significato: restituisce T se tutti gli elementi del vettore soddisfano
ad una condizione assegnata

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.16 Miscellaneous

43

Esempio:
> x<-c(3,4,3,2,4,1)
> all(x<2)
[1] F

1.16.4

match()

Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione m
nomatch alternativa da inserire al posto di NA
Significato: per ogni elemento di x restituisce la posizione della prima
occorrenza in y
Esempio:
> x
[1] 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5
> y
[1] 2 4
> match(x,y)
[1] NA NA NA 1 1 1 NA NA NA 2
> match(x,y,nomatch=0)
[1] 0 0 0 1 1 1 0 0 0 2 2 2 0 0 0

1.16.5

2 NA NA NA

outer()

Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione m
FUN funzione
Significato: applica FUN per ogni coppia ordinata costituita da un
elemento di x ed uno di y
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

44

Le funzioni matematiche
Esempio:
> x
[1] 1 2 2 4
> y
[1] 1.2 2.3
> outer(x,y,"*")
[,1] [,2]
[1,] 1.2 2.3
[2,] 2.4 4.6
[3,] 2.4 4.6
[4,] 4.8 9.2

1.16.6

expression()

Significato: crea una espressione simbolica


Esempio:
> x
[1] 4.3 5.5 6.8 8.0
> y
[1] 4 5 6 7
> z<-expression(x/y)

1.16.7

eval()

Significato: valuta una espressione simbolica


Esempio:
> x
[1] 4.3 5.5 6.8 8.0
> y
[1] 4 5 6 7
> z<-expression(x/y)
> eval(z)
[1] 1.075000 1.100000 1.133333 1.142857

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

Capitolo 2
Funzioni statistiche
2.1

Funzioni di base

2.1.1

length()

Parametri:
x vettore numerico di dimensione n
Significato: dimensione
Formula:
n
Esempio:
> x
[1] 1.2 2.3 4.5 6.5
> length(x)
[1] 4

2.1.2

min()

Parametri:
x vettore numerico di dimensione n
Significato: minimo
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

46

Funzioni statistiche
Formula:
x(1)
Esempio:
> x
[1] 1.2 2.3 4.5 6.5
> min(x)
[1] 1.2

2.1.3

max()

Parametri:
x vettore numerico di dimensione n
Significato: massimo
Formula:
x(n)
Esempio:
> x
[1] 1.2 2.3 4.5 6.5
> max(x)
[1] 6.5

2.2
2.2.1

Indici di posizione
mean()

Parametri:
x vettore numerico di dimensione n
trim parametro
Significato: media -trimmed
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.2 Indici di posizione

47

Formula:
1
x =
n 2 bn c

nbn c

x(i)

i=bn c+1

Esempio:
> x<-c(1,1.2,3.4,0.8,10.2,9.3,7.34)
> x<-sort(x)
> n<-length(x)
> alpha<-0.26
> mediatroncata<-mean(x[(floor(n*alpha)+1):(n-floor(n*alpha))])
> mediatroncata
[1] 4.448
> mean(x,trim=alpha)
[1] 4.448
> x
[1] 1.00 1.20 3.40
> n<-length(x)
> sum(x)/n
[1] 4.748571
> alpha<-0
> mean(x,trim=alpha)
[1] 4.748571
> x
[1] 1.00 1.20 3.40
> median(x)
[1] 3.4
> alpha<-0.5
> mean(x,trim=alpha)
[1] 3.4

2.2.2

0.80 10.20

9.30

7.34

0.80 10.20

9.30

7.34

weighted.mean()

Parametri:
x vettore numerico di dimensione n
w vettore numerico di pesi di dimensione n
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

48

Funzioni statistiche
Significato: media pesata
Formula:
xW =

n
X

wi
xi Pn
j=1

i=1

wj

Esempio:
> x
[1] 3.7 3.3 3.5 2.8
> w
[1] 5 5 4 1
> sum(x*w)/sum(w)
[1] 3.453333
> weighted.mean(x,w)
[1] 3.453333
> x
[1] 3.7 3.3 3.5 2.8
> w
[1] 0.25 0.25 0.25 0.25
> sum(w)
[1] 1
> sum(x*w)
[1] 3.325
> weighted.mean(x)
[1] 3.325

2.2.3

mean.a()

Parametri:
x vettore numerico di dimensione n di elementi non nulli
Significato: media armonica
Formula:
xA =

1
n

1
Pn

1
i=1 xi

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.2 Indici di posizione

49

Esempio:
> x
[1] 1.2 2.3 4.5 6.5
> 1/mean(1/x)
[1] 2.432817
> mean.a(x)
[1] 2.432817
Osservazioni: E necessario installare la libreria labstatR.

2.2.4

mean.g()

Parametri:
x vettore numerico di dimensione n di elementi positivi
Significato: media geometrica
Formula:
xG =

n
Y

!1 / n
xi

i=1

Esempio:
> x
[1] 1.2 2.3 4.5 6.5
> n<-length(x)
> prod(x)^(1/n)
[1] 2.997497
> mean.g(x)
[1] 2.997497
Osservazioni: E necessario installare la libreria labstatR.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

50

Funzioni statistiche

2.3

Indici di variabilit`
a

2.3.1

range()

Parametri:
x vettore numerico di dimensione n
Significato: campo di variazione
Formula:
x(1)

x(n)

Esempio:
> x
[1] 1.0 1.2 3.4 0.8
> min(x)
[1] 0.8
> max(x)
[1] 3.4
> range(x)
[1] 0.8 3.4

2.3.2

quantile()

Parametri:
x vettore numerico di dimensione n
probs valore p di probabilit`a
Significato: quantile al (100 p)%
Formula:
Dato = 1 + (n 1) p

x()

Qp (x) =
x(bc) + ( bc) x(bc+1) x(bc)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

se `e intero
se non `e intero

2.3 Indici di variabilit`


a

51

Esempio:
> x
[1] 1.20 2.30 0.11 4.50
> x<-sort(x)
> n<-length(x)
> p<-0.34
> alpha<-1+(n-1)*p
> alpha
[1] 2.02
> x[floor(alpha)]+(alpha-floor(alpha))*(x[floor(alpha)+1]-x[floor(alpha)])
[1] 1.222
> quantile(x,probs=p)
34%
1.222

2.3.3

median()

Parametri:
x vettore numerico di dimensione n
Significato: mediana
Formula:
(
Q0.5 (x) =

2.3.4

x( n+1 )
2

0.5 x( n2 ) + x( n2 +1)

se n `e dispari
se n `e pari

IQR()

Parametri:
x vettore numerico di dimensione n
Significato: range interquartile
Formula:
IQR(x) = Q0.75 (x) Q0.25 (x)
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

52

Funzioni statistiche
Esempio:
> Q1<-quantile(x,probs=0.25)[[1]]
> Q3<-quantile(x,probs=0.75)[[1]]
> Q3-Q1
[1] 3.275
> IQR(x)
[1] 3.275
Osservazioni: Calcola i quartili con la funzione quantile().

2.3.5

mad()

Parametri:
x vettore numerico di dimensione n
center parametro rispetto al quale si effettuano gli scarti
constant costante c
Significato: deviazione assoluta da center
Formula:
c Q0.5 ( | x center(x) | )
Esempio:
> x
[1] 3 5 11 14 15 20 22
> c<-1.23
> c*median(abs(x-median(x)))
[1] 7.38
> mad(x,center=median(x),constant=c)
[1] 7.38
>
> x
[1] 3 5 11 14 15 20 22
> c<-1.23
> c*median(abs(x-mean(x)))
[1] 8.785714
> mad(x,center=mean(x),constant=c)
[1] 8.785714
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.3 Indici di variabilit`


a

2.3.6

53

cv()

Parametri:
x vettore numerico di dimensione n
Significato: coefficiente di variazione
Formula:
cvx =

x
| x |

Esempio:
> x
[1] 1.0 1.2 3.4 0.8
> sigma<-sqrt(sigma2(x))
> sigma/abs(mean(x))
[1] 0.6555055
> cv(x)
[1] 0.6555055
Osservazioni: E necessario installare la libreria labstatR.

2.3.7

sigma2()

Parametri:
x vettore numerico di dimensione n
Significato: varianza della popolazione
Formula:
x2

n
1 X
(xi x)2
=
n i=1

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

54

Funzioni statistiche
Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> mean((x-mean(x))**2)
[1] 8.2256
> sigma2(x)
[1] 8.2256
>
>
>
>

x<-c(1,2.3,4.5,6.7,8.9)
y<-c(1,3,4,6,8)
z<-cbind(x,y)
sigma2(z)
x
y
x 9.2538 7.7265
y 7.7265 6.5700
Osservazioni: E necessario installare la libreria labstatR.

2.3.8

var()

Parametri:
x vettore numerico di dimensione n
Significato: varianza campionaria
Formula:
s2x

n
1 X
(xi x)2
=
n 1 i=1

Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> n<-length(x)
> sum((x-mean(x))**2)/(n-1)
[1] 10.282
> var(x)
[1] 10.282
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.3 Indici di variabilit`


a

55

>
>
>
>

x<-c(1,2.3,4.5,6.7,8.9)
y<-c(1,3,4,6,8)
z<-cbind(x,y)
var(z)
x
y
x 10.282 8.585
y 8.585 7.300

2.3.9

sd()

Parametri:
x vettore numerico di dimensione n
Significato: deviazione standard
Formula:
sx =

n
1 X
(xi x)2
n 1 i=1

!1 / 2

Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> n<-length(x)
> sqrt(sum((x-mean(x))**2)/(n-1))
[1] 3.206556
> sd(x)
[1] 3.206556

2.3.10

COV()

Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione n
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

56

Funzioni statistiche
Significato: covarianza nella popolazione
Formula:
xy

1
=
n

n
X

!
xi yi n x y

i=1

Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> y
[1] 1 3 4 6 8
> mean((x-mean(x))*(y-mean(y)))
[1] 6.868
> COV(x,y)
[1] 6.868
Osservazioni: E necessario installare la libreria labstatR.

2.3.11

cov()

Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione n
Significato: covarianza campionaria
Formula:
sxy

1
=
n1

n
X

!
xi yi n x y

i=1

Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> y
[1] 1 3 4 6 8
> n<-length(x)
> sum((x-mean(x))*(y-mean(y)))/(n-1)
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.4 Indici di forma

57

[1] 8.585
> cov(x,y)
[1] 8.585
> z<-cbind(x,y)
> cov(z)
x
y
x 10.282 8.585
y 8.585 7.300

2.4

Indici di forma

2.4.1

skew()

Parametri:
x vettore numerico di dimensione n
Significato: asimmetria nella popolazione
Formula:

n
1 X  xi x 3
1 =
n i=1
x

Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> sigma<-sqrt(sigma2(x))
> mean((x-mean(x))^3/sigma^3)
[1] 0.1701538
> skew(x)
[1] 0.1701538
Osservazioni: E necessario installare la libreria labstatR.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

58

Funzioni statistiche

2.4.2

skewness()

Parametri:
x vettore numerico di dimensione n
Significato: asimmetria campionaria
Formula:

n
1 X  xi x 3
1 =
n i=1
sx

Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> mean((x-mean(x))^3/sd(x)^3)
[1] 0.1217521
> skewness(x)
[1] 0.1217521
Osservazioni: E necessario installare la libreria fBasics.

2.4.3

kurt()

Parametri:
x vettore numerico di dimensione n
Significato: kurtosi nella popolazione
Formula:

n
1 X  xi x 4
2 =
n i=1
x

Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> sigma<-sqrt(sigma2(x))
> mean((x-mean(x))^4/sigma^4)
[1] 1.623612
> kurt(x)
[1] 1.623612
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.5 Indici di correlazione

59

Osservazioni: E necessario installare la libreria labstatR.

2.4.4

kurtosis()

Parametri:
x vettore numerico di dimensione n
Significato: kurtosi campionaria
Formula:
2 =

n
1 X  xi x 4
3
n i=1
sx

Esempio:
> x
[1] 1.0 2.3 4.5 6.7 8.9
> mean((x-mean(x))^4/sd(x)^4)-3
[1] -1.960889
> kurtosis(x)
[1] -1.960889
Osservazioni: E necessario installare la libreria fBasics.

2.5
2.5.1

Indici di correlazione
cor()

Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione n
method = pearson / spearman / kendall
Significato: coefficiente di correlazione lineare

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

60

Funzioni statistiche
Formula:
method = pearson
Pn

r =

xi yi n x y
1 / 2 Pn

2
2 1/2
(x

)
(y

)
i
i
i=1
i=1
i=1

Pn

method = spearman
ai b i n a
b
1 / 2 Pn

Pn
2 1/2
)2
i=1 (ai a
i=1 (bi b)
Pn

rS =

i=1

dove a, b sono i ranghi di x ed y rispettivamente.

method = kendall

rK =

Pn1 Pn
2 i=1
j=i+1 sign((xj xi ) (yj yi ))
1 / 2
1 / 2
P
Pg
n (n 1) hj=1 uj (uj 1)
n (n 1) i=1 ti (ti 1)
dove t, u sono i ties di x ed y rispettivamente.

Esempio:
> # coefficiente di pearson
> x
[1] 1 2 2 4 3 3
> y
[1] 6 6 7 7 7 9
> cov(x,y)/(sd(x)*sd(y))
[1] 0.522233
> cor(x,y,method="pearson")
[1] 0.522233

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.5 Indici di correlazione

61

> # coefficiente di spearman


> x
[1] 1 2 2 4 3 3
> y
[1] 6 6 7 7 7 9
> a<-rank(x)
> b<-rank(y)
> cov(a,b)/(sd(a)*sd(b))
[1] 0.6833149
> cor(x,y,method="spearman")
[1] 0.6833149
> # coefficiente di kendall
> x
[1] 1 2 2 4 3 3
> y
[1] 6 6 7 7 7 9
> n<-length(x)
> matrice<-matrix(0,n-1,n)
> for(i in 1:(n-1))
+ for(j in (i+1):n) + matrice[i,j]<-sign((x[j]-x[i])*(y[j]-y[i]))
> num<-2*sum(matrice)
> table(rank(x))
1 2.5 4.5
6
1
2
2
1
> g<-2
> t1<-2
> t2<-2
> t<-c(t1,t2)
> t
[1] 2 2
> table(rank(y))
1.5
4
6
2
3
1
> h<-2
> u1<-2
> u2<-3
> u<-c(u1,u2)
> u
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

62

Funzioni statistiche
[1] 2 3
> den<-(n*(n-1)-sum(t*(t-1)))**0.5*(n*(n-1)-sum(u*(u-1)))^0.5
> num/den
[1] 0.5853694
> cor(x,y,method="kendall")
[1] 0.5853694

2.5.2

acf()

Parametri:
x vettore numerico di dimensione n
lag il valore d del ritardo
type = correlation / covariance / partial tipo di legame
Significato: autocovarianza o autocorrelazione
Output:
$acf autocovarianza o autocorrelazione
$n.used numerosit`a campionaria
$lag il valore d del ritardo
Formula:
$acf
type = correlation
Pnk
(xt x) (xt+k x)
t=1P
(k) =
n
)2
t=1 (xt x

k = 0, 1, 2, . . . , d

type = covariance
(k) =

nk
1 X
(xt x) (xt+k x)
n t=1

k = 0, 1, 2, . . . , d

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.5 Indici di correlazione

63
type = partial



1
(1)
(2)
. . . (1)

(1)
1
(1)
. . . (2)

(2)
(1)
1
. . . (3)


.
.
.
.
.
.
.
.
..
.

.
.
.
.

(k 1) (k 2) (k 3) . . . (k)

(k) =
1
(1)
(2)
. . . (k 1)

(1)
1
(1)
. . . (k 2)

(2)

(1)
1
. . . (k 3)


.
.
.
.
.
.
.
.
..
.

.
.
.
.

(k 1) (k 2) (k 3) . . .
1

k = 1, 2, . . . , d

$n.used
n
$lag
d
Esempio:
> x
[1] 1 2 7 3 5 2 0 1 4 5
> n<-length(x)
> d<-4
> sum((x[1:(n-d)]-mean(x))*(x[(d+1):n]-mean(x)))/((n-1)*var(x))
[1] -0.3409091
> acf(x,lag=d,type="correlation",plot=F)$acf[d+1]
[1] -0.3409091
> x
[1] 1 2 7 3 5 2 0 1 4 5
> n<-length(x)
> d<-4
> sum((x[1:(n-d)]-mean(x))*(x[(d+1):n]-mean(x)))/n
[1] -1.5
> acf(x,lag=d,type="covariance",plot=F)$acf[d+1]
[1] -1.5

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

64

Funzioni statistiche

2.6

Indici di connessione e di dipendenza in


media

2.6.1

eta()

Parametri:
y vettore numerico di dimensione n
f fattore a k livelli
2
Significato: y|f

Formula:
2
y|f

Pk
yj y)2 nj
j=1 (
= Pn
yi y)2
i=1 (

Esempio:
> y
[1] 1.0 1.2 2.1 3.4 5.4 5.6 7.2 3.2 3.0 1.0 2.3
> f
[1] a b c b a c a b b c a
Levels: a b c
> k<-nlevels(f)
> k
[1] 3
> n<-length(f)
> n
[1] 11
> table(f)
f a b c 4 4 3
> n1<-4
> n2<-4
> n3<-3
> enne<-c(n1,n2,n3)
> enne
[1] 4 4 3
> y1medio<-mean(y[f=="a"])
> y2medio<-mean(y[f=="b"])
> y3medio<-mean(y[f=="c"])
> ymedio<-c(y1medio,y2medio,y3medio)
> ymedio
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.6 Indici di connessione e di dipendenza in media


[1] 3.975 2.700 2.900
> sum((ymedio-mean(y))**2*enne)/sum((y-mean(y))**2)
[1] 0.08657807
> eta(f,y)
[1] 0.08657807
Osservazioni: E necessario installare la libreria labstatR.

2.6.2

gini()

Parametri:
y vettore numerico di dimensione n
Significato: indici di concentrazione
Output:
$G indice di Gini
$R rapporto di concentrazione di Gini
$P proporzioni
$Q somme cumulate
Formula:
$G
G =

2
n1

$R

n
X
i=1

!
Pi
y
i
j=1 (j)
Pn
n
j=1 yj

n1
G
n

$P
0, i / n

i = 1, 2, . . . , n

$Q
0,

i
X
j=1

y(j)

n
.X

yj

i = 1, 2, . . . , n

j=1

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

65

66

Funzioni statistiche
Esempio:
> y<-c(1,1,1,4,4,5,7,10)
> y<-sort(y)
> n<-length(y)
> G<-2/(n-1)*sum((1:n)/n-cumsum(y)/sum(y))
> G
[1] 0.4545455
> gini(y,plot=F)$G
[1] 0.4545455
> R<-(n-1)/n*G
> R
[1] 0.3977273
> gini(y,plot=F)$R
[1] 0.3977273
Osservazioni: E necessario installare la libreria labstatR.

2.6.3

chi2()

Parametri:
f fattore a k livelli
g fattore a h livelli
Significato: indice di connessione 2
Formula:
Pk Ph (nij nij )2
Pk Ph
n2ij
2
1

i=1
j=1
j=1
i=1
n

n
ij
i nj
=
=
2 = 2
max
n min(k 1, h 1)
min(k 1, h 1)
Esempio:
> f
[1] a b c b a c a b b c a
Levels: a b c
> k<-nlevels(f)
> k
[1] 3
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.6 Indici di connessione e di dipendenza in media


> g
[1] O P W P P O O W W P P
Levels: O P W
> h<-nlevels(g)
> h
[1] 3
> chi2(f,g)
[1] 0.1777778
Osservazioni: E necessario installare la libreria labstatR.

2.6.4

E()

Parametri:
f fattore a k livelli di dimensione n
Significato: indice di eterogeneit`a di Gini
Formula:
k
E=
k1

k
1 X 2
1 2
n
n i=1 i

Esempio:
> f
[1] a b c b a c a b b c a
Levels: a b c
> n<-length(f)
> k<-nlevels(f)
> n
> [1] 11
> table(f)
f a b c 4 4 3
> n1<-4
> n2<-4
> n3<-3
> enne<-c(n1,n2,n3)
> enne
[1] 4 4 3
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

67

68

Funzioni statistiche
> k/(k-1)*(1-1/n**2*sum(enne**2))
[1] 0.9917355
> E(f)
[1] 0.9917355
Osservazioni: E necessario installare la libreria labstatR.

2.7
2.7.1

Funzioni riassuntive
summary()

Parametri:
x vettore numerico di dimensione n
Significato: statistiche riassuntive
Output:
[[1]] minimo
[[2]] primo quartile
[[3]] mediana
[[4]] media aritmetica
[[5]] terzo quartile
[[6]] massimo
Formula:
[[1]]
x(1)
[[2]]
Q0.25 (x)
[[3]]
Q0.5 (x)
[[4]]
x
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.7 Funzioni riassuntive

69

[[5]]
Q0.75 (x)
[[6]]
x(n)
Esempio:
> x
[1] 1.0 2.3 5.0 6.7 8.0
> min(x)
[1] 1
> summary(x)[[1]]
[1] 1
> quantile(x,probs=0.25)
25%
2.3
> summary(x)[[2]]
[1] 2.3
> median(x)
[1] 5
> summary(x)[[3]]
[1] 5
> mean(x)
[1] 4.6
> summary(x)[[4]]
[1] 4.6
> quantile(x,probs=0.75)
75%
6.7
> summary(x)[[5]]
[1] 6.7
> max(x)
[1] 8
> summary(x)[[6]]
[1] 8
Osservazioni: Calcola i quartili con la funzione quantile().

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

70

Funzioni statistiche

2.7.2

fivenum()

Parametri:
x vettore numerico di dimensione n
Significato: Tukey fivenumber summaries
Output:
[1] minimo
[2] primo quartile
[3] mediana
[4] terzo quartile
[5] massimo
Formula:
[1]
x(1)
[2]
Q0.25 (x) = Q0.5


x(1) , x(2) , . . . , Q0.5 (x)

[3]
Q0.5 (x)
[4]
Q0.75 (x) = Q0.5

Q0.5 (x), . . . , x(n1) , x(n)

[5]
x(n)
Esempio:
> x
[1] 1.0 2.3 5.0 6.7 8.0
> min(x)
[1] 1
> fivenum(x)[1]
[1] 1
> median(x[x<=median(x)])
[1] 2.3
> fivenum(x)[2]
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.7 Funzioni riassuntive


[1] 2.3
> median(x)
[1] 5
> fivenum(x)[3]
[1] 5
> median(x[x>=median(x)])
[1] 6.7
> fivenum(x)[4]
[1] 6.7
> max(x)
[1] 8
> fivenum(x)[5]
[1] 8

2.7.3

basicStats()

Parametri:
x vettore numerico di dimensione n
ci livello di confidenza 1
Significato: statistiche riassuntive
Output:
[,1][1] numerosit`a campionaria
[,1][2] numero di valori mancanti
[,1][3] minimo
[,1][4] massimo
[,1][5] primo quartile
[,1][6] terzo quartile
[,1][7] media aritmetica
[,1][8] mediana
[,1][9] somma
[,1][10] errore standard della media
[,1][11] estremo inferiore dellintervallo di confidenza
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

71

72

Funzioni statistiche
[,1][12] estremo superiore dellintervallo di confidenza
[,1][13] varianza campionaria
[,1][14] deviazione standard
[,1][15] indice di asimmetria
[,1][16] indice di kurtosi
Formula:
[,1][1]
n
[,1][2]
# NA
[,1][3]
x(1)
[,1][4]
x(n)
[,1][5]
Q0.25 (x)
[,1][6]
Q0.75 (x)
[,1][7]
x
[,1][8]
Q0.5 (x)
[,1][9]

n
X

xi

i=1

[,1][10]

sx / n

[,1][11]

x t1 / 2, n1 sx / n

[,1][12]

x + t1 / 2, n1 sx / n

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.7 Funzioni riassuntive

73

[,1][13]
s2x
[,1][14]
sx
[,1][15]

[,1][16]

n
1 X  xi x 3
1 =
n i=1
sx
n
1 X  xi x 4
2 =
3
n i=1
sx

Esempio:
> x
[1] 1.0 2.3 5.0 6.7 8.0
> length(x)
[1] 5
> basicStats(x)[,1][1]
[1] 5
> sum(is.na(x))
[1] 0
> basicStats(x)[,1][2]
[1] 0
> min(x)
[1] 1
> basicStats(x)[,1][3]
[1] 1
> max(x)
[1] 8
> basicStats(x)[,1][4]
[1] 8
> quantile(x,probs=0.25)
25%
2.3
> basicStats(x)[,1][5]
[1] 2.3
> quantile(x,probs=0.75)
75%
6.7
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

74

Funzioni statistiche
> basicStats(x)[,1][6]
[1] 6.7
> mean(x)
[1] 4.6
> basicStats(x)[,1][7]
[1] 4.6
> median(x)
[1] 5
> basicStats(x)[,1][8]
[1] 5
> sum(x)
[1] 23
> basicStats(x)[,1][9]
[1] 23
> sd(x)/sqrt(length(x))
[1] 1.311106
> basicStats(x)[,1][10]
[1] 1.311106
> alpha<-0.05
> mean(x)-qt(1-alpha/2,length(x)-1)*sd(x)/sqrt(length(x))
[1] 0.959785
> basicStats(x,ci=1-alpha)[,1][11]
[1] 0.959785
> mean(x)+qt(1-alpha/2,length(x)-1)*sd(x)/sqrt(length(x))
[1] 8.240215
> basicStats(x,ci=1-alpha)[,1][12]
[1] 8.240215
> var(x)
[1] 8.595
> basicStats(x)[,1][13]
[1] 8.595
> sd(x)
[1] 2.931723
> basicStats(x)[,1][14]
[1] 2.931723
> mean((x-mean(x))^3/sd(x)^3)
[1] -0.08091067
> basicStats(x)[,1][15]
[1] -0.08091067
> mean((x-mean(x))^4/sd(x)^4)-3
[1] -2.055005

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.7 Funzioni riassuntive

75

> basicStats(x)[,1][16]
[1] -2.055005
Osservazioni 1: E necessario installare la libreria fBasics.
Osservazioni 2: Calcola i quartili con la funzione quantile().

2.7.4

boxplot.stats()

Parametri:
x vettore numerico di dimensione n
coef coefficiente positivo
Significato: statistiche per il boxplot
Output:
$stats statistiche riassuntive
$n dimensione del vettore di dati
$conf intervallo di notch
$out valori di x esterni allintervallo tra i baffi
Formula:
$stats[1]

min x| x<Q0.25 (x)


AN D

xmax(x(1) , Q0.25 (x)coef IQR(x))

$stats[2]
Q0.25 (x)
$stats[3]
Q0.5 (x)
$stats[4]
Q0.75 (x)
$stats[5]

max x| x>Q0.75 (x)


AN D

xmin(x(n) , Q0.75 (x)+coef IQR(x))

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

76

Funzioni statistiche
$n
n
$conf

Q0.5 (x) 1.58 IQR(x) / n

$out
x| x<Q0.25 (x)coef IQR(x)

OR

x>Q0.75 (x)+coef IQR(x)

Esempio:
> x<-c(1:100,1000)
> fn<-fivenum(x)
> coef<-1.2
> min(x[x<fn[2] & x>=max(fn[1],fn[2]-coef*(fn[4]-fn[2]))])
[1] 1
> boxplot.stats(x,coef=1.2)$stats[1]
[1] 1
> fn[2]
[1] 26
> boxplot.stats(x,coef=1.2)$stats[2]
[1] 26
> fn[3]
[1] 51
> boxplot.stats(x,coef=1.2)$stats[3]
[1] 51
> fn[4]
[1] 76
> boxplot.stats(x,coef=1.2)$stats[4]
[1] 76
> max(x[x>fn[4] & x<=min(fn[5],fn[4]+coef*(fn[4]-fn[2]))])
[1] 100
> boxplot.stats(x,coef=1.2)$stats[5]
[1] 100
> length(x)
[1] 101
> boxplot.stats(x,coef=1.2)$n
[1] 101
> x[x<fn[2]-coef*(fn[4]-fn[2]) | x>fn[4]+coef*(fn[4]-fn[2])]
[1] 1000
> boxplot.stats(x,coef=1.2)$out
[1] 1000
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.8 Funzioni di distribuzione di frequenza


Osservazioni: Calcola i quartili con la funzione fivenum().

2.8

Funzioni di distribuzione di frequenza

2.8.1

tabulate()

Parametri:
bin vettore di interi positivi
nbins numero di classi
Significato: distribuzione di frequenza
Esempio:
> bin<-c(2,3,5)
> tabulate(bin)
[1] 0 1 1 0 1
> bin<-c(2,3,3,5)
> tabulate(bin,nbins=10)
[1] 0 1 2 0 1 0 0 0 0 0
> bin<-c(-2,0,2,3,3,5)
> tabulate(bin)
[1] 0 1 2 0 1
> bin<-c(-2,0,2,3,3,5)
> tabulate(bin,nbins=3)
[1] 0 1 2
> bin<-c(0,1,2,3,3,2,2.1)
> tabulate(bin)
[1] 1 3 2

2.8.2

table()

Parametri:
x vettore alfanumerico di dimensione n
Significato: distribuzione di frequenza
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

77

78

Funzioni statistiche
Esempio:
> x
[1] "a" "a" "b" "c" "a" "c"
> table(x)
x
a b c
3 1 2
> x
[1] a b c b a c a b b c a
Levels: a b c
> y
[1] A S A S S S A S S A A
Levels: A S
> table(f,g)
y
x
A S
a 3 1
b 0 4
c 2 1
> x
[1] 1 2 3 2 1 3 1 1 2 3
> table(x)
x
1 2 3
4 3 3

2.8.3

unique()

Parametri:
x vettore alfanumerico di dimensione n
Significato: valori distinti del vettore

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.8 Funzioni di distribuzione di frequenza

79

Esempio:
> x
[1] "a" "a" "b" "c" "a" "c"
> unique(x)
a b c
> x<-c(1,2,3,2,1,3,1,1,2,3)
> unique(x)
[1] 1 2 3

2.8.4

hist()

Parametri:
y vettore numerico di dimensione n
breaks estremi delle classi di ampiezza ai

right  = T / F classi chiuse a destra x(i) , x(i+1) oppure a sinistra x(i) , x(i+1)
Significato: istogramma
Output:
$breaks estremi delle classi
$counts frequenze assolute
$density densit`a di frequenza
$mids punti centrali delle classi
Formula:
$breaks
x(i)

i = 1, 2, . . . , m

$counts
ni
$density

ni
n ai

i = 1, 2, . . . , m 1

i = 1, 2, . . . , m 1

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

80

Funzioni statistiche
$mids

x(i) + x(i+1)
2

i = 1, 2, . . . , m 1

Esempio:
> y
[1] 51.10 52.30 66.70 77.10 77.15 77.17
> n<-length(y)
> m<-4
> x1<-50
> x2<-65
> x3<-70
> x4<-85
> x<-c(x1,x2,x3,x4)
> a1<-65-50
> a2<-70-65
> a3<-85-70
> a<-c(a1,a2,a3)
> x
[1] 50 65 70 85
> hist(y,breaks=x,right=F,plot=F)$breaks
[1] 50 65 70 85
> count<-numeric(m-1)
> count[1]<-sum(y>=x1 & y<x2)
> count[2]<-sum(y>=x2 & y<x3)
> count[3]<-sum(y>=x3 & y<x4)
> count
[1] 2 1 3
> hist(y,breaks=x,right=F,plot=F)$counts
[1] 2 1 3
> count/(n*a)
[1] 0.02222222 0.03333333 0.03333333
> hist(y,breaks=x,right=F,plot=F)$density
[1] 0.02222222 0.03333333 0.03333333
> (x[-m]+x[-1])/2
[1] 57.5 67.5 77.5
> hist(y,breaks=x,right=F,plot=F)$mids
[1] 57.5 67.5 77.5

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.9 Funzioni di distanza

2.8.5

81

cut()

Parametri:
y vettore numerico di dimensione n
breaks estremi delle classi di ampiezza ai

right  = T / F classi chiuse a destra x(i) , x(i+1) oppure a sinistra x(i) , x(i+1)
labels etichette
Significato: raggruppamento dei dati in classi
Esempio:
> y
[1] 1.20 2.30 4.50 5.40 3.40 5.40 2.30 2.10 1.23 4.30 0.30
> cut(y,breaks=c(0,2,4,6),labels=c("0-2","2-4","4-6"))
[1] 0-2 2-4 4-6 4-6 2-4 4-6 2-4 2-4 0-2 4-6 0-2
Levels: 0-2 2-4 4-6
Osservazioni: Il comando cut crea un oggetto di tipo factor.

2.9
2.9.1

Funzioni di distanza
mahalanobis()

Parametri:
x vettore numerico di dimensione n
center parametro rispetto al quale si considerano gli scarti
A matrice invertibile di dimensione n n
inverted = T / F matrice A oppure A1
Significato: formula di Mahalanobis
Formula:

(x center(x))T A (x center(x))
(x center(x))T A1 (x center(x))

se inverted = T
se inverted = F

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

82

Funzioni statistiche
Esempio:
> x
[1] 1 2 3 4 5 6 7 8 9 10
> A<-matrix(rnorm(100),nrow=10,ncol=10)
> det(A)!=0
[1] TRUE
> as.numeric(t(x-mean(x))%*%A%*%(x-mean(x)))
[1] 127.1101
> mahalanobis(x,center=mean(x),A,inverted=T)
[1] 127.1101
> x
[1] 1 2 3 4 5 6 7 8 9 10
> A<-matrix(rnorm(100),nrow=10,ncol=10)
> as.numeric(t(x-median(x))%*%solve(A)%*%(x-median(x)))
[1] 42.86114
> mahalanobis(x,center=median(x),A,inverted=F)
[1] 42.86114

2.9.2

dist()

Parametri:
x matrice di dimensione k n
method = euclidean / minkowski formula per la distanza
p potenza per la distanza di minkowski
Significato: matrice di distanza per i k vettori di dimensione n
Formula:
method = euclidean
n
X

!1 / 2
(xih xjh )2

i, j = 1, 2, . . . , k

h=1

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.10 Miscellaneous

83
method = minkowski

n
X

!1 / p
p

|xih xjh |

i, j = 1, 2, . . . , k

h=1

Esempio:
>
>
>
>
>

x<-matrix(rnorm(30),nrow=3,ncol=10)
k<-3
n<-10
dist(x,method="euclidean",upper=T,diag=T)
dist(x,method="minkowski",p=1,upper=T,diag=T)

2.10

Miscellaneous

2.10.1

ic.var()

Significato: intervallo di confidenza Chi-Quadrato per la varianza


Parametri:
x vettore numerico di dimensione n
conf.level livello di confidenza 1
Formula:

(n 1) s2x
21 / 2, n1

(n 1) s2x
2 / 2, n1

Esempio:
> x
[1] 1.2 3.4 4.2 12.4 13.4 17.3 18.1
> n<-length(x)
> alpha<-0.05
> lower<-(n-1)*var(x)/qchisq(1-alpha/2,n-1)
> upper<-(n-1)*var(x)/qchisq(alpha/2,n-1)
> c(lower,upper)
[1] 20.12959 235.06797
> ic.var(x,conf.level=1-alpha)
[1] 20.12959 235.06797
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

84

Funzioni statistiche
Osservazioni: E necessario installare la libreria labstatR.

2.10.2

sample()

Parametri:
x vettore alfanumerico
size ampiezza campionaria
replace = T / F estrazione con oppure senza ripetizione
Significato: estrazione campionaria
Esempio:
> sample(c("A","B"),size=10,replace=T)
[1] "A" "A" "A" "B" "A" "B" "A" "A" "B" "B"
> sample(c(0,1),size=5,replace=T)
[1] 0 1 0 0 0
> sample(1:10,size=3,replace=F)
[1] 6 8 4

2.10.3

rank()

Parametri:
x vettore numerico di dimensione n
Significato: rango
Esempio:
> x
[1] 1 2 3 4 2 3 4
> rank(x)
[1] 1.0 2.5 4.5 6.5 2.5 4.5 6.5
> x
[1]

9 10

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.10 Miscellaneous
> rank(x)
[1] 1 2
> x
[1] 10 9
> rank(x)
[1] 10 9

2.10.4

85

9 10

diff()

Parametri:
x vettore numerico di dimensione n
lag il parametro d del ritardo
Significato: differenze d-esime
Formula:
xt xtd

t = d + 1, d + 2, . . . , n

Esempio:
> x
[1] 1 2 4 3 5 6 -9
> n<-length(x)
> n
[1] 7
> d<-2
> x[-(1:d)]-x[-((n-d+1):n)]
[1]
3
1
1
3 -14
> diff(x,lag=d)
[1]
3
1
1
3 -14

2.10.5

scale()

Parametri:
x vettore numerico di dimensione n
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

86

Funzioni statistiche
center = T / F parametro di posizione
scale = T / F parametro di scala
Significato: centratura o normalizzazione
Formula:
center = T
center = F

x/

scale = T
(
x x ) / sx
q
P
1
n1

n
i=1

scale = F
x x
x2i

Esempio:
> x
[1] 1.2 3.4 4.2 12.4 13.4 17.3 18.1
> (x-mean(x))/sd(x)
[1] -1.264 -0.948 -0.833 0.345 0.488 1.048 1.163
> as.numeric(scale(x,center=T,scale=T))
[1] -1.264 -0.948 -0.833 0.345 0.488 1.048 1.163
> x-mean(x)
[1] -8.8 -6.6 -5.8 2.4 3.4 7.3 8.1
> as.numeric(scale(x,center=T,scale=F))
[1] -8.8 -6.6 -5.8 2.4 3.4 7.3 8.1
> x/sqrt(sum(x**2)/(length(x)-1))
[1] 0.0934 0.2646 0.3268 0.9649 1.0427 1.3462 1.4085
> as.numeric(scale(x,center=F,scale=T))
[1] 0.0934 0.2646 0.3268 0.9649 1.0427 1.3462 1.4085
> x
[1] 1.2 3.4 4.2 12.4 13.4 17.3 18.1
> as.numeric(scale(x,center=F,scale=F))
[1] 1.2 3.4 4.2 12.4 13.4 17.3 18.1

2.10.6

ppoints()

Parametri:
x vettore numerico di dimensione n
a parametro
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

2.10 Miscellaneous

87

Significato: rapporti per QQ-Plot


Formula:

ia
n 2a + 1

i = 1, 2, . . . , n

Esempio:
> x
[1] 1.2 3.4 4.2 12.4 13.4 17.3 18.1
> n<-length(x)
> n
[1] 7
> a<-3/8
> (1:n-a)/(n-2*a+1)
[1] 0.0862 0.2241 0.3621 0.5000 0.6379 0.7759 0.9138
> ppoints(x,a=3/8)
[1] 0.0862 0.2241 0.3621 0.5000 0.6379 0.7759 0.9138

2.10.7

sweep()

Parametri:
x dataframe
MARGIN = 1 / 2 righe oppure colonne
STATS statistica da sottrarre da ogni riga o colonna
Significato: modifica di un dataframe per riga o per colonna
Esempio:
> data
X1 X2 X3
1 6 26 60
2 15 29 52
3 8 56 20
> X1m<-mean(X1)
> X2m<-mean(X2)
> X3m<-mean(X3)
> mediecolonna<-c(X1m,X2m,X3m)
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

88

Funzioni statistiche
> mediecolonna
[1] 9.666667 59.533333 44.000000
> sweep(data,MARGIN=2,STATS=mediecolonna)
X1
X2 X3
1 -3.666667 -33.533333 16
2 5.333333 -30.533333
8
3 -1.666667 -3.533333 -24

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

Capitolo 3
Matrici
3.1

Creazione

3.1.1

matrix()

Parametri:
x vettore numerico di dimensione n
nrow numero di righe
ncol numero di colonne
byrow = T / F elementi disposti per riga o per colonna
Esempio:
> x<-c(1,-0.2,3,4,5.6,7.8,9.9,1,12)
> A<-matrix(x,nrow=3,ncol=3,byrow=T)
> A
[,1] [,2] [,3]
[1,] 1.0 -0.2 3.0
[2,] 4.0 5.6 7.8
[3,] 9.9 1.0 12.0

3.1.2

dim()

Parametri:
x vettore numerico di dimensione n
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

90

Matrici
Esempio:
> x<-1:9
> dim(x)<-c(3,3)
> x
[,1] [,2] [,3]
[1,]
1
4
7
[2,]
2
5
8
[3,]
3
6
9

3.1.3

cbind()

Parametri:
A matrice di dimensione n k
B matrice di dimensione n m
Significato: unisce due matrici accostandole per colonna
Esempio:
> A<-matrix(c(9.9,1,12),nrow=3,ncol=1)
> A
[,1]
[1,] 9.9
[2,] 1.0
[3,] 12.0
> B<-matrix(1:3,nrow=3,ncol=1)
> B
[,1]
[1,]
1
[2,]
2
[3,]
3
> cbind(A,B)
[,1] [,2]
[1,] 9.9
1
[2,] 1.0
2
[3,] 12.0
3

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

3.1 Creazione

3.1.4

rbind()

Parametri:
A matrice di dimensione n k
B matrice di dimensione m k
Significato: unisce due matrici accostandole per riga
Esempio:
> A<-matrix(c(9.9,1,12),nrow=1,ncol=3)
> A
[,1] [,2] [,3]
[1,] 9.9
1
12
> B<-matrix(1:3,nrow=1,ncol=3)
> B
[,1] [,2] [,3]
[1,]
1
2
3
> rbind(A,B)
[,1] [,2] [,3]
[1,] 9.9
1
12
[2,] 1.0
2
3

3.1.5

toeplitz()

Parametri:
x vettore numerico di dimensione n
Significato: matrice di Toeplitz di dimensione n n
Esempio:
> x
[1] 1 2 3
> toeplitz(x)
[,1] [,2] [,3]
[1,]
1
2
3
[2,]
2
1
2
[3,]
3
2
1
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

91

92

Matrici

> y
[1] -2.05 -1.04 0.92 -0.67 0.82 0.09 -0.64
> d<-3
> rho<-as.vector(acf(y,lag=d-1,plot=F)[[1]])
> rho<-round(rho,4)
> rho
[1] 1.0000 -0.0077 -0.0541
> toeplitz(rho)
[,1]
[,2]
[,3]
[1,] 1.0000 -0.0077 -0.0541
[2,] -0.0077 1.0000 -0.0077
[3,] -0.0541 -0.0077 1.0000

3.2

0.21

Operazioni

3.2.1

det()

Parametri:
A matrice di dimensione n n
Significato: determinante
Esempio:
> A<-matrix(c(1,-0.2,4,5.6),nrow=2,ncol=2,byrow=T)
> A
[,1] [,2]
[1,] 1.0 -0.2
[2,] 4.0 5.6
> det(A)

3.2.2

as.vector()

Parametri:
A matrice di dimensione n k
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

0.02

1.83

3.2 Operazioni

93

Significato: trasforma la matrice in vettore seguendo lordine delle


colonne
Esempio:
> A<-matrix(1:9,nrow=3,ncol=3)
> A
[,1] [,2] [,3]
[1,]
1
4
7
[2,]
2
5
8
[3,]
3
6
9
> as.vector(A)
[1] 1 2 3 4 5 6 7 8 9

3.2.3

norm()

Parametri:
A matrice di dimensione n k
type = o / i / F / m tipo di norma
Formula:
type = o

max

n
X

!
| aij |

j = 1, 2, . . . , k

i=1

type = i

max

k
X

!
| aij |

i = 1, 2, . . . , n

j=1

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

94

Matrici
type = F

k
n X
X

!1 / 2
a2ij

i=1 j=1

type = m
max ( | aij |)

i = 1, 2, . . . , n j = 1, 2, . . . , k

Esempio:
> Matrice<-Matrix(c(1.2,3.4,.2,1.2,3.5,7,8,9,2.1),nrow=3,ncol=3)
> norm(Matrice,type="o")
Osservazioni: E necessario installare la libreria Matrix.

3.2.4

solve()

Parametri:
A matrice invertibile di dimensione n n
B matrice di dimensione n k
Formula:
A1 B
Esempio:
>
>
>
>

A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
B<-matrix(c(11,-2,3.4,4.1,5,7),nrow=3,ncol=2)
solve(A,B)
solve(A)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

3.2 Operazioni

3.2.5

95

eigen()

Parametri:
A matrice simmetrica di dimensione n n
Significato: autovalori ed autovettori
Output:
$values la diagonale della matrice D di dimensione n n
$vectors matrice di dimensione n n
Formula:
A = D T

dove T = In = T
Esempio:
> A<-matrix(c(1,5.6,3.7,5.6,6.7,7.8,3.7,7.8,9),nrow=3,ncol=3)
> D<-diag(eigen(A)$values)
> GAMMA<-eigen(A)$vectors

3.2.6

crossprod()

Parametri:
A matrice di dimensione n m
B matrice di dimensione n k
Significato: prodotto scalare
Formula:
AT B
Esempio:
>
>
>
>

A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
B<-matrix(c(11,-2,3.4,4.1,5,7),nrow=3,ncol=2)
crossprod(A,B)
crossprod(A)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

96

Matrici

3.2.7

%%

Parametri:
A matrice di dimensione n m
B matrice di dimensione n k
Significato: prodotto scalare
Formula:
AT B
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> B<-matrix(c(11,-2,3.4,4.1,5,7),nrow=3,ncol=2)
> t(A)%*%B

3.2.8

Parametri:
A matrice di dimensione n m
B matrice di dimensione n m
Significato: prodotto elemento per elemento
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> B<-matrix(c(11,-2,3.4,4.1,5,7),nrow=3,ncol=2)
> A*B

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

3.2 Operazioni

3.2.9

97

kronecker()

Parametri:
A matrice di dimensione n m
B matrice di dimensione h k
Significato: prodotto di Kronecker
Formula:
AB
Esempio:
> A<-matrix(1:3,nrow=3,ncol=1)
> A
[,1]
[1,]
1
[2,]
2
[3,]
3
> B<-matrix(7:9,nrow=1,ncol=3)
> B
[,1] [,2] [,3]
[1,]
7
8
9
> kronecker(A,B)
[,1] [,2] [,3]
[1,]
7
8
9
[2,]
14
16
18
[3,]
21
24
27

3.2.10

diag()

Parametri:
A matrice di dimensione n n
v vettore numerico di dimensione n
k naturale
Significato: estrae gli elementi diagonali o crea una matrice diagonale

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

98

Matrici
Esempio:
> A<-matrix(1:9,nrow=3,ncol=3)
> A
[,1] [,2] [,3]
[1,]
1
4
7
[2,]
2
5
8
[3,]
3
6
9
> diag(A)
[1] 1 5 9
> v<-1:3
> diag(v)
[,1] [,2] [,3]
[1,]
1
0
0
[2,]
0
2
0
[3,]
0
0
3
> k<-2
> diag(k)
[,1] [,2]
[1,]
1
0
[2,]
0
1

3.2.11

t()

Parametri:
A matrice di dimensione n m
Significato: trasposta
Formula:
AT
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> t(A)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

3.2 Operazioni

3.2.12

99

dim()

Parametri:
A matrice di dimensione n m
Significato: numero di righe e di colonne
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> dim(A)

3.2.13

nrow()

Parametri:
A matrice di dimensione n m
Significato: numero di righe
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> nrow(A)

3.2.14

NROW()

Parametri:
A matrice di dimensione n m
Significato: numero di righe
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> NROW(A)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

100

Matrici

3.2.15

ncol()

Parametri:
A matrice di dimensione n m
Significato: numero di colonne
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> ncol(A)

3.2.16

NCOL()

Parametri:
A matrice di dimensione n m
Significato: numero di colonne
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> NCOL(A)

3.2.17

colSums()

Parametri:
A matrice di dimensione n m
Significato: somme di colonna
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> colSums(A)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

3.3 Fattorizzazioni

3.2.18

101

colMeans()

Parametri:
A matrice di dimensione n m
Significato: medie di colonna
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> colMeans(A)

3.3

Fattorizzazioni

3.3.1

svd()

Parametri:
A matrice di dimensione n k
Significato: fattorizzazione ai valori singolari
Output:
$d diagonale della matrice D di dimensione k k
$u matrice U di dimensione n k
$v matrice V di dimensione k k
Formula:
A = U DVT

dove U T U = Ik = V T V = V V T
Esempio:
>
>
>
>

A<-matrix(c(11,-2,3.4,4.1,5,7),nrow=3,ncol=2)
D<-diag(svd(A)$d)
U<-svd(A)$u
V<-svd(A)$v

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

102

Matrici

3.3.2

qr.Q()

Parametri:
A matrice di rango pieno di dimensione n k
Significato: matrice Q di dimensione n k
Formula:
A = QR

QT Q = Ik
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> Q<-qr.Q(qr(A))

3.3.3

qr.R()

Parametri:
A matrice di rango pieno di dimensione n m
Significato: matrice R triangolare superiore di dimensione k k
Formula:
A = QR
Esempio:
> A<-matrix(c(1,-0.2,3,4,5.6,7.8,9.9,1,12),nrow=3,ncol=3)
> R<-qr.R(qr(A))

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

3.3 Fattorizzazioni

3.3.4

103

chol()

Parametri:
A matrice simmetrica definita positiva di dimensione n n
Significato: matrice P triangolare superiore di dimensione n n
Formula:
A = PT P
Esempio:
> A<-matrix(c(5,1,1,3),nrow=2,ncol=2)
> P<-chol(A)

3.3.5

ginv()

Parametri:
A matrice di dimensione n k
Significato: inversa generalizzata Ag
Formula:
A = A Ag A
Esempio:
> A<-matrix(1:6,nrow=2,ncol=3)
> Ag<-ginv(A)
Osservazioni: E necessario installare la libreria MASS.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

104

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

Matrici

Capitolo 4
Analisi delle componenti
principali (ACP)
4.1

ACP con matrice di correlazione

4.1.1

Simbologia

matrice dei dati di dimensione n k: W


matrice standardizzata di dimensione n k: Z
elemento di riga i e colonna j della matrice standardizzata Z:
zij = (wij wj ) / swj i = 1, 2, . . . , n j = 1, 2, . . . , k
matrice di correlazione di dimensione k k: R =

ZT Z
n1

= D T

matrice ortogonale degli autovettori di dimensione k k:


j-esima colonna della matrice : j

j = 1, 2, . . . , k

matrice diagonale degli autovalori di dimensione kk: D = diag(1 , 2 , . . . , k )


componente principale j-esima: xj = Z j

j = 1, 2, . . . , k

deviazione
p standard della j-esima componente principale:
sxj = (kj+1) j = 1, 2, . . . , k
problema di ottimo vincolato:
xj = Z j j = 1, 2, . . . , k
xT xj

(Z )T (Z )

j
j
j
s2xj = n1
=
= jT Zn1Z j = jT R j j = 1, 2, . . . , k
n1
maxjT j = 1 s2xj = maxjT j = 1 jT R j = (kj+1) j = 1, 2, . . . , k

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

106

Analisi delle componenti principali (ACP)

4.1.2

prcomp()

Parametri:
W matrice dei dati
Output:
$sdev deviazione standard delle componenti principali
$rotation matrice ortogonale degli autovalori
$center medie di colonna della matrice W
$scale deviazione standard di colonna della matrice W
$x componenti principali
Formula:
$sdev
s xj =

j = 1, 2, . . . , k

(kj+1)

$rotation

$center
wj

j = 1, 2, . . . , k

sw j

j = 1, 2, . . . , k

$scale

$x
xj = Z j

j = 1, 2, . . . , k

Esempio:
>
>
>
>
>
>

Z<-scale(W)
n<-dim(W)[1]
R<-1/(n-1)*t(Z)%*%Z
D<-diag(eigen(R)$values)
GAMMA<-eigen(R)$vectors
prcomp(W,scale=T)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

4.2 ACP con matrice di varianza

4.1.3

107

summary()

Parametri:
pr oggetto di tipo prcomp()
Output:
$importance analisi delle componenti principali
Formula:
$importance[1,]
sxj =

(kj+1)

j = 1, 2, . . . , k

$importance[2,]
(kj+1)
k

j = 1, 2, . . . , k

$importance[3,]
l
1 X
(kj+1)
k j=1

l = 1, 2, . . . , k

Esempio:
> pr<-prcomp(W,scale=T)
> summary(pr)

4.2
4.2.1

ACP con matrice di varianza


Simbologia

matrice dei dati di dimensione n k: W


matrice centrata di dimensione n k: Z
elemento di riga i e colonna j della matrice centrata Z:
zij = wij wj i = 1, 2, . . . , n j = 1, 2, . . . , k
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

108

Analisi delle componenti principali (ACP)

matrice di covarianza di dimensione k k: S =

ZT Z
n1

= D T

matrice ortogonale degli autovettori di dimensione k k:


j-esima colonna della matrice : j

j = 1, 2, . . . , k

matrice diagonale degli autovalori di dimensione kk: D = diag(1 , 2 , . . . , k )


componente principale j-esima: xj = Z j

j = 1, 2, . . . , k

deviazione
p standard della j-esima componente principale:
sxj = (kj+1) j = 1, 2, . . . , k
problema di ottimo vincolato:
xj = Z j j = 1, 2, . . . , k
xT xj

(Z )T (Z )

j
j
j
=
= jT Zn1Z j = jT S j j = 1, 2, . . . , k
s2xj = n1
n1
maxjT j = 1 s2xj = maxjT j = 1 jT S j = (kj+1) j = 1, 2, . . . , k

4.2.2

prcomp()

Parametri:
W matrice dei dati
Output:
$sdev deviazione standard delle componenti principali
$rotation matrice ortogonale degli autovettori
$center medie di colonna della matrice W
$x componenti principali
Formula:
$sdev
s xj

q
= (kj+1)

j = 1, 2, . . . , k

$rotation

$center
wj

j = 1, 2, . . . , k

$x
xj = Z j

j = 1, 2, . . . , k

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

4.2 ACP con matrice di varianza

109

Esempio:
>
>
>
>
>
>

4.2.3

Z<-scale(W,scale=F)
n<-dim(W)[1]
S<-1/(n-1)*t(Z)%*%Z
D<-diag(eigen(S)$values)
GAMMA<-eigen(S)$vectors
prcomp(W,scale=F)

summary()

Parametri:
pr oggetto di tipo prcomp()
Output:
$importance analisi delle componenti principali
Formula:
$importance[1,]
sxj =

(kj+1)

j = 1, 2, . . . , k

$importance[2,]
(kj+1)
Pk
i=1 i

j = 1, 2, . . . , k

$importance[3,]
Pl

(kj+1)
Pk
i=1 i

j=1

l = 1, 2, . . . , k

Esempio:
> pr<-prcomp(W)
> summary(pr)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

110

Analisi delle componenti principali (ACP)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

Capitolo 5
Test di ipotesi parametrici
5.1
5.1.1

Test di ipotesi sulla media con uno o due


campioni
Test di Student con un campione

Sintassi: t.test()
Parametri:
x vettore numerico di dimensione n
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
mu valore di 0
conf.level livello di confidenza 1
Output:
$statistic valore empirico della statistica t
$parameter gradi di libert`a
$p.value p-value
$conf.int intervallo di confidenza per la media incognita a livello
1
$estimate media campionaria
$null.value valore di 0

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

112

Test di ipotesi parametrici

Formula:
$statistic
t =

x 0

sx / n

$parameter
df = n 1
$p.value
alt
less
greater
two.sided
$p.value P (tdf t) P (tdf t) 2 P (tdf | t |)
$conf.int

x t1 / 2, df sx / n

$estimate
x
$null.value
0
Esempio:
> t.test(x,mu=1.2,conf.level=0.95,alt="two.sided")

5.1.2

Test di Student con due campioni indipendenti


con varianze non note ma supposte uguali

Sintassi: t.test()
Parametri:
x vettore numerico di dimensione nx
y vettore numerico di dimensione ny
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
mu valore di ( x y )| H0
conf.level livello di confidenza 1
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

5.1 Test di ipotesi sulla media con uno o due campioni

113

Output:
$statistic valore empirico della statistica t
$parameter gradi di libert`a
$p.value p-value
$conf.int intervallo di confidenza per la differenza tra le medie
incognite a livello 1
$estimate medie campionarie
$null.value valore di ( x y )| H0
Formula:
$statistic
t =

(
x y) ( x y )| H0
p
sP 1 / n x + 1 / n y

dove s2P =

(nx 1) s2x + (ny 1) s2y


nx + ny 2

$parameter
df = nx + ny 2
$p.value
alt
less
greater
two.sided
$p.value P (tdf t) P (tdf t) 2 P (tdf | t |)
$conf.int
x y t1 / 2, df sP

1 / nx + 1 / ny

$estimate
x

$null.value
( x y )| H0
Esempio:
> t.test(x,y,mu=0.2,var.equal=T,conf.level=0.95,alt="two.sided")

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

114

5.1.3

Test di ipotesi parametrici

Test di Student con due campioni indipendenti


con varianze non note e diverse

Sintassi: t.test()
Parametri:
x vettore numerico di dimensione nx
y vettore numerico di dimensione ny
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
mu valore di ( x y )| H0
conf.level livello di confidenza 1
Output:
$statistic valore empirico della statistica t
$parameter gradi di libert`a
$p.value p-value
$conf.int intervallo di confidenza per la differenza tra le medie
incognite a livello 1
$estimate medie campionarie
$null.value valore di ( x y )| H0
Formula:
$statistic
t =

(
x y) ( x y )| H0
q
s2
s2x
+ nyy
nx

$parameter

df =

s2x
nx

s4x
n2x (nx 1)

+
+

s2y
ny

2

s4y
n2y (ny 1)

$p.value
alt
less
greater
two.sided
$p.value P (tdf t) P (tdf t) 2 P (tdf | t |)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

5.1 Test di ipotesi sulla media con uno o due campioni

115

$conf.int
x y t1 / 2, df

s2x / nx + s2y / ny

$estimate
x

$null.value
( x y )| H0
Esempio:
> t.test(x,y,mu=0.4,var.equal=F,alt="two.sided",conf.level=0.95)

5.1.4

Test di Student per dati appaiati

Sintassi: t.test()
Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione n
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
mu valore di ( x y )| H0
conf.level livello di confidenza 1
Output:
$statistic valore empirico della statistica t
$parameter gradi di libert`a
$p.value p-value
$conf.int intervallo di confidenza per la differenza tra le medie
incognite a livello 1
$estimate differenza tra le medie campionarie
$null.value valore di ( x y )| H0

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

116

Test di ipotesi parametrici

Formula:
$statistic
t =

(
x y) ( x y )| H0

sxy / n

dove s2xy =

n
2
1 X
xi yi (
x y)
n 1 i=1

$parameter
df = n 1
$p.value
alt
less
greater
two.sided
$p.value P (tdf t) P (tdf t) 2 P (tdf | t |)
$conf.int

x y t1 / 2, df sxy / n

$estimate
x y
$null.value
( x y )| H0
Esempio:
> t.test(x,y,mu=0.9,paired=T,alt="two.sided",conf.level=0.95)

5.2
5.2.1

Test di ipotesi sulla varianza


Test Chi-Quadrato

Sintassi: test.var()
Parametri:
x vettore numerico di dimensione n
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

5.2 Test di ipotesi sulla varianza

117

alt pu`o essere cambiata in less o greater a seconda della coda


che interessa
var0 valore di 02
alpha livello di significativit`a
Output:
Varianza campionaria stima della varianza sulla base del campione
statistica test valore empirico della statistica 2
p-value p-value
livello del test livello di significativit`a
Quantile Chi-quadrato quantile al (100 (1 ))%
gdl gradi di libert`a
Formula:
Varianza campionaria
s2x
statistica test

(n 1) s2x
c =
02

p-value
alt
less
greater
2
p-value P (n1 c) P (2n1 c)
livello del test

Quantile Chi-quadrato
alt
less
Quantile Chi-quadrato 2, n1

greater
21, n1

gdl
n1

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

118

Test di ipotesi parametrici

Esempio:
> test.var(x,var0=24.3,alpha=0.05,alt="greater")
Osservazioni: E necessario installare la libreria labstatR.

5.3
5.3.1

Test di ipotesi sul rapporto tra due varianze


Test di Fisher

Sintassi: var.test()
Parametri:
x vettore numerico di dimensione nx
y vettore numerico di dimensione ny
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa

2
ratio il valore di x2 H0
y
conf.level livello di confidenza 1
Output:
$statistic valore empirico della statistica F
$parameter gradi di libert`a
$p.value p-value
$conf.int intervallo di confidenza al livello 1
$estimate rapporto tra le varianze campionarie

2
$null.value valore di x2 H0
y

Formula:
$statistic
F value =

s2x
s2y

x2
y2

1


H0

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

5.4 Test di ipotesi su proporzioni

119

$parameter
num df
den df

nx 1
ny 1

$p.value
alt
less
greater
two.sided
$p.value P (Fnx 1,ny 1 F value) P (Fnx 1,ny 1 F value) 2 P (Fnx 1,ny 1 F value)
$conf.int
1
F1 2 ,nx 1, ny 1

s2x
s2y

$estimate

1
F 2 ,nx 1, ny 1

s2x
s2y

s2x
s2y

$null.value
x2
y2




H0

Esempio:
> var.test(x,y,conf.level=0.95,alt="two.sided",ratio=1.2)

5.4
5.4.1

Test di ipotesi su proporzioni


Test con un campione

Sintassi: prop.test()
Parametri:
x numero di successi
n dimensione campionaria
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
p il valore di p0
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

120

Test di ipotesi parametrici


conf.level livello di confidenza 1

Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
$conf.int intervallo di confidenza al livello 1
$estimate proporzione calcolata sulla base del campione
$null.value il valore di p0
Formula:
$statistic

x
n

z2 = q

p0

p0 (1p0 )
n

$parameter
1
$p.value
alt
less greater two.sided
$p.value (z) 1 (z) P (21 z 2 )
$conf.int
2
z1
/2

2n

r
+

x
n

z1 / 2
1+

$estimate

2
z1
/2

4 n2

2
z1
/2

x
n

$null.value
p0

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

x
n

x
1 n

5.4 Test di ipotesi su proporzioni

121

Esempio:
> x<-9
> n<-23
> prop.test(x,n,p=0.5,alt="less",conf.level=0.95,correct=F)
Osservazioni: I limiti di confidenza non possono scendere sotto 0
oppure salire sopra 1.

5.4.2

Potenza nel Test con un campione

Sintassi: power.prop.test()
Parametri:
n dimensione campionaria di ciascun campione
p1 valore p1 della proporzione sotto ipotesi nulla
p2 il valore p2 della proporzione sotto lipotesi alternativa
alt pu`o essere cambiata in one.sided, two.sided a seconda della coda che interessa
sig.level livello di significativit`a
Output:
$n dimensione campionaria di ciascun campione
$p1 il valore p1 della proporzione sotto lipotesi nulla
$p2 il valore p2 della proporzione sotto lipotesi alternativa
$sig.level livello di significativit`a
$power calcolo della potenza 1
Formula:
$n
n
$p1
p1
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

122

Test di ipotesi parametrici


$p2
p2
$sig.level

$power
alt = one.sided
p

n |p1 p2 | 1 (1 ) (p1 + p2 ) (1 (p1 + p2 ) / 2))


p
1 =
p1 (1 p1 ) + p2 (1 p2 )
alt = two.sided
p

n |p1 p2 | 1 (1 / 2) (p1 + p2 ) (1 (p1 + p2 ) / 2))


p
1 =
p1 (1 p1 ) + p2 (1 p2 )

Esempio:
>
>
>
>
>

5.4.3

n<-23
p1<-0.23
p2<-0.31
alpha<-0.05
power.prop.test(n,p1,p2,sig.level=alpha,alt="one.sided")

Test con due campioni indipendenti

Sintassi: prop.test()
Parametri:
x rappresenta il numero di successi nel primo campione
y rappresenta il numero di successi nel secondo campione
nx dimensione del primo campione
ny dimensione del secondo campione
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
conf.level livello di confidenza 1
Output:
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

5.4 Test di ipotesi su proporzioni

123

$statistic valore empirico della statistica 2


$parameter gradi di libert`a
$p.value p-value
$conf.int intervallo di confidenza al livello 1
$estimate proporzioni calcolate sulla base dei campioni
Formula:
$statistic

z2 = q

x
nx
x+y
nx +ny

y
ny

x+y
nx +ny

1
nx

1
ny

$parameter
1
$p.value
alt
less greater two.sided
$p.value (z) 1 (z) P (21 z 2 )
$conf.int
y
x

z1 / 2
nx ny
$estimate

x
nx

1
nx

x
nx

x
nx


+

y
ny

y
ny

ny

y
ny

Esempio:
>
>
>
>
>

x<-9
nx<-23
y<-11
ny<-32
prop.test(c(x,y),c(nx,ny),alt="less",conf.level=0.95,correct=F)

Osservazioni: I limiti di confidenza non possono scendere sotto -1


oppure salire sopra 1.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

124

Test di ipotesi parametrici

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

Capitolo 6
Anova
6.1

Simbologia

numero di livelli dei fattori di colonna e di riga:


Anova
ad una via
a due vie senza replica
a due vie con uguale numero di repliche

f (colonna) g (riga)
k
/
k
h
k
h

dimensione campionaria di colonna, di riga e di cella:

Anova
ad una via
a due vie senza replica
a due vie con uguale numero di repliche

j-esima colonna i-esima riga ij-esima cella


nj
/
/
h
k
/
hl
kl
l

medie campionarie di colonna, di riga e di cella:

Anova
ad una via
a due vie senza replica
a due vie con uguale numero di repliche

j-esima colonna i-esima riga ij-esima cella


yj
/
/
yj
yi
/
yj
yi
yij

media aritmetica generale: y


Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

126

Anova

6.2

Comandi utili in analisi della varianza

6.2.1

factor()

Parametri:
f vettore numerico o alfanumerico
levels etichette di livello
ordered = T / F imposizione di un ordinamento
Significato: crea un fattore
Esempio:
> sesso<-c(rep("U",4),rep("D",4))
> sesso
[1] "U" "U" "U" "U" "D" "D" "D" "D"
> sesso<-factor(sesso,levels=c("U","D"))
> sesso
[1] U U U U D D D D
Levels: U D
> sesso<-factor(sesso,levels=c("D","U"))
> sesso
[1] U U U U D D D D
Levels: D U
> sesso<-c(rep(1,4),rep(2,4))
> sesso
[1] 1 1 1 1 2 2 2 2
> sesso<-factor(sesso)
> sesso
[1] 1 1 1 1 2 2 2 2
Levels: 1 2
> levels(sesso)<-c("U","D")
> sesso
[1] U U U U D D D D
Levels: U D
> levels(sesso)<-c("D","U")
> sesso
[1] D D D D U U U U
Levels: D U
> fattore<-factor(scan(what="c"))
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

6.2 Comandi utili in analisi della varianza

127

1: A
2: B
3: C
4: B
5: A
6: C
7: C
8: A
9:
Read 8 items
> fattore
[1] A B C B A C C A
Levels: A B C

6.2.2

by()

Parametri:
y vettore numerico di dimensione n
f fattore a k livelli
FUN funzione
Significato: applica FUN ad ogni vettore numerico per livello del fattore
Esempio:
> y
[1] 1.2 2.3 5.6 3.5 2.5 3.8 6.8 5.7 3.7 6.4
> f
[1] a b c a b b c c a b
Levels: a b c
> g
[1] alto medio basso alto medio basso medio alto alto basso
Levels: alto basso medio
> by(y,f,FUN=mean)
> by(y,list(f,g),FUN=mean)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

128

Anova

6.2.3

tapply()

Parametri:
y vettore numerico di dimensione n
f fattore a k livelli
FUN funzione
Significato: applica FUN ad ogni vettore numerico per livello del fattore
Esempio:
> y
[1] 1.2 2.3 5.6 3.5 2.5 3.8 6.8 5.7 3.7 6.4
> f
[1] a b c a b b c c a b
Levels: a b c
> g
[1] alto medio basso alto medio basso medio alto alto basso
Levels: alto basso medio
> tapply(y,f,FUN=mean)
> tapply(y,list(f,g),FUN=mean)

6.2.4

gl()

Parametri:
n numero dei livelli
k numero delle repliche
length lunghezza del fattore
labels nomi dei livelli
Significato: crea un fattore
Esempio:
> n<-2
> k<-5
> gl(n,k,labels=c("M","F"))
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

6.2 Comandi utili in analisi della varianza


[1] M M
Levels: M

M
F

> n<-2
> k<-1
> l<-10
> gl(n,k,length=l,labels=c("A","B"))
[1] A B A B A B A B A B
Levels: A B

6.2.5

levels()

Parametri:
f fattore a k livelli
Significato: nome dei livelli
Esempio:
> f<-factor(c(rep(1,5),rep(2,5)))
> f
[1] 1 1 1 1 1 2 2 2 2 2
Levels: 1 2
> levels(f)
[1] "1" "2"

6.2.6

nlevels()

Parametri:
f fattore a k livelli
Significato: numero di livelli

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

129

130

Anova

Esempio:
> f<-factor(c(rep(1,5),rep(2,5)))
> f
[1] 1 1 1 1 1 2 2 2 2 2
Levels: 1 2
> nlevels(f)
[1] 2

6.3
6.3.1

Modelli di analisi della varianza


Anova ad una via

Sintassi: anova()
Parametri:
y vettore numerico di dimensione n
f fattore a k livelli
Output:
$Df gradi di libert`a
$Sum Sq somma dei quadrati
$Mean Sq media dei quadrati
$F value valore empirico della statistica F
$Pr(>F) p-value
Formula:
$Df
f
Residuals

k1
nk

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

6.3 Modelli di analisi della varianza

131

$Sum Sq
f
Residuals

Pk
nj (
yj y)2
Pk j=1
Pnj
j )2
i=1 (yij y
j=1

$Mean Sq
f
Residuals

 Pk

nj (
yj y)2 / (k 1)
j=1
 Pk Pnj


j )2 / n k
i=1 (yij y
j=1

$F value
 Pk


2
/ (k 1)
n
(
y

)
j
j
j=1
F value =  Pk Pnj


2 / nk
(y

)
ij
j
i=1
j=1
$Pr(>F)
P (Fk1, nk) F value)
Esempio:
> y
[1] 1.0 4.0 10.0 2.1 3.5
> f
[1] a a a b b b c c c d d d
Levels: a b c d
> anova(lm(y~f))

6.3.2

5.6

8.4

12.0

Anova a due vie senza repliche

Sintassi: anova()
Parametri:
y vettore numerico di dimensione kh
f fattore a k livelli
g fattore a h livelli

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

16.5

22.0

1.2

3.4

132

Anova

Output:
$Df gradi di libert`a
$Sum Sq somma dei quadrati
$Mean Sq media dei quadrati
$F value valore empirico della statistica F
$Pr(>F) p-value
Formula:
$Df
f
g
Residuals

k1
h1
(k 1) (h 1)

$Sum Sq
f
g
Residuals

Pk

j=1

P
yj y)2
h kj=1 (
Ph
(
y y)2
k
Ph i=1 i
i yj + y)2
i=1 (yij y

$Mean Sq
f
g
Residuals

 Pk

j=1


 Pk
yj y)2 / (k 1)
h j=1 (

 Ph
k i=1 (
yi y)2 / (h 1)

Ph
i yj + y)2 / [(k 1) (h 1)]
i=1 (yij y

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

6.3 Modelli di analisi della varianza


$F value
Ff value
Fg value

P
P

k
j=1

k
j=1

P
P

k
j=1

133

(
yj
y )2 / (k1)

h
i=1

(yi j
yi
yj +
y )2 / [(k1) (h1)]

h
i=1

(yij
yi
yj +
y )2 / [(k1) (h1)]
h
i=1

(
yi
y )2 / (h1)

$Pr(>F)
f
g

P (Fk1, (k1) (h1) Ff value)


P (Fh1, (k1) (h1) Fg value)

Esempio:
> y
[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0
> f
[1] a a b b c c d d
Levels: a b c d
> g
[1] basso alto basso alto basso alto basso alto
Levels: alto basso
> anova(lm(y~f+g))

6.3.3

Anova a due vie con uguale numero di repliche

Sintassi: anova()
Parametri:
y vettore numerico di dimensione khl
f fattore a k livelli
g fattore a h livelli
Output:
$Df gradi di libert`a
$Sum Sq somma dei quadrati
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

134

Anova
$Mean Sq media dei quadrati
$F value valore empirico della statistica F
$Pr(>F) p-value

Formula:
$Df
f
g
f:g
Residuals

k1
h1
(k 1) (h 1)
k h (l 1)

$Sum Sq
f
g
f:g
Residuals

Pk
Pj=1
k

j=1

P
yj y)2
hl kj=1 (
P
yi y)2
kl hi=1 (
Ph
(
yij yi yj + y)2
P
Pi=1
l
h
ij )2
m=1 (yijm y
i=1

$Mean Sq
f
g
f:g
Residuals


 Pk
yj y)2 / (k 1)
hl j=1 (

 Ph
yi y)2 / (h 1)
kl i=1 (

 Pk Ph
yij yi yj + y)2 / [(k 1) (h 1)]
l j=1 i=1 (

 Pk Ph Pl
ij )2 / [k h (l 1)]
j=1
i=1
m=1 (yijm y

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

6.3 Modelli di analisi della varianza


$F value
Ff value

P

Fg value

P

P
l
P


Ff :g value

P (y y)  / (k1)
P P (y y )  / [k h (l1)]
 P

kl
(
y
y ) / (h1)
P P (y y )  / [k h (l1)]
P (y y y +y)  / [(k1) (h1)]
P P (y y )  / [kh (l1)]


k
j=1

k
j=1
k
j=1

135

k
j=1

hl

k
j=1

h
i=1

l
2
ijm
ij
m=1
h
2
i
i=1

h
i=1
h
i=1

h
i=1

l
m=1

ij

ijm

l
m=1

ijm

ij

ij

$Pr(>F)
f
g
f:g

P (Fk1, k h (l1) Ff value)


P (Fh1, k h (l1) Fg value)
P (F(k1) (h1), k h (l1) ) Ff :g value)

Esempio:
> y
[1] 1.0 4.0 10.0 2.1 3.5
> f
[1] a a a a a a b b b b b b
Levels: a b
> g
[1] B A B A B A B A B A B A
Levels: A B
> anova(lm(y~f+g+f:g))

5.6

8.4

12.0

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

6.5

2.0

1.2

3.4

136

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

Anova

Capitolo 7
Confronti multipli
7.1
7.1.1

Metodo di Tukey
Applicazione in Anova ad una via

Sintassi: TukeyHSD()
Parametri:
y vettore numerico di dimensione n
f fattore a k livelli
conf.level livello di confidenza 1
Output:
$f intervallo di confidenza a livello 1 per il fattore
Formula:
$f[,1]
yi yj

i > j = 1, 2, . . . , k

$f[,c(2,3)]
sP
yi yj q1, k, nk
2

dove

s2P

1 / ni + 1 / nj

nj
k X
X

i, j = 1, 2, . . . , k

(yij yj )2 / (n k)

j=1 i=1

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

138

Confronti multipli

Esempio:
> y
[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4
> f
[1] a a a b b b c c c d d d
Levels: a b c d
> TukeyHSD(aov(y~f),conf.level=0.95)

7.1.2

12.0

16.5

22.0

Applicazione in Anova a due vie senza repliche

Sintassi: TukeyHSD()
Parametri:
y vettore numerico di dimensione kh
f fattore a k livelli
g fattore a h livelli
conf.level livello di confidenza 1
Output:
$f intervallo di confidenza a livello 1 per il primo fattore
$g intervallo di confidenza a livello 1 per il secondo fattore
Formula:
$f[,1]
yi yj

i > j = 1, 2, . . . , k

$f[,c(2,3)]

yi yj q1, k, (k1) (h1) sP / h i > j = 1, 2, . . . , k

dove s2P =

k X
h
X

(yij yi )2 / [h (k 1)]

j=1 i=1

$g[,1]
yi yj

i > j = 1, 2, . . . , h

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.2

3.4

7.1 Metodo di Tukey

139

$g[,c(2,3)]

yi yj q1, h, (k1) (h1) sP / k

dove s2P =

k X
h
X

i > j = 1, 2, . . . , h

(yij yj )2 / [k (h 1)]

j=1 i=1

Esempio:
> y
[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0
> f
[1] a a b b c c d d
Levels: a b c d
> g
[1] basso alto basso alto basso alto basso alto
Levels: alto basso
> TukeyHSD(aov(y~f+g),conf.level=0.95)

7.1.3

Applicazione in Anova a due vie con uguale numero di repliche

Sintassi: TukeyHSD()
Parametri:
y vettore numerico di dimensione khl
f fattore a k livelli
g fattore a h livelli
conf.level livello di confidenza 1
Output:
$f intervallo di confidenza a livello 1 per il primo fattore
$g intervallo di confidenza a livello 1 per il secondo fattore
$f:g intervallo di confidenza a livello 1 per linterazione
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

140

Confronti multipli

Formula:
$f[,1]
yi yj

i, j = 1, 2, . . . , k

$f[,c(2,3)]

yi yj q1, k h (l1) sP / h l

i > j = 1, 2, . . . , k

$g[,1]
yi yj

i, j = 1, 2, . . . , h

$g[,c(2,3)]

yi yj q1, h, k h (l1) sP / k l

i > j = 1, 2, . . . , h

$f:g[,1]
yij yuw

i, u = 1, 2, . . . , k

j, w = 1, 2, . . . , h

$f:g[,c(2,3)]

yij
yuw q1, k h, k h (l1) sP / l

dove

s2P

k X
h X
l
X

i, u = 1, 2, . . . , k

j, w = 1, 2, . . . , h

(yijm yij )2 / [k h (l 1)]

i=1 j=1 m=1

Esempio:
> y
[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0 16.5 22.0 1.2 3.4
> f
[1] a a a a a a b b b b b b
Levels: a b
> g
[1] basso alto basso alto basso alto basso alto basso alto basso alto
Levels: alto basso
> TukeyHSD(aov(y~f+g+f:g),conf.level=0.95)
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

7.2 Metodo di Bonferroni

7.2

141

Metodo di Bonferroni

7.2.1

Applicazione in Anova ad una via

Sintassi: pairwise.t.test()
Parametri:
y vettore numerico di dimensione n
f fattore a k livelli
Output:
$p.value p-value
Formula:
$p.value
 
k
2
P (tnk | t |)
2

dove t =

ed

sP

s2P

yi yj
1 / ni + 1 / nj

nj
k X
X

i > j = 1, 2, . . . , k

(yij yj )2 / (n k)

j=1 i=1

Esempio:
> y
[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0 16.5
> f
[1] a a a b b b c c c d d d
Levels: a b c d
> pairwise.t.test(y,f,p.adjust.method="bonferroni")

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

22.0

1.2

3.4

142

Confronti multipli

7.3

Metodo di Student

7.3.1

Applicazione in Anova ad una via

Sintassi: pairwise.t.test()
Parametri:
y vettore numerico di dimensione n
f fattore a k livelli
Output:
$p.value p-value
Formula:
$p.value
2 P (tnk | t |)

dove t =

ed

sP

s2P

yi yj
1 / ni + 1 / nj

nj
k X
X

i > j = 1, 2, . . . , k

(yij yj )2 / (n k)

j=1 i=1

Esempio:
> y
[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0
> f
[1] a a a b b b c c c d d d
Levels: a b c d
> pairwise.t.test(y,f,p.adjust.method="none")

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

16.5

22.0

1.2

3.4

Capitolo 8
Test di ipotesi sulla
correlazione
8.1
8.1.1

Test di ipotesi sulla correlazione lineare


Test di Pearson

Sintassi: cor.test()
Parametri:
x vettore numerico di dimensione n 5
y vettore numerico di dimensione n 5
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
conf.level livello di confidenza 1
Output:
$statistic valore empirico della statistica t
$parameter gradi di libert`a
$p.value p-value
$conf.int intervallo di confidenza a livello 1 ottenuto con la
trasformazione Z di Fisher
$estimate coefficiente di correlazione campionario

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

144

Test di ipotesi sulla correlazione

Formula:
$statistic

r
t = r

n2
1 r2

Pn

dove

n x y
i=1 xi yiP
r = Pn
( i=1 (xi x)2 )1 / 2 ( ni=1 (yi y)2 )1 / 2

$parameter
df = n 2
$p.value
alt
less
greater
two.sided
$p.value P (tdf t) P (tdf t) 2 P (tdf | t |)
$conf.int


1+r
1
2 12 log ( 1r
)z1 / 2 n3
e
1


1+r
1
2 1 log ( 1r
)z1 / 2 n3
e 2
+1

1
2
1
2

1+r
log ( 1r
)+z1 / 2
1+r
log ( 1r
)+z1 / 2

1
n3

1
n3

$estimate
r
Esempio:
> cor.test(x,y,conf.level=0.95,alt="two.sided")

8.2
8.2.1

Test di ipotesi sulla autocorrelazione


Test di BoxPierce

Sintassi: Box.test()
Parametri:
x vettore numerico di dimensione n
lag il valore d del ritardo
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1
+1

8.2 Test di ipotesi sulla autocorrelazione

145

Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
Formula:
$statistic
c = n

d
X

2 (k)

k=1

Pnk
(xt x) (xt+k x)
t=1P
dove (k) =
n
)2
t=1 (xt x

k = 1, 2, . . . , d

$parameter
d
$p.value
P (2d c)
Esempio:
> x
[1] 1 2 7 3 5 2 0 1 4 5
> d<-4
> Box.test(x,lag=d,type="Box-Pierce")

8.2.2

Test di LjungBox

Sintassi: Box.test()
Parametri:
x vettore numerico di dimensione n
lag il valore d del ritardo
Output:
$statistic valore empirico della statistica 2
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

146

Test di ipotesi sulla correlazione


$parameter gradi di libert`a
$p.value p-value

Formula:
$statistic
c = n (n + 2)

d
X
k=1

1
2 (k)
nk

Pnk
(xt x) (xt+k x)
t=1P
dove (k) =
n
)2
t=1 (xt x
$parameter
d
$p.value
P (2d c)
Esempio:
> x
[1] 1 2 7 3 5 2 0 1 4 5
> d<-4
> Box.test(x,lag=d,type="Ljung-Box")

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

k = 1, 2, . . . , d

Capitolo 9
Test di ipotesi non parametrici
9.1

Simbologia

dimensione del campione j-esimo: nj

j = 1, 2, . . . , k

media aritmetica
del campione j-esimo:
Pnj
1
xj = nj
j = 1, 2, . . . , k
i=1 xij
varianza nelPcampione j-esimo:
nj
(xij xj )2 j = 1, 2, . . . , k
s2j = nj11 i=1
varianza pooled: s2P =

Pk

j=1

(nj 1) s2j
nk

somma dei ranghi nel campione j-esimo:


Rj j = 1, 2, . . . , k
ties nel campione:
tj j = 1, 2, . . . , g

9.2

9.2.1

Test di ipotesi sullomogeneit`


a delle varianze
Test di Bartlett

Sintassi: bartlett.test()
Parametri:
x vettore numerico di dimensione n
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

148

Test di ipotesi non parametrici


f fattore a k livelli

Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
Formula:
$statistic
P
(n k) log (s2P ) kj=1 (nj 1) log (s2j )
P

c =
k
1
1
1
1 + 3 (k1)

j=1 nj 1
nk
$parameter
k1
$p.value
P (2k1 c)
Esempio:
> x
[1] 1.0 4.0 10.0 2.1 3.5 5.6 8.4 12.0 16.5 22.0
> f
[1] a a a b b b c c c d d d
Levels: a b c d
> n<-length(f)
> n
[1] 12
> k<-nlevels(f)
> k
[1] 4
> s2<-tapply(x,f,var)
> s2
a
b
c
d
21.000000
3.103333 16.470000 130.573333
> enne<-tapply(x,f,length)
> enne
a b c d
3 3 3 3
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.2

3.4

9.2 Test di ipotesi sullomogeneit`


a delle varianze
> s2P<-sum((enne-1)*s2/(n-k))
> s2P
[1] 42.78667
> num<-(n-k)*log(s2P)-sum((enne-1)*log(s2))
> num
[1] 6.348863
> den<-1+1/(3*(k-1))*(sum(1/(enne-1))-1/(n-k))
> den
[1] 1.208333
> statistic<-num/den
> statistic
[1] 5.254231
> bartlett.test(x,f)$statistic
Bartletts K-squared
5.254231
> parameter<-k-1
> parameter
[1] 3
> bartlett.test(x,f)$parameter
df
3
> p.value<-1-pchisq(statistic,parameter)
> p.value
[1] 0.1541
> bartlett.test(x,f)$p.value
[1] 0.1541

9.2.2

Test di Levene

Sintassi: levene.test()
Parametri:
x vettore numerico di dimensione n
f fattore a k livelli
Output:
$Df gradi di libert`a
$F value valore empirico della statistica F
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

149

150

Test di ipotesi non parametrici


$Pr(>F) p-value

Formula:
$Df
k1
nk

f
Residuals
$F value
 Pk

Pnj


2
/ (k 1)
(y

)
ij
j
i=1
j=1


 Pk
2
/
n

k
(n

1)
s
j
j
j=1

F value =

dove yij = |xij Q0.5

x1j , . . . , xnj j

| j = 1, . . . , k

i = 1, . . . , nj

$Pr(>F)
P (Fk1, nk F value)
Esempio:
> x
[1] 1.0 4.0 10.0 2.1 3.5
> f
[1] a a a b b b c c c d d d
Levels: a b c d
> n<-length(f)
> n
[1] 12
> k<-nlevels(f)
> k
[1] 4
> c(k-1,n-k)
[1] 3 8
> levene.test(x,f)$Df
[1] 3 8
> mediane<-tapply(x,f,median)
> mediane
a
b
c
d
4.0 3.5 12.0 3.4
> y<-abs(x-mediane[f])

5.6

8.4 12.0 16.5 22.0

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

1.2

3.4

9.3 Test di ipotesi sulla mediana con uno o due campioni

151

> Fvalue<-anova(lm(y~f))$F
> Fvalue
[1] 0.608269
NA
> levene.test(x,f)$"F value"
[1] 0.608269
NA
> 1-pf(Fvalue,k-1,n-k)
[1] 0.6281414
NA
> levene.test(x,f)$"Pr(>F)"
[1] 0.6281414
NA
Osservazioni: E necessario installare la libreria car.

9.3
9.3.1

Test di ipotesi sulla mediana con uno o


due campioni
Test exact di Wilcoxon con un campione

Sintassi: wilcox.test()
Parametri:
x vettore numerico di dimensione n
alt pu`o essere cambiata in less, greater o two.sided a seconda della coda che interessa
mu il valore di Q0.5 (x)| H0
Output:
$statistic valore empirico della statistica Vn
$p.value p-value
$null.value il valore di Q0.5 (x)| H0
Formula:
$statistic
V

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

152

Test di ipotesi non parametrici


$p.value

alt
less
greater
two.sided
$p-value P (Vn V ) P (Vn V ) 2 min (P (Vn V ), P (Wn V ))

$null.value
Q0.5 (x)| H0
Esempio:
> x
[1] -0.1 -0.2 0.7 0.8 -1.2 -1.6 2.0 3.4 3.7
> mu<-3.3
> x-mu
[1] -3.4 -3.5 -2.6 -2.5 -4.5 -4.9 -1.3 0.1 0.4
> n<-length(x-mu)
> n
[1] 9
> prova<-rank(abs(x-mu))*sign(x-mu)
> V<-sum(prova[prova>0])
> V
[1] 3
> wilcox.test(x,alt="less",mu=3.3,exact=T)$statistic
V
3
> p.valueless<-psignrank(V,n)
> p.valueless
[1] 0.009765625
> wilcox.test(x,alt="less",mu=3.3,exact=T)$p.value
[1] 0.009765625
> p.valuegreater<-1-psignrank(V,n)+dsignrank(V,n)
> p.valuegreater
[1] 0.9941406
> wilcox.test(x,alt="greater",mu=3.3,exact=T)$p.value
[1] 0.9941406
> p.valuetwo.sided<-2*min(p.valueless,p.valuegreater)
> p.valuetwo.sided
[1] 0.01953125
> wilcox.test(x,alt="two.sided",mu=3.3,exact=T)$p.value
[1] 0.01953125
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

9.3 Test di ipotesi sulla mediana con uno o due campioni

153

Osservazioni: Il vettore x - mu non deve contenere valori duplicati


o nulli.

9.3.2

Test approx di Wilcoxon con un campione

Sintassi: wilcox.test()
Parametri:
x vettore numerico di dimensione n
correct = T / F a seconda che sia applicata o no la correzione
di continuit`a di Yates
alt pu`o essere cambiata in less, greater o two.sided a seconda della coda che interessa
mu il valore di Q0.5 (x)| H0
Output:
$statistic valore empirico della statistica Z
$p.value p-value
$null.value il valore di Q0.5 (x)| H0
Formula:
$statistic
V
$p.value
correct = F
alt
less greater
two.sided
$p-value (z) 1 (z) 2 (1 (| z |))

z = h

V
1
24

n (n+1)
4

n (n + 1) (2 n + 1)

1
2

Pg

j=1

i1 / 2
tj (t2j 1)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

154

Test di ipotesi non parametrici


correct = T
alt
less greater
two.sided
$p-value (zc ) 1 (zc ) 2 (1 (| zc |))

zc = h

V
1
24

n (n+1)
4

n (n + 1) (2 n + 1)

1
2

+ 0.5
Pg

j=1

i1 / 2
tj (t2j 1)

$null.value
Q0.5 (x)| H0
Esempio:
> x
[1] 4 3 4 5 2 3 4 5 4 4 5 5 4 5 4 4 3 4 2 4 5 5 4 4
> copiadix<-x
> mu<-4
> x<-(x-mu)[(x-mu)!=0]
> x
[1] -1 1 -2 -1 1 1 1 1 -1 -2 1 1
> n<-length(x)
> n
[1] 12
> prova<-rank(abs(x))*sign(x)
> V<-sum(prova[prova>0])
> V
[1] 38.5
> wilcox.test(xx,correct=F,alt="less",mu=4,exact=F)$statistic
V
38.5
> table(rank(abs(x)))
5.5 11.5
10
2
> g<-2
> t1<-10
> t2<-2
> t<-c(t1,t2)
> t
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

9.3 Test di ipotesi sulla mediana con uno o due campioni

155

[1] 10 2
> num<-V-n*(n+1)/4
> den<-sqrt(1/24*(n*(n+1)*(2*n+1)-0.5*sum(t*(t**2-1))))
> z<-num/den
> p.value<-pnorm(z)
> p.value
[1] 0.4832509
> wilcox.test(copiadix,correct=F,alt="less",mu=4,exact=F)$p.value
[1] 0.4832509

9.3.3

Test exact di Mann-Whitney con due campioni


indipendenti

Sintassi: wilcox.test()
Parametri:
x vettore numerico di dimensione nx
y vettore numerico di dimensione ny
alt pu`o essere cambiata in less, greater o two.sided a seconda della coda che interessa
mu il valore di ( Q0.5 (x) Q0.5 (y) )| H0
Output:
$statistic valore empirico della statistica Wnx , ny
$p.value p-value
$null.value il valore di ( Q0.5 (x) Q0.5 (y) )| H0
Formula:
$statistic
W
$p.value
alt
less
greater
$p-value P (Wnx , ny W ) P (Wnx , ny W )

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

156

Test di ipotesi non parametrici

alt
two.sided

$p-value 2 min P (Wnx , ny W ), P (Wnx , ny W )
$null.value
( Q0.5 (x) Q0.5 (y) )| H0
Esempio:
> x
[1] 1.2 3.4 5.4 -5.6 7.3 2.1
> y
[1] -1.1 -0.1 0.9 1.9 2.9 3.9 4.9
> nx<-length(x)
> nx
[1] 6
> mu<--2.1
> copiadiy<-y
> y<-y+mu
> Rx<-sum(rank(c(x,y))[1:nx])
> W<-Rx-nx*(nx+1)/2
> W
[1] 32
> wilcox.test(x,copiadiy,alt="less",mu=-2.1,exact=T)$statistic
W
32
> p.valueless<-pwilcox(W,nx,ny)
> p.valueless
[1] 0.9493007
> wilcox.test(x,copiadiy,alt="less",mu=-2.1,exact=T)$p.value
[1] 0.9493007
> p.valuegreater<-1-pwilcox(W,nx,ny)+dwilcox(W,nx,ny)
> p.valuegreater
[1] 0.06876457
> wilcox.test(x,copiadiy,alt="greater",mu=-2.1,exact=T)$p.value
[1] 0.06876457
> p.valuetwo.sided<-2*min(p.valueless,p.valuegreater)
> p.valuetwo.sided
[1] 0.1375291
> wilcox.test(x,copiadiy,alt="two.sided",mu=-2.1,exact=T)$p.value
[1] 0.1375291
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

9.3 Test di ipotesi sulla mediana con uno o due campioni

157

Osservazioni1: Il vettore c(x, y + mu) non deve contenere valori


duplicati.

9.3.4

Test approx di Mann-Whitney con due campioni


indipendenti

Sintassi: wilcox.test()
Parametri:
x vettore numerico di dimensione nx
y vettore numerico di dimensione ny
correct = T / F a seconda che sia applicata o no la correzione
di continuit`a di Yates
alt pu`o essere cambiata in less, greater o two.sided a seconda della coda che interessa
mu il valore di ( Q0.5 (x) Q0.5 (y) )| H0
Output:
$statistic valore empirico della statistica Z
$p.value p-value
$null.value il valore di ( Q0.5 (x) Q0.5 (y) )| H0
Formula:
$statistic
W
$p.value
correct = F
alt
less greater
two.sided
$p-value (z) 1 (z) 2 (1 (| z |))

z = h

W
nx ny
12

nx + ny + 1

nx ny
2

g
j=1

tj (t2j 1)
(nx +ny ) (nx +ny 1)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

i1 / 2

158

Test di ipotesi non parametrici


correct = T
alt
less greater
two.sided
$p-value (zc ) 1 (zc ) 2 (1 (| zc |))

z = h

W
nx ny
12

nx ny
2

nx + ny + 1

+ 0.5

g
j=1

tj (t2j 1)
(nx +ny ) (nx +ny 1)

i1 / 2

$null.value
( Q0.5 (x) Q0.5 (y) )| H0
Esempio:
> x
[1] -1 1 -2 -1 1 1 1 1 -1 -2 1 1
> y
[1] 1 2 3 4 5 6 7 8 9
> mu<-4
> y<-y+mu
> nx<-length(x)
> ny<-length(y)
> Rx<-sum(rank(c(x,y))[1:nx])
> W<-Rx-nx*(nx+1)/2
> W
[1] 0
> wilcox.test(x,y,correct=F,alt="less",mu=4,exact=F)$statistic
W
0
> table(rank(c(x,y)))
1.5
4
9 13 14
2
3
7
1
1
> g<-3
> t1<-2
> t2<-3
> t3<-7
> t<-c(t1,t2,t3)
> t
[1] 2 3 7

15
1

16
1

17
1

18
1

19
1

20
1

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

21
1

9.3 Test di ipotesi sulla mediana con uno o due campioni

159

> num<-W-nx*ny/2
> den<-sqrt(nx*ny/12*(nx+ny+1-sum(t*(t**2-1))/((nx+ny)*(nx+ny-1))))
> z<-num/den
> p.value<-pnorm(z)
> p.value
[1] 4.502395e-05
> wilcox.test(x,y,correct=F,alt="less",mu=4,exact=F)$p.value
[1] 4.502395e-05

9.3.5

Test exact di Wilcoxon con dati appaiati

Sintassi: wilcox.test()
Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione n
alt pu`o essere cambiata in less, greater o two.sided a seconda della coda che interessa
mu il valore di ( Q0.5 (x) Q0.5 (y) )| H0
Output:
$statistic valore empirico della statistica V
$p.value p-value
$null.value il valore di ( Q0.5 (x) Q0.5 (y) )| H0
Formula:
$statistic
V
$p.value
alt
less
greater
two.sided
$p-value P (Wn V ) P (Wn V ) 2 min (P (Wn V ), P (Wn V ))

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

160

Test di ipotesi non parametrici


$null.value
( Q0.5 (x) Q0.5 (y) )| H0

Esempio:
> x
[1] -0.1 -0.2 0.7 0.8 -1.2 -1.6 2.0 3.4 3.7
> y
[1] 1 2 3 4 5 6 7 8 9
> mu<--4
> x-y-mu
[1] 2.9 1.8 1.7 0.8 -2.2 -3.6 -1.0 -0.6 -1.3
> n<-length(x-y-mu)
> n
[1] 9
> prova<-rank(abs(x-y-mu))*sign(x-y-mu)
> V<-sum(prova[prova>0])
> V
[1] 21
> wilcox.test(x,y,paired=T,alt="less",mu=-4,exact=T)$statistic
V
21
> p.valueless<-psignrank(V,n)
> p.valueless
[1] 0.4550781
> wilcox.test(x,y,paired=T,alt="less",mu=-4,exact=T)$p.value
[1] 0.4550781
> p.valuegreater<-1-psignrank(V,n)+dsignrank(V,n)
> p.valuegreater
[1] 0.5898438
> wilcox.test(x,y,paired=T,alt="greater",mu=-4,exact=T)$p.value
[1] 0.5898438
> p.valuetwo.sided<-2*min(p.valueless,p.valuegreater)
> p.valuetwo.sided
[1] 0.9101563
> wilcox.test(x,y,paired=T,alt="two.sided",mu=-4,exact=T)$p.value
[1] 0.9101563
Osservazioni: Il vettore x - y - mu non deve contenere valori duplicati o nulli.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

9.3 Test di ipotesi sulla mediana con uno o due campioni

9.3.6

161

Test approx di Wilcoxon con dati appaiati

Sintassi: wilcox.test()
Parametri:
x vettore numerico di dimensione n
y vettore numerico di dimensione n
correct = T / F a seconda che sia applicata o no la correzione
di continuit`a di Yates
alt pu`o essere cambiata in less, greater o two.sided a seconda della coda che interessa
mu il valore di ( Q0.5 (x) Q0.5 (y) )| H0
Output:
$statistic valore empirico della statistica Z
$p.value p-value
$null.value il valore di ( Q0.5 (x) Q0.5 (y) )| H0
Formula:
$statistic
V
$p.value
correct = F
alt
less greater
two.sided
$p-value (z) 1 (z) 2 (1 (| z |))

z = h

V
1
24

n (n+1)
4

n (n + 1) (2 n + 1)

1
2

Pg

2
j=1 tj (tj

i1 / 2
1)

correct = T
alt
less greater
two.sided
$p-value (zc ) 1 (zc ) 2 (1 (| zc |))
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

162

Test di ipotesi non parametrici

zc = h

V
1
24

n (n+1)
4

n (n + 1) (2 n + 1)

1
2

+ 0.5
Pg

2
j=1 tj (tj

i1 / 2
1)

$null.value
( Q0.5 (x) Q0.5 (y) )| H0
Esempio:
> x
[1] 4.0 4.0 3.0 4.0 2.0 4.0 5.0 5.0 4.0 3.3
> y
[1] 3.00 3.00 7.55 6.40 4.30 6.50 5.00 5.00 4.00 3.30
> mu<-1
> xy<-x-y
> xy<-(xy-mu)[(xy-mu)!=0]
> xy
[1] -5.55 -3.40 -3.30 -3.50 -1.00 -1.00 -1.00 -1.00
> n<-length(xy)
> n
[1] 8
> prova<-rank(abs(xy))*sign(xy)
> V<-sum(prova[prova>0])
> V
[1] 0
> wilcox.test(x,y,correct=F,alt="less",mu=1,exact=F,paired=T)$statistic
V
0
> table(rank(abs(xy)))
2.5
5
6
7
8
4
1
1
1
1
> g<-1
> t1<-4
> t<-c(t1)
> t
[1] 4
> num<-V-n*(n+1)/4
> den<-sqrt(1/24*(n*(n+1)*(2*n+1)-0.5*sum(t*(t**2-1))))
> z<-num/den
> p.value<-pnorm(z)
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

9.4 Test di ipotesi sulla mediana con pi`


u
campioni

163

> p.value
[1] 0.005355751
> wilcox.test(x,y,correct=F,alt="less",mu=1,exact=F,paired=T)$p.value
[1] 0.005355751

9.4

Test di ipotesi sulla mediana con pi`


u
campioni

9.4.1

Test di Kruskal - Wallis

Sintassi: kruskal.test()
Parametri:
y vettore numerico di dimensione n
f fattore a k livelli
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
Formula:
$statistic
c =

12
n (n+1)

Ri2
i=1 ni 3 (n
g
ti (t2i 1)
i=1
n (n2 1)

Pk

+ 1)

$parameter
k1
$p.value
P (2k1 c)
Esempio:
> y
[1] 2.1 3.0 2.1 5.3 5.3 2.1 5.6 7.5 2.1 5.3 2.1 7.5
> f
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

164

Test di ipotesi non parametrici


[1] a a a b b b c c c d d d
Levels: a b c d
> n<-length(y)
> n
[1] 12
> k<-nlevels(f)
> k
[1] 4
> R1<-sum(rank(y)[f=="a"])
> R2<-sum(rank(y)[f=="b"])
> R3<-sum(rank(y)[f=="c"])
> R4<-sum(rank(y)[f=="d"])
> R<-c(R1,R2,R3,R4)
> R
[1] 12.0 19.0 24.5 22.5
> table(rank(y))
3
6
8
10 11.5
5
1
3
1
2
> g<-3
> t1<-5
> t2<-3
> t3<-2
> t<-c(t1,t2,t3)
> t
[1] 5 3 2
> tapply(y,f,length)
a b c d 3 3 3 3
> n1<-3
> n2<-3
> n3<-3
> n4<-3
> enne<-c(n1,n2,n3,n4)
> enne
[1] 3 3 3 3
> num<-12/(n*(n+1))*sum(R**2/enne)-3*(n+1)
> den<-1-sum(t*(t**2-1))/(n*(n**2-1))
> statistic<-num/den
> statistic
[1] 2.542784
> kruskal.test(y~f)$statistic

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

9.5 Anova non parametrica a due vie senza repliche

165

Kruskal-Wallis chi-squared
2.542784
> parameter<-k-1
> parameter
[1] 3
> kruskal.test(y~f)$parameter
df
3
> p.value<-1-pchisq(statistic,parameter)
> p.value
[1] 0.4676086
> kruskal.test(y~f)$p.value
[1] 0.4676086

9.5
9.5.1

Anova non parametrica a due vie senza


repliche
Test di Friedman

Sintassi: friedman.test()
Parametri:
x matrice di dimensione n k
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
Formula:
$statistic
c =

k
X
12
R2 3 n (k + 1)
n k (k + 1) j=1 j

$parameter
k1
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

166

Test di ipotesi non parametrici


$p.value
P (2k1 c)

Esempio:
> x
X1 X2 X3
1 6 26 60
2 15 29 52
3 8 56 20
> n<-3
> n
[1] 3
> k<-3
> k
[1] 3
> matrice<-t(apply(x,1,rank))
> matrice
X1 X2 X3
1 1 2 3
2 1 2 3
3 1 3 2
> colSums(x)
X1 X2 X3
3
7
8
> R1<-3
> R2<-7
> R3<-8
> R<-c(R1,R2,R3)
> R
[1] 3 7 8
> statistic<-12/(n*k*(k+1))*sum(R**2)-3*n*(k+1)
> statistic
[1] 4.666667
> friedman.test(x)$statistic
Friedman chi-squared
4.666667
> parameter<-k-1
> parameter
[1] 2
> friedman.test(x)$parameter
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

9.6 Test di ipotesi su una proporzione

167

df
2
> p.value<-1-pchisq(statistic,parameter)
[1] 0.09697197
> p.value
[1] 0.09697197
> friedman.test(x)$p.value
[1] 0.09697197

9.6
9.6.1

Test di ipotesi su una proporzione


Test di Bernoulli

Sintassi: binom.test()
Parametri:
x numero di successi
n dimensione campionaria
conf.level livello di confidenza 1
p valore di p0
alt pu`o essere cambiata in less, greater, two.sided a seconda
della coda che interessa
Output:
$statistic numero di successi
$parameter dimensione campionaria
$p.value p-value
$conf.int intervallo di confidenza per la proporzione incognita
a livello 1
$estimate proporzione campionaria
$null.value valore di p0
Formula:
$statistic
x
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

168

Test di ipotesi non parametrici


$parameter
n
$p.value
alt = less
x  
X
n i
$p.value =
p0 (1 p0 )ni
i
i=0
alt = greater
x1  
X
n i
$p.value = 1
p0 (1 p0 )ni
i
i=0

alt = two.sided
Caso
x = n p0
x < n p0
x > n p0

$p-value
1

FX (x) FX (n y) + 1 y = # pX (k) pX (x) k = dn p0 e, . . . , n 
FX (y 1) FX (x 1) + 1 y = # pX (k) pX (x) k = 0, . . . , bn p0 c

X Binomiale(n, p0 )
 
n x
pX (x) =
p0 (1 p0 )nx x = 0, 1, . . . , n
x
x  
X
n i
FX (x) =
p0 (1 p0 )ni x = 0, 1, . . . , n
i
i=0
$conf.int
FU1 ( / 2)

dove

FH1 (1 / 2)

U Beta(x, n x + 1) e H Beta(x + 1, n x)

$estimate :

x
n

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

9.7 Test del ciclo di casualit`


a

169

$null.value
p0
Esempio:
>
>
>
>

9.7
9.7.1

x<-682
n<-682+243
p<-0.75
binom.test(x,n,p,conf.level=0.95,alt="two.sided")

Test del ciclo di casualit`


a
Test dei Runs

Sintassi: runs.test()
Parametri:
f fattore di dimensione n a 2 livelli
alt pu`o essere cambiata in less, greater o two.sided a seconda della coda che interessa
Output:
$statistic valore empirico della statistica Z
$p.value p-value
Formula:
$statistic
z = 

n1 +2 n1 n2 +n2
n1 +n2

2 n1 n2 (2 n1 n2 n1 n2 )
(n1 +n2 )2 (n1 +n2 1)

1 / 2

$p.value
alt
less greater
two.sided
$p-value (z) 1 (z) 2 (1 (| z |))

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

170

Test di ipotesi non parametrici

Esempio:
> f
[1] H T T H T H H H T H H T T H T H T H H T H T T H T H H T H T
Levels: H T
> n<-length(f)
> V<-1+sum(as.numeric(f[-1]!=f[-n]))
> V
[1] 22
> n1<-length(f[f=="H"])
> n1
[1] 16
> n2<-length(f[f=="T"])
> n2
[1] 14
> media<-(n1+2*n1*n2+n2)/(n1+n2)
> media
[1] 15.93333
> varianza<-(2*n1*n2*(2*n1*n2-n1-n2))/((n1+n2)**2*(n1+n2-1))
> varianza
[1] 7.174866
> z<-(V-media)/sqrt(varianza)
> z
[1] 2.26487
> runs.test(f,alt="less")$statistic
Standard Normal
2.26487
> p.value<-pnorm(z)
> p.value
[1] 0.9882397
> runs.test(f,alt="less")$p.value
[1] 0.9882397
Osservazioni: E necessario installare la libreria tseries.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

Capitolo 10
Tabella di contingenza
10.1

Simbologia

frequenze osservate: nij

i, j = 1, 2
n n

frequenze attese: n
ij = in j i, j = 1, 2
P
P
P
P
ij
totale frequenze: n = 2i=1 2j=1 nij = 2i=1 2j=1 n

10.2

Test di ipotesi

10.2.1

Test Chi-Quadrato di indipendenza

Sintassi: chisq.test()
Parametri:
x matrice di dimensione 2 2 contenente frequenze assolute
correct = T / F a seconda che sia applicata o meno la correzione di Yates
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
$observed frequenze osservate
$expected frequenze attese
$residuals residui di Pearson
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

172

Tabella di contingenza

Formula:
$statistic
correct = F
2 X
2
X
(nij n
ij )2
n (n11 n22 n12 n21 )2
c =
=
n
ij
n1 n2 n1 n2
i=1 j=1

correct = T
2 X
2
X
n (| n11 n22 n12 n21 | n / 2)2
(| nij n
ij | 1 / 2)2
=
c =
n
ij
n1 n2 n1 n2
i=1 j=1

$parameter
1
$p-value
P (21 c)
$observed
nij

i, j = 1, 2

n
ij

i, j = 1, 2

$expected

$residuals
nij n

p ij
n
ij

i, j = 1, 2

Esempio:
> x<-matrix(c(2,10,23,21),2,2,dimnames=list(c("A","B"),c("A","B")))
> x
A B
A 2 23
B 10 21
> chisq.test(x,correct=F)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

10.2 Test di ipotesi

10.2.2

173

Test di McNemar

Sintassi: mcnemar.test()
Parametri:
x matrice di dimensione 2 2 contenente frequenze assolute
correct = T / F a seconda che sia applicata o no la correzione
di Yates
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
Formula:
$statistic
correct = F
c =

(n12 n21 )2
n12 + n21

correct = T
c =

(|n12 n21 | 1)2


n12 + n21

$parameter
1
$p-value
P (21 c)
Esempio:
> x<-matrix(c(2,10,23,21),2,2,dimnames=list(c("A","B"),c("A","B")))
> x
A B
A 2 23
B 10 21
> mcnemar.test(x,correct=F)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

174

Tabella di contingenza

10.2.3

Test esatto di Fisher

Sintassi: fisher.test()
Parametri:
x matrice di dimensione 2 2 contenente frequenze assolute
alt pu`o essere cambiata in less, greater o two.sided a seconda della coda che interessa
Output:
$p.value p-value
Formula:
$p.value
alt
$p-value
Pn11
less
p(i)
Pi=0
n11 1
greater
1 i=0 p(i)
Pn11
P
two.sided
p(i)p(n11 ) p(i) i = n11 + 1, . . . , min(n1 , n1 )
i=0 p(i) +

p(i) =

max (n1 , n1 )
i

nmax (n1 , n1 )
min (n1 , n1 )i

n
min (n1 , n1 )


i = 0, 1, . . . , min(n1 , n1 )

Esempio:
> x<-matrix(c(2,9,5,4),nrow=2,ncol=2)
> x
[,1] [,2]
[1,]
2
5
[2,]
9
4
> n11<-2
> n1.<-2+5
> n.1<-2+9
> n<-2+5+9+4
> n
[1] 20
> minimo<-min(n1.,n.1)
> minimo
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

10.2 Test di ipotesi


[1] 7
> massimo<-max(n1.,n.1)
> massimo
[1] 11
> p<-function(i) dhyper(i,massimo,n-massimo,minimo)
> p.valueless<-0
> for(i in 0:n11){
+ p.valueless<-p.valueless+p(i)}
> p.valueless
[1] 0.1017802
> fisher.test(x,alt="less")$p.value
[1] 0.1017802
> p.valuegreater<-0
> for(i in 0:(n11-1)){
+ p.valuegreater<-p.valuegreater+p(i)}
> p.valuegreater<-1-p.valuegreater
> p.valuegreater
[1] 0.9876161
> fisher.test(x,alt="greater")$p.value
[1] 0.9876161
> p.value1<-0
> for(i in 0:n11){
+ p.value1<-p.value1+p(i)}
> p.value1
[1] 0.1017802
> p.value2<-0
> for(i in (n11+1):minimo){
+ if(p(i)<=p(n11)) + p.value2<-p.value2+p(i)}
> p.value2
[1] 0.05789474
> p.valuetwo.sided<-p.value1+p.value2
> p.valuetwo.sided
[1] 0.1596749
> fisher.test(x,alt="two.sided")$p.value
[1] 0.1596749

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

175

176

Tabella di contingenza

10.3

Comandi utili per le tabelle di contingenza

10.3.1

margin.table()

Significato: distribuzione marginale


Parametri:
x matrice di dimensione h k contenente frequenze assolute a
somma n
margin = 1 / 2 carattere di riga o di colonna
Formula:
ni

i = 1, . . . , h

nj

j = 1, . . . , k

Esempio:
> x<-matrix(c(1,3,0,1,3,2,2,1,2),nrow=3,ncol=3,byrow=T)
> dimnames(x)<-list(c("a","b","c"),c("A","B","C"))
> x
A B C
a 1 3 0
b 1 3 2
c 2 1 2
> #marginale di riga (1)
> margin.table(x,margin=1)
a b c
4 6 5
> #marginale di colonna (2)
> margin.table(x,margin=2)
A B C
4 7 4

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

10.3 Comandi utili per le tabelle di contingenza

10.3.2

177

prop.table()

Significato: distribuzione marginale relativa


Parametri:
x matrice di dimensione h k contenente frequenze assolute a
somma n
margin = 1 / 2 carattere di riga o di colonna
Formula:
nij / ni

i = 1, . . . , h j = 1, . . . , k

nij / nj

i = 1, . . . , h j = 1, . . . , k

Esempio:
> x<-matrix(c(1,3,0,1,3,2,2,1,2),nrow=3,ncol=3,byrow=T)
> dimnames(x)<-list(c("a","b","c"),c("A","B","C"))
> x
A B C
a 1 3 0
b 1 3 2
c 2 1 2
> prop.table(x,margin=1)
A
B
C
a 0.2500000 0.75 0.0000000
b 0.1666667 0.50 0.3333333
c 0.4000000 0.20 0.4000000
> prop.table(x,margin=2)
A
B
C
a 0.25 0.4285714 0.0
b 0.25 0.4285714 0.5
c 0.50 0.1428571 0.5

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

178

Tabella di contingenza

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

Capitolo 11
Test di adattamento
11.1

Test basati sulla distribuzione normale

11.1.1

Test di Jarque - Bera

Sintassi: jarque.bera.test()
Parametri:
x vettore numerico di dimensione n
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
Formula:
$statistic
n
c =
6

dove mj =

m3
3/2

m2

!2

n
+
24

n
1 X
(xi x)j
n i=1

2
m4
3
m22

j = 2, 3, 4

$parameter
2
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

180

Test di adattamento
$p.value
P (22 c)

Esempio:
> jarque.bera.test(x)
Osservazioni: E necessario installare la libreria tseries.

11.1.2

Test di Cramer - von Mises

Sintassi: cvm.test()
Parametri:
x vettore numerico di dimensione n 7
Output:
$statistic valore empirico della statistica Z
$p.value p-value
Formula:
$statistic

n  
X
x(i) x  2 i 1 2
1
W =
+

12 n i=1
sx
2n
$p.value
W W = (1 + 0.5 / n) W
WW
$p-value

< 0.0275
13.953+775.5 W W 12542.61 W W 2

1e

0.0275 AND < 0.051


2
1 e5.903+179.546 W W 1515.29 W W

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

11.1 Test basati sulla distribuzione normale


WW
$p-value

181

0.051 AND < 0.092

0.092

0.88631.62 W W +10.897 W W 2

1.11134.242 W W +12.832 W W 2

Esempio:
> cvm.test(x)
Osservazioni: E necessario installare la libreria nortest.

11.1.3

Test di Anderson - Darlin

Sintassi: ad.test()
Parametri:
x vettore numerico di dimensione n 7
Output:
$statistic valore empirico della statistica Z
$p.value p-value
Formula:
$statistic
  

n

x
x(i) x 

1 X
(ni+1) x
(2 i 1) log
+ log 1
A = n
n i=1
sx
sx
$p.value
AA = (1 + 0.75 / n + 2.25 / n2 ) A
AA
< 0.2
13.436+101.14 AA223.73 AA2
$p-value 1 e

0.2 AND < 0.34


2
1 e8.318+42.796 AA59.938 AA

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

182

Test di adattamento

AA
0.34 AND < 0.6
0.91774.279 AA1.38 AA2
$p-value e

0.6
1.29375.709 AA+0.0186 AA2

Esempio:
> ad.test(x)
Osservazioni: E necessario installare la libreria nortest.

11.1.4

Test di Shapiro - Francia

Sintassi: sf.test()
Parametri:
x vettore numerico di dimensione 5 n 5000
Output:
$statistic valore empirico della statistica Z
$p.value p-value
Formula:
$statistic
2
x(i) yi n x y
P
W = Pn
)2 ni=1 ( yi y )2
i=1 ( xi x
Pn

i=1

dove yi =

i 3/8
n + 1/4


i = 1, 2, . . . , n

$p.value
1 (z)

dove z =

log( 1 W ) [1.2725 + 1.0521 [log(log(n)) log(n)]]


1.0308 0.26758 [log(log(n)) + 2 / log(n)]

Esempio:
> sf.test(x)
Osservazioni: E necessario installare la libreria nortest.
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

11.1 Test basati sulla distribuzione normale

11.1.5

183

Test di Lilliefors

Sintassi: lillie.test()
Parametri:
x vettore numerico di dimensione n 5
Output:
$statistic valore empirico della statistica Z
$p.value p-value
Formula:
$statistic
D = max

max

i
n

x

  x x  i 1 

(i) x
(i)
, max

sx
sx
n i = 1, ..., n
i = 1, ..., n

$p.value
n
Kd
nd

n 100
n > 100
D
(n / 100)0.49 D
n
100

7.01256 Kd2 (nd+2.78019) +2.99587 Kd

pvalue = e

nd+2.780190.122119+ 0.974598
+ 1.67997
nd
nd

pvalue 0.1
$p.value = pvalue
pvalue > 0.1
kk
$p.value
0.302
1
0.5
2.76773 19.828315 kk + 80.709644 kk 2 138.55152 kk 3 + 81.218052 kk 4
0.9 4.901232 + 40.662806 kk 97.490286 kk 2 + 94.029866 kk 3 32.355711 kk 4
1.31
6.198765 19.558097 kk + 23.186922 kk 2 12.234627 kk 3 + 2.423045 kk 4
> 1.31
0

kk = ( n 0.01 + 0.85 / n) D

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

184

Test di adattamento

Esempio:
> lillie.test(x)
Osservazioni: E necessario installare la libreria nortest.

11.2

Test basati su altre distribuzioni

11.2.1

Test Chi-Quadrato GOF

Sintassi: chisq.test()
Parametri:
x vettore di frequenze assolute di dimensione k
p vettore p di probabilit`a di dimensione k
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
$observed valori osservati
$expected valori attesi
$residuals residui di Pearson

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

11.2 Test basati su altre distribuzioni

185

Formula:
$statistic
k
X
(ni n
i )2
c =
n
i
i=1

dove n
i = pi

k
X

nj = n p i

i = 1, 2, . . . , k

j=1

$parameter
k1
$p-value
P (2k1 c)
$observed
ni

i = 1, 2, . . . , k

$expected
n
i = pi

k
X

nj = n pi

i = 1, 2, . . . , k

j=1

$residuals

ni n

i
n
i

i = 1, 2, . . . , k

Esempio:
> x<-c(100,110,80,55,14)
> chisq.test(x,p=c(29,21,17,17,16)/100)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

186

Test di adattamento

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

Capitolo 12
Regressione lineare
12.1

Simbologia

yi = 1 +2 xi1 +3 xi2 + +k xik1 +i

i = 1, 2, . . . , n

matrice del modello di dimensione n k :

N (0, 2 In )

numero di parametri da stimare e rango della matrice del modello: k


numero di unit`a: n
i-esima riga della matrice del modello :

Xi = (1, xi1 , xi2 , . . . , xik1 )

matrice di proiezione di dimensione n n : H = X (X T X)1 X T


P
devianza residua: RSS = ni=1 e2i = y T (In H) y
stima di 2 : s2 = RSS / (n k)
gradi di libert`a della devianza residua: n k
stima di 2 tolta la i-esima unit`a: s2i = s2

nkri2
nk1

i = 1, 2, . . . , n

stime OLS: = (X T X)1 X T y


standard error delle stime OLS: se = s

diag((X T X)1 )

t-values delle stime OLS: t = / se


residui: e = (In H) y
residui standard: rstandardi =

ei
1hi

i = 1, 2, . . . , n

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

188

Regressione lineare

residui studentizzati: rstudenti =

si

ei

1hi

i = 1, 2, . . . , n

valori fittati: y = H y
valori di leva: h = diag(H)
stime OLS tolta la i-esima unit`a: i
correlazione tra le stime OLS: i, j =

i = 1, 2, . . . , n
s2 (X T X)1
(i, j)

i, j = 1, 2, . . . , k

se se
i

devianza residua modello nullo: RSSnullo =

Pn

i=1

(yi y)2

indice di determinazione: R2 = 1 RSS / RSSnullo


2
indice di determinazione aggiustato: Radj
= 1

RSS / (nk)
RSSnullo / (n1)

valore noto del regressore per la previsione: xT0 = (1, x01 , x02 , . . . , x0k1 )


2 ) = n log(2 ) + log RSS + 1
log-verosimiglianza normale: `(,
2
n
distanza di Cook : cdi =

hi rstandard2i
k (1hi )

covratio: cri = (1 hi )

12.2

Stima

12.2.1

lm()

1+

i = 1, 2, . . . , n

rstudent2i 1
nk

 k

i = 1, 2, . . . , n

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: analisi di regressione lineare
Output:
$coefficients stime OLS
$residuals residui
$rank rango di X
$fitted.values valori fittati
$df.residual gradi di libert`a della devianza residua
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

12.2 Stima

189

Formula:
$coefficients

$residuals
e
$rank
k
$fitted.values
y
$df.residual
nk
Esempio:
> modello<-lm(y~x1+x2+x3)

12.2.2

summary.lm()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
correlation = T / F correlazione tra le stime OLS
Significato: analisi di regressione lineare
Output:
$residuals residui
$coefficients stima puntuale, standard error, t-value, p-value
$sigma stima di
$r.squared R2
2
$adj.r.squared Radj

$fstatistic valore empirico della statistica F , df numeratore,


df denominatore
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

190

Regressione lineare
$cov.unscaled matrice di varianza non scalata per 2
$correlation correlazione tra le stime OLS

Formula:
$residuals
e
$coefficients[,1]
j

j = 1, 2, . . . , k

$coefficients[,2]
sej

j = 1, 2, . . . , k

tj

j = 1, 2, . . . , k

$coefficients[,3]

$coefficients[,4]
2 P (tnk | tj |) j = 1, 2, . . . , k
$sigma
s
$r.squared
R2
$adj.r.squared
2
Radj

$fstatistic[1]
F value =


RSSnullo RSS / (k 1)
RSSnullo / (n 1)

$fstatistic[2]
k1
$fstatistic[3]
nk
$cov.unscaled
(X T X)1
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

12.2 Stima

191

$correlation
i, j = 1, 2, . . . , k

i, j
Esempio:

> modello<-lm(y~x1+x2+x3)
> summary.lm(modello,correlation=T)

12.2.3

vcov()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: matrice di covarianze delle stime OLS
Formula:
s2 (X T X)1
Esempio:
> modello<-lm(y~x1+x2+x3)
> vcov(modello)

12.2.4

lm.fit()

Parametri:
X matrice del modello
y variabile dipendente
Significato: analisi di regressione lineare
Output:
$coefficients stime OLS
$residuals residui
$rank rango di X
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

192

Regressione lineare
$fitted.values valori fittati
$df.residual gradi di libert`a della devianza residua

Formula:
$coefficients

$residuals
e
$rank
k
$fitted.values
y
$df.residual
nk
Esempio:
> modello<-lm(y~x1+x2+x3)
> X<-model.matrix(modello)
> lm.fit(X,y)

12.2.5

lsfit()

Parametri:
X matrice del modello
y variabile dipendente
Significato: analisi di regressione lineare
Output:
$coefficients stime OLS
$residuals residui

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

12.2 Stima

193

Formula:
$coefficients

$residuals
e
Esempio:
> modello<-lm(y~x1+x2+x3)
> X<-model.matrix(modello)
> lsfit(X,y)

12.2.6

confint()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
parm parametri del modello di cui vogliamo calcolare lintervallo
di confidenza
level livello di confidenza 1
Significato: intervallo di confidenza per le stime OLS
Formula:
j t1 / 2, nk sej

j = 1, 2, . . . , k

Esempio:
> modello<-lm(y~x1+x2+x3)
> confint(modello,parm=c(1,2,3),level=0.95)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

194

Regressione lineare

12.2.7

coef()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: stime OLS
Formula:

Esempio:
> modello<-lm(y~x1+x2+x3)
> coef(modello)

12.2.8

coeftest()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
df = NULL / Inf significativit`a delle stime effettuata con la variabile casuale t oppure Z
Significato: stime OLS e significativit`a
Esempio:
> modello<-lm(y~x1+x2+x3)
> coeftest(modello,df=NULL)
Osservazioni: E necessario installare la libreria lmtest.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

12.2 Stima

12.2.9

195

boxcox()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
lambda parametro di trasformazione
Significato: modello trasformato di BoxCox
Output
$x valore del parametro
$y funzione di verosimiglianza L() da minimizzare in
Formula:
$x

$y
n
X

n
log(yi )
L() = log RSSt (y) + ( 1)
2
i=1


dove t (y) =

y 1

log(y)

se 6= 0
se = 0

RSSt (y) rappresenta il valore di RSS per il modello che presenta


t (y) come variabile dipendente.
Esempio:
> modello<-lm(Y~X1+X2+X3)
> boxcox(modello,lambda=c(1.2),plotit=F)
Osservazioni: E necessario installare la libreria MASS.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

196

Regressione lineare

12.2.10

box.cox()

Parametri:
y vettore numerico positivo di dimensione n
p parametro di trasformazione
Significato: variabile y trasformata di BoxCox
Formula:


y 1

log(y)

se 6= 0
se = 0

Esempio:
> box.cox(y,p=0.5)
Osservazioni: E necessario installare la libreria car.

12.2.11

fitted()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: valori fittati
Formula:
y
Esempio:
> modello<-lm(y~x1+x2+x3)
> fitted(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

12.2 Stima

12.2.12

197

predict()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
nd il valore di x0
interval = co / pr confidenza o previsione
level livello di confidenza 1
Significato: intervallo di confidenza o di previsione utilizzando la variabile casuale Z
Output:
fit valori previsti dal modello
se.fit standard error delle stime
residual.scale stima di
Formula:
$fit[,1]
xT0
$fit[,c(2,3)]
interval = co
q
T
x0 z1 / 2 s xT0 (X T X)1 x0

interval = pr
q
T
x0 z1 / 2 s 1 + xT0 (X T X)1 x0
$se.fit
s

xT0 (X T X)1 x0

$residual.scale
s

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

198

Regressione lineare

Esempio:
> modello<-lm(y~x1+x2+x3)
> m<-modello
> s<-summary(m)$sigma
> k<-4
> x0<-numeric(k)
> x0<-c(1,1.3,2.1,2.3)
> yhat<-as.numeric(t(x0)%*%coef(m))
> yhat
[1] -67.63043
> nd<-data.frame(x1=1.3,x2=2.1,x3=2.3)
> ok<-predict.lm(m,nd,interval="pr",level=0.95,se.fit=T,scale=s,df=Inf)
> ok$fit[,1]
[1] -67.63043
> alpha<-0.05
> X<-model.matrix(m)
> yhat+c(-1,1)*qnorm(1-alpha/2)*s*sqrt(1+t(x0)%*%solve(t(X)%*%X)%*%x0)
[1] -103.39959 -31.86126
> ok$fit[,c(2,3)]
lwr
upr
-103.39959 -31.86126
> se.fit<-as.numeric(s*sqrt(t(x0)%*%solve(t(X)%*%X)%*%x0))
> se.fit
[1] 18.15023
> ok$se.fit
[1] 18.15023
> s
[1] 1.904851
> ok$residual.scale
[1] 1.904851

12.2.13

predict.lm()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
nd il valore di x0
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

12.2 Stima

199

interval = co / pr intervallo di confidenza o previsione


level livello di confidenza 1
Significato: intervallo di confidenza o di previsione
Output:
fit valori previsti dal modello
se.fit standard error delle stime
df gradi di libert`a della devianza residua
residual.scale stima di
Formula:
$fit[,1]
xT0
$fit[,c(2,3)]
interval = co
q
T
x0 t1 / 2, nk s xT0 (X T X)1 x0

interval = pr
q
T
x0 t1 / 2, nk s 1 + xT0 (X T X)1 x0
$se.fit
s

xT0 (X T X)1 x0

$df
nk
$residual.scale
s

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

200

Regressione lineare

Esempio:
> modello<-lm(y~x1+x2+x3)
> m<-modello
> s<-summary(m)$sigma
> k<-4
> x0<-numeric(k)
> x0<-c(1,1.3,2.1,2.3)
> yhat<-as.numeric(t(x0)%*%coef(m))
> yhat
[1] -67.63043
> nd<-data.frame(x1=1.3,x2=2.1,x3=2.3)
> ok<-predict.lm(m,nd,interval="pr",level=0.95,se.fit=T)
> ok$fit[,1]
[1] -67.63043
> alpha<-0.05
> X<-model.matrix(m)
> yhat+c(-1,1)*qt(1-alpha/2,n-k)*s*sqrt(1+t(x0)%*%solve(t(X)%*%X)%*%x0)
[1] -108.91459 -26.34627
> ok$fit[,c(2,3)]
lwr
upr
-108.91459 -26.34627
> se.fit<-as.numeric(s*sqrt(t(x0)%*%solve(t(X)%*%X)%*%x0))
> se.fit
[1] 18.15023
> ok$se.fit
[1] 18.15023
> s
[1] 1.904851
> ok$residual.scale
[1] 1.904851

12.2.14

linear.hypothesis()

Parametri:
modello modello di regressione lineare con 1 variabile esplicativa
ed n unit`a
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

12.2 Stima

201

hypothesis.matrix matrice della variabile esplicativa di dimensione 1 2


rhs valore b della previsione lineare
Significato: test di ipotesi per H0 : xT0 = b contro H1 : xT0 6= b
Output:
$SSE devianza residua
$f valore empirico della statistica F
$Df gradi di libert`a
$p p-value
Formula:
$SSE
RSS
$f
F value =

xT0 b
s

!2

xT0 (X T X)1 x0

$Df
Regression
Residuals

1
n2

$p
P (F1, n2 F value)
Esempio:
>
>
>
>
>

modello<-lm(y~x)
xvalue<-1.2
x0<-c(1,xvalue)
b<-2.4
linear.hypothesis(modello,hypothesis.matrix=matrix(x0,1,2),rhs=b)

Osservazioni: E necessario installare la libreria car.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

202

Regressione lineare

12.2.15

lm.ridge()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
lambda valore del parametro
Significato: RidgeRegression
Output:
$coef stime
$scales scarto quadratico medio delle k 1 variabili esplicative
$lambda
$ym media della variabile dipendente
$xm media delle k 1 variabili esplicative
$GCV i valori di e GCV
$kHKB kHKB
$kLW kLW
Formula:
$coef
V ( D2 + Ik1 )1 D U T (y y)
$scales
xj

j = 1, 2, . . . , k 1

$lambda

$ym
y
$xm
xj

j = 1, 2, . . . , k 1

$GCV

(y y)T ( In U D ( D2 + Ik1 )1 D U T )2 (y y)

2
2
Pk1 D(i,
i)
n i=1 +D2
(i, i)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

12.3 Adattamento

203

$kHKB
k 3 (y y)T ( In U U T ) (y y)
n k (y y)T U D2 U T (y y)
$kLW
n (k 3) (y y)T ( In U U T ) (y y)
nk
(y y)T U U T (y y)
Esempio:
> modello<-lm(y~x1+x2+x3)
> lm.ridge(modello,lambda=1.2)
Osservazioni1: E necessario installare la libreria MASS.
Osservazioni2: Dalla matrice del modello X viene prima ricavata la
matrice standardizzata A e successivamente applicata la fattorizzazione
ai valori singolari A = U D V T mediante il comando svd.

12.3

Adattamento

12.3.1

logLik()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: log-verosimiglianza normale
Formula:
, 2 ) df = k + 1
`(y;
Esempio:
> modello<-lm(y~x1+x2+x3)
> logLik(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

204

Regressione lineare

12.3.2

dwtest()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: test di DurbinWatson
Output:
$statistic valore empirico della statistica DW
Formula:
$statistic

Pn
dw =

i=2

(ei ei1 )2
RSS

Esempio:
> modello<-lm(y~x1+x2+x3)
> dwtest(modello)
Osservazioni: E necessario installare la libreria lmtest.

12.3.3

AIC()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: indice AIC
Formula:
2 ) + 2 (k + 1)
2 `(,
Esempio:
> modello<-lm(y~x1+x2+x3)
> AIC(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

12.3 Adattamento

12.3.4

205

extractAIC()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: numero di parametri del modello ed indice AIC
Formula:
k

n log(RSS / n) + 2 k

Esempio:
> modello<-lm(y~x1+x2+x3)
> extractAIC(modello)

12.3.5

deviance()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: devianza residua
Formula:
RSS
Esempio:
> modello<-lm(y~x1+x2+x3)
> deviance(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

206

Regressione lineare

12.3.6

leaps()

Parametri:
A matrice delle h 1 variabili esplicative ed n unit`a
y variabile dipendente
Significato: Best Subsets
Output:
which variabili selezionate
size numero di parametri
method = r2 / adjr2 / Cp
Formula:
$size
kj

j = 1, 2, . . . , h 1

Numero di esplicative Numero di parametri


1
k1 = 2
2
k2 = 3

j
kj = j + 1

h-1
kh1 = h

Numero di Subsets
h1
1 
h1
2


h1
j


h1
h1

$r2
method = r2
Rj2

j = 1, 2, . . . , h 1

Rj2 rappresenta il massimo R2 tra i h1
modelli di regressione
j
con j variabili esplicative oppure kj parametri.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

12.3 Adattamento

207

$adjr2
method = adjr2
2
Radj
j

j = 1, 2, . . . , h 1

h1
2
2
Radj
rappresenta
il
massimo
R
tra
i
modelli di regressione
j
adj
j
con j variabili esplicative oppure kj parametri.
$Cp
method = Cp
Cpj = (n kh1 ) (1 Rj2 ) + 2 kj n j = 1, 2, . . . , h 1

Cpj rappresenta il minimo Cp tra i h1
modelli di regressione
j
con j variabili esplicative oppure kj parametri.
Esempio:
>
>
>
>

modello<-lm(y~x1+x2+x3+x4+x5)
X<-model.matrix(modello)
A<-X[,-1]
leaps(A,y,method="Cp",nbest=1)

Osservazioni: E necessario installare la libreria leaps.

12.3.7

anova()

Parametri:
mod modello di regressione lineare ridotto con 1 variabile esplicativa ed n unit`a
modello modello di regressione lineare con 1 variabile esplicativa
ed n unit`a
Significato: test di ipotesi per H0 : 2 = b contro H1 : 2 6= b
Output:
$Res.Df gradi di libert`a
$RSS devianza residua
$Df differenza dei gradi di libert`a
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

208

Regressione lineare
$Sum of Sq differenza tra le devianze residue
$F valore empirico della statistica F
$Pr(>F) p-value

Formula:
$Res.df
nk+1

nk

$RSS
n
X

(yi b xi1 (
y b x1 ))2

RSS

i=1

$Df
NA

$Sum of Sq
NA

n
X

(yi b xi1 (
y b x1 ))2 RSS

i=1

$F
Pn
NA F value =

i=1

(yi b xi1 (
y b x1 ))2 RSS
RSS / (n k)

$Pr(>F)
NA

P (F1, n2 F value)

Esempio:
>
>
>
>

b<-2
mod<-lm(y~offset(b*x))
modello<-lm(y~x)
anova(mod,modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

12.3 Adattamento

12.3.8

209

drop1()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
scale = 0 / summary(modello)$sigma**2 indice AIC oppure
Cp
Significato: Submodels
Output:
$Df differenza tra gradi di libert`a
$Sum of Sq differenza tra devianze residue
$RSS devianza residua
$AIC indice AIC
$Cp indice Cp
$F value valore empirico della statistica F
$Pr(F) p-value
Formula:
$Df
1
$Sum of Sq
RSSxj RSS

j = 1, 2, . . . , k 1

RSSxj rappresenta la devianza residua del modello eliminata la


variabile esplicativa xj .
$RSS
RSS, RSSxj

j = 1, 2, . . . , k 1

$AIC
scale = 0

n log (RSS / n)+2 k, log RSSxj / n +2 (k1)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

j = 1, 2, . . . , k1

210

Regressione lineare
$Cp
scale = summary(modello)$sigma**2
k, (n k)

RSSxj
+ 2 (k 1) n
RSS

j = 1, 2, . . . , k 1

$F value
Fxj =

RSSxj RSS
RSS / (n k)

j = 1, 2, . . . , k 1

$Pr(F)
P (F1, nk Fxj )

j = 1, 2, . . . , k 1

Esempio:
> #indice AIC
> modello<-lm(y~x1+x2+x3)
> drop1(modello,test="F",scale=0)
> #indice Cp
> modello<-lm(y~x1+x2+x3)
> drop1(modello,test="F",scale=summary(modello)$sigma**2)

12.3.9

add1()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
scale = 0 / summary(modello)$sigma**2 indice AIC oppure
Cp
Significato: Submodels
Output:
$Df differenza tra gradi di libert`a
$Sum of Sq differenza tra devianze residue
$RSS devianza residua
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

12.3 Adattamento

211

$AIC indice AIC


$Cp indice Cp
$F value valore empirico della statistica F
$Pr(F) p-value
Formula:
$Df
1
$Sum of Sq
RSSnullo RSSxj

j = 1, 2, . . . , k 1

RSSxj rappresenta la devianza residua del modello con la sola


variabile esplicativa xj .
$RSS
RSSnullo , RSSxj

j = 1, 2, . . . , k 1

$AIC
scale = 0

RSSnullo , n log RSSxj / n + 4 j = 1, 2, . . . , k 1
$Cp
scale = summary(nullo)$sigma**2
1, (n 1)

RSSxj
+4n
RSSnullo

j = 1, 2, . . . , k 1

$F value
Fxj =

RSSnullo RSSxj
RSSxj / (n 2)

j = 1, 2, . . . , k 1

$Pr(F)
P (F1, n2 Fxj )

j = 1, 2, . . . , k 1

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

212

Regressione lineare

Esempio:
>
>
>
>
>

#indice AIC
nullo<-lm(y~1)
RSSnullo<-deviance(nullo)
modello<-lm(y~x1+x2+x3)
add1(nullo,modello,test="F",scale=0)

>
>
>
>
>

#indice Cp
nullo<-lm(y~1)
RSSnullo<-deviance(nullo)
modello<-lm(y~x1+x2+x3)
add1(nullo,modello,test="F",scale=summary(nullo)$sigma**2)

12.3.10

bptest()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
studentize = T / F metodo di Koenker
Significato: test di Breusch-Pagan per leteroschedasticit`a
Output:
$statistic valore empirico della statistica 2
$parameter gradi di libert`a
$p.value p-value
Formula:
$statistic
studentize = T
vi = e2i RSS / n

i = 1, 2, . . . , n
T

c = n

v Hv
vT v

studentize = F
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

12.4 Diagnostica

213
vi = n e2i / RSS 1
c =

i = 1, 2, . . . , n

1 T
v Hv
2

$parameter
k1
$p.value
P (2k1 c)
Esempio:
> modello<-lm(y~x1+x2+x3)
> bptest(modello,studentize=T)
Osservazioni: E necessario installare la libreria lmtest.

12.4

Diagnostica

12.4.1

ls.diag()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: analisi di regressione lineare
Output:
$std.dev stima di
$hat valori di leva
$std.res residui standard
$stud.res residui studentizzati
$cooks distanza di Cook
$dfits dfits
$correlation matrice di correlazione tra le stime OLS
$std.err standard error delle stime OLS
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

214

Regressione lineare
$cov.scaled matrice di covarianza delle stime OLS
$cov.unscaled matrice di covarianza delle stime OLS non scalata per 2

Formula:
$std.dev
s
$hat
h
$std.res
rstandardi

i = 1, 2, . . . , n

$stud.res
rstudenti

i = 1, 2, . . . , n

$cooks
i = 1, 2, . . . , n

cdi
$dfits
r
rstudenti

hi
1 hi

i = 1, 2, . . . , n

$correlation
i, j

i, j = 1, 2, . . . , k

$std.err
sej

j = 1, 2, . . . , k

$cov.scaled
s2 (X T X)1
$cov.unscaled
(X T X)1
Esempio:
> modello<-lm(y~x1+x2+x3)
> ls.diag(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

12.4 Diagnostica

12.4.2

215

cooks.distance()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: distanza di Cook
Formula:
cdi

i = 1, 2, . . . , n

Esempio:
> modello<-lm(y~x1+x2+x3)
> cooks.distance(modello)

12.4.3

rstandard()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: residui standard
Formula:
rstandardi

i = 1, 2, . . . , n

Esempio:
> modello<-lm(y~x1+x2+x3)
> rstandard(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

216

Regressione lineare

12.4.4

rstudent()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: residui studentizzati
Formula:
rstudenti

i = 1, 2, . . . , n

Esempio:
> modello<-lm(y~x1+x2+x3)
> rstudent(modello)

12.4.5

dffits()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: dffits
Formula:
r
rstudenti

hi
1 hi

i = 1, 2, . . . , n

Esempio:
> modello<-lm(y~x1+x2+x3)
> dffits(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

12.4 Diagnostica

12.4.6

217

covratio()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: covratio
Formula:
cri

i = 1, 2, . . . , n

Esempio:
> modello<-lm(y~x1+x2+x3)
> covratio(modello)

12.4.7

lm.influence()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: diagnostica di regressione
Output:
$hat valori di leva
$coefficients differenza tra le stime OLS eliminando una unit`a
$sigma stima di eliminando una unit`a
$wt.res residui
Formula:
$hat
h
$coefficients
i = Xi (X T X)1

ei 
i = 1, 2, . . . , n
1 hi

$sigma
si
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

218

Regressione lineare
$wt.res
e

Esempio:
> modello<-lm(y~x1+x2+x3)
> lm.influence(modello)

12.4.8

residuals()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: residui
Formula:
e
Esempio:
> modello<-lm(y~x1+x2+x3)
> residuals(modello)

12.4.9

df.residual()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: gradi di libert`a della devianza residua
Formula:
nk
Esempio:
> modello<-lm(y~x1+x2+x3)
> df.residual(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

12.4 Diagnostica

12.4.10

219

hatvalues()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: valori di leva
Formula:
h
Esempio:
> modello<-lm(y~x1+x2+x3)
> hatvalues(modello)
Osservazioni: E necessario installare la libreria car.

12.4.11

hat()

Parametri:
X matrice del modello
Significato: valori di leva
Formula:
h
Esempio:
> modello<-lm(y~x1+x2+x3)
> X<-model.matrix(modello)
> hat(X)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

220

Regressione lineare

12.4.12

dfbeta()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: dfbeta
Formula:
i = Xi (X T X)1

ei 
i = 1, 2, . . . , n
1 hi

Esempio:
> modello<-lm(y~x1+x2+x3)
> dfbeta(modello)
Osservazioni: E necessario installare la libreria car.

12.4.13

dfbetas()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: dfbetas
Formula:
i
si

diag((X T X)1 )

ei
1hi

Xi (X X)
p
si diag((X T X)1 )

Esempio:
> modello<-lm(y~x1+x2+x3)
> dfbetas(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

i = 1, 2, . . . , n

12.4 Diagnostica

12.4.14

221

vif.lm()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: variance inflation factor
Formula:

1
1 Rx2 j

j = 1, 2, . . . , k 1

Rx2 j rappresenta il valore di R2 per il modello che presenta il regressore


j-esimo come variabile dipendente.
Esempio:
> modello<-lm(y~x1+x2+x3)
> vif.lm(modello)
Osservazioni: E necessario installare la libreria car.

12.4.15

outlier.test.lm()

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
Significato: test sugli outliers
Output:
$test verifica di ipotesi
Formula:
$test[1]
o
 n


t = max
rstudenti


i = 1, 2, ... ,n

$test[2]
nk1
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

222

Regressione lineare
$test[3]
p = 2 P ( tnk1 | t |)
$test[4]

n p se n p 1
NA se n p > 1

Esempio:
> modello<-lm(y~x1+x2+x3)
> outlier.test.lm(modello)
Osservazioni: E necessario installare la libreria car.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

Capitolo 13
Regressione lineare pesata
13.1

Simbologia

yi = 1 +2 xi1 +3 xi2 + +k xik1 +i

i = 1, 2, . . . , n

matrice del modello di dimensione n k :

N (0, 2 W )

numero di parametri da stimare e rango della matrice del modello: k


numero di unit`a: n
i-esima riga della matrice del modello :

Xi = (1, xi1 , xi2 , . . . , xik1 )

matrice diagonale dei pesi di dimensione nn :

W = diag(w1 , w2 , . . . , wn )

matrice di proiezione di dimensione nn : H = X (X T W 1 X)1 X T W 1


Pn  ei 2
devianza residua: RSS = i=1 wi
= y T W 1 (In H) y
stima di 2 : s2 = RSS / (n k)
gradi di libert`a della devianza residua: n k
stima di 2 tolta la i-esima unit`a: s2i = s2

nkri2
nk1

i = 1, 2, . . . , n

stime WLS: = (X T W 1 X)1 X T W 1 y


p
standard error delle stime WLS: se = s diag((X T W 1 X)1 )
t-values delle stime WLS: t = / se
residui: e = (In H) y
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

224

Regressione lineare pesata

residui standard: rstandardi =


s

residui studentizzati: rstudenti =

ei
wi (1hi )

i = 1, 2, . . . , n

ei
si

i = 1, 2, . . . , n

wi (1hi )

valori fittati: y = H y
valori di leva: h = diag(H)
stime WLS tolta la i-esima unit`a: i
correlazione tra le stime WLS: i, j =

i = 1, 2, . . . , n
s2 (X T W 1 X)1
(i, j)
se se
i

devianza residua modello nullo: RSSnullo =

i, j = 1, 2, . . . , k

Pn

1
i=1 wi


yi

Pn

j=1

yj

wj1
n
i=1

2

wi1

indice di determinazione: R2 = 1 RSS / RSSnullo


2
= 1
indice di determinazione aggiustato: Radj

RSS / (nk)
RSSnullo / (n1)

valore noto del regressore per la previsione: xT0 = (1, x01 , x02 , . . . , x0k1 )


2 ) = n log(2 ) + log RSS + 1 1 Pn log(wi )
log-verosimiglianza: `(,
i=1
2
n
2
distanza di Cook : cdi =

hi rstandard2i
k (1hi )


covratio: cri = (1 hi )1 1 +

13.2

Stima

13.2.1

lm()

i = 1, 2, . . . , n

rstudent2i 1
nk

 k

i = 1, 2, . . . , n

Parametri:
modello modello di regressione lineare con k 1 variabili esplicative ed n unit`a
weights diagonale della matrice W 1
Significato: analisi di regressione lineare pesata

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

13.2 Stima

225

Output:
$coefficients stime WLS
$residuals residui
$rank rango di X
$fitted.values valori fittati
$df.residual gradi di libert`a della devianza residua
Formula:
$coefficients

$residuals
e
$rank
k
$fitted.values
y
$df.residual
nk
Esempio:
>
>
>
>

13.2.2

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)

summary.lm()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
correlation = T / F matrice di correlazione delle stime WLS
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

226

Regressione lineare pesata

Significato: analisi di regressione lineare pesata


Output:
$residuals residui
$coefficients stima puntuale, standard error, t-value, p-value
$sigma stima di
$r.squared R2
2
$adj.r.squared Radj

$fstatistic F value, df numeratore, df denominatore


$cov.unscaled matrice di varianza non scalata per 2
$correlation matrice di correlazione delle stime WLS
Formula:
$residuals
e
$coefficients[,1]
j

j = 1, 2, . . . , k

$coefficients[,2]
sej

j = 1, 2, . . . , k

tj

j = 1, 2, . . . , k

$coefficients[,3]

$coefficients[,4]
2 P (tnk | tj |) j = 1, 2, . . . , k
$sigma
s
$r.squared
R2
$adj.r.squared
2
Radj

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

13.2 Stima

227

$fstatistic[1]
F value =

(RSSnullo RSS) / (k 1)
RSS / (n k)

$fstatistic[2]
k1
$fstatistic[3]
nk
$cov.unscaled
(X T W 1 X)1
$correlation
i, j

i, j = 1, 2, . . . , k

Esempio:
>
>
>
>
>

13.2.3

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
summary.lm(modello,correlation=T)

vcov()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: matrice di covarianze delle stime WLS
Formula:
s2 (X T W 1 X)1
Esempio:
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
vcov(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

228

13.2.4

Regressione lineare pesata

lm.wfit()

Parametri:
X matrice del modello
y variabile dipendente
w diagonale della matrice W 1
Significato: analisi di regressione lineare pesata
Output:
$coefficients stime WLS
$residuals residui
$rank rango di X
$fitted.values valori fittati
$weights diagonale della matrice W 1
$df.residual gradi di libert`a della devianza residua
Formula:
$coefficients

$residuals
e
$rank
k
$weights
wi1

i = 1, 2, . . . , n

$fitted.values
y
$df.residual
nk

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

13.2 Stima

229

Esempio:
>
>
>
>
>
>

13.2.5

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
X<-model.matrix(modello)
lm.fit(X,y,w=diag(W)^-1)

lsfit()

Parametri:
X matrice del modello
y variabile dipendente
w diagonale della matrice W 1
Significato: analisi di regressione lineare pesata
Output:
$coefficients stime WLS
$residuals residui
$wt diagonale della matrice W 1
Formula:
$coefficients

$residuals
e
$wt
wi1

i = 1, 2, . . . , n

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

230

Regressione lineare pesata

Esempio:
>
>
>
>
>
>

13.2.6

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
X<-model.matrix(modello)
lsfit(X,y,w=diag(W)^-1,intercept=T)

confint()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
parm parametri del modello di cui vogliamo calcolare lintervallo
di confidenza
level livello di confidenza 1
Significato: intervallo di confidenza per le stime WLS
Formula:
j t1 / 2, nk sej

j = 1, 2, . . . , k

Esempio:
>
>
>
>
>

13.2.7

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
confint(modello,parm=c(1,2,3),level=0.95)

coef()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

13.2 Stima

231

Significato: stime WLS


Formula:

Esempio:
>
>
>
>
>

13.2.8

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
coef(modello)

coeftest()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
df = NULL / Inf significativit`a delle stime effettuata con la variabile casuale t oppure Z
Significato: stime WLS e significativit`a
Esempio:
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
coeftest(modello,df=NULL)

Osservazioni: E necessario installare la libreria lmtest.

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

232

Regressione lineare pesata

13.2.9

fitted()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: valori fittati
Formula:
y
Esempio:
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
fitted(modello)

13.2.10

predict()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
nd il valore di x0
interval = co / pr confidenza o previsione
level livello di confidenza 1
Significato: intervallo di confidenza o di previsione utilizzando la variabile casuale Z
Output:
fit valori previsti dal modello
se.fit standard error delle stime
residual.scale stima di

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

13.2 Stima

233

Formula:
$fit[,1]
xT0
$fit[,c(2,3)]
interval = co
q
T
x0 z1 / 2 s xT0 (X T W 1 X)1 x0

interval = pr
q
T
x0 z1 / 2 s 1 + xT0 (X T W 1 X)1 x0
$se.fit
s

q
xT0 (X T W 1 X)1 x0

$residual.scale
s
Esempio:
>
>
>
>
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
m<-modello
s<-summary(m)$sigma
x0<-c(1,1.3,2.1,2.3)
nd<-data.frame(x1=1.3,x2=2.1,x3=2.3)
predict.lm(m,nd,interval="pr",level=0.99,se.fit=T,scale=s,df=Inf)

13.2.11

predict.lm()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
nd il valore di x0
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

234

Regressione lineare pesata


interval = co / pr intervallo di confidenza o previsione
level livello di confidenza 1

Significato: valori previsti dal modello


Output:
fit valori previsti dal modello
se.fit standard error delle stime
df gradi di libert`a della devianza residua
residual.scale stima di
Formula:
$fit[,1]
y
$fit[,c(2,3)]
interval = co
q
T
x0 t1 / 2, nk s xT0 (X T W 1 X)1 x0

interval = pr
q
T
x0 t1 / 2, nk s 1 + xT0 (X T W 1 X)1 x0
$se.fit
s

xT0 (X T W 1 X)1 x0

$df
nk
$residual.scale
s

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

13.2 Stima

235

Esempio:
>
>
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
x0<-c(1,1.3,2.1,2.3)
nd<-data.frame(x1=1.3,x2=2.1,x3=2.3)
predict.lm(modello,nd,interval="pr",level=0.99,se.fit=T)

13.2.12

linear.hypothesis()

Parametri:
modello modello di regressione lineare pesata con 1 variabile esplicativa ed n unit`a
hypothesis.matrix matrice della variabile esplicativa di dimensione 1 2
rhs valore b della previsione lineare
Significato: test di ipotesi per H0 : xT0 = b contro H1 : xT0 6= b
Output:
$SSE devianza residua
$f valore empirico della statistica F
$Df gradi di libert`a
$p p-value
Formula:
$SSE
RSS
$f
F value =

xT0 b
s

xT0 (X T W 1 X)1 x0

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

!2

236

Regressione lineare pesata


$Df
Regression
Residuals

1
n2

$p
P (F1, n2 F value)
Esempio:
>
>
>
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x,weights=diag(W)^-1)
xvalue<-1.2
x0<-c(1,xvalue)
b<-2.4
linear.hypothesis(modello,hypothesis.matrix=matrix(x0,1,2),rhs=b)

Osservazioni: E necessario installare la libreria car.

13.3

Adattamento

13.3.1

logLik()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: funzione di verosimiglianza pesata nel caso normale
Formula:
2 ) df = k + 1
`(,
Esempio:
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
logLik(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

13.3 Adattamento

13.3.2

237

deviance()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: devianza residua
Formula:
RSS
Esempio:
>
>
>
>
>

13.3.3

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
deviance(modello)

AIC()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: indice AIC
Formula:
2 ) + 2 (k + 1)
2 `(,
Esempio:
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
AIC(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

238

Regressione lineare pesata

13.3.4

extractAIC()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: numero di parametri ed indice AIC
Formula:
k

n log(RSS / n) + 2 k

Esempio:
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
extractAIC(modello)

13.4

Diagnostica

13.4.1

weighted.residuals()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: residui pesati
Formula:

ei / wi

i = 1, 2, . . . , n

Esempio:
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
weighted.residuals(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

13.4 Diagnostica

13.4.2

239

residuals()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: residui
Formula:
e
Esempio:
>
>
>
>
>

13.4.3

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
residuals(modello)

outlier.test.lm()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: test sugli outliers
Output:
$test verifica di ipotesi
Formula:
$test[1]
o
 n


t = max
rstudenti


i = 1, 2, ... ,n

$test[2]
nk1
Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

240

Regressione lineare pesata


$test[3]
p = 2 P ( tnk1 | t |)
$test[4]

n p se n p 1
NA se n p > 1

Esempio:
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
outlier.test.lm(modello)

Osservazioni: E necessario installare la libreria car.

13.4.4

df.residual()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: gradi di libert`a della devianza residua
Formula:
nk
Esempio:
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
df.residual(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

13.4 Diagnostica

13.4.5

241

hatvalues()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: valori di leva
Formula:
h
Esempio:
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
hatvalues(modello)

Osservazioni: E necessario installare la libreria car.

13.4.6

hat()

Parametri:
X matrice del modello
Significato: valori di leva
Formula:
h
Esempio:
>
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
X<-model.matrix(modello)
hat(X)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

242

Regressione lineare pesata

13.4.7

rstandard()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: residui standard
Formula:
rstandardi

i = 1, 2, . . . , n

Esempio:
>
>
>
>
>

13.4.8

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
rstandard(modello)

rstudent()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: residui studentizzati
Formula:
rstudenti

i = 1, 2, . . . , n

Esempio:
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
rstudent(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

13.4 Diagnostica

13.4.9

243

dffits()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: dffits
Formula:

r
rstudenti

hi
1 hi

i = 1, 2, . . . , n

Esempio:
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x1+x2+x3,weights=diag(W)^-1)
dffits(modello)

13.4.10

covratio()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: covratio
Formula:
cri

i = 1, 2, . . . , n

Esempio:
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x,weights=diag(W)^-1)
covratio(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

244

Regressione lineare pesata

13.4.11

cooks.distance()

Parametri:
modello modello di regressione lineare pesata con k 1 variabili
esplicative ed n unit`a
Significato: distanza di Cook
Formula:
cdi

i = 1, 2, . . . , n

Esempio:
>
>
>
>
>

n<-length(y)
pesi<-abs(rnorm(n))
W<-diag(pesi)
modello<-lm(y~x,weights=diag(W)^-1)
cooks.distance(modello)

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

Indice analitico
% %, 96
*, 96
:, 27
AIC, 204, 237
Arg, 36
Box.test, 144, 145
COV, 55
Conj, 36
DD, 41
E, 67
IQR, 51
Im, 35
Mod, 35
NCOL, 100
NROW, 99
Re, 35
TukeyHSD, 137139
abs, 16
acf, 62
acosh, 23
acos, 22
ad.test, 181
add1, 210
all, 42
anova, 130, 131, 133, 207
any, 42
as.vector, 92
asinh, 23
asin, 22
atanh, 24
atan, 23
bartlett.test, 147
basicStats, 71

beta, 33
binom.test, 167
box.cox, 196
boxcox, 195
boxplot.stats, 75
bptest, 212
by, 127
cbind, 90
ceiling, 31
chi2, 66
chisq.test, 171, 184
chol, 103
choose, 19
cmv.test, 180
coeftest, 194, 231
coef, 194, 230
colMeans, 101
colSums, 100
confint, 193, 230
cooks.distance, 215, 244
cor.test, 143
cor, 59
cos, 21
covratio, 217, 243
cov, 56
crossprod, 95
cummax, 38
cummin, 37
cumprod, 37
cumsum, 37
cut, 81
cv, 53
det, 92

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

246
deviance, 205, 237
df.residual, 218, 240
dfbetas, 220
dfbeta, 220
dffits, 216, 243
diag, 97
diff, 85
dim, 89, 99
dist, 82
drop1, 209
dwtest, 204
eigen, 95
eta, 64
eval, 44
expression, 44
exp, 24
extractAIC, 205, 238
factorial, 20
factor, 126
fisher.test, 174
fitted, 196, 232
fivenum, 70
floor, 30
friedman.test, 165
gamma, 32
gini, 65
ginv, 103
gl, 128
hatvalues, 219, 241
hat, 219, 241
hist, 79
ic.var, 83
intersect, 17
jarque.bera.test, 179
kronecker, 97
kruskal.test, 163
kurtosis, 59
kurt, 58
lbeta, 34
lchoose, 20
leaps, 206

INDICE ANALITICO
length, 45
levels, 129
levene.test, 149
lgamma, 33
lillie.test, 183
linear.hypothesis, 200, 235
lm.fit, 191
lm.influence, 217
lm.ridge, 202
lm.wfit, 228
lm, 188, 224
log10, 25
log2, 25
logLik, 203, 236
log, 26
ls.diag, 213
lsfit, 192, 229
mad, 52
mahalanobis, 81
margin.table, 176
match, 43
matrix, 89
max, 46
mcnemar.test, 173
mean.a, 48
mean.g, 49
mean, 46
median, 51
min, 45
ncol, 100
nlevels, 129
norm, 93
nrow, 99
order, 29
outer, 43
outlier.test.lm, 221, 239
pairwise.t.test, 141, 142
pi, 42
pmax, 39
pmin, 38
polyroot, 41

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1

INDICE ANALITICO
power.prop.test, 121
ppoints, 86
prcomp, 106, 108
predict.lm, 198, 233
predict, 197, 232
prod, 15
prop.table, 177
prop.test, 119, 122
qr.Q, 102
qr.R, 102
quantile, 50
range, 50
rank, 84
rbind, 91
rep, 27
residuals, 218, 239
rev, 29
round, 32
rstandard, 215, 242
rstudent, 216, 242
runs.test, 169
sample, 84
scale, 85
sd, 55
sequence, 28
seq, 28
setdiff, 18
sf.test, 182
sigma2, 53
signif, 32
sign, 16
sin, 21
skewness, 58
skew, 57
solve, 94
sort, 29
sqrt, 26
summary.lm, 189, 225
summary, 68, 107, 109
sum, 14, 15
svd, 101

247
sweep, 87
t.test, 111, 112, 114, 115
table, 77
tabulate, 77
tan, 22
tapply, 128
test.var, 116
toeplitz, 91
trunc, 31
union, 17
unique, 78
uniroot, 40
var.test, 118
var, 54
vcov, 191, 227
vif.lm, 221
weighted.mean, 47
weighted.residuals, 238
which.max, 19
which.min, 18
which, 18
wilcox.test, 151, 153, 155, 157, 159,
161

Fabio Frascati (fabiofrascati@freemail.it) Formulario di statistica con R 2.0.1