Sei sulla pagina 1di 39

Universit degli Studi di Padova Scuola di Medicina e Chirurgia

Corso di Laurea in Medicina e Chirurgia - A.A. 2015-16

Corso: Statistica e Metodologia Epidemiologica 1


Docenti: prof.ssa Anna Chiara Frigo prof.ssa Egle Perissinotto

Modulo 2: Misure di posizione, tendenza centrale e variabilit


(Cap. 3: tutto escluso 3.4
Cap. 2: 2.3.5 e finire 2.4 da pag. 24 a pag. 26)

Misure di tendenza centrale e di posizione


Moda, mediana e quantili, media aritmetica semplice e
ponderata
Misure di variabilit
Campo di variazione, differenza interquartile, varianza e
deviazione standard, coefficiente di variazione
1
ELABORAZIONE DESCRITTIVA DEI DATI
STATISTICI
Lapplicazione di metodi e tecniche di tipo descrittivo ha la
finalit di sintetizzare aspetti informativi particolari dei
fenomeni rappresentati dalle serie dei dati o dalla
distribuzione di frequenza.
Alcuni dei principali metodi e tecniche di elaborazione
descrittiva:
indici di centralit,
indici di variabilit,
rapporti statistici,
2
indici di dipendenza.
MISURE DI CENTRALIT E POSIZIONE

Valore tipico che sintetizza adeguatamente i dati di una


distribuzione:

Moda,

Mediana e quantili,

Media aritmetica semplice e ponderata.

3
MISURE DI CENTRALIT: MODA

Modalit/valore della distribuzione che si presenta pi


frequentemente:

Pu sintetizzare sia dati qualitativi che quantitativi


Media di posizione non algebrica
Pu non esistere
Se esiste pu non essere unica

4
Dati

Pressione
Peso Et Attivit
ID Altezza Classe BMI Sesso Infarto sistolica Fumo N. sig. CPK N. caff
(Kg) (anni) fisica
(mmHg)
1 187 88 Normale 66 M No 146 No No 0 159 5
2 164 96 Obesit grave 56 M No 147 No No 0 97 4
3 180 105 Obesit moderata 60 F No 127 Yes No 0 51 4
4 147 99 Obesit gravissima 62 M Yes 157 Yes Yes 15 174 0
5 167 101 Obesit grave 83 M Yes 144 No Yes 25 219 0

56 163 91 Obesit moderata 54 M Yes 129 No No 0 68 1
57 185 98 Sovrappeso 65 F Yes 149 No Yes 15 140 4
58 190 88 Normale 68 M No 151 Yes Yes 30 169 3
59 131 81 Obesit gravissima 69 M Yes 156 No Yes 15 165 4
60 172 97 Obesit moderata 60 M No 155 No Yes 30 100 3

5
ESEMPIO
Distribuzione delle classi di BMI nei 60 pazienti ricoverati

Frequenze di
Classe di BMI unit statistiche
(ni)
Obesit gravissima Moda 16
Obesit grave 12
Obesit moderata 13
Sovrappeso 12
Normale 7
TOTALE 60
6
ESEMPIO
Distribuzione del numero di caff bevuti in
media al giorno nei 60 pazienti ricoverati
Frequenze di unit statistiche
Numero di caff
(ni)
0 3
1 6
2 11
3 Moda 21
4 11
5 5
6 3
TOTALE 60

7
MISURE DI CENTRALIT: MEDIANA

Modalit o valore che supera la met dei valori ed


superato dallaltra met.
Facendo riferimento ai valori presentati dalle unit
statistiche ordinati in senso crescente o decrescente,
il valore dellunit che occupa il posto centrale.

Non risente dei valori estremi


Media di posizione non algebrica
Minimizza la somma delle distanze (in valore assoluto)
dei singoli valori rispetto al valore mediano
8
Serie non ordinata Serie ordinata
N. N. N. N. N. N.
Id caff Id caff Id caff Seq. Id caff Seq. Id caff Seq. Id caff
1 5 21 3 41 3 1 4 0 21 9 3 41 60 3
2 4 22 3 42 3 2 5 0 22 12 3 42 2 4
3 4 23 3 43 3 3 7 0 23 13 3 43 3 4
4 0 24 3 44 5 4 31 1 24 14 3 44 6 4
5 0 25 3 45 4 5 35 1 25 20 3 45 8 4
6 4 26 3 46 3 6 51 1 26 21 3 46 17 4
7 0 27 6 47 2 7 52 1 27 22 3 47 36 4
8 4 28 2 48 4 8 54 1 28 23 3 48 45 4
9 3 29 5 49 5 9 56 1 29 24 3 49 48 4
10 2 30 3 50 4 10 10 2 30 25 3 50 50 4
11 5 31 1 51 1 11 15 2 31 26 3 51 57 4
Mediana
12 3 32 3 52 1 12 16 2 32 30 3 52 59 4
13 3 33 2 53 2 13 19 2 33 32 3 53 1 5
14 3 34 3 54 1 14 28 2 34 34 3 54 11 5
15 2 35 1 55 3 15 33 2 35 41 3 55 29 5
16 2 36 4 56 1 16 38 2 36 42 3 56 44 5
17 4 37 6 57 4 17 39 2 37 43 3 57 49 5
18 6 38 2 58 3 18 40 2 38 46 3 58 18 6
19 2 39 2 59 4 19 47 2 39 55 3 59 27 6
20 3 40 2 60 3 20 53 2 40 58 3 60 37 6

9
MISURE DI CENTRALIT: QUANTILI

Sono una generalizzazione della mediana


Il quantile p, con p in [0,100]%, un numero la lascia
alla sua sinistra il p% dei dati osservati e alla sua destra
il restante (1-p)%. Ad esempio, il quantile 10% quel
valore che lascia a sinistra il 10% delle osservazioni e a
destra il 90%
I quantili con p uguale a 25%, 50% e 75% vengono
chiamati rispettivamente il primo (Q1 o 25 percentile), il
secondo (Q2 o 50 percentile o Mediana), e il terzo (Q3 o
75 percentile) quartile. Essi dividono le osservazioni in
quattro parti uguali. Il secondo quartile coincide con la
mediana
10
Individuazione della posizione corrispondente alli-esimo
quartile (Qi) in una distribuzione di n unit:

Serie composta da un numero pari di unit:

in + 2
Posizione (Qi) =
4

Serie composta da un numero dispari di unit:

in + (4 - i)
Posizione (Qi) =
4
11
Serie ordinata
N. N. N.
Seq. Id caff Seq. Id caff Seq. Id caff
1 4 0 21 9 3 41 60 3
2 5 0 22 12 3 42 2 4
3 7 0 23 13 3 43 3 4
4 31 1 24 14 3 44 6 4
5 35 1 25 20 3 45 8 4
6 51 1 26 21 3 46 17 4 III quartile - 75 percentile
7 52 1 27 22 3 47 36 4
8 54 1 28 23 3 48 45 4
9 56 1 29 24 3 49 48 4
10 10 2 30 25 3 50 50 4
11 15 2 31 26 3 51 57 4
II quartile - 50 percentile o Mediana
12 16 2 32 30 3 52 59 4
13 19 2 33 32 3 53 1 5
14 28 2 34 34 3 54 11 5
15 33 2 35 41 3 55 29 5
I quartile - 25 percentile
16 38 2 36 42 3 56 44 5
17 39 2 37 43 3 57 49 5
18 40 2 38 46 3 58 18 6
19 47 2 39 55 3 59 27 6
20 53 2 40 58 3 60 37 6

12
ESEMPIO

Distribuzione del numero di caff bevuti in media al giorno nei 60 pazienti


ricoverati

Frequenze di Frequenze Frequenze


Numero di unit cumulate cumulate
caff statistiche assolute relative
(ni) (Ni) (Fi)
0 3 3 0,05
1 6 9 0,15
2 11 20 0,33
Q1
3 21 41 0,68
Q2 4 11 52 0,87
Q3 5 5 57 0,95
6 3 60 1,00

13
Distribuzione dellet nei 60 pazienti ricoverati

Frequenza Frequenza
Valore Frequenza cumulata
assoluta relativa
Intervallo di et centrale
(anni) della (ni) (fi) assoluta relativa
classe
(Ni) (Fi)
40 |- 45 42 1 0,02 1 0,02
45 |- 50 47 2 0,03 3 0,05
50 |- 55 52 7 0,12 10 0,17
55 |- 60 57 Q1 6 0,10 16 0,27
60 |- 65 62 Q2 14 0,23 30 0,50
65 |- 70 67 12 0,20 42 0,70
70 |- 75 72 Q3 9 0,15 51 0,85
75 |- 80 77 4 0,07 55 0,92
80 |- 85 82 2 0,03 57 0,95
85 |- 90 87 3 0,05 60 1,00
Totale - 60 1,00

14
Distribuzione di frequenze cumulate relative
percentuali delle et nei 60 pazienti ricoverati
100%
90%
80%
Frequenza relativa %

70%
60%
50%
40%
30%
20%
10%
0%
40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85-89
Et (anni)
Q1 Q2 Q3

15
MISURE DI CENTRALIT: MEDIA ARITMETICA (M o x)

Per una serie di n valori, la media aritmetica data


da:
M x
xi
n

Se gli n valori sono espressi in una distribuzione di


frequenza (seriazione) di k classi, la media (ponderata o
pesata) data da:

M x
xn xn
i i i i

n ni

16
Propriet della media aritmetica:

Media di posizione algebrica,


Risente dei valori estremi,
Propriet di equilibrio: nulla la somma degli scarti dalla
media (xi x)
Propriet di minimo: minima la somma dei quadrati
degli scarti dalla media (xi x) minimo.
2

La somma del quadrato degli scarti dalla media detta


DEVIANZA
17
Distribuzione del numero caff bevuti
in media al giorno dai 60 pazienti Frequenze
Numero di di unit
ricoverati caff statistiche
(ni)
N. N. N. 0 3
Id caff Id caff Id caff 1 6
1 5 21 3 41 3
2 11
2 4 22 3 42 3
3 21
3 4 23 3 43 3
4 11
4 0 24 3 44 5
5 5
5 0 25 3 45 4
6 3
6 4 26 3 46 3
7 0 27 6 47 2
8 4 28 2 48 4
9 3 29 5 49 5
10 2 30 3 50 4 M x ini x ini 0 3 ... 6 3 178 2,97 media ponderata
11 5 31 1 51 1 ni n 60 60
12 3 32 3 52 1
13 3 33 2 53 2
14 3 34 3 54 1
5 4 ... 3 178
15 2 35 1 55 3 M 2,97 media semplice
16 2 36 4 56 1 60 60
17 4 37 6 57 4
18 6 38 2 58 3
19 2 39 2 59 4 18
20 3 40 2 60 3
Distribuzione delle et nei 60 pazienti ricoverati

Intervallo di et

40 |- 45 42 1 42
45 |- 50 47 2 94
50 |- 55 52 7 364
55 |- 60 57 6 342
60 |- 65 62 14 868
65 |- 70 67 12 804
70 |- 75 72 9 648
75 |- 80 77 4 308
80 |- 85 82 2 164
85 |- 90 87 3 261
Totale - 60 3895

M
xn xn
i i i i

3895
64,9 anni
n n i 60
19
Distribuzione unimodale simmetrica a campana

Mo=Me=MA

Asimmetria positiva, Asimmetria negativa,


asimmetrica destra, asimmetrica sinistra,
obliqua sinistra obliqua destra

20
Mo Me MA MA Me Mo
Criteri di scelta tra le medie

Tipo di variabile
Forma della distribuzione

21
MISURE DI
VARIABILE CENTRALIT E
POSIZIONE

Qualitativa nominale Moda

Qualitativa ordinale Moda, Mediana, Quantili

Quantitativa discreta Moda, Mediana, Quantili,


Media aritmetica

Quantitativa continua Moda, Mediana, Quantili,


Media aritmetica

22
Diagramma scatola e baffi delle et nei 60 pazienti ricoverati

Massimo = 89 anni
Et (anni)

75% percentile = 71 anni

Mediana = 64,5 anni

25% percentile = 58 anni

Minimo = 44 anni

23
24
Et (anni)

25
Distribuzione delle et per sesso, nei 60 pazienti ricoverati

0,30 0,30

0,25 0,25
Frequenza relativa %

Frequenza relativa %
0,20 0,20

0,15 0,15

0,10 0,10

0,05 0,05

0,00 0,00

Et - Femmine Et - Maschi

26
MISURE DI VARIABILIT

La variabilit lattitudine dei fenomeni ad assumere livelli o


modalit differenti al variare dellunit statistica.
Gli indici di variabilit valgono zero nella situazione di
nessuna variabilit (unit statistiche uguali).

Si distinguono per le variabili quantitative:

indici di variabilit assoluta (dipendenti dallunit di


misura della variabile),

indici di variabilit relativa (adimensionali).


27
N. caff Femmine Maschi
0 0 3
1 2 4
2 5 6
3 10 11
4 5 6
5 1 4
6 0 3

Moda = 3 3
Mediana = 3 3
Media = 3 3

0,50 0,50
0,45 0,45

Frequenza relativa
0,40 0,40
Frequenza relativa

0,35 0,35
0,30 0,30
0,25 0,25
0,20 0,20
0,15 0,15
0,10 0,10
0,05 0,05
0,00 0,00
0 1 2 3 4 5 6 0 1 2 3 4 5 6
N. caff - Femmine N. caff - Maschi 28
MISURE DI VARIABILIT: Campo di variazione

Il campo di variazione (range): la differenza tra il


valore pi grande e quello pi piccolo assunti dalla
variabile nella serie di dati.

Dipende da sole due osservazioni


Dipende dai valori estremi

29
Distribuzione del numero di caff bevuti al giorno dai 60 pazienti ricoverati

N. N. N.
ID caff ID caff ID caff
4 0 9 3 60 3
5 0 12 3 2 4
7 0 13 3 3 4
31 1 14 3 6 4
35 1 20 3 8 4
51 1 21 3 17 4
52 1 22 3 36 4
54 1 23 3 45 4
56 1 24 3 48 4
10 2 25 3 50 4
15 2 26 3 57 4
16 2 30 3 59 4
19 2 32 3 1 5
28 2 34 3 11 5
33 2 41 3 29 5
38 2 42 3 44 5
39 2 43 3 49 5
40 2 46 3 18 6
47 2 55 3 27 6
53 2 58 3 37 6

30
Campo di variazione: 6 - 0 = 6 caff
MISURE DI VARIABILIT: Differenza interquartile

La differenza interquartile (o range interquartile) la


differenza tra il 3 e il 1 quartile.

Include il 50% dei valori della serie


Non dipende dai valori estremi

31
N. N. N.
Seq. ID caff Seq. ID caff Seq. ID caff
1 4 0 21 9 3 41 60 3
2 5 0 22 12 3 42 2 4
3 7 0 23 13 3 43 3 4 III quartile - 75
4 31 1 24 14 3 44 6 4
5 35 1 25 20 3 45 8 4
percentile
6 51 1 26 21 3 46 17 4
7 52 1 27 22 3 47 36 4
II quartile - 50
8 54 1 28 23 3 48 45 4
9 56 1 29 24 3 49 48 4 percentile-Mediana
10 10 2 30 25 3 50 50 4
11 15 2 31 26 3 51 57 4
12 16 2 32 30 3 52 59 4 I quartile - 25
13 19 2 33 32 3 53 1 5 percentile
14 28 2 34 34 3 54 11 5
15 33 2 35 41 3 55 29 5
16 38 2 36 42 3 56 44 5
17 39 2 37 43 3 57 49 5
18 40 2 38 46 3 58 18 6
19 47 2 39 55 3 59 27 6
20 53 2 40 58 3 60 37 6

Differenza interquartile = 3quartile - 1quartile = 4 2 = 2 caff


32
Valori della CPK nei 60 pazienti ricoverati

Seq. ID CPK Seq. ID CPK Seq. ID CPK


1 54 0 21 12 118 41 46 164
2 6 7 22 25 118 42 59 165
3 38 18 23 17 121 43 10 167
4 44 39 24 42 122 44 58 169
5 13 42 25 31 123 45 40 172 172 173
6 3 51 26 50 127 46 7 173 Q3 172,5 UI / L
7 28 67 27 9 128 47 4 174 2
8 56 68 28 37 129 48 33 175
9 55 78 29 22 132 49 41 177
10 11 79 30 29 133 50 35 183 133 140
11 21 87 31 57 140 51 27 184 Me 136,5 UI/L
12 24 92 32 36 144 52 30 188
2
13 8 93 33 39 145 53 20 192
14 16 93 34 23 146 54 14 194
15 2 97 35 26 149 55 48 214
16 45 99 36 52 151 56 5 219
17 60 100 37 47 156 57 18 225
18 15 109 38 1 159 58 53 232
19 19 111 39 32 161 59 43 239
20 49 114 40 34 163 60 51 270

Differenza interquartile = 3quartile - 1quartile =


97 99
Q1 98 UI/L = 172,5 98 =74,5 UI/L 33
2
MISURE DI VARIABILIT: Varianza e Deviazione standard
(Scarto Quadratico Medio) (1)

2
i
(x M) 2

Varianza della popolazione


n
Il numeratore (xi M) 2 si chiamaDevianza


i
(x M) 2

Deviazione standard della popolazione


n
(scarto quadratico medio)

Per dati in distribuzione di frequenza:


i
(x M) 2
ni
n 34
MISURE DI VARIABILIT: Varianza e Deviazione standard
(Scarto Quadratico Medio) (2)

s2
i
(x M) 2

Stima della varianza della popolazione


n -1

s
i
(x M) 2

Stima della deviazione standard


n -1
della popolazione (scarto quadratico medio)

Per dati in distribuzione di frequenza :

s
i
(x M) 2
ni
n -1 35
Caff bevuti quotidianamente fra le donne
Seq. ID N. caff Xi - M (Xi M)2
1 31 1 -2 4
2 52 1 -2 4
3 15 2 -1 1 Media = 3 caff
4 16 2 -1 1
5 33 2 -1 1
6 40 2 -1 1
7 47 2 -1 1
8 13 3 0 0

i
9 20 3 0 0 2
(x M) 22
Varianza 0,96 (caff)2
10 21 3 0 0
11 22 3 0 0
12 24 3 0 0 n 23
13 25 3 0 0
14 26 3 0 0 Deviazione standard 0,96 0,98 caff
15 34 3 0 0
16 41 3 0 0
17 43 3 0 0
18 3 4 1 1
19 6 4 1 1
20 17 4 1 1
21 50 4 1 1
22 57 4 1 1
23 44 5 2 4
TOTALE 0 22
36
Caff bevuti quotidianamente fra gli uomini
Seq. ID N. caff Xi - M (Xi M)2 Seq. ID N. caff Xi - M (Xi M)2
1 4 0 -3 9 21 46 3 0 0
2 5 0 -3 9 22 55 3 0 0
3 7 0 -3 9 23 58 3 0 0
4 35 1 -2 4 24 60 3 0 0
5 51 1 -2 4 25 2 4 1 1
6 54 1 -2 4 26 8 4 1 1
7 56 1 -2 4 27 36 4 1 1
Media= 3 caff
8 10 2 -1 1 28 45 4 1 1
9 19 2 -1 1 29 48 4 1 1
10 28 2 -1 1 30 59 4 1 1
11 38 2 -1 1 31 1 5 2 4
12 39 2 -1 1 32 11 5 2 4
13 53 2 -1 1 33 29 5 2 4
14 9 3 0 0 34 49 5 2 4
15 12 3 0 0 35 18 6 3 9
16 14 3 0 0 36 27 6 3 9
17 23 3 0 0 37 37 6 3 9
18 30 3 0 0 TOTALE 0 98
19 32 3 0 0
20 42 3 0 0
Varianza
i
(x M) 2


98
2,65 (caff)2
n 37
Deviazione standard 2,65 1,6 caff
37
MISURE DI VARIABILIT RELATIVA: Coefficiente di
variazione

Il coefficiente di variazione il rapporto tra lo scarto


quadratico medio e la media aritmetica, moltiplicato per 100:


CV% = 100
M

Nellesempio del caff si ha:


Donne: CV% =(0,98/3)x100= 33%
Uomini: CV% =(1,63/3)x100= 54%

38
TIPO DI VARIABILE INDICE DI VARIABILIT

Variabili Campo di variazione


quantitative
Differenza interquartile
Deviazione standard (Scarto
Quadratico Medio), Varianza
Coefficiente di variazione

39