Sei sulla pagina 1di 25

Corso di Statistica

I Facoltà di Medicina e Chirurgia

CORSO DI STATISTICA 2
Dott. Laura Perrotta
- Lezione 4 - Gli indici di dispersione -

A.A. 20010/2011
Corso di Statistica

INDICI DI DISPERSIONE

Gli indici di dispersione sono indici che danno una


misura della variabilità dei termini della distribuzione
rispetto ad una media.

Un indice di tendenza centrale non è sufficiente, infatti,


a descrivere completamente un fenomeno.

Indici di tendenza centrale e indici di dispersione


devono essere associati per fornire un’informazione
completa.

Gli indici di dispersione sono sempre associati ad una


media per indicare la variabilità intorno ad essa.
Corso di Statistica

Tab. 1 Non c’è dispersione rispetto alla variabile età

Paziente Sesso Età PA diastolica PA sistolica


(mmHg) (mmHg)
1 M 50 70 110
2 F 50 90 95
3 F 50 80 130
4 F 50 85 85
5 M 50 70 95

C’è dispersione rispetto alla variabile età


Tab. 2
Paziente Sesso Età PA diastolica PA sistolica
(mmHg) (mmHg)
1 M 20 70 110
2 F 20 90 95
3 F 50 80 130
4 F 80 85 85
5 M 80 70 95
n

∑x i
50 + 50 + 50 + 50 + 50
( Tab.1) µ = i =1
= = 50 ( Tab.2 ) µ = 20 + ... + 80 = 50
n 5 5
166,00
168,00
170,00
172,00
174,00
176,00
178,00
cm 180,00

PIEMO NTE

VALLE
D'AOSTA

Media italiana
LOMBARDIA

TRENTINO ALTO ADIGE

VENETO
Corso di Statistica

FRIUL I VENEZIA GIUL IA

LIGURIA

EMILIA RO MAG NA

TOSCANA

UMBRIA

MARCHE

LAZIO

ABRUZZO

MOLISE

CAMPANIA
Grafico 1 - Stature degli iscritti nelle liste di leva dei nati nell’anno 1969

PUGLIA

BASIL ICATA

CALABRIA

SICILIA

SARDEG NA
Corso di Statistica

OSSERVAZIONE

Indici di tendenza centrale e indici di dispersione si


completano a vicenda, tenendo però conto del fatto che:

• una media da sola non è in grado di esprimere


compiutamente un fenomeno

• un indice di variabilità da solo perde significato in quanto


gli viene a mancare il punto di riferimento
Corso di Statistica

INTERVALLO DI VARIAZIONE
(o RANGE)
L’intervallo di variazione è la più elementare misura di
dispersione riferita ai dati quantitativi ed è calcolato come
differenza tra il valore più alto e quello più basso di una serie di dati.

intervallo di variazione = valore più alto – valore più basso


(o Range)

I due valori estremi (max e min) forniscono l’indicazione del dominio


della variabile e indicano un primo approccio descrittivo.

Limiti: dipende esclusivamente dai valori estremi, ed è influenzato dalla


dimensione del campione stesso.
Una statistica alternativa è la differenza interquatile, cioè la differenza
tra il primo quartile Q1 e il terzo quartile Q3.
Corso di Statistica

Paziente Sesso Età PA diastolica PA sistolica


(mmHg) (mmHg)
1 M 20 70 110
2 F 20 90 95
3 F 50 80 130
4 F 80 85 85
5 M 80 70 95

L’intervallo di variazione calcolato per la variabile PA diastolica è


il seguente 90 – 70 = 20

Min = 70
Max = 90
Range = 20
Corso di Statistica

INDICI DI VARIABILITA’ ASSOLUTA


PER MISURE QUANTITATIVE

• SCARTO MEDIO SEMPLICE ASSOLUTO

• DEVIANZA

• VARIANZA

• DEVIAZIONE STANDARD

Sono gli indicatori statistici di fondamentale importanza per


la statistica descrittiva
Corso di Statistica

VARIABILITA’ COMPLESSIVA
 La variabilità complessiva è costituita dall’insieme degli
scarti di tutte le misure dalla media.
 Per la proprietà delle medie la somma degli scarti dalla media
è nulla a causa della compensazione tra scarti positivi e
negativi.
 Utilizzando l’artificio del valore assoluto, possiamo
considerare l’entità dello scarto senza tener conto del segno
negativo.
 La variabilità complessiva è data da:

∑| X −m|
Nota: calcolare gli N(N-1) / 2 scarti tra tutte le osservazioni diventa troppo
laborioso
Corso di Statistica

SCARTO MEDIO SEMPLICE ASSOLUTO


Se rapportiamo la variabilità complessiva al numero delle
osservazioni otteniamo lo scarto medio semplice assoluto

∑| X i i −m|
N
Che costituisce il più elementare indice di dispersione con
significato statistico, poco considerato per via dell’artifizio del
valore assoluto
Corso di Statistica

DEVIANZA
In alternativa al valore assoluto si ricorre al quadrato degli scarti
dalla media e si perviene alla formula della devianza:

( )
( ∑ X )
2

∑i i ∑i i
2 i
X − m = X 2
− i
N
Definita come la somma dei quadrati degli scarti dalla media
(“Sum of Square”)

La devianza è sempre maggiore o uguale di zero e costituisce il


numeratore della varianza

DEV ( X ) ≥ 0
Corso di Statistica

Domanda:

Di fronte a due serie di misure di una stessa variabile con


medie uguali, ma devianze diverse, la devianza della
prima serie è maggiore perché i suoi dati sono più
dispersi o semplicemente perché il numero degli scarti è
più elevato?
Corso di Statistica

Paziente Sesso Età PA diastolica PA sistolica


(mmHg) (mmHg)
1 M 40 70 110
2 F 40 90 95
3 F 50 80 130
… … … … …
70 M 55 70 95

Paziente Sesso Età PA diastolica PA sistolica


(mmHg) (mmHg)
1 M 50 75 100
2 F 60 90 95
3 F 75 88 97
4 F 40 86 94
5 M 25 84 95

40 + 40 + 50 + ... + 55
µ1 = = 50 µ 2 = 50
70
∑ ( xi − µ ) = ( 40 − 50 ) + ( 40 − 50 ) + ( 50 − 50 ) + ... + ( 55 − 50 ) = 10 .620
n 2 2 2 2 2

i =1

∑ ( xi − µ ) = ( 50 − 50 ) + ( 60 − 50 ) + ... + ( 55 − 50 ) = 1.050
n 2 2 2 2

i =1
Corso di Statistica

La devianza non contiene l’informazione del numero di


osservazioni N utilizzate nel calcolo

VARIANZA
Definiamo varianza il rapporto tra la devianza e il
numero delle osservazioni:

∑ (X i − m)
2

σ 2
= i
N
Corso di Statistica

Paziente Sesso Età PA diastolica PA sistolica


(mmHg) (mmHg)
1 M 40 70 110
2 F 40 90 95
3 F 50 80 130
… … … … …
70 M 55 70 95

Paziente Sesso Età PA diastolica PA sistolica


(mmHg) (mmHg)
1 M 50 75 100
2 F 60 90 95
3 F 75 88 97
4 F 40 86 94
5 M 25 84 95

µ 1 = 50 dev1 = 10.620 Var 1 = 151,71


µ 2 = 50 dev2 = 1.050 Var 2 = 210

La seconda distribuzione per età presenta una


maggiore dispersione intorno alla media
Corso di Statistica

VARIANZA CAMPIONARIA
In campo biostatistico si preferisce utilizzare la formula della
varianza campionaria

∑ (X i − m)
2

S 2
= i
N −1
 Per N molto grande è ininfluente ai fini del risultato della
varianza dividere per N o N-1.
 Per N molto piccolo se dividiamo la devianza per N-1 rispetto
a N otterremo una varianza campionaria maggiore rispetto a
quella semplice.

Le N-1 osservazioni costituiscono i gradi di libertà, cioè le


osservazioni indipendenti nel calcolo della varianza.
Corso di Statistica
VARIANZA CAMPIONARIA
In campo biostatistico si preferisce utilizzare la formula della varianza
campionaria

∑ (X i − m)
2

S 2
= i
N −1
 Per N molto grande è ininfluente ai fini del risultato della varianza
dividere per N o N-1.
 Per N molto piccolo se dividiamo la devianza per N-1 rispetto a N
otterremo una varianza campionaria maggiore rispetto a quella
semplice.

Le N-1 osservazioni costituiscono i “gradi di libertà”, cioè le osservazioni


indipendenti nel calcolo della varianza.

Per semplificare i calcoli si può utilizzare questa formula:

1   ( ∑ x ) 2


S =
2

n −1 
∑ xi −
2 i

n 
 
Corso di Statistica

DEVIAZIONE STANDARD
 La variabilità deve essere associata alla tendenza centrale per
fornire una descrizione completa di un fenomeno.
 Il valore della varianza deriva dal quadrato degli scarti dalla media
ed ha un ordine di grandezza differente dal dato originale.
 Per un problema di interpretazione del dato è conveniente
esprimere la variabilità con lo stesso ordine di grandezza delle
medie: trasformiamo la varianza sotto il segno di radice e
otteniamo la

( )
n
2
∑ iX − m
Deviazione standard o
scarto quadratico medio
σ= i =1

che rappresenta la dispersione di una serie di dati


Corso di Statistica

INDICE DI VARIABILITA’ RELATIVA:


COEFFICIENTE DI VARIAZIONE
Il coefficiente di variazione è un indice numerico puro
Che si ottiene mettendo in rapporto la deviazione
standard con la media. Si esprime come percentuale
ed è adatto a confronti tra situazioni diverse.

σ
CV% = ⋅100
µ
Corso di Statistica
1_Esempio di confronto tra variabilità
Paziente Sesso Età PA diastolica PA sistolica (mmHg)
(mmHg)
1 M 50 75 100
2 F 47 90 95
3 F 74 88 97
4 F 40 86 94
5 M 61 84 95

Paziente Sesso Età PA diastolica PA sistolica (mmHg)


(mmHg)
1 M 28 70 110
2 F 45 90 95
3 F 50 80 130
4 F 63 85 85
5 M 80 75 95
n

∑x i
75 + 90 + 88 + 86 + 84 70 + ... + 75
µ1 = i =1
= = 84 ,6 µ2 = = 80
n 5 5

∑ ( xi − µ)
n 2

σ1 = i =1
=
( 75 − 84 ,6 ) +2 ( 90 − 84 ,6 ) 2 + ( 88 − 84 ,6) 2 + ( 86 − 84 ,6) 2 + ( 84 − 84 ,6) 2 = 5,8
n 5

σ2 =
( 70 − 80 ) 2 + ( 90 − 80 ) 2 + ( 80 − 80 ) 2 + ( 85 − 80 ) 2 + ( 75 − 80 ) 2 = 7,9
5
Corso di Statistica

2_Esempio di confronto tra variabilità


Paziente Sesso Età Glicemia Calcemia
(mg/100ml) (mg/100ml)
1 M 50 85 8

2 F 37 80 10

3 F 63 70 9

4 M 41 90 5

5 M 36 100 13

∑x i
85 + 80 + 70 + 90 + 100 8 + 10 + 9 + 5 + 13
µ1 = i =1
= = 85 µ2= =9
n 5 5

∑ ( xi − µ )
n 2

σ1= i =1
=
( 85 − 85) + 2 ( 80 − 85) 2 + ( 70 − 85) 2 + ( 90 − 85) 2 + (100− 85) 2 = 11,18
n 5

σ2=
( 8 − 9) 2 + (10 − 9) 2 + ( 9 − 9) 2 + ( 5 − 9) 2 + (13 − 9) 2 = 2,91
5
Corso di Statistica

Glicemia µ1 = 85 mg/100ml σ 1 = 11,18 mg/100ml


Calcemia µ 2 = 9 mg/100ml σ 2 = 2,91 mg/100ml

σ1 11,18
(1) CV% = ⋅100 = ⋅100 = 13,15%
µ1 85
σ2 2,91
(2) CV% = ⋅100 = ⋅100 = 32,39%
µ2 9

Confrontando i coefficienti di variazione risulta più variabile


la calcemia
Corso di Statistica

codice paziente età Posizione età

1 62 1 30 - La moda è 62
2 39 2 39

3 46 3 46 - La media aritmetica è 56,6


4 53 4 46 n

5 54 5 47
∑a i
30 +39 +46 +... +70
µ= i =1
= =56 ,6
6 68 6 52 n 20
7 63 7 53
- La mediana è 60,5
8 62 8 54
n 20
9 67 9 57 = =10
2 2
10 30 10 60
60 +61
11 66 11 61
⇒ =60 ,5
2
12 46 12 62 n 20
+1 = +1 =11
13 67 13 62 2 2
14 70 14 62

15 60 15 63

16 57 16 66

17 62 17 67

18 47 18 67

19 52 19 68

20 61 20 70
Corso di Statistica

codice paziente età Posizione età INDICI DI TENDENZA CENTRALE


Moda = 62
1 62 1 30

2 39 2 39
Mediana = 60,5
3 46 3 46
μ = 56,6
4 53 4 46

5 54 5 47 INDICI DI VARIABILIT A'


6 68 6 52 minimo = 30
7 63 7 53 massimo = 70
8 62 8 54 range = 40
9 67 9 57 deviazione st. = 10,63
10 30 10 60

11 66 11 61
∑ ( ai − µ )
n 2

12 46 12 62
σ= i =1
=
13 67 13 62 n
14 70 14 62
=
( 30 − 56,6) 2 + ( 39 − 56,6) 2 + ... + ( 70 − 56,6) 2 =
15 60 15 63 20
16 57 16 66
=
( − 26,6) 2 + ( −17,6) 2 + ... + (13,4) 2 =
17 62 17 67
20
18 47 18 67
707 ,6 + 309 ,8 + ... + 179,6
19 52 19 68 = = 10,63
20
20 61 20 70
Esercizio
 Nella tabella sono il numero di battiti cardiaci al
minuto di un gruppo di studenti
 66, 57, 65, 84, 48 56, 76, 73, 75, 76,, 6, 69, 70, 70,
71, 85, 68.
 Calcolare il range, la distribuzione di frequenze
relative, usndo classi di ampiezza pari a 25; la moda, i
quartili, la mediana, il coefficiente di variazione dei
primi 3 studenti.