Sei sulla pagina 1di 37

Elementi di Statistica descrittiva

Lez. 3 - Gli Indici di VARIABILITA’

- Campo di variazione
- Scarto dalla media
- Varianza
- Scarto quadratico medio
- Coefficiente di variazione

1
Indici di Variabilità

I valori medi sono indici importanti per la


descrizione sintetica di un fenomeno
statistico

Hanno però il limite di non darci alcuna


informazione sulla distribuzione dei dati

2
Esempio
In tre differenti prove di matematica 4 studenti hanno riportato
le seguenti valutazioni

1a Prova 2a Prova 3a Prova


1° studente 3 5 6
2° studente 5 7 7
3° studente 8 6 6
4° studente 9 7 6

media 6,25 6,25 6,25

In tutte e tre le prove la media è 6,25


ma i dati sono chiaramente distribuiti in modo diverso

3
Diagramma di distribuzione delle tre prove

Diagramma dispersione dati

10
9
8
7 1 studente
valutazioni

6 media 2 sttudente
5
4 3 studente
3
2 4 studente
1
0
0 1 2 3 4
num prova

4
Diagramma dispersione dati

10
9
8
7 1 studente
valutazioni

6 media 2 sttudente
5
4 3 studente
3
2 4 studente
1
0
0 1 2 3 4
num prova

• nel caso della 1a prova e 2a prova sarà opportuno


fare un recupero per alcuni studenti
• nel caso della 3a prova l’insegnante può ritenere
che gli obiettivi siano stati raggiunti dalla classe,
anche se ad un livello solo sufficiente

5
In statistica è possibile valutare in modo
sintetico la distribuzione dei dati mediante gli
indici di variabilità (o dispersione)
Vedremo i seguenti indici

• Campo di variazione (Range)


• Scarto medio dalla media
• Varianza e scarto quadratico medio
• Coefficiente di variazione

6
Campo di variazione
E’ il più semplice degli indici di variazione:

Si calcola facendo la differenza tra il dato più


grande e il dato più piccolo

Campo variazione = x max – x min

Rappresenta l’ampiezza dell’intervallo dei dati

7
Esempio
Consideriamo le valutazioni della prima prova
1a Prova
1° studente 3
2° studente 5
3° studente 8
4° studente 9

media 6,25

Xmax = 9;
Xmin = 3 Range = 9 – 3 = 6

8
Calcoliamo il Range per tutte le tre prove

1a Prova 2a Prova 3a Prova


1° studente 3 2 6
2° studente 5 7 7
3° studente 8 8 6
4° studente 9 8 6

media 6,25 6,25 6,25


range 6 6 1

Range 1a prova = 6  dati più dispersi,


risultati più eterogenei
Range 3a prova = 1  dati più concentrati,
risultati più omogenei
Range 2a prova = Range 1a prova = 6 Stessa Distribuzione?
9
Vediamo graficamente

Campo di variazione delle tre prove

10
9
8
7 1 studente
6
valutazioni

2 sttudente
5
4 3 studente
3
4 studente
2
1
0
0 1 2 3 4
num prova range

10
Osservazioni:
1. Il campo di variazione dà informazioni sulla
distribuzione dei dati:
• più R è piccolo più i dati sono concentrati;
• più R è grande più i dati sono dispersi.

2. R è espresso nella stessa unità di misura dei dati


3. Tuttavia R tiene conto solo dei dati estremi della
distribuzione e non di tutti i dati, pertanto distribuzioni
diverse ma con gli stessi valori estremi hanno range
uguali
Es. Range 1aprova = Range 2a prova.
ma distribuzione 1a prova  Distribuzione 2a prova 11
Scarto medio dalla media aritmetica
Un altro modo per calcolare la variabilità dei dati
(tenendo conto di tutti i dati) consiste nel
calcolare la distanza di tutti i dati dalla media e
fare la media aritmetica di tali distanze

x1  x  x 2  x  .....  x n  x
Scarto medio  S m 
n

Scarto medio = Distanza media dei dati dalla media

12
Esempio
Consideriamo le valutazioni della prima prova
1a Prova
1° studente 3
2° studente 5
3° studente 8
4° studente 9

media 6,25

x1 =  3 – 6,25  = 3,25; x2 =  5 – 6,25  = 1,25;


x3 =  8 – 6,25  = 1,75; x4 =  9 – 6,25  = 2,75;

Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25


4
13
Calcoliamo lo Scarto medio per tutte le tre prove

1a Prova 2a Prova 3a Prova


1° studente 3 2 6
2° studente 5 7 7
3° studente 8 8 6
4° studente 9 8 6

media 6,25 6,25 6,25


scarto medio 2,25 2,13 0,38

Scarto 1a prova = 2,25  dati più dispersi,


risultati più eterogenei
Scarto 3a prova = 0,38  dati più concentrati,
risultati più omogenei
Scarto 2a pr.  Scarto 1a pr. “Le Distribuzioni Differiscono”
14
Diagramma degli scarti dalla media

Diagramma degli scarti dalla media

4,00
3,00
2,00
Scarto dalla media

1,00 stud.1
0,00 stud.2
-1,00 stud.3
-2,00
1 2 3
stud.4
-3,00
-4,00
-5,00
num. prova

15
Osservazioni:
1. Lo scarto medio dalla media dà informazioni sulla
distribuzione dei dati:
• più SM è piccolo più i dati sono concentrati;
• più SM è grande più i dati sono dispersi.

2. SM è espresso nella stessa unità di misura dei dati

3. Non ha l'inconveniente del “Campo di variazione” in


quanto SM tiene conto di tutti i dati della distribuzione

16
Varianza e Scarto quadratico medio
Sono gli indici di variabilità più utilizzati, e
tengono conto della distribuzione di tutti i dati.

Varianza
Rappresenta la media aritmetica dei quadrati
delle distanze dei dati dalla media M

Varianza   2

 x
1  
2
 2

 x  x 2  x  .....  x n  x  2

17
x 
n n

  x 
2 2
i x i
Varianza  1
 1

n n

18
Esempio - Varianza
Consideriamo le valutazioni della prima prova
1a Prova
1° studente 3
2° studente 5
3° studente 8
4° studente 9

media 6,25

(x1)2 = (3 – 6,25 )2 = 10,5625; (x2)2 = (5 – 6,25 )2 = 1,5625;


(x3)2 = (8 – 6,25 )2 = 3,0625; (x4)2 = (9 – 6,25 )2 = 7,5625;

2 = 10,5625+1,5625+3,0625+7,5625 = 5,6875
4
19
Calcoliamo la Varianza per tutte le tre prove
1a Prova 2a Prova 3a Prova
1° studente 3 2 6
2° studente 5 7 7
3° studente 8 8 6
4° studente 9 8 6

media 6,25 6,25 6,25


varianza 5,69 6,19 0,19

Varianza 1aprova = 5,69  dati più dispersi,


risultati più eterogenei
Varianza 3a prova = 0,19  dati più concentrati,
risultati più omogenei
Varianza 2a pr.  Varianza 1a pr “Le Distribuzioni Differiscono”

20
Scarto quadratico medio o
Deviazione standard
È uguale alla radice quadrata della varianza

Scarto quadr. medio   


 x  x   x
1
2
2  2
 x  .....  xn  x   2

  x  x
n n

 i 
2 2
i x
Scarto quadr medio  1
 1
n n
21
Esempio - Scarto quadratico medio
Riprendiamo le valutazioni della prima prova
1a Prova scarti da M scarti2
1° studente 3 -3,25 10,5625
2° studente 5 -1,25 1,5625
3° studente 8 1,75 3,0625
4° studente 9 2,75 7,5625

media 6,25 0,00 5,6875

  x 
2
i
 1
  2  5,6875  2,3848
n
22
Calcoliamo lo Scarto quadratico medio per tutte le prove
1a Prova 2a Prova 3a Prova
1° studente 3 2 6
2° studente 5 7 7
3° studente 8 8 6
4° studente 9 8 6

media 6,25 6,25 6,25


scarto quadratico 2,38 2,49 0,43

Scarto q. 1aprova = 2,38  dati più dispersi,


risultati più eterogenei
Scarto q. 3aprova = 0,43  dati più concentrati,
risultati più omogenei
Scarto q. 2a pr.  Scarto q. 1a pr “Le Distribuzioni Differiscono”

23
Osservazioni:

1. La varianza 2 e lo scarto quadratico medio  danno


informazioni sulla distribuzione dei dati:

• più 2 e  sono piccoli più i dati sono concentrati;


• più 2 e  sono grandi più i dati sono dispersi.

2. Entrambi gli indici tengono conto di tutti i dati della


distribuzione

24
3. Entrambi si basano sulla proprietà della media per cui
la somma dei quadrati degli scarti dalla media è
minima

4. La varianza è espressa mediante il quadrato dell’unità


di misura dei dati

5. Lo scarto quadratico nella stessa unità di misura dei


dati e pertanto viene preferito alla varianza

25
Il coefficiente di variazione CV

Il CV è una misura relativa di dispersione (le precedenti


sono misure assolute) ed è una grandezza adimensionale.
E’ particolarmente utile quando si devono confrontare le
distribuzioni di due gruppi con medie molto diverse o
con dati espressi in scale differenti (es. confronto tra
variazione del peso e variazione dell’altezza).

 
CV    100 %
x 

26
In natura il coeff. di variazione tende a rimanere costante per
ogni fenomeno:
i valori normalmente variano dal 5% al 15%

Se i valori di CV sono esterni a quelli indicati o si è in


presenza di errori di rilevazione, oppure il fenomeno presenta
aspetti particolari.
• se CV è molto basso (2 – 3 %) bisogna sospettare
l’esistenza di fattori limitanti la variabilità,
• se CV è molto alto (intorno al 40% o più) è molto
probabile l’esistenza di fattori che aumentano la variabilità

27
Calcoliamo il Coeff. di variazione delle tre prove
1a Prova 2a Prova 3a Prova
1° studente 3 2 6
2° studente 5 7 7
3° studente 8 8 6
4° studente 9 8 6

media 6,25 6,25 6,25


scarto quadratico 2,38 2,49 0,43
coeff. variazione 38,16% 39,80% 6,93%

CV 1a prova = 38,16%  dati più dispersi,


risultati più eterogenei
CV 3a prova = 6,93%  dati più concentrati,
risultati più omogenei
CV 2a pr.  CV 1a pr  “Le Distribuzioni Differiscono”
28
Le misure di Forma
Sono indici sintetici utilizzati per evidenziare
particolarità nella forma della distribuzione.

Noi esamineremo:
• l’asimmetria
• la curtosi

29
Asimmetria
Una distribuzione è simmetrica quando la sua curva
di frequenza presenta un asse di simmetria
In una distribuzione simmetrica media, mediana e
moda sono coincidenti.
Confronto di distrib. normali

In una distribuzione 0,25


1° distrib. normale

asimmetrica media, mediana e media = mediana


= moda
moda non sono più 0,2

coincidenti frequenza 0,15

0,1
e proprio la differenza
(distanza) tra la media e la 0,05

moda può essere considerata 0


0 2 4 6 8 10 12 14 16
una misura della asimmetria valori della variabile

30
Sono state proposte diverse misure dell’ asimmetria, per
esempio le più semplici sono:
mediaaritmetica  moda x  moda
asimmetria  
scarto quadratico medio 

3(mediaaritmetica  mediana) 3( x  mediana)


asimmetria  
scarto quadratico medio 
Dette rispettivamente: primo e secondo coeff. di asimmetria di Pearson

Un altro coeff di asimmetria è il


Coeff. di asimmetria (di Fisher) 
1 
 
xi  x f i 
3



a 3  i 
 = scarto quadratico medio   i i 
f
Se a = 0 distribuzione simmetrica  
Se a > 0 asimmetria destra
Se a < 0 asimmetria sinistra 31
Asimmetria positiva (as. Destra)
La distribuzione è asimmetrica quando non presenta
nessun asse di simmetria.
Si ha un’asimmetria positiva o destra quando il ramo
destro della curva è più lungo di quello sinistro
Asimmetria positiva o destra

12

In questo caso si ha: 10

8
frequenza

moda < mediana < media 6

0
0 20 40 60 80 100 120 140 160
valori media=63,65
moda = 48
mediana =58 32
Asimmetria negativa (as. Sinistra)
Si ha un’asimmetria negativa o sinistra quando il ramo
sinistro della curva è più lungo di quello destro
Asimmetria negativa o as. sinistra

14
12
10

In questo caso si ha:


frequenza
8
6
4

media < mediana < moda 2


0
0 20 40 60 80 100 120 140

media = 85,24 valori

mediana = 90 moda = 100

33
Curtosi
Se una distribuzione è simmetrica o quasi simmetrica
allora può esser più o meno appuntita o più o meno
appiattita rispetto alla distribuzione normale (o di
Gauss)
Se la curva è
• più appuntita si dice curva Leptocurtica
• più appiattita si dice curva Platicurtica
Coeff. di curtosi di Pearson
  = scarto quadratico medio

 x
1  i i
 
x
4
f 
i


0  K < + inf K 4 
Se K = 3 distribuzione normale
se K > 3 curva leptocurtica
  i i 
f
Se K < 3 curva platicurtica.  
34
Curtosi
Confronto delle Curtosi

0,45

0,4
leptocurtosi
0,35 K = 8,57
0,3

curva normale
fre que nza

0,25
K=3
0,2

0,15
platicurtosi
0,1 K = 2,8
0,05

0
0 2 4 6 8 10 12 14 16
-0,05
valori della variabile

35
Curtosi
Spesso il coeff. di curtosi viene indicato con b2
che, come visto, nel caso della distribuzione
normale è = 3
pertanto, talvolta, la curtosi viene indicata con
(b2 – 3)
Allora:
se la distribuzione è normale (b2 – 3 ) = 0
se la distribuzione è leptocurtica (b2 – 3 ) > 0
se la distribuzione è platicurtica (b2 – 3 ) < 0

36
Fine Lezione

37