Sei sulla pagina 1di 21

10/03/2015

Le misure numeriche

La media aritmetica
Indice centrale dei dati: somma dei valori numerici presi in considerazione diviso
la numerosità.
Per variabili quantitative: scala intervallare o rapporto.
Per il suo calcolo vengono usati tutti i valori.
Un insieme di dati ha una sola media.
La media risente di valori anomali.
Se ai dati viene aggiunta una costante, la media risulta traslata di quella
costante.
La somma delle distanze dei dati dalla media è zero.

Esempio: Per i dati (3;4;5) la media è 4; inoltre (3-4)+(4-4)+(5-4)=0


è 0.
Esempio: Per i dati (3;4;5) la media è 4. Per i dati (4;5;6) la media è 5=4+1.

Esempio: il valore della media per i dati relativi al secondo dataset sulle ore
di studio (capitolo precedente) è 21,76.
(25,8 + 23,2 + 10,1 + … + 21,1)/26
= 21,76

1
10/03/2015

Significato della media:

Il sistema nella figura risulta in equilibrio:


Secondo dataset:
media 21,76

Per i dati relativi al primo dataset sulle ore di studio (capitolo precedente),
il valore della media risulta 19,01.

Gli studenti del primo dataset dedicano un minor numero di ore allo studio.

La media è detta statistica. Una statistica è una funzione del campione casuale.

La media è una statistica non robusta

1 2 3 4 5 1 2 3 4 15 1 2 3 4 100

La media è 3 La media è 5 La media è 22

La media per classi di modalità


Supponiamo che i dati relativi al numero di ore, siano stati forniti in tabella, secondo le classi
di modalità (ad esempio quelle usate per l’istogramma).

Come si calcola la media?


Classi [10;14) [14;18) [18;22) [22;26) [26;30) [30;34)
Centri 12 16 20 24 28 32
Freq. 5 9 9 3 3 1
Assolute
∑ .
=19,1
Simile a 19!
Anche per il secondo dataset?
Classi [10;14) [14;18) [18;22) [22;26) [26;30)
Freq.
Assolute 1 2 10 11 2

∑ .
=18,8 E’ diverso!

2
10/03/2015

La media pesata
La media pesata (o ponderata) di un insieme di numeri, secondo
degli assegnati coefficienti (=pesi), è data dalla seguente formula:


∑ Se i pesi sono pari a 1…

Esempio: Voto medio di uno studente alla fine del primo anno del corso di Laurea in Economia
Materia CFU Voto Materia CFU Voto Materia CFU Voto

Matematica 6 21 Diritto 10 26 Economia 10 27


generale privato aziendale
Economia 10 25 Economia 10 23 Geografia 6 27
politica e gestione Economica
delle
imprese

6 21 & 10 25 & 10 26 & 10 23 & 10 27 & 6 27 = 24,96


!"
Media Pesata =

21 & 25 & 26 & 23 & 27 & 27 = 24,83


+
Media =

Rientra nel caso della media pesata, la media di una distribuzione di frequenza di forma:

# stanze # appartamenti
1 300
2 500
3 2.000
4 3.000
5 150
6 100
7 300

1 300 & 2 500 & ⋯ & 7 300 = 3,58


+,!-
Media Pesata =

Osservazione: Si noti che indicata con la media aritmetica, si ha

/ & /" & ⋯ & / & & ⋯&

volte

3
10/03/2015

La media geometrica
La media geometrica di un insieme di numeri è la radice n-esima
del loro prodotto:
0
/ /" ⋯ /

La media geometrica viene utilizzata quando si vuole analizzare il variare di un


fenomeno nel tempo, per esempio il tasso di variazione dei prezzi o i tassi di
rendimento di capitali.
Esempio: Un impiegato ha ricevuto un 5% di aumento di stipendio nel 2012 e un 15%
di aumento nell’anno successivo. Quanto vale la percentuale di crescita media?

Un 5% di aumento nel salario = In percentuale 1,05 e 1,15

1,15 1,05=1,09886
da 100 a 105
2
Un 15% di aumento nel salario =
da 100 a 115 L’aumento medio è di 9,89%

L’impiegato che all’inizio del 2012 aveva 1 euro, alla fine del 2012, per effetto dell’aumento,
ha 1,05 euro = 1 × 1,05 euro. All’inizio del 2013 l’impiegato ha un 1,05 euro che, per effetto
dell’aumento, diventa 1,05×1,15 alla fine del 2013.
La media geometrica c è tale che c × c= 1,05×1,15

La media armonica
La media armonica di un insieme di numeri è l’inverso

∑ 4 13/
della media aritmetica degli inversi. Serve a ricavare
un valore centrale sul tempo per dati che si riferisco-
no a intervalli temporali diversi.

Esempio: Tempo in secondi di 4 impiegati per produrre un singolo pezzo:


32, 28, 35, 31
0,03, 0,036, 0,029, 0,032
," "5 ,! ,
Gli inversi
rappresentano il no. di pezzi prodotti per unità di tempo (per sec.)
/,"8 /"58 /,!8 /,
9
La media: =0,032
rappresenta il no. medio di pezzi prodotti per unità di tempo (per sec.)

-,-,"
L’inverso della media =31,25
rappresenta il tempo medio (in secondi) per produrre un singolo pezzo

& & & & & &


," "5 ,! ,
La media armonica c è tale che

4
10/03/2015

Mediana
La mediana è il valore centrale dei dati.

Esempio: L’età per un campione di 5 studenti è 21; 25; 19; 20; 22.
1. Campione ordinato: 19; 20; 21; 22; 25.
2. La mediana è: 19; 20; 21; 22; 25.

Esempio: L’altezza (in cm) di 4 giocatori di basket è 186; 189; 190; 185
La mediana è…. 185; 186; ? 189; 190
5+8 5;
Una possibile scelta: : "
187,5

Proprietà
Un metodo alternativo
Per variabili qualitative ordinali.
è determinare il rango:
Rango &1 0,5 2,5 Per variabili quantitative: scala intervallare o rapporto.
La mediana si colloca tra Un insieme di dati ha una sola mediana.
l’elemento di rango 2 e 3
M= 186 & 0,5 =189 > 186?
La mediana non risente di valori anomali.
=187,5

La mediana è una statistica robusta.

1 2 3 4 5 1 2 3 4 100
1 2 3 4 15
La mediana è 3 La mediana è 3
La mediana è 3

Procedimento per il calcolo della mediana


a) Se / , /" , … , / rappresenta l’insieme di dati, il campione casuale deve essere ordinato:
/= ? A/ " A … A /= ?

L’insieme /= ? , / " , … , /= ? rappresenta il campione di dati ordinato.


(NB: la notazione = ? indica il rango del dato nel campione ordinato) .
b) Determinare il rango: &1 0,5 Primo esempio: 19; 20; 21; 22; 25.

c) Se è dispari, il rango sarà un numero intero e la mediana è l’elemento /= ?.

è pari, il rango è & 0,5 pertanto : / /" & B/ 8 3


"
>/ C 0,5
" "
Se

Secondo esempio: 185; 186; 187.5 189; 190

5
10/03/2015

La mediana per distribuzioni di frequenze


+.,!
Il rango è + 1 × 0,5 = = 3.175,5
# stanze # appartamenti Freq.Cum. "

1 300 300 La mediana è


2 500 800 :=/ + / −/ × 0,5
,. E! ,. E+ ,. E!

… /=".5--) = 3 /(".5-
3 2.000 2.800
4 3.000 ) = 4…
5.800
5 150 5.950 … . /(!.5--) =4 /(!.5- ) =5…
6 100 6.050
7 300 6.350 La mediana è 4

1,1,………..,1 2,2,………..,2 3,3,………..,3 4,4,………..,4

300 500 2.000 3.000 L’elemento di rango 3.175 è 4


L’elemento di rango 3.176 è 4
800

2.800

5.800

Moda
E’ l’elemento che appare più spesso nel campione.
Nominali
Colore capelli N° persone
(carattere) (frequenza assoluta) Può essere calcolata per tutti i tipi
di variabili.
Neri 10 Moda
Castani 6 Ordinali
Rossi 1 # stanze # appartamenti
biondi 5 1 300
totale 2 500
22
3 2.000
Moda 4 3.000
5 150
6 100
7 300

6
10/03/2015

Per dati di tipo intervallare o rapporto, bisogna in genere far riferimento alle
classi di modalità.

Unimodale Bimodale Multimodale


Può essere una sola (unimodale), Peso (in grammi) # neonati
possono essere due (bimodale), 1.800-2.200 10
più di tre (multimodale). 2.200-2.600 32
Può non essere significativa. 2.600-3.000 120
Moda 3.000-3.400 254
La moda è il punto medio della
3.400-3.800 134
classe con frequenza più elevata.
3.800-4.200 40
Il valore della moda è 3.200
4.200-4.600 10

Asimmetria
Un poligono di frequenza simmetrico ha questa forma:
Media=Moda=Mediana

Indici di posizione

Coda sinistra Coda destra

Poligoni asimmetrici hanno questa forma:

Asimmetria Positiva Asimmetria Negativa


Moda Moda
Coda destra Coda Sinistra

Media Media

Mediana Mediana

Regola: Coda destra se Media > Mediana. Coda sinistra se Media < Mediana.

7
10/03/2015

Possibile indice: Asimmetria = media - mediana E’ un metodo robusto?


Coda sinistra
Modalità Frequenza 8

1 1 7

Media = 5 6
2 2 5

3 3 4
3
4 4 2

5 5 1

0
6 6 1 2 3 4 5 6 7

7 7
Media = 3 Modalità Frequenza
Coda destra
8 1 7
7
2 6
6

5 3 5
4 4 4
3
5 3
2

1
6 2
0 7 1
1 2 3 4 5 6 7

Per le mediane risulta: Rango: + 1 × 0,5 =


";
= 14,5
"
Modalità Frequenza Freq. La mediana si colloca tra l’elemento di rango
cumulata 14 e 15. Poiché / 9 = / ! = 5 si ha:
1 1 1
:=/ 9 + / ! −/ 9 × 0,5= 5
2 2 3
3 3 6 Asimmetria = media – mediana = 0
4 4 10 Mediana
5 5 15
6 6 21
Modalità Frequenza Freq.cum.
7 7 28
1 7 7
2 6 13
Mediana
Poiché / 3 5 18
9 =/ ! = 3 si ha:
4 4 22
:=/ 9 + / ! −/ 9 × 0,5= 3
5 3 25
Asimmetria = media – mediana = 0 6 2 27
7 1 28

8
10/03/2015

Asimmetria=(Max-M)-(M-Min)

dove Max e Min sono i


valori in cui sono collocati i
baffi

Per il box-plot rosso


Asim=(7-5)-(5-1)=-2
(asimmetria negativa)

Per il box-plot blue


Asim=(7-3)-(3-1)=2
(asimmetria positiva)

Da 1 a 7 Da 7 a 1

Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.

o Il primo quartile può appartenere al campione casuale oppure no.


Esempio: L’età per un campione di 5 studenti è 21; 25; 19; 20; 22.
1. Il campione va ordinato: 19; 20; 21; 22; 25.
2. Il primo quartile è: 19; ? 20; 21; 22; 25.
→ Determinare il rango: + 1 ×0,25 = 1,5
Il primo quartile si colloca tra l’elemento di rango 1 e 2
F1 = 19 + 0,5 × (20 − 19) =19,5

Esempio: L’altezza di 4 giocatori di basket è 186; 189; 190; 185


Il primo quartile è…. 185; ? 186; 189; 190
→ Determinare il rango: + 1 ×0,25 = 1,25
Il terzo quartile si colloca tra l’elemento di rango 1 e 2

F1 = 185 + 0,25 × (186 − 185) =185,25

9
10/03/2015

Quartili
Il terzo quartile è quel valore che lascia a sinistra il 75% dei dati.

o Il terzo quartile può appartenere al campione casuale oppure no.


Esempio: L’età per un campione di 5 studenti è 21; 25; 19; 20; 22.
1. Il campione va ordinato: 19; 20; 21; 22; 25.
2. Il terzo quartile è: 19; 20; 21; 22; ? 25.

→ Determinare il rango: + 1 ×0,75 = 4,5


Il terzo quartile si colloca tra l’elemento di rango 4 e 5
F3 = 22 + 0,5 × (25 − 22) = 23,5

Esempio: L’altezza di 4 giocatori di basket è 186; 189; 190; 185


Il terzo quartile è…. 185; 186; 189; ? 190
→ Determinare il rango: + 1 ×0,75 = 3,75
Il terzo quartile si colloca tra l’elemento di rango 3 e 4 Il secondo quartile vale…?

F3 = 189 + 0,75 × (190 − 189) =189,75

Esempio:
Box-plot

10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;
17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;
23,7; 26,1; 27,1; 29,8; 33,8

Mediana: 30 + 1 ×0, 5 = 15,5


La mediana si colloca tra gli elementi di
rango 15 e 16.
La mediana è il punto medio tra 18,3 e
18,3, ossia 18,3.
Primo Quartile: 30 + 1 ×0, 25 = 7,75
Il primo quartile si trova tra l’elemento di
rango 7 e 8, ossia tra 14,2 e 15,0:
14,2+0,75*(15,0-14,2)=14,8

Terzo Quartile: 30 + 1 ×0, 75 = 23,25


Il terzo quartile si trova tra l’elemento di
rango 23 e 24, ossia tra 21,4 e 23,0:
21,4+0,25*(23,0-21,4)=21,8

10
10/03/2015

Outliers
Sono valori del campione casuale troppo «distanti» dal resto del campione casuale.
Regola del pollice: Si dicono outliers quei valori che distano dal primo e dal terzo quartile più
di 1,5*(Q3-Q1).

Q3-Q1=7 quindi 1,5*7 = 10,5

Sono considerati outliers i valori


inferiori a

Q1- 10,5=14,8-10,5=4,3

Poiché il min=10,3 > 4,3, allora il baffo


inferiore è collocato in corrispondenza
del minimo.
Sono considerati outliers i valori
superiori a
Q3+10,5=21,8+10,5=32,3

Poiché il max=33,8 > 32,3, allora 33,8 è


un outlier e il baffo superiore è collocato
in corrispondenza di 32,3.

I quartili per distribuzioni di frequenze

Per calcolare Q1:


# stanze # appartamenti Freq.Cum.
a) rango: (6350+1)*0,25=1587,75
1 300 300 b) pertanto Q1 si colloca tra /( !5E) e /( !55)
2 500 c) /( !5E) = /( !55) = 3
800
3 2.000 2800
Per calcolare Q3:
4 3.000 5800 a) rango: (6350+1)*0,75=4763,25
5 150 5950 b) pertanto Q3 si colloca tra /(9E+,) e /(9E+9)
6 100 c) /(9E+,) = /(9E+9) = 4
6050
7 300 6350

1,1,………..,1 2,2,………..,2 3,3,………..,3 4,4,………..,4

800 2000

2800

5800

11
10/03/2015

Torniamo all’esempio con distribuzioni speculari e calcoliamo i quartili

Modalità Frequenza Freq.cum. Per calcolare Q1:


1 1 1 a) rango: (28+1)*0,25=7,25
b) pertanto Q1 si colloca tra
2 2 3 /(E) = /(5) = 4
3 3 6 + Mediana = 5
Per calcolare Q3:
4 4 10 a) rango: (28+1)*0,75=21,75
5 5 15 b) pertanto Q3 si colloca tra
/(" ) = 6 e /("") = 7
6 6 21 6+0,75*(2-1)=6,75
7 7 28
Modalità Frequenza Freq. cum.
1 7 7
Per calcolare Q1:
a) rango: (28+1)*0,25=7,25 2 6 13
b) pertanto Q1 si colloca tra /(E) = 1 /(5) = 2 3 5 18
1+0,25*(2-1)=1,25 4 4 22
Per calcolare Q3: 5 3 25
a) rango: (28+1)*0,75=21,75
6 2 27
b) pertanto Q3 si colloca tra /(" ) = /("") = 4
7 1 28
+ Mediana = 3

Percentili
Andando da un medico per fare una visita di controllo a vostro cugino, dopo aver misurato
l’altezza, vedrete che farà uso di un grafico tipo quello della figura sottostante:

Poi rivolgendosi alla mamma


sentenzierà con aria preoccupa-
ta qualcosa del tipo: “Signora,
suo figlio è al 95-esimo
percentile….”

Cosa significa percentile?

Un percentile x è quel valore (non necessariamente del campione) che lascia a


sinistra x% dei dati.
E allora dire che il proprio figlio ha un peso al 95-esimo percentile, vuole dire che il 95%
della popolazione maschile della stessa età ha un peso inferiore.

12
10/03/2015

Esempio: Calcolo dei percentili

10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;
17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;
23,7; 26,1; 27,1; 29,8; 33,8
p=0,90: 30 & 1 0, 90 27,9
Il 90-esimo percentile si colloca tra gli
elementi di rango 27 e 28, ossia tra 26,1 e 0,90
27,1:
26,1+0,90*(27,1-26,1)=27
Il 90% degli intervistati dedica allo studio
non più di 27 ore.
Se volessi avere
l’informazione inversa…

Quale percentuale di studenti studia


non più di 27 ore?

H. H A 27 27
27
0,90
IJ 30

Calcolo dei percentili per le classi di modalità


Se non si conoscono i valori del campione, ma un suo riassunto in forma tabellare…

[10;14) [14;18) [18;22) [22;26) [26;30) [30;34)


5 9 9 3 3 1
Ad esempio per il calcolo della mediana:
a) Si individua la coppia di estremi consecutivi a, b tali
Estremi Freq. cum. che la freq. cumulata in a è inferiore alla taglia/2 e la
classi freq. cumulata in b è superiore alla taglia/2.
10 0
14 5 NB: in 18 la freq. cum.
18 14=5+9 è 14 <30/2=15, 23
mentre in 22 la
22 23=14+9
freq.cum. è
26 26 23>30/2. 14
30 29
34 30

Pertanto la classe [18,22) contiene la mediana


?
18 22

13
10/03/2015

Estremi Freq. cum.


b) Si calcolano le frequenze cumulate relative
classi relative
NB: Tra gli estremi 18 e 22, si passa da un valore inferiore 10 0
a 0,50 a un valore superiore a 0,50. 14 0,17
18 0,47
22 0,77
26 0,87
30 0,97
y=0,50 34 1

c) Risolvere il sistema:
L > 0,47 / > 18
K0,77 > 0,47 22 > 18
Mediana
L 0,50

/ 18 & M 22 > 18 dove

18,4
-,!-N-,9E
M
-,EEN-,9E
Mediana =0,1

Esempio: Calcolare i quartili Q1 e Q3. Per semplicità, è possibile considerare la


tabella delle frequenze cumulate relative.

Estremi Freq. cum. Per Q1: Il valore della frequenza cumulata relativa passa
classi relative da un valore inferiore a 0,25 (ossia 0,17 in 14) a un valore
10 0 superiore a 0,25 (ossia 0,47 in 18)

14 0,17 a) La classe di riferimento per Q1 è [14,18)


18 0,47 b) F1 14 & M 18 > 14 dove
F1 15,08
O,PQN-, E
M
-,9EN-, E
… … =0,27

Per Q3: Il valore della frequenza cumulata relativa passa Estremi Freq. cum.
da un valore inferiore a 0,75 (ossia 0,47 in 18) a un valore classi relative
superiore a 0,75 (ossia 0,77 in 22) … ...
a) La classe di riferimento per Q3 è [18,22)
b) F3 18 & M 22 > 18 dove
18 0,47
22 0,77
O,RQN-,9E
M F3 21,72
-,EEN-,9E
=0,93 26 0,87
30 0,97
34 1
Il box plot va costruito con min=10, max = 34
e i valori dei quartili che sono stati calcolati con questa procedura.

14
10/03/2015

Dataset esatto Dataset tabella

Indici di dispersione
Si dicono indici di dispersione quegli indici che misurano
la variabilità del campione casuale.

Campo di variazione (CV) = max - min


Intervallo interquartile (IQR)= Q3 – Q1

Deviazione standard (campionaria) = S T =U H ?

Esempio:
La media campionaria è 19,01

10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;
17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;
23,7; 26,1; 27,1; 29,8; 33,8

La varianza è la media aritmetica dei quadrati delle distanze dei singoli elementi del
campione dalla media:

1 1
" / > " & /" > " & ⋯& / > " V / > "
>1 >1
4

15
10/03/2015

10,3 12,9 12,9 13,5 13,7 19,01 19,7 20,3 20,7 20,8 21,4

1
" 10,3 > 19,01 " & 2 12,9 > 19,01 " & 13,5 > 19,01 " & ⋯ & 33,8 > 19,01 "
29
28,7 (è il quadrato di una distanza) → 28,7 5,36
2

La deviazione standard fornisce una misura della «concentrazione» dei


dati attorno alla media.

Il I dataset ha una variabilità


maggiore del II dataset.

La deviazione standard non è una statistica robusta.

1 2 3 4 5 1 2 3 4 100
1 2 3 4 15
C.V. = 4 C.V. = 99
IQR = 2 C.V. = 14 IQR = 2
s = 1,58 IQR = 2 s = 43,62
s = 5,07
Per variabili quantitative: scala intervallare o rapporto. 2 3 4 5 101
C.V. = 99
Per il suo calcolo vengono usati tutti i dati.
IQR = 2
Un insieme di dati ha una sola deviazione standard. s = 43,62

Assume valore sempre positivo.


Vale zero quando tutti i dati assumono lo stesso valore (variabile statistica
degenere) (Esempio: (2,2,2), media =2, s=0)

Invariante per traslazione: ossia se ad ogni dato viene aggiunta una quantità
costante, la deviazione standard non cambia.

16
10/03/2015

Regola di Chebyshev

> ; & =[13,65;24,37]


Circa il 68% dei dati appartiene a un intervallo centrato nella media campionaria e
di semiampiezza la deviazione standard

Circa il 95% dei dati appartiene a un intervallo centrato nella media campionaria e
di semiampiezza 2 volte la deviazione standard.

10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;
17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;
23,7; 26,1; 27,1; 29,8; 33,8

>2 ; & 2 =[8,29;29,72] 23


di questo intervallo? H 0,07
Quale percentuale cade al di fuori
30

Se consideriamo il secondo insieme di dati:


10,1; 15,1; 17,7; 18,2; 19,3; 19,8; 20,9; 20,9; 21,0; 21,1; 21,1; 21,4; 21,5; 22,3;
22,3; 22,4; 23,2; 23,3; 23,9; 24,2; 24,3; 25,1; 25,7; 25,8; 27,0; 28,3

21,77 3,78
La deviazione standard del II dataset è inferiore al I dataset

II dataset

Per misurare il grado di dispersione all’interno di uno stesso campione si può


confrontare la deviazione standard con la metà dell’intervallo centrale che com-
prende circa il 70% dei dati.

17
10/03/2015

15% 15%

15-esimo percentile 70% 85-esimo percentile

p=0,15: 30 & 1 0, 15 4,65


Il 15-esimo percentile si colloca tra gli
elementi di rango 4 e 5, ossia tra 13,5 e
13,7:

24,54 > 13,63


13,5+0,65*(13,7-13,5)=13,63
5,46 X 5,36
p=0,85: 30 & 1 0, 85 26,35 2
Il 85-esimo percentile si colloca tra gli
elementi di rango 26 e 27, ossia tra 23,7 e
26,1: Esempio:
23,7+0,35*(26,1-23,7)=24,54

10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;
17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;
23,7; 26,1; 27,1; 29,8; 33,8

15% 15%

15-esimo percentile 70% 85-esimo percentile

p=0,15: 26 & 1 0, 15 4,05


Il 15-esimo percentile si colloca tra gli
elementi di rango 4 e 5, ossia tra 18,2 e
19,3:

25,67 > 18,26


18,2+0,05*(19,3-18,2)=18,26
3,71 Y 3,78
p=0,85: 26 & 1 0, 85 22,95 2
L’85-esimo percentile si colloca tra gli
elementi di rango 22 e 23, ossia tra 25,1 e
25,7: Per il II dataset
25,1+0,95*(25,7-25,1)=25,67

10,1; 15,1; 17,7; 18,2; 19,3; 19,8; 20,9; 20,9; 21,0; 21,1; 21,1; 21,4; 21,5; 22,3;
22,3; 22,4; 23,2; 23,3; 23,9; 24,2; 24,3; 25,1; 25,7; 25,8; 27,0; 28,3

18
10/03/2015

La deviazione standard per classi di modalità


Supponiamo che i dati relativi al numero di ore, siano stati forniti in tabella, secondo le classi
di modalità (ad esempio quelle usate per l’istogramma).
Per il calcolo della varianza (e quindi della deviazione standard) si usa lo stesso procedimento
visto per la media, ossia

Classi [10;14) [14;18) [18;22) [22;26) [26;30) [30;34)


Centri 12 16 20 24 28 32
Freq. 5 9 9 3 3 1
Assolute

∑= N[ ?² .
N

= "; 12 > 19,1 ² 5 & ⋯ & 32 > 19,1 ² 1

=28,34 → 5,32

Un caso particolare: stessa media 0,


stessa varianza 1.

Per variabili qualitative, è opportuno usare un indice di dispersione di natura diversa:

Indice di eterogeneità (di Gini) # stanze # appartamenti Freq.rel.

\ 1 > ] " & ⋯ & ]^ "


1 300 0,047
2 500 0,079
Minimo: quando vi è una sola 3 2.000 0,315
modalità con frequenza relativa 1 4 3.000 0,472
\ 0 5 150 0,024

modalità sono equifrequenti ⁄^.


Massimo: quando tutte le k 6 100 0,016
7 300 0,047

1 1 ` `>1
\ 1> & ⋯& " 1>
` " ` `" `
Assume sempre valori positivi.

Esempio: \ 1 > 0,047² & 0,079² & ⋯ & 0,047² =0,67


Poiché (k-1)/k=6/7=0,86 la tabella è piuttosto etereogenea.

19
10/03/2015

Il coefficiente di variazione
Una proprietà desiderabile per un indice di variabilità è che non dipenda
dalla unità di misura in cui è espresso il carattere. Questa proprietà
consente di effettuare confronti tra grandezze con misure diverse. E non
solo.
Esempio: L’altezza di 5 studenti (in cm) è: 172, 175, 176, 178, 180.
La media risulta essere 176,2 cm e la deviazione standard risulta essere
3,033 cm.
In metri, la media diviene 1,762 m e la deviazione standard è 0,030!!
Non possiamo concludere che nel secondo caso la variabilità è inferiore.

Si definisce coefficiente di variazione il rapporto tra deviazione standard


e media campionaria (presa con il segno positivo).

Nell’esempio è: 0,0172

Esempio: L’ altezza di 5 neonati (in cm) è: 52, 50, 46, 51, 53.
La media risulta essere 50,4 cm e la deviazione standard risulta
essere 2,70 cm. Il coefficiente di variazione è 0,053.

Anche quando le unità di misure sono le stesse, l’uso del coefficiente di variazione può
tornare utile.
Esempio:
Regione DC PLI Regione DC PLI Regione DC PLI
Piemonte 27,6 6,6 Toscana 25,3 1,4 Puglia 36,3 2,1
Lombardia 33,4 3,8 Umbria 26,2 1,2 Basilicata 46,0 0,8
Veneto 42,6 2,8 Marche 33,4 1,6 Calabria 36,8 0,9
Liguria 27,3 4,7 Lazio 31,1 2,7 Sardegna 31,7 1,5
Friuli V.G. 34,5 2,2 Abruzzo 42,2 1,7 Sicilia 26,9 1,7
Trentino A.A. 27,6 1,6 Molise 55,5 2,2
Emilia R. 22,8 2,3 Campania 36,2 2,4

Distribuzione delle percentuali di voto nel 1983.

La percentuale media è pari al 33,9% per la DC, mentre per il PLI è notevolmente inferiore,
pari al 2,3%.
Le differenze tra una regione e l’altra saranno maggiori, in punti percentuali, nella
DC: infatti tra la Basilicata e l’Emilia vi è una differenza di 23,2 punti. Nel PLI la differenza
massima è pari a solo 5,8 punti.
La deviazione standard della percentuale di voti è 8,23 per la DC mentre è 1,41 nel PLI.

CV-DC=8,23/33,9=0,24 CV-PLI=1,41/2,3=0,61

Se si confrontano i coefficienti di variazione, il risultato si rovescia: la distribuzione del


voto alla DC appare più omogenea rispetto a quella del PLI.

20
10/03/2015

Il coefficiente di variazione consente di valutare anche la «correttezza» della


media campionaria. Infatti la media campionaria si ritiene un indice corretto se
assume valori inferiori a 0,5.
Esempio:
CV-DC=8,23/33,9=0,24 CV-PLI=1,41/2,3=0,61

La media è un indice corretto per la percentuale di voto


relativa alla DC, ma non è così per il PLI. Perché?

Precisione della media campionaria


Si definisce precisione della media campionaria il rapporto tra la deviazione cam-
pionaria e la radice quadrata della taglia.

b 1,5 → de
a\: =c
0,27 → fgh

Al crescere della taglia, SEM diminuisce e quindi la media campionaria è End


più precisa.

https://www.youtube.com/watch?v=LQ8gtqz1WYg

21

Potrebbero piacerti anche