Le misure numeriche
La media aritmetica
Indice centrale dei dati: somma dei valori numerici presi in considerazione diviso
la numerosità.
Per variabili quantitative: scala intervallare o rapporto.
Per il suo calcolo vengono usati tutti i valori.
Un insieme di dati ha una sola media.
La media risente di valori anomali.
Se ai dati viene aggiunta una costante, la media risulta traslata di quella
costante.
La somma delle distanze dei dati dalla media è zero.
Esempio: il valore della media per i dati relativi al secondo dataset sulle ore
di studio (capitolo precedente) è 21,76.
(25,8 + 23,2 + 10,1 + … + 21,1)/26
= 21,76
1
10/03/2015
Per i dati relativi al primo dataset sulle ore di studio (capitolo precedente),
il valore della media risulta 19,01.
Gli studenti del primo dataset dedicano un minor numero di ore allo studio.
La media è detta statistica. Una statistica è una funzione del campione casuale.
1 2 3 4 5 1 2 3 4 15 1 2 3 4 100
∑ .
=18,8 E’ diverso!
2
10/03/2015
La media pesata
La media pesata (o ponderata) di un insieme di numeri, secondo
degli assegnati coefficienti (=pesi), è data dalla seguente formula:
∑
∑ Se i pesi sono pari a 1…
Esempio: Voto medio di uno studente alla fine del primo anno del corso di Laurea in Economia
Materia CFU Voto Materia CFU Voto Materia CFU Voto
Rientra nel caso della media pesata, la media di una distribuzione di frequenza di forma:
# stanze # appartamenti
1 300
2 500
3 2.000
4 3.000
5 150
6 100
7 300
volte
3
10/03/2015
La media geometrica
La media geometrica di un insieme di numeri è la radice n-esima
del loro prodotto:
0
/ /" ⋯ /
1,15 1,05=1,09886
da 100 a 105
2
Un 15% di aumento nel salario =
da 100 a 115 L’aumento medio è di 9,89%
L’impiegato che all’inizio del 2012 aveva 1 euro, alla fine del 2012, per effetto dell’aumento,
ha 1,05 euro = 1 × 1,05 euro. All’inizio del 2013 l’impiegato ha un 1,05 euro che, per effetto
dell’aumento, diventa 1,05×1,15 alla fine del 2013.
La media geometrica c è tale che c × c= 1,05×1,15
La media armonica
La media armonica di un insieme di numeri è l’inverso
∑ 4 13/
della media aritmetica degli inversi. Serve a ricavare
un valore centrale sul tempo per dati che si riferisco-
no a intervalli temporali diversi.
-,-,"
L’inverso della media =31,25
rappresenta il tempo medio (in secondi) per produrre un singolo pezzo
4
10/03/2015
Mediana
La mediana è il valore centrale dei dati.
Esempio: L’età per un campione di 5 studenti è 21; 25; 19; 20; 22.
1. Campione ordinato: 19; 20; 21; 22; 25.
2. La mediana è: 19; 20; 21; 22; 25.
Esempio: L’altezza (in cm) di 4 giocatori di basket è 186; 189; 190; 185
La mediana è…. 185; 186; ? 189; 190
5+8 5;
Una possibile scelta: : "
187,5
Proprietà
Un metodo alternativo
Per variabili qualitative ordinali.
è determinare il rango:
Rango &1 0,5 2,5 Per variabili quantitative: scala intervallare o rapporto.
La mediana si colloca tra Un insieme di dati ha una sola mediana.
l’elemento di rango 2 e 3
M= 186 & 0,5 =189 > 186?
La mediana non risente di valori anomali.
=187,5
1 2 3 4 5 1 2 3 4 100
1 2 3 4 15
La mediana è 3 La mediana è 3
La mediana è 3
5
10/03/2015
… /=".5--) = 3 /(".5-
3 2.000 2.800
4 3.000 ) = 4…
5.800
5 150 5.950 … . /(!.5--) =4 /(!.5- ) =5…
6 100 6.050
7 300 6.350 La mediana è 4
2.800
5.800
Moda
E’ l’elemento che appare più spesso nel campione.
Nominali
Colore capelli N° persone
(carattere) (frequenza assoluta) Può essere calcolata per tutti i tipi
di variabili.
Neri 10 Moda
Castani 6 Ordinali
Rossi 1 # stanze # appartamenti
biondi 5 1 300
totale 2 500
22
3 2.000
Moda 4 3.000
5 150
6 100
7 300
6
10/03/2015
Per dati di tipo intervallare o rapporto, bisogna in genere far riferimento alle
classi di modalità.
Asimmetria
Un poligono di frequenza simmetrico ha questa forma:
Media=Moda=Mediana
Indici di posizione
Media Media
Mediana Mediana
Regola: Coda destra se Media > Mediana. Coda sinistra se Media < Mediana.
7
10/03/2015
1 1 7
Media = 5 6
2 2 5
3 3 4
3
4 4 2
5 5 1
0
6 6 1 2 3 4 5 6 7
7 7
Media = 3 Modalità Frequenza
Coda destra
8 1 7
7
2 6
6
5 3 5
4 4 4
3
5 3
2
1
6 2
0 7 1
1 2 3 4 5 6 7
8
10/03/2015
Asimmetria=(Max-M)-(M-Min)
Da 1 a 7 Da 7 a 1
Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.
9
10/03/2015
Quartili
Il terzo quartile è quel valore che lascia a sinistra il 75% dei dati.
Esempio:
Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;
17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;
23,7; 26,1; 27,1; 29,8; 33,8
10
10/03/2015
Outliers
Sono valori del campione casuale troppo «distanti» dal resto del campione casuale.
Regola del pollice: Si dicono outliers quei valori che distano dal primo e dal terzo quartile più
di 1,5*(Q3-Q1).
Q1- 10,5=14,8-10,5=4,3
800 2000
2800
5800
11
10/03/2015
Percentili
Andando da un medico per fare una visita di controllo a vostro cugino, dopo aver misurato
l’altezza, vedrete che farà uso di un grafico tipo quello della figura sottostante:
12
10/03/2015
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;
17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;
23,7; 26,1; 27,1; 29,8; 33,8
p=0,90: 30 & 1 0, 90 27,9
Il 90-esimo percentile si colloca tra gli
elementi di rango 27 e 28, ossia tra 26,1 e 0,90
27,1:
26,1+0,90*(27,1-26,1)=27
Il 90% degli intervistati dedica allo studio
non più di 27 ore.
Se volessi avere
l’informazione inversa…
H. H A 27 27
27
0,90
IJ 30
13
10/03/2015
c) Risolvere il sistema:
L > 0,47 / > 18
K0,77 > 0,47 22 > 18
Mediana
L 0,50
18,4
-,!-N-,9E
M
-,EEN-,9E
Mediana =0,1
Estremi Freq. cum. Per Q1: Il valore della frequenza cumulata relativa passa
classi relative da un valore inferiore a 0,25 (ossia 0,17 in 14) a un valore
10 0 superiore a 0,25 (ossia 0,47 in 18)
Per Q3: Il valore della frequenza cumulata relativa passa Estremi Freq. cum.
da un valore inferiore a 0,75 (ossia 0,47 in 18) a un valore classi relative
superiore a 0,75 (ossia 0,77 in 22) … ...
a) La classe di riferimento per Q3 è [18,22)
b) F3 18 & M 22 > 18 dove
18 0,47
22 0,77
O,RQN-,9E
M F3 21,72
-,EEN-,9E
=0,93 26 0,87
30 0,97
34 1
Il box plot va costruito con min=10, max = 34
e i valori dei quartili che sono stati calcolati con questa procedura.
14
10/03/2015
Indici di dispersione
Si dicono indici di dispersione quegli indici che misurano
la variabilità del campione casuale.
Esempio:
La media campionaria è 19,01
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;
17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;
23,7; 26,1; 27,1; 29,8; 33,8
La varianza è la media aritmetica dei quadrati delle distanze dei singoli elementi del
campione dalla media:
1 1
" / > " & /" > " & ⋯& / > " V / > "
>1 >1
4
15
10/03/2015
10,3 12,9 12,9 13,5 13,7 19,01 19,7 20,3 20,7 20,8 21,4
1
" 10,3 > 19,01 " & 2 12,9 > 19,01 " & 13,5 > 19,01 " & ⋯ & 33,8 > 19,01 "
29
28,7 (è il quadrato di una distanza) → 28,7 5,36
2
1 2 3 4 5 1 2 3 4 100
1 2 3 4 15
C.V. = 4 C.V. = 99
IQR = 2 C.V. = 14 IQR = 2
s = 1,58 IQR = 2 s = 43,62
s = 5,07
Per variabili quantitative: scala intervallare o rapporto. 2 3 4 5 101
C.V. = 99
Per il suo calcolo vengono usati tutti i dati.
IQR = 2
Un insieme di dati ha una sola deviazione standard. s = 43,62
Invariante per traslazione: ossia se ad ogni dato viene aggiunta una quantità
costante, la deviazione standard non cambia.
16
10/03/2015
Regola di Chebyshev
Circa il 95% dei dati appartiene a un intervallo centrato nella media campionaria e
di semiampiezza 2 volte la deviazione standard.
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;
17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;
23,7; 26,1; 27,1; 29,8; 33,8
21,77 3,78
La deviazione standard del II dataset è inferiore al I dataset
II dataset
17
10/03/2015
15% 15%
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;
17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;
23,7; 26,1; 27,1; 29,8; 33,8
15% 15%
10,1; 15,1; 17,7; 18,2; 19,3; 19,8; 20,9; 20,9; 21,0; 21,1; 21,1; 21,4; 21,5; 22,3;
22,3; 22,4; 23,2; 23,3; 23,9; 24,2; 24,3; 25,1; 25,7; 25,8; 27,0; 28,3
18
10/03/2015
∑= N[ ?² .
N
s²
= "; 12 > 19,1 ² 5 & ⋯ & 32 > 19,1 ² 1
=28,34 → 5,32
1 1 ` `>1
\ 1> & ⋯& " 1>
` " ` `" `
Assume sempre valori positivi.
19
10/03/2015
Il coefficiente di variazione
Una proprietà desiderabile per un indice di variabilità è che non dipenda
dalla unità di misura in cui è espresso il carattere. Questa proprietà
consente di effettuare confronti tra grandezze con misure diverse. E non
solo.
Esempio: L’altezza di 5 studenti (in cm) è: 172, 175, 176, 178, 180.
La media risulta essere 176,2 cm e la deviazione standard risulta essere
3,033 cm.
In metri, la media diviene 1,762 m e la deviazione standard è 0,030!!
Non possiamo concludere che nel secondo caso la variabilità è inferiore.
Nell’esempio è: 0,0172
Esempio: L’ altezza di 5 neonati (in cm) è: 52, 50, 46, 51, 53.
La media risulta essere 50,4 cm e la deviazione standard risulta
essere 2,70 cm. Il coefficiente di variazione è 0,053.
Anche quando le unità di misure sono le stesse, l’uso del coefficiente di variazione può
tornare utile.
Esempio:
Regione DC PLI Regione DC PLI Regione DC PLI
Piemonte 27,6 6,6 Toscana 25,3 1,4 Puglia 36,3 2,1
Lombardia 33,4 3,8 Umbria 26,2 1,2 Basilicata 46,0 0,8
Veneto 42,6 2,8 Marche 33,4 1,6 Calabria 36,8 0,9
Liguria 27,3 4,7 Lazio 31,1 2,7 Sardegna 31,7 1,5
Friuli V.G. 34,5 2,2 Abruzzo 42,2 1,7 Sicilia 26,9 1,7
Trentino A.A. 27,6 1,6 Molise 55,5 2,2
Emilia R. 22,8 2,3 Campania 36,2 2,4
La percentuale media è pari al 33,9% per la DC, mentre per il PLI è notevolmente inferiore,
pari al 2,3%.
Le differenze tra una regione e l’altra saranno maggiori, in punti percentuali, nella
DC: infatti tra la Basilicata e l’Emilia vi è una differenza di 23,2 punti. Nel PLI la differenza
massima è pari a solo 5,8 punti.
La deviazione standard della percentuale di voti è 8,23 per la DC mentre è 1,41 nel PLI.
CV-DC=8,23/33,9=0,24 CV-PLI=1,41/2,3=0,61
20
10/03/2015
b 1,5 → de
a\: =c
0,27 → fgh
https://www.youtube.com/watch?v=LQ8gtqz1WYg
21