Sei sulla pagina 1di 37

Corso di Laurea in modalit teledidattica

Scienze dellEducazione e della Formazione in una societ multiculturale

SECS-S/01 Statistica

MODULO A - 1 CFU

Massimiliano Bultrini, Carla Rossi


Elementi di Statistica Sociale
Scuola IaD Roma, 2003
M. Bultrini, C. Rossi Tutti i diritti riservati

TERZA UNIT................................................................................................................3
3

ELABORAZIONI DI DATI: GLI INDICI STATISTICI......................................4

3.1 INDICI STATISTICI UNIVARIATI..................................................4


3.2 LE MEDIE ANALITICHE...........................................................5
3.2.1 LA MEDIA ARITMETICA.............................................................................................5
3.2.2 LA MEDIA GEOMETRICA.......................................................................................14
3.3 LE MEDIE DI POSIZIONE.......................................................17
3.3.1 LA MEDIANA.........................................................................................................17
3.3.2 I QUARTILI............................................................................................................22
3.3.3 LA MODA..............................................................................................................24
3.4 INDICI DI DISPERSIONE........................................................25
3.4.1 LA VARIANZA........................................................................................................28
3.4.2 LO SCARTO QUADRATICO MEDIO........................................................................30
3.4.3 LO SCARTO INTERQUARTILE................................................................................31
3.4.4 IL COEFFICIENTE DI VARIAZIONE........................................................................32

TERZA UNIT

ELABORAZIONE DI DATI: GLI INDICI STATISTICI

3.1 Indici statistici univariati


Introduciamo largomento con un esempio.
Esempio 1. Le altezze dei diciottenni di leva (1)
Consideriamo i dati riportati nella tabella 3.1 relativi alla
distribuzione di frequenza dellaltezza degli iscritti alla leva nati
nellanno 1972 per regione e poniamoci lobiettivo di confrontare
le regioni elencandole in ordine di altezza.
Non semplice rispondere a questa domanda confrontando
direttamente le righe della tabella.
Il modo pi intuitivo di procedere sintetizzare ogni
distribuzione in un unico valore che possa essere messo a
confronto con quelli delle altre, permettendoci di effettuare
lordinamento.

Tabella 3.1 Distribuzione di frequenza (%) dellaltezza (cm) degli


iscritti di leva nati nellanno 1972 per regione (Fonte ISTAT,
Compendio statistico 1994)
Regione
Piemonte
Valle dAosta
Lombardia
Trentino-A.
Adige
Veneto
Friuli-V. Giulia
Liguria
EmiliaRomagna
Toscana
Umbria
Marche
Lazio
Abruzzo
Molise
Campania
Puglia
Basilicata
Calabria
Sicilia
Sardegna
Italia

Fino a
159
1,3
1,3
1,2
0,7

160164
6,0
4,3
5,6
2,7

165169
17,4
16,0
16,3
13,7

170174
28,7
27,9
28,6
26,9

175179
26,0
25,6
26,9
29,9

180184
14,4
16,9
15,0
17,6

185189
5,0
6,1
5,1
6,8

pi di
189
1,3
1,9
1,3
1,7

0,8
0,4
1,6
1,1

3,6
2,7
6,1
5,2

12,7
10,2
17,1
16,2

26,5
22,7
28,2
27,8

28,6
29,3
26,4
27,3

18,7
21,4
14,4
15,4

7,1
9,9
4,9
5,5

2,1
3,5
1,2
1,6

1,0
1,2
1,0
1,3
1,3
2,6
2,3
2,3
2,5
3,4
3,1
4,6
1,7

4,8
5,4
5,1
6,1
6,2
8,9
8,4
8,8
9,4
10,6
10,0
13,9
6,8

15,3
17,0
17,4
17,9
17,5
21,7
22,5
21,4
25,5
25,9
24,2
27,4
18,6

27,6
29,5
30,0
30,1
31,7
31,5
30,6
30,7
30,9
30,2
30,8
28,8
29,1

28,0
27,5
26,9
26,1
26,4
22,7
23,1
23,0
21,1
20,5
21,0
17,2
25,2

15,9
13,6
14,0
13,3
12,6
9,6
9,9
10,3
8,2
7,4
8,6
6,3
13,2

5,9
4,7
4,5
4,1
3,5
2,1
2,6
2,9
2,0
1,7
2,0
1,5
4,3

1,4
1,0
1,1
1,2
0,8
1,0
0,6
0,6
0,5
0,4
0,4
0,3
1,1

Un valore rappresentativo di unintera distribuzione, per


esempio un valore attorno a cui i dati si addensano, viene
denominato indice di posizione. La conoscenza di un indice di
posizione non pu sostituire, in ogni circostanza, quella
dellintera distribuzione. Poich distribuzioni anche molto diverse
possono dare luogo ad uno stesso indice di posizione,
opportuno disporre almeno di un ulteriore valore che misuri la
complessiva distanza, dallindice di posizione prescelto, dei
valori della distribuzione; esso viene denominato indice di
dispersione. Gli indici di posizione sono anche detti medie,
distinte in medie analitiche e medie di posizione.
Le medie analitiche si possono applicare soltanto a caratteri
quantitativi e sono calcolate mediante operazioni algebriche a
partire dalle misure osservate. Nel seguito utilizzeremo solo la
media aritmetica e la media geometrica. Il calcolo delle medie di
posizione richiede anche operazioni quali lordinamento ed il
confronto dei dati.

Utilizzeremo nel seguito la mediana, i quartili e la moda, che si


possono applicare sia a caratteri qualitativi ordinati sia a caratteri
quantitativi. La moda lunico indice che pu essere utilizzato
anche per caratteri qualitativi sconnessi.
Fra gli indici di dispersione, prenderemo in considerazione la
varianza, lo scarto quadratico medio o scarto standard, il
coefficiente di variazione e lo scarto interquartile.

3.2 Le medie analitiche


Spesso negli articoli di giornale presente la parola media,
e questa parola usata comunemente in molte occasioni;
chiediamoci allora quale sia il suo significato dal punto di vista
statistico. Innanzitutto notiamo che, quando nel linguaggio
tecnico si parla di media senza altra specificazione, si intende
generalmente la media aritmetica.
Per definirla e imparare a calcolarla partiamo da un esempio
semplice

3.2.1 LA MEDIA ARITMETICA


Esempio 2. Le altezze dei diciottenni di leva (2)
Consideriamo un gruppo di iscritti alla leva, che siano una
piccola parte (solo 18 casi) di quello i cui dati sono riportati in
tabella 3.1, e misuriamone le altezze in cm. Riportiamo poi i dati
in una tabella unit/caratteri (tabella 3.2).
Tabella 3.2 Matrice di dati relativa alle18 unit statistiche
selezionate tra gli iscritti di leva
Unit
statist
ica
01
02
03
04
05
06

Altez
za
(cm)
172
162
170
169
157
168

Unit
statist
ica
07
08
09
10
11
12

Altez
za
(cm
171
174
162
163
160
169

Unit
statist
ica
13
14
15
16
17
18

Altez
za
(cm
168
168
163
162
175
173

Per calcolare laltezza media delle 18 unit considerate


baster sommare le singole altezze e dividere per 18, che il
numero totale delle unit statistiche considerate.

172 162 170 169 157 168 171 174 162 163

18

160 169 168 168 163 162 175 173


167
18

Il valore cos ottenuto la media aritmetica delle altezze delle


nostre unit statistiche.

Definizione.
Si chiama media aritmetica di n misure il valore che si ottiene
dividendo la loro somma per n
M

x1 x n
n

La media aritmetica sintetizza in un unico valore tutte le


misure osservate per un certo carattere nelle diverse unit
statistiche.

Torniamo ora la nostro problema relativo al confronto tra le


diverse regioni in merito alle altezze degli iscritti di leva (esempio
1). Purtroppo non disponiamo dei dati originali, ma solo delle
distribuzioni statistiche relative a classi di altezze; non possiamo,
quindi, applicare direttamente la formula di calcolo riportata
sopra. LISTAT per possiede i dati originali ha calcolato le medie
che ci interessano per ogni regione.
Ora abbiamo gli elementi per elencare le regioni in ordine di
altezza utilizzando la media come valore rappresentativo di ogni
regione (tabella 3.3).

Tabella 3.3 Altezze medie in ordine crescente degli iscritti di leva


nati nellanno 1972 per regione
Region
e
Sardeg
na
Calabri
a
Sicilia

Statura
media
170,71

Regione
Piemonte

Statura
media
174,48

171,44

Marche

174,51

171,96

Umbria

174,56

Basilica
ta
Campa
nia
Molise
Puglia
Abruzzo

172,16

Lombardia

174,63

172,67

174,99

Lazio
Liguria

174,23
174,45

EmiliaRomagna
Toscana
Valle dAosta
Trentino-A.
Adige
Veneto
Friuli-V. Giulia

172,70
172,79
173,85

175,21
175,31
175,91
176,10
177,35

Esempio 3. Una sperimentazione della TEXACO (3)


Possiamo anche utilizzare il concetto di media per confrontare
le prestazioni dei due filtri antirumore (gi visti negli esempi 1 e
4 dellunit 2) a partire dai dati relativi al livello di rumore
separati per i due tipi di filtro (tabella 2.14), otteniamo:

M(filtro 1) =

760 760 770 785 785 790 810 820 820

18

835 835 835 840 840 845 845 850 855

18

M(filtro 2) =

14680
815,56
18

760 765 770 775 775 775 815 820 820 820

18

820 820 825 825 825 825 825 825

18

14485
804,72
18

Come si vede, il confronto delle medie conferma quanto si era


osservato analizzando le distribuzioni cumulate, ovvero il
secondo tipo di filtro sembra leggermente migliore del primo.
Osserviamo che ogni valore compare nella somma un numero
di volte uguale alla sua frequenza assoluta, possiamo, quindi,

sostituire la somma semplice con quella che si ottiene applicando


la propriet associativa delladdizione e scrivere, per esempio:
M(filtro 2) =

760 765 770 3 775 815 5 820 6 825

18

14485
804,72
18

Inoltre, il numero totale delle misure che compare al


denominatore si ottiene come somma di tutte le frequenze, cio:
18 = 1 + 1 + 1 + 3 + 1 + 5 + 6
Definizione
La media aritmetica di n valori x1,, xn, ciascuno dei quali si
presenta con frequenza f1,f2,,fn, si calcola mediante la formula:
M

x1 f1 x n f n
f1 f n

Si parla in questo caso di media aritmetica ponderata, in


quanto ciascuno dei valori x1,, xn interviene nel calcolo della
media con un peso dato dalla sua frequenza.

Esercizio 1.
Quanto vale il livello medio di rumore applicando il tipo di
silenziatore standard alle auto di media dimensione? E se si
applica il silenziatore di nuovo tipo?
Svolgimento
I valori del livello di rumore corrispondenti alle auto di media
dimensione cui stato applicato il silenziatore standard sono:
840, 840, 845, 855, 850; facendone la somma e dividendo per 6,
si ottiene M(filtro 1) = 845,83. Per il nuovo tipo, le corrispondenti
misure sono: 820, 820, 825, 815, 825, 825; quindi la loro media
: M(filtro 2) = 821,67.
Osserviamo che il valore della media ottenuto in entrambe le
situazioni dellesercizio 1:

non coincide con nessuno dei valori effettivamente


osservati;

compreso tra il valore minimo osservato e il valore


massimo.

La prima osservazione non rappresenta una propriet


caratteristica della media, infatti pu succedere che il valore
della media coincida con uno dei valori effettivamente osservati.
La seconda osservazione, invece, evidenzia una propriet
caratteristica della media che possibile dimostrare.
Propriet
Considerati n valori x1,, xn, indicata con M(X) la loro media
aritmetica e detti min e max il minimo e il massimo tra essi,
risulta:
min M ( X ) max

Dimostrazione.
Per la definizione di minimo e massimo risultano le seguenti
relazione dordine:
min x1 max
min x 2 max

min x n max

min
min
min
x1 x 2 x n max
max

max

n volte

n volte

dividendo ciascuna delle somme per n si ottiene:


n volte
n volte
min min min x1 x 2 x n max max max

n
n
n

cio:
n min
n max
M (X )
n
n

da cui semplicemente:
min M ( X ) max .

Esercizio 2. Una sperimentazione della TEXAXO(4)


Lapplicazione del nuovo filtro antirumore risulta in media pi
conveniente sulle auto di media dimensione o su quelle di grande
dimensione?
Esercizio 3.
Quanti viaggi in Italia hanno fatto in media gli intervistati
davanti al supermercato (dati tabella 2.4)? Quanti viaggi
allestero?
Esercizio 4.
Hanno effettuato mediamente pi viaggi allestero i giovani al
di sopra dei 25 anni o quelli di et maggiore?
Esercizio 5.
Hanno effettuato mediamente pi viaggi in Italia i maschi o le
femmine?

La media aritmetica gode di atre due importanti propriet che


cercheremo di illustrare a partire da esempi.

Esempio 4.
Supponiamo di voler determinare laltezza media delle sei
montagne pi alte della Terra. A tale scopo consultiamo un
atlante e ci annotiamo le altezze (tabella 3.4).
Tabella 3.4 Altezze delle montagne pi alte della Terra
Monte
Everest
K2
Kanchenju
nga
Lhotse I
Makalu
Lhotse II

Altezza in
metri
8846
8616
8586

Altezza in
piedi
29022,3
28267,7
28169,3

8501
8481
8400

27890,4
27824,8
27559,1

10

In tale tabella abbiamo indicato per ciascun valore anche la


corrispondente altezza in piedi, unit di misura dei paesi
anglosassoni, moltiplicando per il coefficiente di conversione che
approssimiamo a 3,28084 (1 piede = 0,3048 metri 1 metro =
1 0,3048 piedi).
Laltezza media in metri Mm corrisponde pertanto alla media
aritmetica dei valori in metri riportati, pertanto:

M m (X )

8846 8616 8586 8501 8481 8400


8571,67
6

Calcoliamo, ora, laltezza media in piedi Mp(X):


M p (X )

29022,3 28267,7 28169,3 27890,4 27824,8 27559,1


28122,27
6

Avremmo
ottenuto
lo
stesso
valore
moltiplicando
semplicemente laltezza media in metri per il coefficiente di
conversione 3,28084, ovvero
8571,67 3,28084 = 28122,27.
Il risultato precedente vale in generale, poich si pu
dimostrare che la media aritmetica verifica la seguente propriet:

Propriet (Omogeneit)
Se M(X) la media aritmetica dei valori x1,, xn allora la
media aritmetica dei valori k x1 , , k x n k M ( X ) .

Esempio 5.
Consideriamo una famiglia composta da 5 componenti: padre,
madre e tre figli, con et rispettive:

Compone
nte
Et

Padr Madr
e
e
47
44

11

1
figlio
17

2
figlio
15

3
figlio
12

Risulta che let media di tale nucleo familiare 27 anni.


Supponiamo di voler calcolare, di nuovo, tale media fra 5 anni,
si avranno allora i seguenti dati:

Compone
nte
Et

Padr Madr
e
e
52
49

1
figlio
22

2
figlio
20

3
figlio
17

per cui risulter:

M (X )

52 49 22 20 17
32
5

Tale risultato si poteva ottenere pi facilmente traslando di 5


anni il valore medio che avevamo gi ottenuto in precedenza
cio:

27 + 5 = 32

Questo vale poich la media aritmetica verifica la seguente


propriet:

Propriet (Traslazione)
Se M(X) la media aritmetica dei valori x1,, xn, allora M(X)
+k la media aritmetica dei valori x1+k,, xn+k, dove k un
qualsiasi numero.

Le due propriet precedenti possono sintetizzarsi nellunica


seguente

Propriet

12

Se M(X) la media aritmetica dei valori x1,, xn, allora hM(X)


+ k la media aritmetica dei valori hx1+k,, hxn+k, dove h e k
sono una coppia qualsiasi di numeri.

possibile calcolare la media aritmetica anche per dati


raggruppati pur di scegliere un valore interno a ogni classe come
valore rappresentativo della classe. Naturalmente il risultato non
risulta identico a quello che si avrebbe considerando gli effettivi
valori osservati.

Esempio 6. Una sperimentazione della TEXACO (5)


Consideriamo lesempio del livello di rumore (tabella 2.15) e
assumiamo come valore rappresentativo il valore medio di ogni
classe, che si calcola semplicemente sommando il minimo e il
massimo e quindi dividendo per 2. In questo modo otteniamo la
tabella 3.5.
Tabella 3.5 Distribuzioni di frequenza per il carattere
quantitativo livello di rumore (in decibel) con valori raggruppati
in classi identificate dal valore medio

Interv
all
i
769,5
789,5
809,5
829,5
849,5

Frequenza
assoluta
(tipo 1)
3
3
1
5
6

Frequenza
assoluta
(tipo 2)
6
0
1
11
0

Calcolando i valori medi mediante lutilizzo della formula per


la media ponderata si ottiene:
M(filtro 1) = 818,39;

M(filtro 2) = 808,39

Osserviamo che i valori ottenuti sono entrambi di poco


maggiori di quelli ottenuti dal calcolo diretto sulle misure
effettive.

13

Esempio 7. Le altezze dei diciottenni di leva (3)


In alcuni casi pu essere meno naturale scegliere un valore
rappresentativo per le classi, questo accade, per esempio,
quando le classi sono aperte come si verifica per i dati ISTAT sulla
statura degli iscritti alla leva relativamente alla prima e allultima
classe. Consideriamo la tabella 3.6 in cui riportiamo
linformazione relativa a tutti i dati nazionali.

Tabella 3.6 Distribuzione di frequenza (%) dellaltezza (cm) degli


iscritti di leva nati nellanno 1972 (Fonte ISTAT, Compendio
statistico 1994)

Classi
di
alt
ezz
a
Italia

Fino
a 159

160164

165169

170174

175179

180184

185189

Pi
di
189

1,7

6,8

18,6

29,1

25,2

13,2

4,3

1,1

Decidiamo di rappresentare ogni classi chiusa con il valore


medio, la prima classe con il valore 150 e lultima con il valore
195 (tabella 3.7).

Tabella 3.7 Distribuzione di frequenza (%) dellaltezza (cm) degli


iscritti di leva nati nel 1972 (Fonte ISTAT, Compendio statistico
1994)

Classi di
altezza
Italia

15
0
1,
7

16
2
6,
8

16
7
18,
6

17
2
29,
1

e procediamo al calcolo della media:

14

17
7
25,
2

18
2
13,
2

18
7
4,
3

19
5
1,
1

M(altezza) =

150 (1,7) 162 (6,8) 167 (18,6) 172 (29,1) 177 (25,2)

1,7 6,8 18,6 29,1 25,2 13,2 4,3 1,1

182 (13,2) 187 ( 4,3) 195 (1,1)


17349,4

173,5
1,7 6,8 18,6 29,1 25,2 13,2 4,3 1,1
100

che risulta leggermente inferiore a quella calcolata dallISTAT


sulle misure effettive (173,96).
Per completare lanalisi riportiamo anche le rappresentazioni
grafiche relative alla tabella 3.7 (diagramma a barre e spezzata
delle frequenze) in figura 3.1.

Figura 3.1 Rappresentazioni grafiche relative alla tabella 3.7


(diagramma a barre e spezzata delle frequenze)
Spezzata delle frequenze della
distribuzione oercentuale delle
stature (iscritti alla leva nati nel 1972)

Diagram m a a barre della


distribuzione delle stature in Italia
(iscritti alla leva 1972)

35
30

35
30

25
20

25
20

15

15
10

10
5

5
0

0
150

162

167

172

177

182

187

195

150

classi di statura

162

167

172

177

182

187

195

c lassi di statura

Esercizio 6.
Si calcolino le medie regionali per i dati di tabella 3.1,
seguendo lo stesso procedimento utilizzato per il calcolo della
media nazionale, e si confronti lordinamento regionale che si
ottiene con quello ottenuto sulla base dei dati sulle medie forniti
dallISTAT e calcolati sulle misure effettive (tabella 3.3).

15

3.2.2 LA

MEDIA GEOMETRICA

Supponiamo di dover risolvere il seguente problema.

Una popolazione di batteri in una certa coltura cresciuta da


1000 a 8000 individui in 3 giorni. Quanto si accresce in media
ogni giorno, ovvero qual il tasso di crescita medio giornaliero?
Come possiamo procedere?
Tale problema non diverso da quello che viene presentato
qui di seguito.

Esempio 8.
Supponiamo che il signor Giovanni abbia investito in banca un
ammontare e di euro al tempo iniziale e che nei due anni
successivi i rendimenti, espressi come fattori di crescita, siano
stati r1 e r2, in modo che il gruzzolo e dopo 2 anni risulta:
e = (r1 r2) e
Ci chiediamo: quale tasso annuale di rendimento medio r*
fornirebbe lo stesso risultato? In parole semplici, quale fattore di
crescita costante r*, moltiplicato per se stesso e poi per il
gruzzolo iniziale e, darebbe come risultato e? Per determinare
tale valore occorre risolvere lequazione nellincognita r*:
e = (r*)2 e
Lequazione si risolve immediatamente ponendo:
(r*)2 = (r1 r2)
che fornisce come soluzione:
r* =

r1 r2

r* la media geometrica dei 2 tassi annuali.

Definizione.
Dati gli n valori positivi x1, x2, , xn che costituiscono le
misure relative allosservazione di un carattere quantitativo, si

16

dice media geometrica la radice n-esima con segno positivo del


loro prodotto. Se indichiamo tale risultato con la lettera G,
possiamo scrivere:
G n x1 x 2 x n .

Possiamo adesso risolvere il problema della crescita dei


batteri.
Detti k1, k2, k3, i tassi di crescita nei tre giorni, impostando le
equazioni:
N1 = k1N0, N2 = k2N1 = k1 k2N0, N3 = k3N2 = k1 k2 k3N0, si ricava
che N3/N0 = k1 k2 k3 = 8; estraendo la radice cubica si verifica
subito che la media geometrica richiesta 2.

Esercizio 7.
Una popolazione di scimmie passata nel corso di tre anni da
1000 a 3375 individui. Qual il tasso medio di crescita annuale?

Esercizio 8.
In corrispondenza dei tre ultimi censimenti del secolo scorso i
dati (in milioni di individui) della popolazione italiana sono
risultati:

Anno del
censiment
o
1971
1981
1991

Popolazione in milioni di
individui
54,137
56,557
57,441

Qual stato il tasso di incremento decennale tra il 1971 e il


1981? Qual stato il tasso di incremento decennale tra il 1981 e
il 1991? E quello medio decennale tra il 1971 e il 1991?

17

Se tra il 1991 e il 2001 il tasso di incremento fosse rimasto


pari a quello medio determinato, quanti milioni di individui ci
saremmo aspettati di rilevare al censimento del 2001?

Esercizio 9.
Una popolazione batterica in una certa coltura cresciuta da
1000 a 64000 individui in 3 ore. Quanto si accresce in media in
unora, cio qual il tasso medio di crescita in unora?
Osserviamo che se consideriamo la media aritmetica e la
media geometrica di due valori, per esempio 5 e 3, otteniamo
che la prima maggiore della seconda. Questo corrisponde ad
una propriet generale che lega le due medie.

Propriet.
La media geometrica dei numeri x1, x2, , xn sempre minore
o uguale alla media aritmetica dei numeri dati.
Dimostrazione.
Nel caso di due soli numeri a e b questo avviene perch

e perci
a b 2 ab 0

da cui si ottiene la disuguaglianza


ab
ab
2

Nel caso generale la dimostrazione solo un po pi


complessa, ma si pu ricondurre al caso semplice di due soli
valori.

18

3.3 Le medie di posizione


Esistono altri indici di posizione, non analitici, che forniscono
informazioni diverse sulla distribuzione statistica.

3.3.1 LA

MEDIANA

Unimportante media di posizione per la descrizione sintetica


di una distribuzione statistica la mediana, definita come quel
valore che nella successione dei dati, disposti in ordine non
decrescente (o non crescente), divide la graduatoria in due parti
tali che il numero dei termini che la precede uguale al numero
dei termini che la segue: in altre parole la mediana occupa il
posto centrale della successione dei valori. Poich per calcolare
la mediana dobbiamo ordinare le osservazioni (o le modalit nel
caso in cui compaiono le frequenze) segue che ha senso parlare
di mediana in relazione a caratteri sia quantitativi sia qualitativi
ordinati.
In generale si pu dare la regola di calcolo che definisce la
mediana nel modo seguente.
Se si ha un numero dispari n di osservazioni, ordinate in modo
non crescente o non decrescente, la mediana (Me) il termine
che occupa il posto centrale, ovvero la posizione (n+1)/2.
Se le osservazioni sono in numero n pari la mediana (Me)
viene definita come semisomma dei termini che occupano i posti
n/2 (n/2)+1.

Esempio 9. Una sperimentazione della TEXACO (6)


Consideriamo i dati della TEXACO sul livello di rumore per i
due filtri separatamente e ordiniamoli in modo crescente:

Filtro 1: 760 760 770 785 785 790 810 820 820 835 835 835 840 840
845 845 850 850

Filtro 2: 760 765 770 775 775 775 815 820 820 820 820 820 825 825
825 825 825 825

Le due mediane risultano dalla semisomma dei termini posti al


nono e decimo posto nelle de graduatorie:

19

Me(filtro1) = 827,5; Me(filtro2) = 820

Anche le mediane si comportano come le medie, pur avendo


valori diversi da quelle. Infatti la mediana relativa al filtro2
minore di quella relativa al filtro1.

Naturalmente quando i dati sono molti e i valori non ordinabili


in modo cos semplice, il calcolo della mediana pu risultare
laborioso.

Esercizio 10.
Consideriamo le seguenti misure che furono ottenute da
Henry Cavendish nel 1798 usando una bilancia di torsione e che
presentano la misura della densit della Terra come multiplo
della densit dellacqua, che viene, quindi, assunta come unit di
misura.
misurazi
one
1
2
3
4
5
6
7
8
9

valo
re
5,50
5,57
5,42
5,61
5,53
5,47
4,88
5,62
5,63

misurazi
one
11
12
13
14
15
16
17
18
19

valo
re
5,29
5,34
5,26
5,44
5,46
5,55
5,34
5,30
5,36

misurazi
one
21
22
23
24
25
26
27
28
29

valo
re
5,75
5,29
5,10
5,86
5,58
5,27
5,85
5,65
5,39

Determinare la mediana delle misure.


Svolgimento
Per determinare la mediana occorre porre le misure in ordine
crescente e identificare quella che si trova al quindicesimo posto.
Per semplicit elenchiamo sotto sulla prima riga le 14 misure,
sulla seconda la quindicesima (mediana) e sulla terza le ultime
14.

20

4,07
5,39
5,46
5,47
5,79

4,88 5,10 5,26 5,27 5,29 5,29 5,30 5,34 5,34 5,36
5,42 5,44
5,50 5,53 5,55 5,57 5,58 5,61 5,62 5,63 5,65 5,75,
5,85 5,86

Il valore della mediana risulta Me = 5,46.


Per completezza calcoliamo anche la media (aritmetica) che
risulta M = 5,42 ed un valore molto simile a quello della
mediana.
possibile determinare graficamente il valore approssimato
della mediana a partire dalla rappresentazione come ogiva della
distribuzione cumulata delle frequenze relative. Consideriamo
questa rappresentazione per le misure dellesercizio 10 che
riportiamo in figura 3.2.
Figura 3.2
Distribuzione relativa cum ulata della "densit della Terra"

Distribuzione relativa
cumulata

1,2
1
0,8
0,6
0,4
0,2
0
3,5

4,5

5,5

6,5

Densit della Terra

Per definizione la mediana quel valore delle misure che


corrisponde al valore 0,5 della distribuzione cumulata delle
frequenze relative. Nel nostro grafico, quindi, dobbiamo
determinare il valore dellascissa cui corrisponde il valore 0,5
dellordinata. Per fare questo possiamo tracciare, a partire
dallasse delle ordinate, in corrispondenza al valore 0,5 la
semiretta
parallela
allasse
delle
ascisse,
determinare
lintersezione di tale semiretta con logiva e, da quel punto,
tracciare la semiretta parallela allasse delle ordinate fino ad

21

intersecare lasse delle ascisse: il punto dintersezione


corrisponde al valore della mediana. Riportiamo in figura 3.3 la
costruzione descritta per i dati dellesercizio 10.

Esercizio 11.
Determinare la mediana e la media della distribuzione delle
et riportata nella matrice dei dati della tabella 2.4.

Possiamo commentare dicendo che il valore relativamente


alto della mediana in gran parte dovuto ad alcune et piuttosto
elevate ma che, comunque, il nostro campione costituito in
gran parte di persone relativamente giovani?

Figura 3.3

Distribuzione relativa
cumulata

Distribuzione relativa cumulata della "densit della Terra"

1.2
1
0.8
0.6
0.4
0.2
0
3.5

4.5

5.5

6.5

Densit della Terra

Nei casi trattati abbiamo calcolato la mediana di successioni


ordinate di dati; quando si hanno a disposizione i dati sotto forma
di distribuzioni di frequenza, la mediana va calcolata sulla base
della distribuzione cumulata delle frequenze delle modalit,
precedentemente ordinate in tabella.

22

Esempio 10.
Supponiamo di voler calcolare il voto mediano di maturit
conseguito in un liceo scientifico in base ai dati riportati in tabella

Vot
o
Fre
q.

6
0
1
5

6
2
6

6
6
1
0

7
5
7

8
0
2
1

8
2
1
8

8
8
9

9
0
1
5

9
5
1
8

9
6

10
0

Il valore mediano quello conseguito dallo studente che ha lo


stesso numero di compagni che hanno superato lesame con un
voto pi alto o pi basso del suo.
Tale studente non immediatamente individuabile con la
procedura finora utilizzata; in presenza di frequenze dobbiamo
fare un passaggio intermedio: determinare la distribuzione
cumulata delle frequenze.

Vot
o
60
62
66
75
80
82
88
90
95
96
100

Freque
nza
15
6
10
7
21
18
9
15
18
5
7

Frequenza
cumulata
15
21
31
38
59
77
86
101
119
124
131

Nel caso in esame, poich il totale delle osservazioni 131, si


avr che la mediana il voto corrispondente al (131+1)/2 = 66
posto della successione. Per cui il valore mediano pari a 82, pi

23

esattamente il 7 nella sequenza dei 18 studenti che hanno


conseguito tale votazione (infatti fino al 59 posto della
graduatoria ci sono coloro che hanno un voto inferiore o uguale a
80, per arrivare a colui che occupa il 66 posto dobbiamo
conteggiare altre 7 persone che hanno un voto di 82).
Se i valori del carattere osservato sono raggruppati in classi
oppure si tratta di un carattere qualitativo ordinato, come per
esempio il titolo di studio in tabella 2.4, la procedura la stessa
soltanto che non parleremo di mediana ma di classe mediana,
che la classe che al suo interno contiene il valore mediano

Esercizio 12.
Determinare la classe mediana per i dati di tabella 3.6.

Esercizio 13.
Determinare la classe mediana per quanto riguarda il titolo di
studio in relazione ai dati di tabella 2.4.

3.3.2 I

QUARTILI

possibile estendere il concetto di media di posizione a


partire dalla mediana. In particolare, pu essere interessante
suddividere la distribuzione in quattro parti definendo i quartili:

Definizione
Si dice primo quartile di una distribuzione statistica, e si indica
con q1/4, il valore che lascia alla sua sinistra un quarto dei valori
osservati e alla sua destra .
Il secondo quartile la mediana stessa.
Si dice terzo quartile di una distribuzione statistica, e si indica
con q3/4, il valore che lascia alla sua sinistra dei valori osservati
e alla sua destra un quarto.

24

Nel caso della distribuzione delle altezze della tabella 3.6, per
determinare le classi che corrispondono ai diversi quartili
dobbiamo identificare in corrispondenza a quali classi di altezze
la distribuzione percentuale raggiunge il valore 25 (primo
quartile), il valore 50 (mediana), il valore 75 (terzo quartile).
Dallosservazione della tabella otteniamo:

q1/4 = classe(160-164);
mediana = q1/2 = classe(170-174);
q3/4 = classe(175-179).

Esercizio 14.
Determinare i quartili per i dati dellesercizio 10.
Svolgimento
Dalla definizione appena data si ricava che il primo quartile
non altro che la mediana della distribuzione delle misure
inferiori alla mediana della distribuzione originale e il terzo
quartile la mediana delle misure superiori alla mediana della
distribuzione originale.
Applicando la regola di calcolo della mediana, rispettivamente
alle 14 misure inferiori e alle 14 misure superiori, otteniamo:

q1/4 = 5,295 (semisomma del settimo e ottavo valore


inferiore);
mediana = q1/2 = 5,46;
q3/4 = 5,61 (semisomma del settimo e ottavo valore superiore).

Anche per i quartili si pu procedere alla determinazione


grafica in analogia a quanto visto per la mediana. Il primo
quartile si otterr a partire dalla semiretta posta al livello 0,25
dellasse delle ordinate, mentre per il terzo quartile si partir dal
livello 0,75.
Nella figura 3.4 sono rappresentati i quartili dellesercizio 10.

25

Figura 3.4

Esercizio 15.
Determinare i quartili per le misure relative al livello di
rumorosit per i due filtri separatamente in tabella 2.14 dellunit
2.

3.3.3 LA

MODA

Consideriamo la distribuzione del carattere sesso per i dati


dellesercizio 7 della seconda unit.

Modalit del carattere


sesso
Maschio
Femmina

Diciamo che
distribuzione.

la

modalit

Frequenza
assoluta
4
6

femmina

Definizione

26

la

moda

della

Si dice moda la modalit cui associata la maggiore


frequenza, cio la modalit che si presenta pi volte.

Dire questanno va di moda o va di moda significa indicare


qual la tendenza della maggioranza degli individui. evidente
che la moda pu essere definita per qualsiasi tipo di carattere.
Nellesempio 10 il valore modale 80, che il voto cui
corrisponde la massima frequenza.
Se i valori di un carattere quantitativo sono raggruppati in
classi di uguale ampiezza, anzich di moda parliamo di classe
modale, ovvero la classe in corrispondenza della quale si ha la
massima frequenza. Le classi modali per i dati dellesercizio 8
dellunit 2 si leggono immediatamente dalla figura 2.14 e
risultano:
filtro1: 840

860; filtro2: 820

840.

Esercizio 16.
Suddividere le misure dellesercizio 10 in classi di ampiezza
0,10. Determinare quindi la distribuzione di frequenze, la
distribuzione cumulata, la classe mediana e la classe modale.

Esercizio 17.
Qual la moda della distribuzione rappresentata in figura 3.1?

3.4 Indici di dispersione


Supponiamo di dover eseguire unindagine comparativa sulle
condizioni economiche di due paesi A e B e che il rapporto della
ricchezza complessiva rispetto al numero di abitanti sia, nei due
paesi, uguale. Possiamo concludere che le condizioni dei due
paesi sono, per questanno, del tutto simili?
Certamente no. Infatti il valore uguale delle due statistiche
pu celare differenze fortissime. La ricchezza uno di quei
caratteri che pu variare moltissimo da individuo a individuo e
potrebbe benissimo capitare che in uno dei due paesi sia
abbastanza uniformemente distribuita tra gli abitanti, mentre
nellaltro potrebbe essere concentrata principalmente nelle mani

27

di pochi privilegiati. Lo studio comparativo non potr, quindi,


fermarsi allanalisi basata soltanto su un indice di posizione, ma
dovr essere integrato da uno studio della variabilit, cio della
tendenza a presentare nei singoli casi valori differenti, che il
carattere manifesta nei due paesi.
Una prima informazione a questo proposito si ha considerando
la differenza tra il valore pi grande e il valore pi piccolo tra
quelli osservati. Tale differenza, che possiamo indicare con D, si
dice campo di variazione. Tale indice piuttosto grossolano
perch non tiene conto di ci che accade per tutti i valori
intermedi.

Esempio 11.
Per chiarire consideriamo i seguenti gruppi di misure e
calcoliamone la media e il campo di variazione

Unit
1
2
3
4
5
6
7
8
9
10
Som
ma

Grupp
o1
49
51
49
51
49
51
49
51
49
51

Grupp
o2
48
52
48
52
48
52
48
52
48
52

Grupp
o3
48
51
49
52
47
52
46
51
53
51

Grupp
o4
54
49
46
49
51
53
50
50
49
49

Gruppo
5
60
36
31
50
48
50
54
56
62
53

500

500

500

500

500

Dal calcolo delle medie risulta che tutti i gruppi hanno la


stessa media M = 50. Calcoliamo allora i campi di variazione:

D(gruppo 1) = 2;
D(gruppo 2) = 4;
D(gruppo 3) = 7;

28

D(gruppo 4) = 8;
D(gruppo 5) = 31.

Come si vede gi dal campo di variazione i 5 gruppi mostrano


situazioni ben diverse rispetto alla distribuzione dei valori. Se,
per, si vuole tenere conto anche dei valori intermedi occorre
utilizzare qualche altro strumento. La prima cosa che ci viene in
mente di misurare quanto i singoli valori differiscano dalla
media della distribuzione. Supponiamo che la media in questione
sia la media aritmetica (ma pu essere un altro valor medio
qualsiasi). Possiamo dare la seguente definizione.

Definizione
Si definiscono scarti dalla media le differenze fra ciascun
valore osservato e la media aritmetica. Pi precisamente: dati i
valori x1, x2, , xn e la loro media M, si definiscono scarti dalla
media le differenze: x1-M, x2-M, , xn-M.

Poich la media compresa fra il valore pi piccolo e quello


pi grande, alcuni scarti sono positivi e altri negativi.

Esercizio 18.
Calcolare gli
dellesempio 11.

scarti

dalla

media

aritmetica

per

dati

Svolgimento.
Per calcolare gli scarti basta sottrarre ad ogni valore riportato
in tabella il valore della media (50). Si ottiene cos:

Unit

Grupp
o1

Grupp
o2

Grupp
o3

Grupp
o4

Gruppo
5

1
2
3
4

-1
1
-1
1

-2
2
-2
2

-2
1
-1
2

4
-1
-4
-1

10
-14
-19
0

29

5
6
7
8
9
10
Som
ma

-1
1
-1
1
-1
1

-2
2
-2
2
-2
2

-3
2
-4
1
3
1

1
3
0
0
-1
-1

-2
0
4
6
12
3

Osserviamo che il valore assoluto dei singoli scarti risulta


maggiore per i gruppi in cui le misure mostrano maggiore
variabilit e che, comunque, la somma degli scarti risulta sempre
nulla. Questa una propriet generale che pu essere
dimostrata. Risulta infatti che:

Propriet
La somma di tutti gli scarti dalla media aritmetica uguale a
zero.
Dimostrazione
Indicando con S tale somma, e ricordando che:

x1 x n
n

ovvero nM = x1++ xn, si ha:

S x1 M x 2 M x n M
x1 x 2 x n M M M

x1 x 2 x n nM nM nM 0

3.4.1 LA

VARIANZA

Quanto detto finora indica che la variabilit e gli scarti sono


fra loro legati e che, quindi, si pu pensare di misurare la

30

variabilit di un fenomeno statistico considerando e sintetizzando


la distribuzione degli scarti. Posto ci, resta per il fatto che tale
sintesi non pu essere fatta calcolando semplicemente la media
degli scarti, dato che questa nulla in quanto scarti postivi e
scarti negativi si compensano. Linconveniente pu essere
superato ricorrendo a un espediente: anzich considerare la
media degli scarti consideriamo la degli scarti al quadrato, che
sono tutti positivi. Questo indice si chiama varianza.

Definizione
Indichiamo la varianza con il simbolo 2 :

x1 M 2 x2 M 2 x n M 2
n

Osserviamo che:

Propriet
La varianza sempre positiva.
Infatti il numeratore somma di addendi tutti positivi.

Propriet
La varianza uguale a zero se (e solo se) la variabilit nulla.

Infatti, in questo caso si ha:

x1 x 2 x n M

e, quindi tutti gli addendi che figurano al numeratore della


precedente relazione sono uguali a zero; viceversa, se la
varianza uguale a zero, essendo il numeratore somma di

31

termini tutti non negativi, necessario che questi siano tutti


nulli, ovvero x1 x 2 x n M .

Propriet
La varianza tanto pi elevata quanto pi elevata la
variabilit.

Infatti, se la variabilit pi elevata, i termini al numeratore


tenderanno ad essere pi grandi.

Esercizio 19.
Calcolare le varianze per i dati dellesercizio 18.

Dal calcolo otteniamo i seguenti valori delle varianze:

2(gruppo 1) = 1;
2(gruppo 2) = 4;
2(gruppo 3) = 5;
2(gruppo 4) = 4,6;
2(gruppo 5) = 8,66;

Confrontando i valori ottenuti per il gruppo 3 e per il gruppo 4,


possiamo osservare che la varianza pi grande corrisponde a un
campo di variazione pi piccolo; questo sta a indicare che
linfluenza dei valori interni al campo di variazione rilevante nel
misurare la variabilit.

32

Nel caso di distribuzioni con dati raggruppati in classi vale il


discorso gi fatto per il calcolo della media aritmetica: occorre
assumere dei valori rappresentativi per le classi e procedere poi
al calcolo della varianza mediante la formula per la media
ponderata.

Esercizio 20.
I dati riportati qui di seguito rappresentano la retribuzione
annua (in migliaia di dollari) di 59 dirigenti americani.
14
5
62
1
26
2
20
8
36
2
42
4
33
9
73
6
29
1
58

49
8
64
3
39
0
33
2
75
0
36
8
65
9
23
4
39
6
30
0

343
536
543
217
298
110
3
406
254
862
204

20
6
25
0
21
29
8
35
0
80
0
72
6
37
0
53
6
29
1

80
8
54
3
14
9
35
0
24
2
19
8
21
3
29
6
31
7
48
2

15
5
80
2
20
0
28
2
57
3
38
8
25
0
39
6
57
2

Raggruppando in classi di ampiezza 200 dollari, costruire la


distribuzione di frequenza e rappresentarla con un istogramma.
Preso il punto centrale di ogni classe come rappresentativo,
calcolare la media, la moda, la mediana, i quartili e la varianza.

3.4.2 LO

SCARTO QUADRATICO MEDIO

Molto spesso, per misurare il grado di variabilit di una


distribuzione, preferibile calcolare la radice quadrata (positiva)
della varianza.

Definizione

33

Lo scarto quadratico medio, o scostamento quadratico medio


o scarto standard si ottiene dal calcolo della radice quadrata
della varianza:

2 .

Per capire il motivo di questa preferenza


lesempio delle retribuzioni annue (esercizio 20):

riprendiamo

i dati osservati sono espressi in dollari (migliaia);

la media aritmetica espressa in dollari (migliaia);

la varianza espressa in dollari (migliaia) al quadrato;

lo scarto quadratico medio espresso in dollari


(migliaia) perch la radice quadrata della varianza.

Dunque, la media aritmetica e la varianza sono espresse in


unit di misura diverse (rispettivamente in dollari e dollari al
quadrato) mentre la media aritmetica e lo scarto quadratico
medio sono espressi nella medesima unit di misura (dollari).
Questo un fatto molto importante nel confronto di situazioni
diverse.

Esercizio 21.
Calcolare gli scarti quadratici medi per i dati degli esercizi 19
e 20.

3.4.3 LO

SCARTO INTERQUARTILE

Un ulteriore modo di misurare la variabilit di


distribuzione basato sul calcolo dello scarto interquartile.

34

una

Definizione
Lo scarto interquartile la differenza tra i valori del terzo
quartile e del primo quartile: q3/4 q1/4.

Per i dati dellesercizio 20, per esempio, si ottiene:

q3/4 q1/4 = 347.

Osserviamo che, per come sono stati definiti il primo e il terzo


quartile, la percentuale di osservazioni comprese tra il loro valore
esattamente 50.

Esercizio 22.
Calcolare scarto quadratico medio e scarto interquartile per
tutte le misure presentate nelle unit 2 e 3 per cui tale
operazione ha senso.

3.4.4 IL

COEFFICIENTE DI

VARIAZIONE

Supponiamo ora di voler trasformare in euro i dati


dellesercizio 20 per poterli meglio confrontare con la situazione
del nostro paese. Ogni misura espressa in dollari va moltiplicata
per la quotazione del giorno corrente. Ammettendo che il valore
sia di 1,11 si ottiene:

M = 450

= 246

Chiaramente la variabilit delle misure non dipende dallunit


di misura utilizzata, cos per rendere pi facilmente confrontabili
le misure della dispersione, si pu rapportare il valore dello
scarto quadratico medio al valore della media espressa nella
stessa unit di misura, ottenendo un indice che un numero
puro indipendente dallunit di misura utilizzata. Lindice che si

35

ottiene in questo modo si chiama coefficiente di variazione e si


indica con CV.

Esercizio 23.
Calcolare il coefficiente di variazione per i dati dellesercizio
20 e confrontare i valori ottenuti utilizzando come unit di misura
il dollaro (migliaia) e leuro.
Svolgimento
Calcolando il rapporto tra lo scarto quadratico medio e la
media espressi in dollari otteniamo CV = 1,83, che lo stesso
valore che si ottiene anche dal calcolo del rapporto delle stesse
quantit espresse in euro.

Esercizio 24.
Calcolare il coefficiente di variazione per la variabile livello di
rumore per i due tipi di filtro (dati di tabella 2.1).

Esercizio 25.
In un collettivo in cui sono state rilevate le stature, in cm, e i
pesi, in kg, risulta:

peso medio
=
67,6 kg
statura media =
171,7 cm

= 7,8
kg
= 7,7
cm

Quale delle due distribuzioni pi dispersa? In altre parole,


risulta pi variabile il peso o la statura?

36

Esercizio 26.
Negli Stati Uniti la statura viene rilevata in pollici. Un gruppo
di studenti americani ha una statura media di 69 pollici con uno
scostamento quadratico medio di 2,4 pollici. Un gruppo di
studenti italiani ha una statura media di 175,3 cm e scostamento
quadratico medio di 6 cm. In quale dei due gruppi la statura pi
variabile?

37