Sei sulla pagina 1di 19

4.

INDICI DI VARIABILITÀ E DI FORMA

4.1 Introduzione

L'individuazione di un indice di posizione è fondamentale per la caratterizzazione di una distribuzione di


frequenza, questo indice da solo non risulta sufficiente. Due diversi gruppi di unità statistiche possono
presentare una stessa moda, una stessa mediana e una stessa media ma possono essere molto diversi per
quanto riguarda la variabilità delle determinazioni assunte dalla variabile. La variabilità è una caratteristica
importante di un insieme di dati ed esprime la tendenza delle unità ad assumere valori diversi del carattere.

La situazione limite di assenza di variabilità, si manifesta se tutte le n unità presentano una stessa
determinazione della variabile alla quale è associata una frequenza assoluta pari a n (o frequenza relativa
pari a 1), mentre tutte le altre frequenze sarebbero nulle.

L'importanza della variabilità può essere illustrata, per esempio, considerando un’indagine volta a rilevare
il reddito di n individui: a parità di reddito complessivo, un basso livello di variabilità corrisponde a una
situazione in cui i redditi individuali sono tutti abbastanza simili fra loro, mentre una variabilità elevata
corrisponde alla situazione in cui poche unità detengono una frazione rilevante del reddito totale.
Un’altra situazione in cui risulta evidente l'importanza del grado di variabilità di una variabile si ha quando
si confrontano i rendimenti di diverse forme di investimento. A parità di rendimento medio, infatti, è
essenziale tenere presente anche la variabilità, che può essere considerata come una misura del rischio
connesso con i diversi tipi di investimento.
Gli indici che saranno esaminati nelle prossime pagine permettono di confrontare la variabilità di variabili
diverse rilevate su uno stesso gruppo di unità statistiche o la variabilità di una stessa variabile rilevata in
luoghi o in tempi diversi. Questi indici devono verificare necessariamente alcune proprietà, tenuto conto
del motivo per cui sono utilizzati.

49
In particolare, un indice di variabilità deve assumere il suo valore minimo in caso di assenza di variabilità,
mentre deve assumere valori via via maggiori al crescere del grado di “diversità” esistente fra le n
osservazioni

Nota
In questa sede, per semplicità, verranno esaminati i più comuni indici di variabilità limitatamente al caso in cui la
variabile esaminata è di tipo quantitativo, ma esistono indici diversi che permettono di misurare la variabilità di
variabili qualitative, sia ordinabili sia non ordinabili.

4.2 Ampiezza del campo di variazione e differenza interquartile

Uno dei più semplici indici di variabilità è l’ampiezza del campo di variazione che, considerata la
sequenza ordinata in modo non decrescente degli n valori assunti dalla variabile sulle unità statistiche
esaminate, è x(n)  x(1)

Questo indice risulta pari a zero se e solo se tutti gli n valori sono uguali fra loro e tende ad assumere valori
crescenti al crescere della variabilità della variabile.
Il difetto principale dell’ampiezza del campo di variazione consiste nel fatto che dipende esclusivamente
dal più piccolo e dal più grande valore rilevato, per cui è fortemente influenzato della presenza di eventuali
valori anomali. Inoltre, se la distribuzione è in classi e la prima e/o l’ultima classe sono aperte, il risultato
è influenzato dalla chiusura di tali classi. A causa di questi motivi, l’ampiezza del campo di variazione è un
indice poco usato.

Un altro semplice indice di variabilità è la differenza interquartile x0.75 x0.25.

A differenza dell’ampiezza del campo di variazione, la differenza interquartile non risente dell’eventuale
presenza di valori anomali, ma ha comunque il difetto di dipendere esclusivamente da due soli valori
caratteristici calcolati sulle n osservazioni.

4.3 Varianza
Gli indici di variabilità di uso più frequente sono i cosiddetti indici di dispersione, basati sulle differenze
fra i valori 𝑥𝑖 (i = 1, 2, …, n) e un qualche indice della tendenza centrale, che tipicamente è la media
aritmetica 𝑥̅ .
Uno degli indici di variabilità più utilizzati in statistica è la varianza, che è definita come media aritmetica
dei quadrati degli n scarti dalla media.

50
Se si dispone della sequenza degli n valori rilevati x1, x2, …., xn, la varianza di una variabile quantitativa X,

usualmente indicata con sx2 , è data da


n
  x i  x 2
1
s x2  4.3.1
n i 1

e corrisponde quindi al secondo momento centrale, per cui di solito viene calcolata facendo la differenza
fra il secondo momento e la media elevata al quadrato.

La varianza è uguale a zero se e solo se tutte le osservazioni sono uguali fra di loro (e uguali quindi alla
loro media), mentre il suo valore tende a crescere al crescere dell'ampiezza degli scarti.

Esempio 4.3.1
Su 5 unità sono state rilevati i valori x1=7, x2=8, x3=12, x4=15 e x5=18 di una variabile quantitativa discreta X. Per
calcolare la varianza della variabile conviene innanzitutto calcolarne la media
7  8  12  15  18 60
m1  x    12 ,
5 5
e la media dei quadrati (o il secondo momento)
7 2  82  122  152  182 806
m2    161.2 .
5 5
La varianza risulta quindi pari a sx2  m2  x 2  161.2  122  17.2 .

Se i dati raccolti sono organizzati in una distribuzione di frequenza, la varianza è data da

 c j  x 2 n j   c j  x 2 f j
k k
1
s x2  4.3.2
n j 1 j 1

ed infine, se la distribuzione è raggruppata in classi, gli scarti da considerare ai fini del calcolo sono quelli

fra i valori centrali delle classi e la media aritmetica, per cui il valore approssimato di sx2 è dato da

 c j  x 2 n j   c j  x 2 f j .
k k
1
sx2  4.3.3
n j 1 j 1

Esempio 4.3.2
Data la seguente distribuzione relativa a una variabile discreta X

Determinazioni Frequenza relativa cumulata


2 0.25
4 0.75
6 1.00

51
calcolarne la varianza.

Le frequenze relative associate a ciascuna determinazione della X risultano quelle riportate nella tabella seguente

Determinazioni Frequenza relativa


2 0.25
4 0.50
6 0.25
per cui si ottiene
𝑥̅ = 2×0.25 + 4×0.5 + 6×0.25 = 4
m2 = 22×0.25 + 42×0.5 + 62×0.25 = 18
𝑠𝑥2 = 18 – 42 = 2

Esempio 4.3.3
Data la seguente distribuzione relativa a una variabile continua X

Classi Frequenza
5- 6 45
6- 8 30
8 - 12 25
100

si ottengono i seguenti risultati approssimati

5.5  45  7  30  10  25
x  7.075
100
5.5 2  45  7 2  30  10 2  25
m2   53.3125
100
s x2  53.3125  7.075 2  3.256875

Prima proprietà
La varianza è un minimo, nel senso che la media dei quadrati degli scarti delle osservazioni da un qualsiasi
valore c diverso dalla media aritmetica risulta sempre maggiore della varianza.

Questa proprietà deriva dalla quarta proprietà della media aritmetica (nella dimostrazione basta dividere
per n).

Seconda proprietà

Siano x e sx2 la media e la varianza calcolate su n osservazioni della variabile X e sia Y = a + bX. La

varianza calcolata sulle osservazioni relative alla variabile Y coincide con la varianza delle osservazioni
originali moltiplicata per il quadrato del coefficiente b.

52
Dimostrazione
Questa proprietà è un caso particolare della proprietà dei momenti centrali di ordine r. Considerata
l’uguaglianza 3.6.7 è infatti sufficiente sostituire al generico valore r il valore 2 per ottenere il risultato
̅ 2𝑦 = 𝑠𝑦2 = 𝑏 2 𝑠𝑥2 = 𝑏 2 𝑚
𝑚 ̅ 2𝑥 . 4.3.4
Un semplice cambiamento dell’origine della scala di misura non ha effetto sul valore assunto dalla varianza,
che invece risente di un eventuale cambiamento dell’unità di misura .
L’invarianza della varianza rispetto a traslazioni è una proprietà abbastanza intuitiva, dato che un eventuale
slittamento della distribuzione lungo l’asse delle ascisse (in un senso o nell’altro) non modifica la struttura
della distribuzione stessa e quindi non ne modifica la variabilità.
Se, per esempio, si volesse valutare la variabilità del peso di un determinato bene confezionato in modo
standard, sarebbe irrilevante considerare i pesi lordi anziché i pesi netti.
Se, invece, la statura di un gruppo di persone venisse misurata una volta in millimetri e la seconda volta in
centimetri, nel primo caso si otterrebbe una varianza 100 volte più grande di quella ottenuta nel secondo
caso. Allo stesso modo, se il peso corporeo di un gruppo di neonati venisse misurato in chilogrammi, la
varianza risulterebbe un milione di volte più piccola di quella che si sarebbe ottenuta effettuando la
rilevazione in grammi.

Esempio 4.3.4
Data una variabile X di media x  4 varianza sx2  3 , si determini media e varianza delle seguenti variabili
3 3 1 1
trasformate Y  2  X , W  2X  , Z   X .
5 5 4 2

Risulta
2
3 3 2 3 9 27
y  2  x  2   4  ; s 2y    s x2  3  ;
5 5 5 5 25 25

sw2   22 sx2  4  3  12 ;


3 3 3 37
w  2x   2  4   8   ;
5 5 5 5
2
1 1 1 1 7  1 1 3
z   x   4   ; s z2     s x2   3  .
4 2 4 2 8  2  4 4

Come caso particolare di trasformazione lineare si consideri la variabile

Xx
Y 4.3.5
sx

53
detta variabile scarto standardizzato, che si ottiene dalla generica trasformazione lineare ponendo a =
−𝑥̅ /𝑠𝑥 e b = 1/𝑠𝑥 . La particolarità di questa variabile è che la media sulle n osservazioni è pari a zero e la
varianza è pari a 1.

Terza proprietà: scomposizione della varianza


Se le n unità statistiche oggetto di indagine sono naturalmente suddivise in g gruppi distinti, la varianza può
essere scomposta nella somma della media ponderata delle varianze nei gruppi e della varianza delle medie
dei gruppi.
g
Indicata con nh la numerosità dell’h-esimo gruppo (h = 1, 2, …, g), con  nh  n , e con xh e sh2 la media
h 1

e la varianza della variabile X all’interno dell’h-esimo gruppo, si dimostra che la varianza complessiva sx2

risulta
g g
  xh  x 2 nh
1 1
sx2  sh2 nh 
n h 1 n h 1

La prima quantità alla destra del segno di uguaglianza corrisponde alla media delle varianze dei gruppi
ponderata con la numerosità dei gruppi e rappresenta quindi una misura della variabilità “all’interno dei
gruppi”. Infatti risulta nulla se e solo se la varianza di ogni gruppo è nulla, ossia se la variabile X assume
sempre uno stesso valore all’interno di ciascun gruppo. Questa quantità viene usualmente chiamata

varianza within (o varianza all’interno dei gruppi) ed è indicata con il simbolo sw2 ,

1 g 2
s w2   s h nh .
n h 1
4.3.6

La seconda quantità alla destra del segno di uguaglianza corrisponde invece alla varianza delle medie dei
gruppi dato che la media delle medie dei gruppi è uguale alla media e rappresenta quindi una misura della
variabilità “fra i gruppi”. Infatti risulta nulla se e solo le medie di ogni gruppo sono uguali fra loro e uguali
alla media. Questa quantità viene usualmente chiamata varianza between (o varianza fra i gruppi) e viene

indicata con il simbolo sb2 ,


g
 xh  x 2 nh .
1
sb2  4.3.7
n h 1

Pertanto la proprietà della scomposizione della varianza può essere anche espressa nella forma equivalente

sx2  sw2  sb2 . 4.3.8

54
Dimostrazione
Riprendendo la notazione introdotta per dimostrare la quinta proprietà della media, sia xih l’i-esima osservazione

appartenente all’h-esimo gruppo (con i =1, 2, …, nh e h = 1, 2, …, g). La varianza sx2 può allora essere scritta anche

nel modo seguente


nh g
 xih  x 2 .
1
s x2 
n
i 1 h 1

Sommando e sottraendo la media dell’h-esimo gruppo all’interno della parentesi tonda si ottiene
nh g nh g
xih  xh  xh  x 2  xih  xh   xh  x 2
1 1
sx2 
n n
i 1 h 1 i 1 h 1

da cui, sviluppando il quadrato del binomio, risulta


nh g nh g nh g
 xih  xh   xh  x   xih  xh xh  x  .
1 2 1 2 1
s x2    4.3.9
n n n
i 1 h1 i 1 h1 i 1 h1

Tenendo presente che la varianza dell’h-esimo gruppo è data da


nh

 x ih  xh 2 ,
1
s h2 
nh
i 1

si nota subito che il primo dei tre addendi che compaiono a destra del segno di uguaglianza nella 4.3.9 corrisponde a
nh g g  nh  g
 x ih  xh 2    x ih  xh 2    s h2 nh  s w2
1 1 1
.
n n 
h 1  i 1
 n
i 1 h 1  h 1

Tenendo presente la 4.3.7, il secondo addendo a destra del segno di uguaglianza nella 4.3.9 corrisponde invece a
nh g nh  g  g
 x h  x 2    x h  x 2    xh  x 2 nh  sb2
1 1 1
.
n n 
i 1  h 1
 n
i 1 h 1  h 1

L’ultimo termine a destra nella 4.3.9, infine, risulta uguale a zero perché corrisponde al prodotto di una costante per
la somma degli scarti dalla media.

4.4 Altri indici di variabilità


Una volta fissata l’unità di misura da utilizzare per rilevare i valori della variabile X, la varianza risulterà
espressa nell'unità di misura al quadrato, dato che corrisponde alla media dei quadrati degli scarti della
variabile dalla sua media aritmetica. Per esempio, nel caso si voglia valutare la variabilità delle stature di n
individui misurate in centimetri, la varianza risulterà espressa in centimetri quadrati, mentre la varianza del
loro peso corporeo, se misurato in chilogrammi, sarà espressa in chilogrammi al quadrato. Per superare

55
questo inconveniente, che rende più complessa l’interpretazione del risultato ottenuto, spesso si utilizza, al
posto della varianza, la sua radice quadrata.
Questo indice, detto deviazione standard (o scarto quadratico medio o scostamento quadratico medio),
fornisce le stesse informazioni della varianza, dato che conoscere la varianza di una distribuzione equivale
a conoscerne la deviazione standard e viceversa. La deviazione standard di una variabile quantitativa X
viene comunemente indicata mediante il simbolo sx oppure, se è evidente che si tratta della variabile X,
semplicemente dalla lettera s.

A seconda di come sono organizzati i dati, la deviazione standard corrisponde alle espressioni

1 n
sx  
n i 1
x i  x 2 , 4.4.1

 c j  x 2 n j   c j  x 2 f j ,
k k
1
sx  4.4.2
n j 1 j 1

 c j  x  2 n j  c j  x  2 f j
k k
1
sx   4.4.3
n j 1 j 1

immediatamente ricavabili dalle corrispondenti formule della varianza nei tre diversi casi.
Per la sequenza del numero di dipendenti considerata dell’esercizio 3.4.1, per esempio, la media dei quadrati
m2 risulta pari a 160.8 mentre il quadrato della media aritmetica è 100, per cui la varianza risulta uguale a
60.8 e la deviazione standard a circa 7.7974.

Proprietà
Considerata una variabile X avente deviazione standard sx, la deviazione standard di una trasformazione
lineare del tipo Y = a + bX corrisponde alla deviazione standard della X moltiplicata per il coefficiente b
preso in valore assoluto
s y  b sx

ed è quindi invariante rispetto a traslazioni, come la varianza

Dimostrazione
Tenendo conto la seconda proprietà della varianza e ricordando che la deviazione standard corrisponde alla
sua radice quadrata, è evidente che deve valere la seguente uguaglianza

56
s y  b2 sx2  b sx 4.4.4

dato che la deviazione standard, essendo un indice di variabilità, non può mai assumere un valore minore
di zero.
In alcune situazioni reali si può voler confrontare la variabilità di più variabili diverse come, per esempio,
i pesi corporei e le stature di un gruppo di individui, oppure la variabilità di variabili espresse in unità di
misura diverse come nel caso di redditi espressi in valute differenti (Lire ed Euro, oppure Dollari ed Euro).
In queste situazioni la varianza e la deviazione standard non possono essere utilizzate, perché dipendono
dall’unità di misura. Questi indici possono essere quindi utilizzati solo se le distribuzioni risultano
omogenee, ossia se si riferiscono a variabili misurate con la stessa unità di misura, sempre se il loro ordine
di grandezza non è molto diverso.
Se, per esempio, si volesse confrontare il peso corporeo di un gruppo di individui adulti e di un gruppo di
neonati, l’unità di misura potrebbe essere il chilogrammo in entrambi i casi, ma una differenza di un solo
chilogrammo assume un significato ben diverso nei due gruppi in esame.

Per poter effettuare confronti sulla variabilità di distribuzioni non omogenee oppure di distribuzioni relative
alla stessa variabile ma con diverso ordine di grandezza, è necessario ricorrere a indici che non dipendono
dall'unità di misura delle osservazioni. L’indice più utilizzato è il cosiddetto coefficiente di variazione
(CV), dato dal rapporto fra la deviazione standard e la media aritmetica.

Considerata una variabile quantitativa X di media x e deviazione standard sx, il suo coefficiente di
variazione è dato da
sx
CVx  4.4.5
x
che è un numero adimensionale, ossia indipendente dall’unità di misura utilizzata nella rilevazione.
Il coefficiente di variazione, così come ogni altro indice di variabilità relativo, può essere però utilizzato
solo se i valori rilevati sono tutti non negativi (perché nessun indice di variabilità può mai risultare minore
di zero, ma la media posta al denominatore potrebbe essere negativa).
Un altro caso in cui è sconsigliato l’uso di questo indice è quando la variabile ha una media molto prossima
allo zero, dato che in questo caso il coefficiente di variazione assumerebbe valori estremamente elevati.

57
Dati, per esempio, i valori riportati nella tabella successiva che si riferiscono ai risultati ottenuti dai primi
1
10 atleti classificati in tre diverse prove di decathlon nelle Olimpiadi del 1988 (i tempi sono misurati in
secondi e le distanze in metri). Per determinare la specialità sportiva nella quale si rileva la maggiore
variabilità dei risultati si ha la necessità di utilizzare un indice di variabilità relativo.

Tabella 4.4.1
Risultati ottenuti dai primi 10 atleti classificati in tre prove di decathlon (Olimpiadi del 1988)
salto in alto 2.27 1.97 1.97 2.03 1.97 2.12 2.06 2.00 2.03 1.97
400 metri 48.90 47.71 48.29 49.06 47.44 48.34 49.34 48.21 49.15 48.60
Giavellotto 61.32 61.76 64.16 64.04 57.46 52.18 61.60 63.00 66.46 59.48

Indicata con X la variabile “salto in alto”, con Y la variabile “400 metri” e con Z la variabile “lancio del
giavellotto” i coefficienti di variazione (approssimati a 4 cifre decimali) risultano rispettivamente pari a
sx s s
 0.0441 , y  0.0122 , z  0.0626 ,
x y z
per cui la maggiore variabilità dei risultati si ha per il lancio del giavellotto, per il quale le osservazioni si
discostano dalla media per una quantità di poco superiore al 6% della media stessa.

Proprietà del CV

Considerata una variabile X di media x e varianza sx2 , il coefficiente di variazione calcolato sulle
osservazioni relative alla variabile Y = a + bX risulta
sy b sx
CV y   .
y a  bx

Se si volesse determinare il coefficiente di variazione di una trasformazione del tipo Y = bX, il parametro
b, che rappresenta il fattore di scala, dovrebbe risultare necessariamente positivo (dato che il coefficiente
di variazione può essere calcolato solo per variabili che non assumono valori negativi). Sotto questa
condizione si ottiene
sy bs x s x
CV y     CV x per b > 0 ,
y bx x

1 International Athletic Federation, London. Quoted in Lunn A.D. and McNeil D.R. (1991), Computer-interactive data analysis, Chichester: John
Wiley & Sons, 276.

58
per cui il coefficiente di variazione della variabile Y coincide con quello della variabile originale X,
ovvero non dipende dall’unità di misura in cui sono espresse le variabili.

4.5 Asimmetria e curtosi


Oltre agli indici di posizione e di variabilità in statistica vengono utilizzati anche indici diversi che
descrivono altri aspetti dell'assetto distributivo di una variabile quantitativa, precisandone la forma. Per
questo motivo vengono spesso chiamati indici di forma.

Una sequenza ordinata di valori di una variabile X si dice simmetrica se gli scarti negativi rispetto al centro
del campo di variazione della variabile risultano tutti ordinatamente uguali, in valore assoluto, ai
corrispondenti scarti positivi.

Un esempio di sequenza simmetrica è rappresentata nella tabella 4.5.1 in cui il campo di variazione è dato
da [-4, 10] per cui il suo centro, pari alla semisomma degli estremi, risulta uguale a 3.

Tabella 4.5.1
Esempio di sequenza caratterizzata da simmetria

-4 -3 0 3 6 9 10

Lo stesso concetto può essere esteso ai casi in cui i valori della variabile sono organizzati sotto forma di
distribuzione di frequenza, ma in queste situazioni il modo più semplice per controllare se la distribuzione
è simmetrica è mediante l’analisi del grafico corrispondente, che in questo caso risulta formato da due parti
specularmente identiche rispetto al centro del campo di variazione.
Due esempi di distribuzioni simmetriche relative a una variabile discreta e a una variabile continua sono
riportati nelle tabelle 4.5.2 e 4.5.3, come si vede chiaramente dai grafici corrispondenti.

Tabella 4.5.2
Esempio di distribuzione simmetrica per una variabile discreta X

X Frequenza assoluta
-3 100
-1 250
0 150
1 150
2 250
4 100
1000

59
Figura 4.5.1
Rappresentazione grafica della distribuzione indicata nella tabella 4.5.2

300
250
frequenza assoluta

200
150
100
50
0
-4 -3 -2 -1 0 1 2 3 4 5
x

Tabella 4.5.3
Esempio di distribuzione simmetrica per una variabile continua X

Classi Frequenza relativa


1– 2 0.1
2– 4 0.2
4– 7 0.4
7– 9 0.2
9 – 10 0.1
1.0

Figura 4.5.2
Rappresentazione grafica della distribuzione indicata nella tabella 4.5.3
0,14
0,13
0,12
0,11
0,1
0,09
0,08
densità

0,07
0,06
0,05
0,04
0,03
0,02
0,01
0
0 1 2 3 4 5 6 7 8 9 10 11

60
Nel primo caso il centro del campo di variazione è pari a 0.5, mentre nel secondo è 5.5. Si vede subito che
entrambe le distribuzioni risultano specularmente identiche rispetto a questi due valori centrali.

Una sequenza di valori o una distribuzione di frequenza che non risulta simmetrica viene detta
asimmetrica. Più precisamente, si parla di asimmetria positiva quando le frequenze più elevate si rilevano
in corrispondenza della prima metà del campo di variazione e di asimmetria negativa in caso contrario.

Per esempio, le distribuzioni rappresentate graficamente nelle figure 2.3.5 e 2.3.6 presentano entrambe
un’asimmetria positiva. Un altro caso di distribuzione con asimmetria positiva è riportato nell’esempio
2.4.1, mentre nella tabella successiva è riportato un esempio di distribuzione in classi con asimmetria
negativa, rappresentata graficamente mediante l’istogramma della figura 4.5.3.

Tabella 4.5.4
Esempio di distribuzione con asimmetria negativa

Classi Frequenza relativa


1– 4 0.1
4– 6 0.1
6– 8 0.3
8 – 10 0.5
1.0

Figura 4.5.3
Istogramma della distribuzione riportata nella tabella 4.5.4
0,3

0,25

0,2
densità

0,15

0,1

0,05

0
0 1 2 3 4 5 6 7 8 9 10 11

61
L’indice più usato per misurare il grado di asimmetria di una variabile è l’indice di Fisher, dato dal rapporto
fra il terzo momento centrale e la deviazione standard al cubo

m3
a3= 4.5.1
s 3x

L’indice a3 è un numero adimensionale, dato che gli indici posti al numeratore e al denominatore sono
entrambi espressi nell’unità di misura elevata al cubo, e risulta quindi svincolato dall’unità di misura
utilizzata nella rilevazione del variabile.
In caso di distribuzioni simmetriche l’indice risulta pari a zero, mentre assume valori positivi se
l’asimmetria è positiva, perché la somma dei cubi degli scarti positivi è maggiore di quella dei cubi degli
scarti negativi. L’asimmetria è invece negativa quando a3 è minore di zero.
È importante sottolineare, però, che la somma degli scarti negativi al cubo può risultare uguale alla somma
degli scarti positivi al cubo anche se la distribuzione è asimmetrica; pertanto un valore di a3 uguale a zero
è una condizione necessaria ma non sufficiente per la simmetria.

Esempio 4.5.1
Considerate le due seguenti sequenze di valori che si riferiscono alla lunghezza (in millimetri) delle mandibole di 20
sciacalli, 10 di sesso maschile e 10 di sesso femminile, contenute nel British Museum2

Maschi: 120, 107, 110, 116, 114, 111, 113, 117, 114, 112
Femmine: 110, 111, 107, 108, 110, 105, 107, 106, 111, 111

se ne calcoli l'indice di asimmetria.

Il risultato, approssimato a quattro cifre decimali, è pari a 0.0777 per le mandibole degli sciacalli di sesso maschile e
a –0.2569 per le mandibole degli sciacalli di sesso femminile.
In questo caso, quindi, la prima sequenza presenta una lievissima asimmetria positiva, mentre la seconda è
caratterizzata da una leggera asimmetria negativa.

Proprietà dell’indice di Fisher


Sia a3x l’indice di asimmetria di Fisher calcolato su n osservazioni relative alla variabile X. Data la variabile
Y=a+bX, l’indice di asimmetria a3y coincide con a3x se b è positivo mentre è a3x se b è negativo..

Dimostrazione
Considerata infatti la trasformazione Y = a + bX, l’indice di Fisher della Y risulta

2 Manly B.F.J. (1991), Randomization and Monte Carlo methods in biology, London: Chapman and Hall, 4.

62
m3 y b 3 m3 x b3
a3 y= =  a3 x  segnob  a3 x .
s 3y b 3 s 3x b3

Per quanto riguarda le situazioni reali, va osservato che spesso i valori assunti dalla variabile di interesse si
addensano in corrispondenza del centro del campo di variazione e che la loro frequenza tende a diminuire
al crescere della distanza da tale valore centrale in entrambe le direzioni. Una distribuzione che presenta
questa forma è detta campanulare e si rileva piuttosto spesso per variabili di tipo biometrico, come per
esempio il peso corporeo, la statura, il perimetro toracico, l’apertura alare. Distribuzioni che presentano una
certa asimmetria positiva si rilevano invece abbastanza frequentemente in campo socio-economico, come
nel caso del reddito, dei livelli di consumo e di risparmio, del numero di abitanti per comune.
Un'altra caratteristica rilevante dell’assetto distributivo di una variabile è la cosiddetta curtosi, che fa
riferimento alla morfologia delle ‘code della distribuzione’, ovvero al peso più o meno accentuato delle
code rispetto alla parte centrale della distribuzione. Gli indici di curtosi misurano lo “spessore” delle code
di una distribuzione, ossia l’addensamento delle osservazioni in prossimità degli estremi del campo di
variazione.

L’indice di curtosi più utilizzato, indicato con il simbolo a4, è dato dal rapporto fra il quarto momento
centrale e il quadrato della varianza

m4
a4= 4.5.2
s x4

Per motivi che saranno chiariti in seguito, il valore di riferimento nel calcolo dell’indice a4 risulta pari a 3.
Più in particolare, una distribuzione per la quale a4 risulta uguale a 3 è detta mesocurtica (o normocurtica),
una distribuzione con a4 < 3 è detta platicurtica (o iponormale), mentre una distribuzione con a4 > 3 è
detta leptocurtica (o ipernormale). Le distribuzioni platicurtiche hanno code meno “pesanti” rispetto alle
code delle distribuzioni leptocurtiche (sono anche dette a code leggere, mentre le leptocurtiche sono dette
a code pesanti).

Proprietà
L’indice di curtosi è invariante per trasformazioni lineari.
Dimostrazione

63
Considerata una variabile X di deviazione standard s x e quarto momento centrale m4 x , l’indice di curtosi

della la trasformazione lineare Y = a + bX risulta


m4 y b 4 m4 x b4
a 4 y= =  a4 x  a4 x .
s 4y b 4 s x4 b4

4.6 Box plot


Il box plot (o grafico a scatola), è una rappresentazione grafica che è spesso utilizzata per descrivere in
modo sintetico le principali caratteristiche distributive di una variabile quantitativa. Viene ottenuto
utilizzando indici sintetici di posizione e di variabilità ed assume configurazioni diverse a seconda della
scelta di tali indici. Gli indici di posizione più utilizzati sono il primo e il terzo quartile a cui si aggiunge la
mediana oppure la media aritmetica. Gli indici di variabilità più frequentemente usati sono la deviazione
standard oppure la differenza interquartile. Oltre agli indici di posizione e di variabilità, il box plot riporta
anche i cosiddetti valori adiacenti (inferiore e superiore) che sono utilizzati per individuare eventuali valori
anomali, ossia quei valori che sono significativamente diversi (molto più bassi o molto più elevati) di quelli
rilevati sulle altre unità statistiche appartenenti al medesimo gruppo.

Il valore adiacente inferiore (VAI) è la più piccola fra le osservazioni che risulta maggiore o uguale a x0.25
x0.75 x0.25) mentre il valore adiacente superiore (talvolta indicato con l’acronimo VAS) è la più
grande fra le osservazioni che risulta minore o uguale a x0.75 x0.75 x0.25).

Un esempio di box plot è riportato nella figura 4.6.1 nella quale come indice di posizione si è utilizzata la
mediana e come indice di variabilità la differenza interquartile.
Il box plot è costruito su un’asse verticale3 in cui sono indicati i valori del primo e del terzo quartile, che
delimitano rispettivamente l’estremo inferiore e l’estremo superiore del rettangolo che compone la parte
centrale del grafico. Questo rettangolo, per definizione, contiene al suo interno il 50% circa delle n
osservazioni complessive. Se la differenza interquartile è piccola, le osservazioni poste al suo interno
risulteranno fortemente concentrate intorno alla mediana, mentre all'aumentare del suo valore, e quindi
all’aumentare della variabilità della variabile, le osservazioni risulteranno più disperse.
La mediana divide il rettangolo in due parti e le distanze fra la mediana e i quartili forniscono informazioni
sulla forma della distribuzione: se infatti una distanza è diversa dall'altra allora la distribuzione è
sicuramente asimmetrica. In particolare, quando la porzione inferiore del rettangolo (delimitata da il primo

3 In alcuni casi i valori della variabile possono essere riportati sull’asse delle ascisse, invece che sulle ordinate, per cui il grafico risulterebbe ruotato
di 90 gradi.

64
quartile e la mediana) è minore della porzione superiore (delimitata dalla mediana e terzo quartile) la
distribuzione presenta un’asimmetria positiva (come nel caso della figura 4.6.1), mentre presenta
un’asimmetria negativa nel caso opposto.
I due segmenti che partono dal rettangolo e che si allungano l’uno verso il basso e l’altro verso l’alto, sono
comunemente denominati baffi e si ottengono congiungendo il rettangolo al VAI e al VAS.
Anche le lunghezze di questi baffi forniscono informazioni sull’eventuale asimmetria della distribuzione,
ma il loro compito è essenzialmente quello di evidenziare l’eventuale presenza di valori anomali (outliers).
Sono infatti considerate anomale tutte quelle osservazioni più piccole del VAI o più grandi del VAS e, nelle
situazioni reali, tali osservazioni vengono di solito esaminate con una certa attenzione per indagare su cosa
le ha causate.

Figura 4.6.1
Esempio di Box plot

Considerate, per esempio, le seguenti distribuzioni delle età dei dipendenti di una cooperativa classificati
per sesso

65
Maschi Femmine
Età Frequenza assoluta Età Frequenza assoluta
19 2 18 1
20 6 25 2
21 3 26 2
22 1 28 2
23 1 29 1
25 1 30 2
28 1 31 3
30 1 32 1
35 1 33 2
37 1 16
18

i due box plot corrispondenti basati, sui valori dei tre quartili, si ottengono dai risultati seguenti.

Per i maschi i tre quartili risultano:


x0.25= 20, x0.5= 21, x0.75= 25,
per cui si ha
x0.25 x0.75 x0.25) = 20 – 1.5×(25 – 20) = 12.5,
x0.75 x0.75 x0.25) = 25 + 1.5×(25 – 20) = 32.5.
Quindi i due valori adiacenti sono:
VAI = 19, che corrisponde alla più piccola osservazione maggiore o uguale a 12.5
VAS = 30, che corrisponde alla più grande osservazione minore o uguale a 32.5

Per le femmine i tre quartili risultano:


x0.25= 26, x0.5= 29, x0.75= 31,
per cui si ha
x0.25 x0.75 x0.25) = 26 – 1.5×(31 – 26) = 18.5,
x0.75 x0.75 x0.25) = 31 + 1.5×(31 – 26) = 38.5.
Quindi i due valori adiacenti sono:
VAI = 25, che è la più piccola osservazione maggiore o uguale a 18.5
VAS = 33, che è la più grande osservazione minore o uguale a 38.5

I due box plot assumono quindi la forma indicata nel grafico successivo, in cui sono stati evidenziati anche
i valori anomali (corrispondenti ai cerchietti al di fuori dei baffi) e le due medie aritmetiche (corrispondenti
al piccolo rombo all’interno dei rettangoli).

66
Nota
Esistono altre possibili configurazioni del box plot che differiscono fra loro per l’orientamento (scambiando le ascisse
con le ordinate) o per gli indici di posizione e di variabilità considerati. Un altro caso abbastanza comune è quello in
cui si calcola la media aritmetica anziché la mediana; in questo caso gli estremi (inferiore e superiore) del rettangolo
corrispondono alle quantità 𝑥̅ ±𝑠𝑥 .

67

Potrebbero piacerti anche