Indici Di Variabilità e Di Forma

4.
INDICI DI VARIABILITÀ E DI FORMA
4.1 Introduzione
L'aspetto che caratterizza una qualsiasi variabile X è la diversità delle modalità o dei valori assunti da X
sulle n unità statistiche rilevate ed è proprio questa pluralità di determinazioni che rende necessaria
l'utilizzazione dei metodi statistici per una sua adeguata descrizione. Lo studio di una variabile
singolarmente considerata, così come quello delle relazioni fra variabili diverse che sarà analizzato nel
capitolo seguente, è essenzialmente un'analisi della loro variabilità.
Tutti gli indici analizzati nel capitolo precedente forniscono informazioni utili sulla variabile oggetto di
indagine e in particolare la moda, la media e la mediana sono chiamati indici della tendenza centrale
perché sintetizzano l’insieme delle n osservazioni in un'unica modalità o valore che ha lo scopo di
riassumere tutta l’informazione contenuta nelle n unità esaminate. Questi indici, però, non sono mai
sufficienti per una descrizione dettagliata della variabile in esame perché due diversi gruppi di unità
statistiche possono presentare una stessa moda, una stessa mediana o una stessa media, ma possono essere
molto diversi per quanto riguarda la variabilità delle determinazioni assunte dalla variabile.
La situazione limite di assenza di variabilità, si avrebbe se tutte le n unità presentassero una stessa
determinazione della variabile alla quale sarebbe associata, quindi, una frequenza assoluta pari a n (o
frequenza relativa pari a 1), mentre tutte le altre frequenze sarebbero nulle.
Gli indici che saranno esaminati nelle prossime pagine permettono di confrontare la variabilità di variabili
diverse rilevate su uno stesso gruppo di unità statistiche o la variabilità di una stessa variabile rilevata in
luoghi o in tempi diversi. Questi indici devono verificare necessariamente alcune proprietà, tenuto conto
del motivo per cui sono utilizzati.
In particolare, un indice di variabilità deve assumere il suo valore minimo in caso di assenza di variabilità,
mentre deve assumere valori via via maggiori al crescere del grado di “diversità” esistente fra le n
osservazioni
Nota
Saranno esaminati i più comuni indici di variabilità limitatamente al caso in cui la variabile è di tipo quantitativo, ma
esistono indici diversi che permettono di misurare la variabilità di variabili qualitative.
48
4.2 Ampiezza del campo di variazione e differenza interquartile
Per misurare la variabilità di una variabile X di tipo quantitativo si fa di solito riferimento alla grandezza
delle differenze fra i suoi valori, ossia alla cosiddetta dispersione dei valori all'interno del campo di
variazione x = [x(1), x(n)] della X.
La variabilità della X risulta evidentemente tanto più bassa quanto più piccole sono le differenze fra i suoi
diversi valori, per cui la situazione limite, di assenza di variabilità, si ha quando gli n valori rilevati sono
tutti uguali fra di loro.
L'importanza della variabilità può essere illustrata, per esempio, considerando un’indagine volta a rilevare
il reddito di n individui: a parità di reddito complessivo, un basso livello di variabilità corrisponde a una
situazione in cui i redditi individuali sono tutti abbastanza simili fra loro, mentre una variabilità elevata
corrisponde alla situazione in cui poche unità detengono una frazione rilevante del reddito totale.
Un’altra situazione in cui risulta evidente l'importanza del grado di variabilità di una variabile si ha
quando si confrontano i rendimenti di diverse forme di investimento. A parità di rendimento medio,
infatti, è essenziale tenere presente anche la variabilità, che può essere considerata come una misura del
rischio connesso con i diversi tipi di investimento.
Uno dei più semplici indici di variabilità è l’ampiezza del campo di variazione che, considerata la
sequenza ordinata in modo non decrescente degli n valori assunti dalla variabile sulle unità statistiche
esaminate, assume la forma
x = x(n) − x(1) . 4.2.1
Questo indice risulta pari a zero se e solo se tutti gli n valori sono uguali fra loro e tende ad assumere
valori crescenti al crescere della variabilità della variabile.
Nel caso dei dati riportati nell’esempio 2.1.1 l’ampiezza del campo di variazione corrisponde alla
differenza 11.8 − 11.2 ed è quindi pari a 0.6, mentre nell’esempio 2.1.4 il medesimo indice assume il
valore 81.9 − 0.8 = 81.1.
Il difetto principale dell’ampiezza del campo di variazione consiste nel fatto che il risultato della 4.2.1
dipende esclusivamente dal più piccolo e dal più grande valore rilevato, per cui è fortemente influenzato
della presenza di eventuali valori anomali. Inoltre, se la distribuzione è in classi e la prima e/o l’ultima
49
classe sono aperte, il risultato è influenzato dalla chiusura di tali classi. A causa di questi motivi,
l’ampiezza del campo di variazione è un indice poco usato.
Un altro semplice indice di variabilità è la differenza interquartile
Wx = x0.75 − x0.25 4.2.2
fra il terzo e il primo quartile.
Nel caso dei dati riportati nell’esempio 2.1.4 il primo quartile occupa il settimo posto nella sequenza dei
25 valori ordinati in senso non decrescente, mentre il terzo quartile occupa il diciannovesimo posto.
Pertanto la differenza interquartile corrisponde alla differenza 27.8 – 6.1 = 21.7.
A differenza dell’ampiezza del campo di variazione, l’indice Wx non risente dell’eventuale presenza di
valori anomali, ma ha comunque il difetto di dipendere esclusivamente da due soli valori caratteristici
calcolati sulle n osservazioni.
50
4.3 Varianza
Gli indici di variabilità di uso più frequente sono i cosiddetti indici di dispersione, basati sulle differenze
fra i valori 𝑥𝑖 (i = 1, 2, …, n) assunti dalla variabile X sulle n unità esaminate rispetto a un qualche indice
della tendenza centrale, che tipicamente è la media aritmetica 𝑥̅ .
L’ordine di grandezza di queste n differenze
𝑥𝑖 − 𝑥̅ 4.3.1
va poi valutato mediante il calcolo di un opportuno valore medio, ma va innanzitutto tenuto presente che,
per quanto riguarda la misura della variabilità, uno scarto 4.3.1 di segno negativo ha la stessa rilevanza di
uno scarto di segno positivo, per cui è necessario che nel calcolo della media gli scarti di segno diverso
non si compensino fra loro.
Per questo motivo gli indici di dispersione si basano sugli scarti considerati in valore assoluto oppure
sugli scarti elevati a una potenza pari.
Uno degli indici di variabilità più utilizzati in statistica è la varianza, che corrisponde alla media
aritmetica dei quadrati degli n scarti della variabile X dalla sua media aritmetica.
Se si dispone della sequenza degli n valori rilevati x1, x2, …., xn, la varianza di una variabile quantitativa
X, usualmente indicata con s x2 , è data da
n
 ( x i − x )2
1
s x2 = 4.3.2
n i =1
e corrisponde quindi al secondo momento centrale, come risulta dal confronto con la 3.6.8, per cui di
solito viene calcolata facendo la differenza fra il secondo momento della variabile e la sua media elevata
al quadrato.
Dalla formula 4.3.2 risulta che la varianza è uguale a zero se e solo se tutte le osservazioni sono uguali fra
di loro (e uguali quindi alla loro media), mentre il suo valore tende a crescere al crescere dell'ampiezza
degli scarti.
51
Esempio 4.3.1
Su 5 unità sono state rilevati i valori x1=7, x2=8, x3=12, x4=15 e x5=18 di una variabile quantitativa discreta X. Per
calcolare la varianza della variabile conviene innanzitutto calcolarne la media
7 + 8 + 12 + 15 + 18 60
m1 = x = = = 12 ,
5 5
e la media dei quadrati (o il secondo momento)
7 2 + 82 + 122 + 152 + 182 806
m2 = = = 161.2 .
5 5
La varianza risulta quindi pari a s x2 = m2 − x 2 = 161.2 − 122 = 17.2 .
Se i dati raccolti sono organizzati in una distribuzione di frequenza, la varianza è data da
 (c j − x )2 n j =  (c j − x )2 f j
k k
1
s x2 = 4.3.3
n j =1 j =1
ed infine, se la distribuzione è raggruppata in classi, gli scarti da considerare ai fini del calcolo sono quelli
fra i valori centrali delle classi e la media aritmetica, per cui il valore approssimato di s x2 è dato da
 (c j − x )2 n j =  (c j − x )2 f j .
k k
1
sx2  4.3.4
n j =1 j =1
Esempio 4.3.2
Data la seguente distribuzione relativa a una variabile discreta X
Determinazioni Frequenza relativa cumulata

2 0.25
4 0.75
6 1.00
calcolarne la varianza.
Le frequenze relative associate a ciascuna determinazione della X risultano quelle riportate nella tabella seguente
Determinazioni Frequenza relativa

2 0.25
4 0.50
6 0.25
per cui si ottiene
𝑥̅ = 2×0.25 + 4×0.5 + 6×0.25 = 4, m2 = 22×0.25 + 42×0.5 + 62×0.25 = 18
𝑠𝑥2 = 18 – 42 = 2
52
Esempio 4.3.3
Data la seguente distribuzione relativa a una variabile continua X
Classi Frequenza
5- 6 45
6- 8 30
8 - 12 25
100
si ottengono i seguenti risultati approssimati
5.5  45 + 7  30 + 10  25
x = 7.075
100
5.5 2  45 + 7 2  30 + 10 2  25
m2  = 53.3125
100
s x2  53.3125 − 7.0752 = 3.256875
Prima proprietà
La varianza è un minimo, nel senso che la media dei quadrati degli scarti delle osservazioni da un
qualsiasi valore h diverso dalla media aritmetica risulta sempre maggiore della varianza.
Dimostrazione
Questa proprietà deriva dalla quarta proprietà della media aritmetica. Considerata infatti una variabile
quantitativa X e un valore h diverso dalla sua media aritmetica x , si vuole dimostrare che vale la
seguente disuguaglianza
n n
 ( x i − x )2   ( x i − h )2
1 1
per ogni h  x 4.3.5
n i =1
n i =1
che corrisponde esattamente alla disuguaglianza 3.5.4, a parte la costante moltiplicativa 1/n. Pertanto,
utilizzando lo stesso procedimento esaminato in precedenza, si ottiene
n n n n n
 (xi − h) 2 =  (xi − x ) + (x − h) 2 =  (xi − x ) 2 +  (x − h) 2 +2(x − h)  (xi − x ) =
1 1 1 1 1
n i =1
n i =1
n i =1
n i =1
n i =1
= s x2 +
n
(x − h)2 + 2(x − h) 0 = s x2 + (x − h)2
n
dato che la media della variabile scarto è pari a zero.
53
Il termine a destra nella disuguaglianza 4.3.5 può essere quindi scomposto nella somma della varianza più
la differenza al quadrato fra la costante arbitraria h e la media aritmetica x , dove quest’ultima quantità
risulta nulla se e solo se h = x .
Seconda proprietà
Considerata una variabile X di media x e varianza s x2 , la varianza di una trasformazione lineare del tipo
Y = a + bX corrisponde alla varianza della X moltiplicata per il quadrato del coefficiente b.
Dimostrazione
Questa proprietà è un caso particolare della proprietà dei momenti centrali di ordine r. Considerata
l’uguaglianza 3.6.7 è infatti sufficiente sostituire al generico valore r il valore 2 per ottenere il risultato
̅ 2𝑦 = 𝑠𝑦2 = 𝑏 2 𝑠𝑥2 = 𝑏 2 𝑚
𝑚 ̅ 2𝑥 . 4.3.6
La 4.3.6 indica che un semplice cambiamento dell’origine della scala di misura non ha effetto sul valore
assunto dalla varianza, che invece risente di un eventuale cambiamento della scala di misura stessa.
L’invarianza della varianza rispetto a traslazioni è una proprietà abbastanza intuitiva, dato che un
eventuale slittamento della distribuzione lungo l’asse delle ascisse (in un senso o nell’altro) non modifica
la struttura della distribuzione stessa e quindi non ne modifica la variabilità.
Se, per esempio, si volesse valutare la variabilità del peso di un determinato bene confezionato in modo
standard, sarebbe irrilevante considerare i pesi lordi anziché i pesi netti.
Se, invece, la statura di un gruppo di persone venisse misurata una volta in millimetri e la seconda volta in
centimetri, nel primo caso si otterrebbe una varianza 100 volte più grande di quella ottenuta nel secondo
caso. Allo stesso modo, se il peso corporeo di un gruppo di neonati venisse misurato in chilogrammi, la
varianza risulterebbe un milione di volte più piccola di quella che si sarebbe ottenuta effettuando la
rilevazione in grammi.
Esempio 4.3.4
Data una variabile X di media x = 4 varianza sx2 = 3 , si determini media e varianza delle seguenti variabili
3 3 1 1
trasformate Y = −2 + X , W = −2X + , Z = − X .
5 5 4 2
Risulta
2
3 3 2  3 9 27
y = −2 + x = −2 +  4 = ; s 2y =   sx2 =  3 = ;
5 5 5 5 25 25
54
3 3 3 37
w= − 2x = − 2  4 = − 8 = − ; sw2 = (− 2)2 s x2 = 4  3 = 12 ;
5 5 5 5
2
1 1 1 1 7  1 1 3
z= − x = − 4 = − ; sz2 =  −  sx2 =  3 = .
4 2 4 2 8  2 4 4
Come caso particolare di trasformazione lineare si consideri la variabile
X−x
Y= 4.3.7
sx
detta variabile scarto standardizzato, che si ottiene dalla 3.5.1 ponendo a = −𝑥̅ /𝑠𝑥 e b = 1/𝑠𝑥 . La
particolarità di questa variabile è che la sua media è pari a zero, come già evidenziato per la variabile
scarto definita dalla 3.5.3, mentre la sua varianza è pari a 1, come risulta dalla 4.3.6.
Terza proprietà: scomposizione della varianza

Se le n unità statistiche oggetto di indagine sono naturalmente suddivise in g gruppi distinti, la varianza
della variabile X può essere scomposta nella somma della media ponderata delle varianze nei gruppi più
la varianza delle medie dei gruppi.
g
Indicata con nh la numerosità dell’h-esimo gruppo (h = 1, 2, …, g), con  nh = n , e con xh e sh2 la
h =1
media e la varianza della variabile X all’interno dell’h-esimo gruppo, si dimostra che la varianza
complessiva sx2 della X è data dalla somma
g g
  (xh − x )2 nh
1 1
sx2 = sh2 nh +
n h =1 n h =1
La prima quantità alla destra del segno di uguaglianza corrisponde alla media delle varianze dei gruppi
ponderata con la numerosità dei gruppi e rappresenta quindi una misura della variabilità “all’interno dei
gruppi”. Infatti risulta nulla se e solo se la varianza di ogni gruppo è nulla, ossia se la variabile X assume
sempre uno stesso valore all’interno di ciascun gruppo. Questa quantità viene usualmente chiamata
varianza within (o varianza all’interno dei gruppi) ed è indicata con il simbolo sw2 ,
55
g

1
sw2 = sh2 nh . 4.3.8
n h =1
La seconda quantità alla destra del segno di uguaglianza corrisponde invece alla varianza delle medie dei
gruppi dato che la media delle medie parziali dei gruppi è uguale alla media generale di X, e rappresenta
quindi una misura della variabilità “fra i gruppi”. Infatti risulta nulla se e solo le medie di ogni gruppo
sono uguali fra loro e uguali, quindi, alla media generale della variabile X. Questa quantità viene
usualmente chiamata varianza between (o varianza fra i gruppi) e viene indicata con il simbolo sb2 ,
g
 (xh − x )2 nh .
1
sb2 = 4.3.9
n h =1
Pertanto la proprietà della scomposizione della varianza può essere anche espressa nella forma
equivalente
sx2 = sw2 + sb2 . 4.3.10
Dimostrazione
Gli n valori di X possono essere identificati mediante due indici: il primo indica la posizione occupata
dall’osservazione nel gruppo, mentre il secondo indica il numero identificativo del gruppo. La notazione xih indica
l’i-esima osservazione appartenente all’h-esimo gruppo (con i =1, 2, …, nh e h = 1, 2, …, g).
La varianza sx2 può allora essere scritta anche nel modo seguente
nh g
 (xih − x )2 .
1
s x2 =
n
i =1 h =1
Sommando e sottraendo la media dell’h-esimo gruppo all’interno della parentesi tonda si ottiene
nh g nh g
(xih − xh + xh − x )2 = (xih − xh ) + (xh − x )2
1 1
sx2 =
n n
i =1 h =1 i =1 h =1
da cui, sviluppando il quadrato del binomio, risulta
56
nh g nh g nh g
 (xih − xh )2 +  (xh − x )2 +  (xih − xh )(xh − x ) .
1 1 1
s x2 = 4.3.11
n n n
i =1 h=1 i =1 h=1 i =1 h=1
Tenendo presente che la varianza dell’h-esimo gruppo è data da
nh
 (x ih − xh )2 ,
1
s h2 =
nh
i =1
si nota subito che il primo dei tre addendi che compaiono a destra del segno di uguaglianza nella 4.3.11 corrisponde
a
nh g g  nh  g
 (x ih − xh )2 =   (x ih − xh )2  =  s h2 nh = s w2
1 1 1
.
n n 
h =1  i =1
 n
i =1 h =1  h =1
Tenendo presente la 4.3.9, il secondo addendo a destra del segno di uguaglianza nella 4.3.11 corrisponde invece a
nh g nh  g  g
 (xh − x )2 =   (xh − x )2  =  (xh − x )2 nh = sb2
1 1 1
.
n n 
i =1  h =1
 n
i =1 h =1  h =1
L’ultimo termine a destra nella 4.3.11, infine, risulta uguale a zero perché corrisponde al prodotto di una costante
per la somma degli scarti dalla media. Resta quindi dimostrata l’uguaglianza 4.3.10.
57
4.4 Altri indici di variabilità
Una volta fissata l’unità di misura da utilizzare per rilevare i valori della variabile X, la varianza risulterà
espressa nell'unità di misura al quadrato, dato che corrisponde alla media dei quadrati degli scarti della
variabile dalla sua media aritmetica.
Per esempio, nel caso si voglia valutare la variabilità delle stature di n individui misurate in centimetri, la
varianza risulterà espressa in centimetri quadrati, mentre la varianza del loro peso corporeo, se misurato
in chilogrammi, sarà espressa in chilogrammi al quadrato.
Per superare questo inconveniente, che rende più complessa l’interpretazione del risultato ottenuto, spesso
si utilizza, al posto della varianza, la sua radice quadrata.
Questo indice, detto deviazione standard (o scarto quadratico medio o scostamento quadratico
medio), fornisce le stesse informazioni della varianza, dato che conoscere la varianza di una distribuzione
equivale a conoscerne la deviazione standard e viceversa.
La deviazione standard di una variabile quantitativa X viene comunemente indicata mediante il simbolo sx
oppure, se è evidente che si tratta della variabile X, semplicemente dalla lettera s.
A seconda di come sono organizzati i dati, la deviazione standard corrisponde alle espressioni
n
 (xi − x )2 ,
1
sx = 4.4.1
n i =1
 (c j − x )2 n j =  (c j − x )2 f j ,
k k
1
sx = 4.4.2
n j =1 j =1
 (c j − x ) 2 n j  (c j − x ) 2 f j
k k
1
sx  = 4.4.3
n j =1 j =1
Tutte le precedenti formule sono immediatamente ricavabili da quelle della varianza nei tre diversi casi.
Per la sequenza del numero di dipendenti considerata dell’esercizio 3.4.1, per esempio, la media dei
quadrati m2 risulta pari a 160.8 mentre il quadrato della media aritmetica è 100, per cui la varianza risulta
uguale a 60.8 e la deviazione standard a circa 7.7974.
58
Proprietà
Considerata una variabile X avente deviazione standard sx, la deviazione standard di una trasformazione
lineare del tipo Y = a + bX corrisponde alla deviazione standard della X moltiplicata per il coefficiente b
preso in valore assoluto
s y = b sx
ed è quindi invariante rispetto a traslazioni, come la varianza
Dimostrazione
Tenendo conto la seconda proprietà della varianza e ricordando che la deviazione standard corrisponde
alla sua radice quadrata, è evidente che deve valere la seguente uguaglianza
s y = b2 sx2 = b sx 4.4.4
dato che la deviazione standard, essendo un indice di variabilità, non può mai assumere un valore minore
di zero.
In alcune situazioni reali si può voler confrontare la variabilità di più variabili diverse come, per esempio,
i pesi corporei e le stature di un gruppo di individui, oppure la variabilità di variabili espresse in unità di
misura diverse come nel caso di redditi espressi in valute differenti (Lire ed Euro, oppure Dollari ed
Euro).
In queste situazioni la varianza e la deviazione standard non possono essere utilizzati, perché dipendono
dall’unità di misura. Questi indici possono essere quindi utilizzati solo se le distribuzioni risultano
omogenee, ossia se si riferiscono a variabili misurate con la stessa unità di misura, sempre se il loro
ordine di grandezza non è molto diverso.
Se, per esempio, si volesse confrontare il peso corporeo di un gruppo di individui adulti e di un gruppo di
neonati, l’unità di misura potrebbe essere il chilogrammo in entrambi i casi, ma una differenza di un solo
chilogrammo assume un significato ben diverso nei due gruppi in esame.
In tutte queste situazioni la variabilità di una variabile viene confrontata ricorrendo a indici relativi, che
sono svincolati dall’unità di misura utilizzata nella rilevazione. L’indice più utilizzato è il cosiddetto
coefficiente di variazione (CV), dato dal rapporto fra la deviazione standard e la media aritmetica.
59
Considerata una variabile quantitativa X di media x e deviazione standard sx, il suo coefficiente di
variazione è dato da
sx
CVx = 4.4.5
x
che è un numero adimensionale, ossia indipendente dall’unità di misura utilizzata nella rilevazione, per
cui può essere utilizzato per effettuare confronti in tutti quei casi analoghi agli esempi citati in
precedenza.
Il coefficiente di variazione, così come ogni altro indice di variabilità relativo, può essere però utilizzato
solo se i valori rilevati sono tutti non negativi (perché in caso contrario la media posta al denominatore
potrebbe essere negativa e il corrispondente indice di variabilità risulterebbe minore di zero).
Un altro caso in cui è sconsigliato l’uso di questo indice è quando la variabile ha una media molto
prossima allo zero, dato che in questo caso il coefficiente di variazione assumerebbe valori estremamente
elevati.
Dati, per esempio, i valori riportati nella tabella successiva che si riferiscono ai risultati ottenuti dai primi
1
10 atleti classificati in tre diverse prove di decathlon nelle Olimpiadi del 1988 (i tempi sono misurati in
secondi e le distanze in metri). Per determinare la specialità sportiva nella quale si rileva la maggiore
variabilità dei risultati si ha la necessità di utilizzare un indice di variabilità relativo.
Tabella 4.4.1
Risultati ottenuti dai primi 10 atleti classificati in tre prove di decathlon (Olimpiadi del 1988)
salto in alto 2.27 1.97 1.97 2.03 1.97 2.12 2.06 2.00 2.03 1.97
400 metri 48.90 47.71 48.29 49.06 47.44 48.34 49.34 48.21 49.15 48.60
Giavellotto 61.32 61.76 64.16 64.04 57.46 52.18 61.60 63.00 66.46 59.48
Indicata con X la variabile “salto in alto”, con Y la variabile “400 metri” e con Z la variabile “lancio del
giavellotto” i coefficienti di variazione (approssimati a 4 cifre decimali) risultano pari a
sx
= 0.0441 ,
x
1 International Athletic Federation, London. Quoted in Lunn A.D. and McNeil D.R. (1991), Computer-interactive data analysis, Chichester: John
Wiley & Sons, 276.
60
sy
= 0.0122 ,
y
sz
= 0.0626 ,
z
per cui la maggiore variabilità dei risultati si ha per il lancio del giavellotto, per il quale le osservazioni si
discostano dalla media per una quantità di poco superiore al 6% della media stessa.
Proprietà del CV
Considerata una variabile X di media x e varianza s x2 , il coefficiente di variazione di una trasformazione

lineare del tipo Y = a + bX corrisponde a
sy b sx
CVy = = .
y a + bx
Dimostrazione
Questa dimostrazione deriva in realtà dalle proprietà degli indici che compaiono al numeratore e al
denominatore del coefficiente di variazione. Tenendo infatti presente la proprietà della deviazione
standard descritta in questo paragrafo e la media aritmetica di una trasformazione lineare si ottiene il
risultato precedente.
Se si volesse determinare il coefficiente di variazione di una trasformazione del tipo
Y = bX
il parametro b, che rappresenta il fattore di scala, dovrebbe risultare necessariamente positivo (dato che il
coefficiente di variazione può essere calcolato solo per variabili che non assumono valori negativi).
Sotto questa condizione si ottiene
sy bsx s x
CVy = = = = CVx per b > 0 ,
y bx x
per cui il coefficiente di variazione della variabile Y coincide con quello della variabile originale X.
61
4.5 Asimmetria e curtosi
Oltre agli indici di posizione e di variabilità in statistica vengono utilizzati anche indici diversi che
descrivono altri aspetti dell'assetto distributivo di una variabile quantitativa, precisandone la forma. Per
questo motivo vengono spesso chiamati indici di forma.
Una sequenza ordinata di valori di una variabile X si dice simmetrica se gli scarti negativi rispetto al
centro del campo di variazione della variabile risultano tutti ordinatamente uguali, in valore assoluto, ai
corrispondenti scarti positivi.
Un esempio di sequenza simmetrica è rappresentata nella tabella 4.5.1 in cui il campo di variazione è dato
da x = [-4, 10] per cui il suo centro, pari alla semisomma degli estremi, risulta uguale a 3.
Tabella 4.5.1
Esempio di sequenza caratterizzata da simmetria
-4 -3 0 3 6 9 10
Lo stesso concetto può essere esteso ai casi in cui i valori della variabile sono organizzati sotto forma di
distribuzione di frequenza, ma in queste situazioni il modo più semplice per controllare se la distribuzione
è simmetrica è mediante l’analisi del grafico corrispondente, che in questo caso risulta formato da due
parti specularmente identiche rispetto al centro di x.
Due esempi di distribuzioni simmetriche relative a una variabile discreta e a una variabile continua sono
riportati nelle tabelle 4.5.2 e 4.5.3, come si vede chiaramente dai grafici corrispondenti.
Tabella 4.5.2
Esempio di distribuzione simmetrica per una variabile discreta X
x Frequenza assoluta
-3 100
-1 250
0 150
1 150
2 250
4 100
1000
62
Figura 4.5.1
Rappresentazione grafica della distribuzione indicata nella tabella 4.5.2
300
250
frequenza assoluta
200
150
100
50
0
-4 -3 -2 -1 0 1 2 3 4 5
x
Tabella 4.5.3
Esempio di distribuzione simmetrica per una variabile continua X
Classi Frequenza relativa Densità

0– 2 0.1 0.05
2– 4 0.2 0.10
4– 7 0.4 0.13̅
7– 9 0.2 0.10
9 – 11 0.1 0.05
1.0
Figura 4.5.2
Rappresentazione grafica della distribuzione indicata nella tabella 4.5.3
0,14
0,13
0,12
0,11
0,1
0,09
0,08
densità
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0
0 1 2 3 4 5 6 7 8 9 10 11
63
Nel primo caso il centro del campo di variazione è pari a 0.5, mentre nel secondo è 5.5. Si vede subito che
entrambe le distribuzioni risultano specularmente identiche rispetto a questi due valori centrali.
Una sequenza di valori o una distribuzione di frequenza che non risulta simmetrica viene detta
asimmetrica.
Più precisamente, si parla di asimmetria positiva quando le frequenze più elevate si rilevano in
corrispondenza della prima metà del campo di variazione e di asimmetria negativa in caso contrario.
Per esempio, le distribuzioni rappresentate graficamente nelle figure 2.3.5 e 2.3.6 presentano entrambe
un’asimmetria positiva. Un altro caso di distribuzione con asimmetria positiva è riportato nell’esempio
2.4.1, mentre nella tabella successiva è riportato un esempio di distribuzione in classi con asimmetria
negativa, rappresentata graficamente mediante l’istogramma della figura 4.5.3.
Tabella 4.5.4
Esempio di distribuzione con asimmetria negativa
Classi Frequenza relativa

1– 4 0.1
4– 6 0.1
6– 8 0.3
8 – 10 0.5
1.0
Figura 4.5.3
Istogramma della distribuzione riportata nella tabella 4.5.4
0,3
0,25
0,2
densità
0,15
0,1
0,05
0
0 1 2 3 4 5 6 7 8 9 10 11
64
L’indice più usato per misurare il grado di asimmetria di una variabile è l’indice di Fisher, dato dal
rapporto fra il terzo momento centrale e la deviazione standard al cubo
m3
a3= 4.5.1
s 3x
Il risultato fornito dalla 4.5.1 è un numero adimensionale, dato che gli indici posti al numeratore e al
denominatore sono entrambi espressi nell’unità di misura elevata al cubo, e risulta quindi svincolato
dall’unità di misura utilizzata nella rilevazione del variabile.
In caso di distribuzioni simmetriche l’indice risulta pari a zero, mentre assume valori positivi se
l’asimmetria è positiva, perché la somma dei cubi degli scarti positivi è maggiore di quella dei cubi degli
scarti negativi. L’asimmetria è invece negativa quando a3 è minore di zero.
È importante sottolineare, però, che la somma degli scarti negativi al cubo può risultare uguale alla
somma degli scarti positivi al cubo anche se la distribuzione è asimmetrica; pertanto un valore di a3
uguale a zero è una condizione necessaria ma non sufficiente per la simmetria.
Esempio 4.5.1
Considerate le due seguenti sequenze di valori che si riferiscono alla lunghezza (in millimetri) delle mandibole di 20
sciacalli, 10 di sesso maschile e 10 di sesso femminile, contenute nel British Museum 2
Maschi: 120, 107, 110, 116, 114, 111, 113, 117, 114, 112
Femmine: 110, 111, 107, 108, 110, 105, 107, 106, 111, 111
se ne calcoli l'indice di asimmetria 4.5.1.
Il risultato, approssimato a quattro cifre decimali, è pari a 0.0777 per le mandibole degli sciacalli di sesso maschile e
a –0.2569 per le mandibole degli sciacalli di sesso femminile.
In questo caso, quindi, la prima sequenza presenta una lievissima asimmetria positiva, mentre la seconda è
caratterizzata da una leggera asimmetria negativa.
Proprietà dell’indice di Fisher

Considerata una variabile X di deviazione standard s x e terzo momento centrale m 3 x , il valore
dell’indice di asimmetria di Fisher di una trasformazione lineare corrisponde a quello calcolato per la
variabile originale X, tranne eventualmente per il segno.
2 Manly B.F.J. (1991), Randomization and Monte Carlo methods in biology, London: Chapman and Hall, 4.
65
Dimostrazione
La soluzione si ottiene in base alle proprietà del momento centrale r-esimo e della deviazione standard di
una trasformazione lineare.
Considerata infatti la trasformazione Y = a + bX, l’indice di Fisher della Y corrisponde a
m3 y b 3 m3 x b3
a3 y= = = a 3 x = segno (b ) a 3 x .
s 3y b 3 s 3x b3
Per quanto riguarda le situazioni reali, va osservato che spesso i valori assunti dalla variabile di interesse
si addensano in corrispondenza del centro del campo di variazione e che la loro frequenza tende a
diminuire al crescere della distanza da tale valore centrale in entrambe le direzioni. Una distribuzione che
presenta questa forma è detta campanulare e si rileva piuttosto spesso per variabili di tipo biometrico,
come per esempio il peso corporeo, la statura, il perimetro toracico, l’apertura alare.
Distribuzioni che presentano una certa asimmetria positiva si rilevano invece abbastanza frequentemente
in campo socio-economico, come nel caso del reddito, dei livelli di consumo e di risparmio, del numero di
abitanti per comune.
Un'altra caratteristica rilevante dell’assetto distributivo di una variabile è la cosiddetta curtosi, che misura
lo “spessore” delle code della distribuzione, ossia l’addensamento delle frequenze in corrispondenza degli
estremi del campo di variazione della variabile.
L’indice più utilizzato, indicato con il simbolo a4, è dato dal rapporto fra il quarto momento centrale e il
quadrato della varianza
m4
a4= 4.5.2
s x4
per cui questo indice può assumere solo valori maggiori o uguali a zero.
Per motivi che saranno chiariti in seguito, un risultato pari a 3 è preso come valore di riferimento nel
calcolo dell’indice 4.5.2: una distribuzione per la quale a4 risulta uguale a 3 è detta mesocurtica, una
distribuzione con a4 < 3 è detta platicurtica, mentre una distribuzione con a4 > 3 è detta leptocurtica.
Una distribuzione con a4 < 3 ha code più sottili sia di una mesocurtica sia di una leptocurtica, mentre
66
quest’ultima presenta le code più spesse di tutte. In via generale si può affermare che una distribuzione
platicurtica presenta meno valori anomali rispetto alle altre due distribuzioni (nel caso dello studio dei
rendimenti di un titolo, per esempio, questo implicherebbe un livello di rischio minore).
Va tuttavia sottolineato come il comportamento delle code di una distribuzione non può essere facilmente
stabilito analizzandone la rappresentazione grafica.
Proprietà
È invariante per trasformazioni lineari.
Dimostrazione
Anche in questo caso la soluzione cercata si ottiene immediatamente dalle proprietà del momento r-esimo
e della deviazione standard di una trasformazione lineare.
Considerata una variabile X di deviazione standard s x e quarto momento centrale m 4 x , l’indice di curtosi
della la trasformazione lineare Y = a + bX corrisponde a
m4 y b 4 m4 x b4
a 4 y= = = a4x = a4x .
s 4y b 4 s x4 b4
67
4.6 Box plot
Il box plot (o grafico a scatola), è una rappresentazione grafica che è spesso utilizzata per descrivere in
modo sintetico le principali caratteristiche distributive di una variabile quantitativa. Viene ottenuto
utilizzando indici sintetici di posizione e di variabilità ed assume configurazioni diverse a seconda della
scelta di tali indici.
Gli indici di posizione più utilizzati sono il primo e il terzo quartile a cui si aggiunge la mediana oppure la
media aritmetica. Gli indici di variabilità più frequentemente usati sono la deviazione standard oppure la
differenza interquartile.
Oltre agli indici di posizione e di variabilità, il box plot riporta anche i cosiddetti valori adiacenti
(inferiore e superiore) che sono utilizzati per individuare eventuali valori anomali, ossia quei valori che
sono significativamente diversi (molto più bassi o molto più elevati) di quelli rilevati sulle altre unità
statistiche appartenenti al medesimo gruppo.
Considerata la differenza interquartile Wx data dalla 4.2.2, il valore adiacente inferiore (VAI) è la più
piccola fra le osservazioni che risulta maggiore o uguale a x0.25 −  Wx, mentre il valore adiacente
superiore (talvolta indicato con l’acronimo VAS) è la più grande fra le osservazioni che risulta minore o
uguale a x0.75 +  Wx.
Un esempio di box plot è riportato nella figura 4.6.1 nella quale come indice di posizione si è utilizzata la
mediana e come indice di variabilità la differenza interquartile.
Il box plot è costruito su un’asse verticale3 in cui sono indicati i valori del primo e del terzo quartile che
delimitano rispettivamente l’estremo inferiore e l’estremo superiore del rettangolo che compone la parte
centrale del grafico. Questo rettangolo, per definizione, contiene al suo interno il 50% circa delle n
osservazioni complessive.
Se la differenza interquartile è piccola, le osservazioni poste al suo interno risulteranno fortemente
concentrate intorno alla mediana, mentre all'aumentare del suo valore, e quindi all’aumentare della
variabilità della variabile, le osservazioni risulteranno più disperse.
La mediana (che occuperà sempre una posizione intermedia fra x0.25 e x0.75) divide il rettangolo in due
parti e le distanze x0.5−x0.25 e x0.75−x0.5 forniscono informazioni sulla forma della distribuzione: se infatti
una distanza è diversa dall'altra allora la distribuzione è sicuramente asimmetrica. In particolare, quando
la porzione inferiore del rettangolo (delimitata da x0.25 e x0.5) è minore della porzione superiore (delimitata
3 In alcuni casi i valori della variabile possono essere riportati sull’asse delle ascisse, invece che sulle ordinate, per cui il grafico risulterebbe
ruotato di 90 gradi.
68
da x0.5 e x0.75) la distribuzione presenta un’asimmetria positiva (come nel caso della figura 4.6.1), mentre
presenta un’asimmetria negativa nel caso opposto.
Figura 4.6.1
Esempio di Box plot
I due segmenti che partono dal rettangolo e che si allungano l’uno verso il basso e l’altro verso l’alto,
sono comunemente denominati baffi e si ottengono congiungendo x0.25 al VAI e x0.75 al VAS.
Anche le lunghezze di questi baffi forniscono informazioni sull’eventuale asimmetria della distribuzione,
ma il loro compito è essenzialmente quello di evidenziare l’eventuale presenza di valori anomali
(outliers). Sono infatti considerate anomale tutte quelle osservazioni più piccole del VAI o più grandi del
VAS e, nelle situazioni reali, tali osservazioni vengono di solito esaminate con una certa attenzione per
indagare su cosa le ha causate.
69
Considerate, per esempio, le seguenti distribuzioni delle età dei dipendenti di una cooperativa classificati
per sesso
Maschi Femmine
Età ni Ni Età ni Ni
19 2 2 18 1 1
20 6 8 25 2 3
21 3 11 26 2 5
22 1 12 28 2 7
23 1 13 29 1 8
25 1 14 30 2 10
28 1 15 31 3 13
30 1 16 32 1 14
35 1 17 33 2 16
37 1 18 16
18
i due box plot corrispondenti basati, sui valori dei tre quartili, si ottengono dai risultati seguenti.
Per i maschi i tre quartili occupano i posti 18  0.25 = 4.5 = 5 , 18  0.5 = 9 = 9 e
18  0.75 = 13.5 = 14 per cui i tre quartili sono
x0.25= 20, x0.5= 21, x0.75= 25.
Risulta
x0.25 −  Wx = 20 – 1.5×(25-20) = 12.5,
x0.75 +  Wx = 25 + 1.5×(25-20) = 32.5,
quindi i due valori adiacenti sono:

VAI = 19, che corrisponde alla più piccola osservazione maggiore o uguale a 12.5
VAS = 30, che corrisponde alla più grande osservazione minore o uguale a 32.5
Per le femmine occupano i posti 16  0.25 = 4 = 4 , 16  0.5 = 8 = 8 e 16  0.75 = 12 = 12 per
cui i tre quartili sono
x0.25= 26, x0.5= 29, x0.75= 31.
Risulta
x0.25 −  Wx = 26 – 1.5×(31-26) = 18.5,
x0.75 +  Wx = 31 + 1.5×(31-26) = 38.5,
70
quindi i due valori adiacenti sono:
VAI = 25, che è la più piccola osservazione maggiore o uguale a 18.5
VAS = 33, che è la più grande osservazione minore o uguale a 38.5
I due box plot assumono quindi la forma indicata nel grafico successivo, in cui sono stati evidenziati
anche i valori anomali (corrispondenti ai cerchietti al di fuori dei baffi) e le due medie aritmetiche
(corrispondenti al piccolo rombo all’interno dei rettangoli).
Nota
Esistono altre possibili configurazioni del box plot che differiscono fra loro per l’orientamento (scambiando le
ascisse con le ordinate) o per gli indici di posizione e di variabilità considerati. Un altro caso abbastanza comune è
quello in cui si calcola la media aritmetica anziché la mediana; in questo caso gli estremi (inferiore e superiore) del
rettangolo corrispondono alle quantità x  s x .
71

Indici Di Variabilità e Di Forma

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Indici Di Variabilità e Di Forma

Caricato da

Copyright:

Formati disponibili

4.

INDICI DI VARIABILITÀ E DI FORMA

x = x(n) − x(1) . 4.2.1

Un altro semplice indice di variabilità è la differenza interquartile

Wx = x0.75 − x0.25 4.2.2

fra il terzo e il primo quartile.

X, usualmente indicata con s x2 , è data da

Se i dati raccolti sono organizzati in una distribuzione di frequenza, la varianza è data da

Determinazioni Frequenza relativa cumulata

Determinazioni Frequenza relativa

si ottengono i seguenti risultati approssimati

dato che la media della variabile scarto è pari a zero.

Come caso particolare di trasformazione lineare si consideri la variabile

Terza proprietà: scomposizione della varianza

complessiva sx2 della X è data dalla somma

sx2 = sw2 + sb2 . 4.3.10

l’i-esima osservazione appartenente all’h-esimo gruppo (con i =1, 2, …, nh e h = 1, 2, …, g).

da cui, sviluppando il quadrato del binomio, risulta

Tenendo presente che la varianza dell’h-esimo gruppo è data da

ed è quindi invariante rispetto a traslazioni, come la varianza

Considerata una variabile X di media x e varianza s x2 , il coefficiente di variazione di una trasformazione

Classi Frequenza relativa Densità

Classi Frequenza relativa

se ne calcoli l'indice di asimmetria 4.5.1.

Proprietà dell’indice di Fisher

della la trasformazione lineare Y = a + bX corrisponde a

x0.75 +  Wx = 25 + 1.5×(25-20) = 32.5,

quindi i due valori adiacenti sono:

x0.75 +  Wx = 31 + 1.5×(31-26) = 38.5,

Potrebbero piacerti anche