Sei sulla pagina 1di 16

Capitolo 5 e 6 Gli indici di variabilit e di forma

Un indicatore di posizione non in grado di fornire informazioni esaurienti su una distribuzione. Occorre anche capire quanto le modalit assunte dalle varie unit statistiche siano disperse intorno allindice di posizione. Es. 1. Un reparto produce in serie pezzi meccanici che dovrebbero avere uno spessore prefissato. Conoscere la variabilit delle dimensione dei pezzi d unidea della qualit della produzione. (imprecisione) Es. 2. Ditta di ristorazione che necessita una previsione sul numero di pasti da preparare (incertezza) Es. 3. Collettivo di studenti su cui rileviamo il numero di esami superati ad una certa data (disomogeneit) Es. 4. Distribuzione della ricchezza (carattere trasferibile) in una popolazione (concentrazione) Occorrono allora indicatori della variabilit che abbiano come obiettivo quello di quantificare il grado di dispersione di un carattere.
1

Esistono due criteri per misurare la dispersione Dispersione intorno a un valore medio ( , Me, ) Dispersione tra le diverse modalit Nel primo caso lindice di variabilit rappresenta una media degli scarti delle modalit osservate rispetto ad una media. Lindice pi importante certamente la varianza 2 di una distribuzione definita come il quadrato della media quadratica degli scarti dalla media aritmetica In formula si ha

2 = i (xi-)2 /n
oppure, nel caso di distribuzione per frequenze

2 =i (xi-)2 ni /n
Esempio: Una ginnasta esaminata da una giuria di 5 persone e i voti che riporta (in trentesimi) sono 25 25 25 27 29 La media aritmetica vale =26 e la varianza
(25-26)2+(25-26)2+(26-26)2+(27-26)2+(29-26)2/ 5 =2.24

Vediamo ora un esempio con dati organizzati per frequenza. Es. distribuzione delle partite di calcio dello scorso campionato per numero di gol segnati N. gol (xi) 0 1 2 3 4 5 6 7 8 Totale Fi 36 51 80 52 36 22 18 7 4 306 (xi-) -2.65 -1.65 -0.65 +0.35 +1.35 +2.35 +3.35 +4.35 +5.35 (xi-)2 7.0225 2.7225 0.4225 0.1225 1.8225 5.5225 11.2225 18.9225 28.6225 (xi-)2 ni 323.035 166.073 35.0675 6.3700 65.6100 121.495 202.005 264.915 114.490 1299.06

La media vale (0*36+1+51+2*80+3*52+4*36+ 5*22+6*18+7*7+8*4)/306 = 2.65 ( ) e la varianza 2=1299.06/306 =4.245

Propriet della varianza Come tutti gli indici di variabilit, 2 vale 0 quando tutte le unit assumono la stessa modalit. Per un carattere trasferibile, il massimo della varianza, fissata la media, si ha quando tutte le unit assumono il valore 0 e una sola detiene il totale n In questo caso si ha 2 = (0- )2 * (n-1)/n + (n - )2 *1/n = 2(n-1)/n +2 (n-1)2/n= 2n (n-1)/n= 2 (n-1) La varianza non espressa nella stessa unit di misura delle osservazioni e per questo viene spesso preferito calcolare lo scarto quadratico medio (s.q.m.) o deviazione standard che non altro che la radice quadrata della varianza ovvero . La varianza o lo s.q.m. sono indici assoluti. Spesso necessario rapportare la dispersione di un fenomeno alla sua entit media Es. Xi Ni 2 20 4 10 6 20 Totale 50
4

In questo caso la varianza vale 2 = [(2-4)2 20 + (4-4)2 10 + (6-4)2 20 ]/50=3.2 Se invece Xi 2000002 2000004 2000006 Totale Ni 20 10 20 50 La varianza esattamente la stessa anche se il fenomeno appare molto meno variabile Conviene allora considerare il Coefficiente di Variazione, definito come C.V.=/ che nei due casi vale, rispettivamente 3.2/4= 0.8 e 3.2/2000004=0.00000159. Il C.V. pu anche esprimersi come (1/n i (xi -)2 /2)1/2 = (1/n i [(xi -)/]2)1/2 ovvero la media quadratica degli scarti relativi rispetto alla media aritmetica
5

Un metodo alternativo per calcolare la varianza n 2 = i (xi -)2 = i (xi^2 -2xi +2)=

i xi^2 -2 i xi + n2 = i xi^2 -2n2+n2 =


= i xi^2 - n2 da cui

2 = i xi^2 /n - 2
Un indice alternativo per la misura della dispersione il cosiddetto scostamento semplice medio dalla mediana, definito da S(Me)= 1/n i |xi - Me| Indici di variabilit basati sui quantili. Cos come la media aritmetica, tra gli indici di posizione pu essere fuorviante in presenza di valori anomali, cos la varianza pu essere gonfiata da valori particolarmente distanti dalla media. Per evitare tali inconvenienti sono stati proposti indici robusti di variabilit, tra cui ricordiamo
6

Range Interquartile: differenza tra il terzo e il primo quartile (75-esimo e 25-esimo percentile) Q3 - Q1 Es.: Classi di statura Classi fi [155-164) 0.093 [164-169) 0.194 [169-174) 0.290 [174-179) 0.248 [179-184) 0.126 [184-194) 0.049 Totali 1.000

Fi 0.093 0.287 0.577 0.825 0.951 1.000

Abbiamo gi calcolato la mediana (Me = 172.67) Allo stesso modo si calcolano Q1 e Q3. La classe di Q1 [164-169) e, applicando la formula analoga a quella vista per la mediana, Q1=164 +(169-164)* (0.25-0.093)/(0.287-0.093) =168.046 La classe di Q3 [174-179) e, analogamente,
7

Q3=174 +(179-174) *(0.75-0.577)/(0.825-0.577) =177.488 da cui discende Q3 - Q1 =177.488- 168.046=9.442

Mutua variabilit Invece di confrontare i valori della distribuzione con un indice di posizione, si possono considerare i confronti tra le diverse modalit assunte dalle unit del collettivo. Data una distribuzione per unit di un carattere X con valori x1, x2, x3,, xi,, xn si considerano tutti i confronti del tipo | xi- xj| e se fa la media. Si giunge cos alla cosiddetta Differenza semplice media per ogni i e j=1,,n

=( i j | xi- xj|)/(n(n-1))
Es. Collettivo di 5 unit con valori
8

27 15 20 28 25

27 12 7 1 2

27,15,20,25,28 15 20 12 7 5 5 13 8 10 5

28 1 13 8 3

25 2 10 5 3 -

=(12+7+1+2+12+5+13+10+7+5+8+5+1+13+8+3+ 2+10+5+3)/(4*5)=132/20=6.1
Pi in generale si possono considerare differenze medie di ordine r r=[( i j | xi- xj|^r)/(n(n-1))^(1/r) Lindice pi utilizzato 2. Si dimostra che
2 = 2n 2 n 1

La Concentrazione Un aspetto particolare della variabilit, specifico dei caratteri trasferibili la concentrazione. Consideriamo un collettivo di n unit statistiche con rispettive ricchezze (disposte in ordine crescente) a1, a2, a3,, ai,, an La ricchezza complessiva An= a1 + a2 + a3 + + ai + + an. Se tutte le unit avessero lo stesso ammontare si avrebbe assenza di concentrazione Se una sola unit possedesse la somma An e tutte le altre 0, si avrebbe la massima concentrazione. Per analizzare situazioni intermedie consideriamo le seguenti quantit: Per ogni i=1,n, sia Pi =i/n (frazione delle i unit pi povere) Qi =(a1 + a2 + a3 + + ai)/An = Ai / An (frazione di ricchezza posseduta dalle i unit pi povere) Si dimostra che, per ogni i=1,n, risulta Pi Qi
10

Infatti,
a1 + a 2 + ... + ai a1 + a 2 + ... + a n i n

cio Ai / i An / n, ovvero Ai / An i / n. Pi le Qi sono vicine alle Pi minore il livello di concentrazione. Esempio (nove famiglie, redditi in milioni) Famiglia 1 2 3 4 5 6 7 8 9 ai 15 22 27 35 41 42 48 54 66 Ai 15 37 64 99 140 182 230 284 350 Pi 1/9 2/9 3/9 4/9 5/9 6/9 7/9 8/9 1 Qi .0428 .1057 .1828 .2828 .4000 .5200 .6571 .8114 1

Graficamente, si ottiene la seguente spezzata che, si pu dimostrare, risulta sempre convessa.


11

Lindice di concentrazione corrispondente fu proposto da Gini (1914) e vale


12

n 1 1 (1 (Qi +1 + Qi )( Pi +1 Pi )) i =0 g=2 = 1 n 1 2 n

=
n 1 2 Qj j= 1 n 1

Nel nostro esempio, g=1 3.0026=1- 0.7506 =0.2494

LAsimmetria di una distribuzione La rappresentazione grafica delle distribuzioni pu fornire informazioni cruciali sul comportamento del carattere nella popolazione in esame

13

Ad esempio, quando la media coincide con la mediana Me, molto spesso questo vuol dire che la distribuzione di tipo simmetrico unimodale (ma non necessariamente!!). Se invece risulta Me< , gran parte delle osservazioni si posiziona su valori bassi ma alcuni valori particolarmente alti spostano la media verso destra: si parla in tal caso di asimmetria positiva

Se poi risulta Me> , gran parte delle osservazioni si posiziona su valori relativamente alti ma alcuni valori bassi spostano la media verso sinistra: si parla in tal caso di asimmetria negativa

Un primo indicatore di asimmetria


A2 =

Me

che varia tra 1 e 1.


14

Non per vero che A2 =0 implichi la simmetria. Controesempio (pag.163. num.6.3) Xi ni 1 7 2 6 3 5 4 4 5 3 6 2 7 1

Qui si ha = Me=3 ma la asimmetria decisamente positiva. Invece Yi ni 1 1 2 2 3 3 4 4 5 5 6 6 7 7

Qui = Me=5 ma la asimmetria decisamente negativa. Un indice pi sofisticato che risolve questi problemi stato proposto da Fisher
1 =
1 n xi n i =1
3

ovvero il cubo della media potenziata di ordine 3 della distribuzione standardizzata delle xi.
15

Confronti tra distribuzioni: la standardizzazione. Per poter confrontare almeno qualitativamente due distribuzioni dobbiamo eliminare i fattori che potrebbero oscurare le differenze tra le due distribuzioni. Per questo motivo i confronti si effettuano a parit di media (convenzionalmente posta uguale a zero) e di scarto quadratico medio (posto uguale a 1) . Questa operazione si chiama standardizzazione e consiste nel trasformare un carattere X attraverso una trasformazione lineare
Y= X x x

Per quanto gi noto, si ottiene subito che y = y =


x x =0 x

x =1 x

In tal modo i confronti fra due diverse distribuzioni vengono depurati delle eventuali differenze in posizione e variabilit
16