Sei sulla pagina 1di 47

MISURE SINTETICHE DELLA DISTRIBUZIONE DI UN CARATTERE

LA FORMA

Due o più distribuzioni statistiche possono


presentare la stessa variabilità ma essere
differenti per l’importanza dei rispettivi valori
più piccoli o più grandi rispetto al valore
centrale; ciò graficamente si traduce in un
comportamento differente nelle due code
della distribuzione.
Per quantificare tale comportamento sono state
elaborate misure che sintetizzano la forma della
distribuzione, dette Indici di Forma.

Gli indici di forma descrivono due aspetti della


forma di una distribuzione: Simmetria e Kurtosi.

Essi si ottengono dal confronto tra le


distribuzioni osservate e distribuzioni teoriche.
I Momenti
Quando si dispone di un insieme di dati, questi
possono essere considerati sotto diversi profili. Si è
visto che per conoscere il valore centrale si ricorre
ad una media, per giudicare della dispersione si
usa un indice di variabilità, per studiare la
concentrazione si utilizza un indice di
concentrazione.
A questi aspetti statistici, che sono i principali, ne
vanno aggiunti altri come la simmetria e
l’appiattimento. Tutti questi aspetti possono essere
studiati ricorrendo al concetto di momento.
I Momenti
Consideriamo i momenti di potenza degli scarti
che sono le “medie delle potenze di ordine k
degli scarti xi da un valore arbitrario A”.
  M x  A k
A k i

k  ky
xi  A  
 xi  A i
  A k
A k n  yi
secondo che i dati siano semplici o ponderati.
I Momenti
Se diamo a K i valori 0,1,2,3,…. si ottengono, da una
data distribuzione, infiniti momenti alcuni dei quali
godono di particolari proprietà oppure corrispondono
ad indici già noti.

Al crescere dell’ordine del momento K, cresce, in


generale, il valore numerico del momento; ne consegue
che i momenti di ordine elevato sono molto sensibili ai
valori dei dati e basta un piccolo errore nel dato stesso
perché il momento risulti notevolmente falsato.
Per questo motivo è raro che vengano utilizzati dei
momenti di grado superiore al quarto.
MOMENTI DI ORIGINE ARBITRARIA A
 0y
 
 xi A i 
yi
1
A0
yi yi
xi Ayi xiyi Ayi
A1     M A  
yi yi yi
2
xi  A yi 2
 
  
A 2 A
i y
Momenti dall’origine A=M

Il termine di riferimento A è arbitrario e quindi può


assumere un valore qualunque scelto a piacere. Fra gli
infiniti valori di A, due hanno particolare interesse:
A=M e A=0
xiM y y 0

  i i
1
y y
M 0
i i

x  M  y (x  M) y
 i
 i i i
0
y y
M 1
i i

xi  M  y 2

2  i
σ 2

y
M
i
Momenti dall’origine A=0
0
xi0 yi yi
 
  1
0 0
yi yi
xi 0yi xiyi
01    M
yi yi
2 2
xi0 yi xi yi 2
02    M(x )
yi yi
La distribuzione normale
I fenomeni naturali sono descritti da un modello
teorico che ha la forma della distribuzione degli
errori accidentali (la curva normale o curva di
Gauss) la cui funzione è:
x  M
2

1
e 2
2
f ( x) 
2 
Tale funzione dipende da due parametri, la
media aritmetica (M) e lo scarto quadratico
medio (σ).
La distribuzione normale
Le caratteristiche salienti della curva normale sono le
seguenti:

a) è asintotica rispetto all’asse delle ascisse, ossia,


allontanandosi in entrambe le direzioni da M, la
curva tende ad avvicinarsi sempre più all’asse delle
ascisse fino a toccarla nei punti all’infinito

lim f (x)  0
x
La distribuzione normale
b) è simmetrica rispetto ad una retta parallela
all’asse delle ordinate passante per il punto
medio nel senso che, presi due punti
equidistanti da M (M-p e M+p), le ordinate di tali
punti sono uguali [f(M-p)=f(M+p)] per ogni p

c) è crescente nell’intervallo (-∞, M) e


decrescente in (M, +∞)
La distribuzione normale
Dapprima cresce con ritmo crescente e poi con
ritmo decrescente (x=M-σ è il punto di flesso,
ossia il punto di inversione del ritmo di
crescita). Ha un massimo in x=M e quindi
decresce dapprima con ritmo crescente e poi
con ritmo decrescente (il flesso è nel punto
x=M+ σ). E’ pertanto una funzione di densità
unimodale.
La distribuzione normale
La funzione normale è parametrica con parametri
M e σ.

Al variare di M la forma si mantiene inalterata e si


assiste solo ad una traslazione lungo l’asse delle
ascisse.

Al variare di σ la sua forma varia diventando


schiacciata per alti valori di σ, aguzza per bassi
valori di σ, degenerando in una retta passante per
M quando σ=0.
La distribuzione normale
La distribuzione normale

Funzione di densità della distribuzione normale


per diversi valori della media
La distribuzione normale

Funzione di densità della distribuzione normale per


diversi valori della varianza
Asimmetria e Kurtosi

La forma di una qualsiasi distribuzione statistica


unimodale può discostarsi da quella della curva
normale per due caratteristiche: l’asimmetria e la
kurtosi.
SIMMETRIA

Nelle distribuzioni unimodali si ha simmetria


quando media, moda e mediana coincidono; se la
distribuzione è bimodale, possono essere
coincidenti solamente la media aritmetica e la
mediana.

Quando la media aritmetica, la mediana e la moda


non coincidono si dice che la distribuzione è
statisticamente asimmetrica e, più precisamente:
SIMMETRIA
•se la distribuzione presenta un maggiore addensamento
di osservazioni in corrispondenza dei valori minori si
parla di asimmetria positiva (graficamente la
distribuzione presenta la coda destra più allungata)
Mo<Me<M

•se la distribuzione presenta un maggiore addensamento


di osservazioni in corrispondenza dei valori maggiori si
parla di asimmetria negativa (graficamente la
distribuzione presenta la coda sinistra più allungata)
M <Me< Mo
SIMMETRIA
SIMMETRIA
SIMMETRIA

Per valutare l'asimmetria di una distribuzione, si


possono usare

- misure dell'asimmetria assoluta


- misure di asimmetria relativa.

Gli indici di asimmetria assoluta si esprimono


con le distanze tra la media e la moda o la
mediana.
SIMMETRIA
Due misure assolute, usate frequentemente, sono
le differenze (d) tra
la media e la moda e tra la media e la mediana:

d1 = media – moda d2 = media – mediana


che assumono:
•valore nullo, d=0, se la distribuzione è simmetrica;
•valori positivi, d>0, se la distribuzione presenta
asimmetria positiva (o destra);
moda<mediana<media
valori negativi, d<0, se la distribuzione presenta
asimmetria negativa (o sinistra);
media<mediana<moda).
SIMMETRIA
SIMMETRIA
Per ottenere una misura del grado di asimmetria
che possa essere confrontato con quello di
qualsiasi altra distribuzione, in quanto
indipendente dalle dimensioni delle misure,
occorre utilizzare indici relativi, quali:
 - skewness di Pearson;

 - 1 di Pearson;

 - γ1 di Fisher;
Skewness di Pearson

L’indice di asimmetria del Pearson (Skewness) è un


rapporto dato da:
( M  Mo )
sk 

e, come per il valore d precedente, sk può essere
nullo, positivo o negativo secondo la forma della
distribuzione
Skewness di Pearson
Precisamente se:
sk=0 la curva è simmetrica
sk>0 la curva è asimmetrica positiva
sk<0 la curva è asimmetrica negativa
Essendo un rapporto tra misure statistiche della
stessa distribuzione, esso è una misura
adimensionale, indipendente dal valore assoluto
degli scarti dalla media; quindi può essere utilizzato
per il confronto tra due o più distribuzioni.
γ1 di Fisher
Questo indice si basa sulla seguente
considerazione. In una distribuzione simmetrica i
momenti di ordine dispari dalla media sono nulli
e quindi è nullo anche il momento terzo da M,
ossia 3=0. Se invece la distribuzione è
asimmetrica si hanno due situazioni:
- quando l’asimmetria è positiva, prevalgono
gli scarti positivi e quindi 3>0 ;
- quando l’asimmetria è negativa si verifica il
caso opposto e quindi 3<0
γ1 di Fisher
E’ evidente allora che il momento di terzo ordine da M
può servire a giudicare della simmetria o asimmetria di
una distribuzione.
Se però si vuole avere una media relativa bisogna
dividere 3 per il cubo dello scarto quadratico medio
ottenendo così la quantità:
3
m3 1 n  xi  M 
1  3   
 n i 1   
che si chiama indice di asimmetria γ1 di Fisher ed è un
indice adimensionale che permette quindi i confronti.
γ1 di Fisher

1 = 0 (distribuzione simmetrica)

1 < 0 (distribuzione asimmetrica negativa)

1 > 0 (distribuzione asimmetrica positiva)


Esempio: γ1 di Fisher
Calcoliamo l’indice di asimmetria del Fisher
dell’insieme seguente di dati:
 
40; 700; 780; 850; 880; 900; 970; 1000; 1200

Per applicare la formula dell’indice di simmetria


di Fisher premettiamo cha la media aritmetica
dell’insieme è M=813.33 mentre la varianza è
σ2=92.688, per cui la deviazione standard è:

  92.688  304. 45
Esempio: γ1 di Fisher

L’indice si ottiene quindi nel modo seguente:


 3 3
1  40  813.33   1200  813.33 
 1     ........      1.55
9  304.45   304.45  

L’indice assume valore negativo per cui si può


concludere che l’insieme presenta asimmetria
negativa.
1 di Pearson
In generale viene usata la statistica di simmetria:
2 2
 m3  (m3 ) (m3 )  1 n  xi  M  
2 2 3


1   3    2 3      
2

 ( )  (m2 ) ( )  n i1    
3

ove m3 e m2 sono rispettivamente il momento


centrale terzo e secondo.
Tale indicatore, essendo un quadrato, è sempre
maggiore o uguale a 0.
1 =0, nel caso di perfetta simmetria;
1 >0, per l'asimmetria a sinistra.
Indice relativo di Bowley

Considerando che le distanze dal primo e dal


terzo quartile dal valore mediano sono uguali in
caso di perfetta simmetria e, a parità di
dispersione, tanto più divergenti quanto
maggiore è l’asimmetria dei dati, si può
considerare l’indice relativo proposto da Bowley:
   
Q3  Me   Me Q1  Q3  Q1  2Me
 4   4
 4 4

    Q3  Q1
Q3  Me   Me Q1  4 4
 4   4
Indice relativo di Bowley
Anche per questo indice l’interpretazione `e agevole.
Nei casi in cui i dati si distribuiscano in maniera
esattamente simmetrica intorno alla mediana i
termini a numeratore si compenseranno tra di loro e
quindi l’indice sarà nullo. Viceversa, nei casi di
asimmetria positiva la differenza tra terzo quartile e
mediana sarà maggiore alla differenza tra mediana e
primo quartile e quindi l’indice assumerà valori
positivi. Opposta la situazione nei casi di asimmetria
negativa.
Simmetria e dispersioni
Un concetto di asimmetria che permette di
distinguere la diversa forma di addensamento dei
valori e che tenga conto di tutti i dati osservati
conduce alla formula:
Dd  Ds
A
Dd  Ds

dove Dd rappresenta una misura della


dispersione destra e Ds una misura delle
dispersione sinistra dei valori osservati.
Simmetria e dispersioni
Per dispersione destra si intende un particolare
aspetto della variabilità del gruppo di valori da
x n 1
ad xn o da x n a xn secondo che n sia
2 2

dispari o pari;
per dispersione sinistra il corrispondente aspetto
x n 1
della variabilità dei valori da x1 ad o da x1
x n2 2
ad
2
Simmetria e dispersioni
L’indice può assumere qualunque valore compreso tra
-1 e +1.
Nel caso di valori negativi si può parlare di asimmetria
negativa nel senso di una dispersione sinistra
maggiore della dispersione destra e, analogamente,
nel caso di valori positivi, si può parlare di una
dispersione destra maggiore di quella sinistra; quando
l’indice assume valore zero, si parla di simmetria nel
senso che la dispersione destra è uguale alla
dispersione sinistra.
Esempio:

Calcolo dell’indice di simmetria, mediante la


dispersione, sulla distribuzione di 100 piantine (y i)
di avena secondo la produzione in grammi (x i).
xi yi xi yi Ai Bi Ai-Bi (Ai-Bi)yi
1 1 1 152 1 151 151
2 12 24 151 25 126 1512
3 25 75 127 100 27 675
4 13 52 52 152 -100 -1300
Tot. 51 152 1038
4 17 68 254 68 186 3162
5 21 105 186 173 13 273
6 11 66 81 239 -158 -1738
7 1 7 15 246 -231 -231
8 1 8 8 254 -246 -246
Tot 51 254 1220
In base a questa tabella sarà:
1220  1038
A  0,081
1220  1038
Questo risultato va inteso nel senso che la
distribuzione considerata palesa una
asimmetria positiva - cioè una dispersione
destra maggiore della dispersione sinistra –
pari a circa l’8.1% del massimo valore teorico
di quel particolare aspetto della variabilità dei
dati che è misurato dalla somma delle due
dispersioni.
Kurtosi

Il Pearson ha chiamato kurtosi la caratteristica


del maggiore o minore appiattimento di una
distribuzione statistica rispetto alla curva
normale, denominando
 platikurtiche le curve più appiattite
(iponormali)
 leptokurtiche quelle meno appiattite
(ipernormali
• rispetto alla curva normale, detta mesokurtica.
Kurtosi
Kurtosi

Il coefficiente di kurtosi è dato dalla formula:

Dove:
4
2 
 2 2

è l'indice di kurtosi, con m4 e m2 che sono


rispettivamente il momento centrale di ordine 4 e
2.
Kurtosi

Nel caso di una variabile casuale normale, β2 = 3,


così che il coefficiente di kurtosi γ2 risulta pari a
zero.
Se il coefficiente di kurtosi è:

 > 0 la curva si definisce leptokurtica, cioè più


"appuntita" di una normale.
 < 0 la curva si definisce platikurtica, cioè "più
piatta" di una normale.
 = 0 la curva si definisce normokurtica o
mesokurtica, cioè "piatta" come una normale.
Kurtosi

Il calcolo del coefficiente di kurtosi ha senso solo


nelle distribuzioni unimodali.

Potrebbero piacerti anche