Sei sulla pagina 1di 59

Corso di Statistica

Indici di posizione

Media
Mediana, Quartili, Percentili
Moda

Proff. Matilde Bini e Andrea Cutillo


a.a. 2017-2018

1
Ammettiamo di avere
 n valori osservati x1, x2,…, xn di un carattere
quantitativo X
 distribuzioni di frequenza; alcuni esempi

Come è possibile comparare le distribuzioni o sintetizzarle?


2
Indicatori sintetici (R)
Gli aspetti più importanti di una distribuzione di frequenza riguardano:

1. La posizione INDICI STATISTICI DI POSIZIONE


(MEDIA, MEDIANA, MODA)
SCOPO: SINTETIZZARE in un singolo valore
numerico l’intera distribuzione di frequenza per
effettuare confronti nel tempo, nello spazio
o tra circostanze differenti.

2. La variabilità INDICI STATISTICI DI VARIABILITA’


SCOPO: misurare L’ATTITUDINE di un fenomeno
ad assumere differenti modalità

3. La forma INDICI DI ASIMMETRIA non trattati


SCOPO: misurare la SIMMETRIA di una distribuzione
rispetto ad un punto notevole
(es.: rispetto ad una misura di posizione)
3
Indice di posizione: la Media

• Disponendo dei singoli valori di una


distribuzione, il modo più intuitivo per
sintetizzare l´insieme dei valori passa
attraverso il calcolo della media
• Media (aritmetica) = punto di equilibrio o
baricentro dell’insieme di valori (tendenza
centrale)
• È una media analitica, funzione di tutti i
valori

4
Calcolo della media
Punti Ri Somma dei ricavi (Intensità totale del
vendita cavi carattere) = 350 + 200 + 600 + 500 + 270 +
unita´ X 180 + 205 + 340 + 280 = 2925
1 350 Media dei ricavi = 2925:9=325
2 200
3 600 L’intera torta
4 500 rappresenta la somma
9 1
dei ricavi di tutti i
5 270 8 2
punti vendita
6 180 7 3

7 205 6
5
4 La singola fetta
rappresenta la media dei
8 340
ricavi (equidistribuzione)
9 280
Σ=2925
5
Formula della media
100 200 300 400 500 600 700

Media = 325

• Dati n valori osservati x1, x2,…xi,…, xn di un


carattere quantitativo X
1 1 n
x  ( x1  x2  ...  x i  ...  xn )   xi
n n i 1
6
Effetto dei valori estremi
Se il valore estremo fosse 800 invece di 600
la media aumenterebbe
(il punto di equilibrio si sposta verso destra)

100 200 300 400 500 600 700 800

Media = 347,22

La media aritmetica risente fortemente dei valori estremi

7
8
(modalità)

9
Media di una distribuzione di
frequenza
6 è il numero
Addetti Numero punti xi*ni
complessivo di
(valori xi) vendita
addetti nei primi 2
(frequenze ni) punti vendita
3 2 3*2=6
4 1 4*1=4 18 è il numero
complessivo di
6 3 6*3=18
addetti nei 3 punti
7 1 7*1=7 vendita in ciascuno
10 2 10*2=20 dei quali lavorano 6
addetti
K

x
K

n  n  9
i 1
i
i 1
i  ni  55 55 è il numero
complessivo di addetti
K K (l’intensità totale del
 x n  x n
i i i i
55
carattere)
Media x i 1
K
 i 1
  6,11
n 9
 ni
i 1
10
11
(modalità)

(relative)

12
1,00000

13
14
Media di una distribuzione di frequenza
con classi di valori
Classi di Numero Valore ci*ni ci c  X
i i
superficie aziende centrale
(in ettari) (ni) classi (ci) K

0-1 120 0,5 60 c n i i


x i 1

1-2 160 1,5 240 n
550 8095,5
2-3 220 2,5   7, 27
1113
3-5 212 4 848
5-10 205 7,5 1537,5
La superficie
10-20 110 15 1650 media di una
20-40 65 30 1950 azienda agricola
è di 7,27 ettari
40-80 21 60 1260
K K
n   ni  1113 c n i i  8095,5
i 1
i 1
15
Media ponderata

• Uno studente ha sostenuto i seguenti


esami del I anno del corso di laurea di EA.
• Come calcola la media dei voti?
N. Esame voto cfu

1 Ec. Aziend./Rag. Gen I mod 27 9


2 Ist. diritto pubblico 22 6
3 Metodi di matematica applicata 25 9
4 Macroeconomia 20 6
5 Rag. Gen II mod /Bilancio e principi 28 9

16
Media ponderata: calcolo
N. voto cfu voto*cfu
Esame (xi) (pi) (xi*pi)
1 27 9 243
2 22 6 132
3 25 9 225
4 20 6 120
5 28 9 252
n n

n p i  39  xp i i  972
x p
i1 i1
i i
972
x i 1
n
  24, 92 Il voto medio (su 39 cfu) è pari a 24,92
39
p
i 1
i

17
Media ponderata
i due voti più bassi pesano di meno nel calcolo
della media perché sono due esami da 6 cfu

18 19 20 21 22 23 24 25 26 27 28 29
30

Media ponderata = 24,92

18
PROPRIETA’ DELLA M.A. - I

1. La m.a. è compresa tra il più piccolo e il più grande dei


dati osservati

2. La m.a. è quel valore che sostituito ad ogni


osservazione lascia invariata la loro somma

3. Se facciamo una trasformazione lineare dei dati da X a


Y la nuova media di Y è data dalla trasformazione
lineare della media di X
3.1. Y = aX
3.2. Y = X+b
3.3. Y = aX+b

 Segue dimostrazione proprietà per media di distribuzioni


di frequenza
Proprietà della media - 2

20
Proprietà dela media - 3

21
Proprietà della media – 3 continua

22
PROPRIETA’ DELLA M.A. - II

4. La somma degli scarti dalla m.a. è uguale a zero:


n
 (x i  x )  0
i 1

5. La somma degli scarti dalla m.a. al quadrato è un minimo


n
2
 (x i  x )  minimo
a

i 1

6. Se un collettivo di n unità statistiche viene suddiviso in L


sottoinsiemi disgiunti di numerosità n1, n2, …,nL con media
X a (1) , X a ( 2 ) ,..., X a ( L )
allora la media generale si può ottenere come media ponderata
delle medie dei sottoinsiemi con pesi uguali alle loro numerosità
Proprietà della media - 4

24
Proprietà della media - 5

25
La media geometrica

calcolo sulla distribuzione unitaria

x g  n x1  x 2    x n
Mediana
• È il valore che occupa la posizione
centrale nell’insieme ordinato di tutti i
valori x  x   x   ...  x   x
min 1 2 n max

Tra x(1) e Me è Tra Me e x(n) è


contenuto il 50% contenuto il restante
dei valori 50% dei valori

X (1) Me X(n)

• È una media di posizione


27
Come individuare la posizione
centrale o profondità della mediana
• Insieme di n valori ordinati

• n dispari la posizione centrale è data da (n  1)


Me  x  n1  2
 
 2 

n n
• n pari le posizioni centrali sono due, e 1
2 2
x n   Me  x n 
   1 
2 2 

x n   x n 
Di solito  
2
 1 
2
Me   

2
28
29
30
31
togliendo e aggiungendo la mediana

32
33
Mediana da una distribuzione di
frequenza
Addetti Numero Frequenze n  1 10
(xi) punti vendita cumulate posizione Me   5
(ni) Ni 2 2
3 2 2
Me  x  5 
4 1 3
6 3 6
7 1 7 La mediana è il valore che
occupa la quinta posizione
10 2 9

Se numero di n è dispari, sulla colonna delle frequenze cumulate si


individua la prima Ni che è uguale o maggiore del termine centrale

Il corrispondente valore xi è la mediana della distribuzione


Me=6
34
Mediana da una distribuzione di
frequenza (con le freq. rel. cum.)
Addetti Numero Frequenze Frequenze
(xi) punti vendita cumulate rel cum.
(ni) Ni Fi

3 2 2 0,22
4 1 3 0,33
6 3 6 0,67
7 1 7 0,78
10 2 9 1,00

Sulla colonna delle frequenze relative cumulate si individua la


prima Fi che è uguale o maggiore di 0,5

Il corrispondente valore xi è la mediana della distribuzione

Me=6
35
Mediana di una distribuzione di
frequenza con classi di valori
Classi di Numero Freq. n 1
superficie aziende cumulate posizione mediana  
2
(in ettari) (ni) (Ni)
1113  1
0-1 120 120   557
2
1-2 160 280
2-3 220 500 L’elemento che occupa
la posizione 557
3-5 212 712
è uno dei 212 valori
5-10 205 917 della classe 3-5
10-20 110 1027
La mediana è
20-40 65 1092 contenuta nella
Oltre 40 21 1113 classe 3-5

36
Mediana di una distribuzione di
frequenza con classi di valori
Classi di Numero Freq. Freq. rel.
superficie aziende cum. cum. Im=estr inf della classe
(in ettari) (ij) (Ni) (Fi) mediana=3
0-1 120 120 0,108 Fm-1=freq rel cum fino alla
1-2 160 280 0,252 classe precedente a
quella mediana =0,449
2-3 220 500 0,449
Fm=freq rel cum
3-5 212 712 0,640
fino alla classe
5-10 205 917 0,824 mediana=0,640
10-20 110 1027 0,923 Δm=ampiezza della
20-40 65 1092 0,981 classe mediana=
Oltre 40 21 1113 1,000 =5-3=2

 0,5  Fm1   0,5  0,449 


Me  Im    m  3   2  3,53
 Fm  Fm1   0,640  0,449 
37
Mediana di una distribuzione di
frequenza con classi di valori
F
Assunzione:
Fm=0,640 C
Nella classe mediana le
unità si distribuiscono
uniformemente
Le freq rel cum
crescono
E
0,5 linearmente

Fm-1=0,449 A D B
La formula deriva dalla
similitudine tra i due
Me x triangoli rettangoli
Im=3 5
ABC e ADE

 0,5  Fm1   0,5  0,449 


Me  Im    m  3   2  3,53
 Fm  Fm1   0,640  0,449 
38
Quartili
Dividono la distribuzione ordinata dei valori in quattro parti
di uguale numerosità
Si hanno 3 indici di posizione, Q1 Q2 e Q3
( xmin  x 1 )  x 2  ...  ( x n   xmax )
Tra x(1) e Q1 è Tra Q3 e x(n) è
contenuto il 25% dei contenuto il 25% dei
valori (più bassi) valori (i più alti)

X(1) Q1 Q2=Me Q3 X(n)

Tra Q1 e Q2 è Tra Q2 e Q3 è
contenuto il 25% contenuto il
dei valori 25% dei valori

39
Primo quartile Q1
• Q1 Primo quartile: è preceduto dal 25% dei termini (e seguito dal 75%)
• n dispari

• n pari

Q x
1
• In ogni caso, Q1 è il primo valore xi nin
1corrispondenza
 del quale la frequenza cumulata relativa
 4 
 Se n (o n+1) non è
divisibile per 4, la
x n   x n
 

 1  posizione può non essere
Q1  4 4 
un numero intero
2

Fi  0, 25

40
Terzo quartile Q3
• Q3 Terzo quartile: è preceduto dal 75% dei termini (e seguito dal 25%)
• n dispari

• n pari
Q3  x 3 
• In ogni caso, Q3 è il primo valore xi in (n1) 
 corrispondenza del quale la frequenza cumulata relativa
 4  Se n (o n+1) non è
divisibile per 4, la
x  3n   x  3n  posizione può non essere
   1 
Q3   4   4  un numero intero
2

Fi  0, 75

41
Calcolo dei quartili
La prima Fi ad essere maggiore
Ricavi Ricavi Freq. o uguale a 0,25 è la terza
(valori cum. rel.
ordinati)
Q1  x(3)  205
350 X(1)=180 1/9=0,11
200 X(2)=200 2/9=0,22 Il 25% dei punti vendita con i ricavi
600 X(3)=205 3/9=0,33 più bassi registrano ricavi che non
superano 205 mila euro
500 X(4)=270 4/9=0,44
270 La prima Fi ad essere maggiore o
X(5)=280 5/9=0,56
uguale a 0,75 è la settima
180 X(6)=340 6/9=0,67
205 X(7)=350 7/9=0,78 Q3  x(7)  350
340
X(8)=500 8/9=0,89 Per essere nel 25% dei
280 punti vendita con i ricavi
X(9)=600 9/9=1
più alti si devono superare
350 mila euro di ricavi
42
Calcolo dei quartili: distribuzione in classi-
Calcolo Terzo quartile
3
posizione primo quartile    n  1 
4
Classi di Numero Freq. 3
superficie aziende cumulate ...   1113  1  835,5
(in ettari) (nj) (Nj) 4
0-1 120 120 L’elemento che occupa
1-2 160 280 questa posizione è uno
dei 205 valori
2-3 220 500
della classe 5-10
3-5 212 712
5-10 205 917 Il terzo quartile è
10-20 110 1027 contenuto nella
classe 5-10
20-40 65 1092
Oltre 40 21 1113
Osservare la prima Fi ad essere
maggiore o uguale a 0,75
Calcolo dei quartili: distribuzione in classi-
Calcolo Terzo quartile
IQ3=estr inf della classe
Classi di Numero Freq. Freq. rel. in cui cade il Q3=5
superficie aziende cum. cum.
(in ettari) (ni) (Ni) (Fi) FQ3-1=freq rel cum fino
0-1 120 120 0,108 alla classe precedente a
quella in cui cade il
1-2 160 280 0,252 Q3=0,640
2-3 220 500 0,449 FQ3=freq rel cum
3-5 212 712 0,640 fino alla classe in
5-10 205 917 0,824 cui cade il
Q3=0,824
10-20 110 1027 0,923
20-40 65 1092 0,981 ΔQ3=ampiezza della classe
Oltre 40 21 1113 1,000 in cui cade il Q3
=10-5=5
 0, 75  FQ 1   0, 75  0, 640 
Q3  IQ  3
 Q  5    5  7, 99
3  FQ  FQ 1  3  0, 824  0, 640 
 3 3 
44
Percentili
Sono quei valori che dividono la distribuzione
in cento parti di uguale numerosità
Mediana=50-esimo percentile
Q3= 75-esimo percentile

P10 = decimo percentile: lascia alla sua sinistra il


10% dei valori
P90 = novantesimo percentile: lascia alla sua
destra il 10% dei valori

45
Moda
• È la modalità più frequente
• In un insieme di valori: quel termine che si ripete più volte
• In una distribuzione di frequenza: quella modalità che ha
la frequenza più alta

• In una distribuzione di frequenza con classi di valori: ogni


valore della classe con la più alta densità di frequenza

46
Moda di un insieme di valori
Punti Genere
vendita respons.
La modalità del carattere
1 maschio “Genere del responsabile”
2 maschio
che si ripete più volte (5
volte ) è “maschio”
3 femmina

4 femmina

5 maschio Moda=“maschio”
6 maschio
La maggioranza dei punti
7 maschio
vendita ha come
8 femmina
responsabile un uomo
9 femmina
47
Moda di una distribuzione di
frequenza
Addetti Numero La frequenza maggiore è 3
(valori punti La modalità del carattere “Numero di addetti” cui
distinti) vendita è associata la frequenza maggiore è 6
(frequenze)
3 2
La maggioranza dei punti vendita ha un numero
4 1
di addetti pari a 6
6 3
7 1

10 2 Moda=6

48
Moda di una distribuzione di
frequenza con classi di valori
Classi di Numero Ampiezza Densità di
superficie aziende classe freq In presenza di
(in ettari) (nj) (aj) (dj) classi di ampiezza
0-1 120 1 120 diversa,
1 160
la classe modale è
1-2 160
quella che ha la
2-3 220 1 220
densità di
3-5 212 2 106 frequenza
5-10 205 5 41 maggiore
10-20 110 10 11
20-40 65 20 3,25
40-80 21 40 0,525

La classe modale è 2-3

49
Moda
• Può non esistere
• Può non essere unica
• Può essere una modalità “poco
rappresentativa” del fenomeno

• Per chi vende abbigliamento, la moda


rappresenta un parametro utile per decidere
in merito a come rifornire il negozio: saranno
ordinati più capi delle taglie più diffuse

50
Esempio: calcolo diversi indici di posizione
X ni Ni Fi hi
0-30 2 2 0,1667 0,07
30-60 5 7 0,5833 0,17
60-80 4 11 0,9167 0,20
80-100 1 12 1,0000 0,05
Totale 12
Q1  36
x  52, 1
M e  54
Q3  70 Classe modale 60-80
Confronto tra diversi indici di posizione

0,20

0,10

0,05

Xi
0 30 Q1  36 60
M e  54 Q3  7080 100
x  52, 1
53
Calcolo dei valori medi in base
al tipo di carattere
Caratteri
Quantitativi Qualitativi Qualitativi
ordinati sconnessi
Media 
Mediana  
Moda   

54
Percentile

 Il percentile è il valore di una variabile (aleatoria) sotto il quale si


verifica una certa percentuale dell'osservazione. Ad esempio il 10°
percentile è il valore sotto al quale si trovano il 10% delle
osservazioni.

 In ambito discreto, valutare un percentile significa determinare il


termine di un insieme ordinato tale per cui lui e tutti gli altri termini
ad esso inferiori sono in quantità pari al valore di percentile visto
come percentuale.

 Considerando un campione di n dati, ordinati in modo crescente,


l'indice del k-esimo percentile è ottenuto dalla formula:

55
Percentile - esempio

 Calcolo del 45esimo percentile dall'insieme ordinato


A={0,4,5,12,56,66,70,90,92,94,106,129,140,141,190,299,304,509,60
6,720,841,1022,4890,12673}
 In questo caso, n = 24 (numero di dati dell'insieme ordinato)

 L'indice del 45esimo percentile sarà quindi dato da:

 quindi 106 (l'undicesimo dato dell'insieme) è il percentile


cercato. Ciò esprime il fatto che il 45% dei numeri dell'insieme
ha valore minore o uguale a 106.

56
Metodo di calcolo
del k-esimo percentile
Consideriamo un campione di n dati, ordinati in maniera crescente. L’indice
del k-esimo percentile è dato da: Ik = (n+1)´k /100

Dall’indice si ricava quindi il valore esatto con un’interpolazione lineare tra i due
dati (con indici pari all’intero prima e dopo di Ik )
Esempio 1: n=14 dati xi. Calcoliamo il 23-esimo percentile.
I23 = (14+1)23 /100 = 3.45
Il valore del 23-esimo percentile sarà compreso tra il 3° ed il 4° dato (x3 e x4).
Numericamente vale x3 + (x4 – x3) x 0.45

Esempio 2: n=72 dati xi. Calcoliamo il 75-esimo precentile (3° quartile).


I75 = (72+1)´75 /100 = 54.75
Il valore del 23-esimo percentile sarà compreso tra il 54° ed il 55° dato (x54 e
x55). Numericamente vale x54 + (x55 – x54) x 0.75
57
Consideriamo un campione di 80 dati,
rappresentati in un diagramma rami e
foglie ordinato.

L’indice del primo quartile Q1 vale:


I25 = (80+1)25 /100 = 20.25
Quindi Q1= x20 + (x21 – x20) 0.25 =
= 143+(145-143) 0.25 =143.5

L’indice del terzo quartile Q3 vale:


I75 = (80+1)75 /100 = 60.75
Quindi Q3= x60 + (x61 – x60) 0.75 =
= 181+(181-181) 0.75 =181

58
59