Sei sulla pagina 1di 35

P t 3

Parte 3
Sintesi e descrizione delle variabili
Si t i d ii d ll i bili
mediante valori medi
mediante valori medi

Chap 3-1
Contenuti
 Misure di posizione o di tendenza centrale (valori medi):
Misure di posizione o di tendenza centrale (valori medi):
• Media aritmetica
• Mediana
• Quantili
• Moda
M d
• Aspetti che orientano la scelta di un valore medio
Aspetti che orientano la scelta di un valore medio

Chap 3-2
Misure statistiche di sintesi
Per trarre delle indicazioni adeguate su un dato fenomeno di
interesse non è sufficiente rappresentare i dati mediante tabelle e
grafici di frequenza.
frequenza
Una buona analisi dei dati richiede anche che le caratteristiche
principali delle osservazioni (variabili) siano sintetizzate con
opportune misure e che tali misure siano adeguatamente analizzate
e interpretate.
Tipi di misure statistiche di sintesi:
 misure di Posizione o di Tendenza centrale e non centrale
(valori medi)
 misure di Variabilità
 misure di Forma
Queste misure costituiscono un sistema di indicatori che
Q
descrivono l’insieme dei dati fornendo informazioni sul problema di
interesse. Chap 3-3
Valori medi
Nella maggior parte degli insiemi di dati, le osservazioni mostrano
una tendenza a raggrupparsi attorno a un valore centrale.
Risulta in genere quindi possibile selezionare un valore tipico per
descrivere, rappresentare e sintetizzare un intero insieme di dati.
Tale valore descrittivo è detto valore medio (misura di posizione o
di tendenza centrale).
centrale)
In alcune situazioni vengono identificati più valori medi (misure di
tendenza non centrale).
Tipi di valori medi:
 Media aritmetica
 Mediana, quantili
 Moda
Chap 3-4
La Media aritmetica
La media aritmetica (anche chiamata semplicemente media) è il
valore medio più comunemente utilizzato per sintetizzare una
variabile quantitativa.
q
Disponendo della lista di valori osservati (distribuzione unitaria)
la media si calcola dividendo la somma dei valori osservati per il
numero totale di osservazioni.
La media aritmetica di un insieme di n valori x1, x2, … xn di una
variabile quantitativa X è data da:
Pronuncia x medio
i i
i‐esimo valore
l
n

x i
x1  x2    xn
x i 1

n n
Numerosità totale Valori osservati Chap 3-5
Esempio
Consideriamo un campione di 17 fondi comuni
azionari che prelevano le commissioni di
commercializzazione direttamente dalle attività
del fondo. n
 xi x1  x2    xn
i 1
x 
n n
332.2  299.5  ...  288.6
x  29.9
17
I 17 fondi comuni hanno un rendimento medio
percentuale
l ad
d un anno pari a 29.9.

 La media rappresenta un “punto di equilibrio” tale che le


osservazioni più piccole bilanciano quelle più grandi.
 Il calcolo della media si basa su tutte le osservazioni x1, x2, … xn,
dell’insieme di dati.
Chap 3-6
La media aritmetica per una distribuzione di frequenza di una
variabile quantitativa non suddivisa in classi è data da:

Numero di modalità numeriche


j‐esima modalità

 x  nj 
m

x
j 1
j


 x1  n1      xm  nm 
n n
Numerosità totale Frequenza osservata per la j‐esima modalità

Chap 3-7
Esempio
È stato osservato il numero di alberghi dotati di centro congressi in
109 Comuni, con la seguente distribuzione:
N. alberghi N. Comuni Frequenza relativa %
(xj) (nj) (fj) (pj)
0 15 0.138 13.8
1 40 0.367 36.7
2 37 0.339 33.9
3 17 0.156 15.6
Totale 109 1 100

x
0  15  1  40  2  37   3  17 
109
165
x
109
x  1.5 alberghi
Il numero medio di alberghi dotati di centro congressi per comune è
pari a 1.5. Chap 3-8
Utilizzando le frequenze relative, la media aritmetica per una
distribuzione di frequenza
q di una variabile q
quantitativa non
suddivisa in classi è alternativamente data da:

x   x j  f j    x1  f1      xm  f m 
m

j 1

Utilizzando le percentuali:

 x  pj 
m

x
j 1
j


 x1  p1      xm  pm 
100 100

Chap 3-9
Esempio
È stato osservato il numero di alberghi dotati di centro congressi in
109 Comuni, con la seguente distribuzione:
N. alberghi
N N Comuni
N. Frequenza relativa %
(xj) (nj) (fj) (pj)
0 15 0.138 13.8
1 40 0.367 36.7
2 37 0.339 33.9
3 17 0.156 15.6
Totale 109 1 100

x  0  0.138  1  0.367   2  0.339   3  0.156


x  1.5 alberghi
o

x
0  13.8  1  36.7   2  33.9   3  15.6
100
x  1.5 alberghi
Chap 3-10
La media aritmetica per una distribuzione di frequenza di una
variabile quantitativa suddivisa in classi è data da:

Numero di classi ordinate


Valore centrale dell’h‐esima classe
k

 x h  nh 
 x1  n1      x k  nk 
x h 1

n n
Numerosità Frequenza osservata dell’h‐esima classe
t t l
totale

Chap 3-11
Esempio
Consideriamo la seguente
g distribuzione della variabile “concentrazione di
anidride solforosa” (microgrammi per metro cubo) in 103 stazioni di
rilevamento:
Concentrazione Valore N. stazioni Frequenze relative %
centrale (nj) (fj) (pj)
5.1-10
5.1 10 7.5 10 0.10 10
10.1-15 12.5 23 0.22 22
15.1-20 17.5 38 0.37 37
20.1-25 22.5 24 0.23 23
25.1-30 27.5 8 0.08 8
Totale 103 1 100
x
7.5 10  12.5  23  17.5  38  22.5  24  27.5  8 x  17.3
103
o
x  7.5  0.10  12.5  0.22  17.5  0.37  22.5  0.23  27.5  0.08 x  17.3
o

x
7.5 10  12.5  22  17.5  37  22.5  23  27.5  8 x  17.3
100 Chap 3-12
La media aritmetica è influenzata dalla presenza di valori
estremi (outlier).
(outlier)
Esempio
Consideriamo due insiemi di valori di una data variabile X:
Gruppo 1 2 3 1 5 4
Gruppo 2 4 3 1 2 10

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Media = 3 Media = 4
1  2  3  4  5 15 1  2  3  4  10 20
 3  4
5 5 5 5
In presenza di valori estremi, la media aritmetica può fornire una
rappresentazione distorta dei dati ed è pertanto opportuno in questi
casi ricorrere ad altre misure di posizione. Chap 3-13
Se un insieme di n valori è suddiviso in L sottoinsiemi disgiunti,
allora la media aritmetica per gli n valori è ottenuta come media
pesata delle medie di ciascun sottoinsieme con pesi uguali alle
loro numerosità.

Esempio
In un campione di 35 aziende agricole di due province è stata calcolata
la media della superficie aziendale (in ettari) separatamente per le
aziende della provicia A (15 aziende) e della provincia B (20 aziende):

Provincia A Provincia B
Superficie media 12 3
12.3 82
8.2
(ettari)
N. aziende 15 20

La superficie media per il totale delle 35 aziende è:

x
12.3 15  8.2  20 x  10 ettari
35
Chap 3-14
La Mediana

La mediana è il valore centrale in un insieme di dati ordinati dal


più piccolo al più grande. La mediana è quindi quel valore della
variabile che bipartisce la distribuzione ordinata dei valori
osservati in modo tale che metà (50%) delle osservazioni ha valore
inferiore alla mediana e metà (50%) ha valore superiore.

LLa mediana
di puòò essere calcolata
l l t per variabili
i bili quantitative
tit ti e
variabili qualitative purché misurate su scala ordinale.

Chap 3-15
La mediana è meno influenzata dalla presenza di valori estremi
(outlier) rispetto alla media aritmetica.
aritmetica
Esempio
Consideriamo due insiemi di valori di una data variabile X:
Gruppo 1 2 3 1 5 4
Gruppo 2 4 3 1 2 10

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Mediana = 3 Mediana = 3

In presenza di valori estremi, la mediana può fornire una


pp
rappresentazione più adeguata
p g dei dati rispetto
p alla media aritmetica.

Chap 3-16
Quando disponiamo della lista di n valori individuali (distribuzione
unitaria)) ordinati dal p
più p
piccolo al p
più ggrande,, il calcolo della mediana è il
seguente:
 se la numerosità totale dei valori è dispari, la mediana è il valore che
occupa la posizione centrale
n 1
Posizione della mediana nella graduatoria ordinata:
2
 se la numerosità totale dei valori è pari, ci sono due valori centrali in
corrispondenza delle posizioni:
n n
; 1
2 2
se la variabile è quantitativa,
quantitativa la mediana è la media aritmetica dei
valori che occupano le due posizioni centrali; se la variabile è
qualitativa la mediana è uno dei due valori che occupano le posizioni
centrali.
centrali
n 1 n n
Si noti che ; ; 1
non sono i valori della mediana ma le
2 2 2
posizioni della mediana nella graduatoria ordinata dei valori.
Chap 3-17
Esempio
Calcoliamo la mediana per il rendimento annuo
dei 17 fondi comuni azionari che prelevano le
commissioni di commercializzazione direttamente
dalle attività del fondo.
Dalla lista dei valori osservati:
32.2 29.5 29.9 32.4 30.5 30.1 32.1 35.2 10.0 20.6 28.6 30.5 38.0 33.0 29.4 37.1 28.6

O d a o i valori
Ordiniamo a o da
dal p
più
ùppiccolo
cco o aal p
più
ù ggrande
a de e
indichiamo le posizioni:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
10 0 20
10.0 20.6
6 28
28.6
6 28
28.6
6 29
29.4
4 29
29.5
5 29
29.9
9 30
30.1
1 30
30.5
5 30
30.5
5 32
32.1
1 32
32.2
2 32
32.4
4 33
33.0
0 35
35.2
2 37
37.1
1 38
38.0
0

Essendo il numero totale dei fondi dispari (n=17) la mediana sarà il valore
che occupa
p la p
posizione ((n+1)/2=9
)/ ovvero la mediana è 30.5.

Il 50% dei fondi osservati ha registrato un rendimento annuo inferiore a


30.5 e il 50% superiore a 30.5.
Chap 3-18
Esempio
SSupponiamo
i di aver osservatot il rendimento
di t annuo per 18 fondi
f di comunii
azionari.
Dalla lista dei valori osservati:
32.2 29.5 29.9 32.4 30.5 30.1 32.1 35.2 10.0 20.6 28.6 30.5 38.0 33.0 29.4 37.1 28.6 33.3

Ordiniamo i valori dal più piccolo al più grande e indichiamo le posizioni:


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
10 0 20.6
10.0 20 6 28.6
28 6 28.6
28 6 29.4
29 4 29.5
29 5 29.9
29 9 30.1
30 1 30.5
30 5 30.5
30 5 32.1
32 1 32.2
32 2 32.4
32 4 33.0
33 0 33.3
33 3 35.2
35 2 37.1
37 1 38.0
38 0

Essendo il numero totale dei fondi ppari ((n=18)) ed essendo la variabile


quantitativa (rendimento) la mediana sarà la media dei due valori che
occupano le posizione n/2=18/2=9 e n/2+1=10. La mediana è quindi data da
(30 5+30 5)/2 30 5
(30.5+30.5)/2=30.5.

Il 50% dei fondi osservati ha registrato un rendimento annuo inferiore a


30.5 e il 50% superiore a 30.5.
Chap 3-19
Quando disponiamo della distribuzione di frequenza di una
variabile quantitativa o qualitativa misurata su scala ordinale
(suddivisa in classi o non suddivisa in classi), la mediana è la prima
modalità o classe a cui corrisponde una frequenza cumulata %
superiore o uguale al 50%.
50%
Esempio
Consideriamo
C id i l seguente
la t distribuzione
di t ib i d ll variabile
della i bil “concentrazione
“ t i di
anidride solforosa” (microgrammi per metro cubo) in 103 stazioni di
rilevamento:
Concentrazione N. stazioni % Concentrazione Frequenze
(nj) (pj) cumulate %
5.1-10 10 9.7 ≤ 10 9.7
10.1-15 23 22.3 ≤ 15 32.0
Classe 
15 1 20
15.1-20 38 36 9
36.9 ≤ 20 68 9
68.9
mediana
d
20.1-25 24 23.3 ≤ 25 92.2
25.1-30
5. 30 8 78
7.8 ≤ 30 100
Totale 103 100
Chap 3-20
I Quantili
I quantili
tili sono misure
i di posizione
ii non centrale.
t l Definiamo
D fi i quantili
tili
quei valori che dividono la distribuzione ordinata di una variabile
quantitativa o qualitativa misurata su scala ordinale in un certo
numero di parti di uguale numerosità.
Vengono
g impiegati
p g quando si sintetizzano ampi
q p insiemi di dati
particolarmente sparsi.
 Terzili 2 valori ((T1, T2) che dividono la distribuzione ordinata in 3 p
parti;;
 Quartili 3 valori (Q1, Q2, Q3) che dividono la distribuzione ordinata in 4
parti;
 …
 Decili 9 valori (D1, D2, …, D9) che dividono la distribuzione ordinata in 10
parti;
 …
 Percentili 99 valori (P1, …, P99) che dividono la distribuzione ordinata in 100
parti. Chap 3-21
I Quartili
I quantili più comunemente utilizzati sono i quartili. I quartili dividono la
distribuzione ordinata in quattro parti: il primo quartile Q1 è il valore tale
per cui il 25% delle osservazioni è inferiore a Q1 e il 75% superiore; il
secondo quartile Q2 (che coincide con la mediana) è quel valore tale per
cui il 50% delle osservazioni è inferiore a Q2 e il 50% superiore; il terzo
quartile Q3 è quel valore tale per cui il 75% delle osservazioni è inferiore a
Q3 e il 25% superiore.

Per una lista di n valori individuali (distribuzione unitaria) ordinati dal più
piccolo al più grande, il calcolo dei quartili prevede inizialmente il calcolo delle
posizioni:

Posizione del primo quartile Q1 : (n+1)/4

Posizione del secondo quartile Q2 : (n+1)/2

P ii
Posizione d l terzo quartile
del il Q3 : 3( 1)/4
3(n+1)/4

Chap 3-22
Dopo aver calcolato ciascuna posizione:
 Se il risultato nel calcolo della posizione è un numero intero, si
sceglie come quartile il valore dell’osservazione
corrispondente;
 SSe il risultato
i lt t nell calcolo
l l della
d ll posizione
ii è a metà tà tra
t due
d
numeri interi (es. 2.5), si sceglie come quartile la media delle
osservazioni corrispondenti ai due numeri.
numeri
 Se il risultato nel calcolo della posizione non è né un intero né
a metà tra due numeri interi,
interi una regola semplice consiste
nell’approssimarlo per eccesso o per difetto all’intero più
vicino e scegliere come quartile il valore numerico
dell’osservazione corrispondente.

Chap 3-23
Esempio
Calcoliamo
C l li i quartili
tili per il rendimento
di t annuo dei
d i 17 fondi
f di comunii azionari
i i
che prelevano le commissioni di commercializzazione direttamente dalle
attività del fondo.
Dalla lista dei valori osservati:
32.2 29.5 29.9 32.4 30.5 30.1 32.1 35.2 10.0 20.6 28.6 30.5 38.0 33.0 29.4 37.1 28.6

O di i
Ordiniamo i valori
l i dal
d l più
iù piccolo
i l all più
iù grande
d e indichiamo
i di hi l posizioni:
le ii i
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
10.0 20.6 28.6 28.6 29.4 29.5 29.9 30.1 30.5 30.5 32.1 32.2 32.4 33.0 35.2 37.1 38.0

Calcoliamo le posizioni dei quartili:


Posizione del primo quartile Q1 : (17+1)/4=4.5 Q1=(28.6+29.4)/2=29.0

Posizione del secondo quartile Q2 : (17+1)/2=9 Q2=30.5

Posizione del terzo quartile Q3 : 3(17+1)/4=13.5 Q3=(32.4+33.0)/2=32.7

Il 25% dei fondi osservati ha registrato un rendimento annuo


inferiore a 29.0, il 50% inferiore a 30.5 e il 75% inferiore a 32.7.
Chap 3-24
Quando disponiamo della distribuzione di frequenza di una
variabile q
quantitativa o q qualitativa misurata su scala ordinale
(suddivisa in classi o non suddivisa in classi), il calcolo dei quartili
è il seguente:
 Q1 è la prima modalità o classe a cui corrisponde una
frequenza cumulata % superiore o uguale al 25%;
 Q2 è la
l prima modalità
d l à o classe
l a cui corrisponde
d una
frequenza cumulata % superiore o uguale al 50%;
 Q3 è la
l prima
i modalità
d lità o classe
l a cuii corrisponde
i d una
frequenza cumulata % superiore o uguale al 75%.

Chap 3-25
Esempio
Consideriamo la seguente
g distribuzione di frequenza
q di 195 aziende
per classi di fatturato annuale:
Fatturato N. % Fatturato Frequenze
q
(euro) aziende (euro) cumulate %
≤ 10.000 11 5.7 ≤ 10.000 5.7
10.001-20.000 33 16.9 ≤ 20.000 22.6
Q1 20.001-30.000 23 11.8 ≤ 30.000 34.4
30 001 40 000
30.001-40.000 15 77
7.7 ≤ 40.000
40 000 42 1
42.1
Q2 40.001-50.000 35 17.9 ≤ 50.000 60.0
50.001-60.000 22 11.3 ≤ 60.000 71.3
Q3 60.001-70.000 17 8.7 ≤ 70.000 80.0
70.001-80.000 21 10.8 ≤ 80.000 90.8
80 001 90 000
80.001-90.000 18 92
9.2 ≤ 90.000
90 000 100
Totale 195 100

Il primo quartile cade nella classe di fatturato (20.001


(20.001‐30.000),
30.000), il
secondo quartile (mediana) cade nella classe (40.001‐50.000) e il terzo
quartile cade nella classe (60.001‐70.000). Chap 3-26
La Moda
La moda è la modalità della variabile maggiormente osservata.

Per calcolare la moda è sufficiente calcolare la distribuzione di


frequenza della variabile. La moda è la modalità (o classe) a cui
corrisponde la frequenza assoluta o relativa (semplice o %) più alta.

La moda può essere calcolata per tutti i tipi di variabili (variabili


quantitative e variabili qualitative misurate su scala ordinale e
nominale).

L moda
La d non è influenzata
i fl t dalla
d ll presenza di valori
l i estremi.
t i

La distribuzione di una variabile può avere più mode (es. distribuzioni


bi‐modali o tendenzialmente bi‐modali).

La moda è informativa solo se vi è una netta prevalenza di una o più


modalità rispetto alle altre.
Chap 3-27
Esempio
C
Consideriamo
id i d distribuzioni
due di t ib i i di frequenza
f per una generica i bil X:
i variabile

xj nj xj nj
1 1 1 1
2 0 2 1

3 1 3 1

4 0 4 1

5 3 5 0

6 0 6 1

7 2 7 1

Totale 7 Totale 6

1 2 3 4 5 6 7 1 2 3 4 5 6 7

Moda = 5 Nessuna moda


Chap 3-28
Esempio
Produzione di circuiti stampati
n Pezzi controllati: 200
n. Pezzi controllati: 200
n. Pezzi difettosi: 56
Tipo di difetto
Tipo di difetto N.
N %
Planarità 4 7.1
Microinterruzioni 6 10.7
Altro 2 36
3.6
Fori minorati 15 26.8
Moda Difetti incisione 29 51.8
Totale pezzi difettosi
Totale pezzi difettosi 56 100 0
100.0

La moda della variabile “Tipo di difetto” è la modalità “difetti di incisione”.

Chap 3-29
Esempio
Riprendiamo ll’esempio
esempio dello studio sulla corrosione dei materiali relativo a un
campione di 55 pezzi di diverse leghe metalliche effettuato allo scopo di valutarne
la resistenza all’ossidazione, tramite la misurazione della perdita in peso su unità
di superficie e la velocità di corrosione.
corrosione

Distribuzione di frequenza della  Istogramma della variabile 
variabile
variabile “Superficie”
Superficie “Superficie”
Superficie
%
60
Superficie pezzo  Frequenze  49.1
50
(cm2) N relative %
40
10.01 – 20.00 3 5.5
20.01 – 30.00 27 49.1 30 25.4
30.01 – 40.00 14 25.4 20 14.5
40.01 – 50.01 8 14.5
10 5.5 5.5
50 01 – 60.00
50.01 – 60 00 3 55
5.5
Totale 55 100 0
10.00 20.00 30.00 40.00 50.00 60.00
Superficie
Classe Modale (20.01‐30.00)
Classe Modale (20 01 30 00)
Chap 3-30
A tti che
Aspetti h orientano
i t nella
ll scelta
lt dei
d i valori
l i medi
di

Possiamo considerare alcuni aspetti che possono


guidare nella scelta del tipo di valore medio da
utilizzare:
 la scala di misura della variabile;

 la forma della distribuzione della variabile;

 la variabilità della distribuzione;

 gli obiettivi conoscitivi.

Chap 3-31
Aspetti che orientano nella scelta dei valori medi
 La scala di misura della variabile

Scala nominale Moda

Scala ordinale Moda mediana,


Moda, mediana quantili

Scala numerica Moda, mediana, quantili, media aritmetica


Aspetti che orientano nella scelta dei valori medi
 La forma della
La forma della distribuzione della variabile

Quantili

Moda, 
mediana, quantili

Media

Mediana quantili
Mediana, quantili

Chap 3-33 Quantili


Chap 3-33
Aspetti che orientano nella scelta dei valori medi
 La variabilità
La variabilità della distribuzione
Ridotta variabilità: le misure di
tendenza centrale (media, mediana, 
moda) sono molto informative

Ampia variabilità: le misure
variabilità: le misure di tendenza centrale
(media, mediana, moda) sono meno informative; 
le misure di tendenza non centrale (q (quantili) sono
)
più informative
Chap 3-34
 Ill valore
l medio
d più
ù utilizzato
l è la
l media
d aritmetica, ma è
necessario valutare la presenza di valori estremi, la
forma e la variabilità dei dati.
dati
 La mediana è utilizzata in molte situazioni soprattuto
dal momento che risente meno della presenza di valori
estremi.
 In alcune situazioni di ricerca può essere informativo
riportare sia la media che la mediana.
 La moda è utilizzata quando ll’interesse interesse è
nell’identificare la modalità caratteristica, più comune
della variabile.
 I quantili possono essere particolarmente utili quando i
dati p
presentano ggrande variabilità e sono molto sparsi.
p

Chap 3-35

Potrebbero piacerti anche