Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Parte 3
Sintesi e descrizione delle variabili
Si t i d ii d ll i bili
mediante valori medi
mediante valori medi
Chap 3-1
Contenuti
Misure di posizione o di tendenza centrale (valori medi):
Misure di posizione o di tendenza centrale (valori medi):
• Media aritmetica
• Mediana
• Quantili
• Moda
M d
• Aspetti che orientano la scelta di un valore medio
Aspetti che orientano la scelta di un valore medio
Chap 3-2
Misure statistiche di sintesi
Per trarre delle indicazioni adeguate su un dato fenomeno di
interesse non è sufficiente rappresentare i dati mediante tabelle e
grafici di frequenza.
frequenza
Una buona analisi dei dati richiede anche che le caratteristiche
principali delle osservazioni (variabili) siano sintetizzate con
opportune misure e che tali misure siano adeguatamente analizzate
e interpretate.
Tipi di misure statistiche di sintesi:
misure di Posizione o di Tendenza centrale e non centrale
(valori medi)
misure di Variabilità
misure di Forma
Queste misure costituiscono un sistema di indicatori che
Q
descrivono l’insieme dei dati fornendo informazioni sul problema di
interesse. Chap 3-3
Valori medi
Nella maggior parte degli insiemi di dati, le osservazioni mostrano
una tendenza a raggrupparsi attorno a un valore centrale.
Risulta in genere quindi possibile selezionare un valore tipico per
descrivere, rappresentare e sintetizzare un intero insieme di dati.
Tale valore descrittivo è detto valore medio (misura di posizione o
di tendenza centrale).
centrale)
In alcune situazioni vengono identificati più valori medi (misure di
tendenza non centrale).
Tipi di valori medi:
Media aritmetica
Mediana, quantili
Moda
Chap 3-4
La Media aritmetica
La media aritmetica (anche chiamata semplicemente media) è il
valore medio più comunemente utilizzato per sintetizzare una
variabile quantitativa.
q
Disponendo della lista di valori osservati (distribuzione unitaria)
la media si calcola dividendo la somma dei valori osservati per il
numero totale di osservazioni.
La media aritmetica di un insieme di n valori x1, x2, … xn di una
variabile quantitativa X è data da:
Pronuncia x medio
i i
i‐esimo valore
l
n
x i
x1 x2 xn
x i 1
n n
Numerosità totale Valori osservati Chap 3-5
Esempio
Consideriamo un campione di 17 fondi comuni
azionari che prelevano le commissioni di
commercializzazione direttamente dalle attività
del fondo. n
xi x1 x2 xn
i 1
x
n n
332.2 299.5 ... 288.6
x 29.9
17
I 17 fondi comuni hanno un rendimento medio
percentuale
l ad
d un anno pari a 29.9.
x nj
m
x
j 1
j
x1 n1 xm nm
n n
Numerosità totale Frequenza osservata per la j‐esima modalità
Chap 3-7
Esempio
È stato osservato il numero di alberghi dotati di centro congressi in
109 Comuni, con la seguente distribuzione:
N. alberghi N. Comuni Frequenza relativa %
(xj) (nj) (fj) (pj)
0 15 0.138 13.8
1 40 0.367 36.7
2 37 0.339 33.9
3 17 0.156 15.6
Totale 109 1 100
x
0 15 1 40 2 37 3 17
109
165
x
109
x 1.5 alberghi
Il numero medio di alberghi dotati di centro congressi per comune è
pari a 1.5. Chap 3-8
Utilizzando le frequenze relative, la media aritmetica per una
distribuzione di frequenza
q di una variabile q
quantitativa non
suddivisa in classi è alternativamente data da:
x x j f j x1 f1 xm f m
m
j 1
Utilizzando le percentuali:
x pj
m
x
j 1
j
x1 p1 xm pm
100 100
Chap 3-9
Esempio
È stato osservato il numero di alberghi dotati di centro congressi in
109 Comuni, con la seguente distribuzione:
N. alberghi
N N Comuni
N. Frequenza relativa %
(xj) (nj) (fj) (pj)
0 15 0.138 13.8
1 40 0.367 36.7
2 37 0.339 33.9
3 17 0.156 15.6
Totale 109 1 100
x
0 13.8 1 36.7 2 33.9 3 15.6
100
x 1.5 alberghi
Chap 3-10
La media aritmetica per una distribuzione di frequenza di una
variabile quantitativa suddivisa in classi è data da:
x h nh
x1 n1 x k nk
x h 1
n n
Numerosità Frequenza osservata dell’h‐esima classe
t t l
totale
Chap 3-11
Esempio
Consideriamo la seguente
g distribuzione della variabile “concentrazione di
anidride solforosa” (microgrammi per metro cubo) in 103 stazioni di
rilevamento:
Concentrazione Valore N. stazioni Frequenze relative %
centrale (nj) (fj) (pj)
5.1-10
5.1 10 7.5 10 0.10 10
10.1-15 12.5 23 0.22 22
15.1-20 17.5 38 0.37 37
20.1-25 22.5 24 0.23 23
25.1-30 27.5 8 0.08 8
Totale 103 1 100
x
7.5 10 12.5 23 17.5 38 22.5 24 27.5 8 x 17.3
103
o
x 7.5 0.10 12.5 0.22 17.5 0.37 22.5 0.23 27.5 0.08 x 17.3
o
x
7.5 10 12.5 22 17.5 37 22.5 23 27.5 8 x 17.3
100 Chap 3-12
La media aritmetica è influenzata dalla presenza di valori
estremi (outlier).
(outlier)
Esempio
Consideriamo due insiemi di valori di una data variabile X:
Gruppo 1 2 3 1 5 4
Gruppo 2 4 3 1 2 10
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Media = 3 Media = 4
1 2 3 4 5 15 1 2 3 4 10 20
3 4
5 5 5 5
In presenza di valori estremi, la media aritmetica può fornire una
rappresentazione distorta dei dati ed è pertanto opportuno in questi
casi ricorrere ad altre misure di posizione. Chap 3-13
Se un insieme di n valori è suddiviso in L sottoinsiemi disgiunti,
allora la media aritmetica per gli n valori è ottenuta come media
pesata delle medie di ciascun sottoinsieme con pesi uguali alle
loro numerosità.
Esempio
In un campione di 35 aziende agricole di due province è stata calcolata
la media della superficie aziendale (in ettari) separatamente per le
aziende della provicia A (15 aziende) e della provincia B (20 aziende):
Provincia A Provincia B
Superficie media 12 3
12.3 82
8.2
(ettari)
N. aziende 15 20
x
12.3 15 8.2 20 x 10 ettari
35
Chap 3-14
La Mediana
LLa mediana
di puòò essere calcolata
l l t per variabili
i bili quantitative
tit ti e
variabili qualitative purché misurate su scala ordinale.
Chap 3-15
La mediana è meno influenzata dalla presenza di valori estremi
(outlier) rispetto alla media aritmetica.
aritmetica
Esempio
Consideriamo due insiemi di valori di una data variabile X:
Gruppo 1 2 3 1 5 4
Gruppo 2 4 3 1 2 10
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Mediana = 3 Mediana = 3
Chap 3-16
Quando disponiamo della lista di n valori individuali (distribuzione
unitaria)) ordinati dal p
più p
piccolo al p
più ggrande,, il calcolo della mediana è il
seguente:
se la numerosità totale dei valori è dispari, la mediana è il valore che
occupa la posizione centrale
n 1
Posizione della mediana nella graduatoria ordinata:
2
se la numerosità totale dei valori è pari, ci sono due valori centrali in
corrispondenza delle posizioni:
n n
; 1
2 2
se la variabile è quantitativa,
quantitativa la mediana è la media aritmetica dei
valori che occupano le due posizioni centrali; se la variabile è
qualitativa la mediana è uno dei due valori che occupano le posizioni
centrali.
centrali
n 1 n n
Si noti che ; ; 1
non sono i valori della mediana ma le
2 2 2
posizioni della mediana nella graduatoria ordinata dei valori.
Chap 3-17
Esempio
Calcoliamo la mediana per il rendimento annuo
dei 17 fondi comuni azionari che prelevano le
commissioni di commercializzazione direttamente
dalle attività del fondo.
Dalla lista dei valori osservati:
32.2 29.5 29.9 32.4 30.5 30.1 32.1 35.2 10.0 20.6 28.6 30.5 38.0 33.0 29.4 37.1 28.6
O d a o i valori
Ordiniamo a o da
dal p
più
ùppiccolo
cco o aal p
più
ù ggrande
a de e
indichiamo le posizioni:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
10 0 20
10.0 20.6
6 28
28.6
6 28
28.6
6 29
29.4
4 29
29.5
5 29
29.9
9 30
30.1
1 30
30.5
5 30
30.5
5 32
32.1
1 32
32.2
2 32
32.4
4 33
33.0
0 35
35.2
2 37
37.1
1 38
38.0
0
Essendo il numero totale dei fondi dispari (n=17) la mediana sarà il valore
che occupa
p la p
posizione ((n+1)/2=9
)/ ovvero la mediana è 30.5.
Per una lista di n valori individuali (distribuzione unitaria) ordinati dal più
piccolo al più grande, il calcolo dei quartili prevede inizialmente il calcolo delle
posizioni:
P ii
Posizione d l terzo quartile
del il Q3 : 3( 1)/4
3(n+1)/4
Chap 3-22
Dopo aver calcolato ciascuna posizione:
Se il risultato nel calcolo della posizione è un numero intero, si
sceglie come quartile il valore dell’osservazione
corrispondente;
SSe il risultato
i lt t nell calcolo
l l della
d ll posizione
ii è a metà tà tra
t due
d
numeri interi (es. 2.5), si sceglie come quartile la media delle
osservazioni corrispondenti ai due numeri.
numeri
Se il risultato nel calcolo della posizione non è né un intero né
a metà tra due numeri interi,
interi una regola semplice consiste
nell’approssimarlo per eccesso o per difetto all’intero più
vicino e scegliere come quartile il valore numerico
dell’osservazione corrispondente.
Chap 3-23
Esempio
Calcoliamo
C l li i quartili
tili per il rendimento
di t annuo dei
d i 17 fondi
f di comunii azionari
i i
che prelevano le commissioni di commercializzazione direttamente dalle
attività del fondo.
Dalla lista dei valori osservati:
32.2 29.5 29.9 32.4 30.5 30.1 32.1 35.2 10.0 20.6 28.6 30.5 38.0 33.0 29.4 37.1 28.6
O di i
Ordiniamo i valori
l i dal
d l più
iù piccolo
i l all più
iù grande
d e indichiamo
i di hi l posizioni:
le ii i
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
10.0 20.6 28.6 28.6 29.4 29.5 29.9 30.1 30.5 30.5 32.1 32.2 32.4 33.0 35.2 37.1 38.0
Chap 3-25
Esempio
Consideriamo la seguente
g distribuzione di frequenza
q di 195 aziende
per classi di fatturato annuale:
Fatturato N. % Fatturato Frequenze
q
(euro) aziende (euro) cumulate %
≤ 10.000 11 5.7 ≤ 10.000 5.7
10.001-20.000 33 16.9 ≤ 20.000 22.6
Q1 20.001-30.000 23 11.8 ≤ 30.000 34.4
30 001 40 000
30.001-40.000 15 77
7.7 ≤ 40.000
40 000 42 1
42.1
Q2 40.001-50.000 35 17.9 ≤ 50.000 60.0
50.001-60.000 22 11.3 ≤ 60.000 71.3
Q3 60.001-70.000 17 8.7 ≤ 70.000 80.0
70.001-80.000 21 10.8 ≤ 80.000 90.8
80 001 90 000
80.001-90.000 18 92
9.2 ≤ 90.000
90 000 100
Totale 195 100
L moda
La d non è influenzata
i fl t dalla
d ll presenza di valori
l i estremi.
t i
xj nj xj nj
1 1 1 1
2 0 2 1
3 1 3 1
4 0 4 1
5 3 5 0
6 0 6 1
7 2 7 1
Totale 7 Totale 6
1 2 3 4 5 6 7 1 2 3 4 5 6 7
Chap 3-29
Esempio
Riprendiamo ll’esempio
esempio dello studio sulla corrosione dei materiali relativo a un
campione di 55 pezzi di diverse leghe metalliche effettuato allo scopo di valutarne
la resistenza all’ossidazione, tramite la misurazione della perdita in peso su unità
di superficie e la velocità di corrosione.
corrosione
Distribuzione di frequenza della Istogramma della variabile
variabile
variabile “Superficie”
Superficie “Superficie”
Superficie
%
60
Superficie pezzo Frequenze 49.1
50
(cm2) N relative %
40
10.01 – 20.00 3 5.5
20.01 – 30.00 27 49.1 30 25.4
30.01 – 40.00 14 25.4 20 14.5
40.01 – 50.01 8 14.5
10 5.5 5.5
50 01 – 60.00
50.01 – 60 00 3 55
5.5
Totale 55 100 0
10.00 20.00 30.00 40.00 50.00 60.00
Superficie
Classe Modale (20.01‐30.00)
Classe Modale (20 01 30 00)
Chap 3-30
A tti che
Aspetti h orientano
i t nella
ll scelta
lt dei
d i valori
l i medi
di
Chap 3-31
Aspetti che orientano nella scelta dei valori medi
La scala di misura della variabile
Quantili
Moda,
mediana, quantili
Media
Mediana quantili
Mediana, quantili
Ampia variabilità: le misure
variabilità: le misure di tendenza centrale
(media, mediana, moda) sono meno informative;
le misure di tendenza non centrale (q (quantili) sono
)
più informative
Chap 3-34
Ill valore
l medio
d più
ù utilizzato
l è la
l media
d aritmetica, ma è
necessario valutare la presenza di valori estremi, la
forma e la variabilità dei dati.
dati
La mediana è utilizzata in molte situazioni soprattuto
dal momento che risente meno della presenza di valori
estremi.
In alcune situazioni di ricerca può essere informativo
riportare sia la media che la mediana.
La moda è utilizzata quando ll’interesse interesse è
nell’identificare la modalità caratteristica, più comune
della variabile.
I quantili possono essere particolarmente utili quando i
dati p
presentano ggrande variabilità e sono molto sparsi.
p
Chap 3-35