Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Data una distribuzione di valori osservati non sempre è ammissibile calcolare tutti e tre gli indici di
posizione. Infatti, la scelta dell’indice di tendenza centrale idoneo a descrivere una distribuzione di
valori dipende dalla natura (qualitativa o quantitativa) dei dati e dalla scala di misura adottata nel
processo di misurazione. Solo quando i dati sono di natura quantitativa e quindi misurati almeno su
una scala di intervalli, si possono calcolare tutti e tre gli indici di tendenza centrale.
La differenza principale tra gli indici risiede nel loro diverso contenuto informativo.
Gli indici sono qui di seguito elencati in ordine crescente di capacità informativa:
− la moda è l’unico indice di tendenza centrale che si può sempre calcolare, ovvero a
partire da dati misurati su scala nominale;
− la mediana si può calcolare per dati misurati almeno su scala ordinale;
− la media si può calcolare solo per dati quantitativi, misurati su scala almeno a
intervalli.
LA MODA:
∼ Unità: è il valore della variabile X osservato il maggior numero di volte;
fk n
dk = o dk = k
ak ak
MEDIE LASCHE:
Sono quelle medie la cui individuazione si basa sulla posizione occupata da uno o più degli N
termini della distribuzione ordinata di X. La più nota tra queste è la mediana.
Condizione preliminare è che la serie di valori osservati sia ordinata in una graduatoria, in senso
almeno non decrescente, tale che:
x1 ≤ x2 ≤ … ≤ xN [1]
LA MEDIANA (Me):
La mediana, di una distribuzione di valori di X, è il valore che bipartisce la graduatoria [1], in
modo da lasciare alla propria sinistra e alla propria destra lo stesso numero di termini (xi, i = 1, …,
N). Questo significa che Me è un baricentro, con il 50% di valori alla sua a sinistra e il restante 50%
alla sua destra.
La procedura per determinare la mediana varia in relazione alla tipologia della distribuzione
statistica considerata e alla numerosità delle osservazioni. A tal proposito, è importante ricordare
che:
- prima, si determina la “posizione” occupata dalla mediana, in seno alla graduatoria, e poi si
individua la mediana;
- la posizione occupata dalla mediana si determina in modo diverso, a seconda che N sia
dispari o pari.
Vediamo come si determina la Me, a partire da una distribuzione per unità.
Caso 1: ~ unità:
i. N dispari la mediana Me è quel valore osservato di X tale che:
⎛ N +1 ⎞
a. ha posizione mediana nella graduatoria pari a ⎜ ⎟ , da cui
⎝ 2 ⎠
b. M e = x⎛ N +1 ⎞
⎜ ⎟
⎝ 2 ⎠
xi = {4, 15, 10, 1, 14, 2, 16, 7, 7, 10, 10, 10, 13, 10, 14, 15, 16, 7}.
per calcolare la mediana della distribuzione per unità è necessario innanzitutto ordinare in senso
almeno non decrescente le osservazioni xi, assegnando a ciascuna di esse il proprio rango, ri:
x i: 1, 2, 4, 7, 7, 7, 10, 10, 10, 10, 10, 13, 14, 14, 15, 15, 16, 16
rango: 1°, 2°, 3°, 4°, 5°, 6°, 7°, 8°, 9°, 10°, 11°, 12°, 13°, 14°, 15°, 16°, 17°, 18°
N è pari, quindi: x⎛ N ⎞ ≤ M e ≤ x⎛ N ⎞
⎜ ⎟ ⎜ +1⎟
⎝2⎠ ⎝ 2 ⎠
10 + 10
per cui: x⎛ N ⎞ = x( 9) = 10 ; x⎛ N ⎞
= x(10) = 10 ; e Me = = 10 .
⎜ ⎟
⎝2⎠
⎜ +1⎟
⎝2 ⎠
2
Caso 2: ~ modalità:
Ci si comporta ancora in modo diverso a seconda di N pari o dispari. Si individua la posizione
occupata dalla modalità mediana di X, facendo riferimento alla colonna delle frequenze cumulate
assolute, Nk, o relative, Fk.
La mediana è, per:
N +1
- N dispari, la più piccola modalità xk, la cui frequenza cumulata è: N k ≥ e Me = xk
2
- N pari, la più piccola modalità xk la cui frequenza cumulata soddisfa una sola delle seguenti
condizioni:
N N
1. N k > e anche N k ≥ + 1 e M e = xk
2 2
N N x +x
2. oppure N k −1 = e N k ≥ + 1 e allora: IM = [xk-1, xk] e M e = k −1 k .
2 2 2
Caso 3: ~ classi:
La classe mediana (cme) può essere individuata in due modi equivalenti, o graficamente, o
analiticamente.
Graficamente è sufficiente costruire l’istogramma, ponendo sulle ordinate le frequenze relative
cumulate, Fk; successivamente si traccia la parallela all’asse delle ascisse, passante per il punto di
ordinata Fk = 0.5. La cme è quella a cui corrisponde la prima barra dell’istogramma intersecata dalla
retta.
Analiticamente si devono seguire i seguenti passi:
N
1. si calcola , sia per N dispari che per N pari;
2
N
2. si individua la cme come quella associata alla più piccola N k ≥
;
2
3. si determina la Me secondo l’ipotesi dell’istogramma, a partire dalla cme = [xk-1, xk].
L’ipotesi dell’istogramma assume l’uniforme distribuzione delle frequenze in ogni classe, per cui la
frequenza è proporzionale all’intervallo considerato:
L’area (la frequenza) della cme sta alla base (l’ampiezza) della cme come l’area compresa tra
estremo inferiore della cme e mediana sta alla sua base (il segmento di ampiezza Me – xk-1),
dove:
1. Area(cme) = frequenza di cme = nk;
2. a(cme) = ampiezza di cme = xk –xk-1;
N
3. Area[xk-1, Me] = − N k −1 ;
2
4. a[xk-1, Me] = M e − xk −1 .
Sostituendo:
⎛N ⎞
nk : ( xk − xk −1 ) = ⎜ − N k −1 ⎟ : (M e − xk −1 )
⎝2 ⎠
ed esplicitando rispetto a Me:
(xk − xk −1 )⎛⎜ N − N k −1 ⎞⎟
M e = xk −1 + ⎝2 ⎠.
nk
Esempio 3:
X = reddito da lavoro delle famiglie della provincia di Enna
unità statistiche (u.s.) = famiglie residenti in provincia di Enna;
xk: reddito della k-esima famiglia.
Caso 2: ~ classi:
si procede in modo analogo a quello visto per la determinazione della Me. Prima s’individua la
classe in cui cade ciascun quartile e poi il valore in base all’ipotesi dell’istogramma e alla nota
proporzione:
Area(Qi) : a(Qi) = Area[xk-1, Qi] : a[xk-1, Qi].
DECILI: sono 9. Il primo (d1) bipartisce la distribuzione in modo da lasciare 1/10 dei termini alla
sua sinistra e i restanti 9/10 alla sua destra. Si procede in modo analogo al calcolo dei
quartili, si considera quindi una nuova distribuzione, tale che N* sia multiplo di N e di 10.
Inoltre:
d5 = Me
PERCENTILI: sono 99. Il primo (p1) bipartisce la distribuzione in modo da lasciare 1/100 dei termini
alla sua sinistra e i restanti 99/100 alla sua destra.
∑ x −M
i =1
i e = min
LA MEDIA ARITMETICA
Una media è un indice che esprime una sintesi di una distribuzione statistica semplice.
Definizione di Chisini:
Data una distribuzione semplice di valori x1, x2, …, xi, …, xN, una media è la quantità μx (o x , in
caso di campione) che, se sostituita a ciascun termine della distribuzione, lascia inalterato il risultato
dell’applicazione della funzione f(⋅) ai termini della distribuzione stessa:
Il tipo di media cambia al variare della funzione applicata ai dati. Così, se:
1. f(⋅) = Σ(⋅) è la somma, allora:
N
f (x1, x2, …, xi, …, xN) = x1+x2+…+xi+…+xN = ∑x
i =1
i
e
f(μ, μ, …, μ, …, μ) = μ+μ+…+μ+…+μ = Nμ
N ∑x i
∑ xi = Nμ
i =1
⇒ i =1
N
=μ.
Esempio 4:
1, 2, 4, 7, 7, 7, 10, 10, 10, 10, 10, 13, 14, 14, 15, 15, 16, 16, 23, 24, 27, 27, 31, 32
N
345
N = 24, ∑ x = 345 e μ =
i =1
i
24
= 14,375 .
Quando si ha una distribuzione di valori per unità, come nel caso sopra riportato, e il numeratore è
la somma di tutte le N osservazioni xi, la media μ è la media aritmetica semplice.
Quando, invece, si ha una distribuzione di frequenza per (k) modalità e il numeratore è la somma
dei prodotti delle modalità xk per le rispettive frequenze nk, la media μ è la media aritmetica
ponderata:
K
∑x n k k
μ= k =1
K
∑n
k =1
k
nk
e dato che: fk = ⇒ μ g = x1f ⋅ x2f ⋅… xkf .
1 2 k
∑x 2
i
Mq = i =1
N
e la media quadratica per (k) modalità:
K
∑x 2
k K
Mq = k =1
N
= ∑f k =1
k xk2
i. Unicità e semplicità: per un dato insieme di osservazioni esiste una ed una sola media
aritmetica.
ii. La somma algebrica degli scarti delle osservazioni xi dallo loro media μ è uguale a zero:
N
N N N ∑x i N N
∑ ( xi − μ ) = ∑ xi − N μ = ∑ xi − ( N ⋅
i =1 i =1 i =1
i =1
N
) = ∑ xi − ∑ xi = 0
i =1 i =1
iii. La somma dei quadrati degli scarti delle osservazioni xi dalla loro media è un minimo
rispetto alla somma dei quadrati degli scarti delle xi da una qualsiasi altro valore:
N
∑ (x − μ)
i =1
i
2
= min
L’ultima è una delle proprietà più importanti della media, perché garantisce la qualità dell’indice di
variabilità associato alla media aritmetica. Questa quantità è nota come devianza.
Un limite della media aritmetica risiede nel fatto che è affetta dai valori anomali o outliers.