Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
La variabilità
Lucio Masserini
Introduzione
Il concetto di variabilità
► Per comprendere il ruolo della variabilità per qualsiasi problematica affrontata dalla Statistica,
esaminiamo un caso in cui ad una stessa media corrispondono distribuzioni molto diverse.
A B
22 23 24 25 26 27 28 22 23 24 25 26 27 28
C D
22 23 24 25 26 27 28 22 23 24 25 26 27 28
Introduzione
Il concetto di variabilità
► In termini molto generali, la variabilità di una distribuzione esprime l’attitudine delle unità di un
collettivo ad assumere diverse modalità di un carattere.
► La ragione dell’esistenza della statistica risiede nella variabilità dei dati: senza variabilità non ci
sarebbe la statistica → ad es, se tutti votassimo lo stesso partito alle elezioni, non ci sarebbero i
sondaggi, né le previsioni elettorali, se il PIL fosse sempre costante ogni anno …
► Lo studio della variabilità si rende necessario per avere una descrizione sintetica più completa di
una distribuzione, infatti:
• le medie realizzano una sintesi estrema, riassumendo in un unico valore la tendenza centrale di
una distribuzione di dati
• la variabilità quantifica la dispersione dei valori, il grado di diversità delle unità rispetto al
carattere osservato
Introduzione
Le fonti di variabilità
► La variabilità nei dati si riscontra principalmente a causa dei seguenti motivi:
• il primo, di gran lunga più frequente, si ha quando il fenomeno si manifesta su unità
differenti (ad es., pensando ad un collettivo di individui, l’altezza o il peso, i consumi, la
preferenza politica, il reddito percepito, l’occupazione, etc.)
• il secondo si presenta quando i dati statistici sono il risultato dell’osservazione ripetuta di una
stessa grandezza sullo stesso soggetto (ad es., pressione sanguigna in momenti diversi, la
scelta di consumo prima e dopo aver visto una pubblicità, etc.)
• infine, nei processi casuali (ad es., due estrazioni con reintroduzione da un’urna contenente
palline numerate da 1 a 20, etc.)
Introduzione
𝑉 𝑥1 , 𝑥2 , ⋯ , 𝑥𝑖 , ⋯ , 𝑥𝑁 ≥ 0
• assumono un valore uguale a zero se tutte le unità presentano la stessa modalità del carattere →
variabilità nulla per ogni costante 𝑐
𝑉 𝑐, 𝑐, ⋯ , 𝑐, ⋯ , 𝑐 = 0
• devono essere invarianti rispetto a traslazioni
𝑉 𝑥1 , 𝑥2 , ⋯ , 𝑥𝑖 , ⋯ , 𝑥𝑁 = 𝑉 𝑥1 + 𝑐, 𝑥2 + 𝑐, ⋯ , 𝑥𝑖 + 𝑐, ⋯ , 𝑥𝑁 + 𝑐
• aumentano al crescere della “diversità” tra le modalità assunte dalle varie unità
Introduzione
Il campo di variazione
► Il campo di variazione (o range) è dato dalla differenza tra il valore più grande, 𝑥(𝑚𝑎𝑥) , e quello
più piccolo, 𝑥(𝑚𝑖𝑛) , di un insieme di dati:
𝑅 = 𝑥(𝑚𝑎𝑥) − 𝑥(𝑚𝑖𝑛)
5 4 3 1 1 5 6 2 3 4 5 1
𝑅 = 𝑥(𝑚𝑎𝑥) − 𝑥(𝑚𝑖𝑛) = 6 − 1 = 5
Indici di variabilità
La differenza interquartile
► La differenza interquartile (o intervallo interquartile) è data dalla differenza tra il terzo (𝑄0,75 ) ed il
primo quartile (𝑄0,25 ):
15 12 13 5 10 11 8 9 14 3 16 7 6
La varianza
► La varianza di una distribuzione unitaria è la media degli scarti al quadrato:
2 2 2 2 𝑁
𝑥1 − 𝜇 + 𝑥2 − 𝜇 + ⋯ + 𝑥𝑖 − 𝜇 + ⋯ + 𝑥𝑁 − 𝜇 1
𝜎2 = = 𝑥𝑖 − 𝜇 2
𝑁 𝑁
𝑖=1
𝑖=1
𝐷𝐸𝑉 = 𝑁𝜎 2
Indici di variabilità
𝐾
2
1 2
𝜎 = 𝑥𝑗 − 𝜇 𝑛𝑗
𝑁
𝑗=1
𝐾
2
𝜎2 = 𝑥𝑗 − 𝜇 𝑓𝑗
𝑗=1
Indici di variabilità
La varianza: esempio 1
► I seguenti valori si riferiscono al numero di acquisti su un sito e-commerce da parte di 14 clienti.
Calcolare la varianza.
2 5 4 3 1 1 5 6 2 3 4 5 1 2
Si calcola la varianza:
𝑁 2 2 2 2
2
1 2
2 − 3,14 + 5 − 3,14 + 4 − 3,14 + ⋯ + 2 − 3,14
𝜎 = 𝑥𝑖 − 𝜇 = = 2,69
𝑁 14
𝑖=1
Indici di variabilità
La varianza: esempio 2
► I valori riportati nella tabella seguente si riferiscono alla quantità di energia (misurata in kcal)
contenuta in alcuni alimenti. Calcolare la varianza.
Alimento (Kcal) Per agevolare i calcoli, è utile costruire le colonne degli scarti e
Pane 276 degli scarti al quadrato
Alimento 𝒙𝒊 𝒙𝒊 − 𝛍𝑿 (𝒙𝒊 −𝛍𝑿 )𝟐
Grissini 433
Pane 276 −90,25 8145,06
Crackers 428
Grissini 433 66,75 4455,56
Fette bisc. 410
Crackers 428 61,75 3813,06
Biscotti 418
Fette bisc. 410 43,75 1914,06
Pasta 356 Biscotti 418 51,75 2678,06
Riso 362 Pasta 356 −10,25 105,06
Pizza 247 Riso 362 −4,25 18,06
Pizza 247 −119,25 14200,56
Totale 𝟐𝟗𝟑𝟎 𝟑𝟓𝟑𝟒𝟗, 𝟓𝟎
Indici di variabilità
la media aritmetica:
𝑁
1 1
𝜇 = 𝑥𝑖 = 2930 = 366,25
𝑁 8 Alimento 𝒙𝒊 𝒙𝒊 − 𝛍𝑿 (𝒙𝒊 −𝛍𝑿 )𝟐
𝑖=1
Pane 276 −90,25 8145,06
Numero di Frequenza
viaggi assoluta
𝒙𝒋 𝒏𝒋
0 4
1 2
2 6
3 2
4 1 Innanzitutto si calcola la media aritmetica:
𝐾
1 1 24
𝜇 = 𝑥𝑗 𝑛𝑗 = 0∙4+1∙2+2∙6+3∙2+4∙1 = = 1,6
𝑁 15 15
𝑗=1
Indici di variabilità
La varianza: caratteristiche
► La varianza presenta alcune caratteristiche:
• è calcolata considerando tutte le modalità (o valori) del carattere
• è ottenuta come media di scarti elevati al quadrato, quindi
non può mai assumere un valore negativo
i valori più distanti dalla media acquistano un peso maggiore rispetto a quelli più vicini,
pertanto, eventuali valori anomali tendono ad assumere maggiore importanza (molto di più
di quanto avviene nella media aritmetica)
l’unità di misura non coincide con l’unità di misura dei dati ma con l’unità di misura al
quadrato; ad es., m → m2, kg → kg2, € → €2 (ma queste grandezze non esistono!)
Indici di variabilità
𝑁
1 2
𝜎= 𝑥𝑖 − 𝜇
𝑁
𝑖=1
► E’ la misura di variabilità più utilizzata poiché è espressa nella stessa unità di misura del carattere.
Tuttavia, anche questa misura è molto sensibile ai valori anomali. Nel caso di una distribuzione di
frequenze (assolute o relative):
𝐾 𝐾
1 2 2
𝜎= 𝑥𝑗 − 𝜇 𝑛𝑗 𝜎= 𝑥𝑗 − 𝜇 𝑓𝑗
𝑁
𝑗=1 𝑗=1
Indici di variabilità
2 5 4 3 1 1 5 6 2 3 4 5 1 2
𝑁
1 2 − 3,14 2 + 5 − 3,14 2 + 4 − 3,14 2 + ⋯ + 2 − 3,14 2
𝜎= 𝑥𝑖 − 𝜇 2 = = 1,64
𝑁 14
𝑖=1
Questo significa che il numero di acquisti si discosta mediamente di 1,64, in più o in meno, dalla
media aritmetica (3,14).
Indici di variabilità
A
µ = 15,5
11 12 13 14 15 16 17 18 19 20 21 𝜎 = 3,312
µ = 15,5
11 12 13 14 15 16 17 18 19 20 21 𝜎 = 0,866
µ = 15,5
11 12 13 14 15 16 17 18 19 20 21 𝜎 = 4,272
Indici di variabilità
𝐾
1 2
𝜎≈ 𝑐𝑗 − 𝜇 𝑛𝑗
𝑁
𝑗=1
Indici di variabilità
𝐾
2
1 2 1 2 2 2
𝜎 ≈ 𝑐𝑗 − 𝜇 𝑛𝑗 = 2 − 2,55 ∙ 8 + 4 − 2,55 ∙ 1 + 5,5 − 2,55 ∙ 1 = 1,3225
𝑁 10
𝑗=1
𝜎= 𝜎2 = 1,3225 = 1,15
Indici di variabilità
2 5 4 3 1 1 5 6 2 3 4 5 1 2
Si calcola la media aritmetica:
𝑁
1 2 + 5 + 4 + ⋯+ 2
𝜇 = 𝑥𝑖 = = 3, 14
𝑁 14
𝑖=1
𝜎= 𝜎2 = 2,69 = 1,64
Indici di variabilità
𝐾
1 2 1 2 78,25
𝜎2 2
≈ 𝑐𝑗 𝑛𝑗 − 𝜇 = 2 2 2
2 ∙ 8 + 4 ∙ 1 + 5,5 ∙ 1 − 2,55 = − 6,50 = 1,325
𝑁 10 10
𝑗=1
𝜎= 𝜎2 = 1,325 = 1,151
Indici di variabilità
Non conoscendo i valori della distribuzione, si possono calcolare la varianza e lo scarto quadratico
medio utilizzando la formula indiretta. Per questo, si calcola innanzitutto la media aritmetica:
𝑁
1 1
𝜇= 𝑥𝑖 = 35 = 5
𝑁 7
𝑖=1
𝑁
1 2 1
Pertanto: 𝜎 = 𝑥𝑖 − 𝜇 = 213 − 52 = 5,428571
2 2
𝑁 7
𝑖=1
𝐷𝐸𝑉
𝜎= 𝜎2 =
𝑁
dove:
𝑁 𝑁
Il coefficiente di variazione
► Il coefficiente di variazione è dato dal rapporto tra lo scarto quadratico medio e il valore assoluto
della media aritmetica:
𝜎
𝐶𝑉 = × 100 𝜇≠0
𝜇
► Il coefficiente di variazione (𝐶𝑉) indica che la variabilità relativa è più elevata a Rimini.
Teoremi
1
𝑓 𝜇 − 𝑘𝜎 ≤ 𝑥𝑖 ≤ 𝜇 + 𝑘𝜎 ≥ 1 − 2
𝑘
dove:
𝑓 è la frequenza relativa dei valori compresi nell’intervallo
𝜇 − 𝑘𝜎; 𝜇 + 𝑘𝜎
Teoremi
Pertanto, la percentuale di clienti che hanno speso una cifra compresa fra 17,3 𝑒 37,7 euro è
almeno pari al 55,6%, vale a dire più della metà.
Teoremi
Il teorema di Markov
► Dato una carattere 𝑋 che assume solo valori non negativi 𝑥𝑖 , dei quali è nota la media aritmetica µ, e
dato un qualsiasi valore 𝑎 > 0, possiamo affermare che:
𝜇
𝑓 𝑋≥𝑎 ≤
𝑎
dove:
𝑓 è la frequenza relativa dei valori che soddisfano la condizione all’interno della parentesi
► Dal teorema di Markov si ricava la frazione massima di unità (frequenza relativa) con modalità pari o
superiori ad un valore soglia arbitrario.
► Il teorema si può applicare solo per caratteri che presentano valori non negativi.
Teoremi
𝜇
𝑓 𝑋≥𝑎 ≤
𝑎
27,5
𝑓 𝑋 ≥ 35 ≤ ⟹ 𝑓 𝑋 ≥ 35 ≤ 0,786
35
Pertanto, la percentuale di clienti che hanno speso almeno 35 euro sono non più del 78,6%.