Sei sulla pagina 1di 41

Statistica (corso E)

Anno accademico 2022-’23

La variabilità

Lucio Masserini
Introduzione

Il concetto di variabilità
► Per comprendere il ruolo della variabilità per qualsiasi problematica affrontata dalla Statistica,
esaminiamo un caso in cui ad una stessa media corrispondono distribuzioni molto diverse.
A B

22 23 24 25 26 27 28 22 23 24 25 26 27 28

C D

22 23 24 25 26 27 28 22 23 24 25 26 27 28
Introduzione

Il concetto di variabilità
► In termini molto generali, la variabilità di una distribuzione esprime l’attitudine delle unità di un
collettivo ad assumere diverse modalità di un carattere.
► La ragione dell’esistenza della statistica risiede nella variabilità dei dati: senza variabilità non ci
sarebbe la statistica → ad es, se tutti votassimo lo stesso partito alle elezioni, non ci sarebbero i
sondaggi, né le previsioni elettorali, se il PIL fosse sempre costante ogni anno …
► Lo studio della variabilità si rende necessario per avere una descrizione sintetica più completa di
una distribuzione, infatti:
• le medie realizzano una sintesi estrema, riassumendo in un unico valore la tendenza centrale di
una distribuzione di dati
• la variabilità quantifica la dispersione dei valori, il grado di diversità delle unità rispetto al
carattere osservato
Introduzione

Le fonti di variabilità
► La variabilità nei dati si riscontra principalmente a causa dei seguenti motivi:
• il primo, di gran lunga più frequente, si ha quando il fenomeno si manifesta su unità
differenti (ad es., pensando ad un collettivo di individui, l’altezza o il peso, i consumi, la
preferenza politica, il reddito percepito, l’occupazione, etc.)
• il secondo si presenta quando i dati statistici sono il risultato dell’osservazione ripetuta di una
stessa grandezza sullo stesso soggetto (ad es., pressione sanguigna in momenti diversi, la
scelta di consumo prima e dopo aver visto una pubblicità, etc.)
• infine, nei processi casuali (ad es., due estrazioni con reintroduzione da un’urna contenente
palline numerate da 1 a 20, etc.)
Introduzione

Indici di variabilità: requisiti


► Gli indici di variabilità misurano il grado di diversità delle unità di un collettivo rispetto alle modalità
di un carattere. Tali indici devono soddisfare almeno i seguenti requisiti:
• assumono un valore maggiore o uguale a zero

𝑉 𝑥1 , 𝑥2 , ⋯ , 𝑥𝑖 , ⋯ , 𝑥𝑁 ≥ 0
• assumono un valore uguale a zero se tutte le unità presentano la stessa modalità del carattere →
variabilità nulla per ogni costante 𝑐

𝑉 𝑐, 𝑐, ⋯ , 𝑐, ⋯ , 𝑐 = 0
• devono essere invarianti rispetto a traslazioni

𝑉 𝑥1 , 𝑥2 , ⋯ , 𝑥𝑖 , ⋯ , 𝑥𝑁 = 𝑉 𝑥1 + 𝑐, 𝑥2 + 𝑐, ⋯ , 𝑥𝑖 + 𝑐, ⋯ , 𝑥𝑁 + 𝑐
• aumentano al crescere della “diversità” tra le modalità assunte dalle varie unità
Introduzione

Indici di variabilità: tipologie


► I principali indici di variabilità che si possono calcolare per caratteri quantitativi (o variabili
quantitative) si distinguono in assoluti e relativi.

Indici assoluti di variabilità:


• Campo di variazione o range
• Differenza interquartile (IQR)
• Varianza
• Scarto quadratico medio (sqm) o deviazione standard

Indici relativi di variabilità:


• Coefficiente di variazione
Indici di variabilità

Il campo di variazione
► Il campo di variazione (o range) è dato dalla differenza tra il valore più grande, 𝑥(𝑚𝑎𝑥) , e quello
più piccolo, 𝑥(𝑚𝑖𝑛) , di un insieme di dati:

𝑅 = 𝑥(𝑚𝑎𝑥) − 𝑥(𝑚𝑖𝑛)

► E’ un indice molto semplice ma anche grossolano, e presenta alcuni difetti:


• dipende solo dai due valori estremi → assume lo stesso valore per tutte le distribuzioni che
hanno gli stessi estremi, indipendentemente dai valori degli altri termini
• è fortemente influenzato dai valori anomali
• quando il carattere è suddiviso in classi, si calcola come differenza tra l’estremo superiore
dell’ultima classe e l’estremo inferiore della prima classe
Indici di variabilità

Il campo di variazione: esempio


► Supponiamo di voler calcolare il campo di variazione del carattere «Numero di acquisti online»
effettuati da un collettivo di 12 utenti registrati in un portale di e-commerce:

5 4 3 1 1 5 6 2 3 4 5 1

I valori estremi sono: 𝑥(𝑚𝑖𝑛) = 1 e 𝑥(𝑚𝑎𝑥) = 6

𝑅 = 𝑥(𝑚𝑎𝑥) − 𝑥(𝑚𝑖𝑛) = 6 − 1 = 5
Indici di variabilità

La differenza interquartile
► La differenza interquartile (o intervallo interquartile) è data dalla differenza tra il terzo (𝑄0,75 ) ed il
primo quartile (𝑄0,25 ):

𝐼𝑄𝑅 = 𝑄0,75 − 𝑄0,25

► E’ una misura più complessa rispetto al campo di variazione:


• rappresenta il campo di variazione del 50% dei valori centrali della distribuzione
• non risente della eventuale presenza di valori anomali
Indici di variabilità

La differenza interquartile: esempio


► In una indagine è stato rilevato il numero di dipendenti di 13 start-up:

15 12 13 5 10 11 8 9 14 3 16 7 6

Soluzione: si ordinano i dati


3 5 6 7 8 9 10 11 12 13 14 15 16

• Il primo quartile 𝑄 0,25 : 𝑞 ∙ 𝑁 = 0,25 ∙ 13 = 3,25


𝑄(0,25) = 𝑥 𝑞𝑁 +1 =𝑥 3,25 +1 =𝑥 3+1 =𝑥 4 =7

• Il terzo quartile 𝑄 0,75 : 𝑞 ∙ 𝑁 = 0,75 ∙ 13 = 9,75


𝑄(0,75) = 𝑥 𝑞𝑁 +1 =𝑥 9,75 +1 =𝑥 9+1 =𝑥 10 = 13

𝐼𝑄𝑅 = 𝑄0,75 − 𝑄0,25 = 13 − 7 = 6


Indici di variabilità

Gli indici basati sugli scarti dalla media


► Tra gli indici di variabilità, assumono una notevole importanza quelli basati sugli scarti dalla media
aritmetica, 𝑥1 − 𝜇, 𝑥2 − 𝜇, ⋯ , 𝑥𝑁 − 𝜇. Gli indici più noti ottenuti sintetizzando le differenze tra i
singoli valori e la media aritmetica sono:
• varianza
• scarto quadratico medio (o deviazione standard)
Indici di variabilità

La varianza
► La varianza di una distribuzione unitaria è la media degli scarti al quadrato:

2 2 2 2 𝑁
𝑥1 − 𝜇 + 𝑥2 − 𝜇 + ⋯ + 𝑥𝑖 − 𝜇 + ⋯ + 𝑥𝑁 − 𝜇 1
𝜎2 = = ෍ 𝑥𝑖 − 𝜇 2
𝑁 𝑁
𝑖=1

► Il numeratore della varianza si definisce devianza: 𝐷𝐸𝑉 = ෍ 𝑥𝑖 − 𝜇 2

𝑖=1

𝐷𝐸𝑉 = 𝑁𝜎 2
Indici di variabilità

La varianza per distribuzioni di frequenze


► La varianza di una distribuzione di frequenze assolute di un carattere con 𝐾 modalità:

𝐾
2
1 2
𝜎 = ෍ 𝑥𝑗 − 𝜇 𝑛𝑗
𝑁
𝑗=1

► La varianza di una distribuzione di frequenze relative:

𝐾
2
𝜎2 = ෍ 𝑥𝑗 − 𝜇 𝑓𝑗
𝑗=1
Indici di variabilità

La varianza: esempio 1
► I seguenti valori si riferiscono al numero di acquisti su un sito e-commerce da parte di 14 clienti.
Calcolare la varianza.

2 5 4 3 1 1 5 6 2 3 4 5 1 2

Si calcola la media aritmetica:


𝑁
1 2 + 5 + 4 + ⋯+ 2
𝜇 = ෍ 𝑥𝑖 = = 3,14
𝑁 14
𝑖=1

Si calcola la varianza:
𝑁 2 2 2 2
2
1 2
2 − 3,14 + 5 − 3,14 + 4 − 3,14 + ⋯ + 2 − 3,14
𝜎 = ෍ 𝑥𝑖 − 𝜇 = = 2,69
𝑁 14
𝑖=1
Indici di variabilità

La varianza: esempio 2
► I valori riportati nella tabella seguente si riferiscono alla quantità di energia (misurata in kcal)
contenuta in alcuni alimenti. Calcolare la varianza.

Alimento (Kcal) Per agevolare i calcoli, è utile costruire le colonne degli scarti e
Pane 276 degli scarti al quadrato
Alimento 𝒙𝒊 𝒙𝒊 − 𝛍𝑿 (𝒙𝒊 −𝛍𝑿 )𝟐
Grissini 433
Pane 276 −90,25 8145,06
Crackers 428
Grissini 433 66,75 4455,56
Fette bisc. 410
Crackers 428 61,75 3813,06
Biscotti 418
Fette bisc. 410 43,75 1914,06
Pasta 356 Biscotti 418 51,75 2678,06
Riso 362 Pasta 356 −10,25 105,06
Pizza 247 Riso 362 −4,25 18,06
Pizza 247 −119,25 14200,56
Totale 𝟐𝟗𝟑𝟎 𝟑𝟓𝟑𝟒𝟗, 𝟓𝟎
Indici di variabilità

La varianza: esempio 2 (continua)


► Dai dati contenuti nella nuova tabella, si ottengono agevolmente:

la media aritmetica:
𝑁
1 1
𝜇 = ෍ 𝑥𝑖 = 2930 = 366,25
𝑁 8 Alimento 𝒙𝒊 𝒙𝒊 − 𝛍𝑿 (𝒙𝒊 −𝛍𝑿 )𝟐
𝑖=1
Pane 276 −90,25 8145,06

la varianza: Grissini 433 66,75 4455,56


Crackers 428 61,75 3813,06
𝑁
1 35349,50 Fette bisc. 410 43,75 1914,06
𝜎2 = ෍ 𝑥𝑖 − 𝜇 2 = = 4418,688
𝑁 8 Biscotti 418 51,75 2678,06
𝑖=1
Pasta 356 −10,25 105,06
Riso 362 −4,25 18,06
Pizza 247 −119,25 14200,56
Totale 𝟐𝟗𝟑𝟎 𝟑𝟓𝟑𝟒𝟗, 𝟓𝟎
Indici di variabilità

La varianza per distribuzioni di frequenze: esempio 1


► La tabella riporta la distribuzione del numero di viaggi effettuati in un anno da parte di 15 studenti.
Calcolare la varianza.

Numero di Frequenza
viaggi assoluta
𝒙𝒋 𝒏𝒋
0 4
1 2
2 6
3 2
4 1 Innanzitutto si calcola la media aritmetica:
𝐾
1 1 24
𝜇 = ෍ 𝑥𝑗 𝑛𝑗 = 0∙4+1∙2+2∙6+3∙2+4∙1 = = 1,6
𝑁 15 15
𝑗=1
Indici di variabilità

La varianza per distribuzioni di frequenze: esempio 1 (continua)


► Per agevolare i calcoli, è utile costruire le colonne degli scarti e degli scarti al quadrato,
moltiplicando per le rispettive frequenze:

𝒙𝒋 𝒏𝒋 𝒙𝒋 − 𝛍𝑿 (𝒙𝒋 −𝛍𝑿 )𝟐 (𝒙𝒋 −𝛍𝑿 )𝟐 𝒏𝒋


0 4 −1,6 2,56 10,24
1 2 −0,6 0,36 0,72
2 6 0,4 0,16 0,96
3 2 1,4 1,96 3,92
4 1 2,4 5,76 5,76
Totale 𝟏𝟓 𝟐𝟏, 𝟔

Dai dati contenuti nella tabella, è agevole calcolare la varianza:


𝐾
2
1 2 1
𝜎 = ෍ 𝑥𝑗 − 𝜇 𝑛𝑗 = ∙ 21,6 = 1,44
𝑁 15
𝑗=1
Indici di variabilità

La varianza: caratteristiche
► La varianza presenta alcune caratteristiche:
• è calcolata considerando tutte le modalità (o valori) del carattere
• è ottenuta come media di scarti elevati al quadrato, quindi
 non può mai assumere un valore negativo
 i valori più distanti dalla media acquistano un peso maggiore rispetto a quelli più vicini,
pertanto, eventuali valori anomali tendono ad assumere maggiore importanza (molto di più
di quanto avviene nella media aritmetica)
 l’unità di misura non coincide con l’unità di misura dei dati ma con l’unità di misura al
quadrato; ad es., m → m2, kg → kg2, € → €2 (ma queste grandezze non esistono!)
Indici di variabilità

Lo scarto quadratico medio


► Lo scarto quadratico medio (sqm) o deviazione standard di un insieme di 𝑁 valori (distribuzione
unitaria) si ottiene calcolando la radice quadrata della varianza.

𝑁
1 2
𝜎= ෍ 𝑥𝑖 − 𝜇
𝑁
𝑖=1

► E’ la misura di variabilità più utilizzata poiché è espressa nella stessa unità di misura del carattere.
Tuttavia, anche questa misura è molto sensibile ai valori anomali. Nel caso di una distribuzione di
frequenze (assolute o relative):

𝐾 𝐾
1 2 2
𝜎= ෍ 𝑥𝑗 − 𝜇 𝑛𝑗 𝜎= ෍ 𝑥𝑗 − 𝜇 𝑓𝑗
𝑁
𝑗=1 𝑗=1
Indici di variabilità

Lo scarto quadratico medio: esempio


► Riprendendo i dati riferiti al numero di acquisti sul sito e-commerce effettuati da 14 clienti, calcolare
lo scarto quadratico medio.

2 5 4 3 1 1 5 6 2 3 4 5 1 2

Soluzione: ricordando che la media aritmetica è 3,14 si ottiene:

𝑁
1 2 − 3,14 2 + 5 − 3,14 2 + 4 − 3,14 2 + ⋯ + 2 − 3,14 2
𝜎= ෍ 𝑥𝑖 − 𝜇 2 = = 1,64
𝑁 14
𝑖=1

Questo significa che il numero di acquisti si discosta mediamente di 1,64, in più o in meno, dalla
media aritmetica (3,14).
Indici di variabilità

Lo scarto quadratico medio: interpretazione


► Lo scarto quadratico medio è interpretabile come distanza tipica dei valori dalla media aritmetica.

A
µ = 15,5
11 12 13 14 15 16 17 18 19 20 21 𝜎 = 3,312

µ = 15,5
11 12 13 14 15 16 17 18 19 20 21 𝜎 = 0,866

µ = 15,5
11 12 13 14 15 16 17 18 19 20 21 𝜎 = 4,272
Indici di variabilità

Varianza e scarto quadratico medio per distribuzioni in classi


► Quando i dati sono raggruppati in classi, occorre determinare prima i valori centrali delle classi.
L’utilizzo dei valori centrali introduce un’approssimazione.
• La varianza:
𝐾
1 2
𝜎2 ≈ ෍ 𝑐𝑗 − 𝜇 𝑛𝑗
𝑁
𝑗=1

• Lo scarto quadratico medio:

𝐾
1 2
𝜎≈ ෍ 𝑐𝑗 − 𝜇 𝑛𝑗
𝑁
𝑗=1
Indici di variabilità

Varianza e scarto quadratico medio per distribuzioni in classi: esempio


► La tabella riporta il numero di componenti di 10 famiglie. Calcolare lo scarto quadratico medio.

Numero di Frequenza assoluta Valore centrale


componenti 𝒏𝒋 𝒄𝒋
[1 , 3) 8 2
[3 , 5) 1 4
[5 , 6) 1 5,5
Totale 10 −
𝐾
1 1
𝜇 ≈ ෍ 𝑐𝑗 𝑛𝑗 = 2 ∙ 8 + 4 ∙ 1 + 5,5 ∙ 1 = 2,55
𝑁 10
𝑗=1

𝐾
2
1 2 1 2 2 2
𝜎 ≈ ෍ 𝑐𝑗 − 𝜇 𝑛𝑗 = 2 − 2,55 ∙ 8 + 4 − 2,55 ∙ 1 + 5,5 − 2,55 ∙ 1 = 1,3225
𝑁 10
𝑗=1

𝜎= 𝜎2 = 1,3225 = 1,15
Indici di variabilità

Il calcolo semplificato della varianza


► La varianza si può calcolare come differenza tra la media quadratica al quadrato e la media aritmetica
al quadrato:
𝑁
1
𝜎 = ෍ 𝑥𝑖2 − 𝜇2 = 𝑄 2 − 𝜇2
2
𝑁
𝑖=1

► Nel caso di una distribuzione di frequenze assolute o relative:


𝐾 𝐾
1
𝜎2 = ෍ 𝑥𝑗2 𝑛𝑗 − 𝜇2 𝜎 2 = ෍ 𝑥𝑗2 𝑓𝑗 − 𝜇2
𝑁
𝑗=1 𝑗=1

► Nel caso di una distribuzione di frequenze di un carattere suddiviso in classi:


𝐾 𝐾
1
𝜎 ≈ ෍ 𝑐𝑗2 𝑛𝑗 − 𝜇2
2
𝜎 2 ≈ ෍ 𝑐𝑗2 𝑓𝑗 − 𝜇2
𝑁
𝑗=1 𝑗=1
Indici di variabilità

Calcolo semplificato della varianza: esempio 1


► Riprendendo i dati riferiti al numero di acquisti sul sito e-commerce effettuati da 14 clienti, calcolare
la varianza utilizzando il metodo semplificato.

2 5 4 3 1 1 5 6 2 3 4 5 1 2
Si calcola la media aritmetica:
𝑁
1 2 + 5 + 4 + ⋯+ 2
𝜇 = ෍ 𝑥𝑖 = = 3, 14
𝑁 14
𝑖=1

Si calcolano la varianza e lo scarto quadratico medio:


𝑁
1 2 1 2 176
𝜎2 2
= ෍ 𝑥𝑖 − 𝜇 = 2 2 2 2 2 2
2 + 5 + 4 + 3 + ⋯ + 1 + 2 − 3,14 = − 9,88 = 2,69
𝑁 14 14
𝑖=1

𝜎= 𝜎2 = 2,69 = 1,64
Indici di variabilità

Calcolo semplificato della varianza: esempio 2


► Quando il carattere è suddiviso in classi.

Numero di Frequenza assoluta Valore centrale


componenti 𝒏𝒋 𝒄𝒋
[1 , 3) 8 2
[3 , 5) 1 4 𝐾
1
[5 , 6) 1 5,5 𝜇≈ ෍ 𝑐𝑗 𝑛𝑗 = 2,55
𝑁
𝑗=1
Totale 10 −

𝐾
1 2 1 2 78,25
𝜎2 2
≈ ෍ 𝑐𝑗 𝑛𝑗 − 𝜇 = 2 2 2
2 ∙ 8 + 4 ∙ 1 + 5,5 ∙ 1 − 2,55 = − 6,50 = 1,325
𝑁 10 10
𝑗=1

𝜎= 𝜎2 = 1,325 = 1,151
Indici di variabilità

Calcolo semplificato della varianza: esempio 3


► Calcolare la varianza e lo scarto quadratico medio di un carattere 𝑋 osservato in un collettivo di 𝑁 =
7 unità del quale si conoscono i seguenti valori di sintesi: σ𝑁 2 𝑁
𝑖=1 𝑥𝑖 = 213 e σ𝑖=1 𝑥𝑖 = 35.

Non conoscendo i valori della distribuzione, si possono calcolare la varianza e lo scarto quadratico
medio utilizzando la formula indiretta. Per questo, si calcola innanzitutto la media aritmetica:
𝑁
1 1
𝜇= ෍ 𝑥𝑖 = 35 = 5
𝑁 7
𝑖=1

𝑁
1 2 1
Pertanto: 𝜎 = ෍ 𝑥𝑖 − 𝜇 = 213 − 52 = 5,428571
2 2
𝑁 7
𝑖=1

Infine: 𝜎 = 𝜎2 = 5,428571 = 2,329929


Indici di variabilità

Varianza, scarto quadratico medio e devianza


► Riassumendo, scarto quadratico medio, varianza e devianza sono legate dalla seguente relazione:

𝐷𝐸𝑉
𝜎= 𝜎2 =
𝑁

dove:
𝑁 𝑁

𝐷𝐸𝑉 = 𝑁𝜎 2 = ෍ 𝑥𝑖 − 𝜇 2 = ෍ 𝑥𝑖2 − 𝑁𝜇2


𝑖=1 𝑖=1
Indici di variabilità

Le proprietà della varianza e dello scarto quadratico medio


► Le principali proprietà della varianza e dello scarto quadratico medio sono:

Varianza Scarto quadratico


medio

1 Non negatività: 𝜎2 ≥ 0 𝜎≥0

2 Data una costante 𝑐: 𝜎𝑐2 = 0 𝜎𝑐 = 0

3 Invarianza rispetto a traslazioni: 𝑌 = 𝑋 ± 𝑏 → 𝜎𝑌2 = 𝜎𝑋2 𝜎𝑌 = 𝜎𝑋

4 Omogeneità: 𝑌 = 𝑎 ∙ 𝑋 → 𝜎𝑌2 = 𝑎2 𝜎𝑋2 𝜎𝑌 = 𝑎 𝜎𝑋


Indici di variabilità

Indici di posizione e variabilità


► Le medie e le misure di variabilità si possono leggere congiuntamente per riassumere le
caratteristiche di una distribuzione. Infatti, le medie realizzano una sintesi estrema e informano
sull’ordine di grandezza (tendenza centrale dei dati). La variabilità quantifica la dispersione dei
valori, ovvero il grado di diversità delle unità rispetto al carattere osservato.
► In generale, una media è tanto più rappresentativa di una distribuzione quanto minore è il
grado di variabilità, cioè quanto più i valori sono concentrati intorno alla media.
► La scelta degli indici per sintetizzare una distribuzione dipende anche dai dati. In generale, la media
aritmetica e lo scarto quadratico medio sono più adatti se la distribuzione è piuttosto simmetrica,
unimodale e non presenta valori anomali. Invece, la mediana e lo scarto interquartile si dovrebbero
utilizzare se la distribuzione presenta valori anomali o è (fortemente) asimmetrica.
Indici di variabilità

Confrontare la variabilità di distribuzioni differenti


► La varianza e lo scarto quadratico medio sono indici assoluti di variabilità, poiché sono espressi nella
stessa unità di misura del carattere e risentono dell’ordine di grandezza dei dati. Pertanto, non sono
adatti per confrontare la variabilità in due distribuzioni differenti quando:
• le distribuzioni sono espresse con unità di misura diverse → altezza (cm) vs peso (kg)
• le distribuzioni, pur essendo espresse nella stessa unità di misura, hanno ordini di grandezza
differenti (riflessi dalla media aritmetica) → ad es., altezza (cm) in un collettivo di adulti
rispetto all’altezza in un collettivo di neonati
Indici di variabilità

Il coefficiente di variazione
► Il coefficiente di variazione è dato dal rapporto tra lo scarto quadratico medio e il valore assoluto
della media aritmetica:
𝜎
𝐶𝑉 = × 100 𝜇≠0
𝜇

► Il coefficiente di variazione è un indice relativo di variabilità, ed è utile per confrontare la


variabilità tra distribuzioni o caratteri differenti:
• è un numero puro, in quanto non dipende né dall’unità di misura né dall’ordine di grandezza
• misura lo scarto quadratico medio rispetto alla media; tanto maggiore è lo scarto quadratico
rispetto alla media e tanto meno la media è rappresentativa della distribuzione
Indici di variabilità

Il coefficiente di variazione: esempio 1


► Supponiamo di voler confrontare la variabilità della spesa (in €) sostenuta da due gruppi di turisti che
hanno trascorso la medesima settimana dell’anno, nelle località di Porto Cervo e Rimini, in due
alberghi di pari categoria.

• Porto Cervo: 3200 2750 2960 3410 3260 2120

• Rimini: 1100 750 1440 570 1560 1320 860 1480

Si calcola la media e lo scarto quadratico medio delle due distribuzioni:

𝜇𝑃𝐶 = 2950 𝜇𝑅𝐶 = 1135

𝜎𝑃𝐶 = 428,00 𝜎𝑅𝐶 = 348,45


Indici di variabilità

Il coefficiente di variazione: esempio 1 (continua)


► A causa del diverso ordine di grandezza della spesa (riflesso alla media) nelle due località, il
confronto tra i due valori dello scarto quadratico medio non consente di stabilire in quale località la
variabilità è maggiore. Per questo, possiamo calcolare il coefficiente di variazione, che essendo una
misura relativa, consente di confrontare la variabilità delle due distribuzioni:

• Porto Cervo: 𝜇𝑃𝐶 = 2950 𝜎𝑃𝐶 428


𝐶𝑉𝑃𝐶 = × 100 = × 100 = 14,5%
𝜇𝑃𝐶 2950
𝜎𝑃𝐶 = 428,00

• Rimini: 𝜇𝑅𝐶 = 1135 𝜎𝑅 348,45


𝐶𝑉𝑅𝐶 = × 100 = × 100 = 30,7%
𝜎𝑅𝐶 = 348,45 𝜇𝑅 1135

► Il coefficiente di variazione (𝐶𝑉) indica che la variabilità relativa è più elevata a Rimini.
Teoremi

Lo studio di una distribuzione incognita


► Quando non si hanno a disposizione i dati di una distribuzione ma si conoscono solo la media
aritmetica e lo scarto quadratico medio, si possono ricavare alcune informazioni sulla
distribuzione dalla quale queste misure sono state ottenute.
► In particolare, quando sono noti sia la media aritmetica che lo scarto quadratico medio, il teorema
di Chebyschev permette di conoscere la frequenza relativa di valori compresi in un certo intervallo
simmetrico rispetto alla media.
► Invece, quando si conosce soltanto la media aritmetica, il teorema di Markov consente di definire
dei limiti per le frequenze relative dei valori intorno alla media. Naturalmente, in questo caso si
avranno dei limiti generalmente più ampi di quelli individuabili con il teorema di Chebyschev.
Teoremi

Il teorema (o disuguaglianza) di Chebyschev


► Data una distribuzione di valori 𝑥𝑖 , di cui si conoscono solo la media aritmetica µ e lo scarto
quadratico medio 𝜎, e dato un valore reale 𝑘 ≥ 1, possiamo affermare che:

1
𝑓 𝜇 − 𝑘𝜎 ≤ 𝑥𝑖 ≤ 𝜇 + 𝑘𝜎 ≥ 1 − 2
𝑘
dove:
𝑓 è la frequenza relativa dei valori compresi nell’intervallo

► In pratica, il teorema di Chebyschev ci consente di conoscere la frequenza relativa di unità


comprese nell’intervallo simmetrico seguente:

𝜇 − 𝑘𝜎; 𝜇 + 𝑘𝜎
Teoremi

Il teorema (o disuguaglianza) di Chebyschev: intervalli


► Da questo teorema discende che, per una qualunque distribuzione, cioè indipendentemente da come
sono distribuiti i dati, almeno una frazione pari a (1 − 1/𝑘2) di valori sono compresi entro 𝑘
deviazioni standard dalla media (𝑝𝑒𝑟 𝑘 ≥ 1):
• 𝑘 =1 → almeno lo 𝟎% dei valori sono compresi in [µ − 𝜎; µ + 𝜎]
• 𝑘 =2 → almeno il 𝟕𝟓% dei valori sono compresi in [µ − 2𝜎; µ + 2𝜎]
• 𝑘 =3 → almeno l’𝟖𝟗% dei valori sono compresi in [µ − 3𝜎; µ + 3𝜎]
• 𝑘 = 4,5 → almeno il 𝟗𝟓% dei valori sono compresi in [µ − 4,5𝜎; µ + 4,5𝜎]
• 𝑘 = 10 → almeno il 𝟗𝟗% dei valori sono compresi in [µ − 10𝜎; µ + 10𝜎]
► Ad esempio, per 𝑘 = 2:
1
𝑓 𝜇 − 𝑘𝜎; 𝜇 + 𝑘𝜎 ≥ 1 − 2
𝑘
1
𝑓 𝜇 − 2𝜎; 𝜇 + 2𝜎 ≥ 1 − 2 ⟹ 𝑓 𝜇 − 2𝜎; 𝜇 + 2𝜎 ≥ 0,75
2
Teoremi

Il teorema (o disuguaglianza) di Chebyschev: esempio


► In un’indagine di mercato sono stati ricavati i seguenti dati riferiti alla spesa mensile (in euro) per
l’acquisto di un prodotto alimentare biologico da parte dei clienti dei supermercati Scoop: µ = 27,5
e 𝜎 = 6,8. Calcolare la percentuale di persone che hanno una spesa il cui valore è compreso entro
una volta e mezza lo scarto quadratico medio.
Soluzione: non conoscendo la distribuzione, si può ricorrere al teorema di Chebyschev.
1
𝑓 𝜇 − 𝑘𝜎; 𝜇 + 𝑘𝜎 ≥ 1 − 2
𝑘
1
𝑓 𝜇 − 1,5𝜎; 𝜇 + 1,5𝜎 ≥ 1 − ⟹ 𝑓 27,5 − 1,5 ∙ 6,8; 27,5 + 1,5 ∙ 6,8 ≥ 0,556
1,52

⟹ 𝑓 17,3; 37,7 ≥ 0,556

Pertanto, la percentuale di clienti che hanno speso una cifra compresa fra 17,3 𝑒 37,7 euro è
almeno pari al 55,6%, vale a dire più della metà.
Teoremi

Il teorema di Markov
► Dato una carattere 𝑋 che assume solo valori non negativi 𝑥𝑖 , dei quali è nota la media aritmetica µ, e
dato un qualsiasi valore 𝑎 > 0, possiamo affermare che:
𝜇
𝑓 𝑋≥𝑎 ≤
𝑎
dove:
𝑓 è la frequenza relativa dei valori che soddisfano la condizione all’interno della parentesi
► Dal teorema di Markov si ricava la frazione massima di unità (frequenza relativa) con modalità pari o
superiori ad un valore soglia arbitrario.
► Il teorema si può applicare solo per caratteri che presentano valori non negativi.
Teoremi

Il teorema di Markov: esempio


► Riprendendo i dati della spesa mensile per l’acquisto di un prodotto alimentare biologico da parte dei
clienti dei supermercati Scoop, ipotizziamo di conoscere solo la media aritmetica: µ = 27,5.
Calcolare la percentuale di persone che potrebbero avere una spesa maggiore o uguale a 35 euro.

Soluzione: non conoscendo la distribuzione ma solo la media aritmetica, possiamo ricorrere al


teorema di Markov

𝜇
𝑓 𝑋≥𝑎 ≤
𝑎

27,5
𝑓 𝑋 ≥ 35 ≤ ⟹ 𝑓 𝑋 ≥ 35 ≤ 0,786
35

Pertanto, la percentuale di clienti che hanno speso almeno 35 euro sono non più del 78,6%.

Potrebbero piacerti anche