Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Lucio Masserini
Le distribuzioni statistiche
La distribuzione unitaria
► La distribuzione unitaria di uno o più caratteri è l’elenco delle modalità osservate, unità per unità,
nel collettivo.
• Distribuzione unitaria semplice: un solo carattere
• Distribuzione unitaria doppia: due caratteri
• Distribuzione unitaria multipla: più di due caratteri
Unità Età Genere Metodo di Spesa Numero di Titolo di studio
statistica pagamento acquisti
𝑢1 27 Maschio Carta di credito 522,50 3 Diploma
𝑢2 22 Femmina Carta prepagata 687,00 4 Licenza media
𝑢3 66 Femmina Paypol 187,25 1 Elementare
… … … … … … …
𝑢𝑖 21 Femmina Contrassegno 25,50 1 Diploma
… … … … … … …
𝑢𝑁 37 Maschio Carta di credito 387,00 2 Laurea
Unità
𝑿
statistica
𝑢1 𝑥1 Unità
Titolo di studio
𝑢2 𝑥2 statistica
𝑢3 𝑥3 𝑢1 Media sup
… … 𝑢2 Media inf
𝑢𝑖 𝑥𝑖 modalità assunta dalla 𝑢3 Elementare
𝑖 − 𝑒𝑠𝑖𝑚𝑎 𝑢𝑛𝑖𝑡à … …
… …
𝑢𝑁 𝑥𝑁 𝑢𝑖 Media sup
… …
𝑁 = numerosità
del collettivo 𝑢𝑁 Laurea
Le distribuzioni statistiche
La frequenza assoluta
► L’informazione contenuta in una distribuzione unitaria non consente di cogliere in maniera sintetica
le caratteristiche del fenomeno oggetto di studio.
► Per ottenere una sintesi delle distribuzioni unitarie è possibile considerare per ogni carattere (o
variabile) la frequenza con cui le diverse modalità sono state osservate.
► La frequenza assoluta è il numero di volte in cui una generica modalità j di un carattere (o di una
variabile) viene osservata nel collettivo:
𝑛𝑗
Esempio: frequenza assoluta della «modalità laurea» della variabile «Titolo di studio»
La distribuzione di frequenze
► Una distribuzione di frequenze assolute è una tabella in cui alle modalità di un carattere
(quantitativo o qualitativo) sono associate le corrispondenti frequenze assolute → numero di volte
in cui ciascuna modalità è stata osservata nel collettivo.
Frequenze
Titolo di studio assolute
(𝑛𝑗 )
Elementare 1
Licenza media 2
Diploma 3
Laurea 9
Totale 𝟏𝟓
𝑵
Le distribuzioni statistiche
Frequenze
𝑋 assolute
(𝑛𝑗 )
𝑥1 𝑛1
𝑥2 𝑛2
… …
𝑥𝑗 𝑛𝑗
… …
𝑥𝐾 𝑛𝐾 𝐾
Totale 𝑵 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑗 + ⋯ + 𝑛𝐾 = 𝑛𝑗 = 𝑁
𝑗=1
Le distribuzioni statistiche
La sommatoria
► La sommatoria, indicata con la lettera greca maiuscola Σ, è un simbolo matematico che abbrevia
in una notazione sintetica la somma di un certo numero di addendi. I termini da sommare si
ricavano dagli indici della sommatoria, costituiti dalle lettere sopra e sotto il simbolo:
𝑛𝑗 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑗 + ⋯ + 𝑛𝐾
𝑗=1
primo termine della somma
Le distribuzioni statistiche
𝑛1 = 2, 𝑛2 = 5, 𝑛3 = 6, 𝑛4 = 3, 𝑛5 = 1
𝑛𝑗 = 𝑛1 + 𝑛2 + 𝑛3 + 𝑛4 + 𝑛5 = 2 + 5 + 6 + 3 + 1 = 17
𝑗=1
𝑛𝑗 = 𝑛1 + 𝑛2 = 2 + 5 = 7
𝑗=1
𝑛𝑗 = 𝑛3 + 𝑛4 + 𝑛5 = 6 + 3 + 1 = 10
𝑗=3
Le distribuzioni statistiche
Frequenze
Metodo di
assolute
pagamento
(𝑛𝑗 )
𝑥1 Carta di credito 6 𝑛1
𝑥2 Contrassegno 1 𝑛2
𝑥3 Carta prepagata 3 𝑛3
𝑥4 Paypol 5 𝑛4
Totale 𝟏𝟓
𝑛𝑗 = 𝑛1 + 𝑛2 + 𝑛3 + 𝑛4 = 6 + 1 + 3 + 5 = 15
𝑗=1
Le distribuzioni statistiche
La frequenza relativa
► Le frequenze assolute non sono di facile interpretazione. Per cogliere l’incidenza della frequenza di
ogni modalità rispetto al totale e rispetto alle altre modalità, si ricorre alle frequenze relative.
► La frequenza relativa (𝑓𝑗 ) si ottiene dividendo la frequenza assoluta di una modalità per il totale delle
unità del collettivo (𝑁) e corrisponde alla frazione di unità che presenta tale modalità:
𝑛𝑗
𝑓𝑗 =
𝑁
0 ≤ 𝑓𝑗 ≤ 1
𝑓1 + 𝑓2 + ⋯ + 𝑓𝑗 + ⋯ + 𝑓𝐾 = 𝑓𝑗 = 1
𝑗=1
Le distribuzioni statistiche
La frequenza percentuale
► In pratica, si utilizzano più spesso le frequenze percentuali, poiché forniscono un’informazione più
intuitiva e di più semplice lettura rispetto alle frequenze relative.
► La frequenza percentuale (𝑝𝑗 ) si ottiene moltiplicando la frequenza relativa per 100 e indica
quante unità ogni cento del collettivo presentano una certa modalità (𝑗):
𝑝𝑗 = 𝑓𝑗 × 100
0 ≤ 𝑝𝑗 ≤ 100
𝑝1 + 𝑝2 + ⋯ + 𝑝𝑗 + ⋯ + 𝑝𝐾 = 𝑝𝑗 = 100
𝑗=1
Le distribuzioni statistiche
𝑛1 1
𝑓1 = = = 0,067
𝑁 15
Località A Località B
Motivo del viaggio 𝑛𝑗 % Motivo del viaggio 𝑛𝑗 %
Piacere, svago 400 44,4 Piacere, svago 20 10,0
Visita a parenti/amici 50 5,6 Visita a parenti/amici 10 5,0
Motivi religiosi 80 8,9 Motivi religiosi 15 7,5
Trattamenti di salute 140 15,6 Trattamenti di salute 25 12,5
Lavoro 𝟏𝟎𝟎 𝟏𝟏, 𝟏 Lavoro 𝟏𝟎𝟎 𝟓𝟎, 𝟎
Altro 130 14,4 Altro 30 15,0
Totale 𝟗𝟎𝟎 𝟏𝟎𝟎, 𝟎 Totale 𝟐𝟎𝟎 𝟏𝟎𝟎, 𝟎
► Il valore assunto dalle frequenze assolute dipende dal totale. Calcolando le percentuali si riporta la
numerosità dei due collettivi a 100.
Le distribuzioni statistiche
Le frequenze cumulate
► Quando le modalità di un carattere sono almeno ordinate, ovvero per i caratteri qualitativi ordinati
o quantitativi, si possono calcolare anche le frequenze cumulate, che ci indicano quante unità di un
collettivo presentano una certa modalità o una modalità precedente.
Esempio
• Quanti sono gli individui con un titolo di studio di livello inferiore o uguale a licenza media?
• E quelli che hanno fatto non più di due acquisti?
Le frequenze cumulate
► La frequenza cumulata (assoluta, relativa o percentuale) associata a una modalità 𝑗 è data dalla
somma della frequenza (assoluta, relativa o percentuale) riferita a quella stessa modalità con le
frequenze delle modalità precedenti → indica quante unità del collettivo presentano una modalità
inferiore o uguale a 𝑗.
Titolo di studio 𝑛𝑗 𝑁𝑗 𝑓𝑗 𝐹𝑗 𝑃𝑗
Elementare 1 1 0,067 0,067 6,7
Licenza media 2 3 0,133 0,200 20,0
Diploma 3 6 0,200 0,400 40,0
Laurea 9 15 0,600 1,000 100,0
Totale 𝟏𝟓 𝟏
𝑁2 = 𝑛1 + 𝑛2 = 1 + 2 = 3
𝐹2 = 𝑓1 + 𝑓2 = 0,067 + 0,133 = 0,200
Commento
• 3 persone hanno un titolo di studio minore o uguale (o non superiore) alla licenza media
• tali persone corrispondono al 20% del totale
Le distribuzioni statistiche
La suddivisione in classi
► Quando il carattere che si vuole analizzare presenta un numero molto elevato di modalità, la
distribuzione di frequenze può risultare incomprensibile o inutile → modalità con frequenza nulla,
tabella troppo estesa.
► Se il carattere è qualitativo (es., province, imprese per settore di attività economica, … )
• si ricorre ad un accorpamento delle modalità Età 𝑛𝑗
► Se il carattere è quantitativo (età, spesa, peso, altezza, etc. ) 15 1
• si ricorre alla suddivisione in classi 16 2
… …
24 2
… …
46 1
… …
72 0
… …
Totale 900
Le distribuzioni statistiche
• valore centrale: valore rappresentativo della classe, si ottiene come semisomma degli estremi
della classe
Età
𝑥𝑗−1 + 𝑥𝑗 𝑛𝑗 𝑎𝑗 𝑐𝑗
𝑐𝑗 = (anni compiuti)
2
15 – 24 12 9 19,5
25 – 34 179 9 29,5
35 – 44 100 9 39,5
45 – 64 422 19 54,5
65 – 84 187 19 74,5
Totale 900
Le distribuzioni statistiche
classe aperta
Le distribuzioni statistiche
Altezza
𝑛𝑗
(cm)
156 |– 𝟏𝟔𝟓 187
𝟏𝟔𝟓 |– 175 391
175 |– 185 284
185 |– 195 28
195 𝑒 𝑜𝑙𝑡𝑟𝑒 10
Totale 𝟗𝟎𝟎
Le distribuzioni statistiche
Età
𝑛𝑗
(anni compiuti)
Versione alternativa
15 – 24 12
Età
25 – 44 279 𝑛𝑗
(anni compiuti)
45 – 64 422 15 |– 25 12
65 𝑒 𝑜𝑙𝑡𝑟𝑒 187 25 |– 45 279
Totale 𝟗𝟎𝟎 45 |– 65 422
65 𝑒 𝑜𝑙𝑡𝑟𝑒 187
Totale 900
Le distribuzioni statistiche
La distribuzione di quantità
► La distribuzione di quantità è una tabella in cui ad ogni modalità di un carattere (o variabile) si fa
corrispondere una quantità, dello stesso o di un altro carattere (o variabile). Tale distribuzione
consente di esplicitare come l’ammontare complessivo di un carattere si distribuisce tra le varie
modalità.
► Una distribuzione di quantità è il risultato di due operazioni:
• classificazione → suddivisione di un collettivo in
base alle modalità di un carattere Redditi da lavoro dipendente (milioni di €)
Le serie storiche
► Le serie storiche (o temporali) sono successioni di valori di una grandezza (𝑌) ordinati rispetto ad un
indice temporale, 𝑌1 , 𝑌2 , … , 𝑌𝑇 , osservati in 𝑇 istanti o intervalli temporali generalmente equidistanti
tra loro → consentono di esprimere la dinamica di un fenomeno nel periodo di tempo considerato.
► L’indice temporale definisce la periodicità di
osservazione dei valori della serie e può riferirsi ad Anno PIL
ore, giorni, settimane, mesi, trimestri, 2012 𝑌2012
quadrimestri, anni, etc. 2013 …
2014 …
2015 …
2016 …
2017 …
2018 …
2019 𝑌2019
Le distribuzioni statistiche
Le serie territoriali
► Le serie territoriali (o spaziali) sono costituite da una successione di valori assunti da una grandezza
(𝑌) in uno stesso momento in unità territoriali differenti → esprimono la distribuzione geografica
(o territoriale) di un fenomeno.
► Le unità territoriali possono essere nazioni,
regioni, province, città, o altre località Regione Numero
ancora. di turisti
Toscana 𝑌𝑇𝑜𝑠𝑐𝑎𝑛𝑎
Sardegna …
Lombardia …
Lazio …
Veneto 𝑌𝑉𝑒𝑛𝑒𝑡𝑜
Le rappresentazioni grafiche
Introduzione
► Le rappresentazioni grafiche hanno lo scopo di illustrare le distribuzioni di frequenze o di
quantità con linee o segmenti, aree, volumi, figure o simboli convenzionali. Esse non forniscono
informazioni aggiuntive rispetto a quelle tabulari ma possono essere di grande efficacia
comunicativa, se realizzate correttamente.
Utilità
► I grafici presentano diversi vantaggi rispetto alle tabelle, poiché consentono di:
• visualizzare immediatamente le caratteristiche principali della distribuzione → forma
• favorire il confronto fra più distribuzioni
• agevolare l’analisi dei fenomeni, evidenziando andamenti, relazioni ed eventuali dati anomali
(picchi grafici) che possono essere dovuti a errori nei dati o alla presenza di valori
sostanzialmente diversi da quelli delle altre osservazioni
• divulgare i risultati in maniera efficace
Le rappresentazioni grafiche
Le caratteristiche di un grafico
► Affinché un grafico sia utile ed efficace dovrebbe contenere tutte le informazioni necessarie alla
comprensione dei dati rappresentati.
• Titolo: descrive il carattere al quale si riferisce la distribuzione, il collettivo e quando è stata fatta
la rilevazione.
• Etichette: descrive le modalità del carattere sull’asse.
• Legenda: quando sono rappresentate più Iscrizioni di vetture (migliaia) in Italia per tipo
distribuzioni occorre riportare una legenda di alimentazione
benzina
che faccia corrispondere ad ogni colore o 1.500 gasolio
simbolo una particolare distribuzione. 1.250
1.000
• Note: per citare la fonte dei dati, da riportare
750
alla base del grafico.
500
250
0
2011 2012 2013 2014 2015
Anno
Fonte: Istat
Le rappresentazioni grafiche
• …
Le rappresentazioni grafiche
Il grafico a torta
► Il grafico a torta (diagramma a torta o diagramma circolare) mostra le frequenze di una distribuzione
sotto forma di settori circolari (o spicchi di un cerchio) → caratteri qualitativi sconnessi.
► E’ particolarmente utile:
• per rappresentare la composizione di un aggregato
• quando il numero di modalità non è troppo elevato, altrimenti si riduce la dimensione dei settori
circolari rendendo più difficile il confronto
► L’ampiezza dei settori circolari (angoli al centro) è proporzionale
alla frequenza relativa:
𝑛𝑗
𝛼𝑗 = 360° ∙
𝑁
Le rappresentazioni grafiche
Settore 𝒏𝒋 𝒑𝒋
Agricoltura 843 3,8
Industria 5976 26,6
Servizi 15646 69,9
Occupati per settore di attività anno 2013
Totale 𝟐𝟐𝟒𝟔𝟓 𝟏𝟎𝟎, 𝟎 (% sul totale)
3,8
3.8%
843 26,6
26.6%
𝛼𝐴𝑔𝑟𝑖𝑐𝑜𝑙𝑡𝑢𝑟𝑎 = 360 ∙ = 13,51° Agricoltura
22465
Industria
Servizi
5976
𝛼𝐼𝑛𝑑𝑢𝑠𝑡𝑟𝑖𝑎 = 360 ∙ = 95,76°
22465 69.6%
69,6
15646
𝛼𝑆𝑒𝑟𝑣𝑖𝑧𝑖 = 360 ∙ = 250,73°
22465
Le rappresentazioni grafiche
Grafico a barre
Grafico a nastri
Le rappresentazioni grafiche
Grado di
𝒏𝒋 𝒑𝒋
soddisfazione
Per niente 21 10,0
Poco 46 21,9
Abbastanza 79 37,6 Grado di soddisfazione mensa universitaria
40
Molto 64 30,5
35
Totale 𝟐𝟏𝟎 𝟏𝟎𝟎, 𝟎 30
25
20
%
15
10
5
0
Per niente Poco Abbastanza Molto
Le rappresentazioni grafiche
Numero di
prodotti 𝒏𝒋 𝒑𝒋
acquistati
0 12 4,1
1 137 46,4
2 86 29,2 Prodotti acquistati in e-commerce nell'utlimo mese
3 31 10,5 50
4 15 5,1 40
5 11 3,7 30
%
6 3 1,0 20
0
0 1 2 3 4 5 6
Numero
Le rappresentazioni grafiche
Il grafico a nastri
► Il grafico a nastri (o a barre orizzontali) è più adatto per i caratteri qualitativi sconnessi.
Modello di
𝒏𝒋 𝒑𝒋
smartphone
Galaxy S8 97 30,9
Modello di smartphone posseduto
iPhone 8 74 23,6
Altro
Xperia Z6 36 11,5
Mate 10 38 12,1 Mate 10
Galaxy S8
Altro
Mate 10
Xperia Z6
iPhone 8
Galaxy S8
Istogramma
► In un istogramma le modalità del carattere sono rappresentate da rettangoli non distanziati, con
basi uguali o diverse, in cui ogni rettangolo ha un’area proporzionale alle frequenze → caratteri
continui raggruppati in classi.
Le rappresentazioni grafiche
Km percorsi 𝒏𝒋
10 |– 20 3
20 |– 30 6 6
30 |– 40 5 5
Frequenze assolute
40 |– 50 4 4
3
50 |– 60 2 𝟔
2
Totale 𝟐𝟎
1
0
10 20 30 40 50 60
Classi di età
Le rappresentazioni grafiche
𝑛𝑗
ℎ𝑗 =
𝑎𝑗
• ℎ𝑗 = densità di frequenza
Ampiezza Densità
Spesa 𝑛𝑗
𝑎𝑗 ℎ𝑗
10
0 |– 5 21 5 4,2 9
8
5 |– 15 46 10 4,6
7
15 |– 30 79 15 5,3
Densità
6
30 |– 35 44 5 8,8 5
4
Totale 𝟏𝟗𝟎 3
𝟓, 𝟑
2
1
0
0 5 15 30 35
Classi di spesa
Le rappresentazioni grafiche
Il cartogramma
► Un cartogramma è una carta geografica sulla quale sono rappresentati dati statistici, mediante
colori di intensità diversa in base ai valori che il carattere assume in una certa area geografica (o in
un certo territorio) → serie territoriale.
0,0 ; 9,5
Cartogramma: Tasso di disoccupazione 9,5 ; 16,0
per provincia (% sulle forze di lavoro), 16,0 ; 22,5
Italia, 2017 (Fonte, Istat). 22,5; 29,0
Le rappresentazioni grafiche
Il grafico radar
► Il grafico radar (grafico a stella, a ragnatela o polare) mostra le frequenze o le quantità di una
distribuzione sotto forma di una sequenza di raggi che hanno origine da un centro e formano
angoli uguali tra loro → caratteri ordinati ciclici.
► Si suddivide l’angolo di 360° con tanti raggi per quante sono le modalità del carattere e agli
angoli compresi tra coppie di raggi si attribuisce la stessa ampiezza.
Numero di turisti stranieri arrivati per mese
► Infine, su ogni raggio, si calcola un segmento di (migliaia di unità). Italia, 2018 (Fonte, Istat).
lunghezza uguale o proporzionale alla
corrispondente frequenza o quantità.
► Può essere utile ed efficace da un punto di vista grafico
unire con una spezzata gli estremi dei segmenti e
colorare l’area interna al poligono che si viene a
formare.
Le rappresentazioni grafiche
Grafici ingannevoli
► Come insegna il classico libro di D. Huff «Mentire con la statistica», i grafici possono essere disegnati
in modo da trarre in inganno. I due trucchi più frequenti sono:
• compressione o espansione degli assi del diagramma cartesiano → (esempio a)
• l’asse verticale che non parte da zero → (esempio b)
• inoltre, in alcuni grafici vengono aggiunti elementi inutili, come la tridimensionalità, la
prospettiva o altri elementi non necessari alla comprensione dei dati rappresentati (immagini,
figure, etc.). Tali elementi spesso hanno solo il fine di catturare l’attenzione del lettore ma il più
delle volte rendono il grafico più difficile da leggere → (esempio c).
Le rappresentazioni grafiche
1200
1000
800
600
400
200
0
2011 2012 2013 2014 2015
Le rappresentazioni grafiche
Torino
Milano
Torino
Bari
Milano
180 190 200 210 220 230
Bologna
Bari
Smartphone preferito
20,4
20.4
9,9
9.9 39,3
39.3 Smartphone preferito
13,6
13.6
20,4
20.4
16,8
16.8
39,3
39.3
13,6
13.6
16,8
16.8
Galaxy S8 iPhone 8 Xperia Z6 Mate 10 Altro
Le rappresentazioni grafiche
L’infografica statistica
► Un’infografica statistica identifica un insieme di disegni e grafici (statici o dinamici), icone o
immagini accattivanti per rappresentare sinteticamente le informazioni o i dati statistici in forma
visuale invece che in forma testuale o tabellare → non sono rappresentazioni grafiche.
► E’ una tecnica nata dall’incontro della grafica con il giornalismo, che richiede competenze trasversali,
anche statistiche.
► E’ uno strumento spesso utilizzato anche
dall’Istat per la diffusione dei risultati delle
indagini statistiche, proprio per la sua capacità di
«raccontare una storia» dietro i dati →
narrazione.