Organizzazione Dei Dati

2.
ORGANIZZAZIONE DEI DATI
2.1 Distribuzioni di frequenza

Una delle fasi principali di un’indagine statistica consiste nel rilevare le determinazioni assunte dalla variabile
di interesse X su un insieme di n unità. Indicando con xi la determinazione della X rilevata sull’i-esima unità
(con i = 1, 2, …, n), la sequenza delle n determinazioni x1, x2, …, xn rappresenta l’insieme dei dati osservati.
Se la variabile è qualitativa ordinabile o quantitativa conviene in genere elencare le osservazioni in modo non
decrescente 𝑥(1) ≤ ⋯ ≤ 𝑥(𝑛) , dove nel caso di variabile qualitativa il simbolo  deve essere interpretato come
“precede o coincide”.
Per una variabile quantitativa, l’intervallo [x(1), x(n)] avente per estremi il valore minimo x(1) e il valore massimo
x(n) viene chiamato campo di variazione (o range).
Osservando i dati x1, x2, …, xn, soprattutto se il numero n delle unità non è estremamente piccolo, non è
possibile individuare le caratteristiche della distribuzione della variabile X. Per sintetizzare le informazioni
raccolte è opportuno associare a ogni determinazione distinta della variabile X il numero di volte (che viene
chiamato frequenza assoluta) che quella determinazione si è manifestata.
A questo scopo, siano c1, …, ck le k determinazioni distinte della variabile X e n1, …, nk le frequenze assolute
corrispondenti. Per convenzione, se la variabile X è qualitativa ordinabile o quantitativa, le k determinazioni
c1, …, ck si assumono ordinate.
La frequenza assoluta nj rappresenta il numero di unità statistiche su cui la variabile X ha assunto valore o
modalità cj (j = 1, 2, …, k).
Ovviamente la somma di tutte le frequenze assolute coincide con il numero delle unità esaminate, cioè vale la
seguente uguaglianza
k
nj  n 2.1.1
j 1
L’insieme delle coppie (c1, n1),…,(ck, nk) costituisce la distribuzione di frequenza, che può essere
rappresentata in una tabella in cui la prima colonna contiene le k modalità distinte o i k valori distinti della
variabile X (a seconda che la X sia qualitativa o quantitativa) mentre la seconda colonna contiene le frequenze
assolute corrispondenti.
Per esempio, la tabella successiva riporta per ciascun settore di attività economica il numero corrispondente
degli occupati in Italia alla data del 21 ottobre 2001.
Tabella 2.1.1
Occupati in Italia classificati a seconda dell’attività economica
(fonte ISTAT, 14° Censimento generale della popolazione e delle abitazioni)
Attività economica Numero di individui

Agricoltura 1153678
Industria 7028981
Commercio 3986538
Trasporti e comunicazioni 979029
Credito e assicurazioni, servizi alle imprese, noleggio 2052681
Altre attività 5792825
20993732
Sulla base di queste informazioni si osserva, per esempio, che poco più di un milione di occupati, sugli oltre
20 milioni totali, operano nel settore agricolo, mentre il numero di lavoratori nell’industria è quasi 7 volte più
grande. Nella tabella 2.1.1, le k = 6 determinazioni diverse assunte dalla variabile “attività economica” sono
elencate in un ordine che è evidentemente arbitrario, in quanto la variabile è di tipo qualitativo non ordinabile.
La tabella seguente riporta i dati relativi agli occupati in Italia il 21 ottobre 2001 per quanto riguarda la variabile
“grado di istruzione”. In questo caso le determinazioni sono state elencate in ordine decrescente, a partire dal
titolo di studio più elevato (ma ovviamente sarebbe stato possibile anche seguire l’ordinamento opposto, a
partire da “Nessun tipolo di studio”).
Tabella 2.1.2
Occupati in Italia per grado di istruzione
Grado di istruzione Numero di individui

Laurea 2407992
Diploma universitario o terziario di tipo non universitario 397401
Diploma di scuola secondaria superiore 8284656
Licenza di scuola media inferiore o di avviamento professionale 7406981
Licenza di scuola elementare 2259960
Nessun titolo di studio 236742
20993732
Un esempio di distribuzione di frequenza per una variabile discreta è nella tabella 2.1.3, in cui le famiglie
italiane residenti nel territorio nazionale il 21 ottobre del 2001 sono state classificate in base al numero dei
suoi componenti.
10
Tabella 2.1.3
Famiglie residenti classificate in base al numero di componenti
Componenti Numero di famiglie

1 5409180
2 5900965
3 4703320
4 4133369
5 1263934
6 o più 367460
21778228
In questo caso l’ultima riga della tabella prima del totale riporta il numero complessivo delle famiglie composte
da almeno 6 componenti, per cui non sono note le frequenze associate a ciascuno dei valori maggiori o uguali
a 6.
In una distribuzione di frequenza relativa a una variabile discreta, [c1, ck] è il campo di variazione (o range).
Esempio 2.1.1
Supponiamo che su un gruppo di 10 piantine di una certa specie siano stati rilevati i seguenti valori della variabile X
“altezza”, misurata in centimetri
11.2 11.5 11.8 11.8 11.2 11.4 11.5 11.6 11.5 11.5
In questo caso il numero di determinazioni diverse assunte della X è k = 5, con c1=11.2, c2=11.4, c3=11.5, c4=11.6, c5=11.8,
mentre le frequenze assolute corrispondenti sono n1=2, n2=1, n3=4, n4=1, n5=2. Il campo di variazione della variabile è
[11.2, 11.8], mentre la distribuzione di frequenza può essere rappresentata nella seguente tabella
Altezza (in cm.) Numero di piantine

11.2 2
11.4 1
11.5 4
11.6 1
11.8 2
10
Tutte le tabelle esaminate in questo paragrafo rappresentano il modo usuale in cui, in statistica, vengono
organizzate e presentate le osservazioni raccolte su n unità. Nella tabella 2.1.4 è schematizzata la distribuzione
di frequenza di una generica variabile X, qualitativa o quantitativa discreta, che assume k determinazioni
diverse.
11
Tabella 2.1.4
Rappresentazione di una distribuzione di frequenza per una variabile X
X Frequenza
c1 n1
c2 n2
. .
cj nj
. .
ck nk
n
Esempio 2.1.2
Date le seguenti osservazioni relative ai giudizi espressi da 10 clienti di una filiale bancaria relativamente alla qualità dei
servizi offerti (I=insufficiente, S=sufficiente, B=buona, O=ottima)
B I S S B B I S B O
la distribuzione di frequenza assume la forma
Distribuzione dei giudizi

Giudizi Frequenza
I 2
S 3
B 4
O 1
10
Esempio 2.1.3
Date le seguenti osservazioni relative ai voti di statistica ottenuti dai 20 studenti promossi durante l’ultimo appello
18 22 28 20 24 23 23 24 27 30 18 20 18 23 22 27 24 25 23 26
la distribuzione di frequenza dei voti assume la forma
Distribuzione dei voti in statistica

Voto Frequenza
18 3
20 2
22 2
23 4
24 3
25 1
26 1
27 2
28 1
30 1
20
La rappresentazione della distribuzione di frequenza tramite una tabella è naturale quando le variabili
esaminate sono di tipo qualitativo o quantitativo discreto perché di solito le variabili di questo tipo si
12
estrinsecano in un numero limitato di determinazioni distinte. Quando invece la variabile di interesse X è
quantitativa continua e la rilevazione viene effettuata con un elevato livello di precisione, i valori rilevati
possono risultare anche tutti diversi fra di loro, per cui la costruzione della distribuzione di frequenza darebbe
in questo caso origine a frequenze assolute tutte pari a 1. Inoltre anche se i valori osservati non fossero tutti
distinti, il numero dei valori distinti potrebbe essere troppo elevato e la costruzione della distribuzione di
frequenza non consentirebbe un’adeguata sintesi dei dati. In questo caso, per sintetizzare i dati originali, si
suddivide il campo di variazione della variabile in k intervalli contigui (c0, c1], (c1, c2], …, (cj-1, cj], …,(ck-1, ck]
detti classi. Per convenzione, le classi si assumono aperte a sinistra e chiuse a destra ovvero con la notazione
cj-1 cj (anziché cj-1-| cj) si fa riferimento all’intervallo (cj-1, cj] che contiene al suo interno tutti i valori x della
variabile X che rispettano la relazione cj-1 < x  cj.
Analogamente a quanto visto per le distribuzioni di frequenza relative a variabili qualitative o quantitative
discrete, è quindi possibile definire una distribuzione di frequenza in classi associando ad ogni classe cj-1- cj,
con j = 1, 2, …, k, la frequenza assoluta corrispondente, ovvero il numero di unità che presentano un valore
compreso in quella classe. Anche una distribuzione di frequenza in classi può essere rappresentata in una
tabella, con una struttura analoga a quella seguente
Tabella 2.1.5
Rappresentazione di una distribuzione di frequenza in classi
X Frequenza
c0  c1 n1
c1  c2 n2
. .
cj-1  cj nj
. .
ck-1  ck nk
n
Esempio 2.1.4
Considerati i seguenti valori della superficie coltivabile X (misurata in ettari) osservati su un gruppo di n=25 aziende
agricole
16.8 0.8 1.2 17.3 2.4 3.0 24.3 20.2 25.0 4.2 5.1 6.1 31.2
27.8 7.5 33.3 8.9 38.5 10.1 45.9 60.4 81.9 14.7 12.4 10.8
la distribuzione di frequenza nelle classi (0, 5], (5, 10], (10, 20], (20, 50], (50, 100] assume la forma
Distribuzione dela superficie coltivabile
Superficie Frequenza
0  5 5
5  10 4
10  20 6
20  50 8
50  100 2
25
13
Va osservato che una qualsiasi distribuzione in classi non contiene più tutte le informazioni originarie, dato
che non si conoscono i valori esatti delle osservazioni contenute in ogni intervallo, ma solo la frequenza
corrispondente. La costruzione delle classi è quindi un’operazione di sintesi che comporta necessariamente
una perdita di informazione, ma nello stesso tempo consente, proprio in virtù delle approssimazioni introdotte,
di comprendere meglio la struttura distributiva della variabile sulle n unità.
Per questo motivo una qualsiasi elaborazione su una distribuzione in classi va effettuata sui dati originari, se
ancora disponibili, per ottenere una maggiore precisione dei risultati.
Nella costruzione di una distribuzione in classi non è possibile stabilire regole valide in ogni caso per quanto
riguarda il numero di classi da utilizzare, la loro ampiezza o i loro estremi.
I criteri con cui effettuare questa operazione di sintesi dipendono innanzitutto dal grado di approssimazione
ritenuto sufficiente in una particolare situazione ma, dato che la suddivisione in classi si effettua per
evidenziare la struttura distributiva della variabile, è necessario evitare sia un’eccessiva concentrazione delle
unità in poche classi, sia un’eccessiva dispersione in un numero troppo elevato di intervalli.
Inoltre, in genere, si scelgono gli estremi in modo che nelle singole classi non siano addensate troppe
osservazioni, né troppo poche, cosicché spesso conviene costruire intervalli di ampiezza diversa a seconda
dell’addensamento delle osservazioni, come nel caso dell'esempio 2.1.4 in cui l'ultima classe è quella di
maggiore ampiezza a causa dell’esiguo numero di aziende agricole con una superficie coltivabile superiore a
50 ettari, mentre le prime due classi sono quelle di ampiezza minore, perché in esse cade complessivamente il
36% delle osservazioni.
Un ulteriore aspetto rilevante nella costruzione di una distribuzione sintetica è la scelta degli estremi delle
classi. Anche in questo caso non esistono regole fisse ma, in generale, perché le informazioni contenute nella
tabella risultino più indicative, è preferibile utilizzare i valori di uso più comune, come per esempio i numeri
interi o i multipli di 5 o di 10.
Una volta fissati arbitrariamente il numero, l’ampiezza delle classi e i loro estremi, tutti i valori rilevati devono
essere necessariamente contenuti nelle classi e nessuno di essi deve comparire in due classi diverse.
Esempio 2.1.5
Considerati i seguenti valori relativi a una variabile quantitativa continua X osservati su un gruppo di n=16 individui
-0.5 0.2 -1.8 2.0 1.0 -1.2 4.7 3.2 3.0 2.0 1.3 4.5 0.4 0.7 0.9 1.0
la distribuzione di frequenza nelle classi (-2, 0], (0, 1], (1, 2], (2, 5] assume la forma
Classi Frequenza
-2 - 0 3
14
0 -1 6
1-2 3
2-5 4
16
In alcuni casi anche la distribuzione di una variabile dicreta può essere in classi, soprattutto se il numero dei
possibili valori diversi fra loro è elevato anche se in questo caso la classe ha un interpretazione diversa (la
variabile non può assumere tutti i valori della classe). Così, per esempio, nella tabella successiva è riportata la
distribuzione delle abitazioni in edifici a uso abitativo a seconda del numero di abitazioni nell'edificio, così
come è stata rilevata nel corso del 14°Censimento generale della popolazione e delle abitazioni effettuato
dall’ISTAT. In questo caso le singole classi sono chiuse a entrambi gli estremi, per cui ciascuna di esse
comprende entrambi gli estremi dell’intervallo di volta in volta considerato.
Tabella 2.1.6
Distribuzione delle abitazioni in edifici a uso abitativo per numero di abitazioni nell'edificio (fonte ISTAT,
14° Censimento generale della popolazione e delle abitazioni)
Numero di abitazioni Frequenza

1 6902088
2 4560856
3o4 3478593
Da 5 a 8 3223761
Da 9 a 15 3117717
16 e più 5985865
27268880
Un ulteriore esempio di suddivisione in classi è riportato nella tabella seguente, relativa all’età degli italiani in
cerca di prima occupazione residenti in Italia al 21 ottobre 2001.
Tabella 2.1.7
Distribuzione della popolazione residente in cerca di prima occupazione per classe di età
Classi di età Frequenza

15 – 19 180060
20 – 24 300530
25 – 29 227230
30 – 34 122404
35 – 44 100208
45 e più 32778
963210
In questo caso l’età è espressa in anni compiuti ed anche in questo caso tutte le classi considerate, tranne
l’ultima, sono chiuse sia a destra sia a sinistra. L’ultima classe risulta invece aperta a destra, nel senso che non
viene indicato il suo estremo superiore.
15
Nell’analisi statistica dei dati relativi a una variabile X è importante conoscere il numero di unità che
manifestano una particolare determinazione della variabile per ciascuna delle possibili determinazioni distinte.
In genere è invece del tutto irrilevante sapere su quali unità è stata rilevata una specifica determinazione.
Per esempio, tutte le informazioni statisticamente rilevanti sul carattere "tipo di edizione" per le opere
pubblicate in Italia nell’anno 2005 sono quelle contenute nella successiva tabella 2.1.8, dalla quale risulta che
sul totale di 59743 opere pubblicate durante quell’anno, 37694 sono quelle pubblicate in prima edizione, 3453
in un’edizione successiva e 18596 sono le ristampe.
Tabella 2.1.8
Opere pubblicate per tipo di edizione nell’anno 2005 (Fonte ISTAT)
Tipo Edizione Numero di opere

Prime edizioni 37694
Edizioni successive 3453
Ristampe 18596
59743
Tutti i casi presi in esame fino a questo momento si riferiscono ad una sola variabile rilevata su n unità
statistiche. In queste situazioni si parla di variabili statistiche semplici mentre le relative distribuzioni di
frequenza sono dette distribuzioni univariate.
Quando invece l’interesse si riferisce a due o più variabili rilevate contemporaneamente su n unità, si parla di
variabili statistiche multiple e di distribuzioni multivariate.
Nelle prossime pagine verranno considerate le distribuzioni del primo tipo, mentre l'esame di quelle del
secondo tipo è rinviato ai capitoli successivi.
2.2 Frequenze relative e cumulate

In numerose situazioni e per motivi di vario genere, le informazioni sulla distribuzione di una variabile
vengono sintetizzate associando a ciascuna determinazione cj della variabile la proporzione di unità che
presentano la determinazione cj. In pratica, quindi, a ciascuna determinazione cj può essere associata la
corrispondente frequenza relativa, ovvero
nj
fj  j  1,2,..., k . 2.2.1
n
La somma di tutte le fj che compaiono in una distribuzione di frequenza è ovviamente sempre uguale a 1, dato
che
16
k k nj k
   n j = n = 1.
1 n
fj  = 2.2.2
j=1 j 1
n n j=1
Questo tipo di frequenze risulta particolarmente utile per confrontare due o più distribuzioni relative ad una
stessa variabile quando i collettivi esaminati sono composti da un numero diverso di componenti.
Per chiarire quanto affermato, si considerino le tabelle 2.2.1a e 2.2.1b che riportano le distruzioni degli occupati
di sesso maschile e femminile a seconda del settore di attività economica il 21 ottobre del 2001.
Tabella 2.2.1a
Distribuzione degli occupati di sesso maschile in Italia per attività economica
Attività economica Frequenza

Agricoltura 739903
Industria 5316779
Commercio 2298682
12841971
Tabella 2.2.1b
Distribuzione degli occupati di sesso femminile in Italia per attività economica
Attività economica Frequenza

Agricoltura 413775
Industria 1712202
Commercio 1687856
8151761
In questo caso il confronto fra maschi e femmine non è immediato proprio a causa della diversa numerosità
degli occupati dei due sessi ed è consigliabile ricorrere alle frequenze relative, che assumono i valori indicati
nelle ultime due colonne della tabella 2.2.2.
17
Tabella 2.2.2
Distribuzione degli occupati per settore di attività economica e sesso
Attività economica Maschi Femmine

Agricoltura 0.06 0.05
Industria 0.41 0.21
Commercio 0.18 0.21
Trasporti e comunicazioni 0.06 0.02
Credito e assicurazioni, servizi alle imprese, noleggio 0.09 0.11
Altre attività 0.20 0.40
1 1
Dal confronto fra le tabelle 2.2.1a e 2.2.1b risulta, per esempio, che le donne occupate nel settore "Commercio"
sono poco meno di 1.7 milioni, contro i 2.3 milioni circa degli uomini, per cui si potrebbe concludere che le
donne rappresentano il 75% circa dei maschi occupati nello stesso settore. In base alle informazioni riportate
nella tabella 2.2.2 si rileva invece che la proporzione degli uomini impiegati nel “Commercio” è pari al 18%
circa del totale, mentre la proporzione delle donne è superiore al 20%: in proporzione, quindi, le donne
occupate in questo settore risultano in realtà più numerose degli uomini.
I diversi tipi di frequenza forniscono informazioni identiche sulla struttura della distribuzione e le
considerazioni basate sulle frequenze relative valgono anche per quelle assolute e viceversa.
In base alla 2.2.1, le frequenze assolute si ottengono dalle relative semplicemente moltiplicando i valori delle
fj per la numerosità complessiva n
n j  n f j j  1,2,...,k . 2.2.3
Le informazioni sulla distribuzione di una variabile qualitativa ordinata o di una variabile quantitativa possono
essere espresse in un modo equivalente anche mediante le cosiddette frequenze cumulate (sia assolute, sia
relative), che corrispondono alle somme progressive delle frequenze (assolute o relative) associate a ciascuna
determinazione della variabile.
Considerata la j-esima determinazione cj (con cj-1< cj < cj+1) della variabile X, la frequenza assoluta cumulata
corrispondente risulta
j
N j   nh j  1,2,..., k 2.2.4
h 1
ed esprime il numero di unità che presentano una determinazione della variabile X inferiore o uguale a cj.
18
Si osservi che ovviamente risultano sempre verificate le seguenti uguaglianze: N1  n1 , N k  n.
Esempio 2.2.1
Data la distribuzione di frequenza dei voti analizzata nell’esempio 2.1.3, si calcolino le frequenze assolute cumulate
Distribuzione dei voti in statistica

Voto Frequenza assoluta Frequenza assoluta cumulata
18 3 3
20 2 5
22 2 7
23 4 11
24 3 14
25 1 15
26 1 16
27 2 18
28 1 19
30 1 20
20
In questo caso i valori riportati nell’ultima colonna indicano il numero di studenti con un voto minore o uguale a ciascuno
dei valori corrispondenti. Così, per esermpio, la frequenza assoluta cumulata in corrispondenza della quarta riga interna
della tabella indica che 11 studenti hanno passato l’esame con un voto minore o uguale a 23.
In modo analogo, considerata la j-esima determinazione ordinata in modo non decrescente, la frequenza
relativa cumulata corrispondente è
j
Fj   f h j  1,2,..., k 2.2.5
h 1
ed esprime la proporzione di unità statistiche che presentano una determinazione della variabile X inferiore o
uguale a cj.
In questo caso risulta ovviamente F1  f1 , Fk  1. Dalle frequenze cumulate si può risalire alle corrispondenti
frequenze assolute e relative attraverso le seguenti relazioni nj = Nj – Nj-1, fj = Fj – Fj-1.

Nella successiva tabella 2.2.3, per esempio, sono indicate le frequenze relative cumulate calcolate in base ai
dati della tabella 2.1.3, e i valori riportati nell’ultima colonna in corrispondenza delle determinazioni cj (per j
= 1, 2, …, k) della X indicano la proporzione di famiglie con un numero di componenti non superiore a cj.
Tabella 2.2.3
Frequenze cumulate delle famiglie in abitazione per numero di componenti
Componenti Numero famiglie Frequenze relative Frequenze relative cumulate

1 5409180 0.248 0.248
2 5900965 0.271 0.519
3 4703320 0.216 0.735
4 4133369 0.190 0.925
5 1263934 0.058 0.983
6 o più 367460 0.017 1.000
21778228 1
19
Così, per esempio, 0.735 è la proporzione di famiglie con un numero di componenti inferiore o uguale a 3,
mentre 0.925 è la proporzione di famiglie con un numero di componenti non superiore a 4.
Le informazioni sulla distribuzione di una variabile descritte dalle Nj o dalle Fj sono equivalenti a quelle fornite
dalle nj e dalle fj dato che, come si è visto, dalle prime si possono sempre ottenere le seconde e viceversa. Così,
per esempio, la proporzione di famiglie con 3 componenti corrisponde alla differenza fra 0.735 e 0.519, mentre
quella delle famiglie con 2 o 3 componenti corrisponde alla differenza 0.735 – 0.248.
Nota
In alcuni casi le distribuzioni di frequenza vengono espresse mediante le cosiddette frequenze percentuali (o, più
semplicemente, percentuali), che si ottengono dalle frequenze relative moltiplicandole per 100. In questo caso la somma
di tutte le frequenze percentuali risulta ovviamente pari a 100.
2.3 Rappresentazioni grafiche per variabili qualitative e quantitative discrete

Le distribuzioni di frequenza possono essere rappresentate attraverso grafici che hanno lo scopo di visualizzare
in modo immediato alcune caratteristiche della distribuzione della variabile di interesse. Le rappresentazioni
grafiche sono un valido ausilio sia in una fase preliminare di analisi dei dati, sia in una fase finale di
presentazione delle analisi stesse. Queste rappresentazioni risultano facilmente comprensibili e non richiedono
conoscenze particolari, tanto che sono largamente utilizzate anche dai più comuni mezzi di comunicazione.
Nelle pagine seguenti verranno analizzati solo alcuni tipi di grafici, di uso più frequente.
La rappresentazione grafica di una distribuzione di frequenza assume forme diverse in relazione al tipo di
variabile.
Un grafico molto utilizzato per rappresentare la distribuzione di una variabile qualitativa sconnessa è il
cosiddetto grafico a torta (in due o tre dimensioni), in cui ad ogni modalità viene associato un settore circolare
(spicchio della torta) il cui angolo al centro è proporzionale alla frequenza relativa (o assoluta) corrispondente
alla modalità.
Nella figura 2.3.1è riportato il grafico a torta in tre dimensioni relativo ai dati della tabella 2.2.1a.
20
Figura 2.3.1
Rappresentazione grafica della distribuzione degli occupati di sesso maschile in Italia per attività economica
trasp. e com.
agricoltura
cred., ass., serv.
imp., nol. Industria
commercio
altre attività
Esistono numerosi altri tipi di grafico che potrebbero essere utilizzati al posto di quello appena esaminato e
che sono anche di più semplice costruzione, ma il criterio generale adottato nella costruzione di un grafico a
torta è analogo a quello utilizzato per tutti i grafici che si riferiscono a una variabile qualitativa, sia ordinabile
sia non ordinabile.
Il criterio generale per la costruzione di un grafico relativo a una variabile qualitativa consiste nell’associare a
ciascuna delle k modalità distinte della variabile un segmento o un rettangolo di altezza proporzionale alla
frequenza corrispondente.
Un tipo di grafico frequentemente utilizzato è il grafico a barre (o grafico a colonne), in cui i rettangoli
corrispondenti alle modalità hanno base di ampiezza arbitraria e altezza proporzionale alla frequanza
corrispondente. Un esempio di grafico a barre è quello riportato nella figura 2.3.2, costruito sulla base dei dati
riportati nella tabella 2.1.1, in cui le determinazioni della variabile sono riportate in ascissa, mentre le altezze
dei rettangoli risultano proporzionali alle frequenze assolute corrispondenti. In una rappresentazione dei dati
di questo tipo si possono utilizzare altre figure geometriche al posto dei rettangoli come, per esempio,
parallelepipedi o cilindri. Se la distribuzione della variabile fosse stata espressa mediante le frequenze relative
anziché mediante le frequenze assolute, si sarebbe ottenuto un grafico praticamente identico, dato che la sola
differenza sarebbe consistita in un cambio di scala sull’asse delle ordinate.
21
Figura 2.3.2
Rappresentazione grafica della distribuzione degli occupati in Italia per attività economica
8000000
7000000
6000000
5000000
occupati
4000000
3000000
2000000
1000000
0
Industria altre attività commercio cred., ass., serv. agricoltura trasp. e com.
imp., nol.
attività economica
La rappresentazione grafica di una distribuzione relativa a una variabile qualitativa può essere effettuata
indifferentemente sulla base delle frequenze assolute o delle frequenze relative
La variabile considerata nell'esempio è di tipo sconnesso per cui le sue determinazioni potrebbero essere
riportate sulle ascisse in un ordine qualsiasi ma, per una maggiore leggibilità, è preferibile elencarle in modo
che le altezze dei rettangoli siano poste in ordine decrescente, come nell’esempio considerato, oppure in ordine
crescente. La distribuzione di una variabile qualitativa sconnessa può essere illustrata anche mediante un
grafico, analogo al precedente, in cui si scambiano le ascisse con le ordinate. Questa rappresentazione, che ha
evidentemente la stessa struttura del grafico a colonne e che viene quindi costruita in modo analogo, è
usualmente detta grafico a nastri.
I dati della tabella 2.1.1 sono stati illustrati nuovamente, questa volta mediante il grafico riportato nella figura
2.3.3, in cui al posto di semplici rettangoli sono stati utilizzati dei parallelepipedi. Anche in questo caso i
parallelepipedi sono stati ordinati sulla base delle frequenze, in modo da rendere più semplici i confronti fra i
diversi settori dell’attività economica degli occupati.
La rappresentazione grafica di una variabile qualitativa sconnessa viene effettuata mediante un grafico a nastri
o un grafico a barre ordinando le determinazioni in modo che i rettangoli abbiano le basi o le altezze poste in
ordine crescente o decrescente.
22
Figura 2.3.3
Rappresentazione grafica della distribuzione degli occupati in Italia per attività economica
a e
t c trasp. e com.
t o
i n agricoltura
v o
i m cred., ass., serv. imp., nol.
t i
à c commercio
a
altre attività
Industria
0 1000000 2000000 3000000 4000000 5000000 6000000 7000000 8000000
occupati
Se, invece, la variabile è di tipo qualitativo ordinabile, la rappresentazione grafica della sua distribuzione di
frequenza può essere effettuata sempre mediante grafici a colonne o a nastri, i cui elementi vengono però
posizionati in ascissa (o in ordinata) sulla base dell'ordine naturale delle determinazioni assunte dalla variabile.
Si ricorda che lo stesso criterio era già stato utilizzato nella costruzione di una distribzuione di frequenza
relativa a una variabile qualitativa ordinabile.
Supponiamo per esempio che la rilevazione del grado di soddisfazione di una collettività di clienti di un
supermercato riguardo alla qualità dei servizi offerti abbia fornito le informazioni riportate nella tabella
successiva.
Tabella 2.3.1
Distribuzione del grado di soddisfazione
Soddisfazione Frequenza relativa

Insufficiente 0.25
Sufficiente 0.50
Buono 0.20
Ottimo 0.05
1
Il grafico a nastri corrispondente assume in questo caso la forma riportata nel grafico seguente, in cui le
deeterminazioni della variabile sono state elencate in ordinata secondo un livello di soddisfazione crescente.
23
Figura 2.3.4
Rappresentazione grafica della distribuzione riportata nella Tabella 2.3.1
O
modalità
0 0,1 0,2 0,3 0,4 0,5

frequenze relative
La rappresentazione grafica di una variabile qualitativa ordinabile viene effettuata mediante un grafico a barre
o un grafico a nastri elencando le determinazioni in ascissa o in ordinata secondo il loro ordine naturale,
crescente o decrescente.
Nel caso in cui la distribuzione di frequenza si riferisca invece a una variabile quantitativa discreta, la sua
rappresentazione grafica è effettuata mediante un diagramma ad aste, che si ottiene come un grafico a colonne
sostituendo però i rettangoli che lo compongono con dei segmenti, proprio per evidemnziare che la variabile
in esame assume specifici valori numerici. Anche in questo caso la scelta sul tipo di frequenze da utlizzare per
determinare l’altezza dei segmenti è del tutto soggettiva.
La rappresentazione grafica di una distribuzione relativa a una variabile quantitativa discreta è un diagramma
ad aste (o segmenti) per il quale si utilizza un sistema cartesiano. I diversi valori assunti dalla variabile sono
riportati sull'asse delle ascisse nella posizione determinata dalla scala di misura adottata, mentre l’altezza dei
segmenti è proporzionale alla frequenza (relativa o assoluta) corrispondente.
Un esempio di diagramma ad aste è riportato nella figura 2.3.5 che illustra i dati della tabella 2.1.3 per le
famiglie fino a 5 componenti, dato che nella tabella non è specificata la suddivisione delle frequenze fra i
diversi valori della variabile maggiori o uguali a 6.
24
Figura 2.3.5
Rappresentazione grafica della distribuzione delle famiglie in abitazione per numero di componenti
6000000
5000000
frequenza assoluta
4000000
3000000
2000000
1000000
0
0 1 2 3 4 5
componenti
Anche questo tipo di rappresentazione, cosi come le precedenti, consente una percezione immediata della
distribuzione delle unità statistiche fra le diverse determinazioni assunte dalla variabile.
Nota
Se la distribuzione di un carattere quantitativo discreto è raggruppata in classi di valori, la distribuzione del carattere
all'interno delle singole classi ovviamente non è nota e può essere valutata solo in modo approssimato.
In genere in statistica si adotta l’ipotesi di equiripartizione delle frequenze, suddividendo equamente la frequenza
complessiva associata a un intervallo fra tutti i valori che la variabile potrebbe assumere all'interno di quell’intervallo.
In base all’ipotesi di equiripartizione la frequenza associata a una classe riferita a una variabile quantitativa discreta è
ripartita in modo uguale fra tutti i valori che la variabile può assumere all'interno della classe stessa.
Con riferimento alla tabella 2.1.6 analizzata nel paragrafo 2.1, per esempio, non è nota la frequenza degli edifici con un
numero di abitazioni pari a 3 e a 4 ma, in base all’ipotesi di equiripartizione, le frazioni di frequenza che competono "in
media" a ciascuno dei due valori sono 3478593/2. Allo stesso modo, la frequenza complessiva associata alla classe [5, 8],
che dalla tabella 2.1.6 risulta pari a 3223761, è stata suddivisa equamente fra i 4 valori interi compresi nella classe,
ottenendo una frequenza media pari a 805940.25.
Seguendo questo criterio, le frequenze associate a ogni singolo valore assunto dalla variabile sono quelle riportate nella
successiva tabella 2.3.2 (dove non sono stati indicati i dati relativi ai valori della variabile maggiori di 15, dato che l'ultima
classe era aperta).
Tabella 2.3.2
Distribuzione delle abitazioni in edifici a uso abitativo per numero di abitazioni nell'edificio
numero abitazioni numero valori della classe frequenza media per ogni valore
1 1 6902088.00
2 1 4560856.00
3o4 2 1739296.50
Da 5 a 8 4 805940.25
Da 9 a 15 7 445388.14
25
La frequenza complessiva associata a ogni classe di una distribuzione relativa a una variabile quantitativa discreta è divisa
per il numero di determinazioni comprese in quella classe, ottenendo la cosiddetta frequenza media, che risulta costante
per tutti i valori della variabile che sono compresi nella classe stessa.
Una volta adottata questa ipotesi, la distribuzione può essere quindi rappresentata mediante il grafico ad aste riportato
nella figura seguente in cui a ogni valore contenuto all’interno di una certa classe è associato un segmento che ha
un’altezza identica a quella dei segmenti associati agli altri valori compresi in quella stessa classe.
Figura 2.3.6
Rappresentazione grafica della distribuzione riportata nella tabella 2.3.2
7000000
6000000
5000000
frequenza media degli edifici
4000000
3000000
2000000
1000000
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
numero di abitazioni
In pratica, tuttavia, se i valori contenuti nelle classi sono molto numerosi, anche la distribuzione di una variabile discreta
raggruppata in classi può essere rappresentata, per semplicità, mediante il grafico che si utilizza per variabili quantitative
continue, che sarà analizzato in dettaglio nel paragrafo seguente.
2.4 Rappresentazioni grafiche per variabili quantitative continue

Se la distribuzione in classi si riferisce a un carattere quantitativo continuo, il grafico utilizzato per illustrarla
evidenzia il fatto che le frequenze non sono concentrate su singole determinazioni, ma sono diffuse su intervalli
di valori. Considerata, per esempio, la distribuzione della statura (misurata in centimetri) di una collettività di
100 individui riportata nella tabella successiva, si può affermare che la prima frequenza relativa, pari a 0.04,
si riferisce a tutti i valori della variabile compresi nella prima classe; la seconda frequenza relativa, pari a 0.08,
si riferisce all’intervallo di valori (150, 155] e cosi via.
Tabella 2.4.1
Distribuzione di 100 individui secondo la statura in centimetri
statura Frequenza relativa

140  150 0.04
150  155 0.08
155  160 0.16
160 165 0.22
165  170 0.20
170  180 0.25
180  190 0.05
1
26
Anche in questa situazione, così come avveniva per una distribuzione in classi per una variabile quantitativa
discreta, la distribuzione del carattere all'interno delle singole classi non è nota con esattezza, ma può essere
valutata in modo approssimato utilizzando una qualche ipotesi distributiva.
Nel caso di una variabile continua si adotta in genere l'ipotesi, in un certo senso equivalente a quella di
equiripartizione delle frequenze che si è analizzata nel paragrafo precedente, di distribuzione uniforme
all'interno di ogni singola classe.
Si consideri quindi la generica j-esima classe (cj-1, cj] alla quale è associata la frequenza relativa fj e si indichi
con j la sua ampiezza, ovvero j = cj - cj-1. Il rapporto
fj fj
 2.4.1
c j  c j1 j
rappresenta il grado di addensamento delle frequenze in questa classe ed è chiamato densità di frequenza.
La rappresentazione grafica che si adotta quando si ha una distribuzione per classi è detta istogramma ed è
costituita da un insieme di rettangoli aventi per base le classi e altezza proporzionale alla densità di frequenza
Cf j
corrispondente, ovvero h j  .Considerata la generica j-esima classe (cj-1, cj], il rettangolo corrispondente
j
avrà quindi una base di lunghezza pari a j e un’altezza pari a hj. Il prodotto della base per l’altezza, pari
all’area del rettangolo, è quindi proporzionale alla frequenza complessiva associata alla classe.
Una distribuzione di frequenza per classi viene usualmente rappresentata con un istogramma, costituito da un
insieme di rettangoli le cui basi, posizionate sull’asse delle ascisse, corrispondono alle classi e le cui altezze
sono invece proporzionali alla densità di frequenza corrispondente.
In questo modo l’area di ciascun rettangolo risulta proporzionale alla frequenza associata alla classe stessa.
Nella tabella 2.4.2 sono stati ripresi i dati della tabella 2.4.1 aggiungendo le ampiezze delle singole classi e le
densità di frequenza corrispondenti, necessarie per disegnare l’istogramma riportato nella figura 2.4.1.
Tabella 2.4.2
Distribuzione di 100 individui secondo la statura in centimetri
statura Frequenza relativa ampiezza delle classi densità di frequenza

140  150 0.04 10 0.004
150  155 0.08 5 0.016
155  160 0.16 5 0.032
160 165 0.22 5 0.044
165  170 0.20 5 0.040
170  180 0.25 10 0.025
180  190 0.05 10 0.005
1
27
Figura 2.4.1
Rappresentazione grafica della distribuzione di 100 individui secondo la statura
0,05
0,04
0,03
densità
0,02
0,01
0
130 140 150 160 170 180 190 200
Statura
Esempio 2.4.1
Considerata la distribuzione della popolazione italiana residente per classe di ampiezza demografica dei comuni, fino a
20.000 abitanti, riportata nella tabella successiva
Distribuzione della popolazione residente per classe di ampiezza demografica dei comuni
Classi di ampiezza demografica Frequenza assoluta

Fino a 500 258097
501 – 1000 843374
1001 – 2000 2457057
2001 – 3000 2392333
3001 – 4000 2473123
4001 – 5000 2166744
5001 – 10000 8040885
10001 – 15000 5403935
15001 – 20000 3265182
27300730
Le informazioni necessarie per disegnare l’istogramma corrispondente sono riportatate nella tabella successiva in cui si è
posto pari a zero l’estremo inferiore della prima classe e si sono moltiplicate le densità per 100, in modo da avere cifre
significative a partire dal terzo decimale.
28
Distribuzione della popolazione residente per classe di ampiezza demografica dei comuni
classi ampiezza demografica Frequenza relativa densità×100

0 – 500 0.0095 0.0019
501 – 1000 0.0309 0.0062
1001 – 2000 0.0900 0.0090
2001 – 3000 0.0876 0.0088
3001 – 4000 0.0906 0.0091
4001 – 5000 0.0794 0.0079
5001 – 10000 0.2945 0.0059
10001 – 15000 0.1979 0.0040
15001 – 20000 0.1196 0.0024
1.0000
La rappresentazione grafica corrispondente è la seguente.
Rappresentazione grafica della distribuzione della popolazione residente

per classe di ampiezza demografica dei comuni
0,01
0,009
0,008
0,007
0,006
densità 0,005
0,004
0,003
0,002
0,001
0
0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000
ampiezza demografica
29

Organizzazione Dei Dati

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Organizzazione Dei Dati

Caricato da

Copyright:

Formati disponibili

2.

ORGANIZZAZIONE DEI DATI

2.1 Distribuzioni di frequenza

Attività economica Numero di individui

Grado di istruzione Numero di individui

Componenti Numero di famiglie

Altezza (in cm.) Numero di piantine

la distribuzione di frequenza assume la forma

Distribuzione dei giudizi

la distribuzione di frequenza dei voti assume la forma

Distribuzione dei voti in statistica

variabile X che rispettano la relazione cj-1 < x  cj.

Numero di abitazioni Frequenza

Classi di età Frequenza

Tipo Edizione Numero di opere

2.2 Frequenze relative e cumulate

Attività economica Frequenza

Attività economica Frequenza

Attività economica Maschi Femmine

Distribuzione dei voti in statistica

frequenze assolute e relative attraverso le seguenti relazioni nj = Nj – Nj-1, fj = Fj – Fj-1.

Componenti Numero famiglie Frequenze relative Frequenze relative cumulate

2.3 Rappresentazioni grafiche per variabili qualitative e quantitative discrete

0 1000000 2000000 3000000 4000000 5000000 6000000 7000000 8000000

Soddisfazione Frequenza relativa

0 0,1 0,2 0,3 0,4 0,5

2.4 Rappresentazioni grafiche per variabili quantitative continue

statura Frequenza relativa

con j la sua ampiezza, ovvero j = cj - cj-1. Il rapporto

statura Frequenza relativa ampiezza delle classi densità di frequenza

Classi di ampiezza demografica Frequenza assoluta

classi ampiezza demografica Frequenza relativa densità×100

La rappresentazione grafica corrispondente è la seguente.

Rappresentazione grafica della distribuzione della popolazione residente

Potrebbero piacerti anche