Sei sulla pagina 1di 9

I concetti introduttivi di statistica descrittiva

Come organizzare i dati

In questa lezione vedremo come organizzare i dati raccolti su una popolazione o su un campione affinché
possano essere elaborati successivamente dallo statistico e poter evidenziare le informazioni fornite da essi.
Questa operazione è fondamentale in quanto i dati grezzi non forniscono alcuna informazione finché non
ordinati in qualche modo.
I dati (o variabili) oggetto di rilevazioni statistiche si classificano in più tipi diversi, a seconda del tipo di
valori che assumono

variabili

numeriche non numeriche


(quantitative) (qualitative)

discrete continue

Una variabile si dice numerica se i valori che essa assume sono numeri, non numerica altrimenti;
una variabile numerica si dice discreta se l'insieme dei valori che essa a priori può assumere è finito

o numerabile, continua se l'insieme dei valori che essa a priori può assumere è l'insieme dei
numeri reali o un intervallo I di numeri reali. Per decidere se una variabile è discreta o continua, si
deve ragionare su quali sono i valori che a priori la variabile può assumere e non sui valori
effettivamente assunti (è evidente che i valori assunti in n osservazioni saranno al più n, quindi
sempre in numero finito).
I dati grezzi ottenuti da rilevazioni statistiche, per essere studiati, devono essere divisi in classi e
determinare il numero di individui appartenenti a ciascuna classe, detto frequenza della classe. Si
può quindi costruire la tabella di distribuzione di frequenza, ossia una tabella che raccoglie i dati
secondo le classi e le corrispondenti frequenze.

Esempio 1 Variabili numeriche discrete.

Rilevando il voto di 40 studenti all’esame di statistica si ottengono i seguenti dati:

18 21 23 24 24 18 30 29 28 27
19 22 25 26 19 21 30 24 24 25
27 24 27 28 24 25 22 21 23 30
24 18 19 30 30 29 28 23 25 28

Nell’esempio, la variabile x osservata è una variabile numerica discreta, che può assumere solo
valori interi; poiché i valori assunti sono i numeri interi 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29,
30, è naturale scegliere come classi i numeri k = 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30 e
contare per ogni classe il numero di osservazioni. In questo modo si costruisce la seguente tabella di
distribuzione di frequenza.

Nella tabella l la prima colonna indica la classe; la seconda la frequenza assoluta o frequenza di
classe, ovvero il numero di osservazioni che cadono in ciascuna classe; la terza colonna la
frequenza relativa, ovvero il rapporto tra frequenza assoluta e il numero totale di osservazioni
(nell’esempio sono 40); la quarta è la frequenza percentuale, ovvero la frequenza relativa
moltiplicata per 100.

Classe Freq. assoluta Freq. relativa Freq. Percentuale


18 3 operazione per ogni cella operazione per ogni cella
3 0,075∗100=7 ,50 %
=0,075
40
19 3 0,075 7,50%
20 0 0 0,00%
21 3 0,075 7,50%
22 2 0,050 5,00%
23 3 0,075 7,50%
24 7 0,175 17,50%
25 4 0,100 10,00%
26 1 0,025 2,50%
27 3 0,075 7,50%
28 4 0,100 10,00%
29 2 0,050 5,00%
30 5 0,125 12,50%
Totale 40 1 100,00%

Osservazioni

I valori riportati nella tabella di distribuzione di frequenza nel caso di variabili numeriche discrete
godono delle seguenti proprietà:

 la frequenza assoluta è un numero intero compreso tra 0 e il numero totale di osservazioni


(nell’esempio 40)
 la frequenza relativa è un numero reale compreso tra 0 e 1
 la frequenza percentuale è un numero reale compreso tra 0 e 100
 la somma delle frequenze assolute è sempre uguale al numero totale di osservazioni
 la somma delle frequenze relative è sempre uguale a 1(a meno di arrotondamenti dovuti alle
divisioni)
 la somma delle frequenze percentuali è uguale a 100 (a meno di arrotondamenti dovuti alle
divisioni fatte nel calcolo delle frequenze relative).

Esempio 2 Variabili numeriche continue.

Rilevando le altezze di 40 studenti si ottengono i seguenti dati (i valori sono riportati in centimetri):

155 158 165 180 181 169 174 176 167 172
169 170 156 189 166 159 160 188 178 177
157 165 160 176 182 185 175 190 166 165
178 180 188 165 176 163 161 162 174 179

Nell'esempio la variabile osservata è continua e i valori dei dati sono compresi tra 155 cme 190 cm;
il campo di variazione R o range dei dati, ovvero la differenza tra il più grande e il più piccolo, vale
R=190−155=35

Nel caso di variabili numeriche continue, il modo di scegliere le classi non è unico, l’unica cosa
importante è che le classi non devono sovrapporsi e devono contenere tutti i dati. Di solito inoltre le
classi hanno tutte la stessa ampiezza sebbene questa caratteristica in generale non è obbligatoria e in
certi casi il tipo di dati può suggerire la scelta di classi di ampiezza diversa; inoltre, per dati
continui, è necessario specificare se le classi sono chiuse a destra e/o a sinistra, ossia se i dati
coincidenti con gli estremi della classe devono essere raggruppati nella classe stessa o in una delle
classi adiacenti. Troppe classi rendono la tabella poco leggibile mentre ovviamente troppo poche
classi la rendono poco significativa; generalmente il numero delle classi è normalmente compreso
fra 5 e 15 arrivando ad un massimo di venti se i dati sono molto numerosi.

Una regola pratica consiste nello scegliere un numero di classi approssimativamente uguale alla
radice quadrata del numero dei dati

k =√ n

Un'altra regola consiste nell'applicare la seguente formula

k ≅ 1+3,322 ∙ log n

dove n rappresenta il numero dei dati presi in considerazione e k il numero delle classi da usare.

L'ampiezza delle classi (nel caso di classi di uguale ampiezza) può essere determinata applicando la
formula

R
ampiezza=
k

dove R è il campo di variazione dei dati.

I risultati ottenuti dall’applicazione di queste formule devono essere comunque interpretati come
indicazioni di massima, da valutare caso per caso, a seconda dei dati da trattare.

Nell'esempio che si sta esaminando si ha:

k =√ 40 ≅ 7

35
ampiezza= =5
7

Si giustifica così la scelta di 7 classi di ampiezza 5.


Classe Freq. Freq. relativa Freq. Percentuale
assoluta
155≤x<160 5 operazione per ogni cella operazione per ogni cella
5 0,125∗100=12 , 50 %
=0,125
40
160≤x<165 5 0,125 12,50%
165≤x<170 9 0,225 20,00%
170≤x<175 4 0,100 10,00%
175≤x<180 8 0,200 20,00%
180≤x<185 4 0,100 7,50%
185≤x≤190 5 0,125 12,50%
Totale 40 1 100,00%

Osservazioni

È consigliabile scegliere la classe chiusa a sinistra e aperta a destra.

Il procedimento di raggruppamento dei dati fa perdere alcune delle informazioni che provengono
dai dati: ad esempio invece di conoscere l'esatto valore di un'osservazione, si sa solo che cade in un
certo intervallo. Ciò accade per la distribuzione di frequenza di ogni variabile continua. Tuttavia, si
trae un importante vantaggio dalla “leggibilità” che si ottiene e dalle relazioni fra i dati che si
rendono evidenti.

Nel caso della variabile discreta non vi è invece perdita di informazione, in quanto le classi tengono
conto di ogni valore assunto. Talvolta però, soprattutto quando i dati sono numerosi, anche per una
variabile discreta è conveniente utilizzare come classi degli intervalli, anziché distinguere tutti i
valori assunti.

Esempio 3 Variabili non numeriche.

Rilevando il livello di divertimento mostrato nel guardare il film “Quo Vado” si sono ottenuti i
seguenti dati:

Molto divertente 257


Divertente 345
Piacevole 157
Poco piacevole 67
Noiso 44
Totale 870

Nell'esempio la variabile “divertimento” è non numerica; i dati sono già raggruppati già in classi e
si ottiene la seguente tabella di distribuzione di frequenza

Classe Freq. Freq. Freq.


assoluta relativa Percentuale
Molto divertente 257 0,29 29%
Divertente 345 0,40 40%
Piacevole 157 0,18 18%
Poco piacevole 67 0,08 8%
Noiso 44 0,05 5%
Totale 870 1 100%

Ci sono altri modi di raggruppare i dati: ad esempio dati “minori di”, “maggiori di” ottenendo in
questo modo le distribuzioni cumulative. La frequenza totale di tutti i valori minori del limite
superiore di una data classe è detta frequenza cumulativa. Una tabella che presenti frequenze
cumulative è detta tabella di distribuzione cumulativa di frequenza. Si possono cumulare
frequenze assolute, relative e percentuali tenendo presente che l'ultimo valore che compare nella
tabella sarà uguale al numero totale di dati per le frequenze assolute, uguale a 1 per le frequenze
relative e uguale a 100 per quelle percentuali.

La tabella di distribuzione cumulativa di frequenza dell’esempio 1 è la seguente:

Classe Freq. Freq. Freq. Freq. Freq. Freq.


assoluta relativa Percentuale Assoluta Relativa Percentuale
cumulativa cumultativa cumulativa
18 3 0,075 7,50% 3 0,075 7,50%
19 3 0,075 7,50% 6 0,15 15%
20 0 0 0,00% 6 0,15 15%
21 3 0,075 7,50% 9 0,225 22,50%
22 2 0,050 5,00% 11 0,275 27,50%
23 3 0,075 7,50% 14 0,35 35,00%
24 7 0,175 17,50% 21 0,525 52,50%
25 4 0,100 10,00% 25 0,625 62,50%
26 1 0,025 2,50% 26 0,65 65,00%
27 3 0,075 7,50% 29 0,725 72,50%
28 4 0,100 10,00% 33 0,825 82,50%
29 2 0,050 5,00% 35 0,875 87,50%
30 5 0,125 12,50% 40 1 100,00%
Totale 40 1 100,00% 40 1 100,00%

Grafici in statistica

Per rendere il più facile possibile l’estrazione di informazioni dai dati ottenuti è opportuno
rappresentarli in maniera grafica. A tale scopo in questa lezione vengono descritti alcune
rappresentazioni grafiche usate per le distribuzioni di frequenza e per le distribuzioni cumulative.
Tali grafici possono essere ottenuti manualmente ma anche per mezzo di particolari software che
permettono di ottenere rapidamente i vari tipi di grafici (i grafici sono ottenuti con Excel).

Diagramma a barre particolarmente indicato per variabili non numeriche e per variabili discrete. I
dati vengono raggruppati in classi e per ciascuna classe si disegna un rettangolo avente altezza pari
alla frequenza di classe e base di larghezza costante. Generalmente i rettangoli non sono adiacenti e
sono equidistanti fra loro.

Il diagramma a barre della distribuzione di frequenza assoluta dell’esempio 1 è il seguente:


30 5

29 2

28 4

27 3

26 1

25 4

24 7

23 3

22 2

21 3

20 0

19 3

18 3
0 1 2 3 4 5 6 7

Frequenze assolute delle votazioni conseguite

Gli istogrammi sono realizzati generalmente con un insieme di rettangoli adiacenti che presentano
le basi sull’asse orizzontale le cui ampiezze sono gli intervalli che definiscono le classi e altezza
corrispondente alla frequenza considerata (frequenza assoluta o relativa).

L'istogramma corrispondente alla distribuzione di frequenza relativa studiata nell’esempio 3 è il


seguente:

Frequenze relative
Frequenze relative
0.4

0.29

0.18

0.08
0.05

Molto divertente Divertente Piacevole Poco piacevole Noiso


Diagramma circolare o a torta, più adatto per le frequenze percentuali e per le variabili non
numeriche, ha i dati rappresentati da settori circolari aventi ampiezze proporzionali alle frequenze
stesse e calcolate mediante la formula:

f :100=g :360 °

Considerando la colonna delle frequenze percentuali dell’esempio 1 si ottiene il seguente


diagramma:

votazioni percentuali

30 18
29 8%
5% 13% 19
8%
21
8%
28
10% 22
5%
27 23
8% 8%

25 24
26 10%
3% 18%

18 19 20 21 22 23 24 25 26 27 28 29 30

Potrebbero piacerti anche