Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
In questa lezione vedremo come organizzare i dati raccolti su una popolazione o su un campione affinché
possano essere elaborati successivamente dallo statistico e poter evidenziare le informazioni fornite da essi.
Questa operazione è fondamentale in quanto i dati grezzi non forniscono alcuna informazione finché non
ordinati in qualche modo.
I dati (o variabili) oggetto di rilevazioni statistiche si classificano in più tipi diversi, a seconda del tipo di
valori che assumono
variabili
discrete continue
Una variabile si dice numerica se i valori che essa assume sono numeri, non numerica altrimenti;
una variabile numerica si dice discreta se l'insieme dei valori che essa a priori può assumere è finito
o numerabile, continua se l'insieme dei valori che essa a priori può assumere è l'insieme dei
numeri reali o un intervallo I di numeri reali. Per decidere se una variabile è discreta o continua, si
deve ragionare su quali sono i valori che a priori la variabile può assumere e non sui valori
effettivamente assunti (è evidente che i valori assunti in n osservazioni saranno al più n, quindi
sempre in numero finito).
I dati grezzi ottenuti da rilevazioni statistiche, per essere studiati, devono essere divisi in classi e
determinare il numero di individui appartenenti a ciascuna classe, detto frequenza della classe. Si
può quindi costruire la tabella di distribuzione di frequenza, ossia una tabella che raccoglie i dati
secondo le classi e le corrispondenti frequenze.
18 21 23 24 24 18 30 29 28 27
19 22 25 26 19 21 30 24 24 25
27 24 27 28 24 25 22 21 23 30
24 18 19 30 30 29 28 23 25 28
Nell’esempio, la variabile x osservata è una variabile numerica discreta, che può assumere solo
valori interi; poiché i valori assunti sono i numeri interi 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29,
30, è naturale scegliere come classi i numeri k = 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30 e
contare per ogni classe il numero di osservazioni. In questo modo si costruisce la seguente tabella di
distribuzione di frequenza.
Nella tabella l la prima colonna indica la classe; la seconda la frequenza assoluta o frequenza di
classe, ovvero il numero di osservazioni che cadono in ciascuna classe; la terza colonna la
frequenza relativa, ovvero il rapporto tra frequenza assoluta e il numero totale di osservazioni
(nell’esempio sono 40); la quarta è la frequenza percentuale, ovvero la frequenza relativa
moltiplicata per 100.
Osservazioni
I valori riportati nella tabella di distribuzione di frequenza nel caso di variabili numeriche discrete
godono delle seguenti proprietà:
Rilevando le altezze di 40 studenti si ottengono i seguenti dati (i valori sono riportati in centimetri):
155 158 165 180 181 169 174 176 167 172
169 170 156 189 166 159 160 188 178 177
157 165 160 176 182 185 175 190 166 165
178 180 188 165 176 163 161 162 174 179
Nell'esempio la variabile osservata è continua e i valori dei dati sono compresi tra 155 cme 190 cm;
il campo di variazione R o range dei dati, ovvero la differenza tra il più grande e il più piccolo, vale
R=190−155=35
Nel caso di variabili numeriche continue, il modo di scegliere le classi non è unico, l’unica cosa
importante è che le classi non devono sovrapporsi e devono contenere tutti i dati. Di solito inoltre le
classi hanno tutte la stessa ampiezza sebbene questa caratteristica in generale non è obbligatoria e in
certi casi il tipo di dati può suggerire la scelta di classi di ampiezza diversa; inoltre, per dati
continui, è necessario specificare se le classi sono chiuse a destra e/o a sinistra, ossia se i dati
coincidenti con gli estremi della classe devono essere raggruppati nella classe stessa o in una delle
classi adiacenti. Troppe classi rendono la tabella poco leggibile mentre ovviamente troppo poche
classi la rendono poco significativa; generalmente il numero delle classi è normalmente compreso
fra 5 e 15 arrivando ad un massimo di venti se i dati sono molto numerosi.
Una regola pratica consiste nello scegliere un numero di classi approssimativamente uguale alla
radice quadrata del numero dei dati
k =√ n
k ≅ 1+3,322 ∙ log n
dove n rappresenta il numero dei dati presi in considerazione e k il numero delle classi da usare.
L'ampiezza delle classi (nel caso di classi di uguale ampiezza) può essere determinata applicando la
formula
R
ampiezza=
k
I risultati ottenuti dall’applicazione di queste formule devono essere comunque interpretati come
indicazioni di massima, da valutare caso per caso, a seconda dei dati da trattare.
k =√ 40 ≅ 7
35
ampiezza= =5
7
Osservazioni
Il procedimento di raggruppamento dei dati fa perdere alcune delle informazioni che provengono
dai dati: ad esempio invece di conoscere l'esatto valore di un'osservazione, si sa solo che cade in un
certo intervallo. Ciò accade per la distribuzione di frequenza di ogni variabile continua. Tuttavia, si
trae un importante vantaggio dalla “leggibilità” che si ottiene e dalle relazioni fra i dati che si
rendono evidenti.
Nel caso della variabile discreta non vi è invece perdita di informazione, in quanto le classi tengono
conto di ogni valore assunto. Talvolta però, soprattutto quando i dati sono numerosi, anche per una
variabile discreta è conveniente utilizzare come classi degli intervalli, anziché distinguere tutti i
valori assunti.
Rilevando il livello di divertimento mostrato nel guardare il film “Quo Vado” si sono ottenuti i
seguenti dati:
Nell'esempio la variabile “divertimento” è non numerica; i dati sono già raggruppati già in classi e
si ottiene la seguente tabella di distribuzione di frequenza
Ci sono altri modi di raggruppare i dati: ad esempio dati “minori di”, “maggiori di” ottenendo in
questo modo le distribuzioni cumulative. La frequenza totale di tutti i valori minori del limite
superiore di una data classe è detta frequenza cumulativa. Una tabella che presenti frequenze
cumulative è detta tabella di distribuzione cumulativa di frequenza. Si possono cumulare
frequenze assolute, relative e percentuali tenendo presente che l'ultimo valore che compare nella
tabella sarà uguale al numero totale di dati per le frequenze assolute, uguale a 1 per le frequenze
relative e uguale a 100 per quelle percentuali.
Grafici in statistica
Per rendere il più facile possibile l’estrazione di informazioni dai dati ottenuti è opportuno
rappresentarli in maniera grafica. A tale scopo in questa lezione vengono descritti alcune
rappresentazioni grafiche usate per le distribuzioni di frequenza e per le distribuzioni cumulative.
Tali grafici possono essere ottenuti manualmente ma anche per mezzo di particolari software che
permettono di ottenere rapidamente i vari tipi di grafici (i grafici sono ottenuti con Excel).
Diagramma a barre particolarmente indicato per variabili non numeriche e per variabili discrete. I
dati vengono raggruppati in classi e per ciascuna classe si disegna un rettangolo avente altezza pari
alla frequenza di classe e base di larghezza costante. Generalmente i rettangoli non sono adiacenti e
sono equidistanti fra loro.
29 2
28 4
27 3
26 1
25 4
24 7
23 3
22 2
21 3
20 0
19 3
18 3
0 1 2 3 4 5 6 7
Gli istogrammi sono realizzati generalmente con un insieme di rettangoli adiacenti che presentano
le basi sull’asse orizzontale le cui ampiezze sono gli intervalli che definiscono le classi e altezza
corrispondente alla frequenza considerata (frequenza assoluta o relativa).
Frequenze relative
Frequenze relative
0.4
0.29
0.18
0.08
0.05
f :100=g :360 °
votazioni percentuali
30 18
29 8%
5% 13% 19
8%
21
8%
28
10% 22
5%
27 23
8% 8%
25 24
26 10%
3% 18%
18 19 20 21 22 23 24 25 26 27 28 29 30