Sei sulla pagina 1di 3

SCHEDA 2

VARIABILI QUANTITATIVE I

¾ Variabili quantitative
Una variabile si dice quantitativa se è una grandezza misurabile. Per esempio: l'età, il peso, la statura, il reddito, etc.
L'insieme dei valori assunti dalla variabile e le frequenze corrispondenti è detto distribuzione: quindi se i differenti valori
assunti dalla variabile sono m, indicando con xk tali valori e con fk le corrispondenti frequenze, allora la distribuzione è
l'insieme delle coppie (xk ,fk) per k da 1 a m.

Attenzione alle notazioni. Indichiamo con


N il numero delle osservazioni
m il numero dei differenti valori assunti dalla variabile
xi il valore della i-esima osservazione (i=1, … , N)
xk il k-esimo valore dei dati non ripetuti (k=1, … , m)
¾ Diagramma di dispersione

Il modo più semplice di rappresentare graficamente la distribuzione di X è quello di costruire il diagramma di dispersione (dotplot o
scattergram). E' simile al diagramma a barre per le variabili qualitative: si ottiene riportando in un grafico un punto per ogni valore assunto
dalla variabile. Sull'asse orizzontale sono rappresentati i valori di X: in corrispondenza ad ogni valore assunto si disegna un numero di punti
proporzionale al numero delle osservazioni.

Esempio 1. Nella tabella seguente sono riportati alcuni dati osservati su un campione di 18 studenti stranieri iscritti ai corsi
tecnici serali dell'IIS Vittorio Emanuele II nell’anno scolastico 2017-18, estratto dalla popolazione di 85 studenti
stranieri.
n. ordine classe frequentata età
1 4 37
2 3 20
3 1 18
4 2 21
5 1 30
6 1 31
7 2 22
8 1 20
9 1 19
10 3 21
11 3 20
12 5 25
13 3 20
14 1 19
15 5 28
16 2 20
17 2 23
18 4 21
Per diagramma di dispersione: Variabile Età e Variabile Altezza

Il dotplot è il seguente
Se i valori delle osservazioni differenti sono fitti e numerosi, molti software statistici introducono approssimazioni nella scala
dei valori di X e ad ogni punto fanno corrispondere più unità sperimentali.
N.B. La variabile CLASSE FREQUENTATA pur assumendo valori interi è meglio classificabile come variabile qualitativa
ordinale, infatti non corrisponde ad una misura

¾ Funzione di distribuzione cumulata


Un'ulteriore rappresentazione di una variabile quantitativa X è la funzione di distribuzione cumulata F (o funzione di
ripartizione), ovvero F(x) è la frequenza f di tutte le osservazioni minori o uguali a x; cioè

F ( x ) = f ( X ≤ x ) = ∑
k
f k

( con x k ≤ x)

Per costruire la funzione di distribuzione cumulata si costruisce una tabella con i valori assunti dalla variabile, le
corrispondenti frequenze relative e le corrispondenti frequenze relative cumulate (ottenute sommando le frequenze relative
dei dati inferiori o uguali al valore considerato).

Nel caso della variabile ETA’ dell’esempio 1

ETA’ 18 19 20 21 22 23 25 28 30 31 37
frequenze 0.06 0.11 0.28 0.16 0.06 0.06 0.06 0.06 0.06 0.06 0.06
frequenze cumulate 0.06 0.17 0.45 0.61 0.67 0.72 0.78 0.83 0.89 0.94 1

Per introdurre un minor numero di errori di approssimazione può essere più opportuno costruire la funzione di
distribuzione cumulata a partire dai conteggi cumulati

ETA’ 18 19 20 21 22 23 25 28 30 31 37
conteggi 1 2 5 3 1 1 1 1 1 1 1
conteggi cumulati 1 3 8 11 12 13 14 15 16 17 18
frequenze cumulate 0.06 0.17 0.45 0.61 0.67 0.72 0.78 0.83 0.89 0.94 1

¾ Istogramma

Infine vediamo una rappresentazione grafica non sempre efficace: l’istogramma

Si suddivide l’intervallo in cui variano i dati in classi (preferibilmente di uguale ampiezza) e si assegna ogni osservazione
rilevata alla classe corrispondenza. La scelta del numero di classi non è indifferente: troppo poche appiattiscono il grafico
fino a renderlo insignificante; troppe classi introducono tra le barre oscillazioni eccessive, che potrebbero distruggere
l’eventuale “regolarità” dell’istogramma. L’istogramma si disegna come i diagrammi a barre per le variabili qualitative, ma
facendo attenzione che i “rettangoli” verticali devono essere adiacenti ed avere come vertici i punti che separano le classi.

Esempio: consideriamo la variabile ETA’ dell’esempio 1

Istogramma (età)
classi di età conteggi frequenze
15-19 3 0,17
0.6
20-24 10 0,56
0.5 25-29 2 0,11
30-34 2 0,11
Frequenza relativa

0.4
35-39 1 0,06
0.3

0.2

0.1

0
15 20 25 30 35 40

età
La rappresentazione dei dati tramite istogrammi è da usare con molta cautela perché la suddivisione dei dati in classi è in
genere arbitraria, in particolare se le classi sono ampie o se i dati sono pochi. Solo in casi particolari le classi sono stabilite dal
contesto che si sta esaminando (ad esempio scaglioni di reddito).

Riprendendo l’esempio della variabile ETA’ dell’esempio 1, se si suddivide l’intervallo dei dati in 7 classi anziché 5, si ottiene
un istogramma che sembra indurre a conclusioni differenti dal precedente

Istogramma (età)

0.45

0.4 classi di età conteggi frequenze


0.35
18-20 8 0,44
Frequenza relativa

0.3

0.25
21-23 5 0,28
0.2 24-26 1 0,06
0.15
27-29 1 0,06
0.1

0.05
30-32 2 0,11
0
15 20 25 30 35 40
33-35 0 0,00
età 36-38 1 0,06

Nel caso in cui si scelgano classi con ampiezza differente si devono costruire rettangoli la cui area sia proporzionale alla
frequenza.. Ad esempio con questo nuovo raggruppamento dei dati in tre classi

classi di età ampiezza classe conteggi frequenze


18-21 4 11 0,61
22-29 8 4 0,22
30-37 8 3 0,17

Nel caso in cui si scelgano classi di uguale ampiezza, il fatto che l’area sia proporzionale all’ampiezza segue dal fatto che le
altezze delle barre lo sono.

Potrebbero piacerti anche