Sei sulla pagina 1di 3

SCHEDA 3

VARIABILI QUANTITATIVE II

¾ Quartili e quantili

Può essere interessante porsi il problema inverso del precedente, ovvero voler conoscere il valore per cui tra le osservazioni ordinate c’è una frequenza
assegnata di valori minori o uguali a tale valore.
Ad esempio, riferendosi all’esempio precedente, qual è il valore centrale delle età? Ovvero qual è il valore per cui ci sono
metà persone con un’età inferiore e metà persone con un’età superiore?
Oppure qual è il valore del primo quarto delle età ordinate? E dell’ultimo quarto?
Le domande poste in realtà sono un po’ ambigue.
Più precisamente si definiscono:
9 Mediana (Q2): il minimo valore osservato tale che almeno il 50% (=1/2) dei dati è minore o uguale a
questo
9 Primo quartile (Q1) il minimo valore osservato tale che almeno il 25% (=1/4) dei dati è minore o
uguale a questo
9 Terzo quartile (Q3) il minimo valore osservato tale che almeno il 75% (=3/4) dei dati è minore o
uguale a questo

Per rispondere alle domande precedenti usando le definizioni corrette, utilizziamo il grafico della funzione di distribuzione
cumulata.
Consideriamo il primo quartile Q1 (25%).
Sull’asse delle ordinate si individua il punto 0.25 e da questo si traccia una linea orizzontale: in questo caso la linea non
interseca il grafico della funzione di distribuzione cumulata. Il minimo valore osservato per cui la funzione di distribuzione
cumulata supera 0.25 è 120; F(19)=0.17 e F(20)=0.45

Funzione di ripartizione empirica (Var1)

0.9
Frequenza relativa cumulativa

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
15 20 25 30 35 40

Var1

Possiamo determinare i quartili anche usando la lista ordinata dei dati ripetuti. Nell’esempio della variabile ETA’ si ha:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
18 19 19 20 20 20 20 20 21 21 21 22 23 25 28 30 31 37

Mediana: le due osservazioni centrali (nono e decimo dato) sono 21 e quindi la mediana è 21
Q1: il primo quartile dei dati ordinati è minore o uguale 20 : Infatti 0,25x18=4,5 e la 5a osservazione è 20.
Q3: il terzo quartile dei dati ordinati è minore o uguale a 25: Infatti 0,75x18=13,5 e la 14a osservazione è 25.

In generale dato α, compreso tra 0 e 1, si dice α-esimo quantile (ad esempio α=0.20) il minimo valore osservato per cui
almeno la α-esima parte (il 20%) dei dati risultino minori o uguali a questo.

Il valore dell’ α-esimo quantile è : min {x osservato tale che F(x)≥ α}

Se α è espresso in forma percentuale, invece che di quantili si parla di percentili.


In pratica per calcolare il valore dell’ α-esimo quantile è sufficiente scegliere l’i-esimo dato, dove i è l’approssimazione per
eccesso del prodotto N·α (N è il numero totale delle osservazioni). Ad esempio il 0.2-quantile è il quarto dato (18x0,2=3,6).
N.B. Molti software hanno diversi algoritmi per calcolare i quantili. E’ da osservare che nel caso in cui il numero delle
osservazioni sia molto elevato questi tendono a coincidere.
Il software XLstat calcola i quartili interpolando i valori della funzione. I valori forniti (Descrizione dei dati→ Statistiche
descrittive→ Risultati) per la variabile ETA’ sono:

Statistica ETA'
1° Quartile 20.0
Mediana 21.0
3° Quartile 24.5

Due indici che forniscono informazioni sulla dispersione dell’insieme dei dati osservati sono:

9 Intervallo di variazione R (o Range) definito come differenza tra il valore massimo e il valore minimo dei dati;
Nell’esempio: R=37-18=19
9 Distanza interquartile IQR (o Inter Quartile Range) , definita come differenza tra Q3 e Q1, e che coincide con
l’ampiezza dell’intervallo in cui si trova almeno il 50% dei dati. Nell’esempio: IQR=25-20=5

La mediana fornisce indicazioni sulla centralità delle osservazioni. Ne conosci altri?

¾ Box-plot
Una rappresentazione grafica che si basa sulla definizione dei quantili è il box-plot. Pur fornendo minori informazioni rispetto alla funzione di
distribuzione cumulata, permette di descrivere la variabile in maniera sintetica ed è molto utile per confrontare sottogruppi di dati.

L’idea è quella di individuare con una “scatola” le osservazioni centrali e con dei “baffi” o code uscenti dalla scatola le
osservazioni più estreme.

Vediamo come si costruisce a partire dal dotplot: si disegna una scatola tra i valori Q1 e Q3. Con una linea verticale si
individua la mediana (Q2).
Per la variabile ETA’ dell’esempio si ottiene
Mediana=21
Q1=20
Q2=25
Si disegnano poi i baffi che sono lunghi al più una volta e mezza la distanza interquartile e terminano in corrispondenza del
dato più lontano dalla scatola inferiore a tale valore.
I valori limite L e R per i baffi sono quindi:

L=Q1-1,5 IQR R=Q3+1,5 IQR


Nel nostro esempio, essendo IQR=5, si ha
L=20-1,5x5=20-7,5=12,5 R=25+1,5x5=25+7,5=32,5
Quindi il baffo inferiore si ferma a 18, mentre il baffo superiore arriva a 32,5
I valori che rimangono fuori dei limiti L e R si individuano con asterischi. Nell’esempio il dato 37 viene segnato con ♦.

Box plot (ETA')

40

35

30
ETA'

25

20

15

Nel boxplot non vengono disegnati i punti rappresentanti i dati, ma solo la scatola, i baffi e gli eventuali dati estremi.
Come già detto i boxplot sono molto utili per confrontare i dati di sottogruppi di oggetti.
Esempio 2: Per confrontare la distribuzione delle età degli studenti stranieri iscritti ai corsi serali e ai corsi pomeridiani si
consideri la seguente tabella di un analogo campione di 18 studenti estratto dalla popolazione di 185 allievi iscritti nell’a.s
2007/08 ai corsi professionali pomeridiani..

n. ordine classe frequentata età


1 3 21
2 1 19
3 1 20
4 1 27
5 1 19
6 3 19
7 1 27
8 3 18
9 1 19
10 2 21
11 2 20
12 1 27
13 3 21
14 1 19
15 1 26
16 4 20
17 5 44
18 1 32

Il lettore costruisca il boxplot seguendo la stessa procedura dell’esempio 1:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Mediana= Boxplot
Q1=
Q3=
L=
R=
IQR=

Ripeta ora le operazioni sull’intero gruppo di 36 studenti

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

Mediana= Boxplot
Q1=
Q3=
L=
R=
IQR=

Dal confronto dei tre boxplot commenti le diversità delle tre distribuzioni, relativamente alle diverse simmetrie e
dispersioni dei dati.

________________________________________________________________________________________________
________________________________________________________________________________________________
________________________________________________________________________________________________
________________________________________________________________________________________________
________________________________________________________________________________________________
________________________________________________________________________________________________

Potrebbero piacerti anche