Sei sulla pagina 1di 31

STATISTICA DESCRITTIVA

1 Tipologie di dati
La statistica è quella scienza che si occupa dei metodi con cui si raccolgono e si
analizzano i dati, in modo da poter trarre delle informazioni per fini decisionali. Il
primo passo per poter svolgere un’indagine statistica è aver chiaro qual è l’obiettivo
dell’analisi stessa. In funzione dell’obiettivo,

1. si individuano le variabili oggetto di studio (ossia le caratteristiche d’interese);

2. si definiscono le unità statistiche su cui si osservano (si misurano) le variabili


stesse.

Definizione 1.1. Le unità statistiche sono le entità su cui vengono misurate una o
più variabili d’interesse.

Esempio 1.1. Il preside di una Facoltà si trova costretto a chiudere dei corsi di
laurea. Decide di eliminare i corsi meno frequentati. A questo scopo analizza i
dati relativi agli studenti immatricolati nell’anno accademico in corso. Per questi
studenti, oltre ai dati anagrafici (nome, cognome, luogo di nascita), sono disponibili
più informazioni (più variabili): l’età, la scuola di provenienza, il voto di maturità,
il corso di laurea scelto, il sesso, ecc. In questo esempio le unità statistiche sono
gli studenti e tutte le informazioni disponibili sono variabili. Per questa indagine la
variabile d’interesse è il corso di laurea scelto dallo studente.

Esempio 1.2. Un provveditore agli studi deve decidere se tagliare o meno il servizio
di scuola dell’obbligo serale (destinata essenzialmente ad adulti). A questo scopo fa
un’indagine sul titolo di studio dei cittadini di età superiore ai 16 anni residenti nel
suo comune. Le unità statistiche sono i cittadini con più di 16 anni residenti nel
comune e la variabile d’interesse è il titolo di studio.

Esempio 1.3. Una società telefonica è interessata a stabilire il numero medio di


sms inviati dai giovani di età compresa tra i 12 e i 18 anni. Per raggiungere questo
obiettivo viene selezionato un campione di n giovani ai quali viene chiesto quanti sms
inviano al giorno. In questo caso le unità statistiche sono i giovani di età compresa
tra i 12 e i 18 anni e la variabile d’interesse è il numero di sms che ciascun giovane
invia quotidianamente.

Esempio 1.4. L’obiettivo dell’indagine è valutare la durata media delle lampadine


prodotte da una fabbrica. A questo scopo si seleziona un lotto di n lampadine che
vengono accese fino a quando si fulminano. Le unità statistiche sono le lampadine
e la variabile d’interesse è la durata di ciascuna lampadina.

Come visto nei precedenti esempi, i fenomeni d’interesse sono molteplici ma si


possono classificare in sole quattro tipologie, rappresentate nella seguente tabella.

1
Tipi di variabili
Variabili qualitative Variabili quantitative
sconnesse rettilinee discrete continue
Operazioni possibili
=, 6= =, 6=, >, < =, 6=, >, <, +, −, :, ∗
Tutte le variabili appartenenti alla stessa tipologia vanno analizzate (dal punto di
vista statistico) nello stesso modo. Quindi è molto importante capire con che tipo
di dati si sta lavorando. Prima di descrivere in dettaglio come si caratterizzano
queste quattro tipologie di variabili, è necessario introdurre la definizione di scala di
misura.
Definizione 1.2. La scala di misura (o scala di modalità) di una variabile è l’in-
sieme dei possibili valori che la variabile stessa può assumere.
Questi valori possono essere dei numeri puri oppure degli attributi. Le variabili si
distinguono in quantitative e qualitative a seconda che si esprimano in modalità
numeriche o meno.
Definizione 1.3. Sono dette qualitative tutte quelle variabili che si esprimono in
modalità non numeriche.
Per esempio la variabile sesso si esprime nelle modalità “maschio” e “femmina”,
che non sono numeriche, sono degli attributi. Poiché si esprime secondo due sole
modalità il carattere sesso si dice dicotomico.
Nota bene: se nella raccolta dati si decide di codificare i dati ossia di associare alle
modalità un’etichetta (per esempio l’etichetta 1 a maschio e 0 a femmina), questo
non muta il carattere qualitativo della variabile. In questo caso, 0 e 1 non sono dei
numeri puri, sono delle etichette che rappresentano delle modalità non numeriche.
Non bisogna mai fare delle operazioni algebriche con numeri che rappresentano eti-
chette, poiché tali operazioni non hanno alcun senso logico.
Le variabili qualitative si possono distinguere a loro volta in sconnesse e rettilinee.
Definizione 1.4. Sono dette variabili qualitative sconnesse tutte quelle variabili le
cui modalità non numeriche non sono ordinabili.
Definizione 1.5. Sono dette variabili qualitative rettilineee quelle variabili le cui
modalità non numeriche sono ordinabili.
Per esempio, la variabile sesso che si esprime secondo le due modalità non or-
dinabili “maschio” e “femmina” è una variabile qualitativa sconnessa. Il carattere
titolo di studio è invece una variabile qualitativa rettilinea poichè le modalità con
cui si esprime: nessun titolo di studio (N); licenza elementare (LE); licenza di scuola
media inferiore (LMI); licenza di scuola media superiore (LMS) e laurea (L), possono
essere ordinate in senso crescente o decrescente.
Definizione 1.6. Sono dette quantitative tutte quelle variabili le cui modalità sono
dei numeri puri ossia derivanti da una misurazione o da un conteggio (non sono
etichette).

2
Per esempio la variabile durata della lampadina è una variabile quantitativa
poiché si esprime attraverso un numero dato dalla misura del tempo intercorso tra
l’accensione e lo spegnimento della lampadina. Anche la variabile numero di sms
inviati quotidianamente è una variabile quantitativa, poichè si esprime attraverso
un numero intero derivante dal conteggio degli sms inviati.

Definizione 1.7. Le variabili quantitative le cui modalità numeriche derivano da


una misurazione sono dette quantitative continue.

Definizione 1.8. Le variabili quantitative le cui modalità numeriche derivano da


una enumerazione sono dette quantitative discrete.

Per esempio, la variabile durata della lampadina è quantitativa continua; la


variabile numero di sms inviati è quantitativa discreta.

Definizione 1.9. Una variabile quantitativa continua si dice misurata su una scala
per intervallo se lo zero non ha un senso fisico, è solo una convenzione.

Definizione 1.10. Una variabile quantitativa continua si dice misurata su una scala
rapporto se lo zero ha un senso fisico.

Per esempio la temperatura in gradi centigradi è un fenomeno quantitativo con-


tinuo misurato su una scala per intervallo perché per convenzione si è deciso che
zero gradi centigradi sia la temperatura a cui congela l’acqua (ma altre convenzioni
sono possibili per definire lo zero). L’altezza in cm invece è un fenomeno quantitati-
vo continuo misurato su una scala rapporto poiché zero centimetri significa altezza
nulla: lo zero ha un senso effettivo, non è dettato da una convenzione.
Nota bene. A rigore, ai fini di operare confronti tra modalità non si può usare
l’operazione rapporto se il fenomeno è misurato con una scala per intervallo (si può
usare solo la differenza). Invece se il fenomeno è misurato con una scala rapporto
si possono usare entrambe le operazioni rapporto e differenza, per confrontare le
modalità tra loro.

2 Classificazione dei dati


Una volta che si è chiarito l’obiettivo dell’indagine e si sono individuate le variabili
d’interesse e le unità statistiche, si procede alla raccolta dati (somministrazione di
questionari, misurazione, conteggio...). Terminata la raccolta dati si dispone di una
sequenza (detta serie o seriazione)

1. di attributi se si è rilevata una variabile qualitativa;

2. di numeri se si è rilevata una variabile quantitativa.

Al fine di poter trarre qualche conlusione dai dati è necessario sintetizzare le infor-
mazioni così ottenute. La prima sintesi è la classificazione dei dati in una tabella.

3
Come si costruisce una tabella di sintesi: in una colonna si elencano le mo-
dalità distinte con cui si è espresso il fenomeno studiato, in una seconda colonna si
riportano le frequenze assolute (indicate con ni ) che contano il numero di unità
statistiche che presentano le varie modalità.
Esempi 1.1, 1.2 e 1.3 (continua).

• Con riferimento all’Esempio 1.1, supponiamo di aver fatto la rilevazione su un


campione di n = 25 studenti e di aver rilevato la seguente serie di dati relativi
al loro corso di laurea:
{ECE, SPO, SPO, SIE, ECE, SIE, SPO, ORU, SPO, ECE, SIE, ORU, SPO,
ECE, SIE, SPO, ORU, SIE, SIE, SPO, ECE, SIE, SPO, ORU, SIE }
Di per sé questo elenco di attributi non fornisce alcuna informazione. La
tabella di sintesi è

Corso di laurea frequenze assolute (ni )


ECE 5
SIE 8
SPO 8
ORU 4

• Con riferimento all’Esempio 1.2, supponiamo di aver fatto la rilevazione su un


campione di n = 20 abitanti e di aver rilevato la seguente serie di dati:
{ L, LMI, LMI, LMS, N, LMS, LMS, LMS, L, LE, N, LMS, LMS, LMS, L,
LE, L, LMI, LMI, LMS }

La tabella di sintesi è

Titolo di studio frequenze assolute (ni )


N 2
LE 2
LMI 4
LMS 8
L 4

• Con riferimento all’Esempio 1.3, supponiamo di aver fatto la rilevazione su un


campione di n = 30 giovani e di aver rilevato la seguente serie di dati relativa
al numero di sms inviati in un giorno:

{1, 2, 2, 4, 4, 1, 5, 7, 10, 7, 4, 5, 10, 4, 7, 8, 7, 5, 9 , 15, 8, 9, 4 , 8, 10, 4, 7, 8,


7, 5}

La tabella di sintesi è

4
Numero di sms frequenze assolute (ni )
1 2
2 2
4 6
5 4
7 6
8 4
9 2
10 3
15 1

Definizione 2.1. Se X è la variabile d’interesse e dalla rilevazione su n unità


statistiche sono emerse k < n modalità distinte, indicate con x1 , . . . , xi , . . . , xk , la
frequenza assoluta ni indica il numero di unità statistiche che presentano modalità
xi .
Pk
Ovviamente deve valere i=1 ni = n . Una generica tabella di sintesi è la seguente:

X ni
x1 n1
x2 n2
.. ..
. .
xi ni
.. ..
. .
xk nk
T otali n
La classificazione dei dati in una tabella di sintesi ha senso solo se le n unità
statistiche presentano k < n modalità distinte del carattere X. Se ciascuna unità
statistica presenta una modalità distinta, la tabella è del tutto equivalente alla serie
di dati originali: di fatto non si opera alcuna sintesi. Si è spesso in questo caso quan-
do si opera con caratteri quantitativi continui. Se per esempio si dovesse/potesse
misurare in modo esatto l’altezza di un certo gruppo di persone si avrebbe che cia-
scuna persona ha un’altezza diversa dalle altre. Lo stesso vale se si misura per
esempio la temperatura massima giornaliera in una certa città o il peso di un lotto
di pacchetti di zucchero. Quando si misura qualcosa, se lo si fa in modo preciso,
ogni unità statistica presenta una modalità diversa dalle altre. In questo caso per
operare un’opportuna sintesi dei dati si può procedere in due modi:
1. Si discretizza il fenomeno studiato ossia si arrotondano le misure ottenute.
É quello che spesso facciamo quando per esempio misuriamo il nostro peso. Se
pesiamo 65,82113 Kg diciamo di pesare 66 Kg, non riportiamo il peso esatto.
In un’indagine sul peso di molte unità statistiche, si possono ritrovare più
persone che pesano 66 Kg, dove questa misura è un valore approssimato. In
questo modo di fatto si trasforma un carattere quantitativo continuo in uno
discreto e dal punto di vista statistico viene trattato come tale.

5
2. Si ricorre ad una distribuzione in classi di frequenza. Il fenomeno anzi-
ché essere misurato in modo esatto viene classificato in intervalli contigui, di
ampiezza uguale o diversa.

Esempio 1.4 (continua)


Con riferimento all’Esempio 1.4, supponiamo di avere misurato la durata di un lotto
di 20 lampadine, di aver ottenuto la seguente serie di dati grezzi (la durata è misurata
in giorni):
{ 25.3, 45.4, 60, 79.1, 120.5, 10, 150, 15.1, 160, 28, 155.3, 155.4, 178.8, 92, 126, 30,
178.5, 179, 168.2, 168.1 }
e di voler classificare i dati stessi nei seguenti intervalli:
non più di 15 giorni; tra 15 e 30 giorni; tra 30 e 60 giorni; tra 60 e 180 giorni
La tabella di sintesi che corrisponde a questa distribuzione in classi di frequenza
è
Durata della lampadina frequenze assolute (ni )
(0,15] 1
(15,30] 4
(30,60] 2
(60;180] 13

Le frequenze assolute nelle distribuzioni in classi contano il numero di unità stati-


stische che presentano modalità nei vari intervalli. Gli intervalli che definiscono le
classi sono detti contigui perché nel punto in cui ne termina uno inizia il successivo.
Se con hi si indicano gli estremi degli intervalli, per i = 1, . . . , k + 1, gli intervalli
stessi vengono denotati con (hi ; hi+1 ] o hi ⊣ hi+1 per indicare che il valore hi non
è incluso nell’intervallo mentre lo è il valore hi+1 . Per cui nell’esempio di prima
la durata 30 viene conteggiata nell’intervallo (15, 30], non nell’intervallo successivo
(30; 60].

In generale la tabella di sintesi di una distribuzione in classi di frequenza è la


seguente:
(hi ; hi+1 ] ni
(h1 ; h2 ] n1
(h2 ; h3 ] n2
.. ..
. .
(hi ; hi+1 ] ni
.. ..
. .
(hk ; hk+1 ] nk
T otali n

6
2.1 Frequenze relative e relative percentuali
Quando si opera una sintesi dei dati, oltre alle frequenze assolute è interessante far
riferimento alle frequenze relative e relative percentuali, che ci permettono di
interpretare meglio i dati e di operare confronti tra popolazioni di diversa numerosità.

Definizione 2.2. Le frequenze relative, indicate con fi , rappresentano la propor-


zione di unità statistiche che presentano le varie modalità del carattere oggetto di
studio.

Definizione 2.3. Le frequenze relative percentuali, indicate con fi 100%, rappresen-


tano la percentuale di unità statistiche che presentano le varie modalità del carattere
oggetto di studio.

Le frequenze relative si determinano immediatamente dalle frequenze assolute:


ni P Pk
fi = , i = 1, . . . , k. Poiché ki=1 ni = n si ha che i=1 fi = 1 . Per ottenere le
n
frequenze relative percentuali basta moltiplicare per 100 le frequenze relative.
Esempi 1.1, 1.2, 1.3 e 1.4 (continua).

• Con riferimento all’Esempio 1.1 la tabella di sintesi diventa

Corso di laurea frequenze relative (fi ) Frequenze percentuali (fi 100%)


ECE 0,2(=5/25) 20%
SIE 0,32(=8/25) 32%
SPO 0,32(=8/25) 32%
ORU 0,16(=4/25) 16%

• Con riferimento all’Esempio 1.2 la tabella di sintesi diventa

Titolo di studio Frequenze relative (fi ) Frequenze percentuali (fi 100%)


N 0,1 (=2/20) 10%
LE 0,1 (=2/20) 10%
LMI 0,2 (=4/20) 20%
LMS 0,4 (=8/20) 40%
L 0,2 (=4/20) 20%

Guardando questa tabella si può subito concludere che il 40% delle persone
indagate ha un titolo di licenza media superiore (vedremo più avanti che la
modalità che si presenta più frequentemente ha un significato particolare) e che
più della metà della popolazione ha un titolo di studio superiore all’istruzione
obbligatoria.

• Con riferimento all’Esempio 1.3 la tabella di sintesi diventa

7
Numero di sms Frequenze relative (fi ) Frequenze percentuali (fi 100%)
1 0, 06̄(=2/30) 6%
2 0, 06̄(=2/30) 6%
4 0,2(=6/30) 20%
5 0, 13̄(=4/30) 13%
7 0,2(=6/30) 20%
8 0, 13̄(=4/30) 13%
9 0, 06̄(=2/30) 6%
10 0,1(=3/30) 10%
15 0, 03̄(=1/30) 3%

• Con riferimento all’Esempio 1.4 invece la tabella di sintesi è

Durata della lampadina Frequenze relative (fi ) Frequenze percentuali (fi 100%)
(0,15] 0,05(=1/20) 5%
(15,30] 0,2(=4/20) 20%
(30,60] 0,1(=2/20) 10%
(60;180] 0,65(=13/20) 65%

Da questa tabella si evince immediatamente che il 60% delle lampadine pro-


dotte dura più di 2 mesi e che solo il 5 % sono da considerare difettose poiché
durano non più di 15 giorni.

2.2 Frequenze cumulate


Prima di introdurre gli indicatori di posizione come strumenti di ulteriore sintesi
dei dati, conviene definire i concetti di frequenze assolute cumulate, frequenze
relative cumulate e frequenze relative percentuali cumulate.
Definizione 2.4. Le frequenze assolute cumulate, indicate con Ni , rappresentano il
numero di unità statistiche che presentano una modalità minore o uguale a xi .
Definizione 2.5. Le frequenze relative cumulate, indicate con Fi , rappresentano la
proporzione di unità statistiche che presentano una modalità minore o uguale a xi .
Definizione 2.6. Le frequenze relative percentuali cumulate, indicate con Fi 100%,
rappresentano la percentuale di unità statistiche che presentano una modalità minore
o uguale a xi .
Nota bene: per poter definire le frequenze cumulate è necessario che le modalità
siano almeno ordinabili, per cui tali frequenze non possono essere calcolate per
i caratteri qualitativi sconnessi. Per questa ragione non è possibile calcolare le
frequenze cumulate nell’Esempio 1.1.
• Le frequenze assolute cumulate si determinano direttamente dalle frequenze
P
assolute: Ni = ij=1 nj , i = 1, . . . , k. Ovviamente N1 = n1 e Nk = n .

8
• Le frequenze relative cumulate si determinano direttamente dalle frequenze
P
relative: Fi = ij=1 fj = Nni , i = 1, . . . , k. Ovviamente F1 = f1 e Fk = 1 .

• Le frequenze relative percentuali cumulate si determinano moltiplicando per


100 le frequenze relative cumulate.

Esempi 1.2, 1.3 e 1.4 (continua).

• Con riferimento all’Esempio 1.2 nella seguente tabella si riportano sia le fre-
quenze assolute che le relative cumulate:

Titolo di studio ni Frequenze assolute cumulate (Ni ) Fi


N 2 2 (N1 = n1 = 2) 0,1 (=2/20)
LE 2 4 (N2 = N1 + n2 = 2 + 2) 0,2 (=4/20)
LMI 4 8 (N3 = N2 + n3 = 4 + 4) 0,4 (=8/20)
LMS 8 16 (N4 = N3 + n4 = 8 + 8) 0,8 (=16/20)
L 4 20 (N5 = N4 + n5 = 16 + 4) 1 (=20/20)

Per sapere quante persone hanno un titolo di studio inferiore a LMI, dalla
colonna delle frequenze assolute cumulate emerge che sono N2 = 4, ossia quelli
che hanno la LE più quelli che non hanno alcun titolo di studio. Se ci si chiede
quante persone hanno un titolo di studio almeno pari al diploma, si ha che
sono 20 − N3 = 20 − 8 = 12 ossia 20 meno tutti quelli che hanno un titolo di
studio almeno pari a LMI.

• Con riferimento all’Esempio 1.3 nella seguente tabella si riportano sia le fre-
quenze assolute che le relative cumulate:

Numero di sms ni Frequenze assolute cumulate (Ni ) Fi


1 2 2 (N1 = n1 = 2) 0, 06̄ (=2/30)
2 2 4 (N2 = N1 + n2 = 2 + 2) 0, 13̄ (=4/30)
4 6 10 (N3 = N2 + n3 = 4 + 6) 0, 3̄ (=10/30)
5 4 14 (N4 = N3 + n4 = 10 + 4) 0, 46̄ (=14/30)
7 6 20 (N5 = N4 + n5 = 14 + 6) 0, 6̄ (=20/30)
8 4 24 (N6 = N5 + n6 = 20 + 4) 0,8 (=24/30)
9 2 26 (N7 = N6 + n7 = 24 + 2) 0, 86̄ (=26/30)
10 3 29 (N8 = N7 + n8 = 26 + 3) 0, 96̄ (=29/30)
15 1 30 (N9 = N8 + n9 = 29 + 1) 1 (=30/30)

Per sapere la proporzione di giovani che inviano più di 8 sms al giorno, basta
sottrarre a 1 la proporzione di giovani che inviano al massimo 8 sms, ossia
F6 = 0.8. Per cui la proporzione richiesta è 1 − 0.8 = 0.2.

• Con riferimento all’Esempio 1.4 nella seguente tabella si riportano sia le fre-
quenze assolute che le relative cumulate:

9
Durata ni Frequenze assolute cumulate (Ni ) Fi
(0,15] 1 1 (N1 = n1 = 1) 0,05 (=1/20)
(15,30] 4 5 (N2 = N1 + n2 = 1 + 4) 0,25 (=5/20)
(30,60] 3 8 (N3 = N2 + n3 = 5 + 3) 0,4 (=8/20)
(60;180] 12 20 (N4 = N3 + n4 = 8 + 12) 1 (=20/20)

Per sapere che proporzione di lampadine che durano al massimo un mese, basta
osservare la colonna delle frequenze relative cumulate, da cui emerge che è pari
1/4(= F2 ). La proporzione di lampadine che durano più di due mesi è invece
pari a 1 − F3 = 1 − 2/5 = 1/5 (1 meno la proporzione di lampadine la cui
durata è al massimo pari a due mesi).

3 Rappresentazioni grafiche
Come accennato nel Paragrafo 1, è fondamentale stabilire se il carattere oggetto di
studio è di tipo qualitativo sconnesso o rettilineo, o quantitativo discreto o continuo.
Già nel Paragrafo 2 si è visto che la classificazione dei fenomeni quantitativi continui
è diversa rispetto agli altri tipi di caratteri: se non si discrettizza bisogna ricorrere
ad una distribuzione in classi di frequenza. In questo paragrafo mostriamo come tipi
di dati diversi vengano rappresentati graficamente in modo diverso. In letteratura
sono disponibili molte grappresentazioni grafiche per ciascun tipo di variabile, in
questo testo ne presentiamo solo quattro, una per ciascun tipo di dati.

3.1 I caratteri qualitativi sconnessi: grafici a barre


I caratteri qualitativi sconnessi vengono rappresentati tramite grafici a barre, co-
struiti nel seguente modo. In un diagramma cartesiano si rappresentano tanti ret-
tangoli quante sono le modalità del carattere oggetto di studio. Tali rettangoli
devono essere equispaziati (equidistanti tra loro) e devono avere tutti la stessa base
ma altezze diverse, pari alle frequenze assolute, relative o relative percentuali, a se-
conda di cosa si vuole rappresentare. Nell’asse delle ascisse (alla base dei rettangoli)
si riportano le modalità distinte del carattere (in un ordine qualsiasi) e nell’asse
delle ordinate si riportano le corrispondenti frequenze assolute, relative o relative
percentuali, a seconda di ciò che abbiamo deciso di rappresentare. Nel seguito rap-
presentiamo le frequenze relative data la loro maggiore interpretabilità rispetto alle
frequenze assolute.
Con riferimento all’Esempio 1.1 la rappresentazione grafica è

10
0.30
0.25
0.20
Frequenze relative

0.15
0.10
0.05
0.00

ECE SIE SPO ORU

Corso di laurea

3.2 I caratteri qualitativi rettilinei: grafici a barre


I caratteri qualitativi rettilinei si rappresentano nello stesso modo dei caratteri qua-
litativi sconnessi. Nell’asse delle ascisse le modalità vanno riportate rispettando
l’ordine crescente delle stesse.
Con riferimento all’Esempio 1.2 il grafico a barre è
0.4
0.3
Frequenze relative

0.2
0.1
0.0

N LE LMI LMS L

Titolo di studio

3.3 I caratteri quantitativi discreti: grafici a bastincini


I caratteri quantitativi discreti vengono rappresentati tramite grafici a bastoncini,
costruiti nel seguente modo. In un diagramma cartesiano si rappresentano tanti
bastoncini quante sono le modalità del carattere oggetto di studio. In questo caso
le modalità sono numeriche per cui va rispettato sia l’ordine che la distanza tra le
modalità stesse. I bastoncini non sono quindi equispaziati ed hanno un’altezza pari
alle frequenze assolute, relative o relative percentuali (a seconda di cosa si vuole
rappresentare) corrispondenti alle varie modalità. Nell’asse delle ascisse (alla base
dei bastoncini) si riportano le modalità numeriche distinte del carattere e nell’asse
delle ordinate si riportano le corrispondenti frequenze assolute, relative o relative

11
percentuali (a seconda di ciò che si è deciso di rappresentare). Con riferimento
all’Esempio 1.3 la rappresentazione grafica è

0.20
0.15
Frequenze relative

0.10
0.05
0.00

1 2 4 5 7 8 9 10 15

Numero di sms

3.4 I caratteri quantitativi continui: istogrammi di frequenza


I caratteri quantitativi continui (quando non vengono discretizzati, in tal caso ver-
rebbero rappresentati tramite grafici a bastoncini) vengono rappresentati tramite
istogrammi di frequenza.
In un diagramma cartesiano, nell’asse delle ascisse si riportano le classi di fre-
quenza (rispettando distanze e scala) e per ciascuna classe si costruisce un rettan-
gono di area pari alla frequenza assoluta, relativa o relativa percentuale (a seconda
di ciò che si è deciso di rappresentare). Poiché la base dei rettangoli è pari al-
l’ampiezza delle classi, affinché abbiano area pari alle frequenze (assolute, relative o
relative percentuali) è necessario che i rettangoni abbiano altezza pari alle densità
di frequenza, denotate con li , i = 1, . . . , k.

Definizione 3.1. La densità di frequenza è data dal rapporto tra la frequenza asso-
luta, relativa o relativa percentuale (a seconda di ciò che si è deciso di rappresentare)
divisa per l’ampiezza della classe:
ni fi fi
li = , li = o li = 100,
ai ai ai
dove ai = hi − hi−1 è l’ampiezza della classe i-esima, i = 1, . . . , k.

Per cui nell’asse delle ordinate si riportano le densità di frequenza non le fre-
quenze. Noi rappresentiamo istogrammi tali che l’area dei rettangoli sia pari alle
frequenze relative. Per cui, da una distribuzione in classi di frequenza del tipo

12
(hi ; hi+1 ] ni
(h1 ; h2 ] n1
(h2 ; h3 ] n2
.. ..
. .
(hi ; hi+1 ] ni
.. ..
. .
(hk ; hk+1 ] nk
T otali n

si determinano le frequenze relative e le corrispondenti densità, ottenendo la seguente


tabella
(hi ; hi+1 ] fi ai = hi+1 − hi li = afii
(h1 ; h2 ] f1 a1 = h2 − h1 l1 = f1 /a1
(h2 ; h3 ] f2 a2 = h3 − h2 l2 = f2 /a2
.. .. .. ..
. . . .
(hi ; hi+1 ] fi ai = hi+1 − hi li = fi /ai
.. .. .. ..
. . . .
(hk ; hk+1 ] fk ak = hk+1 − hk lk = fk /ak
T otali 1 - -
Il corrispondente istogramma di frequenza è:
l2
l1
Densità

f2
lk

f1
li

fk
fi−1 fi
0

h1 h2 hi−1 hi hi+1 hk hk+1

Gli istogrammi di frequenza possono essere usati anche per stabilire la proporzione
di unità statistiche che presentano modalità minore o uguale a un valore prefissato,
xp . Data una distribuzione in classi di frequenza, è noto solo che proporzione di
osservazioni cadono all’interno delle varie classi, non sono note le modalità associate
alle singole unità statistiche. La proporzione di unità statistiche che hanno modalità
minore o uguale a xp è data dall’area sottesa dall’istogramma a sinistra di xp (area
tratteggiata)

13
l2
l1
Densità
f2

lk
f1
li fk
li
fi−1
0

h1 h2 hi−1 hi xp hi+1 hk hk+1

Se xp cade nell’intervallo (hi ; hi+1 ] allora l’area a sinistra di xp è

p = Fi−1 + (xp − hi )li (1)

dove hi e li sono rispettivamente l’estremo inferiore e la densità di frequenza della


classe in cui cade xp e Fi−1 indica la frequenza relativa cumulata della classe ante-
cedente. Si noti che Fi−1 = f1 + f2 + · · · + fi−1 (proporzione di unità statistiche
con modalità minore o uguale a hi ) rappresenta l’area a sinistra di hi ossia quella
tratteggiata in blu, mentre (xp − hi )li è l’area tratteggiata in rosso.
Nota bene: l’area sottesa dall’istogramma a sinistra di un qualsiasi valore è una
proporzione, questa analogia tra aree e proporzioni si ripresenterà anche in seguito.
Esempio 1.4 (continua).
Con riferimento all’Esempio 1.4, completiamo la tabella di sintesi calcolando le am-
piezze di classe e le densità di frequenza (si riportano anche le frequenze relative
cumulate, non necessarie per la rappresentazione dell’istogramma di frequenza)

Durata della lampadina fi Ampiezze (ai ) Densità di frequenza (li ) Fi


(0,15] 0,05 15(=15-0) 0.003̄(= 0, 05/15) 0,05
(15,30] 0,2 15(=30-15) 0.013̄(= 0, 2/15) 0,25
(30,60] 0,1 30(=60-30) 0.003̄(= 0, 1/30) 0,4
(60;180] 0,65 120(=180-60) 0.005416̄(= 0, 65/120) 1

La rappresentazione grafica è

14
0.13
Densità di frequenza

0.5416
0.03
0
0 15 30 60 180

Durata della lampadina

Se per esempio ci chiediamo che proporzione di lampadine dura al massimo 20 giorni,


possiamo usare la formula (2). In questo caso xp = 20, che cade nel secondo intervallo
(15, 30], per cui si ha che Fi−1 = F1 = 0, 05, hi = h2 = 15 e li = l2 = 0.013̄. Perciò la
proporzione di lampadine che dura al massimo 20 giorni è p = 0, 05+(20−15)0.013̄ =
0, 116̄.

4 Indici di posizione
Gli indici di posizione sono degli indicatori sintetici che in un unico valore (o pochi
valori) riassumono l’intera distribuzione dei dati. In questo modo danno un’idea
dell’ordine di grandezza del fenomeno studiato. In questo paragrafo descriviamo più
in dettaglio tre indicatori sintetici, la moda, la mediana e la media aritmetica.
Ogni indice di posizione deve essere sempre affiancato da un’ulteriore quantità che
misuri la sua precisione come indicatore sintetico. Vale a dire, bisogna sempre
chiedersi se l’indicatore di posizione che si sta usando per riassumere l’informazione
contenuta nei dati è un buon o un cattivo rappresentante dei dati stessi. A questo
scopo, a ciascun indicatore sintetico viene affiancato un indicatore di precisione
che serve per stabilire se i dati vengono sintetizzati in modo opportuno o meno
dall’indicatore di posizione scelto.

4.1 La moda
Tra gli indici di posizione la moda (che solitamente si indica con Mo) è il più semplice
da determinare e può essere calcolata per tutti i tipi di caratteri.
Definizione 4.1. Per i caratteri qualitativi e quantitativi discreti: la moda è la
modalità a cui è associata frequenza assoluta (relativa o relativa percentuale) più
elevata.
Per i caratteri quantitativi continui rappresentati in classi di frequenza: la moda è
il valore centrale dell’intervallo che presenta densità di frequenza più elevata.
Per valutare il grado di bontà della moda, come indicatore sintetico dell’intera
serie di dati, si devono distinguere due casi:

15
1. per i caratteri qualitativi e i quantitativi discreti, si valuta frequenza relati-
va o relativa percentuale associata alla moda: più è elevata la percentuale
di unità statistiche che presentano la moda come modalità, più la moda è
rappresentativa dell’intera serie di dati.
2. per i caratteri quantitativi continui, si confronta la densità di frequenza asso-
ciata all’intervallo modale con le densità associate agli altri intervalli: più la
desità associata all’intervallo modale è elevata rispetto alle altre più la moda
può essere considerata un buon indicatore di posizione.
Esempi 1.1, 1.2, 1.3 e 1.4 (continua).
• Con riferimento all’Esempio 1.1, si ha che due modalità distinte presentano
frequenza maggiore, in tal caso si dice che il fenomeno è bimodale e le due
mode sono le modalità SIE e SPO. Entrambe le modalità modali assorbono
il 33% delle unità statistiche, insieme ben il 66% degli studenti, per cui que-
ste due mode sono rappresentative del fenomeno indagato, in altri termini lo
sintetizzano bene.
• Con riferimento all’Esempio 1.2, la moda è la modalità LMS che assorbe il
40% delle unità statistiche, per cui è abbastanza rappresentativa.
• Con riferimento all’Esempio 1.3, il carattere studiato è ancora bimodale: le
mode sono le modalità numeriche 4 e 7 che assorbono ciascuna il 20% delle
unità statistiche (quindi non sono così rappresentative, specie se si nota che le
modalità 5 e 8 assorbolo ciascuna il 13% dele unità statistiche).
• Infine con riferimento all’Esempio 1.4, la densità di frequenza più elevata è
0, 013̄ che compete al secondo intervallo, per cui la moda è il valore centrale
dell’intervallo (15, 30], ossia Mo = (15 + 30)/2 = 22, 5. In questo caso l’inter-
pretazione della moda è più difficile, diciamo che è tanto più rappresentativa
quanto più la densità di frequenza dell’intervallo modale è elevata rispetto al-
le altre. Si noti che se erroneamente avessimo scelto come intervallo modale
quello con maggiore frequenza avremmo individuato il quarto intervallo che
assorbe ben il 65% delle osservazioni. Tuttavia tale intervallo è molto ampio,
quindi è ovvio che assorba molte osservazioni. Si deve far riferimento alle den-
sità di frequenza per tener conto che alcuni intervalli assorbono molte unità
statistiche non perché veramente siano rappresentativi dell’intera serie di dati
ma perché sono molto ampi e quindi vi cadono dentro molte osservazioni. Gli
intervalli più rappresentativi sono quelli che sono più densi, in cui le unità sono
più vicine tra loro.

4.2 I quartili
In questo paragrafo si descrivono le metodologie di calcolo dei quantili per i caratteri
quantitativi discreti e continui. Per i caratteri qualitativi rettilinei si descrive il solo
calcolo della mediana (che può però essere esteso a tutti gli altri quantili).

16
Definizione 4.2. Sia 0 < p < 1, è detto quantile di ordine p e si indica con xp , quel
valore che, dopo aver ordinato in senso non decrescente i dati, lascia alla sua sinistra
almeno una proporzione pari p di osservazioni (ossia almeno np osservazioni) e alla
sua destra almeno una proporzione pari a (1 − p) di osservazioni (ossia almeno
n(1 − p) osservazioni).
Siano x(1) ≤ x(2) , . . . , ≤ x(n) i dati ordinati, una rappresentazione del quantile xp è:

x(1) , x(2) , x(3) , . . . , xp , . . . , x(n−2) , x(n−1) , x(n)


| {z } | {z }
almeno np osservazioni almeno n(1−p) osservazioni

Se p = 1/4 = 0, 25 allora il quantile è x0.25 ed è detto primo quartile (talvolta è


indicato con Q1 ).
Se p = 1/2 = 0, 5 allora il quantile è x0.5 ed è detto secondo quartile o mediana
(talvolta è indicato con Q2 o Me). La mediana è dunque la modalità di posizione
centrale: è quel valore tale che almeno metà delle osservazioni ha modalità minore
o uguale ad essa ed almeno la metà delle unità statistiche ha modalità maggior o
uguale ad essa.
Se p = 3/4 = 0, 75 allora il quantile è x0.75 ed è detto terzo quartile (talvolta è
indicato con Q3 ).
I tre quartili dividono l’insieme delle osservazioni in quattro gruppi ciascuno costi-
tuito da almeno un quarto delle osservazioni. In altri termini, almeno un quarto
delle osservazioni cadono prima di x0.25 , tra x0.25 e x0.5 , tra x0.5 e x0.75 e dopo x0.75 .
La mediana, come la moda, è un indice di posizione (un indicatore sintetico) che
fornisce un’idea dell’ordine di grandezza del fenomeno studiato. Il primo ed il terzo
quartile vengono determinati al fine di determinare opportuni indicatori di precisio-
ne della mediana. Tali indicatori di precisione servono per valutare la bontà della
mediana stessa come indicatore sintetico dei dati osservati, ossia per stabilire se la
mediana è un buon rappresentare dell’intera serie di dati. Più in specifico, indicatori
di precisione della mediana sono
• la differenza interquartile: DI = x0,75 − x0,25

• lo scarto interquartile: SI = (x0,75 − x0,25 )/2.


Poiché tra il primo ed il terzo quartile è sempre incluso il 50% dei dati, più la diffe-
renza interquartile (e/o lo scarto interquartile) è piccola, più significa che questo 50%
dei dati si concentra attorno alle mediana e quindi la mediana è un buon rappresen-
tante di almeno la metà centrale di dati. Per valutare se la differenza interquartile
è grande o piccola, essa va confrontata con il range o campo di variazione dei dati,
dato dalla differenza tra il più grande valore osservato, indicato con x(n) e il più
piccolo valore osservato, indicato con x(1) . Il range è dunque: R = x(n) − x(1) . Se DI
è piccola rispetto a R allora la mediana è un indicatore sintetico preciso, se invece
DI è grande rispetto a R allora la mediana è un cattivo indicatore sintetico dei dati.

17
I quartili possono essere rappresentati tramite un grafico detto boxplot. Di seguito
riportiamo due boxplot in cui la mediana coincide, ma la distanza tra il primo e il
terzo quartile è diversa. Nel grafico di destra la differenza interquartile è più bassa,
denotando una maggiore concentrazione del 50% dei dati centrali attorno alla me-
diana. La mediana è dunque un indicatore sintetico più preciso nel caso B che nel
caso A.
A B

x0.75 x0.75

x0.5 x0.5

x0.25

x0.25

Nota bene 1: I quantili (e quindi anche i quartili) non possono essere calcolati per
i caratteri qualitativi sconnessi: dalla definizione di quantile si intuisce la necessità
che il carattere studiato sia misurato almeno su una scala ordinale, ossia abbia
modalità ordinabili. Per questa ragione non viene calcolata la mediana per i dati
riportati nell’Esempio 1.1.

4.2.1 Calcolo della mediana per i caratteri rettilinei


Per i caratteri qualitativi misurati su una scala ordinale (caratteri rettilinei) descri-
viamo solo il calcolo della mediana. Distinguiamo due casi:
1. Se n è dispari x0.5 è la modalità associata all’unità statistica di posizione
n+1
.
2
Si noti che sia a sinistra che a destra di tale unità statistica si trovano esatta-
mente (n − 1)/2 unità statistiche, quindi la mediana è la modalità di posizione
centrale.
2. Se n è pari x0.5 è la modalità associata alle unità statistiche di posizione
n n
e +1
2 2
se le modalità stesse coincidono, altrimenti è indeterminata. Si noti che a
sinistra di n/2 e a destra di n/2 + 1 ci sono esattamente n/2 − 1 osservazioni,
quindi la mediana (quando è determinabile) è la modalità di posizione centrale.

18
Esempio 1.2 (continua).

Titolo di studio ni Ni Posizioni


N 2 2 1-2
LE 2 4 3-4
LMI 4 8 5-8
LMS 8 16 9-16
L 4 20 17-20
Poiché le unità statistiche sono 20, bisogna individuare le modalità associate alle
unità statistiche in posizione n2 = 10 e n2 + 1 = 11. Entrambe presentano modalità
LMS per cui la mediana è Me=LMS.
Si considerino questi ulteriori esempi.

Esempio 4.1. Da un’indagine sul reddito si vuole stabilire se conseguire una laurea
comporta poi avere un reddito medio-alto. A tale scopo si sono intervistati 20 laureati
della stessa età. Si determini il reddito mediano sulla base dei seguenti dati rilevati:
Reddito ni Ni Posizioni
Basso 5 5 1-5
Medio 5 10 6-10
Alto 10 20 11-20

Poiché n = 20 è pari, per determinare la mediana bisogna individuare le modalità


associate alle unità statistiche di posizione n2 = 10 e n2 + 1 = 11. Tali modalità
sono diverse, rispettivamente reddito medio e reddito alto, quindi la mediana risulta
indeterminata.

Esempio 4.2. Supponiamo che le unità statistiche siano 19 e che si osservi la


seguente tabella
Reddito ni Ni Posizioni
Basso 5 5 1-5
Medio 9 14 6-14
Alto 5 19 15-19

Poiché n = 19 è un numero dispari va determinata un’unica posizione n+1 2


= 10
e la mediana è la modalità associata all’unità statistica in posizione 10 ossia “reddito
medio”.

4.2.2 Calcolo dei quartili per i caratteri quantitativi discreti


Diamo una formula generale per il calcolo dei quantili ossia per 0 ≤ p ≤ 1. Preci-
sando p = 0, 25, p = 0, 5 e p = 0.75 si determinano il primo quartile, la mediana (o
secondo quartile) e il terzo quartile.
Anche in questo caso dobbiamo distinguere due casi:

19
1. se np è intero allora si individuano le modalità x(np) e x(np+1) associate alle
unità statistiche di posizione np e np + 1, rispettivamente. Il quantile xp è

x(np) + x(np+1)
xp =
2

2. Se np non è intero allora


xp = x([np]+1)
ossia è la modalità associata all’unità statistica di posizione [np]+1, dove [np]
denota la parte intera di np (in altri termini [np] + 1 è l’approssimazione per
eccesso all’intero più vicino a np).

Si noti che per il calcolo della mediana (p = 0, 5) si può anche usare la regola definita
per i caratteri rettilinei.
Per comprendere appieno come si calcolano i quartili si osservino i seguenti esempi.

Esempio 4.3. Dalla rilevazione di un carattere X su n = 8 unità statistiche


supponiamo di ottenere la seguente seriazione:

Xi : 1; 2; 4; 5; 8; 9; 11; 15

• Calcolo del primo quartile: p = 0, 25 e np = 8 · 0, 25 = 2 risulta intero, per cui


si devono determinare 2 posizioni: np = 2 e np + 1 = 3. La modalità associate
alle unità statistiche di posizioni 2 e 3 sono rispettivamente 2 e 4,
2+4
x0.25 = =3
2

• Calcolo del secondo quartile o mediana: p = 0, 5 e np = 8 · 0, 5 = 4 risulta


intero, per cui si devono determinare 2 posizioni: np = 4 e np + 1 = 5. La
modalità associate alle unità statistiche di posizioni 4 e 5 sono rispettivamente
5 e 8,
5+8
x0.5 = = 6, 5
2
Oppure si può usare la regola fornita per i caratteri rettilinei con la sola diffe-
renza che in questo caso la mediana risulta sempre determinabile:
n = 8 è pari quindi si determinano le due posizioni n/2 = 4 e n/2 + 1 = 5, che
coincidono con le precedenti per cui x0.5 = 6, 5.

• Calcolo del terzo quartile: p = 0, 75 e np = 8 · 0, 75 = 6 risulta intero, per cui


si devono determinare 2 posizioni: np = 6 e np + 1 = 7. La modalità associate
alle unità statistiche di posizioni 6 e 7 sono rispettivamente 9 e 11,
9 + 11
x0.75 = = 10
2

20
In questo esempio la differenza interquartile è DI = 10 − 3 = 7 e il Range è
R = 15 − 1 = 14. Poiché la differenza interquartile è piuttosto piccola rispetto al
range (la metà del range), la mediana può essere considerata un indicatore sintetico
abbastanza buono.
Esempio 4.4. Dalla rilevazione di un carattere X su n = 7 unità statistiche
supponiamo di ottenere la seguente seriazione:

Xi : 1; 2; 4; 5; 8; 9; 11

• Calcolo del primo quartile: p = 0, 25 e np = 7 · 0, 25 = 1, 75 risulta non intero,


per cui si deve determinare 1 sola posizione: [np] + 1 = [1, 75] + 1 = 1 + 1 = 2.
La modalità associata all’unità statistica di posizione 2 è 2, ossia

x0.25 = 2

• Calcolo del secondo quartile o mediana: p = 0, 5 e np = 7 · 0, 5 = 3, 5 risulta


non intero, per cui si deve determinare 1 sola posizione: [3, 5] + 1 = 3 + 1 = 4.
La modalità associata all’unità statistica di posizione 4 è 5, ossia

x0.5 = 5

Oppure può usare la regola fornita per i caratteri rettilinei:


n = 7 è dispari quindi si determina la posizione (n + 1)/2 = 4 e quindi la
mediana coincide con 5, modalità associata all’unità statistica di posizione 4.
• Calcolo del terzo quartile: p = 0, 75 e np = 7 · 0, 75 = 5, 25 risulta non intero,
per cui si deve determinare 1 sola posizione: [5, 25] + 1 = 5 + 1 = 6. La
modalità associata all’unità statistica di posizione 6 è 9, ossia

x0.75 = 9

In questo esempio la differenza interquartile è DI = 9 − 2 = 7 e il Range è R =


11 − 1 = 10. Poiché la differenza interquartile non è piccola rispetto al range, in
questo caso la mediana è indicatore sintetico meno preciso dell’esempio precedente.
Esempio 1.3 (continua).
Numero di sms ni Ni Posizioni
1 2 2 1-2
2 2 4 3-4
4 6 10 5-10
5 4 14 11-14
7 6 20 15-20
8 4 24 21-24
9 2 26 25-26
10 3 29 27-29
15 1 30 30

21
• Calcolo del primo quartile: p = 0, 25 e np = 30 · 0, 25 = 7, 5 che non è intero,
per cui si deve determinare una sola posizione, [np] + 1 = 7 + 1 = 8. La
modalità associata all’unità statistica di posizione 8 è

x0.25 = 4

• Calcolo del secondo quartile o mediana: p = 0, 5 e np = 30 · 0, 5 = 15 che


è un numero intero, per cui si devono determinare due posizioni, np = 15 e
np + 1 = 16. Alle unità statistiche di posizioni 15 e 16 è associata la stessa
modalità 7, per cui
x0.5 = 7

• Calcolo del terzo quartile: p = 0, 75 e np = 30 · 0, 75 = 22, 5 che non è intero,


per cui si deve determinare una sola posizione, [np] + 1 = 22 + 1 = 23. La
modalità associata all’unità statistica di posizione 23 è

x0.75 = 8

In questo esempio la differenza interquartile è DI = 8 − 4 = 4 e il Range è R =


15 − 1 = 14. Poiché la differenza interquartile è molto piccola rispetto al range,
la mediana può essere considerata un buon indicatore sintetico. In altri termini, è
un buon rappresentante dell’intera serie di dati poiché i dati stessi non sono molto
dispersi attorno alla mediana. Di seguito riportiamo il boxplot che rappresenta i
quartili per questo esempio:
14
12
10

x0.75
8

x0.5
6

x0.25
4
2

4.2.3 Calcolo di mediana e quartili per i caratteri quantitativi continui


Sia X un carattere quantitativo continuo espresso in classi e xp un qualsiasi va-
lore fissato. Come già accennato nel Paragrafo 3.4, in base all’ipotesi di distri-
buzione uniforme delle unità statistiche all’interno delle classi, la proporzione di
unità statistiche che hanno modalità minore o uguale a xp è dato dall’area sottesa
dall’istogramma a sinistra di xp (area tratteggiata)

22
l2
l1
Densità
f2

lk
f1
li fk
li
fi−1
0

h1 h2 hi−1 hi xp hi+1 hk hk+1

Se xp cade nell’intervallo (hi ; hi+1 ] allora l’area a sinistra di xp è

p = Fi−1 + (xp − hi )li (2)

dove hi e li sono rispettivamente l’estremo inferiore e la densità di frequenza del-


la classe in cui cade xp e Fi−1 indica la frequenza relativa cumulata della classe
antecedente.
Fin qui si è fissato xp e si è determinata l’area alla sua sinistra. Si immagini ora
di fare in contrario: di fissare l’area (ossia p) e di dover determinare xp .
Sia dunque 0 ≤ p ≤ 1 è un valore fissato. Il quantile xp (quantità da determinare) è
quel valore che lascia alla sua sinistra un’area sottesa dall’istogramma esattamente
pari a p. In altri termini è quel valore xp che lascia alla sua sinistra una proporzione
p di osservazioni con modalità minore o uguale a xp e alla sua destra una proporzione
pari a (1 − p) di osservazioni con modalità maggiori o uguali a xp .
Per individuare xp va dapprima stabilito a quale classe appartiene. A questo scopo
si confronta la proporzione prefissata p con le frequenze relative cumulate:
se Fi−1 < p ≤ Fi allora xp cade nell’intervallo (hi ; hi+1 ].
Esplicitando per l’incognita xp l’equazione (2) si ottiene

ai
xp = hi + · [p − Fi−1 ] (3)
fi

dove, come già accennato, hi , ai e fi sono rispettivamente l’estremo inferiore, l’am-


piezza e la frequenza relativa della classe in cui cade xp e Fi−1 indica la frequenza
relativa cumulata della classe antecedente.
Per la mediana p = 0.5. Per il primo ed il terzo quartile p = 0.25 e p = 0.75.
Si riporta un esempio che illustra in dettaglio quanto precedentemente descritto.
Esempio 1.4 (continua).

23
Durata della lampadina fi ai Fi
(0,15] 0,05 15(=15-0) 0,05
(15,30] 0,2 15(=30-15) 0,25
(30,60] 0,1 30(=60-30) 0,35
(60;180] 0,65 120(=180-60) 1

• Per calcolare la mediana si fissa p = 0, 5 e si confronta 0,5 con le frequenze re-


lative cumulate. Poiché 0, 35 < 0, 5 ≤ 1, la mediana cade nella classe (60; 180]
e dalla formula (3) si ha
120
x0,5 = 60 + (0, 5 − 0, 35) ≈ 87, 69.
0, 65

• Il terzo quartile (che per definizione lascia alla sua sinistra il 25% delle os-
servazioni) non può che essere 30, poiché F2 (proporzione di unità statistiche
con modalità minore o uguale a 30) vale proprio 0,25. Applicando la regola si
arriva allo stesso risultato: p = 0, 25 e poiché 0, 05 < 0, 25 ≤ 0, 25, il primo
quartile cade nella seconda classe (15; 30]. Applicando la formula (3) si ha che
15
x0,25 = 15 + (0, 25 − 0, 05) = 30.
0, 2

• Per il calcolo del terzo quartile p = 0, 75. Poiché 0, 4 < 0, 75 ≤ 1 il terzo


quartile si trova nell’intervallo (60, 180]. Applicando la formula (3),
120
x0,75 = 60 + (0, 75 − 0, 35) ≈ 133, 85.
0, 65

La differenza interquartile è DI = 133, 85 − 30 = 103, 85 che è il 57,69% del range


R = 180 − 0 = 180, per cui la mediana non può essere considerata un buon indica-
tore sintetico.
Nota bene. Se si fa riferimento alle frequenze assolute anziché alle frequenze relati-
ve allora xp è quel valore che lascia alla sua sinistra un’area sottesa dall’istogramma
(in cui però le densità di frequenza si calcolano come frequenze assolute divise per
le ampiezze) pari a np. Per determinare la posizione dell’unità statistica a cui è
associata la modalità xp si deve confrontare np con le frequenze assolute cumulate.
Se Ni−1 < np ≤ Ni allora xp cade nell’intervallo (hi ; hi+1 ]. Ponendo l’area sottesa
dall’istogramma a sinistra di xp pari a np si ottiene,
ai
xp = hi + ni
· [np − Ni−1 ]

dove hi , ai sono definiti come in precedenza, ni è la frequenza assoluta della classe


in cui cade xp e Ni−1 indica la frequenza assoluta cumulata della classe antecedente.

24
4.3 La media aritmetica
L’ultimo indice di posizione che analizziamo è la media aritmetica, che può essere
calcolata solo per i caratteri quantitativi. Sia X il carattere d’interesse che viene
rilevato su n unità statistiche.
Definizione 4.3. La media aritmetica di n valori numerici {x1 , . . . , xi , . . . , xn }, è
data dalla seguente formula Pn
xi
x̄ = i=1
n
Se alcuni dei valori rilevati {x1 , . . . , xi , . . . , xn } si ripetono allora conviene clas-
sificare il fenomeno in una tabella di sintesi,
X ni
x1 n1
x2 n2
.. ..
. .
xi ni
.. ..
. .
xk nk
T otale n
e la media aritmetica può essere riscritta nel seguente modo
Pn Pk k
i=1 xi i=1 xi ni X
x̄ = = = xi fi
n n i=1

L’ultima uguaglianza è dovuta al fatto che fi = ni /n.


Come già visto per la moda e la mediana anche la media aritmetica deve essere
affiancata da un indicatore di precisione che ci permetta di stabilire se la media è un
buon indicatore sintetico dell’intera serie di dati {x1 , . . . , xi , . . . , xn }. L’indicatore
di precisione che ci permette di valutare la bontà delle media come rappresentante
di sintesi dei dati è lo scarto quadratico medio, definito come radice quadrata
della varianza.
Definizione 4.4. La varianza è la somma dei quadrati degli scarti delle osservazioni
dalla media divisa per n, ossia è
Pn
2 i=1 (xi − x̄)2
s̃ =
n

Lo scarto quadratico medio è dunque s̃ = s̃2 .
Si noti che la varianza è piccola se tutte le osservazioni distano poco dalla loro media,
ma se le osservazioni sono vicine alla media allora la media è un buon indicatore
sintetico delle osservazioni stesse. Al contrario, quanto più le osservazioni xi sono

25
lontane dalla media tanto più la media è un cattivo rappresentante dei dati stessi e
tanto più la varianza è elevata. Quindi come regola generale, se lo scarto quadratico
medio è piccolo (di ordine di grandezza inferiore a quello della media) allora la media
può essere considerata un buon indicatore sintetico. Se lo scarto quadratico medio
è elevato (di ordine di grandezza superiore a quello della media) allora la media non
è un buon rappresentante dei dati.
Si noti che se i dati possono essere classificati in una tabella di sintesi, allora
anche per la varianza valgono queste tre scritture equivalenti:
Pn Pk k
2 i=1 (xi − x̄)2 i=1 (xi − x̄)2 ni X
s̃ = = = (xi − x̄)2 fi
n n i=1

Esempio 1.3 (continua).

Numero di sms ni xi ni xi − x̄ (xi − x̄)2 ni


1 2 2 −5.23̄ 54.775̄
2 2 4 −4.23̄ 35.842̄
4 6 24 −2.23̄ 29.926̄
5 4 20 −1.23̄ 6.084̄
7 6 42 0.76̄ 3.526̄
8 4 32 1.76̄ 12.484̄
9 2 18 2.76̄ 15.308̄
10 3 30 3.76̄ 42.563̄
15 1 15 8.76̄ 76.854̄
Totali 30 187 - 277.36̄
Il numero medio di sms inviati quotidianamente è
Pk
xi ni 187
x̄ = i=1 = = 6.23̄
n 30
La varianza vale Pk
2 (xi − x̄)2 ni 277.36̄
s̃ = i=1 = = 9.245̄
n 30

Lo scarto quadratico medio è s̃ = 9.245̄ ≈ 3.04, poiché s̃ non è molto piccolo
rispetto alla media (solo all’incirca la metà della media), la media stessa non può
considerarsi un indicatore sintetico molto preciso.
Quando si opera con un carattere quantitativo continuo classificato in una distri-
buzione in classi di frequenza, per poter calcolare media e varianza del carattere si
assume che le ni unità statistiche appartenenti alla classe (hi , hi+1 ] presentino co-
me modalità il valore centrale della classe stessa, ossia xi = (hi + hi+1 )/2, per
i = 1, . . . , k, e si calcolano media e varianza di tali valori centrali (tenendo conto
delle frequenze con cui si presentano). Ciò viene illustrato nel seguente esempio.
Esempio 1.4 (continua).

26
Durata della lampadina ni xi = hi +h2 i+1 xi ni xi − x̄ (xi − x̄)2 ni
(0,15] 1 7,5 7,5 -79,875 6380.016
(15,30] 4 22,5 90 -64,875 4208.766
(30,60] 2 45 90 -42,375 1795.641
(60;180] 13 120 1560 32,625 1064.391
Totali 20 - 1747,5 - 13448.814

La durata media delle lampadine è


Pk
xi ni 1747, 5
x̄ = i=1 = = 87.375
n 20
La varianza della durata vale
Pk
2 (xi − x̄)2 ni 13448.814
s̃ = i=1 = = 672.441
n 20

Lo scarto quadratico medio è s̃ = 672.441 = 25.931, poiché s̃ è circa un terzo
della media, la media può considerarsi un accettabile indicatore sintetico ma non
un buon indice di posizione. In termini informali, le durate delle lampadine non
sono molto concentrate attorno alla media (c’è una certa variabilità nella durata
delle lampadine) per cui la durata media non può rappresentarle tutte benissimo.
Se le durate fossero state più concentrate attorno alla media (ossia se la variabilità
delle durate fosse stata più bassa) allora la durata media sarebbe stata un buon
rappresentante delle varie durate.

4.3.1 Proprietà della media


In questo paragrafo descriviamo due importanti proprietà di cui gode la media.

Proprietà 4.1. (di linearità della media)


Siano a e b due costanti qualsiasi e sia X un carattere quantitativo.
Se Y = a + b X allora ȳ = a + b x̄ .

Proprietà 4.2. (Media di una somma o differenza di variabili)


Siano X e Y due caratteri quantitativi.
Se Z = X + Y allora z̄ = x̄ + ȳ .
Se Z = X − Y allora z̄ = x̄ − ȳ .

Esempio 4.5. Sia X il carattere oggetto di studio. Si supponga di avere rilevato X


su n = 16 unità statistiche ottenendo la seguente serie di dati,

{ 5, 2, 4.4, 6.5, 7.5, 2.6, 7.6 ,5.8, 10.6, 3.1, 5, 2.3, 9.2, 6.2, 7, 11.2 }

Si calcoli la media di X e si determini la media di Y = −3X + 2.

27
Pn
i=1 96 xi
x̄ = = 6. =
n 16
Per la proprietà di linearità della media, si ha che

ȳ = −3 · 6 + 2 = −16.

Esempio 4.6. Siano X e Y due caratteri rilevati congiuntamente su n = 10 unità


statistiche ottenendo la seguente serie di dati (in questo caso per ogni unità statistica
si osserva una coppia di valori (xi , yi ), i = 1, . . . , n),

{ (5,4), (3,2), (4.4, 6.5), (7.5, 2.5), (7.6 ,5.5), (10.6, 3.1), (5, 2.3),( 9.2, 6.6), (7,
11.2), (10.4, 5.3) }

Si determinino x̄, ȳ e z̄, sapendo che Z = X − Y .

Pn
i=1 xi
69.7
x̄ = =
= 6.97,
n 10
Pn
yi 49
ȳ = i=1 = = 4.9
n 10
e dalla proprietà sulla media di una differenza segue che

z̄ = x̄ − ȳ = 6.97 − 4.9 = 2.07.

Proprietà 4.3. Dalle Proprietà 4.1 e 4.2 segue che se Z = aX+bY allora z̄ = ax̄ + bȳ .

Esempio 4.7. Sia Z = −4X − 3Y , con gli stessi dati dell’Esempio 4.6 si calcoli la
media di Z.

In questo esempio a = −4 e b = −3 per cui, z̄ = −4 · 6.97 − 3 · 4.9 = −42.58.

5 La variabilità
Oltre a voler stabilire l’ordine di grandezza del fenomeno studiato, si può essere inte-
ressati a valutare l’attitudine del carattere a variare, ossia ad assumere valori distinti.
In questo caso si parla di studio della variabilità (o mutabilità) del fenomeno.
Gli indici che misurano l’attitudine di un carattere ad assumere modalità diverse
(a variare) sono: gli indici di variabilità per le variabili quantitative e gli indici
di eterogeneità per le variabili qualitative. In questa dispensa presentiamo solo
alcuni degli indici di variabilità esistenti in letteratura e tralasciamo completamente
gli indici di eterogeneità (non perché non siano importanti ma per motivi di tempo).
Il più semplice indice di variabilità è il range o campo di variazione: R = x(n) −
x(1) . Se la distanza tra il più grande e il più piccolo valore osservato è piccola, significa
che il carattere assume valori molto prossimi tra loro e quindi varia poco. D’altra
parte non si può affermare con certezza il contrario qualora il range sia grande, poiché

28
può accadere che la maggior parte dei dati sia concentrata in un certo intervallo di
valori (tali osservazioni variano poco tra loro) e poche osservazioni (anche solo una)
siano molto diverse, in questo caso il range risulterebbe alto ma la variabilità dei
dati (escludendo queste poche osservazioni) non è elevata.
Per ovviare questo problema, si è deciso di costruire indici di variabilità che escludono
i valori più piccoli e più elevati della serie di dati. Un indice di questo tipo è
la differenza (e lo scarto) interquartile, che essendo dato dalla differenza (o semi-
differenza) tra il terzo e il primo quartile non è influenzato dalle osservazioni inferiori
al primo quartile o superiori al terzo.
Tuttavia sia la formula di calcolo del range che quella della differenza interquartile
dipende solo da due dei valori osservati, non tiene conto di tutti i dati. Indici di
variabilità costruiti sulla base dell’intera serie di dati sono la varianza e lo scarto
quadratico medio. Tuttavia proprio perché dipendono da tutte le osservazioni, la
varianza e lo scarto quadratico medio (come pure la media) sono molto influenzati
dai valori anomali, ossia osservazioni insolitamente alte o basse. In altri termini, i
valori della varianza e dello scarto quadratico medio (come pure quello della media)
cambiano notevolmente se si includono o meno i valori anomali presenti nella serie
di dati. Per questa ragione, talvolta è preferibile calcolare media e varianza dopo
aver eliminato dalla serie di dati i valori anomali stessi. Oppure si fa riferimento alla
mediana e alla differenza interquartile, poiché non dipendono dalla presenza delle
osservazioni anomale, nel senso che non cambiano di valore se queste osservazioni
vengono escluse o meno dalla serie di dati.
Essendo la varianza uno degli indicatori di variabilità più utilizzati, elenchiamo nel
seguito alcune sue proprietà.

5.1 La varianza
Come già anticipato nel Paragrafo 4.3, se i dati sono classificati in una tabella di
sintesi, allora la varianza può essere espressa in questi tre modi equivalenti:
Pn 2
Pk 2 k
2 (xi − x̄) i=1 (xi − x̄) ni
X
s̃ = i=1
= = (xi − x̄)2 fi . (4)
n n i=1

Per il calcolo della varianza esiste una formula più semplice, dal punto di vista
computazionale. Si può infatti dimostrare che la varianza è data dalla differenza tra
il momento secondo delle osservazioni (media delle osservazioni al quadrato) e il
momento primo delle osservazioni (la media delle osservazioni), ossia
Pn 2
Pk k
2 i=1 xi x2i ni X
s̃ = − x̄2 = i=1 2
− x̄ = x2i fi − x̄2
n n i=1

Queste ultime formule richiedono un numero di calcoli inferiore rispetto alle formule
definitorie (4), per questo se ne consiglia utilizzo.
Nel seguito descriviamo come diventano le Proprietà 4.3.1 per la varianza.

29
Proprietà 5.1. Siano a e b due costanti qualsiasi e sia X un carattere quantitativo.
Se Y = a + b X allora s̃2Y = b2 s̃2X .
Per poter definire la varianza di una somma o differenza di due variabili è necessario
definire un’altra quantità detta covarianza tra X e Y e indicata con s̃XY .
Definizione 5.1. Dati due caratteri quantitativi X e Y , la covarianza tra X e Y è
data dalla seguente espressione:
Pn
(xi − x̄)(yi − ȳ)
s̃XY = i=1
n
Due variabili si dicono incorrelate se la loro covarianza è nulla. Anche per
la covarianza esiste una formula di calcolo equivalente a quella definitoria ma più
semplice da applicare:
Pn
xi yi
s̃XY = i=1 − x̄ȳ
n
In altri termini, la covarianza è data dalla differenza tra la media della variabile
prodotto X · Y e il prodotto delle medie x̄ · ȳ.
Proprietà 5.2. (Varianza di una somma o differenza di variabili)
Siano X e Y due caratteri quantitativi.
Se Z = X + Y allora s̃2Z = s̃2Y + s̃2X + 2s̃XY .
Se Z = X − Y allora s̃2Z = s̃2Y + s̃2X − 2s̃XY .
Proprietà 5.3. Dalle Proprietà 5.1 e 5.2 segue che
se Z = aX + bY allora s̃2Z = a2 s̃2X + b2 s̃2Y + 2 a b s̃XY .
Esempi 4.5, 4.6 e 4.7(continua).
• Con riferimento ai dati dell’Esempio 4.5 si ha che
Pn 2
x 25 + 4 + · · · + 49 + 125, 44
2
s̃X = i=1 i − x̄2 = − 36 = 43, 425 − 36 = 7, 427.
n 16
Poiché Y = −3X + 2, si ha che b = −3 da cui
s̃2Y = b2 s̃2X = 9 · 7, 427 = 66, 825.

• Con riferimento ai dati dell’Esempio 4.6 si ha che


Pn 2
2 i=1 xi 25 + 9 + · · · + 49 + 108, 16
s̃X = − x̄2 = − 48, 581
n 10
= 54, 653 − 48, 581 = 6, 072
Pn 2
2 i=1 yi 16 + 4 + · · · + 125, 44 + 28, 09
s̃Y = − ȳ 2 = − 24, 01
n 10
= 31, 074 − 24, 01 = 7, 064
Pn
i=1 xi yi 5 · 4 + 3 · 2 + · · · + 7 · 11, 2 + 10, 4 · 5, 3
s̃XY = − x̄ ȳ = − 6, 97 · 4, 9
n 10
= 35, 375 − 34, 153 = 1, 222.

30
Poiché Z = X − Y , si ha che
s̃2Z = s̃2X + s̃2Y − 2 s̃XY = 6, 072 + 7, 064 − 2 · 1, 222 = 10, 69.

• Con riferimento ai dati dell’Esempio 4.7 e del punto precedente si ha che


Z = −4X − 3Y per cui a = −4 e b = −3 e quindi
s̃2Z = a2 s̃2X + b2 s̃2Y + 2 a b s̃XY = 16 · 6, 072 + 9 · 7, 064 + 24 · 1, 222 = 190, 056.

5.2 Il coefficiente di variazione


Il coefficiente di variazione di un fenomeno X, indicato con CV (X), è un indice
di variabilità relativa dato dal rapporto tra lo scarto quadratico medio e il valore
assoluto della media aritmetica, ossia

CV (X) = .
|x̄|
Poiché s̃ e x̄ sono espressi nella stessa unità di misura, il coefficiente di variazione
non dipende più dall’unità di misura usata per il fenomeno studiato, ossia è un
numero puro. Per questa ragione il coefficiente di variazione si usa per confrontare
la variabilità dello stesso fenomeno in popolazioni diverse o la variabilità di fenomeni
diversi.
Esempio 5.1. Con riferimento al prezzo di acquisto al mq di un appartamento a
Milano, da un’indagine statistica sono emersi i seguenti dati, relativi all’anno 2010
(in Euro):
Zona Prezzo medio Varianza del prezzo
Centro (C) 3560,9 129,4
Semicentro (S) 2311,5 116,8
Periferia (P) 1854,5 108,9
Si vuole stabilire in quale zona c’è maggiore variabilità del prezzo. A questo scopo
si calcolano i coefficienti di variazione del prezzo al mq nelle tre zone:

129, 4 11, 375
CVC (X) = = ≈ 0, 003
3560, 9 3560, 9

116, 8 10, 807
CVS (X) = = ≈ 0, 005
2311, 5 2311, 5

108, 9 10, 435
CVP (X) = = ≈ 0, 006
1854, 5 1854, 5

Dal confronto dei coefficienti di variazione emerge che c’è una maggiore variabilità
del prezzo al mq in periferia. Mentre la zona in cui il prezzo al mq varia meno è
in centro. Si noti che saremmo arrivati (erroneamente) alla conclusione opposta se
avessimo confrontato le varianze dei prezzi.

31

Potrebbero piacerti anche