Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1 Tipologie di dati
La statistica è quella scienza che si occupa dei metodi con cui si raccolgono e si
analizzano i dati, in modo da poter trarre delle informazioni per fini decisionali. Il
primo passo per poter svolgere un’indagine statistica è aver chiaro qual è l’obiettivo
dell’analisi stessa. In funzione dell’obiettivo,
Definizione 1.1. Le unità statistiche sono le entità su cui vengono misurate una o
più variabili d’interesse.
Esempio 1.1. Il preside di una Facoltà si trova costretto a chiudere dei corsi di
laurea. Decide di eliminare i corsi meno frequentati. A questo scopo analizza i
dati relativi agli studenti immatricolati nell’anno accademico in corso. Per questi
studenti, oltre ai dati anagrafici (nome, cognome, luogo di nascita), sono disponibili
più informazioni (più variabili): l’età, la scuola di provenienza, il voto di maturità,
il corso di laurea scelto, il sesso, ecc. In questo esempio le unità statistiche sono
gli studenti e tutte le informazioni disponibili sono variabili. Per questa indagine la
variabile d’interesse è il corso di laurea scelto dallo studente.
Esempio 1.2. Un provveditore agli studi deve decidere se tagliare o meno il servizio
di scuola dell’obbligo serale (destinata essenzialmente ad adulti). A questo scopo fa
un’indagine sul titolo di studio dei cittadini di età superiore ai 16 anni residenti nel
suo comune. Le unità statistiche sono i cittadini con più di 16 anni residenti nel
comune e la variabile d’interesse è il titolo di studio.
1
Tipi di variabili
Variabili qualitative Variabili quantitative
sconnesse rettilinee discrete continue
Operazioni possibili
=, 6= =, 6=, >, < =, 6=, >, <, +, −, :, ∗
Tutte le variabili appartenenti alla stessa tipologia vanno analizzate (dal punto di
vista statistico) nello stesso modo. Quindi è molto importante capire con che tipo
di dati si sta lavorando. Prima di descrivere in dettaglio come si caratterizzano
queste quattro tipologie di variabili, è necessario introdurre la definizione di scala di
misura.
Definizione 1.2. La scala di misura (o scala di modalità) di una variabile è l’in-
sieme dei possibili valori che la variabile stessa può assumere.
Questi valori possono essere dei numeri puri oppure degli attributi. Le variabili si
distinguono in quantitative e qualitative a seconda che si esprimano in modalità
numeriche o meno.
Definizione 1.3. Sono dette qualitative tutte quelle variabili che si esprimono in
modalità non numeriche.
Per esempio la variabile sesso si esprime nelle modalità “maschio” e “femmina”,
che non sono numeriche, sono degli attributi. Poiché si esprime secondo due sole
modalità il carattere sesso si dice dicotomico.
Nota bene: se nella raccolta dati si decide di codificare i dati ossia di associare alle
modalità un’etichetta (per esempio l’etichetta 1 a maschio e 0 a femmina), questo
non muta il carattere qualitativo della variabile. In questo caso, 0 e 1 non sono dei
numeri puri, sono delle etichette che rappresentano delle modalità non numeriche.
Non bisogna mai fare delle operazioni algebriche con numeri che rappresentano eti-
chette, poiché tali operazioni non hanno alcun senso logico.
Le variabili qualitative si possono distinguere a loro volta in sconnesse e rettilinee.
Definizione 1.4. Sono dette variabili qualitative sconnesse tutte quelle variabili le
cui modalità non numeriche non sono ordinabili.
Definizione 1.5. Sono dette variabili qualitative rettilineee quelle variabili le cui
modalità non numeriche sono ordinabili.
Per esempio, la variabile sesso che si esprime secondo le due modalità non or-
dinabili “maschio” e “femmina” è una variabile qualitativa sconnessa. Il carattere
titolo di studio è invece una variabile qualitativa rettilinea poichè le modalità con
cui si esprime: nessun titolo di studio (N); licenza elementare (LE); licenza di scuola
media inferiore (LMI); licenza di scuola media superiore (LMS) e laurea (L), possono
essere ordinate in senso crescente o decrescente.
Definizione 1.6. Sono dette quantitative tutte quelle variabili le cui modalità sono
dei numeri puri ossia derivanti da una misurazione o da un conteggio (non sono
etichette).
2
Per esempio la variabile durata della lampadina è una variabile quantitativa
poiché si esprime attraverso un numero dato dalla misura del tempo intercorso tra
l’accensione e lo spegnimento della lampadina. Anche la variabile numero di sms
inviati quotidianamente è una variabile quantitativa, poichè si esprime attraverso
un numero intero derivante dal conteggio degli sms inviati.
Definizione 1.9. Una variabile quantitativa continua si dice misurata su una scala
per intervallo se lo zero non ha un senso fisico, è solo una convenzione.
Definizione 1.10. Una variabile quantitativa continua si dice misurata su una scala
rapporto se lo zero ha un senso fisico.
Al fine di poter trarre qualche conlusione dai dati è necessario sintetizzare le infor-
mazioni così ottenute. La prima sintesi è la classificazione dei dati in una tabella.
3
Come si costruisce una tabella di sintesi: in una colonna si elencano le mo-
dalità distinte con cui si è espresso il fenomeno studiato, in una seconda colonna si
riportano le frequenze assolute (indicate con ni ) che contano il numero di unità
statistiche che presentano le varie modalità.
Esempi 1.1, 1.2 e 1.3 (continua).
La tabella di sintesi è
La tabella di sintesi è
4
Numero di sms frequenze assolute (ni )
1 2
2 2
4 6
5 4
7 6
8 4
9 2
10 3
15 1
X ni
x1 n1
x2 n2
.. ..
. .
xi ni
.. ..
. .
xk nk
T otali n
La classificazione dei dati in una tabella di sintesi ha senso solo se le n unità
statistiche presentano k < n modalità distinte del carattere X. Se ciascuna unità
statistica presenta una modalità distinta, la tabella è del tutto equivalente alla serie
di dati originali: di fatto non si opera alcuna sintesi. Si è spesso in questo caso quan-
do si opera con caratteri quantitativi continui. Se per esempio si dovesse/potesse
misurare in modo esatto l’altezza di un certo gruppo di persone si avrebbe che cia-
scuna persona ha un’altezza diversa dalle altre. Lo stesso vale se si misura per
esempio la temperatura massima giornaliera in una certa città o il peso di un lotto
di pacchetti di zucchero. Quando si misura qualcosa, se lo si fa in modo preciso,
ogni unità statistica presenta una modalità diversa dalle altre. In questo caso per
operare un’opportuna sintesi dei dati si può procedere in due modi:
1. Si discretizza il fenomeno studiato ossia si arrotondano le misure ottenute.
É quello che spesso facciamo quando per esempio misuriamo il nostro peso. Se
pesiamo 65,82113 Kg diciamo di pesare 66 Kg, non riportiamo il peso esatto.
In un’indagine sul peso di molte unità statistiche, si possono ritrovare più
persone che pesano 66 Kg, dove questa misura è un valore approssimato. In
questo modo di fatto si trasforma un carattere quantitativo continuo in uno
discreto e dal punto di vista statistico viene trattato come tale.
5
2. Si ricorre ad una distribuzione in classi di frequenza. Il fenomeno anzi-
ché essere misurato in modo esatto viene classificato in intervalli contigui, di
ampiezza uguale o diversa.
6
2.1 Frequenze relative e relative percentuali
Quando si opera una sintesi dei dati, oltre alle frequenze assolute è interessante far
riferimento alle frequenze relative e relative percentuali, che ci permettono di
interpretare meglio i dati e di operare confronti tra popolazioni di diversa numerosità.
Guardando questa tabella si può subito concludere che il 40% delle persone
indagate ha un titolo di licenza media superiore (vedremo più avanti che la
modalità che si presenta più frequentemente ha un significato particolare) e che
più della metà della popolazione ha un titolo di studio superiore all’istruzione
obbligatoria.
7
Numero di sms Frequenze relative (fi ) Frequenze percentuali (fi 100%)
1 0, 06̄(=2/30) 6%
2 0, 06̄(=2/30) 6%
4 0,2(=6/30) 20%
5 0, 13̄(=4/30) 13%
7 0,2(=6/30) 20%
8 0, 13̄(=4/30) 13%
9 0, 06̄(=2/30) 6%
10 0,1(=3/30) 10%
15 0, 03̄(=1/30) 3%
Durata della lampadina Frequenze relative (fi ) Frequenze percentuali (fi 100%)
(0,15] 0,05(=1/20) 5%
(15,30] 0,2(=4/20) 20%
(30,60] 0,1(=2/20) 10%
(60;180] 0,65(=13/20) 65%
8
• Le frequenze relative cumulate si determinano direttamente dalle frequenze
P
relative: Fi = ij=1 fj = Nni , i = 1, . . . , k. Ovviamente F1 = f1 e Fk = 1 .
• Con riferimento all’Esempio 1.2 nella seguente tabella si riportano sia le fre-
quenze assolute che le relative cumulate:
Per sapere quante persone hanno un titolo di studio inferiore a LMI, dalla
colonna delle frequenze assolute cumulate emerge che sono N2 = 4, ossia quelli
che hanno la LE più quelli che non hanno alcun titolo di studio. Se ci si chiede
quante persone hanno un titolo di studio almeno pari al diploma, si ha che
sono 20 − N3 = 20 − 8 = 12 ossia 20 meno tutti quelli che hanno un titolo di
studio almeno pari a LMI.
• Con riferimento all’Esempio 1.3 nella seguente tabella si riportano sia le fre-
quenze assolute che le relative cumulate:
Per sapere la proporzione di giovani che inviano più di 8 sms al giorno, basta
sottrarre a 1 la proporzione di giovani che inviano al massimo 8 sms, ossia
F6 = 0.8. Per cui la proporzione richiesta è 1 − 0.8 = 0.2.
• Con riferimento all’Esempio 1.4 nella seguente tabella si riportano sia le fre-
quenze assolute che le relative cumulate:
9
Durata ni Frequenze assolute cumulate (Ni ) Fi
(0,15] 1 1 (N1 = n1 = 1) 0,05 (=1/20)
(15,30] 4 5 (N2 = N1 + n2 = 1 + 4) 0,25 (=5/20)
(30,60] 3 8 (N3 = N2 + n3 = 5 + 3) 0,4 (=8/20)
(60;180] 12 20 (N4 = N3 + n4 = 8 + 12) 1 (=20/20)
Per sapere che proporzione di lampadine che durano al massimo un mese, basta
osservare la colonna delle frequenze relative cumulate, da cui emerge che è pari
1/4(= F2 ). La proporzione di lampadine che durano più di due mesi è invece
pari a 1 − F3 = 1 − 2/5 = 1/5 (1 meno la proporzione di lampadine la cui
durata è al massimo pari a due mesi).
3 Rappresentazioni grafiche
Come accennato nel Paragrafo 1, è fondamentale stabilire se il carattere oggetto di
studio è di tipo qualitativo sconnesso o rettilineo, o quantitativo discreto o continuo.
Già nel Paragrafo 2 si è visto che la classificazione dei fenomeni quantitativi continui
è diversa rispetto agli altri tipi di caratteri: se non si discrettizza bisogna ricorrere
ad una distribuzione in classi di frequenza. In questo paragrafo mostriamo come tipi
di dati diversi vengano rappresentati graficamente in modo diverso. In letteratura
sono disponibili molte grappresentazioni grafiche per ciascun tipo di variabile, in
questo testo ne presentiamo solo quattro, una per ciascun tipo di dati.
10
0.30
0.25
0.20
Frequenze relative
0.15
0.10
0.05
0.00
Corso di laurea
0.2
0.1
0.0
N LE LMI LMS L
Titolo di studio
11
percentuali (a seconda di ciò che si è deciso di rappresentare). Con riferimento
all’Esempio 1.3 la rappresentazione grafica è
0.20
0.15
Frequenze relative
0.10
0.05
0.00
1 2 4 5 7 8 9 10 15
Numero di sms
Definizione 3.1. La densità di frequenza è data dal rapporto tra la frequenza asso-
luta, relativa o relativa percentuale (a seconda di ciò che si è deciso di rappresentare)
divisa per l’ampiezza della classe:
ni fi fi
li = , li = o li = 100,
ai ai ai
dove ai = hi − hi−1 è l’ampiezza della classe i-esima, i = 1, . . . , k.
Per cui nell’asse delle ordinate si riportano le densità di frequenza non le fre-
quenze. Noi rappresentiamo istogrammi tali che l’area dei rettangoli sia pari alle
frequenze relative. Per cui, da una distribuzione in classi di frequenza del tipo
12
(hi ; hi+1 ] ni
(h1 ; h2 ] n1
(h2 ; h3 ] n2
.. ..
. .
(hi ; hi+1 ] ni
.. ..
. .
(hk ; hk+1 ] nk
T otali n
f2
lk
f1
li
fk
fi−1 fi
0
Gli istogrammi di frequenza possono essere usati anche per stabilire la proporzione
di unità statistiche che presentano modalità minore o uguale a un valore prefissato,
xp . Data una distribuzione in classi di frequenza, è noto solo che proporzione di
osservazioni cadono all’interno delle varie classi, non sono note le modalità associate
alle singole unità statistiche. La proporzione di unità statistiche che hanno modalità
minore o uguale a xp è data dall’area sottesa dall’istogramma a sinistra di xp (area
tratteggiata)
13
l2
l1
Densità
f2
lk
f1
li fk
li
fi−1
0
La rappresentazione grafica è
14
0.13
Densità di frequenza
0.5416
0.03
0
0 15 30 60 180
4 Indici di posizione
Gli indici di posizione sono degli indicatori sintetici che in un unico valore (o pochi
valori) riassumono l’intera distribuzione dei dati. In questo modo danno un’idea
dell’ordine di grandezza del fenomeno studiato. In questo paragrafo descriviamo più
in dettaglio tre indicatori sintetici, la moda, la mediana e la media aritmetica.
Ogni indice di posizione deve essere sempre affiancato da un’ulteriore quantità che
misuri la sua precisione come indicatore sintetico. Vale a dire, bisogna sempre
chiedersi se l’indicatore di posizione che si sta usando per riassumere l’informazione
contenuta nei dati è un buon o un cattivo rappresentante dei dati stessi. A questo
scopo, a ciascun indicatore sintetico viene affiancato un indicatore di precisione
che serve per stabilire se i dati vengono sintetizzati in modo opportuno o meno
dall’indicatore di posizione scelto.
4.1 La moda
Tra gli indici di posizione la moda (che solitamente si indica con Mo) è il più semplice
da determinare e può essere calcolata per tutti i tipi di caratteri.
Definizione 4.1. Per i caratteri qualitativi e quantitativi discreti: la moda è la
modalità a cui è associata frequenza assoluta (relativa o relativa percentuale) più
elevata.
Per i caratteri quantitativi continui rappresentati in classi di frequenza: la moda è
il valore centrale dell’intervallo che presenta densità di frequenza più elevata.
Per valutare il grado di bontà della moda, come indicatore sintetico dell’intera
serie di dati, si devono distinguere due casi:
15
1. per i caratteri qualitativi e i quantitativi discreti, si valuta frequenza relati-
va o relativa percentuale associata alla moda: più è elevata la percentuale
di unità statistiche che presentano la moda come modalità, più la moda è
rappresentativa dell’intera serie di dati.
2. per i caratteri quantitativi continui, si confronta la densità di frequenza asso-
ciata all’intervallo modale con le densità associate agli altri intervalli: più la
desità associata all’intervallo modale è elevata rispetto alle altre più la moda
può essere considerata un buon indicatore di posizione.
Esempi 1.1, 1.2, 1.3 e 1.4 (continua).
• Con riferimento all’Esempio 1.1, si ha che due modalità distinte presentano
frequenza maggiore, in tal caso si dice che il fenomeno è bimodale e le due
mode sono le modalità SIE e SPO. Entrambe le modalità modali assorbono
il 33% delle unità statistiche, insieme ben il 66% degli studenti, per cui que-
ste due mode sono rappresentative del fenomeno indagato, in altri termini lo
sintetizzano bene.
• Con riferimento all’Esempio 1.2, la moda è la modalità LMS che assorbe il
40% delle unità statistiche, per cui è abbastanza rappresentativa.
• Con riferimento all’Esempio 1.3, il carattere studiato è ancora bimodale: le
mode sono le modalità numeriche 4 e 7 che assorbono ciascuna il 20% delle
unità statistiche (quindi non sono così rappresentative, specie se si nota che le
modalità 5 e 8 assorbolo ciascuna il 13% dele unità statistiche).
• Infine con riferimento all’Esempio 1.4, la densità di frequenza più elevata è
0, 013̄ che compete al secondo intervallo, per cui la moda è il valore centrale
dell’intervallo (15, 30], ossia Mo = (15 + 30)/2 = 22, 5. In questo caso l’inter-
pretazione della moda è più difficile, diciamo che è tanto più rappresentativa
quanto più la densità di frequenza dell’intervallo modale è elevata rispetto al-
le altre. Si noti che se erroneamente avessimo scelto come intervallo modale
quello con maggiore frequenza avremmo individuato il quarto intervallo che
assorbe ben il 65% delle osservazioni. Tuttavia tale intervallo è molto ampio,
quindi è ovvio che assorba molte osservazioni. Si deve far riferimento alle den-
sità di frequenza per tener conto che alcuni intervalli assorbono molte unità
statistiche non perché veramente siano rappresentativi dell’intera serie di dati
ma perché sono molto ampi e quindi vi cadono dentro molte osservazioni. Gli
intervalli più rappresentativi sono quelli che sono più densi, in cui le unità sono
più vicine tra loro.
4.2 I quartili
In questo paragrafo si descrivono le metodologie di calcolo dei quantili per i caratteri
quantitativi discreti e continui. Per i caratteri qualitativi rettilinei si descrive il solo
calcolo della mediana (che può però essere esteso a tutti gli altri quantili).
16
Definizione 4.2. Sia 0 < p < 1, è detto quantile di ordine p e si indica con xp , quel
valore che, dopo aver ordinato in senso non decrescente i dati, lascia alla sua sinistra
almeno una proporzione pari p di osservazioni (ossia almeno np osservazioni) e alla
sua destra almeno una proporzione pari a (1 − p) di osservazioni (ossia almeno
n(1 − p) osservazioni).
Siano x(1) ≤ x(2) , . . . , ≤ x(n) i dati ordinati, una rappresentazione del quantile xp è:
17
I quartili possono essere rappresentati tramite un grafico detto boxplot. Di seguito
riportiamo due boxplot in cui la mediana coincide, ma la distanza tra il primo e il
terzo quartile è diversa. Nel grafico di destra la differenza interquartile è più bassa,
denotando una maggiore concentrazione del 50% dei dati centrali attorno alla me-
diana. La mediana è dunque un indicatore sintetico più preciso nel caso B che nel
caso A.
A B
x0.75 x0.75
x0.5 x0.5
x0.25
x0.25
Nota bene 1: I quantili (e quindi anche i quartili) non possono essere calcolati per
i caratteri qualitativi sconnessi: dalla definizione di quantile si intuisce la necessità
che il carattere studiato sia misurato almeno su una scala ordinale, ossia abbia
modalità ordinabili. Per questa ragione non viene calcolata la mediana per i dati
riportati nell’Esempio 1.1.
18
Esempio 1.2 (continua).
Esempio 4.1. Da un’indagine sul reddito si vuole stabilire se conseguire una laurea
comporta poi avere un reddito medio-alto. A tale scopo si sono intervistati 20 laureati
della stessa età. Si determini il reddito mediano sulla base dei seguenti dati rilevati:
Reddito ni Ni Posizioni
Basso 5 5 1-5
Medio 5 10 6-10
Alto 10 20 11-20
19
1. se np è intero allora si individuano le modalità x(np) e x(np+1) associate alle
unità statistiche di posizione np e np + 1, rispettivamente. Il quantile xp è
x(np) + x(np+1)
xp =
2
Si noti che per il calcolo della mediana (p = 0, 5) si può anche usare la regola definita
per i caratteri rettilinei.
Per comprendere appieno come si calcolano i quartili si osservino i seguenti esempi.
Xi : 1; 2; 4; 5; 8; 9; 11; 15
20
In questo esempio la differenza interquartile è DI = 10 − 3 = 7 e il Range è
R = 15 − 1 = 14. Poiché la differenza interquartile è piuttosto piccola rispetto al
range (la metà del range), la mediana può essere considerata un indicatore sintetico
abbastanza buono.
Esempio 4.4. Dalla rilevazione di un carattere X su n = 7 unità statistiche
supponiamo di ottenere la seguente seriazione:
Xi : 1; 2; 4; 5; 8; 9; 11
x0.25 = 2
x0.5 = 5
x0.75 = 9
21
• Calcolo del primo quartile: p = 0, 25 e np = 30 · 0, 25 = 7, 5 che non è intero,
per cui si deve determinare una sola posizione, [np] + 1 = 7 + 1 = 8. La
modalità associata all’unità statistica di posizione 8 è
x0.25 = 4
x0.75 = 8
x0.75
8
x0.5
6
x0.25
4
2
22
l2
l1
Densità
f2
lk
f1
li fk
li
fi−1
0
ai
xp = hi + · [p − Fi−1 ] (3)
fi
23
Durata della lampadina fi ai Fi
(0,15] 0,05 15(=15-0) 0,05
(15,30] 0,2 15(=30-15) 0,25
(30,60] 0,1 30(=60-30) 0,35
(60;180] 0,65 120(=180-60) 1
• Il terzo quartile (che per definizione lascia alla sua sinistra il 25% delle os-
servazioni) non può che essere 30, poiché F2 (proporzione di unità statistiche
con modalità minore o uguale a 30) vale proprio 0,25. Applicando la regola si
arriva allo stesso risultato: p = 0, 25 e poiché 0, 05 < 0, 25 ≤ 0, 25, il primo
quartile cade nella seconda classe (15; 30]. Applicando la formula (3) si ha che
15
x0,25 = 15 + (0, 25 − 0, 05) = 30.
0, 2
24
4.3 La media aritmetica
L’ultimo indice di posizione che analizziamo è la media aritmetica, che può essere
calcolata solo per i caratteri quantitativi. Sia X il carattere d’interesse che viene
rilevato su n unità statistiche.
Definizione 4.3. La media aritmetica di n valori numerici {x1 , . . . , xi , . . . , xn }, è
data dalla seguente formula Pn
xi
x̄ = i=1
n
Se alcuni dei valori rilevati {x1 , . . . , xi , . . . , xn } si ripetono allora conviene clas-
sificare il fenomeno in una tabella di sintesi,
X ni
x1 n1
x2 n2
.. ..
. .
xi ni
.. ..
. .
xk nk
T otale n
e la media aritmetica può essere riscritta nel seguente modo
Pn Pk k
i=1 xi i=1 xi ni X
x̄ = = = xi fi
n n i=1
25
lontane dalla media tanto più la media è un cattivo rappresentante dei dati stessi e
tanto più la varianza è elevata. Quindi come regola generale, se lo scarto quadratico
medio è piccolo (di ordine di grandezza inferiore a quello della media) allora la media
può essere considerata un buon indicatore sintetico. Se lo scarto quadratico medio
è elevato (di ordine di grandezza superiore a quello della media) allora la media non
è un buon rappresentante dei dati.
Si noti che se i dati possono essere classificati in una tabella di sintesi, allora
anche per la varianza valgono queste tre scritture equivalenti:
Pn Pk k
2 i=1 (xi − x̄)2 i=1 (xi − x̄)2 ni X
s̃ = = = (xi − x̄)2 fi
n n i=1
26
Durata della lampadina ni xi = hi +h2 i+1 xi ni xi − x̄ (xi − x̄)2 ni
(0,15] 1 7,5 7,5 -79,875 6380.016
(15,30] 4 22,5 90 -64,875 4208.766
(30,60] 2 45 90 -42,375 1795.641
(60;180] 13 120 1560 32,625 1064.391
Totali 20 - 1747,5 - 13448.814
{ 5, 2, 4.4, 6.5, 7.5, 2.6, 7.6 ,5.8, 10.6, 3.1, 5, 2.3, 9.2, 6.2, 7, 11.2 }
27
Pn
i=1 96 xi
x̄ = = 6. =
n 16
Per la proprietà di linearità della media, si ha che
ȳ = −3 · 6 + 2 = −16.
{ (5,4), (3,2), (4.4, 6.5), (7.5, 2.5), (7.6 ,5.5), (10.6, 3.1), (5, 2.3),( 9.2, 6.6), (7,
11.2), (10.4, 5.3) }
Pn
i=1 xi
69.7
x̄ = =
= 6.97,
n 10
Pn
yi 49
ȳ = i=1 = = 4.9
n 10
e dalla proprietà sulla media di una differenza segue che
Proprietà 4.3. Dalle Proprietà 4.1 e 4.2 segue che se Z = aX+bY allora z̄ = ax̄ + bȳ .
Esempio 4.7. Sia Z = −4X − 3Y , con gli stessi dati dell’Esempio 4.6 si calcoli la
media di Z.
5 La variabilità
Oltre a voler stabilire l’ordine di grandezza del fenomeno studiato, si può essere inte-
ressati a valutare l’attitudine del carattere a variare, ossia ad assumere valori distinti.
In questo caso si parla di studio della variabilità (o mutabilità) del fenomeno.
Gli indici che misurano l’attitudine di un carattere ad assumere modalità diverse
(a variare) sono: gli indici di variabilità per le variabili quantitative e gli indici
di eterogeneità per le variabili qualitative. In questa dispensa presentiamo solo
alcuni degli indici di variabilità esistenti in letteratura e tralasciamo completamente
gli indici di eterogeneità (non perché non siano importanti ma per motivi di tempo).
Il più semplice indice di variabilità è il range o campo di variazione: R = x(n) −
x(1) . Se la distanza tra il più grande e il più piccolo valore osservato è piccola, significa
che il carattere assume valori molto prossimi tra loro e quindi varia poco. D’altra
parte non si può affermare con certezza il contrario qualora il range sia grande, poiché
28
può accadere che la maggior parte dei dati sia concentrata in un certo intervallo di
valori (tali osservazioni variano poco tra loro) e poche osservazioni (anche solo una)
siano molto diverse, in questo caso il range risulterebbe alto ma la variabilità dei
dati (escludendo queste poche osservazioni) non è elevata.
Per ovviare questo problema, si è deciso di costruire indici di variabilità che escludono
i valori più piccoli e più elevati della serie di dati. Un indice di questo tipo è
la differenza (e lo scarto) interquartile, che essendo dato dalla differenza (o semi-
differenza) tra il terzo e il primo quartile non è influenzato dalle osservazioni inferiori
al primo quartile o superiori al terzo.
Tuttavia sia la formula di calcolo del range che quella della differenza interquartile
dipende solo da due dei valori osservati, non tiene conto di tutti i dati. Indici di
variabilità costruiti sulla base dell’intera serie di dati sono la varianza e lo scarto
quadratico medio. Tuttavia proprio perché dipendono da tutte le osservazioni, la
varianza e lo scarto quadratico medio (come pure la media) sono molto influenzati
dai valori anomali, ossia osservazioni insolitamente alte o basse. In altri termini, i
valori della varianza e dello scarto quadratico medio (come pure quello della media)
cambiano notevolmente se si includono o meno i valori anomali presenti nella serie
di dati. Per questa ragione, talvolta è preferibile calcolare media e varianza dopo
aver eliminato dalla serie di dati i valori anomali stessi. Oppure si fa riferimento alla
mediana e alla differenza interquartile, poiché non dipendono dalla presenza delle
osservazioni anomale, nel senso che non cambiano di valore se queste osservazioni
vengono escluse o meno dalla serie di dati.
Essendo la varianza uno degli indicatori di variabilità più utilizzati, elenchiamo nel
seguito alcune sue proprietà.
5.1 La varianza
Come già anticipato nel Paragrafo 4.3, se i dati sono classificati in una tabella di
sintesi, allora la varianza può essere espressa in questi tre modi equivalenti:
Pn 2
Pk 2 k
2 (xi − x̄) i=1 (xi − x̄) ni
X
s̃ = i=1
= = (xi − x̄)2 fi . (4)
n n i=1
Per il calcolo della varianza esiste una formula più semplice, dal punto di vista
computazionale. Si può infatti dimostrare che la varianza è data dalla differenza tra
il momento secondo delle osservazioni (media delle osservazioni al quadrato) e il
momento primo delle osservazioni (la media delle osservazioni), ossia
Pn 2
Pk k
2 i=1 xi x2i ni X
s̃ = − x̄2 = i=1 2
− x̄ = x2i fi − x̄2
n n i=1
Queste ultime formule richiedono un numero di calcoli inferiore rispetto alle formule
definitorie (4), per questo se ne consiglia utilizzo.
Nel seguito descriviamo come diventano le Proprietà 4.3.1 per la varianza.
29
Proprietà 5.1. Siano a e b due costanti qualsiasi e sia X un carattere quantitativo.
Se Y = a + b X allora s̃2Y = b2 s̃2X .
Per poter definire la varianza di una somma o differenza di due variabili è necessario
definire un’altra quantità detta covarianza tra X e Y e indicata con s̃XY .
Definizione 5.1. Dati due caratteri quantitativi X e Y , la covarianza tra X e Y è
data dalla seguente espressione:
Pn
(xi − x̄)(yi − ȳ)
s̃XY = i=1
n
Due variabili si dicono incorrelate se la loro covarianza è nulla. Anche per
la covarianza esiste una formula di calcolo equivalente a quella definitoria ma più
semplice da applicare:
Pn
xi yi
s̃XY = i=1 − x̄ȳ
n
In altri termini, la covarianza è data dalla differenza tra la media della variabile
prodotto X · Y e il prodotto delle medie x̄ · ȳ.
Proprietà 5.2. (Varianza di una somma o differenza di variabili)
Siano X e Y due caratteri quantitativi.
Se Z = X + Y allora s̃2Z = s̃2Y + s̃2X + 2s̃XY .
Se Z = X − Y allora s̃2Z = s̃2Y + s̃2X − 2s̃XY .
Proprietà 5.3. Dalle Proprietà 5.1 e 5.2 segue che
se Z = aX + bY allora s̃2Z = a2 s̃2X + b2 s̃2Y + 2 a b s̃XY .
Esempi 4.5, 4.6 e 4.7(continua).
• Con riferimento ai dati dell’Esempio 4.5 si ha che
Pn 2
x 25 + 4 + · · · + 49 + 125, 44
2
s̃X = i=1 i − x̄2 = − 36 = 43, 425 − 36 = 7, 427.
n 16
Poiché Y = −3X + 2, si ha che b = −3 da cui
s̃2Y = b2 s̃2X = 9 · 7, 427 = 66, 825.
30
Poiché Z = X − Y , si ha che
s̃2Z = s̃2X + s̃2Y − 2 s̃XY = 6, 072 + 7, 064 − 2 · 1, 222 = 10, 69.
Dal confronto dei coefficienti di variazione emerge che c’è una maggiore variabilità
del prezzo al mq in periferia. Mentre la zona in cui il prezzo al mq varia meno è
in centro. Si noti che saremmo arrivati (erroneamente) alla conclusione opposta se
avessimo confrontato le varianze dei prezzi.
31