Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
DISTRIBUZIONI BIVARIATE
5.1 Introduzione
Nei capitoli precedenti sono stati esaminati alcuni dei più comuni metodi statistici utilizzati per descrivere
l’assetto distributivo di una variabile per evidenziarne le caratteristiche principali. Scopo delle prossime
pagine sarà quello di estendere l'analisi a quei casi in cui su ogni unità statistica sono rilevate più variabili
contemporaneamente.
In questa situazione si possono studiare le caratteristiche delle singole variabili, ma l’interesse principale
consiste nell’analizzare le eventuali relazioni esistenti fra le variabili stesse e nel misurarne l’intensità.
Per semplicità sarà preso in considerazione solo il caso di due variabili e lo studio sarà quindi limitato alle
cosiddette distribuzioni bivariate.
Le due variabili statistiche oggetto dell'indagine saranno indicate genericamente con le lettere maiuscole X
e Y e si parlerà o di due variabili X e Y o di una variabile (X, Y) a due dimensioni. Le due variabili
considerate possono essere sia qualitative (sconnesse o ordinabili) sia quantitative (discrete o continue) e
possono essere dello stesso tipo, oppure di tipo diverso.
Su n individui può essere rilevato, per esempio, il titolo di studio e la posizione nella professione e in questo
caso le due variabili sono entrambe di qualitative sconnesse. Su n imprese si può rilevare il ramo di attività
economica (commercio, trasporti, credito, …) e il numero di addetti, per cui si tratta di una variabile
qualitativa e di una variabile quantitativa discreta. Su n famiglie si può rilevare il reddito medio annuo e il
consumo medio annuo, e in questo caso le due variabili prese in considerazione sono entrambe di tipo
quantitativo e possono essere considerate di tipo continuo.
L'osservazione delle due variabili su ognuna delle n unità considerate fornisce una sequenza di n coppie di
modalità o di valori di X e Y, in cui ogni coppia si riferisce a una stessa unità. Queste n coppie, indicate
genericamente nel modo seguente
(x1, y1), (x2, y2), ..., (xi, yi), ..., (xn, yn),
possono essere sistemate in un prospetto analogo a quello della tabella 5.1.1, in cui con xi e yi vengono
indicate le determinazioni delle variabili X e Y rilevate sull'i-esima unità (i = 1, 2, …, n) ordinate in base
all’ordine di rilevazione.
68
Tabella 5.1.1
Esempio di sequenza di coppie relative a n osservazioni
X x1 x2 ... xi ... xn
Y y1 y2 ... yi ... yn
Si supponga, per esempio, che su 20 clienti di un’azienda che vende fondi di investimento si sia rilevato se
si tratta di un pensionato o meno e la tipologia di investimento scelto. Indicata con X la variabile che assume
valore 1 se il cliente è pensionato e valore 0 in caso contrario, e con Y la variabile che assume le seguenti
modalità A= “azioni”, V= “polizza vita”, F= “fondi” il prospetto seguente riporta la sequenza delle coppie
di determinazioni rilevate.
Tabella 5.1.2
Sequenza delle coppie di determinazioni assunte da due variabili su 20 unità
(elencate secondo l’ordine di rilevazione)
X 0 0 1 1 1 0 0 0 0 0 0 1 0 1 0 0 0 1 0 0
Y A F V A A F V V V A F V V V A V A V A V
Dai dati della tabella 5.1.2 risulta, per esempio, che il quarto cliente rilevato è un pensionato che
ha acquistato azioni, mentre il nono cliente, non è un pensionato e ha acquistato una polizza vita.
Se le variabili sono qualitative ordinate o quantitative, le coppie possono essere anche elencate sulla base
della sequenza ordinate delle determinazioni assunte da una o dall'altra variabile, così come si è già visto
nel caso univariato, dato che l’eventuale ordinamento non altera in alcun modo le informazioni raccolte.
69
bivariata o congiunta di X e Y può essere rappresentata mediante le terne (cj, dl, njl) con j = 1, 2, ..., k e l =
1, 2, ..., h. Ovviamente per le frequenze assolute vale la seguente relazione
Tabella 5.2.1
Esempio di tabella a doppia entrata
I simboli cj (j = 1, 2, ..., k) che compaiono sulla prima colonna rappresentano le k determinazioni diverse
che la variabile X assume sulle n unità statistiche esaminate, mentre i simboli dl (l = 1, 2, ..., h) riportati
sulla prima riga rappresentano le h determinazioni diverse che la Y assume sullo stesse unità. Se le variabili
sono qualitative ordinabili o quantitative discrete, le determinazioni sono riportate secondo il loro ordine
naturale. Il simbolo njl, che si legge all'incrocio fra la riga cj e la colonna dl, indica il numero di unità sui
quali sono state rilevate contemporaneamente le determinazioni cj e dl rispettivamente delle variabili X e
Y. La distribuzione bivariata o congiunta di X e Y può essere rappresentata mediante le terne (cj, dl, njl) con
j = 1, 2, ..., k e l = 1, 2, ..., h.
I simboli n.1, n.2, ..., n.h riportati nell'ultima riga della tabella 5.2.1 indicano i totali delle diverse colonne e,
quindi, il numero di unità sulle quali sono state rilevate le determinazioni d1, d2, ..., dh della variabile Y,
senza tener conto delle determinazioni assunte dalla X.
Risulta perciò
k k k
n.1 n j1 , ..., n.l n j l , ..., n.h n jh .
j 1 j 1 j 1
70
Un significato analogo hanno i simboli nj. che, corrispondendo ai totali di riga, indicano il numero di unità
sulle quali sono state rilevate le determinazioni c1, c2, ..., ck della X, senza tener conto delle determinazioni
assunte dalla Y.
Risulta ovviamente
h h h
n1. n1l , ..., n j. n jl , ..., n k. nkl .
l 1 l 1 l 1
Nel quadratino in basso a destra della tabella 5.2.1 la lettera n indica il numero totale delle unità statistiche
esaminate, per cui risulta
k h k h
n n j. n.l n jl .
ji 1 l 1 j 1 l 1
Tabella 5.2.2
Arrivi negli esercizi ricettivi in Italia per residenza dei clienti e mese – Anno 2007
Fonte ISTAT- Movimento dei clienti negli esercizi ricettivi
In questo caso, per esempio, la frequenza 1951340 posta all'incrocio fra “Febbraio” e “Stranieri”
rappresenta il numero di stranieri arrivati negli esercizi ricettivi italiani durante il mese di febbraio del 2007.
Le coppie costituite dagli elementi della prima e dell'ultima riga della tabella costituiscono invece la
distribuzione degli arrivi negli esercizi ricettivi italiani durante l’anno 2007 per residenza dei clienti, senza
tener conto del mese. Così, per esempio, sono circa 53 milioni gli italiani arrivati in un esercizio ricettivo
durante il 2007.
In maniera analoga si possono commentare i valori indicati sull’ultima colonna, per cui 4373178 è il numero
di arrivi negli esercizi ricettivi in Italia nel gennaio 2007, senza tenere conto della residenza dei clienti.
71
Se le variabili rilevate sono qualitative o quantitative discrete la distribuzione congiunta delle due variabili
contiene le stesse informazioni della sequenza originaria.
Se almeno una delle due variabili è quantitativa continua, le informazioni raccolte saranno sintetizzate
utilizzando delle classi di valori, per le quali valgono tutte le considerazioni fatte a proposito delle
distribuzioni univariate. Evidentemente questa operazione comporta necessariamente una perdita di
informazione, ma evidenzia l’assetto distributivo della variabile oggetto di indagine, così come accadeva
nel caso univariato.
In questo caso sulla prima riga della tabella, sulla prima colonna, o su entrambe, sono indicate non le singole
determinazioni cj e dl ma degli opportuni intervalli di valori (che saranno considerati sempre aperti a sinistra
e chiusi a destra, se non sarà diversamente specificato).
Se, per esempio, si utilizzano classi di valori sia per la X sia per la Y, all'incrocio fra la riga indicata con
l'intervallo cj-1cj e la colonna indicata con l'intervallo dl-1dl il simbolo njl rappresenta il numero di unità
su cui sono stati rilevati contemporaneamente valori della X compresi nell’intervallo (cj-1 , cj] e valori della
Y compresi nell’intervallo (dl-1, dl].
Esempio 5.2.1
Date le due seguenti sequenze di dati che si riferiscono ai livelli di colesterolo, misurati in mg per 100 ml, di due
diversi gruppi di unità
Gruppo 1
233, 291, 312, 250, 246, 197, 268, 224, 239, 239,
254, 276, 234, 181, 248, 252, 202, 218, 212, 325
Gruppo 2
344, 185, 263, 246, 224, 212, 188, 250, 148, 169,
226, 175, 242, 252, 153, 183, 137, 202, 194, 213
si organizzino i dati in una tabella a doppia entrata in cui la variabile X, che identifica il gruppo, assume valore 1 per
il primo gruppo e valore 2 per il secondo, mentre la variabile Y, che indica i livelli di colesterolo, è raggruppata nelle
classi 130-180, 180-220, 220-250, 250-350.
72
Nelle successive tabelle 5.2.3 e 5.2.4 sono riportati alcuni esempi di distribuzioni bivariate con variabili di
diverso tipo. Nel primo caso entrambe le variabili sono qualitative sconnesse, mentre nel secondo caso una
è qualitativa sconnessa e l’altra quantitativa discreta ma, a causa dell’elevato numero dei suoi diversi valori,
si è utilizzato un raggruppamento in classi.
Tabella 5.2.3
Produzione di vino per regione e marchio di qualità - Anno 2007 (Fonte ISTAT)
Tabella 5.2.4
Fallimenti dichiarati dalle società per classe di ampiezza demografica dei comuni
e forma giuridica (Anno 2006) - Fonte ISTAT
73
Nella tabella 5.2.5 è invece riportata la sequenza originaria di coppie dei valori del reddito e del consumo
annui di 25 famiglie e nella 5.2.6 una delle possibili distribuzioni di frequenza corrispondente, espressa
mediante intervalli di valori.
Tabella 5.2.5
Reddito e consumo annui di 25 famiglie (dati in migliaia di euro)
Reddito 22.2 22.6 23.2 23.4 23.8 24.2 24.6 25.0 25.2 25.6
Consumo 18.4 19.0 19.8 19.4 20.2 20.6 22.2 22.2 20.0 21.4
Reddito 25.8 26.2 26.8 27.2 27.6 28.0 28.4 28.6 29.0 29.4
Consumo 21.0 21.6 22.2 21.8 22.0 23.0 24.0 23.6 24.2 22.0
Reddito 30.2 30.6 31.2 32.0 34.2
Consumo 23.4 24.2 23.6 24.4 25.8
Tabella 5.2.6
Distribuzione sintetica ottenuta dalla tabella 5.2.5
reddito\consumo 18 - 20 20 - 22 22 – 24 24 - 26
22 – 25 4 2 2 0 8
25 – 27 1 3 1 0 5
27 – 29 0 2 3 1 6
29 – 35 0 1 2 3 6
5 8 8 4 25
Esempio 5.2.2
Considerate le coppie di osservazioni della tabella 5.1.2 si costruisca la distribuzione doppia corrispondente
In questo caso le 3 determinazioni della variabile Y possono essere riportate secondo un ordine qualsiasi.
Distribuzione bivariata ottenuta dalla sequenza di coppie considerate nella tabella 5.1.2
X\Y A F V
0 5 3 6 14
1 2 0 4 6
7 3 10 20
74
e indicano la frazione di unità su cui sono state osservate le determinazioni cj e dl rispettivamente della X e
della Y. Si ha evidentemente
k h
f jl 1, 5.3.1
j 1 l 1
mentre le frequenze relative riportate nell’ultima riga e nell’ultima colonna della tabella a doppia entrata si
ottengono rispettivamente sommando le frequenze su una colonna o su una riga
k
f jl f .l l = 1, 2, …, h 5.3.2
j 1
h
f jl f j . j = 1, 2, …, k 5.3.3
l 1
con
k h
f j. f .l 1 . 5.3.4
j 1 l 1
La distribuzione bivariata o congiunta di X e Y può essere rappresentata mediante le terne (cj, dl, fjl) con
j= 1, 2, ..., k e l = 1, 2, ..., h.
Nella tabella 5.3.1 è riportata, a titolo d’esempio, la stessa distribuzione della tabella 5.2.6 dove le
frequenze assolute sono state sostituite con quelle relative.
Tabella 5.3.1
Distribuzione espressa mediante frequenze relative ottenuta dalla tabella 5.2.6
reddito\consumo 18 - 20 20 - 22 22 – 24 24 – 26
22 – 25 0.16 0.08 0.08 0.00 0.32
25 – 27 0.04 0.12 0.04 0.00 0.20
27 – 29 0.00 0.08 0.12 0.04 0.24
29 – 35 0.00 0.04 0.08 0.12 0.24
0.20 0.32 0.32 0.16 1.00
Come nel caso univariato, anche in quello bivariato gli indici statistici possono essere calcolati
indifferentemente utilizzando uno qualunque dei diversi tipi di frequenza.
Esempio 5.3.1
Data la distribuzione bivariata costruita nell’esempio 5.2.1, si sostituiscano le frequenze assolute con le corrispondenti
frequenze relative
.
75
Distribuzione di 40 unità per gruppo di appartenenza e livelli di colesterolo
(frequenze relative)
L’insieme delle coppie (cj, fj..) o delle coppie (cj, nj..) per j = 1, 2, ..., k, che costituisce la distribuzione di
frequenza della variabile X senza considerare la Y, viene chiamata distribuzione marginale della X. Allo
stesso modo le coppie (dl, f.l) o (dl, n.l) per l = 1, 2, ..., h, costituiscono la distribuzione marginale della Y.
Tali distribuzioni sono utilizzate per calcolare tutti gli indici esaminati nei capitoli precedenti per quanto
riguarda le due variabili singolarmente considerate.
Tuttavia, le informazioni più rilevanti sono contenute nel riquadro interno di una tabella a doppia entrata,
in quanto la distribuzione congiunta delle due variabili X e Y evidenzia le eventuali relazioni esistenti fra
esse e serve per misurare l’entità di tali relazioni. Per ottenere questo tipo di informazione dai dati occorre
analizzare e confrontare fra loro gli assetti distributivi di una variabile rilevata all’interno dei diversi gruppi
omogenei nell’altra, ossia per gruppi “omogenei” di unità, che presentano tutti una stessa determinazione
(o una stessa classe di valori) dell’altra variabile.
Le k righe del riquadro interno di ogni tabella a doppia entrata, in associazione con la prima riga,
rappresentano altrettante distribuzioni univariate della variabile Y all’interno dei diversi gruppi omogenei
in X. I valori fj1, fj2, ..., fjh della j-esima riga indicano infatti la distribuzione della variabile Y limitatamente
al gruppo di unità che presentano tutti la stessa determinazione cj di X oppure un’intensità compresa nella
j-esima classe (cj-1, cj] di questa variabile (con j = 1, 2, …, k).
Ogni riga interna della tabella rappresenta la distribuzione della Y per un gruppo di unità omogenee rispetto
alla variabile X. Tali distribuzioni, note come distribuzioni condizionate della Y alle diverse
determinazioni (o classi di valori) della X, vengono indicate mediante la notazione Y|x.
76
La prima riga del riquadro interno della tabella 5.3.1, per esempio, rappresenta la distribuzione del consumo
delle sole famiglie con un reddito compreso fra 22 e 25 mila euro annui, mentre la seconda riga fornisce
informazioni sulla distribuzione del consumo per le famiglie con un reddito fra 25 e 27 mila euro.
Uno degli scopi dell’analisi di questa tabella può consistere nel confronto delle distribuzioni del consumo
fra gruppi di famiglie omogenee rispetto al reddito, per vedere come questi consumi variano a seconda del
livello di reddito.
In genere si presenta la difficoltà di confrontare distribuzioni relative a gruppi di numerosità diversa, per
cui conviene dividere le frequenze che compaiono su ciascuna riga per il totale di riga corrispondente,
ottenendo le frequenze relative di riga, che consentono di effettuare questi confronti quale che sia la
numerosità di ciascun gruppo.
Nel caso dei dati riportati nelle tabelle 5.2.6 o 5.3.1, per esempio, le frequenze relative di riga assumono i
valori riportati nella tabella successiva.
Tabella 5.3.2
Frequenze relative di riga ottenute dalla tabella 5.2.7 o 5.3.1
reddito\consumo 18 – 20 20 - 22 22 – 24 24 – 26
22 – 25 0.50 0.25 0.25 0.00 1.00
25 – 27 0.20 0.60 0.20 0.00 1.00
27 – 29 0.00 0.17 0.50 0.03 1.00
29 – 35 0.00 0.03 0,1 6 0.50 1.00
Le distribuzioni di frequenza della Y per i diversi gruppi omogenei in X quando è posta uguale ad 1 la
frazione complessiva di unità di ciascun gruppo, sono chiamate distribuzioni relative condizionate della
Y alle diverse determinazioni (o classi di valori) della X.
Nella successiva tabella 5.3.3 è riportato un altro esempio di distribuzioni condizionate. In questo caso si
tratta delle distribuzioni del tipo di visita medica a cui si sono sottoposte pazienti di sesso femminile,
condizionate alle classi di età delle pazienti.
Tabella 5.3.3
77
1
Distribuzione delle visite mediche specialistiche per tipo specializzazione del medico ed età del paziente
- Femmine - Frequenze relative di riga
età\tipo A B C D E F
14 0.062 0.019 0.158 0.442 0.146 0.173 1.000
14-19 0.060 0.090 0.129 0.527 0.050 0.144 1.000
20-29 0.064 0.615 0.073 0.164 0.048 0.036 1.000
30-39 0.072 0.549 0.054 0.201 0.044 0.080 1.000
40-49 0.160 0.363 0.069 0.224 0.059 0.125 1.000
50-59 0.208 0.226 0.066 0.203 0.091 0.206 1.000
60-64 0.388 0.048 0.214 0.126 0.044 0.180 1.000
65 e + 0.371 0.075 0.157 0.177 0.049 0.171 1.000
Dai dati contenuti nella tabella risulta, per esempio, che per le pazienti con un'età inferiore a 20 anni le
visite sono soprattutto di tipo odontoiatrico (44% del totale in quella classe di età), per quelle con un'età
compresa fra 20 e 40 anni sono ostetriche e ginecologiche (oltre il 60%) ed infine, per quelle con un'età
superiore a 60, sono cardiologiche. Per quest’ultimo tipo di visita si nota un incremento dell'incidenza al
crescere dell'età delle pazienti, mentre per quelle oculistiche la maggiore incidenza si ha per le pazienti con
un'età inferiore a 20 anni e superiore a 60.
Quando ci si vuole riferire alla distribuzione della variabile Y condizionata ad una generica determinazione
cj (o alla j-esima classe) della X spesso si utilizza la notazione
Y|cj, j = 1, 2, ..., k,
dove
k n jl k f
n j.
jl
1 j = 1, 2, ..., k. 5.4.2
j 1 j 1
f j.
Se si vuole scambiare il ruolo delle due variabili, analizzando la distribuzione condizionata della variabile
X condizionata ad una generica determinazione yl (o alla l-esima classe) della Y, si utilizza ovviamente la
notazione
X|dl, l = 1, 2, ..., h.
1Fonte: ISTAT (1986) Indagine statistica sulle condizioni di salute della popolazione e sul ricorso ai servizi sanitari. Note e relazioni n.1
78
mentre le frequenze relative condizionate corrispondenti sono date dal rapporto
n jl f jl
, 5.4.3
n .l f .l
dove
h n jl h f
n.l
jl
1 l = 1, 2, ..., h.
l 1 l 1
f .l
In una tabella a doppia entrata relativa a una variabile X che assume k determinazioni (o classi di valori)
distinte e a una variabile Y che assume h determinazioni (o classi di valori) distinte sono contenute le
seguenti distribuzioni:
- la distribuzione di frequenza congiunta delle due variabili;
- le due distribuzioni marginali da X e della Y;
- le k distribuzioni di Y condizionate a X;
- le h distribuzioni di X condizionate a Y.
Esempio 5.4.1
Data la seguente distribuzione bivariata relativa ai residenti di un comune italiano classificati per classe di età (X) e
nazionalità (Y)
Le distribuzioni relative delle classi di età a seconda della nazionalità dei residenti risultano
Distribuzioni relative delle classi di età dei residenti condizionate alla nazionalità
Esempio 5.4.2
79
In un’indagine su 100 studenti universitari iscritti a un certo corso di laurea nel 2015, si è rilevato il voto di diploma
conseguito e se erano ancora iscritti al corso o se lo avevano abbandonato. Sulla base della distribuzione riportata nella
tabella successiva,
si calcolino le distribuzioni relative condizionate del voto di diploma (Y) a seconda della condizione dello studente
(X).
Distribuzioni relative del voto di diploma condizionate allo stato degli studenti
80