Sei sulla pagina 1di 13

5.

DISTRIBUZIONI BIVARIATE

5.1 Introduzione
Nei capitoli precedenti sono stati esaminati alcuni dei più comuni metodi statistici utilizzati per descrivere
l’assetto distributivo di una variabile per evidenziarne le caratteristiche principali. Scopo delle prossime
pagine sarà quello di estendere l'analisi a quei casi in cui su ogni unità statistica sono rilevate più variabili
contemporaneamente.
In questa situazione si possono studiare le caratteristiche delle singole variabili, ma l’interesse principale
consiste nell’analizzare le eventuali relazioni esistenti fra le variabili stesse e nel misurarne l’intensità.
Per semplicità sarà preso in considerazione solo il caso di due variabili e lo studio sarà quindi limitato alle
cosiddette distribuzioni bivariate.
Le due variabili statistiche oggetto dell'indagine saranno indicate genericamente con le lettere maiuscole X
e Y e si parlerà o di due variabili X e Y o di una variabile (X, Y) a due dimensioni. Le due variabili
considerate possono essere sia qualitative (sconnesse o ordinabili) sia quantitative (discrete o continue) e
possono essere dello stesso tipo, oppure di tipo diverso.
Su n individui può essere rilevato, per esempio, il titolo di studio e la posizione nella professione e in questo
caso le due variabili sono entrambe di qualitative sconnesse. Su n imprese si può rilevare il ramo di attività
economica (commercio, trasporti, credito, …) e il numero di addetti, per cui si tratta di una variabile
qualitativa e di una variabile quantitativa discreta. Su n famiglie si può rilevare il reddito medio annuo e il
consumo medio annuo, e in questo caso le due variabili prese in considerazione sono entrambe di tipo
quantitativo e possono essere considerate di tipo continuo.
L'osservazione delle due variabili su ognuna delle n unità considerate fornisce una sequenza di n coppie di
modalità o di valori di X e Y, in cui ogni coppia si riferisce a una stessa unità. Queste n coppie, indicate
genericamente nel modo seguente

(x1, y1), (x2, y2), ..., (xi, yi), ..., (xn, yn),

possono essere sistemate in un prospetto analogo a quello della tabella 5.1.1, in cui con xi e yi vengono
indicate le determinazioni delle variabili X e Y rilevate sull'i-esima unità (i = 1, 2, …, n) ordinate in base
all’ordine di rilevazione.

68
Tabella 5.1.1
Esempio di sequenza di coppie relative a n osservazioni

X x1 x2 ... xi ... xn
Y y1 y2 ... yi ... yn

Si supponga, per esempio, che su 20 clienti di un’azienda che vende fondi di investimento si sia rilevato se
si tratta di un pensionato o meno e la tipologia di investimento scelto. Indicata con X la variabile che assume
valore 1 se il cliente è pensionato e valore 0 in caso contrario, e con Y la variabile che assume le seguenti
modalità A= “azioni”, V= “polizza vita”, F= “fondi” il prospetto seguente riporta la sequenza delle coppie
di determinazioni rilevate.

Tabella 5.1.2
Sequenza delle coppie di determinazioni assunte da due variabili su 20 unità
(elencate secondo l’ordine di rilevazione)

X 0 0 1 1 1 0 0 0 0 0 0 1 0 1 0 0 0 1 0 0
Y A F V A A F V V V A F V V V A V A V A V

Dai dati della tabella 5.1.2 risulta, per esempio, che il quarto cliente rilevato è un pensionato che
ha acquistato azioni, mentre il nono cliente, non è un pensionato e ha acquistato una polizza vita.
Se le variabili sono qualitative ordinate o quantitative, le coppie possono essere anche elencate sulla base
della sequenza ordinate delle determinazioni assunte da una o dall'altra variabile, così come si è già visto
nel caso univariato, dato che l’eventuale ordinamento non altera in alcun modo le informazioni raccolte.

5.2 Distribuzioni bivariate


In modo analogo al caso univariato, le osservazioni relative ad una coppia di variabili qualitative o
quantitative discrete possono essere sintetizzate mediante la costruzione della distribuzioni di frequenza
(bivariata), che viene di solito rappresentata mediante un prospetto che si chiama tabella a doppia entrata.
A questo scopo, siano c1, …, ck le k determinazioni distinte della variabile X e d1, …, dh le h determinazioni
distinte della variabile Y. Per ogni coppia di determinazioni (cj,dl) con j = 1, 2, ..., k e l = 1, 2, ..., h, njl,è la
frequenza assoluta corrispondente, ovvero rappresenta il numero di unità sulle quali sono state rilevate
contemporaneamente le determinazioni cj e dl rispettivamente delle variabili X e Y. La distribuzione

69
bivariata o congiunta di X e Y può essere rappresentata mediante le terne (cj, dl, njl) con j = 1, 2, ..., k e l =
1, 2, ..., h. Ovviamente per le frequenze assolute vale la seguente relazione

∑𝑘𝑗=1 ∑ℎ𝑙=1 𝑛𝑗𝑙 = 𝑛.

Tabella 5.2.1
Esempio di tabella a doppia entrata

X\Y d1 d2 ... dl ... dh


c1 n11 n12 ... n1l ... n1h n1.
c2 n21 n22 ... n2l ... n2h n2.
. . . . . . . .
cj nj1 nj2 ... njl ... njh nj.
. . . . . . . .
ck nk1 nk2 ... nkl .... nkh nk.
n.1 n.2 ... n.l ... n.h n

I simboli cj (j = 1, 2, ..., k) che compaiono sulla prima colonna rappresentano le k determinazioni diverse
che la variabile X assume sulle n unità statistiche esaminate, mentre i simboli dl (l = 1, 2, ..., h) riportati
sulla prima riga rappresentano le h determinazioni diverse che la Y assume sullo stesse unità. Se le variabili
sono qualitative ordinabili o quantitative discrete, le determinazioni sono riportate secondo il loro ordine
naturale. Il simbolo njl, che si legge all'incrocio fra la riga cj e la colonna dl, indica il numero di unità sui
quali sono state rilevate contemporaneamente le determinazioni cj e dl rispettivamente delle variabili X e
Y. La distribuzione bivariata o congiunta di X e Y può essere rappresentata mediante le terne (cj, dl, njl) con
j = 1, 2, ..., k e l = 1, 2, ..., h.
I simboli n.1, n.2, ..., n.h riportati nell'ultima riga della tabella 5.2.1 indicano i totali delle diverse colonne e,

quindi, il numero di unità sulle quali sono state rilevate le determinazioni d1, d2, ..., dh della variabile Y,
senza tener conto delle determinazioni assunte dalla X.
Risulta perciò
k k k
n.1   n j1 , ..., n.l   n j l , ..., n.h   n jh .
j 1 j 1 j 1

70
Un significato analogo hanno i simboli nj. che, corrispondendo ai totali di riga, indicano il numero di unità
sulle quali sono state rilevate le determinazioni c1, c2, ..., ck della X, senza tener conto delle determinazioni
assunte dalla Y.
Risulta ovviamente
h h h
n1.   n1l , ..., n j.   n jl , ..., n k.   nkl .
l 1 l 1 l 1

Nel quadratino in basso a destra della tabella 5.2.1 la lettera n indica il numero totale delle unità statistiche
esaminate, per cui risulta

k h k h
n  n j.   n.l   n jl .
ji 1 l 1 j 1 l 1

Tabella 5.2.2
Arrivi negli esercizi ricettivi in Italia per residenza dei clienti e mese – Anno 2007
Fonte ISTAT- Movimento dei clienti negli esercizi ricettivi

Mese\Residenza Italiani Stranieri


Gennaio 2863439 1509739 4373178
Febbraio 2898551 1951340 4849891
Marzo 3518301 2660268 6178569
Aprile 4782364 3662612 8444976
Maggio 4091207 4677447 8768654
Giugno 6212762 4992022 11204784
Luglio 6566385 5963598 12529983
Agosto 7818714 5232409 13051123
Settembre 4647082 5246572 9893654
Ottobre 3318629 3718105 7036734
Novembre 2924948 1768584 4693532
Dicembre 3398903 1446432 4845335
53041285 42829128 95870413

In questo caso, per esempio, la frequenza 1951340 posta all'incrocio fra “Febbraio” e “Stranieri”
rappresenta il numero di stranieri arrivati negli esercizi ricettivi italiani durante il mese di febbraio del 2007.
Le coppie costituite dagli elementi della prima e dell'ultima riga della tabella costituiscono invece la
distribuzione degli arrivi negli esercizi ricettivi italiani durante l’anno 2007 per residenza dei clienti, senza
tener conto del mese. Così, per esempio, sono circa 53 milioni gli italiani arrivati in un esercizio ricettivo
durante il 2007.
In maniera analoga si possono commentare i valori indicati sull’ultima colonna, per cui 4373178 è il numero
di arrivi negli esercizi ricettivi in Italia nel gennaio 2007, senza tenere conto della residenza dei clienti.

71
Se le variabili rilevate sono qualitative o quantitative discrete la distribuzione congiunta delle due variabili
contiene le stesse informazioni della sequenza originaria.

Se almeno una delle due variabili è quantitativa continua, le informazioni raccolte saranno sintetizzate
utilizzando delle classi di valori, per le quali valgono tutte le considerazioni fatte a proposito delle
distribuzioni univariate. Evidentemente questa operazione comporta necessariamente una perdita di
informazione, ma evidenzia l’assetto distributivo della variabile oggetto di indagine, così come accadeva
nel caso univariato.
In questo caso sulla prima riga della tabella, sulla prima colonna, o su entrambe, sono indicate non le singole
determinazioni cj e dl ma degli opportuni intervalli di valori (che saranno considerati sempre aperti a sinistra
e chiusi a destra, se non sarà diversamente specificato).
Se, per esempio, si utilizzano classi di valori sia per la X sia per la Y, all'incrocio fra la riga indicata con
l'intervallo cj-1cj e la colonna indicata con l'intervallo dl-1dl il simbolo njl rappresenta il numero di unità

su cui sono stati rilevati contemporaneamente valori della X compresi nell’intervallo (cj-1 , cj] e valori della
Y compresi nell’intervallo (dl-1, dl].

Esempio 5.2.1
Date le due seguenti sequenze di dati che si riferiscono ai livelli di colesterolo, misurati in mg per 100 ml, di due
diversi gruppi di unità

Gruppo 1
233, 291, 312, 250, 246, 197, 268, 224, 239, 239,
254, 276, 234, 181, 248, 252, 202, 218, 212, 325

Gruppo 2
344, 185, 263, 246, 224, 212, 188, 250, 148, 169,
226, 175, 242, 252, 153, 183, 137, 202, 194, 213

si organizzino i dati in una tabella a doppia entrata in cui la variabile X, che identifica il gruppo, assume valore 1 per
il primo gruppo e valore 2 per il secondo, mentre la variabile Y, che indica i livelli di colesterolo, è raggruppata nelle
classi 130-180, 180-220, 220-250, 250-350.

La distribuzione bivariata di X e Y assume la forma indicata nella tabella successiva.

Distribuzione di 40 unità per gruppo di appartenenza e livelli di colesterolo


X\Y 130 - 180 180 - 220 220 - 250 250 - 350
1 0 5 8 7 20
2 5 7 5 3 20
5 12 13 10 40

72
Nelle successive tabelle 5.2.3 e 5.2.4 sono riportati alcuni esempi di distribuzioni bivariate con variabili di
diverso tipo. Nel primo caso entrambe le variabili sono qualitative sconnesse, mentre nel secondo caso una
è qualitativa sconnessa e l’altra quantitativa discreta ma, a causa dell’elevato numero dei suoi diversi valori,
si è utilizzato un raggruppamento in classi.

Tabella 5.2.3
Produzione di vino per regione e marchio di qualità - Anno 2007 (Fonte ISTAT)

Marchio\Regione D.O.C. e D.O.C.G. I.G.T. Da tavola


Piemonte 2276353 0 447593 2723946
Valle d'Aosta 11500 0 6000 17500
Lombardia 670701 181578 246785 1099064
Trentino-Alto Adige 1019845 179730 21820 1221395
Veneto 2329132 4541373 808550 7679055
Friuli-Venezia Giulia 669450 203881 156159 1029490
Liguria 45078 7957 36019 89054
Emilia-Romagna 1480163 2300051 1976967 5757181
Toscana 1749601 711084 357891 2818576
Umbria 307090 399637 291683 998410
Marche 272580 362615 121470 756665
Lazio 888984 323870 605219 1818073
Abruzzo 769150 130330 1246985 2146465
Molise 187595 0 131665 319260
Campania 235045 256206 1161104 1652355
Puglia 827925 1058798 3499152 5385875
Basilicata 29359 24007 167874 221240
Calabria 84454 28292 293361 406107
Sicilia 153015 1147173 2641120 3941308
Sardegna 239947 177775 444514 862236
14246967 12034357 14661931 40943255

Tabella 5.2.4
Fallimenti dichiarati dalle società per classe di ampiezza demografica dei comuni
e forma giuridica (Anno 2006) - Fonte ISTAT

forma\ampiezza 50.000 [50001, 100000] [100001, 500000] > 500000


Società di fatto 17 2 5 11 35
In nome collettivo 472 88 102 95 757
A resp. limitata 3152 818 1006 1843 6819
Per azioni 80 21 24 40 165
In acc. semplice 691 196 125 280 1292
In acc. per azioni 20 0 2 5 27
Cooperative 119 40 32 46 237
4551 1165 1296 2320 9332

73
Nella tabella 5.2.5 è invece riportata la sequenza originaria di coppie dei valori del reddito e del consumo
annui di 25 famiglie e nella 5.2.6 una delle possibili distribuzioni di frequenza corrispondente, espressa
mediante intervalli di valori.
Tabella 5.2.5
Reddito e consumo annui di 25 famiglie (dati in migliaia di euro)

Reddito 22.2 22.6 23.2 23.4 23.8 24.2 24.6 25.0 25.2 25.6
Consumo 18.4 19.0 19.8 19.4 20.2 20.6 22.2 22.2 20.0 21.4
Reddito 25.8 26.2 26.8 27.2 27.6 28.0 28.4 28.6 29.0 29.4
Consumo 21.0 21.6 22.2 21.8 22.0 23.0 24.0 23.6 24.2 22.0
Reddito 30.2 30.6 31.2 32.0 34.2
Consumo 23.4 24.2 23.6 24.4 25.8

Tabella 5.2.6
Distribuzione sintetica ottenuta dalla tabella 5.2.5

reddito\consumo 18 - 20 20 - 22 22 – 24 24 - 26
22 – 25 4 2 2 0 8
25 – 27 1 3 1 0 5
27 – 29 0 2 3 1 6
29 – 35 0 1 2 3 6
5 8 8 4 25

Esempio 5.2.2
Considerate le coppie di osservazioni della tabella 5.1.2 si costruisca la distribuzione doppia corrispondente

In questo caso le 3 determinazioni della variabile Y possono essere riportate secondo un ordine qualsiasi.

Distribuzione bivariata ottenuta dalla sequenza di coppie considerate nella tabella 5.1.2

X\Y A F V
0 5 3 6 14
1 2 0 4 6
7 3 10 20

5.3 Frequenze relative


Analogamente a quanto visto per le distribuzioni univariate, anche la distribuzione congiunta delle due
variabili X e Y può essere descritta mediante le frequenze relative, anziché mediante le frequenze assolute.
Queste frequenze si calcolano dividendo le frequenze assolute per il numero totale di osservazioni
n jl
f jl  ,
n

74
e indicano la frazione di unità su cui sono state osservate le determinazioni cj e dl rispettivamente della X e
della Y. Si ha evidentemente
k h
 f jl  1, 5.3.1
j 1 l 1

mentre le frequenze relative riportate nell’ultima riga e nell’ultima colonna della tabella a doppia entrata si
ottengono rispettivamente sommando le frequenze su una colonna o su una riga

k
 f jl  f .l l = 1, 2, …, h 5.3.2
j 1

h
 f jl  f j . j = 1, 2, …, k 5.3.3
l 1

con
k h
 f j.   f .l  1 . 5.3.4
j 1 l 1

La distribuzione bivariata o congiunta di X e Y può essere rappresentata mediante le terne (cj, dl, fjl) con
j= 1, 2, ..., k e l = 1, 2, ..., h.
Nella tabella 5.3.1 è riportata, a titolo d’esempio, la stessa distribuzione della tabella 5.2.6 dove le
frequenze assolute sono state sostituite con quelle relative.

Tabella 5.3.1
Distribuzione espressa mediante frequenze relative ottenuta dalla tabella 5.2.6

reddito\consumo 18 - 20 20 - 22 22 – 24 24 – 26
22 – 25 0.16 0.08 0.08 0.00 0.32
25 – 27 0.04 0.12 0.04 0.00 0.20
27 – 29 0.00 0.08 0.12 0.04 0.24
29 – 35 0.00 0.04 0.08 0.12 0.24
0.20 0.32 0.32 0.16 1.00

Come nel caso univariato, anche in quello bivariato gli indici statistici possono essere calcolati
indifferentemente utilizzando uno qualunque dei diversi tipi di frequenza.
Esempio 5.3.1
Data la distribuzione bivariata costruita nell’esempio 5.2.1, si sostituiscano le frequenze assolute con le corrispondenti
frequenze relative
.

75
Distribuzione di 40 unità per gruppo di appartenenza e livelli di colesterolo
(frequenze relative)

X\Y 130 – 180 180 - 220 220 - 250 250 - 350


1 0.000 0.125 0.200 0.175 0.500
2 0.125 0.175 0.125 0.075 0.500
0.125 0.300 0.325 0.250 1.000

5.4 Distribuzioni marginali e condizionate


Le informazioni contenute in una tabella a doppia entrata sono costituite dalle due distribuzioni di una
variabile senza tener conto delle determinazioni assunte dall’altra e dalla distribuzione congiunta delle due
variabili, riportata nel riquadro centrale della tabella.

L’insieme delle coppie (cj, fj..) o delle coppie (cj, nj..) per j = 1, 2, ..., k, che costituisce la distribuzione di
frequenza della variabile X senza considerare la Y, viene chiamata distribuzione marginale della X. Allo
stesso modo le coppie (dl, f.l) o (dl, n.l) per l = 1, 2, ..., h, costituiscono la distribuzione marginale della Y.

Tali distribuzioni sono utilizzate per calcolare tutti gli indici esaminati nei capitoli precedenti per quanto
riguarda le due variabili singolarmente considerate.
Tuttavia, le informazioni più rilevanti sono contenute nel riquadro interno di una tabella a doppia entrata,
in quanto la distribuzione congiunta delle due variabili X e Y evidenzia le eventuali relazioni esistenti fra
esse e serve per misurare l’entità di tali relazioni. Per ottenere questo tipo di informazione dai dati occorre
analizzare e confrontare fra loro gli assetti distributivi di una variabile rilevata all’interno dei diversi gruppi
omogenei nell’altra, ossia per gruppi “omogenei” di unità, che presentano tutti una stessa determinazione
(o una stessa classe di valori) dell’altra variabile.
Le k righe del riquadro interno di ogni tabella a doppia entrata, in associazione con la prima riga,
rappresentano altrettante distribuzioni univariate della variabile Y all’interno dei diversi gruppi omogenei
in X. I valori fj1, fj2, ..., fjh della j-esima riga indicano infatti la distribuzione della variabile Y limitatamente
al gruppo di unità che presentano tutti la stessa determinazione cj di X oppure un’intensità compresa nella
j-esima classe (cj-1, cj] di questa variabile (con j = 1, 2, …, k).

Ogni riga interna della tabella rappresenta la distribuzione della Y per un gruppo di unità omogenee rispetto
alla variabile X. Tali distribuzioni, note come distribuzioni condizionate della Y alle diverse
determinazioni (o classi di valori) della X, vengono indicate mediante la notazione Y|x.

76
La prima riga del riquadro interno della tabella 5.3.1, per esempio, rappresenta la distribuzione del consumo
delle sole famiglie con un reddito compreso fra 22 e 25 mila euro annui, mentre la seconda riga fornisce
informazioni sulla distribuzione del consumo per le famiglie con un reddito fra 25 e 27 mila euro.
Uno degli scopi dell’analisi di questa tabella può consistere nel confronto delle distribuzioni del consumo
fra gruppi di famiglie omogenee rispetto al reddito, per vedere come questi consumi variano a seconda del
livello di reddito.
In genere si presenta la difficoltà di confrontare distribuzioni relative a gruppi di numerosità diversa, per
cui conviene dividere le frequenze che compaiono su ciascuna riga per il totale di riga corrispondente,
ottenendo le frequenze relative di riga, che consentono di effettuare questi confronti quale che sia la
numerosità di ciascun gruppo.
Nel caso dei dati riportati nelle tabelle 5.2.6 o 5.3.1, per esempio, le frequenze relative di riga assumono i
valori riportati nella tabella successiva.

Tabella 5.3.2
Frequenze relative di riga ottenute dalla tabella 5.2.7 o 5.3.1

reddito\consumo 18 – 20 20 - 22 22 – 24 24 – 26
22 – 25 0.50 0.25 0.25 0.00 1.00
25 – 27 0.20 0.60 0.20 0.00 1.00
27 – 29 0.00 0.17 0.50 0.03 1.00
29 – 35 0.00 0.03 0,1 6 0.50 1.00

Le distribuzioni di frequenza della Y per i diversi gruppi omogenei in X quando è posta uguale ad 1 la
frazione complessiva di unità di ciascun gruppo, sono chiamate distribuzioni relative condizionate della
Y alle diverse determinazioni (o classi di valori) della X.

Nella successiva tabella 5.3.3 è riportato un altro esempio di distribuzioni condizionate. In questo caso si
tratta delle distribuzioni del tipo di visita medica a cui si sono sottoposte pazienti di sesso femminile,
condizionate alle classi di età delle pazienti.

Tabella 5.3.3

77
1
Distribuzione delle visite mediche specialistiche per tipo specializzazione del medico ed età del paziente
- Femmine - Frequenze relative di riga

età\tipo A B C D E F
 14 0.062 0.019 0.158 0.442 0.146 0.173 1.000
14-19 0.060 0.090 0.129 0.527 0.050 0.144 1.000
20-29 0.064 0.615 0.073 0.164 0.048 0.036 1.000
30-39 0.072 0.549 0.054 0.201 0.044 0.080 1.000
40-49 0.160 0.363 0.069 0.224 0.059 0.125 1.000
50-59 0.208 0.226 0.066 0.203 0.091 0.206 1.000
60-64 0.388 0.048 0.214 0.126 0.044 0.180 1.000
65 e + 0.371 0.075 0.157 0.177 0.049 0.171 1.000

A = cardiologiche, B = ginecologiche ed ostetriche, C = oculistiche, D = odontoiatriche, E = otorinolaringoiatriche,


F = ortopediche

Dai dati contenuti nella tabella risulta, per esempio, che per le pazienti con un'età inferiore a 20 anni le
visite sono soprattutto di tipo odontoiatrico (44% del totale in quella classe di età), per quelle con un'età
compresa fra 20 e 40 anni sono ostetriche e ginecologiche (oltre il 60%) ed infine, per quelle con un'età
superiore a 60, sono cardiologiche. Per quest’ultimo tipo di visita si nota un incremento dell'incidenza al
crescere dell'età delle pazienti, mentre per quelle oculistiche la maggiore incidenza si ha per le pazienti con
un'età inferiore a 20 anni e superiore a 60.
Quando ci si vuole riferire alla distribuzione della variabile Y condizionata ad una generica determinazione
cj (o alla j-esima classe) della X spesso si utilizza la notazione
Y|cj, j = 1, 2, ..., k,

mentre le frequenze relative condizionate corrispondenti si ottengono dai rapporti


n jl f jl
 , 5.4.1
n j. f j.

dove
k n jl k f
 n j. 
jl
 1 j = 1, 2, ..., k. 5.4.2
j 1 j 1
f j.

Se si vuole scambiare il ruolo delle due variabili, analizzando la distribuzione condizionata della variabile
X condizionata ad una generica determinazione yl (o alla l-esima classe) della Y, si utilizza ovviamente la
notazione
X|dl, l = 1, 2, ..., h.

1Fonte: ISTAT (1986) Indagine statistica sulle condizioni di salute della popolazione e sul ricorso ai servizi sanitari. Note e relazioni n.1

78
mentre le frequenze relative condizionate corrispondenti sono date dal rapporto
n jl f jl
 , 5.4.3
n .l f .l
dove
h n jl h f
 n.l 
jl
 1 l = 1, 2, ..., h.
l 1 l 1
f .l

In una tabella a doppia entrata relativa a una variabile X che assume k determinazioni (o classi di valori)
distinte e a una variabile Y che assume h determinazioni (o classi di valori) distinte sono contenute le
seguenti distribuzioni:
- la distribuzione di frequenza congiunta delle due variabili;
- le due distribuzioni marginali da X e della Y;
- le k distribuzioni di Y condizionate a X;
- le h distribuzioni di X condizionate a Y.

Esempio 5.4.1
Data la seguente distribuzione bivariata relativa ai residenti di un comune italiano classificati per classe di età (X) e
nazionalità (Y)

Distribuzione dei residenti per classe di età e nazionalità

X\Y Italiani Stranieri


 14 10053 1245 11298
15 – 39 30247 4105 34352
40 – 64 41556 3470 45026
≥ 65 32144 2180 34324
114000 11000 125000

si determinino le distribuzioni relative condizionate della X dalla Y.

Le distribuzioni relative delle classi di età a seconda della nazionalità dei residenti risultano

Distribuzioni relative delle classi di età dei residenti condizionate alla nazionalità

X\Y Italiani Stranieri


 14 0.09 0.11
15 – 39 0.27 0.37
40 – 64 0.36 0.32
≥ 65 0.28 0.20
1.00 1.00

Esempio 5.4.2

79
In un’indagine su 100 studenti universitari iscritti a un certo corso di laurea nel 2015, si è rilevato il voto di diploma
conseguito e se erano ancora iscritti al corso o se lo avevano abbandonato. Sulla base della distribuzione riportata nella
tabella successiva,

Distribuzione di un gruppo di studenti universitari per stato e voto di diploma

Condizione (X)\Voto (Y) 80 8190 >90


Abbandono 12 6 2 20
Iscritto 18 40 22 80
30 46 24 100

si calcolino le distribuzioni relative condizionate del voto di diploma (Y) a seconda della condizione dello studente
(X).
Distribuzioni relative del voto di diploma condizionate allo stato degli studenti

X\Y 80 8190 >90


Abbandono 0.600 0.300 0.100 1.000
Iscritto 0.225 0.500 0.275 1.000

80

Potrebbero piacerti anche