Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Lucio Masserini
Associazione tra un carattere quantitativo e un carattere qualitativo
Introduzione
► Gli indici Chi-quadrato e V di Cramer consentono di misurare il grado di associazione (vs
indipendenza statistica) tra due variabili (o caratteri) utilizzando esclusivamente le frequenze della
distribuzione doppia, e si basano sul confronto tra le frequenze congiunte osservate 𝑛𝑖𝑗 e le
∗
corrispondenti frequenze teoriche in caso di indipendenza, 𝑛𝑖𝑗 .
► Tali indici si possono utilizzare sempre per misurare il grado di associazione tra due variabili (o
caratteri) disposte in una tabella a doppia entrata ma sono più adatti e quindi si utilizzano soltanto
quando le variabili sono entrambe qualitative.
► L’analisi dell’associazione tra una variabile qualitativa e una variabile quantitativa viene
effettuata considerando anche i valori assunti dalla variabile quantitativa → dipendenza in media
vs indipendenza in media.
Associazione tra un carattere quantitativo e un carattere qualitativo
Le distribuzioni marginali
► Dalla distribuzione doppia, si possono ricavare anche le distribuzioni marginali.
• La distribuzione marginale di 𝑿 (di riga): distribuzione per «Metodo di pagamento» (𝑋)
• La distribuzione marginale di 𝒀 (di colonna): distribuzione per «Numero di acquisti» (𝑌)
distribuzione marginale di 𝑌
𝑛.𝑗
Associazione tra un carattere quantitativo e un carattere qualitativo
Le distribuzioni condizionate
► Dalla distribuzione doppia, si possono ricavare anche le distribuzioni condizionate, cioè le
distribuzioni di una variabile per ciascuna modalità dell’altra.
► In particolare, è utile considerare le distribuzioni condizionate di 𝒀 (Numero di acquisti) in base
alle modalità di 𝑋 (Metodo di pagamento), ovvero la distribuzione della variabile quantitativa per
ogni modalità della variabile qualitativa:
Misure di sintesi
► Per analizzare la dipendenza (e/o indipendenza) in media della variabile (o carattere) quantitativa 𝒀
dalla variabile (o carattere) qualitativa 𝑿 sono utili le seguenti misure di sintesi:
• media aritmetica condizionata di 𝑌
Indipendenza in media
• media aritmetica di 𝑌
• varianza condizionata di 𝑌
• varianza (totale) di 𝑌
Rapporto di correlazione
• varianza delle medie condizionate
• media delle varianze condizionate
Misure di sintesi sulle distribuzioni condizionate
Esempio
1 321
𝜇𝑌|𝑋 = 𝐶𝑎𝑟𝑡𝑎 𝑑𝑖 𝑐𝑟𝑒𝑑𝑖𝑡𝑜 = 1 ∙ 9 + 2 ∙ 22 + 3 ∙ 36 + 4 ∙ 40 = =3
107 107
1 234
𝜇𝑌|𝑋 = 𝑃𝑎𝑦𝑝𝑜𝑙 = 1 ∙ 16 + 2 ∙ 28 + 3 ∙ 22 + 4 ∙ 24 = = 2,6
90 90
1 306
𝜇𝑌|𝑋 = 𝐴𝑙𝑡𝑟𝑜 = 1 ∙ 65 + 2 ∙ 39 + 3 ∙ 33 + 4 ∙ 16 = =2
153 153
𝐻
1 1 861
𝜇𝑌 = 𝜇𝑌|𝑋=𝑥𝑖 ∙ 𝑛𝑖. = 3 ∙ 107 + 2,6 ∙ 90 + 2 ∙ 153 = = 2,46
𝑁 350 350
𝑖=1
Medie
Modalità di
condizionate Numerosità
pagamento
𝜇𝑌|𝑋=𝑥𝑖
Carta di credito 3,00 107
Paypol 2,60 90 𝑛𝑖.
Altro 2,00 153
Media di Y 𝟐, 𝟒𝟔 𝟑𝟓𝟎
Misure di sintesi sulle distribuzioni condizionate
Indipendenza in media
► Una variabile (o carattere) quantitativa 𝑌 si dice indipendente in media da una variabile (o
carattere) qualitativa 𝑋 se le medie condizionate di 𝑌 sono tutte uguali tra loro e uguali alla media
calcolata rispetto alla distribuzione marginale di 𝑌:
► Di conseguenza, se le medie condizionate di 𝑌 rispetto a 𝑋 non sono tutte uguali tra di loro, si dice
che 𝑌 è dipendente in media da 𝑋.
► In una tabella a doppia entrata, il concetto di indipendenza in media è più debole rispetto a quello
più generale di indipendenza statistica. Infatti, l’indipendenza statistica tra due variabili implica
l’indipendenza in media ma non è vero il contrario.
Misure di sintesi sulle distribuzioni condizionate
Carta di 𝑋
Paypol Altro
credito
Misure di sintesi sulle distribuzioni condizionate
La varianza condizionata
► La varianza condizionata di una variabile quantitativa 𝑌 (con 𝐾 modalità, 𝑗 = 1, … , 𝐾 ), rispetto
alla 𝑖-esima modalità di una variabile qualitativa 𝑋 (con 𝐻 modalità, 𝑖 = 1, … , 𝐻):
𝐾
2 1 2
𝜎𝑌|𝑋=𝑥 = 𝑦𝑗 − 𝜇𝑌|𝑋=𝑥𝑖 𝑛𝑖𝑗
𝑖 𝑛𝑖.
𝑗=1
Esempio
2 1 2 2 2 2
98
𝜎𝑌|𝑋 = 𝐶𝑎𝑟𝑡𝑎 𝑑𝑖 𝑐𝑟𝑒𝑑𝑖𝑡𝑜 = 1−3 ∙9+ 2−3 ∙ 22 + 3 − 3 ∙ 36 + 4 − 3 ∙ 40 = = 0,916
107 107
2 1 2 2 2 2
98
𝜎𝑌|𝑋 = 𝐶𝑎𝑟𝑡𝑎 𝑑𝑖 𝑐𝑟𝑒𝑑𝑖𝑡𝑜 = 1−3 ∙9+ 2−3 ∙ 22 + 3 − 3 ∙ 36 + 4 − 3 ∙ 40 = = 0,916
107 107
2 1 2 2 2 2
101,6
𝜎𝑌|𝑋 = 𝑃𝑎𝑦𝑜𝑙 = 1 − 2,6 ∙ 16 + 2 − 2,6 ∙ 28 + 3 − 2,6 ∙ 22 + 4 − 2,6 ∙ 24 = = 1,129
90 90
2 1 2 2 2 2
162
𝜎𝑌|𝑋 = 𝐴𝑙𝑡𝑟𝑜 = 1−2 ∙ 65 + 2 − 2 ∙ 39 + 3 − 2 ∙ 33 + 4 − 2 ∙ 16 = = 1,059
153 153
La varianza (totale) di 𝒀
► La varianza (totale) di 𝑌 si ottiene considerando la distribuzione marginale, confrontando i valori
osservati di 𝑌 con la media generale:
𝐾
2
1 2
𝜎𝑌 = 𝑦𝑗 − 𝜇𝑌 𝑛.𝑗
𝑁
𝑗=1
𝜇𝑌 = 2,46
1 426,94
𝜎𝑌2 = 1 − 2,46 2 ∙ 90 + 2 − 2,46 2 ∙ 89 + 3 − 2,46 2 ∙ 91 + 4 − 2,46 2 ∙ 80 = = 1,22
350 350
2 1 2 2 2
65,34
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 3 − 2,46 ∙ 107 + 2,6 − 2,46 ∙ 90 + 2 − 2,46 ∙ 153 = = 0,187
350 350
Medie
Modalità di pagamento condizionate Numerosità
𝜇𝑌|𝑋=𝑥𝑖
Carta di credito 3,00 107
Paypol 2,60 90
Altro 2,00 153
Media di Y 𝟐, 𝟒𝟔 𝟑𝟓𝟎
Misure di sintesi sulle distribuzioni condizionate
2 1 361,6
𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋 = 0,916 ∙ 107 + 1,129 ∙ 90 + 1,059 ∙ 153 = = 1,033
350 350
Varianze
Modalità di pagamento condizionate Numerosità
2
𝜎𝑌|𝑋=𝑥 𝑖
Carta di credito 0,916 107
Paypol 1,129 90
Altro 1,059 153
Misure di sintesi sulle distribuzioni condizionate
2 2
𝜎𝑌2 = 𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 + 𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋
• La varianza delle medie condizionate (varianza spiegata o varianza tra i gruppi), indicata con
2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 , che rappresenta la parte di variabilità totale dovuta o spiegata dalle medie
condizionate.
• La media delle varianze condizionate (varianza interna o varianza residua), indicata con
2
𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋 , che rappresenta la parte di variabilità totale dovuta alla diversità delle
distribuzioni condizionate.
Misure di sintesi sulle distribuzioni condizionate
2
• la varianza delle medie condizionate: 𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 0,187
2
• la media delle varianze condizionate: 𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋 = 1,033
2 2
• la varianza totale: 𝜎𝑌2 = 𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 + 𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋 = 0,187 + 1,033 = 1,22
► Naturalmente, il suo valore è uguale a quello della varianza calcolata rispetto alla distribuzione
marginale di 𝑌, ricavato in precedenza: 𝜎𝑌2 = 1,22.
Misure di sintesi sulle distribuzioni condizionate
Il Rapporto di correlazione
► Il Rapporto di correlazione, indicato con 2𝑌|𝑋 , è definito come il rapporto tra la varianza delle medie
condizionate (varianza tra i gruppi, varianza spiegata o varianza esterna) e la varianza totale e misura
la frazione (o quota) di variabilità di 𝑌 dovuta alla dipendenza da 𝑋:
2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋
2𝑌|𝑋 =
𝜎𝑌2
2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 0,187
2 2
𝜎𝑌2 = 𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 + 𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋 = 0,187 + 1,033 = 1,22
2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 0,187
2𝑌|𝑋 = = = 0,153
𝜎𝑌2 1,220
Pertanto, si può concludere che il numero medio di acquisti dipende dal metodo di pagamento, la
dipendenza è però di debole intensità, infatti la quota di variabilità di 𝑌 dovuta alla dipendenza da 𝑋
è di appena 0,153.
Misura della dipendenza in media
2 2
𝜎𝑌2 = 𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 + 𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋
2 2
• Varianza spiegata e varianza non spiegata: 𝜎𝑌2 = 𝜎𝑠𝑝𝑖𝑒𝑔𝑎𝑡𝑎 + 𝜎𝑛𝑜𝑛 𝑠𝑝𝑖𝑒𝑔𝑎𝑡𝑎
2 2
𝜎𝑌2 = 𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 + 𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋
da cui si ricava:
2 2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 𝜎𝑌2 − 𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋
2 2
𝜎𝑌2 = 𝜎𝑒𝑠𝑡𝑒𝑟𝑛𝑎
2
+ 𝜎𝑖𝑛𝑡𝑒𝑟𝑛𝑎 ⟹ 2
𝜎𝑒𝑠𝑡𝑒𝑟𝑛𝑎 = 𝜎𝑌2 − 𝜎𝑖𝑛𝑡𝑒𝑟𝑛𝑎
2 2
2
𝜎𝑒𝑠𝑡𝑒𝑟𝑛𝑎 𝜎𝑌2 − 𝜎𝑖𝑛𝑡𝑒𝑟𝑛𝑎 𝜎𝑖𝑛𝑡𝑒𝑟𝑛𝑎
2𝑌|𝑋 = = =1−
𝜎𝑌2 𝜎𝑌2 𝜎𝑌2
Misura della dipendenza in media
2
𝐷𝑒𝑣𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 σ𝐻
𝑖=1 𝜇𝑌|𝑋=𝑥𝑖 − 𝜇𝑌 𝑛𝑖.
2𝑌|𝑋 = = 2
𝐷𝑒𝑣 𝑌 σ𝐾 𝑦 − 𝜇 𝑛
𝑗=1 𝑗 𝑌 .𝑗
σ𝐻 2
𝑖=1 𝜎𝑌|𝑋=𝑥𝑖 ∙ 𝑛𝑖.
2𝑌|𝑋 = 1 − 2
σ𝐾
𝑗=1 𝑦𝑗 − 𝜇𝑌 𝑛.𝑗
Misura della dipendenza in media
2 1 2 2 2 2 2 2 2
𝜎𝑌|𝑋 =𝐼𝑡𝑎 = 5−6 + 3−6 + 8−6 + 14 − 6 + 6−6 + 2−6 + 4−6 = 14
7
2 1 2 2 2 2 2
𝜎𝑌|𝑋 =𝑆𝑡𝑟 = 4 − 7,8 + 7 − 7,8 + 9 − 7,8 + 12 − 7,8 + 7 − 7,8 = 6,96
5
Misura della dipendenza in media
La media aritmetica
1 81
Metodo 1: 𝜇𝑌 = 5 + 3 + 8 + 14 + 6 + 2 + 4 + 4 + 7 + 9 + 12 + 7 = = 6,75
12 12
1 81
Metodo 2: 𝜇𝑌 = 6 ∙ 7 + 7,8 ∙ 5 = = 6,75
12 12
La varianza
1 142,25
𝜎𝑌2 = 5 − 6,75 2
+ 3 − 6,75 2
+ 8 − 6,75 2
+ ⋯ + 12 − 6,75 2
+ 7 − 6,75 2
= = 11,85
12 12
Misura della dipendenza in media
2 1 2 2
9,45
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 6 − 6,75 ∙ 7 + 7,8 − 6,75 ∙5 = = 0,7875
12 12
2 1 132,8
𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋 = 14 ∙ 7 + 6,96 ∙ 5 = = 11,067
12 12
Misura della dipendenza in media
2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 0,7875
2𝑌|𝑋 = = = 0,05
𝜎𝑌2 11,85
Si può concludere che la dipendenza del numero medio di giorni di permanenza dalla nazionalità è
molto debole (quasi indipendente).
Misura della dipendenza in media
► La varianza (totale) di 𝒀 :
1 253,954
𝜎𝑌2 = 1 − 1,869 2 ∙ 153 + 2 − 1,869 2 ∙ 90 + 3 − 1,869 2 ∙ 107 = = 0,726
350 350
1 180
𝜇𝑌|𝑋 = 𝑃𝑎𝑦𝑝𝑜𝑙 = 1 ∙ 0 + 2 ∙ 90 + 3 ∙ 0 = =2
90 90
1 153
𝜇𝑌|𝑋 = 𝐴𝑙𝑡𝑟𝑜 = 1 ∙ 153 + 2 ∙ 0 + 3 ∙ 0 = =1
153 153
2 1 2 2 2
0
𝜎𝑌|𝑋 = 𝑃𝑎𝑦𝑜𝑙 = 1−2 ∙0+ 2−2 ∙ 90 + 3 − 2 ∙0 = =0
90 90
2 1 2 2 2
0
𝜎𝑌|𝑋 = 𝐴𝑙𝑡𝑟𝑜 = 1−1 ∙ 153 + 2 − 1 ∙0+ 3−1 ∙0 = =0
153 153
2 1 2 2 2
253,95
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 3 − 1,869 ∙ 107 + 2 − 1,869 ∙ 90 + 1 − 1,869 ∙ 153 = = 0,726
350 350
Modalità di Medie
Numerosità
pagamento condizionate
Carta di credito 3 107
Paypol 2 90
Altro 1 153
Media di Y 𝟏, 𝟖𝟔𝟗 𝟑𝟓𝟎
Misura della dipendenza in media
2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 0,726
𝜎𝑌2 = 0,726
2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 0,726
2𝑌|𝑋 = = =1
𝜎𝑌2 0,726
𝑌
𝑋 𝑇𝑜𝑡𝑎𝑙𝑒
10 20 50
𝑥1 10 5 5 20
𝑥2 10 5 5 20
𝑥3 10 5 5 20
Totale 30 15 15 60
Misura della dipendenza in media
► La varianza (totale) di 𝒀:
1
𝜎𝑌2 = 10 − 22,5 2 ∙ 30 + 20 − 22,5 2 ∙ 15 + 50 − 22,5 2 ∙ 15 = 268,75
60
𝑌
𝑋 Totale
10 20 50
𝑥1 10 5 5 20
𝑥2 10 5 5 20
𝑥3 10 5 5 20
Totale 30 15 15 60
Misura della dipendenza in media
𝑌
𝑋 Totale
10 20 50
𝑥1 10 5 5 20
𝑥2 10 5 5 20
𝑥3 10 5 5 20
Totale 30 15 15 60
Misura della dipendenza in media
2 1 2 2 2
𝜎𝑌|𝑋 = 𝑥2 = 10 − 22,5 ∙ 10 + 20 − 22,5 ∙ 5 + 50 − 22,5 ∙ 5 = 268,75
20
2 1 2 2 2
𝜎𝑌|𝑋 = 𝑥3 = 10 − 22,5 ∙ 10 + 20 − 22,5 ∙ 5 + 50 − 22,5 ∙ 5 = 268,75
20
𝑌
𝑋 Totale
10 20 50
𝑥1 10 5 5 20
𝑥2 10 5 5 20
𝑥3 10 5 5 20
Totale 30 15 15 60
Misura della dipendenza in media
2 1 2 2 2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 22,5 − 22,5 ∙ 20 + 22,5 − 22,5 ∙ 20 + 22,5 − 22,5 ∙ 20 = 0
60
𝜎𝑌2 = 268,75
2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 0
2𝑌|𝑋 = = =0
𝜎𝑌2 268,75
1 2100
𝜇𝑌|𝑋 = 𝑃𝑒𝑛𝑑𝑜𝑙𝑎𝑟𝑒 = 10 ∙ 60 + 30 ∙ 25 + 50 ∙ 15 = = 21
100 100
1 1700
𝜇𝑌|𝑋 = 𝐼𝑛 𝑠𝑒𝑑𝑒 = 10 ∙ 70 + 30 ∙ 25 + 50 ∙ 5 = = 17
100 100
2 1 2 2 2
9800
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 34 − 22 ∙ 50 + 21 − 22 ∙ 100 + 17 − 22 ∙ 100 = = 39,2
250 250
Tipologia di Medie
Numerosità
studente condizionate
Fuori sede 34 50
Pendolare 21 100
In sede 17 100
Media di Y 𝟐𝟐 𝟐𝟓𝟎
Misura della dipendenza in media
𝜎𝑌2 = 240
2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 39,2
2𝑌|𝑋 = = = 0,163
𝜎𝑌2 240
Si può concludere che la spesa media dipende dalla tipologia di studente, l’intensità della relazione
però piuttosto debole.