Sei sulla pagina 1di 48

Statistica (corso E)

Anno accademico 2022-’23

Associazione tra un carattere quantitativo e un


carattere qualitativo: dipendenza in media

Lucio Masserini
Associazione tra un carattere quantitativo e un carattere qualitativo

Introduzione
► Gli indici Chi-quadrato e V di Cramer consentono di misurare il grado di associazione (vs
indipendenza statistica) tra due variabili (o caratteri) utilizzando esclusivamente le frequenze della
distribuzione doppia, e si basano sul confronto tra le frequenze congiunte osservate 𝑛𝑖𝑗 e le

corrispondenti frequenze teoriche in caso di indipendenza, 𝑛𝑖𝑗 .
► Tali indici si possono utilizzare sempre per misurare il grado di associazione tra due variabili (o
caratteri) disposte in una tabella a doppia entrata ma sono più adatti e quindi si utilizzano soltanto
quando le variabili sono entrambe qualitative.
► L’analisi dell’associazione tra una variabile qualitativa e una variabile quantitativa viene
effettuata considerando anche i valori assunti dalla variabile quantitativa → dipendenza in media
vs indipendenza in media.
Associazione tra un carattere quantitativo e un carattere qualitativo

L’analisi della dipendenza


► Quando una delle due variabili (o caratteri) è qualitativa e l’altra è quantitativa, ci possiamo chiedere
se la variabile quantitativa 𝒀 dipende dalla variabile qualitativa (𝑋).
Esempio: Il numero di acquisti (𝑌) dipende dal metodo di pagamento utilizzato (𝑋)?
→ Le persone che utilizzano un certo metodo di pagamento fanno più acquisti delle altre?
→ Supponendo che questa relazione esista, è forte o è debole?

Metodo di Numero di acquisti (𝒀)


Totale
pagamento (𝑋) 𝟏 𝟐 𝟑 𝟒
Carta di credito 9 22 36 40 107
Paypol 16 28 22 24 90 𝑛𝑖.
Altro 65 39 33 16 153
Totale 90 89 91 80 350
𝑛𝑖𝑗
Associazione tra un carattere quantitativo e un carattere qualitativo

Le distribuzioni marginali
► Dalla distribuzione doppia, si possono ricavare anche le distribuzioni marginali.
• La distribuzione marginale di 𝑿 (di riga): distribuzione per «Metodo di pagamento» (𝑋)
• La distribuzione marginale di 𝒀 (di colonna): distribuzione per «Numero di acquisti» (𝑌)

Metodo di Numero di acquisti (𝒀)


Totale
pagamento (𝑋) 𝟏 𝟐 𝟑 𝟒
Carta di credito 9 22 36 40 107
Paypol 16 28 22 24 90 distribuzione marginale di 𝑋
Altro 65 39 33 16 153 𝑛𝑖.
Totale 90 89 91 80 350

distribuzione marginale di 𝑌
𝑛.𝑗
Associazione tra un carattere quantitativo e un carattere qualitativo

Le distribuzioni condizionate
► Dalla distribuzione doppia, si possono ricavare anche le distribuzioni condizionate, cioè le
distribuzioni di una variabile per ciascuna modalità dell’altra.
► In particolare, è utile considerare le distribuzioni condizionate di 𝒀 (Numero di acquisti) in base
alle modalità di 𝑋 (Metodo di pagamento), ovvero la distribuzione della variabile quantitativa per
ogni modalità della variabile qualitativa:

Metodo di Numero di acquisti (𝒀)


Totale
pagamento (𝑋) 𝟏 𝟐 𝟑 𝟒
Carta di credito 9 22 36 40 107 𝑌|𝑋 = Frequenze
carta di credito
Paypol 16 28 22 24 90 1 9
Altro 65 39 33 16 153 2 22
3 36
Totale 90 89 91 80 350
4 40
Totale 107
Ad es., la distribuzione condizionata di 𝒀 per 𝑿 = carta di credito
Associazione tra un carattere quantitativo e un carattere qualitativo

Misure di sintesi
► Per analizzare la dipendenza (e/o indipendenza) in media della variabile (o carattere) quantitativa 𝒀
dalla variabile (o carattere) qualitativa 𝑿 sono utili le seguenti misure di sintesi:
• media aritmetica condizionata di 𝑌
Indipendenza in media
• media aritmetica di 𝑌
• varianza condizionata di 𝑌
• varianza (totale) di 𝑌
Rapporto di correlazione
• varianza delle medie condizionate
• media delle varianze condizionate
Misure di sintesi sulle distribuzioni condizionate

La media aritmetica condizionata di Y


► La media aritmetica condizionata di una variabile quantitativa 𝒀 (con 𝐾 modalità, 𝑗 = 1, … , 𝐾 ),
rispetto alla 𝑖-esima modalità di una variabile qualitativa 𝑋 (con 𝐻 modalità, 𝑖 = 1, … , 𝐻):
𝐾
1
𝜇𝑌|𝑋=𝑥𝑖 = ෍ 𝑦𝑗 𝑛𝑖𝑗
𝑛𝑖.
𝑗=1

Esempio
1 321
𝜇𝑌|𝑋 = 𝐶𝑎𝑟𝑡𝑎 𝑑𝑖 𝑐𝑟𝑒𝑑𝑖𝑡𝑜 = 1 ∙ 9 + 2 ∙ 22 + 3 ∙ 36 + 4 ∙ 40 = =3
107 107

Metodo di Numero di acquisti (𝒀)


Totale
pagamento (𝑋) 𝟏 𝟐 𝟑 𝟒
Carta di credito 9 22 36 40 107
Paypol 16 28 22 24 90
Altro 65 39 33 16 153
Totale 90 89 91 80 350
Misure di sintesi sulle distribuzioni condizionate

La media aritmetica condizionata di Y (continua)


► La media aritmetica condizionata di 𝑌 «Numero di acquisti» può essere calcolata per ogni modalità
del carattere 𝑿 «Metodo di pagamento»:
1 321
𝜇𝑌|𝑋 = 𝐶𝑎𝑟𝑡𝑎 𝑑𝑖 𝑐𝑟𝑒𝑑𝑖𝑡𝑜 = 1 ∙ 9 + 2 ∙ 22 + 3 ∙ 36 + 4 ∙ 40 = =3
107 107

1 234
𝜇𝑌|𝑋 = 𝑃𝑎𝑦𝑝𝑜𝑙 = 1 ∙ 16 + 2 ∙ 28 + 3 ∙ 22 + 4 ∙ 24 = = 2,6
90 90

1 306
𝜇𝑌|𝑋 = 𝐴𝑙𝑡𝑟𝑜 = 1 ∙ 65 + 2 ∙ 39 + 3 ∙ 33 + 4 ∙ 16 = =2
153 153

Metodo di Numero di acquisti (𝒀)


Totale
pagamento (𝑋) 𝟏 𝟐 𝟑 𝟒
Carta di credito 9 22 36 40 107
Paypol 16 28 22 24 90
Altro 65 39 33 16 153
Totale 90 89 91 80 350
Misure di sintesi sulle distribuzioni condizionate

La media aritmetica di 𝒀: metodo 1


► La media aritmetica della variabile 𝑌 si calcola considerando le frequenze della distribuzione
marginale di 𝒀:
𝐾
1 1 861
𝜇𝑌 = ෍ 𝑦𝑗 𝑛.𝑗 = 1 ∙ 90 + 2 ∙ 89 + 3 ∙ 91 + 4 ∙ 80 = = 2,46
𝑁 350 350
𝑗=1

Metodo di Numero di acquisti (𝒀)


Totale
pagamento (𝑋) 𝟏 𝟐 𝟑 𝟒
Carta di credito 9 22 36 40 107
Paypol 16 28 22 24 90
Altro 65 39 33 16 153
Totale 90 89 91 80 350
Misure di sintesi sulle distribuzioni condizionate

La media aritmetica di 𝒀: metodo 2


► In maniera alternativa, la media aritmetica di 𝑌 si può calcolare come media aritmetica delle
medie condizionate di 𝒀, in base alla proprietà associativa della media aritmetica:

𝐻
1 1 861
𝜇𝑌 = ෍ 𝜇𝑌|𝑋=𝑥𝑖 ∙ 𝑛𝑖. = 3 ∙ 107 + 2,6 ∙ 90 + 2 ∙ 153 = = 2,46
𝑁 350 350
𝑖=1

Medie
Modalità di
condizionate Numerosità
pagamento
𝜇𝑌|𝑋=𝑥𝑖
Carta di credito 3,00 107
Paypol 2,60 90 𝑛𝑖.
Altro 2,00 153
Media di Y 𝟐, 𝟒𝟔 𝟑𝟓𝟎
Misure di sintesi sulle distribuzioni condizionate

Indipendenza in media
► Una variabile (o carattere) quantitativa 𝑌 si dice indipendente in media da una variabile (o
carattere) qualitativa 𝑋 se le medie condizionate di 𝑌 sono tutte uguali tra loro e uguali alla media
calcolata rispetto alla distribuzione marginale di 𝑌:

𝜇𝑌|𝑋=𝑥𝑖 = 𝜇𝑌 per ogni 𝑖 = 1, 2, … , 𝐻

► Di conseguenza, se le medie condizionate di 𝑌 rispetto a 𝑋 non sono tutte uguali tra di loro, si dice
che 𝑌 è dipendente in media da 𝑋.
► In una tabella a doppia entrata, il concetto di indipendenza in media è più debole rispetto a quello
più generale di indipendenza statistica. Infatti, l’indipendenza statistica tra due variabili implica
l’indipendenza in media ma non è vero il contrario.
Misure di sintesi sulle distribuzioni condizionate

Indipendenza in media: spezzata di regressione


► Per evidenziare il grado di indipendenza in media vs dipendenza in media, le medie condizionate
della variabile quantitativa 𝑌 possono essere rappresentate graficamente rispetto alle modalità della
variabile qualitativa 𝑋 con una spezzata di regressione.
► La spezzata di regressione è una funzione lineare a tratti che congiunge le medie delle distribuzioni
condizionate di un carattere quantitativo 𝑌 rispetto alle modalità di un carattere qualitativo 𝑋.

Carta di 𝑋
Paypol Altro
credito
Misure di sintesi sulle distribuzioni condizionate

La varianza condizionata
► La varianza condizionata di una variabile quantitativa 𝑌 (con 𝐾 modalità, 𝑗 = 1, … , 𝐾 ), rispetto
alla 𝑖-esima modalità di una variabile qualitativa 𝑋 (con 𝐻 modalità, 𝑖 = 1, … , 𝐻):
𝐾
2 1 2
𝜎𝑌|𝑋=𝑥 = ෍ 𝑦𝑗 − 𝜇𝑌|𝑋=𝑥𝑖 𝑛𝑖𝑗
𝑖 𝑛𝑖.
𝑗=1

Esempio
2 1 2 2 2 2
98
𝜎𝑌|𝑋 = 𝐶𝑎𝑟𝑡𝑎 𝑑𝑖 𝑐𝑟𝑒𝑑𝑖𝑡𝑜 = 1−3 ∙9+ 2−3 ∙ 22 + 3 − 3 ∙ 36 + 4 − 3 ∙ 40 = = 0,916
107 107

𝜇𝑌|𝑋 = 𝐶𝑎𝑟𝑡𝑎 𝑑𝑖 𝑐𝑟𝑒𝑑𝑖𝑡𝑜 = 3 Metodo di Numero di acquisti (𝒀)


Totale
pagamento (𝑋) 𝟏 𝟐 𝟑 𝟒
Carta di credito 9 22 36 40 107
Paypol 16 28 22 24 90
Altro 65 39 33 16 153
Totale 90 89 91 80 350
Misure di sintesi sulle distribuzioni condizionate

La varianza condizionata (continua)


► La varianza condizionata di 𝑌 può essere calcolata per ciascuna modalità di 𝑿:

2 1 2 2 2 2
98
𝜎𝑌|𝑋 = 𝐶𝑎𝑟𝑡𝑎 𝑑𝑖 𝑐𝑟𝑒𝑑𝑖𝑡𝑜 = 1−3 ∙9+ 2−3 ∙ 22 + 3 − 3 ∙ 36 + 4 − 3 ∙ 40 = = 0,916
107 107

2 1 2 2 2 2
101,6
𝜎𝑌|𝑋 = 𝑃𝑎𝑦𝑜𝑙 = 1 − 2,6 ∙ 16 + 2 − 2,6 ∙ 28 + 3 − 2,6 ∙ 22 + 4 − 2,6 ∙ 24 = = 1,129
90 90

2 1 2 2 2 2
162
𝜎𝑌|𝑋 = 𝐴𝑙𝑡𝑟𝑜 = 1−2 ∙ 65 + 2 − 2 ∙ 39 + 3 − 2 ∙ 33 + 4 − 2 ∙ 16 = = 1,059
153 153

Metodo di Numero di acquisti (𝒀)


Totale
pagamento (𝑋) 𝟏 𝟐 𝟑 𝟒
Carta di credito 9 22 36 40 107
Paypol 16 28 22 24 90
Altro 65 39 33 16 153
Totale 90 89 91 80 350
Misure di sintesi sulle distribuzioni condizionate

La varianza (totale) di 𝒀
► La varianza (totale) di 𝑌 si ottiene considerando la distribuzione marginale, confrontando i valori
osservati di 𝑌 con la media generale:
𝐾
2
1 2
𝜎𝑌 = ෍ 𝑦𝑗 − 𝜇𝑌 𝑛.𝑗
𝑁
𝑗=1
𝜇𝑌 = 2,46

1 426,94
𝜎𝑌2 = 1 − 2,46 2 ∙ 90 + 2 − 2,46 2 ∙ 89 + 3 − 2,46 2 ∙ 91 + 4 − 2,46 2 ∙ 80 = = 1,22
350 350

Metodo di Numero di acquisti (𝒀)


Totale
pagamento (𝑋) 𝟏 𝟐 𝟑 𝟒
Carta di credito 9 22 36 40 107
Paypol 16 28 22 24 90
Altro 65 39 33 16 153
Totale 90 89 91 80 350
Misure di sintesi sulle distribuzioni condizionate

La varianza delle medie condizionate


► La varianza delle medie condizionate (definita anche varianza spiegata, varianza tra i gruppi, varianza
esterna o varianza between) si ottiene confrontando ciascuna media condizionata con la media
generale di 𝒀, moltiplicando per le rispettive numerosità:
𝐻
2 1 2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = ෍ 𝜇𝑌|𝑋=𝑥𝑖 − 𝜇𝑌 𝑛𝑖.
𝑁
𝑖=1

2 1 2 2 2
65,34
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 3 − 2,46 ∙ 107 + 2,6 − 2,46 ∙ 90 + 2 − 2,46 ∙ 153 = = 0,187
350 350

Medie
Modalità di pagamento condizionate Numerosità
𝜇𝑌|𝑋=𝑥𝑖
Carta di credito 3,00 107
Paypol 2,60 90
Altro 2,00 153
Media di Y 𝟐, 𝟒𝟔 𝟑𝟓𝟎
Misure di sintesi sulle distribuzioni condizionate

La media delle varianze condizionate


► La media delle varianze condizionate (varianza entro i gruppi, varianza interna o varianza residua) si
ottiene calcolando la media aritmetica delle varianze condizionate, moltiplicando ciascuna di
queste per la rispettiva numerosità:
𝐻
2 1 2
𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋 = ෍ 𝜎𝑌|𝑋=𝑥 ∙ 𝑛𝑖.
𝑁 𝑖
𝑖=1

2 1 361,6
𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋 = 0,916 ∙ 107 + 1,129 ∙ 90 + 1,059 ∙ 153 = = 1,033
350 350

Varianze
Modalità di pagamento condizionate Numerosità
2
𝜎𝑌|𝑋=𝑥 𝑖
Carta di credito 0,916 107
Paypol 1,129 90
Altro 1,059 153
Misure di sintesi sulle distribuzioni condizionate

La scomposizione della varianza


► La varianza complessiva di un carattere 𝑌 (quantitativo) rispetto a un carattere 𝑋 (qualitativo) può
essere espressa come somma di due componenti, nel modo seguente:

2 2
𝜎𝑌2 = 𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 + 𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋

• La varianza delle medie condizionate (varianza spiegata o varianza tra i gruppi), indicata con
2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 , che rappresenta la parte di variabilità totale dovuta o spiegata dalle medie
condizionate.
• La media delle varianze condizionate (varianza interna o varianza residua), indicata con
2
𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋 , che rappresenta la parte di variabilità totale dovuta alla diversità delle
distribuzioni condizionate.
Misure di sintesi sulle distribuzioni condizionate

La scomposizione della varianza: riepilogo


► Per verifica, calcoliamo la varianza totale come somma delle due componenti di varianza:

2
• la varianza delle medie condizionate: 𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 0,187

2
• la media delle varianze condizionate: 𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋 = 1,033

2 2
• la varianza totale: 𝜎𝑌2 = 𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 + 𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋 = 0,187 + 1,033 = 1,22

► Naturalmente, il suo valore è uguale a quello della varianza calcolata rispetto alla distribuzione
marginale di 𝑌, ricavato in precedenza: 𝜎𝑌2 = 1,22.
Misure di sintesi sulle distribuzioni condizionate

Misura della dipendenza in media


► Quando le medie condizionate della variabile quantitativa 𝑌 non sono tutte uguali tra di loro
è utile misurare il grado di dipendenza in media.
► Per misurare la dipendenza in media di una variabile (o carattere) quantitativa 𝑌 da una variabile
(o carattere) qualitativa 𝑋, si ricorre alla scomposizione della varianza.
► In generale, il grado di dipendenza in media di 𝑌 da 𝑋 sarà tanto più elevato quanto maggiore
sarà la varianza delle medie condizionate di 𝑌 rispetto alla varianza totale di 𝑌.
Misura della dipendenza in media

Il Rapporto di correlazione
► Il Rapporto di correlazione, indicato con 2𝑌|𝑋 , è definito come il rapporto tra la varianza delle medie
condizionate (varianza tra i gruppi, varianza spiegata o varianza esterna) e la varianza totale e misura
la frazione (o quota) di variabilità di 𝑌 dovuta alla dipendenza da 𝑋:
2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋
2𝑌|𝑋 =
𝜎𝑌2

► L’indice presenta le seguenti proprietà:


• assume valori in un intervallo limitato: 0 ≤ 2𝑌|𝑋 ≤ 1

• 2𝑌|𝑋 = 0 → indipendenza in media di 𝑌 da 𝑋, cioè tutte le medie condizionate sono uguali

• 2𝑌|𝑋 = 1 → dipendenza perfetta, ossia ad ogni valore di 𝑋 corrisponde un solo valore di 𝑌


Misura della dipendenza in media

Il Rapporto di correlazione: calcolo


► Nel caso dell’esempio considerato, abbiamo:

2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 0,187

2 2
𝜎𝑌2 = 𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 + 𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋 = 0,187 + 1,033 = 1,22

2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 0,187
2𝑌|𝑋 = = = 0,153
𝜎𝑌2 1,220

Pertanto, si può concludere che il numero medio di acquisti dipende dal metodo di pagamento, la
dipendenza è però di debole intensità, infatti la quota di variabilità di 𝑌 dovuta alla dipendenza da 𝑋
è di appena 0,153.
Misura della dipendenza in media

La scomposizione della varianza: espressioni alternative


► Le componenti della varianza sono spesso denominate e indicate in maniera differente:

2 2
𝜎𝑌2 = 𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 + 𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋

• Varianza esterna e varianza interna: 𝜎𝑌2 = 𝜎𝑒𝑠𝑡𝑒𝑟𝑛𝑎


2 2
+ 𝜎𝑖𝑛𝑡𝑒𝑟𝑛𝑎

2 2
• Varianza spiegata e varianza non spiegata: 𝜎𝑌2 = 𝜎𝑠𝑝𝑖𝑒𝑔𝑎𝑡𝑎 + 𝜎𝑛𝑜𝑛 𝑠𝑝𝑖𝑒𝑔𝑎𝑡𝑎

• Varianza tra i gruppi e varianza entro i gruppi: 𝜎𝑌2 = 𝜎𝑡𝑟𝑎


2 2
+ 𝜎𝑒𝑛𝑡𝑟𝑜

• Varianza between e varianza within: 2 2


𝜎𝑌2 = 𝜎𝑏𝑒𝑡𝑤𝑒𝑒𝑛 + 𝜎𝑤𝑖𝑡ℎ𝑖𝑛
Misura della dipendenza in media

Il Rapporto di correlazione: espressioni alternative


► Il Rapporto di correlazione 2𝑌|𝑋 si può anche definire a partire dalla media delle varianza
condizionate:

2 2
𝜎𝑌2 = 𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 + 𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋

da cui si ricava:
2 2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 𝜎𝑌2 − 𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋

quindi, sostituendo nella formula del rapporto di correlazione:


2 2 2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 𝜎𝑌2 − 𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋 𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋
2𝑌|𝑋 = = =1−
𝜎𝑌2 𝜎𝑌2 𝜎𝑌2
Misura della dipendenza in media

Il Rapporto di correlazione: espressioni alternative (continua)


► Analogamente, se si utilizzano i termini varianza esterna e varianza interna, il Rapporto di
correlazione 2𝑌|𝑋 può anche essere definito a partire dalla varianza interna:

2 2
𝜎𝑌2 = 𝜎𝑒𝑠𝑡𝑒𝑟𝑛𝑎
2
+ 𝜎𝑖𝑛𝑡𝑒𝑟𝑛𝑎 ⟹ 2
𝜎𝑒𝑠𝑡𝑒𝑟𝑛𝑎 = 𝜎𝑌2 − 𝜎𝑖𝑛𝑡𝑒𝑟𝑛𝑎

2 2
2
𝜎𝑒𝑠𝑡𝑒𝑟𝑛𝑎 𝜎𝑌2 − 𝜎𝑖𝑛𝑡𝑒𝑟𝑛𝑎 𝜎𝑖𝑛𝑡𝑒𝑟𝑛𝑎
2𝑌|𝑋 = = =1−
𝜎𝑌2 𝜎𝑌2 𝜎𝑌2
Misura della dipendenza in media

Il Rapporto di correlazione: formula in termini di devianza


► Inoltre, il Rapporto di correlazione si può ottenere anche considerando la devianza invece della
varianza:

2
𝐷𝑒𝑣𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 σ𝐻
𝑖=1 𝜇𝑌|𝑋=𝑥𝑖 − 𝜇𝑌 𝑛𝑖.
2𝑌|𝑋 = = 2
𝐷𝑒𝑣 𝑌 σ𝐾 𝑦 − 𝜇 𝑛
𝑗=1 𝑗 𝑌 .𝑗

σ𝐻 2
𝑖=1 𝜎𝑌|𝑋=𝑥𝑖 ∙ 𝑛𝑖.
2𝑌|𝑋 = 1 − 2
σ𝐾
𝑗=1 𝑦𝑗 − 𝜇𝑌 𝑛.𝑗
Misura della dipendenza in media

Il Rapporto di correlazione: esercizio


► Di un collettivo di turisti si conosce il numero di giorni di permanenza in una certa località suddiviso
in base alla nazionalità:
• Italiani: 5 3 8 14 6 2 4
• Stranieri: 4 7 9 12 7
Calcolare la quota di variabilità del numero di giorni di permanenza dovuta alla dipendenza dalla
nazionalità dei turisti.
Misura della dipendenza in media

Il Rapporto di correlazione: esercizio (continua)


► In questo caso il collettivo di turisti è suddiviso in due gruppi in base alla nazionalità, quindi
possiamo calcolare il numero medio e la varianza del numero di giorni di permanenza
rispettivamente per gli italiani e gli stranieri.
► Indicando con 𝑌 il 𝑁𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑔𝑖𝑜𝑟𝑛𝑖 𝑑𝑖 𝑝𝑒𝑟𝑚𝑎𝑛𝑒𝑛𝑧𝑎 e con 𝑋 la 𝑁𝑎𝑧𝑖𝑜𝑛𝑎𝑙𝑖𝑡à, abbiamo:
1 42
𝜇𝑌|𝑋 =𝐼𝑡𝑎 = 5 + 3 + 8 + 14 + 6 + 2 + 4 = =6
7 7
1 39
𝜇𝑌|𝑋 =𝑆𝑡𝑟 = 4 + 7 + 9 + 12 + 7 = = 7,8
5 5

2 1 2 2 2 2 2 2 2
𝜎𝑌|𝑋 =𝐼𝑡𝑎 = 5−6 + 3−6 + 8−6 + 14 − 6 + 6−6 + 2−6 + 4−6 = 14
7

2 1 2 2 2 2 2
𝜎𝑌|𝑋 =𝑆𝑡𝑟 = 4 − 7,8 + 7 − 7,8 + 9 − 7,8 + 12 − 7,8 + 7 − 7,8 = 6,96
5
Misura della dipendenza in media

Rapporto di correlazione: esercizio (continua)


► Inoltre, possiamo calcolare a media e la varianza del 𝑁𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑔𝑖𝑜𝑟𝑛𝑖 𝑑𝑖 𝑝𝑒𝑟𝑚𝑎𝑛𝑒𝑛𝑧𝑎 𝑌 per la
popolazione.

La media aritmetica
1 81
Metodo 1: 𝜇𝑌 = 5 + 3 + 8 + 14 + 6 + 2 + 4 + 4 + 7 + 9 + 12 + 7 = = 6,75
12 12

1 81
Metodo 2: 𝜇𝑌 = 6 ∙ 7 + 7,8 ∙ 5 = = 6,75
12 12

La varianza
1 142,25
𝜎𝑌2 = 5 − 6,75 2
+ 3 − 6,75 2
+ 8 − 6,75 2
+ ⋯ + 12 − 6,75 2
+ 7 − 6,75 2
= = 11,85
12 12
Misura della dipendenza in media

Rapporto di correlazione: esercizio (continua)


► Infine, possiamo calcolare la varianza delle medie condizionate e la media delle varianza
condizionate.

La varianza delle medie condizionate

2 1 2 2
9,45
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 6 − 6,75 ∙ 7 + 7,8 − 6,75 ∙5 = = 0,7875
12 12

La media delle varianze condizionate

2 1 132,8
𝑀𝑒𝑑𝑖𝑎 𝜎𝑌|𝑋 = 14 ∙ 7 + 6,96 ∙ 5 = = 11,067
12 12
Misura della dipendenza in media

Rapporto di correlazione: esercizio (continua)


► A questo punto possiamo calcolare il Rapporto di correlazione.

2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 0,7875
2𝑌|𝑋 = = = 0,05
𝜎𝑌2 11,85

Si può concludere che la dipendenza del numero medio di giorni di permanenza dalla nazionalità è
molto debole (quasi indipendente).
Misura della dipendenza in media

La dipendenza perfetta: esempio


► Possiamo provare a calcolare il Rapporto di correlazione (2𝑌|𝑋 ) nel caso di dipendenza perfetta,
cioè quando ad ogni valore di 𝑿 corrisponde un solo valore di 𝒀, ricordando che per questo
occorre determinare:
• la media aritmetica generale
• la varianza totale
• le medie condizionate Metodo di Numero di acquisti (𝑌)
Totale
pagamento (𝑋) 1 2 3
• la varianza delle medie condizionate
rispetto alla media generale (varianza Carta di credito 0 0 107 107
tra i gruppi o varianza spiegata) Paypol 0 90 0 90
Altro 153 0 0 153
2 Totale 153 90 107 350
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋
2𝑌|𝑋 =
𝜎𝑌2
Misura della dipendenza in media

La dipendenza perfetta: esempio (continua)


► La media aritmetica di 𝒀:
𝐾
1 1 896
𝜇𝑌 = ෍ 𝑦𝑗 𝑛.𝑗 = 1 ∙ 153 + 2 ∙ 90 + 3 ∙ 107 = = 1,869
𝑁 350 350
𝑗=1

► La varianza (totale) di 𝒀 :

1 253,954
𝜎𝑌2 = 1 − 1,869 2 ∙ 153 + 2 − 1,869 2 ∙ 90 + 3 − 1,869 2 ∙ 107 = = 0,726
350 350

Metodo di Numero di acquisti (𝑌)


Totale
pagamento (𝑋) 1 2 3
Carta di credito 0 0 107 107
Paypol 0 90 0 90
Altro 153 0 0 153
Totale 153 90 107 350
Misura della dipendenza in media

La dipendenza perfetta: esempio (continua)


► Le medie condizionate sono tutte diverse tra loro e diverse dalla media aritmetica generale di 𝑌:
1 321
𝜇𝑌|𝑋 = 𝐶𝑎𝑟𝑡𝑎 𝑑𝑖 𝑐𝑟𝑒𝑑𝑖𝑡𝑜 = 1 ∙ 0 + 2 ∙ 0 + 3 ∙ 107 = =3
107 107

1 180
𝜇𝑌|𝑋 = 𝑃𝑎𝑦𝑝𝑜𝑙 = 1 ∙ 0 + 2 ∙ 90 + 3 ∙ 0 = =2
90 90

1 153
𝜇𝑌|𝑋 = 𝐴𝑙𝑡𝑟𝑜 = 1 ∙ 153 + 2 ∙ 0 + 3 ∙ 0 = =1
153 153

Metodo di Numero di acquisti (𝑌)


Totale
pagamento (𝑋) 1 2 3
Carta di credito 0 0 107 107
Paypol 0 90 0 90
Altro 153 0 0 153
Totale 153 90 107 350
Misura della dipendenza in media

La dipendenza perfetta: esempio (continua)


► Le varianze condizionate, sono tutte uguali a 0:
2 1 2 2 2
0
𝜎𝑌|𝑋 = 𝐶𝑎𝑟𝑡𝑎 𝑑𝑖 𝑐𝑟𝑒𝑑𝑖𝑡𝑜 = 1−3 ∙0+ 2−3 ∙0+ 3−3 ∙ 107 = =0
107 107

2 1 2 2 2
0
𝜎𝑌|𝑋 = 𝑃𝑎𝑦𝑜𝑙 = 1−2 ∙0+ 2−2 ∙ 90 + 3 − 2 ∙0 = =0
90 90

2 1 2 2 2
0
𝜎𝑌|𝑋 = 𝐴𝑙𝑡𝑟𝑜 = 1−1 ∙ 153 + 2 − 1 ∙0+ 3−1 ∙0 = =0
153 153

Metodo di Numero di acquisti (𝑌)


Totale 𝜇𝑌|𝑋=𝑥𝑖
pagamento (𝑋) 1 2 3
Carta di credito 0 0 107 107 3
Paypol 0 90 0 90 2
Altro 153 0 0 153 1
Totale 153 90 107 350 1,869
Misura della dipendenza in media

La dipendenza perfetta: esempio (continua)


► Per il calcolo del rapporto di correlazione è necessario ricavare la varianza delle medie
condizionate:

2 1 2 2 2
253,95
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 3 − 1,869 ∙ 107 + 2 − 1,869 ∙ 90 + 1 − 1,869 ∙ 153 = = 0,726
350 350

Modalità di Medie
Numerosità
pagamento condizionate
Carta di credito 3 107
Paypol 2 90
Altro 1 153
Media di Y 𝟏, 𝟖𝟔𝟗 𝟑𝟓𝟎
Misura della dipendenza in media

La dipendenza perfetta: esempio (continua)


► Nel caso dell’esempio considerato, abbiamo:

2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 0,726

𝜎𝑌2 = 0,726

2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 0,726
2𝑌|𝑋 = = =1
𝜎𝑌2 0,726

► Nel caso di dipendenza perfetta 𝟐𝒀|𝑿 = 𝟏, infatti:


• medie condizionate tutte diverse tra loro e diverse dalla media aritmetica di 𝑌
• varianze condizionate tutte uguali a 0 → media delle varianze condizionate (o var. interna) = 0
Misura della dipendenza in media

Indipendenza in media: esempio


► Possiamo provare a calcolare il rapporto di correlazione (2𝑌|𝑋 ) nel caso di di indipendenza in media,
ovvero quando le medie condizionate sono tutte uguali tra loro e uguali alla media di 𝒀, ad
esempio:

𝑌
𝑋 𝑇𝑜𝑡𝑎𝑙𝑒
10 20 50
𝑥1 10 5 5 20
𝑥2 10 5 5 20
𝑥3 10 5 5 20
Totale 30 15 15 60
Misura della dipendenza in media

Indipendenza in media: esempio (continua)


► La media aritmetica di 𝒀:
𝐾
1 1
𝜇𝑌 = ෍ 𝑦𝑗 𝑛.𝑗 = 10 ∙ 30 + 20 ∙ 15 + 50 ∙ 15 = 22,5
𝑁 60
𝑗=1

► La varianza (totale) di 𝒀:
1
𝜎𝑌2 = 10 − 22,5 2 ∙ 30 + 20 − 22,5 2 ∙ 15 + 50 − 22,5 2 ∙ 15 = 268,75
60

𝑌
𝑋 Totale
10 20 50
𝑥1 10 5 5 20
𝑥2 10 5 5 20
𝑥3 10 5 5 20
Totale 30 15 15 60
Misura della dipendenza in media

Indipendenza in media: esempio (continua)


► Le medie condizionate sono tutte uguali tra loro e uguali alla media aritmetica generale di 𝑌:
1
𝜇𝑌|𝑋 = 𝑥1 = 10 ∙ 10 + 20 ∙ 5 + 50 ∙ 5 = 22,50
20
1
𝜇𝑌|𝑋 = 𝑥2 = 10 ∙ 10 + 20 ∙ 5 + 50 ∙ 5 = 22,50
20
1
𝜇𝑌|𝑋 = 𝑥3 = 10 ∙ 10 + 20 ∙ 5 + 50 ∙ 5 = 22,50
20

𝑌
𝑋 Totale
10 20 50
𝑥1 10 5 5 20
𝑥2 10 5 5 20
𝑥3 10 5 5 20
Totale 30 15 15 60
Misura della dipendenza in media

Indipendenza in media: esempio (continua)


► Le varianze condizionate sono tutte uguali tra loro e uguali alla varianza di 𝒀:
2 1 2 2 2
𝜎𝑌|𝑋 = 𝑥1 = 10 − 22,5 ∙ 10 + 20 − 22,5 ∙ 5 + 50 − 22,5 ∙ 5 = 268,75
20

2 1 2 2 2
𝜎𝑌|𝑋 = 𝑥2 = 10 − 22,5 ∙ 10 + 20 − 22,5 ∙ 5 + 50 − 22,5 ∙ 5 = 268,75
20

2 1 2 2 2
𝜎𝑌|𝑋 = 𝑥3 = 10 − 22,5 ∙ 10 + 20 − 22,5 ∙ 5 + 50 − 22,5 ∙ 5 = 268,75
20

𝑌
𝑋 Totale
10 20 50
𝑥1 10 5 5 20
𝑥2 10 5 5 20
𝑥3 10 5 5 20
Totale 30 15 15 60
Misura della dipendenza in media

Indipendenza in media: esempio (continua)


► Nel caso dell’esempio considerato, abbiamo:

2 1 2 2 2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 22,5 − 22,5 ∙ 20 + 22,5 − 22,5 ∙ 20 + 22,5 − 22,5 ∙ 20 = 0
60

𝜎𝑌2 = 268,75

2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 0
2𝑌|𝑋 = = =0
𝜎𝑌2 268,75

► Nel caso di indipendenza in media 𝟐𝒀|𝑿 = 𝟎, infatti:


• medie condizionate tutte uguali tra loro e uguali alla media aritmetica di 𝑌 → varianza delle
medie condizionate (o varianza esterna) = 0
• varianze condizionate tutte uguali tra loro e uguali alla varianza di 𝑌
Misura della dipendenza in media

Rapporto di correlazione per un carattere in classi: esempio


► Calcolare la dipendenza in media tra la spesa settimanale (in classi) sostenuta in un collettivo di
280 studenti suddiviso in base alla tipologia (fuori sede, in sede, pendolare).

Tipologia di Spesa settimanale (𝑌)


Totale
studente (𝑋) 0 | − 20 20 | − 40 40 | − 60
Fuori sede 15 10 25 50
Pendolare 60 25 15 100
In sede 70 25 5 100
Totale 145 60 45 250

Per calcolare il rapporto di correlazione occorre ricavare:


• la media aritmetica generale
• la varianza totale
• le medie condizionate
• la varianza delle medie condizionate
Misura della dipendenza in media

Rapporto di correlazione per un carattere in classi: esempio (continua)


► Per calcolare media e varianza si determinano i valori centrali delle classi:

Tipologia di Spesa settimanale (𝑌)


Totale
studente (𝑋) 0 | − 20 20 | − 40 40 | − 60
Fuori sede 15 10 25 50
Pendolare 60 25 15 100
In sede 70 25 5 100
Totale 145 60 45 250

𝑉𝑎𝑙𝑜𝑟𝑖 𝑐𝑒𝑛𝑡𝑟𝑎𝑙𝑖 (𝑐𝑗 ) 10 30 50


Misura della dipendenza in media

Rapporto di correlazione per un carattere in classi: esempio (continua)


► La media aritmetica generale di 𝑌, considerando i valori centrali delle classi:
𝐾
1 1 5500
𝜇𝑌 = ෍ 𝑐𝑗 𝑛.𝑗 = 10 ∙ 145 + 30 ∙ 60 + 50 ∙ 45 = = 22
𝑁 250 250
𝑗=1

► La varianza totale di 𝑌, considerando i valori centrali delle classi:


𝐾
2
1 2 1 2 2 2
60000
𝜎𝑌 = ෍ 𝑐𝑗 − 𝜇𝑌 𝑛.𝑗 = 10 − 22 ∙ 145 + 30 − 22 ∙ 60 + 50 − 22 ∙ 45 = = 240
𝑁 250 250
𝑗=1

Tipologia di Spesa settimanale (𝑌)


Totale
studente (𝑋) 10 30 50
Fuori sede 15 10 25 50
Pendolare 60 25 15 100
In sede 70 25 5 100
Totale 145 60 45 250
Misura della dipendenza in media

Rapporto di correlazione per un carattere in classi: esempio (continua)


► Le medie condizionate, considerando il valore centrale delle classi:
1 1700
𝜇𝑌|𝑋 = 𝐹𝑢𝑜𝑟𝑖 𝑠𝑒𝑑𝑒 = 10 ∙ 15 + 30 ∙ 10 + 50 ∙ 25 = = 34
50 50

1 2100
𝜇𝑌|𝑋 = 𝑃𝑒𝑛𝑑𝑜𝑙𝑎𝑟𝑒 = 10 ∙ 60 + 30 ∙ 25 + 50 ∙ 15 = = 21
100 100

1 1700
𝜇𝑌|𝑋 = 𝐼𝑛 𝑠𝑒𝑑𝑒 = 10 ∙ 70 + 30 ∙ 25 + 50 ∙ 5 = = 17
100 100

Tipologia di Spesa settimanale (𝑌)


Totale
studente (𝑋) 10 30 50
Fuori sede 15 10 25 50
Pendolare 60 25 15 100
In sede 70 25 5 100
Totale 145 60 45 250
Misura della dipendenza in media

Rapporto di correlazione per un carattere suddiviso in classi: esempio


► La varianza delle medie condizionate rispetto alla media generale (varianza tra i gruppi,
varianza esterna o varianza spiegata):

2 1 2 2 2
9800
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 34 − 22 ∙ 50 + 21 − 22 ∙ 100 + 17 − 22 ∙ 100 = = 39,2
250 250

Tipologia di Medie
Numerosità
studente condizionate
Fuori sede 34 50
Pendolare 21 100
In sede 17 100
Media di Y 𝟐𝟐 𝟐𝟓𝟎
Misura della dipendenza in media

Rapporto di correlazione per un carattere suddiviso in classi: esempio


► Nel caso dell’esempio considerato, abbiamo:
2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 = 39,2

𝜎𝑌2 = 240

2
𝜎𝑀𝑒𝑑𝑖𝑎 𝑌|𝑋 39,2
2𝑌|𝑋 = = = 0,163
𝜎𝑌2 240

Si può concludere che la spesa media dipende dalla tipologia di studente, l’intensità della relazione
però piuttosto debole.

Potrebbero piacerti anche