Sei sulla pagina 1di 55

Statistica (corso E)

Anno accademico 2022-’23

Distribuzioni doppie e associazione tra due


caratteri qualitativi

Lucio Masserini
Indice

1. Le distribuzioni doppie
2. Associazione e indipendenza tra due caratteri
3. Misura dell’associazione tra due caratteri qualitativi sconnessi
Le distribuzioni doppie

Introduzione
► Finora abbiamo considerato l’analisi di una sola variabile (o di un solo carattere) alla volta,
calcolando la distribuzione di frequenze, una o più misure di sintesi (medie analitiche o di posizione)
o di variabilità (varianza, scarto quadratico medio, coefficiente di variazione).
► Tuttavia, in molti problemi empirici si ritiene utile analizzare due variabili (o due caratteri)
congiuntamente, entrambe rilevate su ciascuna unità del collettivo.
► In questi casi può essere interessante stabilire se tra queste variabili esiste una relazione e misurare la
forza di questa relazione. Lo studio della relazione tra due variabili (qualitative e/o quantitative) viene
anche chiamato analisi dell’associazione → indipendenza e dipendenza.
Le distribuzioni doppie

La distribuzione unitaria doppia


► La distribuzione unitaria doppia è l’elenco delle coppie di modalità osservate delle due variabili
(o caratteri) considerate per ogni unità del collettivo.

Unità Metodo di Numero di


Età Genere Spesa Titolo di studio
statistica pagamento acquisti
𝑢1 27 Maschio Carta di credito 522,50 3 Diploma
𝑢2 22 Femmina Carta prepagata 687,00 4 Licenza media
𝑢3 66 Femmina Paypol 187,25 1 Elementare
… … … … … … …
𝑢𝑖 21 Femmina Contrassegno 25,50 1 Diploma
… … … … … … …
𝑢𝑁 37 Maschio Carta di credito 387,00 2 Laurea

Distribuzione unitaria doppia


Le distribuzioni doppie

La distribuzione unitaria doppia: notazione


► In termini generali, in un collettivo formato da 𝑁 unità, la distribuzione unitaria doppia riferita alle
due variabili (o caratteri) 𝑋 e 𝑌 riporta la coppia di modalità delle due variabili (o caratteri) per ogni
unità e si indica nel modo seguente:
𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥𝑖 , 𝑦𝑖 , … , 𝑥𝑁 , 𝑦𝑁

Unità
𝑿 𝒀
statistica
𝑢1 𝑥1 𝑦1
𝑢2 𝑥2 𝑦2
𝑢3 𝑥3 𝑦3
… … …
𝑢𝑖 𝑥𝑖 𝑦𝑖
… … …
𝑢𝑁−1 𝑥𝑁−1 𝑦𝑁−1
𝑢𝑁 𝑥𝑁 𝑦𝑁
Le distribuzioni doppie

Tipologie di distribuzioni doppie


► In generale, una distribuzione doppia (𝑋, 𝑌) può essere costituita da:
• due variabili qualitative
• una variabile quantitativa e l’altra qualitativa
• due variabili quantitative
Le distribuzioni doppie

La distribuzione doppia di frequenze


► Una distribuzione doppia di frequenze (tabella di frequenze a doppia entrata) è una tabella che
riporta le frequenze congiunte 𝑛𝑖𝑗 , ovvero le frequenze assolute delle unità che presentano
contemporaneamente la modalità 𝑖 della variabile riga (𝑋) e la modalità 𝑗 della variabile colonna (𝑌).

Variabile (o carattere) colonna


Variabile (o carattere) riga

Metodo di Genere (𝒀)


Totale
pagamento (𝑿) 𝑀 𝐹
Carta di credito 75 32 107
Paypol 38 52 90
𝑛𝑖𝑗
Carta prepagata 26 19 45
Contrassegno 19 10 29
Bonifico 39 40 79
Totale 197 153 350
Le distribuzioni doppie

La distribuzione doppia di frequenze: esempi


► Le due variabili (o caratteri) sono una qualitativa e l’altra quantitativa:
• metodo di pagamento (𝑋)
• numero di acquisti (𝑌)

Metodo di Numero di acquisti (𝑌)


𝑇𝑜𝑡𝑎𝑙𝑒
pagamento (𝑋) 𝟏 𝟐 𝟑 𝟒
Carta di credito 9 22 36 40 107
Paypol 16 28 22 24 90
Carta prepagata 16 18 8 3 45
Contrassegno 18 7 4 0 29
Bonifico 62 17 0 0 79
Totale 116 83 74 77 350

𝑛21 = 16 → numero di unità che hanno pagato con Paypol e hanno fatto 1 acquisto
Le distribuzioni doppie

La distribuzione doppia di frequenze: esempi


► Le due variabili (o caratteri) possono essere entrambe quantitative:
• numero di auto possedute (𝑋)
• numero di case di proprietà (𝑌)

Numero di Numero di case (𝑌)


Totale
auto (𝑋) 𝟏 𝟐 𝟑
𝟏 21 8 0 29
𝟐 12 11 1 24
𝟑 7 6 2 15
Totale 40 25 3 68

𝑛11 = 21 → numero di unità che possiedono 1 auto e 1 casa di proprietà


Le distribuzioni doppie

La distribuzione doppia di frequenze: esempi


► Le due variabili sono entrambe quantitative, di cui una suddivisa in classi:
• classe di spesa (𝑋)
• numero di acquisti (𝑌)

Classe di spesa Numero di acquisti (𝑌)


Totale
(𝑋) 1 2 3 4
ሾ0, 50) 8 22 35 42 107
ሾ50, 100) 12 19 27 32 90
ሾ100, 250) 16 18 8 3 45
ሾ250, 500) 18 7 4 0 29
ሾ500, 1000) 62 17 0 0 79
Totale 116 83 74 77 350
Le distribuzioni doppie

Le distribuzioni marginali
► Le distribuzioni di frequenze marginali corrispondono ai totali della tabella e rappresentano le
distribuzioni di frequenze semplici riferite alle due variabili singolarmente considerate.
• Distribuzione marginale di 𝑿 (variabile riga): distribuzione per «Metodo di pagamento»
• Distribuzione marginale di 𝒀 (variabile colonna): distribuzione per «Genere»

Metodo di Genere (𝑌)


Totale
pagamento (𝑋) M F
Carta di credito 75 32 107
Paypol 38 52 90
Carta prepagata 26 19 45 𝑛𝑖.
Contrassegno 19 10 29
Bonifico 39 40 79
Totale 197 153 350

𝑛.𝑗 𝑁
Le distribuzioni doppie

La distribuzione marginale di X (di riga)


► La distribuzione marginale di 𝑋 è la distribuzione semplice della variabile riga «Metodo di
pagamento» (𝑋), ovvero indipendentemente dalle modalità della variabile colonna «Genere» (𝑌). In
particolare, 𝑛𝑖. indica la frequenza assoluta delle unità che presentano la modalità 𝑖 di 𝑋:

Metodo di
Totale
pagamento (𝑿)
Carta di credito 107 𝑛1.
Paypol 90 𝑛2.
Carta prepagata 45 𝑛𝑖. 𝑛3.
Contrassegno 29 𝑛4.
Bonifico 79 𝑛5.
Totale 350

𝑛2. = 90 → indica la frequenza assoluta delle unità che hanno pagato con Paypol
Le distribuzioni doppie

La distribuzione marginale di Y (di colonna)


► La distribuzione marginale di 𝑌 è la distribuzione semplice della variabile colonna «Genere» (𝑌),
ovvero indipendentemente dalle modalità della variabile riga «Metodo di pagamento» 𝑋 . In
particolare, 𝒏.𝒋 indica la frequenza assoluta delle unità che presentano la modalità 𝑗 di 𝑌:

Genere (𝒀) Totale

M 197 𝑛.1
F 153
𝑛.𝑗 𝑛.2
Totale 350

𝑛.2 = 153 → indica la frequenza assoluta delle Femmine (𝐹)


Le distribuzioni doppie

Le distribuzioni condizionate di X (di colonna)


► Le distribuzioni di frequenze condizionate di 𝑋 (o condizionate di colonna) sono le distribuzioni
semplici della variabile 𝑋 per le unità che presentano la modalità 𝑦𝑗 della variabile 𝑌.
► Le distribuzioni condizionate di 𝑋 (Metodo di pagamento) si ottengono per ciascuna modalità di 𝑌
(Genere).

𝑋|𝑌 = 𝑦𝑗 Metodo di Genere (𝑌)


Totale
pagamento (𝑋) 𝑀 𝐹
Carta di credito 75 32 107
Paypol 38 52 90
Carta prepagata 26 19 45
Contrassegno 19 10 29
Bonifico 39 40 79
Totale 197 153 350

distribuzione di 𝑋 condizionata per 𝑌 = 𝑦1


Le distribuzioni doppie

Le distribuzioni condizionate di Y (di riga)


► Le distribuzioni di frequenze condizionate di 𝑌 (o condizionate di riga) sono le distribuzioni semplici
della variabile 𝑌 per le unità che presentano la modalità 𝑥𝑖 della variabile 𝑋.
► Le distribuzioni condizionate di 𝑌 (Genere) si ottengono per ciascuna modalità di 𝑋 (Metodo di
pagamento).

𝑌|𝑋 = 𝑥𝑖 Metodo di Genere (𝑌)


Totale
pagamento (𝑋) 𝑀 𝐹
Carta di credito 75 32 107
Paypol 38 52 90
Carta prepagata 26 19 45
Contrassegno 19 10 29
Bonifico 39 40 79
Totale 197 153 350

distribuzione di 𝑌 condizionata per 𝑋 = 𝑥5


Le distribuzioni doppie

La distribuzione doppia di frequenze: notazione


► In termini generici, la distribuzione doppia di frequenze, riferita alle variabili (o caratteri) 𝑋 e 𝑌 si
rappresenta nel modo seguente:
• 𝑋 con 𝐻 modalità distinte, dove 𝑖 = 1, … , 𝐻
• 𝑌 con 𝐾 modalità distinte, dove 𝑗 = 1, … , 𝐾

𝑌
𝑋 Totale
𝑦1 … 𝑦𝑗 … 𝑦𝐾
𝑥1 𝑛11 … 𝑛1𝑗 … 𝑛1𝐾 𝑛1.
… … … … … … …

𝑥𝑖 𝑛𝑖1 … 𝑛𝑖𝑗 … 𝑛𝑖𝐾 𝑛𝑖.


… … … … … … …
𝑥𝐻 𝑛𝐻1 … 𝑛𝐻𝑗 … 𝑛𝐻𝐾 𝑛𝐻.
Totale 𝑛.1 … 𝑛.𝑗 … 𝑛.𝐾 𝑁
Le distribuzioni doppie

La distribuzione doppia di frequenze: vincoli


► In una distribuzione doppia di frequenza valgono i seguenti vincoli per le frequenze marginali e per
il totale:

• La distribuzione marginale di 𝑋: 𝑛𝑖. = ෍ 𝑛𝑖𝑗 𝑗 = 1, 2, … , 𝐾


𝑗=1

𝐻
• La distribuzione marginale di 𝑌: 𝑛.𝑗 = ෍ 𝑛𝑖𝑗 𝑖 = 1, 2, … , 𝐻
𝑖=1

𝐻 𝐾
• Il totale del collettivo: 𝑁 = ෍ ෍ 𝑛𝑖𝑗
𝑖=1 𝑗=1
Le distribuzioni doppie

Le frequenze relative e percentuali


► In una tabella a doppia entrata si possono calcolare tre diversi tipi di frequenze relative (o
percentuali) aventi, ognuna, un diverso significato:
• frequenze relative o percentuali di colonna
• frequenze relative o percentuali di riga
• frequenze relative o percentuali congiunte

Metodo di Genere (𝒀)


Totale
pagamento (𝑿) 𝑀 𝐹
Carta di credito 75 32 107
Paypol 38 52 90
Carta prepagata 26 19 45
Contrassegno 19 10 29
Bonifico 39 40 79
Totale 197 153 350
Le distribuzioni doppie

Le distribuzioni di frequenze relative condizionate di colonna


► Le distribuzioni di frequenze relative condizionate di colonna si ottengono dividendo le frequenze
congiunte per il totale della rispettiva colonna.

Metodo di Genere (𝑌)


Totale
pagamento (𝑋) 𝑀 𝐹
Carta di credito 0,381 0,209 0,306
𝑛11 75
Paypol 0,193 0,340 0,257 𝑓11 = = = 0,381
𝑛.1 197
Carta prepagata 0,132 0,124 0,129
Contrassegno 0,096 0,065 0,083
Bonifico 0,198 0,261 0,226 𝑛3. 45
𝑓3. = = = 0,129
Totale 𝑁 350
1,000 1,000 1,000

𝑓11 → indica la frazione di quanti utilizzano la carta di credito tra i maschi.


𝑓3. → indica la frazione di quanti utilizzano la carta prepagata, nel complesso.
Le distribuzioni doppie

Le distribuzioni di frequenze % condizionate di colonna


► Le distribuzioni di frequenze % condizionate di colonna si ottengono moltiplicando per 100 le
corrispondenti frequenze relative. Calcolando le frequenze percentuali si rende comparabile la
distribuzione del «Metodo di pagamento» in base al «Genere» (100 maschi e 100 femmine).

Metodo di Genere (𝑌)


Totale
pagamento (𝑋) 𝑀 𝐹
Carta di credito 38,1 20,9 30,6
Paypol 19,3 34,0 25,7 𝑓11 × 100 = 38,1
Carta prepagata 13,2 12,4 12,9
Contrassegno 9,6 6,5 8,3
Bonifico 19,8 26,1 22,6
Totale 100,0 100,0 100,0
Le distribuzioni doppie

Le distribuzioni di frequenze % condizionate di colonna: interpretazione


► In particolare, si può osservare che:
• su 100 maschi, 38,1 scelgono la carta di credito
• su 100 femmine, 20,9 scelgono la carta di credito
• nel complesso, su 100 persone, 30,6 scelgono la carta di credito

Metodo di Genere (𝑌)


Totale
pagamento (𝑋) 𝑀 𝐹
Carta di credito 𝟑𝟖, 𝟏 𝟐𝟎, 𝟗 𝟑𝟎, 𝟔
Paypol 19,3 34,0 25,7
Carta prepagata 13,2 12,4 12,9
Contrassegno 9,6 6,5 8,3
Bonifico 19,8 26,1 22,6
Totale 100,0 100,0 100,0
Le distribuzioni doppie

Le distribuzioni di frequenze relative condizionate di riga


► Le distribuzioni di frequenze relative condizionate di riga si ottengono dividendo le frequenze
congiunte per il totale della rispettiva riga.

Metodo di Genere (𝑌)


Totale
pagamento (𝑋) 𝑀 𝐹
Carta di credito 0,701 0,299 1,000
Paypol 0,422 0,578 1,000 𝑛11 75
𝑓11 = = = 0,701
Carta prepagata 0,578 0,422 1,000 𝑛1. 107
Contrassegno 0,655 0,345 1,000
Bonifico 0,494 0,506 1,000 𝑛.1 197
𝑓.1 = = = 0,563
Totale 0,563 0,437 1,000 𝑁 350

𝑓11 → indica la frazione di maschi tra coloro che utilizzano la carta di credito.
𝑓.1 → indica la frazione di maschi nel complesso.
Le distribuzioni doppie

Le distribuzioni di frequenze % condizionate di riga


► Le distribuzioni di frequenze % condizionate di riga si ottengono moltiplicando per 100 le
corrispondenti frequenze relative. Calcolando le frequenze percentuali si rende comparabile la
distribuzione del «Genere» a pari numerosità delle modalità del carattere «Metodo di pagamento»
(100 carte di credito, 100 Paypol, … , 100 bonifico).

Metodo di Genere (𝑌)


Totale
pagamento (𝑋) 𝑀 𝐹
Carta di credito 70,1 29,9 100,0
Paypol 42,2 57,8 100,0
𝑓11 × 100 = 70,1
Carta prepagata 57,8 42,2 100,0
Contrassegno 65,5 34,5 100,0
Bonifico 49,4 50,6 100,0
Totale 56,3 43,7 100,0
Le distribuzioni doppie

Le distribuzioni di frequenze % condizionate di riga: interpretazione


► In particolare, si può osservare che:
• su 100 che scelgono la carta di credito, 70,1 sono maschi
• su 100 che scelgono Paypol, 42,2 sono maschi
• …
• su 100 che scelgono il bonifico, 49,4 sono maschi
• nel complesso, su 100 persone 56,3 sono maschi

Metodo di Genere (𝑌)


Totale
pagamento (𝑋) 𝑴 𝐹
Carta di credito 𝟕𝟎, 𝟏 29,9 100,0
Paypol 𝟒𝟐, 𝟐 57,8 100,0
Carta prepagata 𝟓𝟕, 𝟖 42,2 100,0
Contrassegno 𝟔𝟓, 𝟓 34,5 100,0
Bonifico 𝟒𝟗, 𝟒 50,6 100,0
Totale 𝟓𝟔, 𝟑 43,7 100,0
Le distribuzioni doppie

Le distribuzioni di frequenze relative congiunte


► Le distribuzioni di frequenze relative totali si ottengono dividendo ciascuna frequenza congiunta per
il totale generale (𝑁).

Metodo di Genere (𝑌)


Totale
pagamento (𝑋) 𝑀 𝐹
Carta di credito 0,214 0,091 0,306
𝑛11 75
Paypol 0,109 0,149 0,257 𝑓11 = = = 0,214
𝑁 350
Carta prepagata 0,074 0,054 0,129
Contrassegno 0,054 0,029 0,083
Bonifico 0,111 0,114 0,226
Totale 0,563 0,437 1,000

𝑓11 → indica la frazione di unità del collettivo che sono maschi e hanno utilizzato la carta di credito
Le distribuzioni doppie

Le distribuzioni di frequenze % congiunte


► Le distribuzioni di frequenze % totali si ottengono moltiplicando per 100 le corrispondenti
frequenze relative. Calcolando le frequenze percentuali si rende uguale a 100 il totale della tabella: ad
es., il 21,4% del totale è maschio e ha utilizzato la carta di credito.

Metodo di Genere (𝑌)


Totale
pagamento (𝑋) 𝑀 𝐹
Carta di credito 21,4 9,1 30,6
Paypol 10,9 14,9 25,7 𝑓11 × 100 = 21,4
Carta prepagata 7,4 5,4 12,9
Contrassegno 5,4 2,9 8,3
Bonifico 11,1 11,4 22,6
Totale 56,3 43,7 100,0
Associazione e indipendenza tra due
caratteri
Analisi dell’associazione tra due variabili

L’associazione statistica
► Quando si analizzano due variabili 𝑋 e 𝑌, si può essere interessati a stabilire se tra queste esiste una
relazione ed eventualmente a misurare la forza di tale relazione.
► L’analisi dell’associazione statistica tra due variabili non pretende di dimostrare l’esistenza di
relazioni di causa/effetto né di individuare le ‘leggi’ che legano le variabili fra loro → estrema
complessità della realtà, impossibilità di prevedere perfettamente i fenomeni sociali.
► Piuttosto, lo scopo è quello di verificare l’esistenza o meno di regolarità tra le modalità delle due
variabili, ovvero di capire se alcune modalità di una variabile tendono a presentarsi più
frequentemente in corrispondenza di certe modalità dell’altra variabile.

Esempi
• Tempo impiegato a trovare lavoro (𝑌) e voto di laurea (𝑋)
• Spesa per consumi (𝑌) e reddito percepito (𝑋)
• Tasso di disoccupazione (𝑌) e PIL (𝑋)
• Metodo di pagamento utilizzato (𝑋) e genere (𝑌)
• …
Analisi dell’associazione tra due variabili

Lo studio dell’associazione statistica


► Lo studio dell’associazione tra due variabili (o caratteri) viene affrontato in maniera differente in base
alla tipologia di variabili considerate.
• Associazione tra due variabili qualitative:
→ indipendenza statistica, misura del grado di associazione (indice Chi quadrato, indice V
→ di Cramer).
• Associazione tra una variabile quantitativa e una variabile qualitativa:
→ medie e varianze condizionate, dipendenza e indipendenza in media, scomposizione
→ della varianza, rapporto di correlazione.
• Associazione tra due variabili quantitative:
→ codevianza, covarianza, correlazione lineare, indipendenza lineare.
Analisi dell’associazione tra due variabili

Associazione, indipendenza e dipendenza statistica


► In termini generali, quando si analizza l’associazione tra due variabili si possono considerare due
situazioni opposte.
• Indipendenza statistica: assenza di qualsiasi legame tra le due variabili, quindi la conoscenza
della modalità di una variabile non migliora la «previsione» della modalità dell’altra.
• Dipendenza statistica: la conoscenza della modalità di una delle due variabili migliora la
«previsione» della modalità dell’altro.

Esempio
Se tempo il impiegato per trovare lavoro (𝑌) e il voto di laurea (𝑋) sono indipendenti, allora sapere
che un laureato ha ottenuto un voto di laurea alto (o basso) non aiuta a prevedere il tempo che
questo impiegherà per trovare lavoro. In caso contrario, le due variabili sono dipendenti; ad es., voti
di laurea più elevati potrebbero essere associati a tempi più brevi per trovare lavoro ...
Analisi dell’associazione tra due variabili

Indipendenza statistica: definizione


► In una tabella doppia di frequenza, due variabili 𝑋 e 𝑌 si dicono indipendenti se le distribuzioni
relative (o %) condizionate (di riga o di colonna) sono uguali tra loro (e uguali alla distribuzione
relativa o % marginale). Se 𝑋 è indipendente da 𝑌 allora anche 𝑌 è indipendente da 𝑋.

► In questo caso, per ogni casella della tabella, le frequenze assolute in caso di indipendenza (𝑛𝑖𝑗 ),
dette anche frequenze teoriche di indipendenza, sono espresse in funzione delle corrispondenti
frequenze marginali e del totale:


𝑛𝑖. ∙ 𝑛.𝑗
𝑛𝑖𝑗 =
𝑁
dove:

• 𝑛𝑖𝑗 frequenza congiunta nel caso di indipendenza (o teorica)
• 𝑛𝑖. frequenza marginale della riga 𝑖
• 𝑛.𝑗 frequenze marginali della colonna 𝑗
• 𝑁 numerosità totale del collettivo
Analisi dell’associazione tra due variabili

Indipendenza statistica: calcolo delle frequenze


► Ad esempio, la frequenza nel caso di indipendenza (o teorica) riferita alla casella “𝑃𝑎𝑦𝑝𝑜𝑙 × 𝑀”
si ottiene nel modo seguente:

Metodo di Genere (𝑌)


Totale
pagamento (𝑋) M F
Carta di credito 107
𝑛2. ∙ 𝑛.1 90 ∙ 197
Paypol ? 𝟗𝟎 ∗
𝑛21 =
𝑁
=
350
= 50,7
Carta prepagata 45
Contrassegno 29
Bonifico 79
Totale 𝟏𝟗𝟕 153 350
Analisi dell’associazione tra due variabili

Indipendenza statistica: calcolo delle frequenze (continua)


► Invece, la frequenza nel caso di indipendenza (o teorica) riferita alla casella “𝐶𝑎𝑟𝑡𝑎 𝑑𝑖 𝑐𝑟𝑒𝑑𝑖𝑡𝑜 ×
𝐹” si ottiene nel modo seguente:

Metodo di Genere (𝑌)


Totale
pagamento (𝑋) M F
Carta di credito ? 𝟏𝟎𝟕
Paypol 90 𝑛1. ∙ 𝑛.2 107 ∙ 153

𝑛12 = = = 46,8
Carta prepagata 45 𝑁 350
Contrassegno 29
Bonifico 79
Totale 197 𝟏𝟓𝟑 350
Analisi dell’associazione tra due variabili

Indipendenza statistica: calcolo delle frequenze (continua)


► … infine, la frequenza nel caso di indipendenza (o teorica) riferita alla casella “𝐵𝑜𝑛𝑖𝑓𝑖𝑐𝑜 × 𝐹” si
ottiene nel modo seguente:

Metodo di Genere (𝑌)


Totale
pagamento (𝑋) M F
Carta di credito 107
Paypol 90
Carta prepagata 45 ∗ 𝑛5. ∙ 𝑛.2 79 ∙ 153
𝑛52 = = = 34,5
Contrassegno 29 𝑁 350
Bonifico ? 𝟕𝟗
Totale 197 𝟏𝟓𝟑 350
Analisi dell’associazione tra due variabili

Indipendenza statistica: calcolo delle frequenze (continua)


► Calcolando le frequenze nel caso di indipendenza (o teoriche) per tutte le caselle della tabella si
ottiene la seguente distribuzione doppia:

Frequenze teoriche di indipendenza


Metodo di Genere (𝑌)
Totale
pagamento (𝑋) M F
Carta di credito 60,2 46,8 107
Paypol 50,7 39,3 90
Carta prepagata 25,3 19,7 45
Contrassegno 16,3 12,7 29
Bonifico 44,5 34,5 79
Totale 197,0 153,0 350
Analisi dell’associazione tra due variabili

Indipendenza statistica: calcolo delle frequenze (continua)



► Le frequenze congiunte teoriche 𝑛𝑖𝑗 hanno gli stessi totali marginali di riga e di colonna (e quindi
anche il totale generale) delle frequenze congiunte osservate 𝑛𝑖𝑗 .
𝐻 𝐻 𝐾 𝐾
∗ ∗
෍ 𝑛𝑖𝑗 = ෍ 𝑛𝑖𝑗 = 𝑛.𝑗 ෍ 𝑛𝑖𝑗 = ෍ 𝑛𝑖𝑗 = 𝑛𝑖.
𝑖=1 𝑖=1 𝑗=1 𝑗=1

Frequenze osservate Frequenze teoriche


Metodo di Genere (𝑌) Metodo di Genere (𝑌)
Totale Totale
pagamento (𝑋) M F pagamento (𝑋) M F
Carta di credito 75 32 107 Carta di credito 60,2 46,8 107
Paypol 38 52 90 Paypol 50,7 39,3 90
Carta prepagata 26 19 45 Carta prepagata 25,3 19,7 45
Contrassegno 19 10 29 Contrassegno 16,3 12,7 29
Bonifico 39 40 79 Bonifico 44,5 34,5 79
Totale 197 153 350 Totale 197,0 153,0 350
Analisi dell’associazione tra due variabili

Indipendenza statistica: verifica


► Per verificare la definizione di indipendenza statistica, si possono calcolare le distribuzioni
condizionate % di riga e di colonna a partire dalla distribuzione doppia delle frequenze teoriche
di indipendenza:
% di colonna
Metodo di Genere (𝑌)
Totale
pagamento (𝑋) M F % di riga
Carta di credito 30,6 30,6 30,6 Metodo di Genere (𝑌)
Totale
Paypol 25,7 25,7 25,7 pagamento (𝑋) M F
Carta prepagata 12,8 12,8 12,8 Carta di credito 56,3 43,7 100,0
Contrassegno 8,3 8,3 8,3 Paypol 56,3 43,7 100,0
Bonifico 22,6 22,6 22,6 Carta prepagata 56,3 43,7 100,0
Totale 100,0 100,0 100,0 Contrassegno 56,3 43,7 100,0
Bonifico 56,3 43,7 100,0
Totale 56,3 43,7 100,0
Analisi dell’associazione tra due variabili

Associazione perfetta
► Quando due variabili (o due caratteri) 𝑋 e 𝑌 non sono indipendenti statisticamente, ci si attende
che tra queste sussista qualche tipo di relazione.
► In particolare, si può introdurre la nozione di associazione perfetta, rispetto alla quale si
distinguono due situazioni estreme in cui esiste una dipendenza statistica tra 𝑋 e 𝑌.
• Dipendenza perfetta
• Interdipendenza perfetta
Analisi dell’associazione tra due variabili

La dipendenza perfetta
► Una variabile (o un carattere) 𝑌 dipende perfettamente da 𝑋 quando ad ogni modalità di 𝑋
corrisponde sempre una sola modalità di 𝑌 → relazione unidirezionale.
► Infatti ad ogni modalità di 𝑋 corrisponde sempre una sola modalità di 𝑌 ma non vale il viceversa
poiché alla modalità 𝑦1 corrispondono le modalità 𝑥1 e 𝑥3 . La conoscenza della modalità di 𝑋
consente di prevedere perfettamente la modalità di 𝑌 ma non è vero il contrario.

𝒀
𝑿 Totale
𝑦1 𝑦2 𝑦3
𝑥1 23 0 0 23
𝑥2 0 15 0 15
𝑥3 18 0 0 18
𝑥4 0 0 6 6
Totale 41 15 6 62
Analisi dell’associazione tra due variabili

Interdipendenza perfetta
► Tra due variabili sussiste interdipendenza perfetta se ad ogni modalità di una delle due variabili
corrisponde una ed una sola modalità dell’altra variabile e viceversa → relazione bidirezionale,
valida solo per tabelle quadrate (stesso numero di righe e colonne).
► In questo caso, per ogni riga e per ogni colonna della tabella si deve avere una sola casella con
frequenza non nulla. La conoscenza della modalità di una variabile consente di prevedere
perfettamente la modalità dell’altra e viceversa.

𝒀
𝑿 Totale
𝑦1 𝑦2 𝑦3
𝑥1 23 0 0 23
𝑥2 0 15 0 15
𝑥3 0 0 18 18
Totale 23 15 18 56
Misura dell’associazione tra due
variabili qualitative sconnesse
Associazione tra due variabili qualitative sconnesse

Indici basati sul confronto delle frequenze


► Quando due variabili non sono indipendenti si può essere interessati a misurare il grado di
associazione.
► Per misurare il grado di associazione tra due variabili qualitative sconnesse si utilizzano degli
indici che si basano sul confronto tra le frequenze assolute osservate 𝑛𝑖𝑗 e le corrispondenti

frequenze teoriche in caso di indipendenza, 𝑛𝑖𝑗 .
► Le differenze tra frequenze osservate e frequenze teoriche di indipendenza vengono dette
contingenze, 𝑐𝑖𝑗 :

𝑐𝑖𝑗 = 𝑛𝑖𝑗 − 𝑛𝑖𝑗

► E’ facile verificare che la somma delle contingenze è sempre nulla:


𝐻 𝐾

෍ ෍ 𝑐𝑖𝑗 = 0
𝑖=1 𝑗=1
Associazione tra due variabili qualitative sconnesse

Indici di associazione: caratteristiche


► In generale, un indice di associazione (o di connessione) tra due variabili qualitative assume
sempre valori ≥ 𝟎:
• sarà nullo in caso di indipendenza, ovvero quando le frequenze osservate sono uguali a

quelle teoriche di indipendenza → 𝑐𝑖𝑗 = 𝑛𝑖𝑗 − 𝑛𝑖𝑗 = 0 ∀ 𝑖, 𝑗
• assumerà valori crescenti all’aumentare della differenza tra frequenze osservate e frequenze
teoriche di indipendenza
• dovrà assumere valore massimo quando tra le due variabili c’è associazione perfetta →
dipendenza o interdipendenza perfetta
Associazione tra due variabili qualitative sconnesse

Indice Chi-quadrato di Pearson


► L’indice Chi-quadrato di Pearson è una misura del grado di associazione tra due variabili (o due
caratteri), basata sul confronto tra frequenze osservate e frequenze teoriche (contingenze) per
ogni casella della tabella:
𝐻 𝐾 ∗ 2
𝑛 𝑖𝑗 − 𝑛 𝑖𝑗
𝜒2 = ෍ ෍ ∗
𝑛𝑖𝑗
𝑖=1 𝑗=1

• assume il valore 0 nel caso di indipendenza tra le due variabili (cioè se frequenze osservate e
frequenze teoriche sono uguali per ogni casella della tabella)

• cresce all’aumentare della differenza tra frequenze osservate e teoriche, 𝑛𝑖𝑗 − 𝑛𝑖𝑗
• non ammette un massimo assoluto ma solo un massimo relativo in funzione della numerosità
del collettivo (𝑁) e del numero di numero di righe 𝐻 e colonne 𝐾 delle due variabili:
2
𝜒𝑚𝑎𝑥 = 𝑁 ∙ 𝑚𝑖𝑛 𝐻 − 1 , 𝐾 − 1
Associazione tra due variabili qualitative sconnesse

Indice Chi-quadrato di Pearson: calcolo


► L’indice Chi-quadrato di Pearson della tabella si ottiene nel modo seguente:

Frequenze osservate Frequenze teoriche


Metodo di Genere (𝑌) Metodo di Genere (𝑌)
pagamento (𝑋) Totale pagamento (𝑋) Totale
M F M F
Carta di credito 75 32 107 Carta di credito 60,23 46,77 107
Paypol 38 52 90 Paypol 50,66 39,34 90
Carta prepagata 26 19 45 Carta prepagata 25,33 19,67 45
Contrassegno 19 10 29 Contrassegno 16,32 12,68 29
Bonifico 39 40 79 Bonifico 44,47 34,53 79
Totale 197 153 350 Totale 197 153 350

𝐻 𝐾 ∗ 2
𝑛 − 𝑛 75 − 60,23 2 32 − 46,77 2 40 − 34,53 2
𝑖𝑗 𝑖𝑗
𝜒2 = ෍ ෍ ∗ = + + ⋯+ = 18,108
𝑛𝑖𝑗 60,23 46,77 34,53
𝑖=1 𝑗=1
Associazione tra due variabili qualitative sconnesse

Indice Chi-quadrato di Pearson: considerazioni


► L’indice Chi-quadrato di Pearson evidenzia l’esistenza di un’associazione tra le due variabili poiché
assume un valore maggiore di zero:

𝜒 2 = 18,108

► Tuttavia, non è possibile stabilire se questa associazione è forte o è debole poiché l’indice Chi-
quadrato dipende dalla numerosità del collettivo e dalle dimensioni della tabella (numero di righe e
colonne). In questo caso, il valore massimo dell’indice Chi-quadrato è dato da:
2
𝜒𝑚𝑎𝑥 = 𝑁 ∙ 𝑚𝑖𝑛 𝐻 − 1 ; 𝐾 − 1 = 350 ∙ 𝑚𝑖𝑛 5 − 1 ; 2 − 1 = 350 ∙ 1 = 350

► Per ottenere un indice che misura la forza dell’associazione tra le due variabili che non sia
influenzato dalla numerosità del collettivo né dal numero di righe e colonne della tabella, si ricorre
all’indice V di Cramer che assume valori nell’intervallo finito 0, 1 → indice normalizzato.
Associazione tra due variabili qualitative sconnesse

Indice V di Cramer
► L’indice V di Cramer è una misura normalizzata di associazione basata sull’indice chi-quadrato, e
quantifica la forza dell’associazione tra due variabili indipendentemente dalla numerosità del
collettivo e dalle dimensioni della tabella:

𝜒2 𝜒2
𝑉= = 2
𝑁 ∙ 𝑚𝑖𝑛 𝐻 − 1 ; 𝐾 − 1 𝜒𝑚𝑎𝑥

• indice normalizzato (o relativo), assume valori in un intervallo limitato: 0 ≤ 𝑉 ≤ 1


• 𝑉 = 0 nel caso di indipendenza tra le due variabili
• 𝑉 = 1 nel caso di associazione perfetta (dipendenza o interdipendenza) tra le due variabili
Associazione tra due variabili qualitative sconnesse

Indice V di Cramer: calcolo


► Nel caso dell’esempio considerato, una volta calcolato l’indice Chi-quadrato si ottiene facilmente
anche l’indice V di Cramer:

𝜒 2 = 18,108

2
𝜒𝑚𝑎𝑥 = 𝑁 ∙ 𝑚𝑖𝑛 𝐻 − 1 ; 𝐾 − 1 = 350 ∙ 𝑚𝑖𝑛 5 − 1 ; 2 − 1 = 350 ∙ 1 = 350

𝜒2 𝜒2 18,108
𝑉= 2 = = = 0,227
𝜒𝑚𝑎𝑥 𝑁 ∙ 𝑚𝑖𝑛 𝐻 − 1 ; 𝐾 − 1 350 ∙ 1

► Il risultato mostra che i due caratteri non sono indipendenti; tuttavia, il grado di associazione è di
debole intensità, poiché l’indice V di Cramer è piuttosto distante dal suo massimo.
Associazione tra due variabili qualitative sconnesse

Associazione perfetta: Chi-quadrato e V di Cramer


► Nei casi di associazione perfetta (dipendenza perfetta e interdipendenza perfetta) gli indici Chi-
quadrato e V di Cramer assumono valore massimo:
Dipendenza perfetta
𝒀
𝑿 Totale
𝑦1 𝑦2 𝑦3
𝑥1 23 0 0 23
Interdipendenza perfetta
𝑥2 0 15 0 15
𝒀
𝑥3 18 0 0 18 𝑿 Totale
𝑦1 𝑦2 𝑦3
𝑥4 0 0 6 6
𝑥1 23 0 0 23
Totale 41 15 6 62
𝑥2 0 15 0 15
𝑥3 0 0 18 18
Totale 23 15 18 56
Associazione tra due variabili qualitative sconnesse

Dipendenza perfetta: Chi-quadrato e V di Cramer


► Si calcolano le frequenze teoriche in caso di indipendenza e i valori degli indici:
Frequenze osservate Frequenze teoriche
𝒀 𝒀
𝑿 Totale 𝑿 Totale
𝑦1 𝑦2 𝑦3 𝑦1 𝑦2 𝑦3
𝑥1 23 0 0 23 𝑥1 15,2 5,6 2,2 23,0
𝑥2 0 15 0 15 𝑥2 9,9 3,6 1,5 15,0
𝑥3 18 0 0 18 𝑥3 11,9 4,4 1,7 18,0
𝑥4 0 0 6 6 𝑥4 4,0 1,5 0,6 6,0
Totale 41 15 6 62 Totale 41,0 15,0 6,0 62,0

𝐻 𝐾 ∗ 2
𝑛𝑖𝑗 − 𝑛𝑖𝑗 2 2 2
2
23 − 15,2 0 − 5,6 6 − 0,6
𝜒 = ෍෍ ∗ = + + ⋯+ = 124
𝑛𝑖𝑗 15,2 5,6 0,6
𝑖=1 𝑗=1 𝜒2 124
𝑉= 2 = =1
𝜒𝑚𝑎𝑥 124
2
𝜒𝑚𝑎𝑥 = 𝑁 ∙ 𝑚𝑖𝑛 𝐻 − 1 ; 𝐾 − 1 = 62 ∙ 𝑚𝑖𝑛 4 − 1 ; 3 − 1 = 62 ∙ 2 = 124
Associazione tra due variabili qualitative sconnesse

Interdipendenza perfetta: Chi-quadrato e V di Cramer


► Si calcolano le frequenze teoriche in caso di indipendenza e i valori degli indici:
Frequenze osservate Frequenze teoriche
𝒀 𝒀
𝑿 Totale 𝑿 Totale
𝑦1 𝑦2 𝑦3 𝑦1 𝑦2 𝑦3
𝑥1 23 0 0 23 𝑥1 9,4 6,2 7,4 23
𝑥2 0 15 0 15 𝑥2 6,2 4,0 4,8 15
𝑥3 0 0 18 18 𝑥3 7,4 4,8 5,8 18
Totale 23 15 18 56 Totale 23 15 18 56

𝐻 𝐾 ∗ 2
𝑛𝑖𝑗 − 𝑛𝑖𝑗 2 2 2
2
23 − 9,4 0 − 6,2 18 − 5,8
𝜒 = ෍෍ ∗ = + +⋯+ = 112
𝑛𝑖𝑗 9,4 6,2 5,8
𝑖=1 𝑗=1 𝜒2 112
𝑉= 2 = =1
𝜒𝑚𝑎𝑥 112
2
𝜒𝑚𝑎𝑥 = 𝑁 ∙ 𝑚𝑖𝑛 𝐻 − 1 ; 𝐾 − 1 = 56 ∙ 𝑚𝑖𝑛 3 − 1 ; 3 − 1 = 62 ∙ 2 = 112
Associazione tra due variabili qualitative sconnesse

Indice Chi-quadrato di Pearson: formula equivalente


► L’indice Chi-quadrato di Pearson può essere calcolato (più facilmente) utilizzando una formula che
non richiede il calcolo delle frequenze teoriche di indipendenza.
► La formula equivalente mostra inoltre chiaramente che l’indice Chi-quadrato di Pearson dipende
dalla numerosità del collettivo 𝑵 . Ciò implica che, a parità del grado di associazione tra le due
variabili, il suo valore aumenta all’aumentare di 𝑁.

𝐻 𝐾
2
𝑛 𝑖𝑗
𝜒2 = ෍ ෍ −1 𝑁
𝑛𝑖. 𝑛.𝑗
𝑖=1 𝑗=1
Associazione tra due variabili qualitative sconnesse

Indice Chi-quadrato di Pearson: formula equivalente (calcolo)


► Applicando la formula equivalente ai dati della tabella precedente abbiamo:
Frequenze osservate
Metodo di Genere (𝑌)
pagamento (𝑋) Totale
M F
Carta di credito 75 32 107
Paypol 38 52 90
Carta prepagata 26 19 45
Contrassegno 19 10 29
Bonifico 39 40 79
Totale 197 153 350

𝐻 2𝐾 2 2 2
𝑛 𝑖𝑗 75 32 40
𝜒2 = ෍ ෍ −1 𝑁 = + + ⋯+ − 1 350 = 18,108
𝑛𝑖. 𝑛.𝑗 107 ∙ 197 107 ∙ 153 79 ∙ 153
𝑖=1 𝑗=1
Associazione tra due variabili qualitative sconnesse

Indice Chi-quadrato di Pearson: effetto della numerosità del collettivo


► Per dimostrare che l’indice Chi-quadrato di Pearson dipende dalla numerosità del collettivo 𝑁 , si
considera una distribuzione doppia in cui le frequenze assolute sono state moltiplicate per 𝟏𝟎
rispetto alla distribuzione precedente.
Frequenze osservate
Metodo di Genere (𝑌)
pagamento (𝑋) Totale
M F
Carta di credito 750 320 1070
Paypol 380 520 900 750 2 400 2

Carta prepagata 260 190 450 𝜒2 = + ⋯+ − 1 3500 =


1070 ∙ 1970 790 ∙ 1530
Contrassegno 190 100 290
Bonifico 390 400 790 𝜒 2 = 181,08

Totale 1970 1530 3500 Anche il valore del chi-quadrato risulta moltiplicato
per 10.
Associazione tra due variabili qualitative sconnesse

Indice V di Cramer: effetto della numerosità del collettivo


► L’indice V di Cramer non è invece influenzato dalla numerosità del collettivo 𝑁 .
Frequenze osservate
Metodo di Genere (𝑌)
pagamento (𝑋) Totale
M F
Carta di credito 750 320 1070 2
𝜒𝑚𝑎𝑥 = 𝑁 ∙ 𝑚𝑖𝑛 𝐻 − 1 ; 𝐾 − 1 =
Paypol 380 520 900
Carta prepagata 260 190 450 = 3500 ∙ 𝑚𝑖𝑛 5 − 1 ; 2 − 1 = 3500
Contrassegno 190 100 290
Bonifico 390 400 790 𝜒2 181,08
Totale 1970 1530 3500 𝑉= 2 = = 0,227
𝜒𝑚𝑎𝑥 3500

Il valore del V di Cramer non è invece influenzato


dalla numerosità del collettivo né dalle dimensioni
della tabella.

Potrebbero piacerti anche