Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Lucio Masserini
Indice
1. Le distribuzioni doppie
2. Associazione e indipendenza tra due caratteri
3. Misura dell’associazione tra due caratteri qualitativi sconnessi
Le distribuzioni doppie
Introduzione
► Finora abbiamo considerato l’analisi di una sola variabile (o di un solo carattere) alla volta,
calcolando la distribuzione di frequenze, una o più misure di sintesi (medie analitiche o di posizione)
o di variabilità (varianza, scarto quadratico medio, coefficiente di variazione).
► Tuttavia, in molti problemi empirici si ritiene utile analizzare due variabili (o due caratteri)
congiuntamente, entrambe rilevate su ciascuna unità del collettivo.
► In questi casi può essere interessante stabilire se tra queste variabili esiste una relazione e misurare la
forza di questa relazione. Lo studio della relazione tra due variabili (qualitative e/o quantitative) viene
anche chiamato analisi dell’associazione → indipendenza e dipendenza.
Le distribuzioni doppie
Unità
𝑿 𝒀
statistica
𝑢1 𝑥1 𝑦1
𝑢2 𝑥2 𝑦2
𝑢3 𝑥3 𝑦3
… … …
𝑢𝑖 𝑥𝑖 𝑦𝑖
… … …
𝑢𝑁−1 𝑥𝑁−1 𝑦𝑁−1
𝑢𝑁 𝑥𝑁 𝑦𝑁
Le distribuzioni doppie
𝑛21 = 16 → numero di unità che hanno pagato con Paypol e hanno fatto 1 acquisto
Le distribuzioni doppie
Le distribuzioni marginali
► Le distribuzioni di frequenze marginali corrispondono ai totali della tabella e rappresentano le
distribuzioni di frequenze semplici riferite alle due variabili singolarmente considerate.
• Distribuzione marginale di 𝑿 (variabile riga): distribuzione per «Metodo di pagamento»
• Distribuzione marginale di 𝒀 (variabile colonna): distribuzione per «Genere»
𝑛.𝑗 𝑁
Le distribuzioni doppie
Metodo di
Totale
pagamento (𝑿)
Carta di credito 107 𝑛1.
Paypol 90 𝑛2.
Carta prepagata 45 𝑛𝑖. 𝑛3.
Contrassegno 29 𝑛4.
Bonifico 79 𝑛5.
Totale 350
𝑛2. = 90 → indica la frequenza assoluta delle unità che hanno pagato con Paypol
Le distribuzioni doppie
M 197 𝑛.1
F 153
𝑛.𝑗 𝑛.2
Totale 350
𝑌
𝑋 Totale
𝑦1 … 𝑦𝑗 … 𝑦𝐾
𝑥1 𝑛11 … 𝑛1𝑗 … 𝑛1𝐾 𝑛1.
… … … … … … …
𝐻
• La distribuzione marginale di 𝑌: 𝑛.𝑗 = 𝑛𝑖𝑗 𝑖 = 1, 2, … , 𝐻
𝑖=1
𝐻 𝐾
• Il totale del collettivo: 𝑁 = 𝑛𝑖𝑗
𝑖=1 𝑗=1
Le distribuzioni doppie
𝑓11 → indica la frazione di maschi tra coloro che utilizzano la carta di credito.
𝑓.1 → indica la frazione di maschi nel complesso.
Le distribuzioni doppie
𝑓11 → indica la frazione di unità del collettivo che sono maschi e hanno utilizzato la carta di credito
Le distribuzioni doppie
L’associazione statistica
► Quando si analizzano due variabili 𝑋 e 𝑌, si può essere interessati a stabilire se tra queste esiste una
relazione ed eventualmente a misurare la forza di tale relazione.
► L’analisi dell’associazione statistica tra due variabili non pretende di dimostrare l’esistenza di
relazioni di causa/effetto né di individuare le ‘leggi’ che legano le variabili fra loro → estrema
complessità della realtà, impossibilità di prevedere perfettamente i fenomeni sociali.
► Piuttosto, lo scopo è quello di verificare l’esistenza o meno di regolarità tra le modalità delle due
variabili, ovvero di capire se alcune modalità di una variabile tendono a presentarsi più
frequentemente in corrispondenza di certe modalità dell’altra variabile.
Esempi
• Tempo impiegato a trovare lavoro (𝑌) e voto di laurea (𝑋)
• Spesa per consumi (𝑌) e reddito percepito (𝑋)
• Tasso di disoccupazione (𝑌) e PIL (𝑋)
• Metodo di pagamento utilizzato (𝑋) e genere (𝑌)
• …
Analisi dell’associazione tra due variabili
Esempio
Se tempo il impiegato per trovare lavoro (𝑌) e il voto di laurea (𝑋) sono indipendenti, allora sapere
che un laureato ha ottenuto un voto di laurea alto (o basso) non aiuta a prevedere il tempo che
questo impiegherà per trovare lavoro. In caso contrario, le due variabili sono dipendenti; ad es., voti
di laurea più elevati potrebbero essere associati a tempi più brevi per trovare lavoro ...
Analisi dell’associazione tra due variabili
∗
𝑛𝑖. ∙ 𝑛.𝑗
𝑛𝑖𝑗 =
𝑁
dove:
∗
• 𝑛𝑖𝑗 frequenza congiunta nel caso di indipendenza (o teorica)
• 𝑛𝑖. frequenza marginale della riga 𝑖
• 𝑛.𝑗 frequenze marginali della colonna 𝑗
• 𝑁 numerosità totale del collettivo
Analisi dell’associazione tra due variabili
Associazione perfetta
► Quando due variabili (o due caratteri) 𝑋 e 𝑌 non sono indipendenti statisticamente, ci si attende
che tra queste sussista qualche tipo di relazione.
► In particolare, si può introdurre la nozione di associazione perfetta, rispetto alla quale si
distinguono due situazioni estreme in cui esiste una dipendenza statistica tra 𝑋 e 𝑌.
• Dipendenza perfetta
• Interdipendenza perfetta
Analisi dell’associazione tra due variabili
La dipendenza perfetta
► Una variabile (o un carattere) 𝑌 dipende perfettamente da 𝑋 quando ad ogni modalità di 𝑋
corrisponde sempre una sola modalità di 𝑌 → relazione unidirezionale.
► Infatti ad ogni modalità di 𝑋 corrisponde sempre una sola modalità di 𝑌 ma non vale il viceversa
poiché alla modalità 𝑦1 corrispondono le modalità 𝑥1 e 𝑥3 . La conoscenza della modalità di 𝑋
consente di prevedere perfettamente la modalità di 𝑌 ma non è vero il contrario.
𝒀
𝑿 Totale
𝑦1 𝑦2 𝑦3
𝑥1 23 0 0 23
𝑥2 0 15 0 15
𝑥3 18 0 0 18
𝑥4 0 0 6 6
Totale 41 15 6 62
Analisi dell’associazione tra due variabili
Interdipendenza perfetta
► Tra due variabili sussiste interdipendenza perfetta se ad ogni modalità di una delle due variabili
corrisponde una ed una sola modalità dell’altra variabile e viceversa → relazione bidirezionale,
valida solo per tabelle quadrate (stesso numero di righe e colonne).
► In questo caso, per ogni riga e per ogni colonna della tabella si deve avere una sola casella con
frequenza non nulla. La conoscenza della modalità di una variabile consente di prevedere
perfettamente la modalità dell’altra e viceversa.
𝒀
𝑿 Totale
𝑦1 𝑦2 𝑦3
𝑥1 23 0 0 23
𝑥2 0 15 0 15
𝑥3 0 0 18 18
Totale 23 15 18 56
Misura dell’associazione tra due
variabili qualitative sconnesse
Associazione tra due variabili qualitative sconnesse
𝑐𝑖𝑗 = 0
𝑖=1 𝑗=1
Associazione tra due variabili qualitative sconnesse
• assume il valore 0 nel caso di indipendenza tra le due variabili (cioè se frequenze osservate e
frequenze teoriche sono uguali per ogni casella della tabella)
∗
• cresce all’aumentare della differenza tra frequenze osservate e teoriche, 𝑛𝑖𝑗 − 𝑛𝑖𝑗
• non ammette un massimo assoluto ma solo un massimo relativo in funzione della numerosità
del collettivo (𝑁) e del numero di numero di righe 𝐻 e colonne 𝐾 delle due variabili:
2
𝜒𝑚𝑎𝑥 = 𝑁 ∙ 𝑚𝑖𝑛 𝐻 − 1 , 𝐾 − 1
Associazione tra due variabili qualitative sconnesse
𝐻 𝐾 ∗ 2
𝑛 − 𝑛 75 − 60,23 2 32 − 46,77 2 40 − 34,53 2
𝑖𝑗 𝑖𝑗
𝜒2 = ∗ = + + ⋯+ = 18,108
𝑛𝑖𝑗 60,23 46,77 34,53
𝑖=1 𝑗=1
Associazione tra due variabili qualitative sconnesse
𝜒 2 = 18,108
► Tuttavia, non è possibile stabilire se questa associazione è forte o è debole poiché l’indice Chi-
quadrato dipende dalla numerosità del collettivo e dalle dimensioni della tabella (numero di righe e
colonne). In questo caso, il valore massimo dell’indice Chi-quadrato è dato da:
2
𝜒𝑚𝑎𝑥 = 𝑁 ∙ 𝑚𝑖𝑛 𝐻 − 1 ; 𝐾 − 1 = 350 ∙ 𝑚𝑖𝑛 5 − 1 ; 2 − 1 = 350 ∙ 1 = 350
► Per ottenere un indice che misura la forza dell’associazione tra le due variabili che non sia
influenzato dalla numerosità del collettivo né dal numero di righe e colonne della tabella, si ricorre
all’indice V di Cramer che assume valori nell’intervallo finito 0, 1 → indice normalizzato.
Associazione tra due variabili qualitative sconnesse
Indice V di Cramer
► L’indice V di Cramer è una misura normalizzata di associazione basata sull’indice chi-quadrato, e
quantifica la forza dell’associazione tra due variabili indipendentemente dalla numerosità del
collettivo e dalle dimensioni della tabella:
𝜒2 𝜒2
𝑉= = 2
𝑁 ∙ 𝑚𝑖𝑛 𝐻 − 1 ; 𝐾 − 1 𝜒𝑚𝑎𝑥
𝜒 2 = 18,108
2
𝜒𝑚𝑎𝑥 = 𝑁 ∙ 𝑚𝑖𝑛 𝐻 − 1 ; 𝐾 − 1 = 350 ∙ 𝑚𝑖𝑛 5 − 1 ; 2 − 1 = 350 ∙ 1 = 350
𝜒2 𝜒2 18,108
𝑉= 2 = = = 0,227
𝜒𝑚𝑎𝑥 𝑁 ∙ 𝑚𝑖𝑛 𝐻 − 1 ; 𝐾 − 1 350 ∙ 1
► Il risultato mostra che i due caratteri non sono indipendenti; tuttavia, il grado di associazione è di
debole intensità, poiché l’indice V di Cramer è piuttosto distante dal suo massimo.
Associazione tra due variabili qualitative sconnesse
𝐻 𝐾 ∗ 2
𝑛𝑖𝑗 − 𝑛𝑖𝑗 2 2 2
2
23 − 15,2 0 − 5,6 6 − 0,6
𝜒 = ∗ = + + ⋯+ = 124
𝑛𝑖𝑗 15,2 5,6 0,6
𝑖=1 𝑗=1 𝜒2 124
𝑉= 2 = =1
𝜒𝑚𝑎𝑥 124
2
𝜒𝑚𝑎𝑥 = 𝑁 ∙ 𝑚𝑖𝑛 𝐻 − 1 ; 𝐾 − 1 = 62 ∙ 𝑚𝑖𝑛 4 − 1 ; 3 − 1 = 62 ∙ 2 = 124
Associazione tra due variabili qualitative sconnesse
𝐻 𝐾 ∗ 2
𝑛𝑖𝑗 − 𝑛𝑖𝑗 2 2 2
2
23 − 9,4 0 − 6,2 18 − 5,8
𝜒 = ∗ = + +⋯+ = 112
𝑛𝑖𝑗 9,4 6,2 5,8
𝑖=1 𝑗=1 𝜒2 112
𝑉= 2 = =1
𝜒𝑚𝑎𝑥 112
2
𝜒𝑚𝑎𝑥 = 𝑁 ∙ 𝑚𝑖𝑛 𝐻 − 1 ; 𝐾 − 1 = 56 ∙ 𝑚𝑖𝑛 3 − 1 ; 3 − 1 = 62 ∙ 2 = 112
Associazione tra due variabili qualitative sconnesse
𝐻 𝐾
2
𝑛 𝑖𝑗
𝜒2 = −1 𝑁
𝑛𝑖. 𝑛.𝑗
𝑖=1 𝑗=1
Associazione tra due variabili qualitative sconnesse
𝐻 2𝐾 2 2 2
𝑛 𝑖𝑗 75 32 40
𝜒2 = −1 𝑁 = + + ⋯+ − 1 350 = 18,108
𝑛𝑖. 𝑛.𝑗 107 ∙ 197 107 ∙ 153 79 ∙ 153
𝑖=1 𝑗=1
Associazione tra due variabili qualitative sconnesse
Totale 1970 1530 3500 Anche il valore del chi-quadrato risulta moltiplicato
per 10.
Associazione tra due variabili qualitative sconnesse