Sei sulla pagina 1di 25

Analisi dell’Associazione

STATISTICA
Test di indipendenza
per tabelle di contingenza
Associazione
 Si definisce ASSOCIAZIONE il grado di legame
esistente tra due caratteri qualitativi (mutabili).
 La costruzione di un indice che misuri il grado di
associazione tra due caratteri statistici si basa sul
concetto di contingenza.
 Si definisce contingenza la differenza tra la
frequenza osservata e la frequenza teorica di una
generica cella ij.
 Nel caso di indipendenza le contingenze sono tutte
nulle mentre queste cresceranno, in valore assoluto,
al crescere del grado di dipendenza tra i caratteri.
Associazione
 Si consideri una popolazione le cui N unità siano
classificate secondo le r modalità di un carattere
X (esempio sesso) e le c modalità di un carattere
Y (classi di età)
Y1 Y2 … Yj … Yc
X1 n1.
X2 n2.
… Freq. marginale
Xi nij ni. di riga

Xr nr.
n.1 n.2 n.j n.c N

Freq. marginale Collettivo


Freq. doppia
di colonna
Associazione
 Sulla base delle osservazioni campionarie vogliamo sapere
se i due caratteri X ed Y (di tipo qualitativo) siano
indipendenti oppure associati.
 A tal scopo si utilizza spesso la statistica 2 (Chi
Quadrato), che indica la misura in cui le frequenze
osservate (fo), in ogni casella della tabella, differiscono
dalle frequenze teoriche (ft), cioè quelle che ci
aspetteremmo se non ci fosse associazione r c

fraf i
 due
f 2


2 o t
caratteri.  
i 1
ft
j 1

Esso è ottenuto come somma delle contingenze al quadrato, diviso le


frequenze teoriche.
L’indice assume valore pari a zero in caso di indipendenza e aumenta al
crescere del grado di associazione.
TEST DEL CHI-QUADRATO
 Questi dati possono essere esposti nella tabella di
contingenza 2x2:

Caratteristica A
Presente Assente
campione1 r1 n1-r1 n1
campione2 r2 n2-r2 n2
___________________________________
r1+r2 (n1-r1)+(n2-r2) n1+n2
TEST TEST
DELDEL
CHI-QUADRATO
CHI-QUADRATO
 Il totale delle osservazioni è a destra in
basso.
 Le quatto celle interne rappresentano le
frequenze osservate.
 L’ipotesi nulla afferma che la frequenza
relativa della caratteristica A è uguale nelle
due popolazioni (P1=P2).
TEST DEL CHI-QUADRATO
TEST DEL CHI-QUADRATO
Esempio: Un collettivo di 219 studenti è stato
sottoposto ad un test attitudinale. Le attitudini
osservate sono tre:
A: spiccata attitudine alle discipline artistiche
B: spiccata attitudine alle materie umanistiche
C: spiccata attitudine alle materie scientifiche.
In tabella si riporta la distribuzione doppia degli
studenti secondo il sesso e l’attitudine.
TEST DEL CHI-QUADRATO
TEST DEL CHI-QUADRATO
ATTITUDINE
SESSO A B C Tot.
maschio 35 40 44 119

femmina 22 27 51 100
_________________________________
57 67 95 219
Le frequenze attese
Per calcolare le frequenze attese bisogna
moltiplicare i due totali marginali (di riga e di
colonna) di ogni cella e dividere per il numero
totale dei dati.

f marginale_ riga  f marginale_ colonna


fo 
N tot
TEST DEL CHI-QUADRATO

Frequenze Attese
ATTITUDINE
SESSO A B C Tot.
maschio 30.97 36.41 51.62 119

femmina 26.03 30.59 43.38 100


_________________________________
57 67 95 219
TEST DEL CHI-QUADRATO
Il calcolo delle frequenze attese è il seguente
 Nel gruppo dei maschi
(57*119)/219=30.97
(67*119)/219=36.41
(95*119)/219=51.62
 Nel gruppo delle femmine
(57*100)/219=26.03
(67*100)/219=30.59
(95*100)/219=43.38
TEST DEL CHI-QUADRATO
TEST DEL CHI-QUADRATO
Contingenze
ATTITUDINE
SESSO A B C Tot.
maschio 4.03 3.59 -7.62 119

femmina -4.03 3.59 7.62 100


_________________________________
57 67 95 219
TEST DEL CHI-QUADRATO

Come si può notare le contingenze non sono


nulle quindi esiste associazione tra Sesso e
Attitudine 

Per misurare tale associazione si può utilizzare


2
l’indice di associazione Chi-quadrato 
2 16.24 12.89 58.06 16.24 12.89 58.06
        4.39
30.97 36.41 51.62 26.03 30.59 43.38
TEST DEL CHI-QUADRATO
Come si può facilmente intuire dalla formula
precedente, l’indice Chi-quadrato dipende
dalla numerosità del collettivo quindi, a parità
di associazione, il suo valore aumenta
all’aumentare di N.
In genere si preferisce utilizzare degli indici
normalizzati che diano misure non dipendenti
dalle frequenze delle distribuzioni marginali o
dal totale della tabella.
V di Cramer

Cramer ha proposto di normalizzare l’indice Chi-


Quadrato rapportandolo al suo valore massimo.

2
V
N  minr  1, c  1

PROPRIETÀ DELL’INDICE V DI CRAMER:


0≤V ≤1
V=0 se i caratteri sono indipendenti
V=1 se vi è dipendenza o interdipendenza perfetta
V di Cramer

2
V 
N * min [( r  1)(c  1)]

2
Dove  Φ2 (phi) e minr  1, c  1
N
è il numero più piccolo tra Righe e Colonne

V varia tra 0 ed 1, ed è 0 in situazione di indipendenza.


Calcolo dell’indice V di Cramer
2 = 4.388
N=219
r = numero di righe = 2
c = numero di colonne = 3

2 4.388
V 
N  minr  1, c  1 219  min2  1, 3  1

4.388 Esiste una debole


V  0.142 associazione, dal
219  1
momento che l’indice V di
Cramer è alquanto
prossimo allo 0.
Q di Yule
Si utilizza nelle tavole 2x2 e considera il rapporto tra
somma e differenza dei prodotti delle celle sulle
diagonali.
a b a+b
ad - bc
c d c+d
Q =
ad + bc
a+c b+d N
Q varia tra -1 e 1; assume il valore 0 in situazione di
indipendenza. Il valore negativo indica una relazione
inversa, ossia le modalità delle due variabili sono
associate in modo inverso.
Q di Yule

Tale indice assume il valore zero nell’ipotesi


dell’indipendenza, il valore 1 quando bc=0 (in
tal caso si parla di massima associazione
diretta) ed il valore -1 quando ad=0 (in caso di
massima associazione inversa).
Q assume valore -1 o +1 quando una cella
delle quattro è vuota. In questo caso la
dipendenza non è perfetta, ma la Q raggiunge
il suo massimo.
Q di Yule
Consideriamo un campione di 800 individui ed
analizziamo l’eventuale dipendenza tra due
variabili:
- esposizione ai mass media (E)
- informazione politica (I).
Sia
E=1 per coloro che risultato esposti ai messaggi
dei mezzi di comunicazione di massa,
E=0 per i non esposti;
I=1 per coloro che mostrano di essere informati
sulle vicende politiche del proprio tempo,
I=0 per i non informati.
Q di Yule
I risultati delle osservazione hanno dato luogo
alla seguente tabella di contingenza:
E
1 0 Tot. (250*360) –(120*70)
I Q =
1 250 120 370 (250*360) +(120*70)
0 70 360 430
Tot. 320 480 800

Q =0.8292 Tale valore indica una relazione


forte tra i due caratteri
Phi
Si utilizza nelle tavole 2x2 e considera il
rapporto tra differenza dei prodotti delle celle
sulle diagonali e la radice del prodotto delle
marginali.

bc  ad

a  b c  d a  c b  d 
Phi varia tra -1 e 1, ed è 0 in situazione di indipendenza. Il
valore negativo indica una relazione inversa, ossia le
modalità delle due variabili sono associate in modo inverso.
 Esempio: fra tanti esperimenti riguardanti la
composizione del terreno, in alcune prove di
germinazione dei semi di Primula si è
proceduto nel seguente modo: i semi sono stati
divisi in due gruppi e posti a germinare in
appositi vasi contenenti carta da filtro
inzuppata rispettivamente in acqua piovana ed
in acqua fatta passare attraverso una terra
grassa.
Caratteristica Semi Semi non
Totale
dell’acqua germinati germinati
Acqua di terra 37 13
50
grassa (34.5) (15.5)
Acqua 32 18
50
piovana (34.5) (15.5)
Totale 69 31 100

Q
37 * 18  13 * 32 250
  0.231 37 *18  13 * 32 
V  0.108
37 *18  13 * 32 1082 50 * 50 * 31 * 69
In base a questi risultati sembra che la tabella presenti
una leggera associazione positiva. La tabella di
indipendenza (valori in parentesi) è diversa da quella
rilevata infatti il valore 34.5 (ottenuto da [69*50]/100)
è più piccolo della frequenza osservata per cui si ha
una certa evidenza di associazione positiva tra semi
germinati e acqua di terra grassa. La proporzione di
semi germinati è infatti più elevata per l’acqua grassa
37/50=74% rispetto all’acqua piovana 32/50=64%.

Potrebbero piacerti anche