STATISTICA
Test di indipendenza
per tabelle di contingenza
Associazione
Si definisce ASSOCIAZIONE il grado di legame
esistente tra due caratteri qualitativi (mutabili).
La costruzione di un indice che misuri il grado di
associazione tra due caratteri statistici si basa sul
concetto di contingenza.
Si definisce contingenza la differenza tra la
frequenza osservata e la frequenza teorica di una
generica cella ij.
Nel caso di indipendenza le contingenze sono tutte
nulle mentre queste cresceranno, in valore assoluto,
al crescere del grado di dipendenza tra i caratteri.
Associazione
Si consideri una popolazione le cui N unità siano
classificate secondo le r modalità di un carattere
X (esempio sesso) e le c modalità di un carattere
Y (classi di età)
Y1 Y2 … Yj … Yc
X1 n1.
X2 n2.
… Freq. marginale
Xi nij ni. di riga
…
Xr nr.
n.1 n.2 n.j n.c N
2 o t
caratteri.
i 1
ft
j 1
Caratteristica A
Presente Assente
campione1 r1 n1-r1 n1
campione2 r2 n2-r2 n2
___________________________________
r1+r2 (n1-r1)+(n2-r2) n1+n2
TEST TEST
DELDEL
CHI-QUADRATO
CHI-QUADRATO
Il totale delle osservazioni è a destra in
basso.
Le quatto celle interne rappresentano le
frequenze osservate.
L’ipotesi nulla afferma che la frequenza
relativa della caratteristica A è uguale nelle
due popolazioni (P1=P2).
TEST DEL CHI-QUADRATO
TEST DEL CHI-QUADRATO
Esempio: Un collettivo di 219 studenti è stato
sottoposto ad un test attitudinale. Le attitudini
osservate sono tre:
A: spiccata attitudine alle discipline artistiche
B: spiccata attitudine alle materie umanistiche
C: spiccata attitudine alle materie scientifiche.
In tabella si riporta la distribuzione doppia degli
studenti secondo il sesso e l’attitudine.
TEST DEL CHI-QUADRATO
TEST DEL CHI-QUADRATO
ATTITUDINE
SESSO A B C Tot.
maschio 35 40 44 119
femmina 22 27 51 100
_________________________________
57 67 95 219
Le frequenze attese
Per calcolare le frequenze attese bisogna
moltiplicare i due totali marginali (di riga e di
colonna) di ogni cella e dividere per il numero
totale dei dati.
Frequenze Attese
ATTITUDINE
SESSO A B C Tot.
maschio 30.97 36.41 51.62 119
2
V
N minr 1, c 1
2
V
N * min [( r 1)(c 1)]
2
Dove Φ2 (phi) e minr 1, c 1
N
è il numero più piccolo tra Righe e Colonne
2 4.388
V
N minr 1, c 1 219 min2 1, 3 1
bc ad
a b c d a c b d
Phi varia tra -1 e 1, ed è 0 in situazione di indipendenza. Il
valore negativo indica una relazione inversa, ossia le
modalità delle due variabili sono associate in modo inverso.
Esempio: fra tanti esperimenti riguardanti la
composizione del terreno, in alcune prove di
germinazione dei semi di Primula si è
proceduto nel seguente modo: i semi sono stati
divisi in due gruppi e posti a germinare in
appositi vasi contenenti carta da filtro
inzuppata rispettivamente in acqua piovana ed
in acqua fatta passare attraverso una terra
grassa.
Caratteristica Semi Semi non
Totale
dell’acqua germinati germinati
Acqua di terra 37 13
50
grassa (34.5) (15.5)
Acqua 32 18
50
piovana (34.5) (15.5)
Totale 69 31 100
Q
37 * 18 13 * 32 250
0.231 37 *18 13 * 32
V 0.108
37 *18 13 * 32 1082 50 * 50 * 31 * 69
In base a questi risultati sembra che la tabella presenti
una leggera associazione positiva. La tabella di
indipendenza (valori in parentesi) è diversa da quella
rilevata infatti il valore 34.5 (ottenuto da [69*50]/100)
è più piccolo della frequenza osservata per cui si ha
una certa evidenza di associazione positiva tra semi
germinati e acqua di terra grassa. La proporzione di
semi germinati è infatti più elevata per l’acqua grassa
37/50=74% rispetto all’acqua piovana 32/50=64%.