Sei sulla pagina 1di 15

Corso Avanzato di Statistica

Test chi-quadrato per la verifica dellindipendenza

Posa D., De Iaco S.


posa@economia.unile.it
s.deiaco@economia.unile.it

U NIVERSIT del S ALENTO


D IP. TO DI S CIENZE E CONOMICHE E M ATEMATICO -S TATISTICHE
FACOLT DI E CONOMIA

a.a. 2007/2008
Corso Avanzato di Statistica 2

Test chi-quadrato per la verifica dellindipendenza

Assegnata la variabile aleatoria doppia (X, Y ), si consideri la seguente di-


stribuzione di probabilit congiunta:
H
HH Y y yk yc
X HH 1
x1 11 1k 1c 10
.. .. .. .. .. .. ..
. . . . . . .
xj j1 jk jc j0
.. .. .. .. .. .. ..
. . . . . . .
xr r1 rk rc r0
01 0k 0c 1
dove:
x1 , x2 , . . . , xj , . . . , xr ed y1 , y2 , . . . , yk , . . . , yc , sono le possibili realiz-
zazioni di X ed Y , rispettivamente;
Corso Avanzato di Statistica 3

jk la probabilit congiunta che la v.a. X assuma valore xj e la v.a. Y


assuma valore yk , ovvero

jk = P (X = xj , Y = yk ), j = 1, . . . , r, k = 1, . . . , c;

j0 la probabilit marginale che la v.a. X assuma valore xj (per


qualunque valore di Y ), ovvero
c
X
j0 = P (X = xj ) = jk , j = 1, . . . , r;
k=1

0k la probabilit marginale che la v.a. Y assuma valore yk (per


qualunque valore di X), ovvero
r
X
0k = P (Y = yk ) = jk , k = 1, . . . , c.
j=1
Corso Avanzato di Statistica 4

Si intende sottoporre a verifica lipotesi che le v.a. X ed Y siano indipendenti,


ovvero che:

P (X = xj , Y = yk ) = P (X = xj ) P (Y = yk ),

oppure, in maniera equivalente, che:

jk = j0 0k

con j = 1, . . . , r e k = 1, . . . , c.

Pertanto, il problema di verifica pu essere formalizzato come segue:

H0 : j, k jk = j0 0k ,

H1 : j, k t.c. jk 6= j0 0k .
Corso Avanzato di Statistica 5

Estratto un campione casuale dalla v.a. doppia (X, Y ),si consideri la seguente
tabella di contingenza (r c):

H
HH Y y yk yc
X HH 1
x1 n11 n1k n1c n10
.. .. .. .. .. .. ..
. . . . . . .
xj nj1 njk njc nj0
.. .. .. .. .. .. ..
. . . . . . .
xr nr1 nrk nrc nr0
n01 n0k n0c n
dove:
x1 , x2 , . . . , xj , . . . , xr ed y1 , y2 , . . . , yk , . . . , yc , sono le possibili realiz-
zazioni di X ed Y , rispettivamente;
Corso Avanzato di Statistica 6

njk la frequenza con cui si presentata nel campione la coppia (xj , yk );


nj0 la frequenza marginale con cui si presentata nel campione la
realizzazione xj , per qualunque valore di Y , ovvero
c
X
nj0 = njk , j = 1, . . . , r;
k=1

n0k la frequenza marginale con cui si presentata nel campione la


realizzazione yk , per qualunque valore di X, ovvero
r
X
n0k = njk , k = 1, . . . , c.
j=1
Corso Avanzato di Statistica 7

Sulla base delle osservazioni campionarie si intende stabilire se le due v.a. X


ed Y sono indipendenti.
Gli stimatori
bjk ,
bj0 ,
b0k di massima verosimiglianza per le probabilit jk ,
j0 e 0k , coincidono con le corrispondenti frequenze relative campionarie,
come riportato di seguito:
njk nj0 n0k

bjk = ;
bj0 = ;
b0k = .
n n n
Inoltre, nel caso sia vera lipotesi dellindipendenza tra X ed Y intuitivo
attendersi che valga, almeno in via approssimativa, la seguente relazione:
0

bjk =
bj0
b0k ,

oppure, moltiplicando ambo i membri per n, la seguente relazione:


nj0 n0k
n0jk = , j = 1, . . . , r; k = 1, . . . , c.
n
Il simbolo 0 posto ad apice vuol dire che si sta assumendo vera lipotesi nulla.
Corso Avanzato di Statistica 8

Per cui, il test dellindipendenza tra X ed Y pu essere condotto sulle quan-


tit: 2
njk n0jk , j = 1, . . . , r, k = 1, . . . , c
cio, sulle distanze al quadrato tra le frequenze assolute campionarie e le
corrispondenti frequenze assolute attese nel caso di indipendenza.

Se gli scarti tra njk ed n0jk non sono eccessivamente elevati, si concluder
accettando lipotesi H0 di indipendenza tra X ed Y ; mentre se sono molto
elevati, si dovr rigettare lipotesi H0 .
Corso Avanzato di Statistica 9

In particolare, la statistica-test risulta essere la seguente:


 2
r X
X c njk n0jk
Y0 = ,
j=1 k=1
n0jk

con
nj0 n0k
n0jk = .
n
Essa, se H0 vera, converge in distribuzione ad una v.a. 2 con
(r 1)(c 1) gradi di libert

Y0 d
2(r1)(c1) .
|H0
Corso Avanzato di Statistica 10

Fissato , livello di significativit del test, la regola di decisione risulta essere


la seguente:

A : Y0 < y(g;) , R : Y0 y(g;) ,

dove y(g;) il centile superiore della distribuzione 2 con


g = (r 1)(c 1) gradi di libert.
Corso Avanzato di Statistica 11

Esempio: verifica dellesistenza di relazione fra zona di residenza e casa automobilistica


Ad una societ di ricerche di mercato stato commissionato uno studio per
verificare lesistenza di una relazione fra zona di residenza (X) e casa auto-
mobilistica preferita (Y ).
In seguito ad unindagine campionaria eseguita su 500 unit, sono state
rilevate per ciascuna di esse:
le zone di residenza classificate in:
centro urbano (x1 );
periferia (x2 );
area rurale (x3 );
le case automobilistiche preferite distinte in:
General Motors (y1 );
Ford (y2 );
Chrysler (y3 );
marchio europeo (y4 );
marchio asiatico (y5 ).
Corso Avanzato di Statistica 12

Esempio: verifica dellesistenza di relazione fra zona di residenza e casa automobilistica


I risultati di tale indagine sono rappresentati nella seguente tabella di
contingenza:
HH Y
HH y1 y2 y3 y4 y5
X H
x1 64 40 26 8 62 200
x2 53 35 24 6 32 150
x3 53 45 30 6 16 150
170 120 80 20 110 500

Si verifichi, ad un livello di significativit dell1%, che esiste indipendenza


fra la zona di residenza dei soggetti e le loro preferenze automobilistiche.
Corso Avanzato di Statistica 13

Esempio: verifica dellesistenza di relazione fra zona di residenza e casa automobilistica

S OLUZIONE

Il problema di verifica pu essere formalizzato come segue:

H0 : j, k jk = j0 0k ,
H1 : j, k t.c. jk 6= j0 0k .

Pertanto, la regola di decisione si basa sulla seguente statistica-test Y0 :


 2
r X
X c njk n0jk
Y0 = ,
j=1 k=1
n0jk

nj0 n0k
con n0jk = , r=3 e c = 5.
n
Corso Avanzato di Statistica 14

Esempio: verifica dellesistenza di relazione fra zona di residenza e casa automobilistica

S OLUZIONE

Sulla base dei dati del problema, risulta:


(64 68)2 (16 33)2
y0 = + + 22, 780
68 33
essendo:
njk le frequenze assolute campionarie, riportate allinterno della
precedente tabella di contingenza;
n0jk le frequenze assolute attese nel caso di indipendenza, riportate
allinterno della seguente tabella:
H
HH Y y y2 y3 y4 y5
X HH 1
x1 68 48 32 8 44 200
x2 51 36 24 6 33 150
x3 51 36 24 6 33 150
170 120 80 20 110 500
Corso Avanzato di Statistica 15

Esempio: verifica dellesistenza di relazione fra zona di residenza e casa automobilistica

S OLUZIONE

Inoltre, dal momento che:

Y0 , se H0 vera, converge in distribuzione ad una v.a. 2 con (3 1)(5 1)


gradi di libert,
= 0,01 il livello di significativit del test,

la regola di decisione si basa sul confronto tra:


il valore y0 = 22,78 della statistica-test,
ed il centile superiore y(g;) = y(8, 0,01) = 20, 09 della distribuzione 2 .
Pertanto, si rifiuta H0 , essendo

22,78 > 20,09.

Potrebbero piacerti anche