Sei sulla pagina 1di 15
Corso Avanzato di Statistica Test chi-quadrato per la verifica dell’indipendenza
Corso Avanzato di Statistica
Test chi-quadrato per la verifica dell’indipendenza

Posa D., De Iaco S. posa@economia.unile.it s.deiaco@economia.unile.it

Iaco S. posa@economia.unile.it s.deiaco@economia.unile.it U NIVERSITÀ del S ALENTO D IP . TO DI S CIENZE

UNIVERSITÀ del SALENTO DIP.TO DI SCIENZE ECONOMICHE E MATEMATICO-STATISTICHE FACOLTÀ DI ECONOMIA

a.a. 2007/2008

Corso Avanzato di Statistica

2

Test chi-quadrato per la verifica dell’indipendenza

Assegnata la variabile aleatoria doppia (X, Y ), si consideri la seguente di- stribuzione di probabilità congiunta:

❍ ❍

X

Y

   

y 1

·

·

·

y k

·

·

·

y c

 

x

1

π

11

·

·

·

π 1 k

·

·

·

π 1 c

π

10

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

x

j

π

j 1

·

·

·

π

jk

·

·

·

π

jc

π

j 0

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

x

r

π

r 1

·

·

·

π

rk

·

·

·

π

rc

π

r 0

 

π 01

·

·

·

π

0 k

·

·

·

π 0 c

 

1

dove: x 1 , x 2 ,
dove:
x 1 , x 2 ,

, x j ,

, x r ed y 1 , y 2 ,

, y k ,

zazioni di X ed Y , rispettivamente;

, y c , sono le possibili realiz-

Corso Avanzato di Statistica

3

π j k è la probabilità congiunta che la v.a. X assuma valore x j e jk è la probabilità congiunta che la v.a. X assuma valore x j e la v.a. Y assuma valore y k , ovvero

π jk = P (X = x j , Y = y k ),

j = 1,

, r, k = 1,

, c;

π j 0 è la probabilità marginale che la v.a. X assuma valore x j (per j 0 è la probabilità marginale che la v.a. X assuma valore x j (per qualunque valore di Y ), ovvero

π j 0 = P (X = x j ) =

c

k =1

π jk ,

j = 1,

, r ;

π 0 k è la probabilità marginale che la v.a. Y assuma valore y k (per 0 k è la probabilità marginale che la v.a. Y assuma valore y k (per qualunque valore di X ), ovvero

π 0 k = P (Y = y k ) =

r

j =1

π jk ,

k = 1,

, c.

Corso Avanzato di Statistica

4

Si intende sottoporre a verifica l’ipotesi che le v.a. X ed Y siano indipendenti, ovvero che:

P (X = x j , Y = y k ) = P (X = x j ) · P (Y = y k ),

oppure, in maniera equivalente, che:

con

j = 1,

, r

e

π jk = π j 0 · π 0 k

k = 1,

, c.

Pertanto, il problema di verifica può essere formalizzato come segue:

H 0 : j, k

H 1 : j, k

π jk = π j 0 · π 0 k ,

t.c. π jk = π j 0 · π 0 k .

Corso Avanzato di Statistica

5

Estratto un campione casuale dalla v.a. doppia (X, Y ),si consideri la seguente tabella di contingenza (r × c):

❍ ❍

X

Y

   

y 1

·

·

·

y k

·

·

·

y c

 

x

1

n

11

·

·

·

n 1 k

·

·

·

n 1 c

n

10

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

x

j

n

j 1

·

·

·

n

jk

·

·

·

n

jc

n

j 0

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

x

r

n

r 1

·

·

·

n

rk

·

·

·

n

rc

n

r 0

 

n 01

·

·

·

n 0 k

·

·

·

n 0 c

n

dove: x 1 , x 2 ,
dove:
x 1 , x 2 ,

, x j ,

, x r ed y 1 , y 2 ,

, y k ,

zazioni di X ed Y , rispettivamente;

, y c , sono le possibili realiz-

Corso Avanzato di Statistica

6

n j k è la frequenza con cui si è presentata nel campione la coppia ( jk è la frequenza con cui si è presentata nel campione la coppia (x j , y k );

n j 0 è la frequenza marginale con cui si è presentata nel campione la realizzazione j 0 è la frequenza marginale con cui si è presentata nel campione la realizzazione x j , per qualunque valore di Y , ovvero

n j 0 =

c

k =1

n jk ,

j = 1,

, r ;

n 0 k è la frequenza marginale con cui si è presentata nel campione la realizzazione 0 k è la frequenza marginale con cui si è presentata nel campione la realizzazione y k , per qualunque valore di X , ovvero

n 0 k =

r

j =1

n jk ,

k = 1,

, c.

Corso Avanzato di Statistica

7

Sulla base delle osservazioni campionarie si intende stabilire se le due v.a. X ed Y sono indipendenti. Gli stimatori π jk , π j 0 , π 0 k di massima verosimiglianza per le probabilità π jk , π j 0 e π 0 k , coincidono con le corrispondenti frequenze relative campionarie, come riportato di seguito:

π jk = n jk ;

n

π j 0 = n j 0 ;

n

π

0 k =

n

0 k

n

.

Inoltre, nel caso sia vera l’ipotesi dell’indipendenza tra X ed Y è intuitivo attendersi che valga, almeno in via approssimativa, la seguente relazione:

0

π jk = π j 0 · π

0 k ,

oppure, moltiplicando ambo i membri per n, la seguente relazione:

n

jk = n j 0 · n 0 k

0

n

,

j = 1,

, r ; k = 1,

, c.

Il simbolo “0” posto ad apice vuol dire che si sta assumendo vera l’ipotesi nulla.

Corso Avanzato di Statistica

8

Per cui, il test dell’indipendenza tra X ed Y può essere condotto sulle quan- tità:

n jk n jk 2 ,

0

j = 1,

, r, k = 1,

, c

cioè, sulle “distanze” al quadrato tra le frequenze assolute campionarie e le corrispondenti frequenze assolute attese nel caso di indipendenza.

0

Se gli scarti tra n jk ed n jk non sono eccessivamente elevati, si concluderà accettando l’ipotesi H 0 di indipendenza tra X ed Y ; mentre se sono molto elevati, si dovrà rigettare l’ipotesi H 0 .

Corso Avanzato di Statistica

9

In particolare, la statistica-test risulta essere la seguente:

con

Y 0 =

n jk n

r

c

j =1 k =1

n

0

jk

0

jk 2

n jk 0 = n j 0 · n 0 k

n

.

,

Essa, se H 0 è vera, converge in distribuzione ad una v.a. χ 2 con (r 1)(c 1) gradi di libertà

Y

0

d

| H 0

χ

2

(r 1)(c1) .

Corso Avanzato di Statistica

10

Fissato α , livello di significatività del test, la regola di decisione risulta essere la seguente:

A : Y 0 < y ( g ; α) ,

R : Y 0 y ( g ; α) ,

dove y ( g ; α) è il centile superiore della distribuzione χ 2 con g = (r 1)(c 1) gradi di libertà.

Corso Avanzato di Statistica

11

Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica

Ad una società di ricerche di mercato è stato commissionato uno studio per verificare l’esistenza di una relazione fra zona di residenza (X ) e casa auto- mobilistica preferita (Y ). In seguito ad un’indagine campionaria eseguita su 500 unità, sono state rilevate per ciascuna di esse:

le zone di residenza classificate in:

“centro urbano” (x 1 ); “periferia” (x 2 ); “area rurale” (x 3 );

( x 2 ) ; “area rurale” ( x 3 ); le case automobilistiche preferite distinte

le case automobilistiche preferite distinte in:

“General Motors” (y 1 ); “Ford” (y 2 ); “Chrysler” (y 3 );

“marchio

europeo” (y 4 );

“marchio

asiatico” (y 5 ).

) ; “Chrysler” ( y 3 ) ; “marchio europeo” ( y 4 ) ; “marchio
) ; “Chrysler” ( y 3 ) ; “marchio europeo” ( y 4 ) ; “marchio

Corso Avanzato di Statistica

12

Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica I risultati di
Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica
I risultati di tale indagine sono rappresentati nella seguente tabella di
contingenza:
Y
y 1
y 2
y 3
y 4
y 5
X
❍ ❍ ❍ ❍ ❍
x 1
64
40
26
8
62
200
x 2
53
35
24
6
32
150
x 3
53
45
30
6
16
150
170
120
80
20
110
500
Si verifichi, ad un livello di significatività dell’ 1%, che esiste indipendenza
fra la zona di residenza dei soggetti e le loro preferenze automobilistiche.

Corso Avanzato di Statistica

13

Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica SOLUZIONE Il problema
Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica
SOLUZIONE
Il problema di verifica può essere formalizzato come segue:
H 0 : ∀j, k
π jk = π j 0 · π 0 k ,
H 1 : ∃ j, k t.c. π jk = π j 0 · π 0 k .
Pertanto, la regola di decisione si basa sulla seguente statistica-test Y 0 :
0
n jk − n
r
c
jk 2
Y 0 =
,
0
n
jk
j =1 k =1
jk = n j 0 · n 0 k
0
con n
,
r = 3
e
c = 5.
n

Corso Avanzato di Statistica

14

SOLUZIONE

essendo:

0

Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica

y 0 = (64 68) 2 + · · · + (16 33) 2

68

33

22, 780

· · · + (16 − 33) 2 68 33 ≃ 22 , 780 ❍ ❍

❍ ❍

X

Y

y 1

y 2

y 3

y 4

y 5

 
 

x

1

68

48

32

8

44

200

x

2

51

36

24

6

33

150

x

3

51

36

24

6

33

150

 

170

120

80

20

110

500

Sulla base dei dati del problema, risulta:

n jk le frequenze assolute campionarie, riportate all’interno della precedente tabella di contingenza;

n jk le frequenze assolute attese nel caso di indipendenza, riportate all’interno della seguente tabella:

n j k le frequenze assolute attese nel caso di indipendenza, riportate all’interno della seguente tabella:
n j k le frequenze assolute attese nel caso di indipendenza, riportate all’interno della seguente tabella:

Corso Avanzato di Statistica

15

Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica

Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica
 

SOLUZIONE

 

Inoltre, dal momento che:

Y 0 , se H 0 è vera, converge in distribuzione ad una v.a. χ 2 0 , se H 0 è vera, converge in distribuzione ad una v.a. χ 2 con (3 1)(5 1) gradi di libertà,

α = 0,01 è il livello di significatività del test , = 0,01 è il livello di significatività del test,

la regola di decisione si basa sul confronto tra:

il valore y 0 = 22,78 della statistica- test , y 0 = 22,78 della statistica-test,

ed il centile superiore y ( g ; α ) = y ( 8 , 0 , 0 1 y ( g ; α) = y (8 , 0 ,01) = 2 0, 09 della distribuzione χ 2 .

Pertanto, si rifiuta H 0 , essendo

 

22,78 > 20,09 .

2 0 , 09 della distribuzione χ 2 . Pertanto, si rifiuta H 0 , essendo
2 0 , 09 della distribuzione χ 2 . Pertanto, si rifiuta H 0 , essendo