Sei sulla pagina 1di 18

TEST DELLE IPOTESI STATISTICHE

TEORIA DELLE PROVE DI IPOTESI


Le assunzioni fatte sulla distribuzione di probabilit di una v.a. associata ad un fenomeno
reale sono dette ipotesi e riguardano parametri incogniti.
La verifica statistica delle ipotesi appura se tali ipotesi possono ritenersi compatibili con
le osservazioni campionarie.
Nella prova di ipotesi distinguiamo:
- ipotesi nulla H0, che contempla la situazione prima dellosservazione campionaria,
- ipotesi alternativa H1, che contempla una situazione differentemente specificata.
Linsieme dei valori che il parametro pu assumere si pu vedere suddiviso in due
zone 1 e 2 t.c. :
- se lipotesi H0 auspica che il valore assunto da sia compreso in 1,
- lipotesi alternativa auspica un valore di compreso in 2 .
Le ipotesi statistiche si dicono
- semplici se specificano in modo univoco la distribuzione della popolazione in oggetto,
- composte se specificano diversi valori del parametro.
Ad esempio, nella tabella sono indicati per alcuni valori di specificati dallipotesi H0, i
corrispondenti valori per H1:
H0:
H1:

=0
=1

=0
0

0
<0

0
>0 .

La verifica di unipotesi significa la sua accettazione o il rifiuto, ad un prestabilito livello di


probabilit. A questo scopo si utilizza un test: una funzione delle osservazioni che ha
distribuzione nota con la condizione che lipotesi enunciata sia vera.
Il test una procedura inferenziale atta a valutare la conformit probabilistica fra un
campione e la popolazione.
E possibile tramite il test valutare lattendibilit delle osservazione campionarie, allo scopo
di stabilire se le differenze rispetto alla popolazione sono casuali, dovute ad errore
campionario, o significative.
I test pi utilizzati presentano distribuzioni: v.a. normale standardizzata, v.a. t di Student,
v.a. F di Fisher, v.a. 2.
PROCEDURA DI TEST
1. si formula lipotesi nulla H0 ed unipotesi alternativa H1 sulla popolazione
2. attraverso i risultati campionari ed unopportuna valutazione statistica si decide se
accettare o rigettare lipotesi H0.
Distinguiamo:

test parametrici: quando nota la funzione di ripartizione della v.a. che


rappresenta la popolazione e si testano ipotesi sui suoi parametri
test non parametrici (distribution free): non sono vincolati al tipo di distribuzione
della popolazione, e sono applicabili laddove non sia possibile ricorrrere ai test
parametrici.

Lo spazio campionario risulta di fatto diviso in due regioni mutuamente esclusive:


- una regione di accettazione, ossia linsieme di valori campionari che implicano
laccettazione dellipotesi nulla, ossia tale che, se il test per quei specifici valori
campionari ricade in questa regione, si accetta lipotesi nulla.
- una regione critica (o di rifiuto) che indica linsieme dei valori campionari che
implicano il rifiuto dellipotesi nulla: se il test ricade in questa regione, lipotesi nulla
viene rigettata.
La regola di decisione consiste nello stabilire se la differenza fra il valore stimato del
parametro, specificato dallipotesi nulla, e quello ottenuto dallosservazione campionaria
sia o meno significativa. Si stabilisce cio un livello di significativit , che rappresenta
lampiezza della regione critica, si fissano i valori critici del test in base alle tavole, e si
rifiuta lipotesi nulla se il valore sperimentale del test ricade nella regione critica.
La regola presuppone che il risultato campionario possa portare a due tipi di errori:
- errore del primo tipo, si commette con probabilit quando, cadendo il valore del
test nella regione di rifiuto dellipotesi nulla, questa rifiutata pur essendo vera.
Infatti il livello di confidenza, ossia la fiducia nel fatto di non commettere alcun
errore nellaccettare lipotesi nulla (se i risultati campionari la avvalorano)
rappresentato dal valore (1 - ).
- errore di secondo tipo, si commette con probabilit quando, cadendo il valore
del test nella regione di accettazione, lipotesi nulla accettata pur essendo falsa.
Diciamo potenza del test il valore (1 - ) e indica la probabilit di accettare lipotesi
nulla quando falsa.
e non sono fra loro complementari.
A rigore, lunica decisione corretta il rifiuto di H 0, quindi meglio dire non rifiutare
H0 che accettare H1.
Opportunamente lo statistico stabilisce un livello di significativit tale per cui le
regioni di rifiuto sono i valori di coda del test. Se si tratta della coda di sinistra, sar una
regione di rifiuto costituita dai valori inferiori ad un valore critico molto basso. Se si
tratta della coda di destra, sar una regione di rifiuto costituita da valori superiori ad un
valore critico elevato.
La regione alternativa pu essere costituita da ambo le code, ciascuna corrispondente
ad una probabilit /2, e quindi dagli insiemi di valori inferiori ad un valore critico molto
basso o di valori superiori ad un valore critico molto alto.
Riassumendo:
Livello di significativit del test quindi la probabilit di rifiutare lipotesi nulla
quando questa vera (errore del I tipo), ossia di compiere un errore affermando che il
valore del parametro da stimare compreso nellintervallo stabilito. Infatti (1-) il

livello di confidenza (fiducia), la probabilit che il parametro da stimare sia compreso


nellintervallo stabilito.
TEST SULLA MEDIA DI UNA POPOLAZIONE CON VARIANZA NOTA. TEST
NORMALE
Vogliamo verificare lipotesi sulla media di una popolazione normale X ~ N ( , 2 ) con
varianza nota 2 . Se disponiamo di un campione di numerosit n, avremo:
H 0 : 0

e la statistica da usare come test


Z

X 0

che, se lipotesi nulla vera, al variare del campione si distribuisce come una v.a. normale
standardizzata. La regione critica dipende dal tipo di ipotesi alternativa.
Se decidiamo per unipotesi alternativa del tipo
H1 : 0

la regione critica riguarda la coda di sinistra della normale, il valore critico cio z e si
ha
RC : X 0 z

Se decidiamo per unipotesi alternativa del tipo


H1 : 0

la regione critica riguarda la coda di destra della normale, il valore critico cio z e si ha
RC : X 0 z

Se decidiamo per unipotesi alternativa del tipo


H1 : 0

la regione critica riguarda entrambe le code della normale, i valori critici sono cio z / 2 e
z / 2 e si ha


X 0 z / 2 n

RC :

X 0 z / 2

TEST SULLA MEDIA DI UNA POPOLAZIONE CON VARIANZA NON NOTA. TEST t
DI STUDENT
La varianza di una popolazione si pu presupporre nota se si certi della sua
distribuzione normale. In tal caso infatti la varianza della v.a. normale standardizzata
uguale ad 1.
Se la varianza della popolazione non nota e la numerosit del campione scarsa,
nulla si pu dire circa la normalit della sua distribuzione.
Supponiamo di disporre di un campione di dimensione n<30 che fornisca solo una
stima (corretta) della varianza della popolazione.
Vogliamo testare lipotesi
H 0 : 0 .

La statistica che usiamo per il test


T

X 0
S
n

che se lipotesi nulla vera si distribuisce al variare del campione come una v.a. t di
Student con n-1 gradi di libert.
Con unipotesi alternativa
H1 : 0

la regione critica
RC : X 0 t ;n1

Con unipotesi alternativa del tipo


H1 : 0

la regione critica

S
n

RC : X 0 t ;n 1

S
n

Con unipotesi alternativa del tipo


H1 : 0

la regione critica

S
X 0 t ;n1 n

RC :

X 0 t ;n1

S
n

TEST SULLA VARIANZA DI UNA POPOLAZIONE. TEST CHI QUADRATO


Una popolazione presenta distribuzione normale con varianze incognite. Da essa
estraiamo un campione casuale di dimensione n che d la stima della varianza.
In questo caso per verificare lipotesi nulla
H 0 : 2 02

Contro le ipotesi alternative


2
2
1. H1 : 0
2
2
2. H 1 : 0
2
2
3. H1 : 0

il test utilizza la statistica


2

( n 1) S 2
02

che al variare del campione, se lipotesi nulla vera, si distribuisce come una v.a. chi
quadrato con n-1 gradi di libert.
Fissando una soglia di significativit , la regione critica sar:
2
2
- Per lipotesi alternativa H1 : 0

RC : S 2

02 2
1 ;n1
n 1

2
2
- Per lipotesi alternativa H 1 : 0

RC : S 2

02 2
;n1
n 1

2
2
- Per lipotesi alternativa H1 : 0

02 2
1 / 2;n1
n 1

2
S

RC :

02 2
/ 2;n1
S
n 1

TEST SULLA DIFFERENZA FRA MEDIE DI DUE POPOLAZIONI DI VARIANZA NOTA.


TEST NORMALE
E spesso importante poter valutare se i valori medi di due popolazioni sono uguali fra loro.
Supponiamo che le due popolazioni abbiano distribuzioni normali, siano 1 e 2 le
medie incognite e 1 e 2 le varianze note, diverse o uguali.
I due campioni di cui si dispone abbiano numerosit n1 e n2 ,e da questi traiamo le stime
X 12 e X 22 delle medie delle popolazioni.

Vogliamo verificare al livello di significativit

H 0 : 1 2 0

Contro le ipotesi alternative


1. H 1 : 1 2 0
2. H1 : 1 2 0
3. H 1 : 1 2 0
La v.a. X 12 X 22 si distribuisce normalmente al variare del campione, con
media

1 2 0

e varianza

S X2 1 X 2

12 22

.
n1
n2

La statistica da utilizzare per il test


Z

X1 X 2
1 2

n1 n2

che se lipotesi nulla vera si distribuisce come una v.a. normale standardizzata.

Ci si regola quindi come per il caso del test sulla media.


Nel caso le popolazioni non fossero normali, sufficiente disporre di campioni di
numerosit ampia per applicare lo stesso test grazie al teorema del limite centrale.
TEST SULLA DIFFERENZA FRA MEDIE DI DUE POPOLAZIONI CON VARIANZA NON
NOTA. TEST t DI STUDENT
Se vogliamo verificare lipotesi che le medie di due popolazioni normali siano uguali, ma le
varianze 1 e 2 non sono note, possiamo considerarle uguali e utilizzare la loro stima
S2 come media delle due varianze campionarie S12 e S 22 . La media viene ponderata con 1
gradi di libert n1 1 n2 1 n1 n2 2 :
S2

(n1 1) S12 (n2 1) S 22


n1 n2 2

con le stesse regole di decisione viste nei casi precedenti.


Il test segue la statistica

X1 X 2
1
1
S

n1 n2

che se lipotesi nulla vera si distribuisce come una v.a. t di Student con n1 n2 2 gradi di
libert.
TEST SULLA DIFFERENZA FRA MEDIE PER CAMPIONI APPAIATI. TEST t DI
STUDENT
Spesso a livello sperimentale si vuole verificare una variazione di valor medio prima e
dopo un dato trattamento, in cui si sono istituiti campioni appaiati X ed Y corrispondenti ad
una medesima unit statistica, ossia non indipendenti ma rilevati prima e dopo il
trattamento.
Le ipotesi a confronto sono:
H 0 : 1 2 0

contro:

1. H 1 : 1 2 0
2. H 1 : 1 2 0
3. H 1 : 1 2 0
In questo caso il test fa riferimento alla statistica:
T

D
SD

Che al variare del campione, se lipotesi nulla vera, si distribuisce come una v.a. t di
Student in cui:
-

n la numerosit del campione (che di fatto unico)


n

i 1

la media campionaria delle differenze appaiate Di X i Yi

n
n

SD

(D D )
i 1

lo scarto quadratico medio campionario.

n 1

TEST SUL RAPPORTO FRA VARIANZE: TEST F DI FISHER


Vogliamo testare lipotesi nulla a proposito delle varianze incognite 12 e 22 di due
popolazioni normali.
Disponendo di due campioni indipendenti di dimensione n1 e n2 , con varianze stimate
s12 e s22 , vogliamo verificare, al livello di significativit , lipotesi nulla
H 0 : 12 22

omoschedasticit

contro le ipotesi alternative


H1 : 12 22
H1 : 12 22
H 1 : 12 22 .

La statistica da utilizzare per il test

S12
S 22

(*)

in cui supponiamo per convenzione S12 S 22


Se lipotesi nulla di uguaglianza fra varianze vera, questa statistica si distribuisce come
una v.a. di F di Fisher con n1 1 e n2 1 gradi di libert.
Questo perch le due variabili

(n1 1) S1
(n 1) S
e 2 2 2
2
1
2

si distribuiscono come due v.a. chi quadrato con n1 1 e n2 1

gradi di libert.
Se quindi rapportiamo le variabili ai loro rispettivi gradi di libert otteniamo

( n1 1) S12 /(n1 1) 12 S12 22


=
( n2 1) S 22 /(n2 1) 22 S 22 12

che la (*) se lipotesi nulla di omoschedasticit vera.


La regione critica dipende dallipotesi alternativa formulata:
Per H1 : 12 22
RC : F F1 ;n11;n 21

Per H1 : 12 22
RC : F F ;n11;n 21

Per H1 : 12 22
F F1 / 2;n11;n 21

RC :

F F / 2;n11;n 21

ANALISI DELLA VARIANZA (ANOVA). TEST F DI FISHER


Lanalisi della varianza (ANalysis OF VAriance) cerca di indagare quanta parte della
variabilit di un campione sia dovuta ad uno o pi specifici fattori. A questo scopo si
analizzano medie di pi gruppi di osservazioni attraverso il confronto fra devianze.
La ANOVA richiede la normalit della distribuzione osservata.
Consideriamo lanalisi della varianza ad un fattore.
Vogliamo verificare lefficacia del fattore sperimentale A. Somministriamo k trattamenti
A1, A2 ,... Ak a k unit statistiche n1 , n2 ,..., nk tali che n1 n2 ... nk n .
Sia Yij la v.a. risposta relativa alli-esimo trattamento somministrato alla j-esima unit.
I risultati dei trattamenti sono cos schematizzabili:
Trattamento A1

y11, y12 , ,...., y1n1

y 21, y 22 , ,...., y 2 n 2

Trattamento A2
..

y k 1, y k 2, ,...., y knk

Trattamento Ak

Sottoporremo a verifica lipotesi che i valori medi dei diversi trattamenti siano uguali fra
loro:
H 0 : 1 2 ... k

contro lipotesi:
H 1 : non vera H 0 .

Se lipotesi nulla vera, ognuno dei k trattamenti pu essere pensato come estratto da
ununica popolazione X~N(,2) : in modo che tutti gli elementi dei trattamenti possono
essere visti come elementi casuali di un unico campione trattamento estratto da ununica
popolazione normale.
Il test consiste nella scomposizione della variabilit globale in variabilit entro gruppi e
variabilit fra gruppi.
Partiamo dalla v.a. media campionaria del trattamento i-esimo
n

Yi

1 j
Yij
n j 1

dove n il numero totale di osservazioni e nj la numerosit del gruppo j-esimo.


Lo stimatore non distorto e consistente della media la v.a. media campionaria generale
n

1 k j
1 k
Y Yij Yi.
n i 1 j 1
n i 1

Ora introduciamo il calcolo delle devianze.


Per devianza totale, con i suoi gradi di libert, si intende la devianza che stimeremmo da
tutti gli n dati di tutti i gruppi messi assieme, come in un'unica lista.
Il punto di partenza dellanalisi la scomposizione della devianza totale:
Scomponiamo in questo modo la devianza totale
D (T )

nj

i 1

j 1

(Yij Y ) =
2

i 1

i 1

i 1

2
= ni (Yi Y )

nj

((Y
j 1
nj

j 1

ij

Yi ) (Yi Y )) 2

(Yij Yi ) 2

Distinguiamo:
devianza fra gruppi (B=between)
k

D( B ) ni (Yi Y ) 2
i 1

che si pu scrivere anche (utile per i conti)

D( B) ni (Yi ) 2 n(Y ) 2 ,
i 1

e devianza entro gruppi (W=within)


nj

D(W )

i 1

j 1

(Yij Yi ) 2
k

che si pu scrivere anche (utile per i conti)

D(W ) ( ni 1) si2 (dove si2 la varianza


i 1

campionaria non distorta),


in modo che sia come si visto
D (T ) D( B ) D (W ) .

Queste devianze si possono anche chiamare devianza spiegata (perch la devianza fra
medie) e devianza residua (o dellerrore, devianza non spiegata).
Si dimostra che due stimatori non distorti delle devianze D(B) e D(W) sono forniti da
S B2

D( B)
k 1

S w2

D(W )
.
nk

Infatti anche i gradi di libert totali si possono suddividere in


k

i 1

i 1

gdltot n 1 ni 1 (ni 1) (k 1)

Allora il test ANOVA fa uso della statistica

S B2
F 2
SW
che, se lipotesi nulla vera, si distribuisce come una v.a. F di Fisher con k-1 e n-k gradi di
libert.
Nella pratica si calcola il valore sperimentale delle devianze e si confronta il loro rapporto
con il valore critico F ;k 1;n k a livello di significativit desunto dalle tavole.

Se il valore calcolato maggiore del valore critico, la differenza dei trattamenti


significativa e si rifiuta lipotesi nulla.

TEST NON PARAMETRICI


I test parametrici sono basati soprattutto su distribuzione normale e t di Student. Ma
spesso non si in grado di dimostrare il tipo di distribuzione dei dati, o questi sono
distribuiti in modo diverso da quelli standard, come nel caso di numerosit ridotta.
In questo caso si utilizzano i test non parametrici, che non sono basati su distribuzioni.
TEST SU FREQUENZE
Supponiamo di disporre di un campione di numerosit n. Sia F la frequenza stimata e p la
probabilit di occorrenza di un certo carattere. vogliamo verificare al livello di significativit

H 0 : p p0

contro le ipotesi alternative


H 1 : p p0

H 1 : p p0
H 1 : p p0 .

TEST BINOMIALE
Si usa se la numerosit n dei campioni non alta.
Con la distribuzione cumulativa della v.a. binomiale si calcola la probabilit che un dato
evento si presenti in n prove con frequenza relativa inferiore o uguale ad f, ossia un
numero di volte inferiore o uguale a k=nf:
n x
p0 (1 p0 ) n. x
k
x 0

P ( X k )

Si rifiuta lipotesi nulla se questa probabilit inferiore al livello prefissato

TEST NORMALE
Per il teorema limite centrale, quando la numerosit del campione n elevata, la v.a.
frequenza relativa F pu essere approssimata ad una distribuzione normale di media p e
p (1 p )
varianza
.
n
La statistica da utilizzare sar

F p0
p0 (1 p0 )
n

che, se lipotesi nulla vera, al variare del campione si distribuisce come una v.a. normale
standardizzata.
Le regole di decisione sono le stesse utilizzate nella verifica di ipotesi sulle medie.
TEST SULLA DIFFERENZA FRA TENDENZE CENTRALI
La tendenza centrale, nei test non parametrici, rappresentata non dalla media ma dalla
mediana.
Vogliamo confrontare le tendenze centrali di due popolazioni a partire da due campioni
indipendenti n1 e n2 . Se non possiamo usare la distribuzione t di Student utilizziamo il
test della mediana.
Lipotesi nulla :
H 0 : Me1 Me2 Me

dove Me la mediana comune delle due popolazioni.


Disponiamo allora le osservazioni in un gruppo unico in ordine crescente, conservando
lappartenenza al campione, calcolando la mediana del gruppo unico. Se lipotesi nulla
vera, met delle osservazioni assumer valori inferiori alla mediana.
Creiamo una tabella 2x2 cos concepita:
Sotto la mediana Sopra la mediana Totale
Campione1 n1
n1
n1
2
2
Campione2 n2
n2
n2
2
2
Per verificare lipotesi che i due campioni provengano da popolazioni di uguali mediane si
applica il test chi quadrato per tabelle 2x2 spiegato pi oltre.
Questo test la versione semplificata del test Wilcoxon-Mann-Whitney che, in presenza di
valori ordinali provenienti da una distribuzione continua, verifica se due campioni statistici
provengono dalla stessa popolazione:
1. Prendendo ogni osservazione nel campione 1, si conta il numero di osservazioni
nel campione 2 che sono inferiori (in valore) al campione 1 (contando come un 1/2
per ogni osservazione che possa essere considerata uguale).
2. Il totale di questo conteggio il valore U. La variabile U viene tabulata come
somma dei ranghi di uno dei campioni, e viene utilizzata per valutare lipotesi nulla
con livello di significativit.

TEST SULLA DIFFERENZA FRA TENDENZE CENTRALI PER CAMPIONI APPAIATI


Il test dei segni utilizzato nel caso di campioni appaiati per la verifica di ipotesi sulla
tendenza centrale quando non rispettata la normalit della distribuzione o utilizzata
una misura ordinale.
Calcoliamo le differenze fra ciascuna coppia di elementi contrassegnandola con + o -. Se i
campioni presentano uguale mediana e le popolazioni sono simmetriche, il numero di + e
di lo stesso.
La statistica per il test dei segni, che sono 2, segue la distribuzione binomiale di
parametro p=1/2.
Daltra parte la binomiale si approssima alla normale per grandi campioni.
Se si conteggia un eccesso di segni + sui segni (o viceversa) si rigetta lipotesi nulla di
uguaglianza.
TEST SULLA DIFFERENZA DI FREQUENZE
Supponiamo di avere due campioni indipendenti di alta numerosit, per i quali le stime
delle frequenze delle unit di una popolazione riguardanti un certo carattere dicotomico
sono F1 e F2.
Vogliamo verificare lipotesi
H 0 : p1 p2

contro le ipotesi alternative, con livello di significativit

La v.a. F1 F2 , al variare del campione, si distribuisce normalmente se lipotesi nulla


2
vera, con media F1 F2 0 e varianza S F F
1

p1 (1 p1 )
n1

p2 (1 p2 )
n2

Ma le proporzioni p1 e p2 sono incognite e utilizziamo come stima la media ponderata di


F1 e F2:
F n F2 n2
F 1 1
.
n1 n2

Calcolando la varianza si ottiene allora


1
1
S F21 F2 F (1 F )

n1 n2

e si utilizza la statistica

F1 F2
1
1
F (1 F )

n1 n2

che se lipotesi nulla vera si distribuisce al variare del campione come una v.a. normale
standardizzata, con le note regole di decisione.
TEST SULLA DIFFERENZA FRA FREQUENZE PER CAMPIONI APPAIATI. TEST DI
McNEMAR
Vogliamo verificare se un campione di individui sottoposti in tempi diversi ad uguale
trattamento esprimono un carattere dicotomico secondo statistiche diverse.
Dobbiamo quindi disporre di campioni appaiati e dati in forma di frequenze.
Potremmo anche usare il test binomiale, che per meno immediato.
Segnaliamo con + la presenza del carattere, con la sua assenza.

+
PRIMA -

DOPO
-

n11
n21

n12
n22

n 2.

n.1

n.2

n1.

La statistica da utilizzare per il test, come si potr ricavare dal test 2 per tabelle a doppia
entrata,
(n12 n21 ) 2
X
n12 n21
2

che se lipotesi nulla vera si distribuisce come una v.a. chi quadrato con 1 grado di
libert.
Si rifiuta lipotesi H0 : il trattamento non determina cambiamento significativo nelle
2
frequenze se X ,1 .
Per valori n 20 si utilizza lapprossimazione
X2

(| n12 n21 | 1) 2
.
n12 n21

TEST SULLA INDIPENDENZA. TEST CHI QUADRATO E TEST ESATTO DI FISHER


In una tabella a doppia entrata (tabella di contingenza) con r righe e c colonne, a partire
dai caratteri X ed Y (qualitativi o quantitativi, discreti o continui), sia nij la frequenza con cui
si presenta la coppia di modalit ( xi , y j ) . Dato un campione casuale di n unit,

verifichiamo a livello di significativit


indipendenti:
H 0 : nijT

, lipotesi nulla che i due caratteri siano

ni . n. j
n

Contro lipotesi alternativa


H 1 : nijT

ni . n. j
n

T
dove nij la frequenza teorica calcolata per ciascuna coppia di caratteri.

La statistica da utilizzare
r

X
2

i 1 j 1

(nij nijT )
nijT

che se lipotesi nulla vera si distribuisce come una v.a. chi quadrato con (r-1)(c-1) gradi di
libert.
2
2
Quindi si rifiuta H0 se X ;( r 1)( c 1) .

Il test chi-quadrato un metodo approssimato valido quando le frequenze sono grandi.


Una regola perch sia valido che il valore atteso di ogni cella sia maggiore o uguale a 5.
Quando le frequenze attese sono basse (ma sempre >5) si applica la correzione di Yates
che riduce di la grandezza assoluta di (O-E) per ciascuna cella.
La correzione dovuta al fatto che il chi-quadrato si basa sullapprossimazione normale
della binomiale, quindi imponiamo una correzione per la continuit, essendo risultati per
distribuzioni continue applicati a dati discreti.
Secondo la correzione di Yates, la statistica da utilizzare per il test diviene
r

X 2
i 1 j 1

(| nij nijT | 0.5) 2


nijT

TEST ESATTO DI FISHER


Il test esatto di Fisher si applica come il test chi quadrato per verificare lindipendenza di
due v.a. rappresentate in una tabella di contingenza, ma basato sulla distribuzione
ipergeometrica.
Quando il campione piccolo o il numero di osservazioni per ciascun elemento della
tabella inferiore a 5, questo test assicura maggior precisione rispetto ai test basati sulla
normale o sul chi quadrato, che sono validi asintoticamente per grandi campioni.
In una tabella 2x2 si pongono nelle righe i campioni (o fattori sperimentali), nelle colonne
la presenza (+) o lassenza(-) di un dato carattere.

+
n11
n21
n.1

n12
n22
n.2

n1.
n2.
n

Per chiarire i conti da eseguire, riscriviamo la tabella in modo generico:


+
a
c
a+c

b
d
b+d

a+b
c+d
n

Vogliamo verificare lipotesi nulla che le popolazioni di origine dei due campioni abbiano la
stessa suddivisione dicotomica e che le differenze osservate con i dati campionari siano
dovute semplicemente al caso.
Ronald Fisher dimostr, basandosi sulla funzione densit della v.a. ipergeometrica, che la
probabilit di ottenere i valori in tabella si ricava dalla formula
a b c d

c c

P
n

a c

(a b)! (c d )!( a c )!(b d )!


n! a!b! c! d !

Questa formula d le probabilit esatte di osservare i valori a, b, c, d (dati a+b, a+c, c+d,
b+d) qualora fosse vera l'ipotesi nulla sopra enunciata.
Mantenendo fissi i totali marginali si fa variare verso 0 la frequenza osservata minore,
calcolando cio che la probabilit di ottenere quella tabella equivalga alla probabilit di
ottenere le risposte pi estreme. In questo modo si verifica se i valori osservati sono
eccessivamente diversi da quanto previsto dall'ipotesi nulla.
Nella pratica ci si regola in questo modo:
- si individua la cella con frequenza osservata minore e si calcola la probabilit di
ottenere esattamente la tabella osservata:
a b c d

c c

P
n

a c

(a b)! (c d )!( a c )!(b d )!


n! a!b! c! d !

a questo punto si diminuisce il valore della frequenza minore (ma non i totali
marginali) e si ricalcola la probabilit con la stessa formula.
- si continua fino ad avere zero per questa frequenza. Sommando tutti i valori di
probabilit ottenuti, si ottiene la probabilit che la tabella di frequenze osservate sia
dovuta al caso.

Potrebbero piacerti anche