Sei sulla pagina 1di 20

Alice Mannocci - Test per variabili qualitative

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

1 di 19
Alice Mannocci - Test per variabili qualitative

Indice

1. INTRODUZIONE ....................................................................................................................................... 3
2. IL TEST DEL CHI-QUADRATO (Χ²) ............................................................................................................ 6
3. TEST ESATTO DI FISHER .......................................................................................................................... 11
4. ESERCITAZIONE CON EPI INFO –TEST DEL Χ² ED ESATTO DI FISHER .................................................... 13
BIBLIOGRAFIA................................................................................................................................................ 19

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

2 di 19
Alice Mannocci - Test per variabili qualitative

1. Introduzione

La presente lezione riguarderà due tra i principali test per varabili qualitative.

Per introdurre i test prendiamo in esame due variabili aleatore di tipo dicotomico: consumo

di alcool [si/no] (che chiameremo esposizione) ed avere malattia coronarica [si/no] (evento). Si

possono presentare due tipi di situazione:

- esposizione ed evento sono tra loro indipendenti, cioè non esiste alcuna associazione,

ovvero il verificarsi dell'uno non influisce sul calcolo della probabilità del verificarsi dell'altro;

- esposizione e malattia sono tra loro dipendenti, cioè l’esposizione modifica la probabilità

di malattia, in altre parole il verificarsi dell'uno influisce sul calcolo della probabilità del verificarsi

dell'altro.

In termini di probabilità:

- se vi è INDIPENDENZA: la probabilità di consumare alcool ed essere malato è UGUALE al

prodotto delle probabilità elementari;

- se vi è DIPENDENZA/ASSOCIAZIONE: la probabilità di alcool e malattia è maggiore o

minore del prodotto delle probabilità elementari.

Per comprendere meglio quest’ultimo concetto della indipendenza in termini probabilistici,

si pensi al lancio di una moneta non truccata. Qual è la probabilità che esca la sequenza «testa;

testa»?

Chiamiamo P(T) la probabilità che esca “testa”: allora P(T)=1/2 dove 1 è l’esito di interesse e

2 sono il numero di esiti possibili (T;C).

La sequenza di due “T” sarà data da:

P(T;T)= 1/4 dove 1 è l’esito di interesse e 4 il numero di esiti possibili (CC; TC;CT;TT);

Ma osserviamo che: P(T)*(P(T)= ½* ½=1/4

Quindi P(T)*(P(T) = P(T;T).

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

3 di 19
Alice Mannocci - Test per variabili qualitative

Rappresentiamo in una tabella di frequenza il nostro esempio con l’esposizione e la

malattia:

Si tratta di una tabella 2x2 (2 righe e 2 colonne), poiché le variabili che si sono scelte sono

qualitative binarie.

Supponiamo di conoscere le probabilità di avere un soggetto esposto, pari a 0,5 (50%), e di

avere un soggetto malato, 0,2 (20%).

Alla luce di tali dati possiamo immaginare che se gli eventi fossero indipendenti le

probabilità da inserire nelle celle saranno il prodotto delle probabilità.

Figura 1. Tabelle delle frequenze attese (modello teorico).

La tabella in figura 1 rappresenta la tabella delle frequenze attese, o modello teorico, o nel

contesto dei test statistici, l’ipotesi nulla (H0). Tale tabella riporta la situazione che noi dovremmo

osservare per dire che malattia ed esposizione non sono “legate” tra loro.

Se avessimo 100 individui e non vi fosse associazione tra malattie ed alcool dovremmo

osservare una situazione come quella mostrata in figura 2.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

4 di 19
Alice Mannocci - Test per variabili qualitative

Figura 2. Tabella delle frequenze osservate con 100 individui.

100
Supponiamo di condurre uno studio e di raccogliere i dati per 100 individui e di osservare la

situazione proposta in figura 3.

Quello che si dovrà testare sarà se la tabella degli “osservati” è diversa dal modello

teorico.

Figura 3 Tabella delle frequenze osservate realmente.

100

La differenza andrà valutata non confrontando banalmente i valori nelle celle delle due

tabelle, ma a livello statistico: se ripetessimo l’esperiemnto 100, 1000, 10.000 volte, otterremmo

sempre una tabella delle frequenze osservate “lontana” da quella delle frequenze attese?

Per poter rispodenere a questo problema di generalizzazione /inferenza statstica occorre

utilizzare un test statistico.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

5 di 19
Alice Mannocci - Test per variabili qualitative

2. Il test del chi-quadrato (χ²)

Date due variabili di tipo qualitativo per valutare se siano tra loro «associate/dipendenti» si

utilizza il test del χ2 (chi-quadrato).

L’ipotesi nulla (H0) per il test del χ2 può essere scritta, come è discusso nell’introduzione, in

uno di questi 4 modi.

Date due variabili dette evento (A) ed esposizione (B):

• non esiste associazione tra le 2 variabili

• le due variabili sono indipendenti

• P(B ∩ A) = P(B)*P(A)

• La proporzione di soggetti che hanno avuto l’evento A è la stessa per i diversi livelli

di esposizioni della variabile B.

Il test del chi-quadrato traduce questa ipotesi nulla nel confronto tra le frequenze osservate

(O) e quelle attese (E): si domanda se sono troppo grandi per essere attribuite al caso. Il confronto

avviene utilizzando quindi le differenze tra O ed E delle diverse celle. Da tale confronto

opportunamente pesato si ottiene un valore che si compara ad una distribuzione di probabilità,

detta del χ2.

La statistica in questione è dunque:

Dove

 r = numero di righe della tabella

 c = numero di colonne della tabella

 r*c = numero totale delle celle della tabella

 Oi = la cella i-esima della tabella degli osservati

 Ei = cella i-esima della tabella degli attesi

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

6 di 19
Alice Mannocci - Test per variabili qualitative

Nella formula la differenza “Oi- Ei” rappresenta la distanza che intercorre tra i valori delle

due tabelle rispettivamente per la cella i-esima.

Al denotatore vi è la quantità Ei che ci consente di “apprezzare” se la distanza riportata al

numeratore sia o meno “importante”.

Inoltre è necessario, per individuare correttamente la distribuzione χ2, stimare i gradi di

libertà della tabella. I gradi di libertà (gl o df) sono dati da:

gl = (r-1)*(c-1)

Per una tabella 2x2 avremo:

gl= (2-1) * (2-1) = 1

Attenzione. Quando abbiamo gl = 1 è opportuno utilizzare la statistica del chi-quadrato con

una correzione, detta “Correzione di Yates”. Ovvero si sottrae 0,5 alla differenza tra Oi ed Ei:

Tale correzione va quindi a ridurre la distanza tra osservati ed attesi, e fa in modo che il

modello osservato si avvicini a quello teorico. Tale correzione in altre parole, qualora si arrivi a

rifiutare l’ipotesi nulla, ovvero che ci sia differenza tra osservati ed attesi, rende la conclusione

ancora più convincente.

Esempio

In uno studio sulle proprietà della curcuma, si vuole capire se questa oltre ad essere una

spezia per insaporire e colorare i piatti riduca le infiammazioni del tratto gastrointestinale.

Si considera un campione casuale di 793 soggetti, tra le variabili raccolte vi sono le seguenti

due variabili qualitative dicotomiche:

variabile 1 = uso abituale della curcuma (si/no);

variabile 2 = infiammazioni del tratto gastrointestinale (si/no).

I dati raccolti sono riportati in figura 4.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

7 di 19
Alice Mannocci - Test per variabili qualitative

Figura 4. Tabella delle frequenze osservate per lo studio sulla curcuma e le infiammazioni

gastrointestinali.

Per eseguire il test è necessario:

1) Definire l’ipotesi nulla (H0).

2) Scegliere il livello di significatività.

3) Scegliere ed eseguire un test statistico

4) Concludere il test: rifiutare o non rifiutare l’ipotesi nulla.

1) L’ipotesi nulla può essere riscritta nel seguente modo:

“La curcuma e le infezioni gastrointestinali siano indipendenti”

oppure come:

“La proporzione di infezioni gastrointestinali è la stessa nei due gruppi di consumatori

abituali e no di curcuma”.

2) Si fissa il livello di significatività p< 0,05.

3) Il test, poiché si tratta di un confronto tra due variabili qualitative è il test del χ².

Per calcolare la statistica del test occorre costruire la tabella delle frequenze attese

utilizzando i valori marginali (valori situati sul bordo) della tabella degli osservati.

Per stimare la cella di riga 1 e colonna 1 occorrerà quindi fare la seguente proporzione:

cella1,1: 235 = 147 : 793  cella1,1 =147/793*235  cella1,1=43,6

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

8 di 19
Alice Mannocci - Test per variabili qualitative

Dunque 43,6 è il valore che si dovrebbe avere perché non vi sia associazione tra uso di

curcuma e assenza di infezioni gastrointestinali.

Così per la successiva cella:

cella1,2: 235 = 646 : 793  cella1,1 =646/793*235  cella1,1=191,4

etc.

In figura 5 è riportata la tabella delle frequenze attesa ottenuta.

Figura 5. Calcolo della tabella dei valori attesi.

Una volta completata la tabella delle frequenze attese occorre fare un “controllo della

validità del test”, che consiste in:

- nessuna delle celle deve contenere una frequenza attesa minore di 1;

- si accetta un massimo del 20% di celle con una frequenza attesa minore di 5.

Qualora anche una sola delle due condizioni non sia verificata non possiamo utilizzare il test

del chi-quadrato.

Se ci troviamo in tabelle di frequenza con n x m righe con n, m >2 si può provare a

raggruppare in un numero minore le modalità della variabile e verificare nuovamente le

condizioni.

In alternativa è possibile applicare il “Test Esatto di Fisher” che si vedrà di seguito.

Nel nostro esempio entrambe le condizioni sono soddisfatte.

Si calcolano dunque i gradi di libertà abbiamo gl =1, che ci suggerisce quindi di utilizzare il

test è quella del chi-quadrato con la correzione di Yates:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

9 di 19
Alice Mannocci - Test per variabili qualitative

Sostituendo i dati agli addendi della sommatoria abbiamo:

Da cui:

con gl=1.

4) Consultando le tavole statistiche del chi-quadrato (si veda cartella documenti del corso

o un qualsiasi libro di statistica) con gl=1 per χ²=27,27 abbiamo un p<0,005 (figura 6).

Figura 6. Porzione della tavola della distribuzione del chi-quadrato.

Possiamo concludere il test rifiutando l’ipotesi nulla vi è una differenza significativa tra la

proporzione di malati nel gruppo che utilizza curcuma abitualmente rispetto a chi non la usa.

Se volessimo capire chi è che si ammala meno nei due gruppi basterà calcolare e

confrontare le due seguenti proporzioni:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

10 di 19
Alice Mannocci - Test per variabili qualitative

Quindi l’uso della curcuma sembra ridurre le infezioni gastrointestinali in modo significativo.

3. Test Esatto di Fisher

Se la condizione di applicabilità del test χ² non è soddisfatta è possibile utilizzare il test della

probabilità esatta di Fisher.

Data la seguente tabella di frequenza per valori osservati:

Esposti
Si No
Evento Si a b a+b
No c d c+d
a+c b+d N

La statistica è:

p di Fisher 
a  b !c  d !a  c!b  d !
N!a! b! c!d!

Dove:

• p è la probabilità;

• N è il numero totale di osservazioni;

• m! si definisce “m fattoriale” ed è un numero naturale dato dal prodotto dei numeri

interi positivi minori o uguali ad m: m! = 1 x 2 x 3 x … x m

Si ricorda che 0! = 1.

Esempio

Supponiamo di voler verificare se vi sia una differente associazione tra il genere e

l’aderenza ad un particolare regime alimentare.

1. L’ipotesi nulla sarà: vi è una diversa proporzione tra maschi e femmine di aderenza

alla dieta.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

11 di 19
Alice Mannocci - Test per variabili qualitative

2. Si fissa un livello p=0,05

3. I dati raccolti fanno riferimento a 24 individui riportati in tabella:

Genere

M F

Dieta Si 1 10 10

No 10 3 14

11 13 24

Questi dati non sono idonei ad essere analizzati con il test del chi quadrato in quanto uan

delel condizioni di applicabilità non è soddisfatta: il valore atteso in una cella è inferiore a 5 e

rappresenta il 25% delle celle totali.

Genere
M F
Dieta Si 4,6 5,4 10
No 6,4 7,6 14
11 13 24

10 !14 !11!13 !
p di Fisher 
Calcoliamo quindi la statistica: 24!1!10!10!3! =0,00044

4. Il test si conclude con il rifiuto dell’ipotesi nulla poiché il p di Fisher <0,05.

Quindi la dieta è stata seguita in modo significativamente diverso tra uomini e donne.

Inoltre dal calcolo delle due proporzioni si osserva che le donne siano quelle che hanno

aderito maggiormente alla dieta:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

12 di 19
Alice Mannocci - Test per variabili qualitative

4. Esercitazione con Epi Info –Test del χ² ed Esatto di


Fisher

Utilizzando i dataset contenuti nella cartella documenti del corso ripetiamo gli esercizi

proposti.

a) Esercizio curcuma e infezioni gastrointestinali

Prima di utilizzare il software apriamo il dataset relativo allo studio sulla curcuma e le

infezioni gastrointestinali (“Dataset curcuma_infezioni”).

Il dataset contiene 3 colonne:

- codice dell’individuo;

- curcuma dove 0= non uso abituale di curcuma ed 1= uso abituale di curcuma;

- infezione gastrointestinale dove 0= no ed 1=si.

Dopo aver chiuso il file Excel contenente il dataset si apre Epi Info /Classic.

Carichiamo attraverso il comando “read” il dataset.

Il formato del file è necessariamente in Excel 97-2003. In “Data Source” si seleziona il

percorso dove è stato salvato il file e infine si seleziona il “foglio1” e si dà “OK”.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

13 di 19
Alice Mannocci - Test per variabili qualitative

Per eseguire il test per variabili qualitative utilizziamo il comando “Tables” nella cartella

“Statistics”.

Carichiamo le variabili di interesse inserendo dal menu a tendina nei campi:

“Outcome”  infezione

“Exposure” curcuma

Ai fini del test è indifferente dove vengano caricate le variabili, l’importante è aver

selezionato le due variabili di interesse.

Dando l’ok si otterrà nella finestra di output il seguente risultato:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

14 di 19
Alice Mannocci - Test per variabili qualitative

Osserviamo una prima parte dove è riportata la tabella delle frequenze osservate.

Nella seconda parte “Single Table Analysis” abbiamo una sezione dedicata ai test statistici:

“STATISTICAL TESTS”.

In questa sezione troviamo:

 Il test del chi-quadrato senza correzione

 Il chi-quadrato con la correzione di Yates

 Test Esatto di Fisher

Non essendoci da parte di Epi Info alcuna segnalazione sulle frequenze attese possiamo

utilizzare sulla base del fatto che la nostra tabella è di tipo 2x2 il p relativo al chi-quadrato con la

correzione di Yates. Osserviamo che la statistica è pari a χ²=27,2018 ed il relativo p= 0,0000001833.

Ciò ci fa concludere il test rifiutando l’ipotesi nulla.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

15 di 19
Alice Mannocci - Test per variabili qualitative

b) Esercizio genere e aderenza alla dieta

Prima di utilizzare il software apriamo il dataset relativo allo studio sul genere e l’aderenza

alla dieta (“Dataset dieta-T-Fisher”).

Il dataset contiene 3 colonne:

- codice dell’individuo;

- genere: m= maschio ed f= femmina;

- aderenza alla dieta: 0= no ed 1=si.

Dopo aver chiuso il file Excel contenente il dataset si apre Epi Info /Classic.

Carichiamo attraverso il comando “read” il dataset.

Nella finestra di caricamento selezioniamo:

- il formato del file è necessariamente in Excel 97-2003.

- in “Data Source” il percorso dove è stato salvato il file

- selezioniamo il “foglio1”.

Utilizzando il comando “Tables” nella cartella “Statistics” carichiamo all’interno della finestra

le variabili che vogliamo studiare:

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

16 di 19
Alice Mannocci - Test per variabili qualitative

Ai fini del test è indifferente dove vengano caricate le variabili, l’importante è aver

selezionato le due variabili di interesse.

Dando l’ok si otterrà nella finestra di output il seguente risultato:

Si noti la frase prima della sezione dei test statistici:

“Sparse data. Use exact confidence limits.”

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

17 di 19
Alice Mannocci - Test per variabili qualitative

Tale frase informa gli utenti che è raccomandato utilizzare il test Esatto di Fisher poiché la

tabella è “sparsa” ovvero con pochi dati.

Andremo a leggere la riga relativa al test di Fisher. Concluderemo che il p del test= 0,001349

che risulta essere inferiore al livello di significatività prefissato di 0,05. Si rifiuta l’ipotesi nulla e dunque

vi è una differenza significativa per genere sull’aderenza alla dieta.

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

18 di 19
Alice Mannocci - Test per variabili qualitative

Bibliografia

 Sheldon M. Ross. Introduzione alla statistica. Maggioli Editore (2014)

 Pagano M. Biostatistica. (2003) Ed. Idelson Gnocchi

 Mecatti F. Statistica di base. Come, quando, perché. McGraw-Hill Education

(2015)

Attenzione! Questo materiale didattico è per uso personale dello studente ed è coperto da
copyright. Ne è severamente vietata la riproduzione o il riutilizzo anche parziale, ai sensi e
per gli effetti della legge sul diritto d’autore (L. 22.04.1941/n. 633).

19 di 19

Potrebbero piacerti anche