Con test chi quadrato "χ²", si intende uno dei test di verifica d'ipotesi usati in statistica che utilizzano la distribuzione chi quadrato per decidere se
rifiutare o non rifiutare l'ipotesi nulla. A seconda degli assunti di partenza usati tali test vengono considerati parametrici o non parametrici.
Il test chi quadrato è ampiamente utilizzato per verificare che le frequenze dei valori osservati si adattino alle frequenze teoriche di una distribuzione di
probabilità prefissata. Per esempio, è noto che il risultato di 100 lanci di una moneta segue la distribuzione uniforme ed è difficile ottenere un risultato che
si discosti sensibilmente dall'ottenere 50 teste e 50 croci. Il test chi quadrato consente di stabilire, dopo aver fissato l'errore massimo tollerato, se le
discrepanze tra le frequenze osservate e quelle teoriche sono imputabili completamente al caso o se invece è lecito supporre che la moneta sia truccata.
Indice
Definizione
Esempio[1][2]
Esempio in R
Note
Voci correlate
Collegamenti esterni
Definizione
Supponiamo che in un particolare campione si sia osservato che un insieme di possibili eventi E1, E2, …, Ek si presenta con frequenze o1, o2, …, ok (dette
frequenze osservate). Supponiamo poi che, secondo le regole della probabilità, ci si attenda un secondo insieme di possibili eventi con frequenze e1, e2, …,
ek (dette frequenze teoriche o attese), ossia, riassumendo:
Evento E1 E2 ... Ek
La variabile test si ottiene sommando, per ogni evento Ei il quadrato degli scarti tra le frequenze teoriche e quelle osservate, pesato sulle frequenze
teoriche:
Così, se il numero totale di eventi è fissato, si distribuisce come una variabile con gradi di libertà. Altrimenti, se k è una variabile a sua volta
aleatoria, ad esempio Poissoniana (come può essere in un esperimento di conteggio), si distribuisce come una variabile con gradi di libertà.
Se le frequenze osservate coincidono esattamente con quelle teoriche, allora , mentre se esse differiscono, . Più grande è il valore di , più
grande è la discrepanza tra le frequenze osservate e quelle teoriche.
Esempio[1][2]
Un dado viene lanciato 2000 volte con il seguente risultato:
Esito Occorrenza
1 388 volte
2 322 volte
3 314 volte
4 316 volte
5 344 volte
6 316 volte
Effettivamente il risultato 1 è apparso un numero di volte sensibilmente superiore agli altri, la frequenza attesa è di 2000/6=333,333 per ciascun risultato
(se il dado è equilibrato, segue una distribuzione uniforme, quindi la frequenza attesa è la stessa per tutti i risultati).
Se fissiamo l'errore tollerato al 5% (α = 0,05) e diamo uno sguardo alle tavole della distribuzione chi quadrato (http://www00.unibg.it/dati/corsi/40025/7
4822-tavola_chi2.pdf) con 5 gradi di libertà dobbiamo rifiutare l'ipotesi nulla con valori della statistica test superiori a 11,07.
La nostra statistica test è uguale a 12,616 e pertanto dobbiamo respingere l'ipotesi nulla: ciò vuol dire che il dado non è equilibrato.
Il test chi quadrato funziona quando nessun valore si presenta con una frequenza inferiore a 5. Se ciò accade è meglio utilizzare altri test sulle frequenze,
come il test esatto di Fisher.
nonché diversi test che in determinate situazioni (solitamente quando si è in presenza di molti dati) fanno ricorso alla v.c. Chi Quadrato come distribuzione
approssimativa
Esempio in R
Utilizzando il linguaggio di programmazione R si vuole valutare se esiste un'associazione tra le variabili degree (livello di istruzione superiore) e sex (il
sesso) negli Stati Uniti attraverso il test chi quadrato. Il dataset usato è stato ottenuto tramite Il "General Social Surveys", un questionario sottoposto a
persone intervistate di 18 anni o più che parlavano in inglese all'interno degli Stati Uniti d'America. In totale le interviste sono state 57.061, che
rappresentano meno del 10% della popolazione americana. Tali interviste sono state fatte tra il 1972 e il 2014 e ciascuna di queste contiene 114 variabili, di
cui alcune numeriche ed altre categoriali. L'analisi fatta è osservazionale e non sperimentale, quindi non si possono stabilire relazioni casuali tra le
variabili.
Le condizioni necessarie perché si possa eseguire il test chi quadro sono che i campioni siano casuali, non correlati e provenienti da meno del 10% della
popolazione, quindi l'indipendenza tra le osservazioni è ragionevole.
library(statsr)
filter(!is.na(sex),!is.na(degree))
Observed:
x Male Female
Expected:
x Male Female
Dal momento che p-value = 0 <0,05, rifiutiamo l'ipotesi nulla. Vi è una forte evidenza che negli Stati Uniti esiste una dipendenza tra il livello di istruzione
superiore e il sesso.
Note
1. ^ Paolo Baldi, Calcolo delle probabilità e statistica, 2ª ed., McGraw-Hill, 1998, ISBN 9788838607370.
2. ^ Murray R.Spiegel, STATISTICA - 2ª edizione, collana SCHAUM - ETAS LIBRI.
Voci correlate
Distribuzione chi quadrato
Valore p
Collegamenti esterni
Tavole della distribuzione chi quadrato (http://www00.unibg.it/dati/corsi/40025/74822-tavola_chi2.pdf)
Controllo di autorità LCCN (EN) sh85023209 (http://id.loc.gov/authorities/subjects/sh85023209)
Estratto da "https://it.wikipedia.org/w/index.php?title=Test_chi_quadrato&oldid=122626118"
Questa pagina è stata modificata per l'ultima volta il 23 ago 2021 alle 15:30.
Il testo è disponibile secondo la licenza Creative Commons Attribuzione-Condividi allo stesso modo; possono applicarsi condizioni ulteriori. Vedi le condizioni d'uso per i dettagli.