Sei sulla pagina 1di 15

Gli errori nella verifica delle ipotesi

 Nella statistica inferenziale si cerca di dire qualcosa di valido in generale, per la popolazione o
le popolazioni, attraverso lanalisi di uno o pi campioni
 E chiaro per che esiste comunque la possibilit di giungere a conclusioni errate, appunto
perch i miei dati rappresentano solo una parte dellevento che sto analizzando
 Formalizziamo brevemente il concetto, in parte gi visto, di errore (di errori) nel processo di
verifica delle ipotesi

Premessa (riassunto di argomenti gi trattati)


 PRIMA di effettuare un test statistico viene scelto un livello di significativit,
 Questo livello di significativit determina i valori critici della statistica test (z, t, chi-quadro, ecc). I
valori critici definiscono nella distribuzione teorica della statistica, distribuzione attesa nel caso
sia vera lipotesi nulla (la distribuzione nulla, appunto), le regioni di accettazione e di rifiuto
 Il livello di significativit prescelto viene anche utilizzato come confronto se si segue lapproccio
del p-value: il p-value calcolato viene confrontato con

 Supponiamo ora di aver scelto =0.05 (scelta tipica), e supponiamo di condurre un test
bidirezionale (a due code)
 La regione di rifiuto nella distribuzione nulla include il 5% dei valori pi estremi della statistica
(2,5% dalla parte dei valori molto grandi, e 2,5% dalla parte dei valori molto piccoli)
 Questi sono valori estremi che comunque possiamo otterremmo, con una probabilit del 5%,
anche se fosse vera lipotesi nulla
Se ripetessimo tante volte il test su campioni diversi, e lipotesi nulla fosse sempre vera, il
5% dei test porterebbe ad un valore della statistica test allinterno della zona di rifiuto (e ad
un p-value inferiore a 0.05)
Quindi, nel 5% di questi test, rifiuteremmo lipotesi nulla vera

Distribuzione nulla per la statistica test z.


Se vera lipotesi nulla, e ripetessi il test molte volte su campioni diversi,
x 100 delle volte questipotesi vera verrebbe erroneamente rifiutata

 In pratica, se la statistica calcolata in un singolo test cade nella regione di rifiuto, o il p-value <,
la conclusione del test quella di rifiutare lipotesi nulla.
Ma, per quello che abbiamo appena detto, lipotesi nulla potrebbe anche essere vera ma
per puro effetto del caso (errore di campionamento) i dati portano ad una statistica test
significativa (che cade cio nella regione di rifiuto e che ha un p-value <)
 Lerrore che si compie rifiutando unipotesi nulla vera si chiama

Errore di primo tipo


o errore di prima specie, o errore do tipo I

 La probabilit di compiere un errore di primo tipo data dal livello di significativit prescelto
 E la frazione di volte che viene rifiutata un ipotesi nulla vera se ripetessi tante volte il test su
campioni diversi (presi dalla stessa, o dalle stesse, popolazione/i)
 Scegliendo in anticipo , definiamo il rischio che siamo disposti ad accettare di compiere un
errore di primo tipo
 Alla fine del test, se le evidenze saranno a favore dellipotesi alternativa, non sapremo
ovviamente se avremo commesso un errore di primo tipo oppure no. Potremo solo dire che la
probabilit di averlo commesso, se fosse vera lipotesi nulla, sarebbe molto bassa (e pari ad )

 La probabilit complementare (1- ) viene chiamata livello di protezione di un test, ed


appunto la probabilit di non rifiutare lipotesi nulla quando lipotesi nulla vera. Un test con un
altro livello di protezione detto conservativo
Un test molto conservativo pu essere visto come un test che vuole rischiare molto poco
di fare un errore di primo tipo, che sappiamo essere un errore molto grave perch rifiutare
lipotesi nulla una decisione forte (come condannare un imputato) mentre non rifiutarla
non significa in realt accettarla (ma solo dire che i dati sono compatibili con essa)
 Da notare che nel calcolo degli intervalli di confidenza (utilizzati nella stima di un parametro,
non nella verifica di ipotesi), il termine 1- prende il nome di grado di confidenza
 Riassumendo, se lipotesi nulla vera, pu succedere che:

 Vediamo ora un altro tipo di errore che si pu commettere nella verifica delle ipotesi
 Se lipotesi nulla falsa, cio per esempio la media nella popolazione 1 diversa dalla media
nella popolazione 2, giunger sempre al suo rifiuto analizzando due campioni?
Ovviamente no, e anche intuitivamente facile capirne un motivo: se le medie nelle due
popolazioni sono diverse ma molto vicine, possibile che i dati non siano sufficienti a
escludere lipotesi nulla, visto che lipotesi nulla viene rifiutata solo in presenza di forti
evidenze

 Lerrore che si compie quando unipotesi alternativa vera ma la conclusione del test quella
che non possibile escludere lipotesi nulla, ovvero, lerrore che si compie non rifiutando
unipotesi nulla falsa, si chiama

Errore di secondo tipo


o errore di seconda specie, o errore do tipo II

 La probabilit di commettere un errore di secondo tipo viene generalmente indicato con il


simbolo
 La probabilit complementare, (1- ), ossia la probabilit di rifiutare correttamente un ipotesi
nulla falsa, si chiama potenza del test
Maggiore la potenza di un test, maggiore sar la possibilit del test di identificare come
corretta lipotesi alternativa quando questa effettivamente vera
 La probabilit di fare un errore di secondo tipo, ovvero il rischio di non rifiutare unipotesi nulla
falsa, e di conseguenza la potenza di un test, non si pu stabilire a priori
Dipende infatti dalla distanza tra ipotesi nulla e alternativa (per esempio, la differenza tra
1 e 2), distanza che ignota
Dipende dalla varianza delle variabili in gioco, che non pu essere modificata
 La probabilit di fare un errore di secondo tipo, per, dipende anche dal numero di osservazioni
e dal livello di significativit prescelto. Quindi:
possibile ridurre lerrore di II tipo (e quindi aumentare la potenza) aumentando la
dimensione campionaria
possibile ridurre lerrore di II tipo (e quindi aumentare la potenza) aumentando il livello di
significativit (ma questa scelta ci espone a maggiori rischi di errore di tipo I)
 E possibile studiare la potenza di un test attraverso lanalisi della potenza

 Completiamo intanto la tabella degli errori

 Cerchiamo ora di capire graficamente lerrore di secondo tipo


Supponiamo di svolgere un test z a una coda per verificare le seguenti ipotesi
H0: = 0 = 1.5
H1 : 0
Abbiamo gi visto cosa succede quando lipotesi nulla effettivamente vera (si rischia di
commettere un errore di primo tipo)
Vediamo ora cosa succede quando lipotesi nulla non vera
 In questo caso, per capire e calcolare lerrore di secondo tipo necessario
assumere che sia vera una ipotesi alternativa precisa. Assumiamo che sia vera
lipotesi alternativa = 1.45

 Concentriamoci per ora sulla parte inferiore della figura, specifica per un campione con n = 36
osservazioni con =0.1 e = 0.01
Le due distribuzioni a campana rappresentano le distribuzioni delle medie campionarie
secondo lipotesi nulla (in viola) e secondo lipotesi alternativa (in blu)
Le due linee rosse verticali rappresentano i limiti dellintervallo allinterno del quale una
media campionaria verrebbe considerata compatibile con lipotesi nulla
 Quei limiti, standardizzati, porterebbero ai valori critici nella tabella di z di - 2.576 e
2.576

 Larea ombreggiata in giallo la probabilit di commettere un errore di tipo II


Infatti, quando vera lipotesi alternativa, la media campionaria ha una probabilit pari
allarea in giallo di cadere nella regione di accettazione (stabilit ovviamente sulla base
della distribuzione nulla)

Larea ombreggiata in verde quindi il potere del test, ovvero la probabilit di rifiutare
correttamente lipotesi nulla quando questa falsa (come nel caso considerato)

 E facile capire da questo grafico che


1. Maggiore la distanza tra ipotesi alternativa (che stiamo considerando vera) e lipotesi
nulla (che stiamo considerando falsa), maggiore sar la potenza del test
 Logico: se lipotesi alternativa molto diversa da quella nulla ipotizzata, sar facile
scoprirlo
2. Minore la dispersione della variabile, minore sar la varianza della media
campionaria, pi strette saranno le corrispondenti distribuzioni, e maggiore sar la
potenza del test
 Logico: se gli individui sono tutti molto simili, anche pochi sono sufficienti per
stimare bene la media della popolazione e verificare se diversa da 0
3. Maggiore l prescelto, maggiore sar la potenza del test
 Logico: se per rifiutare lipotesi nulla mi accontento di moderate differenze tra i dati e
quanto predetto dallipotesi nulla, tender a rifiutarla maggiormente quando vera
lipotesi nulla ma anche quando vera lipotesi alternativa
4. Maggiore la dimensione campionaria, minore sar la varianza della media
campionaria, pi strette saranno le corrispondenti distribuzioni, e maggiore sar la
potenza del test
 Logico: con molti dati scovo meglio unipotesi alternativa vera

Attenzione: per ogni dato test statistico, possiamo aumentare la potenza solo agendo su sul
punto 3 (ma ci comporta un aumento del rischio di errore di tipo I) e sul punto 4. I punti 1 e 2
non sono sotto il nostro controllo
In realt, poich per ogni tipo di problema statistico esistono generalmente pi test
diversi a disposizione (con caratteristiche diverse), e i test che fanno pi assunzioni (per
esempio sulla distribuzione della variabile) sono di solito pi potenti, anche possibile
aumentare la potenza di un test scegliendo il test pi potente (ovviamente se le
condizioni imposte da quel test sono soddisfatte dai dati)

Provate voi stessi come varia il potere di semplice un test in funzione di , n, , e la distanza tra
la vera e la 0 ipotizzata dallipotesi nulla:

http://bcs.whfreeman.com/ips4e/cat_010/applets/power_ips.html

Cosa si poteva vedere nella parte superiore della figura discussa in precedenza?

Lanalisi della potenza e la sua importanza




Fare un analisi della potenza significa essenzialmente determinare la potenza di un test in


diverse condizioni, ovvero in funzione di , n, , e della distanza tra ipotesi alternativa e ipotesi
nulla

Nel test appena visto, il calcolo della potenza semplice (si fa con il calcolatore ma si poteva
fare anche a mano). In altri casi molto pi complesso

E molto importante perch ci permette di capire quale probabilit abbiamo di accettare


erroneamente lipotesi nulla quando invece vera una specifica ipotesi alternativa

Supponiamo per esempio di avere la possibilit di determinare una certa variabile fisiologica in
un gruppo di 5 pazienti, per poterne confrontare la media con lipotesi nulla che la media nella
popolazione sia pari ad un certo valore medio standard, diciamo 12 (sospettando per esempio
che la patologia dei pazienti possa aver alterato la variabile fisiologica che vogliamo
analizzare). Supponiamo anche di conoscere la deviazione standard della variabile (cos che
sia possibile applicare un test z) e che questa sia pari a 3

Dopo aver fatto lanalisi in laboratorio e il test statistico, e aver trovato che lipotesi nulla non
pu essere rifiutata, o meglio ancora prima di cominciare le analisi, potremo chiederci:
qual la probabilit di non accorgerci (con un certo = 0.05) che la media della
popolazione da cui abbiamo estratto il campione non quella specificata dallipotesi
nulla (0 = 12), ma invece pari ad valore specifico di interesse, per esempio di
interesse perch indice di una grave patologia?

Ci interessa cio capire se, nellipotesi che i pazienti abbiano per esempio un media della
variabile studiata alta in maniera preoccupante, per esempio = 14, tale differenza verrebbe
identificata con il campione a disposizione
in generale, la scelta del valore di da analizzare nellanalisi della potenza dovrebbe
identificare un valore di media particolarmente anomalo, che se fosse veramente la
media della popolazione dalla quale abbiamo estratto il campione che stiamo
analizzando vorremmo che venisse evidenziata con alta probabilit

Utilizzando lapplet al calcolatore con

= 0,05
n=5
=3
0 = 12 (valore standard previsto dallipotesi nulla)
= 14 (valore ipotizzato per lipotesi alternativa)

La potenza pari a 0.316

Questo significa che se la media della popolazione fosse 14, avrei circa il 32% di probabilit di
identificare con un campione di 5 individui questa deviazione dallipotesi nulla. Ma avrei anche
una probabilit molto alta (il 68% circa) che pur con una notevole deviazione della popolazione
rispetto a quanto previsto dallipotesi nulla (14 rispetto a 12), questa deviazione non verrebbe
identificata

Una situazione pericolosa, quindi, ci potrebbe sfuggire con alta probabilit (il 68%),
suggerendoci per esempio di aumentare la dimensione campionaria (e aumentare quindi la
potenza del test)