su un parametro della
popolazione
1
Test per la verifica di ipotesi
Un test è una regola di decisione tra due ipotesi
contrapposte riguardanti una caratteristica della
popolazione.
2
Verifica di ipotesi su un parametro q
X ~ f(X, q) , dove q è un parametro incognito.
Si mettono a confronto due ipotesi contrapposte riguardo al
valore di q:
• ipotesi nulla, indicata con H0
• ipotesi alternativa, indicata con H1
L’ipotesi nulla è pre-esistente all’osservazione dei dati
campionari ed è ritenuta vera fino a prova contraria.
Esempio: Secondo il costruttore di un certo tipo di batterie per
autovetture, la durata media è di 3.400 ore. Per verificarne la
durata si osserva un campione di 30 batterie:
H0: le batterie hanno durata media di almeno 3.400 ore
H1: le batterie hanno durata media inferiore a 3.400 ore
3
Formulazione delle ipotesi su q
Q è l’insieme di tutti i possibili valori che può assumere q
Q0 e Q1 sono i sottospazi che formano una partizione di Q.
ìH 0 : q Î Q 0
í
î H1 : q Î Q1
In questo caso:
ìH 0 : µ ³ 3.400 Q appartiene all’intervallo [0, +∞)
í
î H1 : µ < 3.400
Q0 appartiene all’intervallo [3400, +∞)
Q1 appartiene all’intervallo [0, 3400)
4
Formulazione delle ipotesi su q
Un’ipotesi può essere:
• semplice, quando specifica completamente la distribuzione di X
• composta, quando non specifica completamente la distribuzione di X
Sia X ~ N (µ, s2 = 9)
6
Formulazione delle ipotesi su q
I sistemi di ipotesi più frequentemente usati sono i
seguenti:
" H 0 : θ = θ0
$ Ipotesi alternativa
# bidirezionale
$% H 1 : θ ≠ θ0
" H 0 : θ = θ0
$ Si può intendere come θ ≤ θ0
#
$% H 1 : θ > θ0 Ipotesi alternative
unidirezionali
" H 0 : θ = θ0
$ Si può intendere come θ ≥ θ0
#
$% H 1 : θ < θ0
Dove q0 è un valore dato. 7
Costruzione di test su µ
Un test è una regola per decidere tra le due ipotesi messe a confronto
sulla base delle sole informazioni campionarie.
Esempio (Levine et al.). Un’azienda produce scatole di cereali per la
colazione con un peso dichiarato pari a 368 gr. Il manager della
qualità vuole valutare se le scatole prodotte pesano in media 368 gr.
e a tale scopo estrae un campione di 25 scatole. Qualora risultasse
che le scatole pesano troppo o troppo poco, si dovrebbe indagare sui
motivi del malfunzionamento del processo produttivo.
In pratica, il manager vuole testare le due seguenti ipotesi:
8
Costruzione di test su µ
Le 25 scatole estratte con campionamento casuale vengono pesate
e successivamente si calcola la media campionaria dei pesi, che
costituisce una stima puntuale di µ. Anche se l’ipotesi nulla fosse
vera, sarebbe verosimile ottenere una statistica (media
campionaria) diversa dal vero valore del parametro (media della
popolazione, incognito) per effetto dell’errore campionario. Ciò
nonostante ci aspettiamo che in questo caso la media campionaria
risulti vicina a 368, cioè al valore della media della popolazione
specificato in H0.
Se ciò si verifica riteniamo H0 compatibile con i risultati campionari e
dunque la accettiamo.
Se, al contrario, il valore della media campionaria risulta troppo
distante da 368, riterremo poco verosimile l’ipotesi nulla e quindi
la rifiuteremo in favore di H1.
Ad es. istintivamente accetteremmo H0 per x = 367,9
mentre rifiuteremmo H0 per x = 320.
9
Costruzione di test su µ
Al fine di ricavare un criterio oggettivo per stabilire se il valore della media
campionaria sia “abbastanza vicino” o “troppo lontano” dal valore di µ
sotto ipotesi nulla, ci si basa sulla distribuzione di probabilità di una
determinata statistica campionaria che viene detta statistica test.
La statistica test da utilizzare in questo caso può essere la stessa media
campionaria oppure una sua trasformata lineare ottenuta standardizzando
con il valore di µ specificato da H0.
Valore di µ sotto
Statistiche X - µ0 H0.
test (var cas) X ; Z= Nel nostro
s/ n esempio µ0=368
N.B: è indifferente utilizzare l’una o l’altra di queste statistiche dal momento che esse
conducono sempre alle stesse conclusioni. 10
Utilizzo di X come statistica test
Supponiamo che X ~ N(µ , s2), con s2 noto.
Queste ipotesi riguardo alla forma della f(X) e al valore noto di s
possono derivare dalle nostre conoscenze a priori.
Esse sono dette ipotesi predeterminate o assunzioni e in questo
contesto si considerano vere.
Supponiamo di sottoporre a test la seguente coppia di ipotesi:
ìH 0 : µ = µ 0
í
î H1 : µ ¹ µ 0
Consideriamo come statistica test la media campionaria. In base alle
ipotesi predeterminate, sappiamo che
! σ2$
X ~ N # µ, &
" n %
11
Utilizzo di X come statistica test
Ora consideriamo che, se H0 è vera, la media della distribuzione
di X coincide con µ0: ! 2$
σ
X ~ N # µ0 , &
" n %
Pertanto, sotto H0 si ha che:
P {−zα /2 < Z < zα /2 } = 1− α
"$ X − µ0 &$
P #−zα /2 < < zα /2 ' = 1− α
$% σ/ n $( (*)
" σ σ &
P #µ0 − zα 2 < X < µ0 + zα 2 ' = 1− α
% n n (
Nella verifica di ipotesi a viene detto livello di significatività del
test ed è un valore piccolo scelto arbitrariamente.
I valori di a comunemente adottati sono: 0,10; 0,05; 0,01.
12
Regioni di accettazione e di rifiuto
s s
I due valori c1 = µ 0 - za 2 e c2 = µ 0 + za 2
n n
vengono detti valori critici e suddividono l’insieme dei possibili valori di X in
due sottoinsiemi detti regione di accettazione e regione di rifiuto (o regione
critica).
Se H0 è vera, la
probabilità che il valore
di X osservato sul
campione cada nella
zona di accettazione è
molto elevata e pari a
1–a, come specificato
nella (*).
Evento Decisione
L’evidenza campionaria non contraddice
H0, tuttavia non possiamo essere sicuri
x Î (c1 , c2 ) Si accetta H0 che H0 sia vera. L ’ errore che si può
commettere accettando H0 quando essa è
falsa viene detto errore del II tipo.
(
P −zα 2 < Z < +zα 2 = 1− α )
valori critici del test Z
Evento Decisione
ìH 0 : µ = µ 0
Ipotesi da sottoporre a test: í
î H1 : µ > µ 0
Valori di X “vicini” a µ0
non fanno dubitare di H0
Valori di Z “vicini” a 0
N.B. Si è convinti a priori che l’unica alternativa possibile a H0 sia H1: µ > µ0 .
Pertanto valori di X << µ0 (o di Z << 0) non mettono in dubbio l’ipotesi nulla. 19
ìH 0 : µ = µ 0
Test a una coda per la media í
î H1 : µ > µ 0
Evento Decisione
Regola x ≤ µ0 +
σ
zα (o z ≤ zα ) Si accetta H0
n
di decisione σ
x > µ0 + zα (o z > zα ) Si respinge H0 a favore di H1
n
20
! H : µ=µ
Test a una coda per la media # 0
" 0
#$ H 1 : µ < µ0
Evento Decisione
Regola σ
x ≥ µ0 − zα (o z ≥ −zα ) Si accetta H0
n
di decisione σ
x < µ0 − zα (o z < −zα ) Si respinge H0 a favore di H1
n
21
Regioni di accettazione e di rifiuto
H 0 : θ = θ0
H 1 : θ ≠ θ0
• c1, c2: valori critici 1-a
• a/2+a/2=a: probabilità di
errore del I tipo
• 1-a: probabilità di
accettare H0 quando è
vera a/2 a/2
• q0: valore del parametro
sotto l’ipotesi nulla
c1 q0 c2 X
Regione di rifiuto Regione di Regione di rifiuto
accettazione
22
Regioni di accettazione e di rifiuto
H 0 : θ = θ0
H 1 : θ < θ0
• c: valore critico 1-a
• a: probabilità di errore
del I tipo
• 1-a: probabilità di
accettare H0 quando è
vera a
• q0: valore del parametro
sotto l’ipotesi nulla
c q0 X
Regione di rifiuto Regione di accettazione
23
Regioni di accettazione e di rifiuto
H 0 : θ = θ0
H 1 : θ > θ0
• c: valore critico 1-a
• a: probabilità di errore
del I tipo
• 1-a: probabilità di
accettare H0 quando è
vera a
• q0: valore del parametro
sotto l’ipotesi nulla
q0 c X
Regione di accettazione Regione di rifiuto
24
Regioni di accettazione e di rifiuto
H 0 : θ = θ0
H 1 : θ ≠ θ0
• -za, za: valori critici 1-a
• a/2+a/2=a: probabilità di
errore del I tipo
• 1-a: probabilità di
accettare H0 quando è
vera a/2 a/2
• q0=0: valore del
parametro media sotto
-za 0 za Z
l’ipotesi nulla se la v.c. è
standardizzata Regione di rifiuto Regione di Regione di rifiuto
accettazione
25
Regioni di accettazione e di rifiuto
H 0 : θ = θ0
H 1 : θ < θ0
• -za: valore critico 1-a
• a: probabilità di errore
del I tipo
• 1-a: probabilità di
accettare H0 quando è
vera a
• q0=0: valore del
parametro media sotto
-za 0 Z
l’ipotesi nulla se la v.c. è
standardizzata Regione di rifiuto Regione di accettazione
26
Regioni di accettazione e di rifiuto
H 0 : θ = θ0
H 1 : θ > θ0
• za: valori critici 1-a
• a: probabilità di errore
del I tipo
• 1-a: probabilità di
accettare H0 quando è
vera a
• q0=0: valore del
parametro media sotto
0 za Z
l’ipotesi nulla se la v.c. è
standardizzata Regione di accettazione Regione di rifiuto
27
Esempio
Si vuole verificare se dopo alcuni interventi legislativi il fatturato medio in un certo
settore economico sia aumentato rispetto a quello dell’anno precedente pari a µ=2500.
Il fatturato è una v.c. Normale con varianza nota pari a s2=1296. Si prenda a = 5%.
(
2. Scelta della statistica test: Z = (X - 2500) 36 )
n ~ N (0,1)
3. Scelta del livello di significatività e della numerosità campionaria: fissiamo a=0,05 (e
quindi un valore critico pari a za=1,645) e una numerosità campionaria n=81.
6. Calcolo della statistica test: la media campionaria risulta essere x = 2510 e il valore
della statistica test z=(2510-2500)/(36/9)=2,5
7. Decisione: poiché il valore della statistica test cade nella regione di rifiuto
(2,5>1,645) rifiutiamo l’ipotesi nulla, sapendo che possiamo commettere un errore di I
tipo (rifiutare H0 quando invece è vera) con un probabilità pari al 5%.
28
Esempio
Un’associazione di consumatori vuole verificare
l’affermazione che un’azienda fa sul peso medio dei
barattoli di caffè da lei prodotti. Sull’etichetta si afferma che
il barattolo contiene almeno 3 Kg di caffè.
Come si H0: μ ≥ 3 ìH 0 : µ = µ 0
í
procede? H1: μ < 3 î H1 : µ < µ 0
29
Esempio
Supponiamo di sapere che: X ~ N(µ , s2), con s = 0,18
L’associazione esamina un
campione di n=36 confezioni, il cui
peso medio risulta pari a 2,97 Kg.
Scelto a=0,05 (con za=-1,645), si
procede al calcolo di z:
2,97 − 3
z = = −1
0,18 / 36
Decisione
Accetto H0 Rifiuto H0
H0 è vera Corretta Errore del I tipo
1–a a
H0 è falsa Errore del II tipo Corretta
b 1–b
Nella figura
pensate a q
come a µ
32
Errori di I e II tipo
La probabilità di errore del I tipo, a, è sempre nota, in quanto Esempio: !
fissata dal ricercatore. # H 0 : µ = µ0
"
b al contrario (tranne casi particolari) non si conosce poiché #$ H1 : µ > µ 0
dipende dal vero valore del parametro q. b è tanto più
piccolo quanto più il vero valore di q è lontano dal valore Supponiamo che la statistica
ipotizzato q0. test ci induca ad accettare H0
Una volta fissato a, l’unico modo per ridurre b è quello di pur essendo falsa
aumentare la numerosità campionaria.
Infatti, se lo stimatore del parametro è consistente, la sua
distribuzione (o quella della statistica test da esso derivata)
all’aumentare di n diventa sempre meno dispersa
perdendo probabilità sotto le code. a
Esempio: H0: µ=12 contro H1: µ>12. Il vero valore di µ è 13, µ0 µ1
b
ma non lo sappiamo
1-a 1-b
1-a 1-b
b a a ba
12 13 12 13 µ0 µ1
b
Qui µ1 è più vicino
Per n più piccolo Per n più grande a µ0 e b aumenta
Metodo dell’intervallo di confidenza
nei test a due code
Se l’ipotesi alternativa è del tipoH1: µ ≠ µ0 la regola di decisione si
può basare sull’intervallo di confidenza per µ.
ì X - µ0 ü
Infatti, sotto H0: P í- za 2 < < + za 2 ý = 1 - a
î s/ n þ
da cui si ricava:
ì s s ü
Pí X - za 2 < µ0 < X + za 2 ý = 1 - a
î n n þ
Quindi se H0 è vera vi è una probabilità pari a 1-a che l’intervallo di
confidenza per µ comprenda il valore ipotizzato µ0.
Regola di decisione
se p-value ≥ a si accetta H0
Test a una coda
se p-value < a si rifiuta H0
Conclusione: -1,64 -1 0 Z
Poiché 0,1587 > 0,05, ovvero p-value > a, si accetta H0.
N.B. Qualunque metodo si utilizzi per risolvere il test il risultato non cambia! 37
Test di ipotesi per popolazioni Normali
con s incognito
Si ricorre alla statistica test:
X − µ0
T =
s/ n
che sotto H0 (per ogni n) ha una distribuzione t di Student con n-1 g.d.l.
Essendo p-value < a, ovvero 0,0324 < 0,05, rifiuto l’ipotesi nulla.
0 2,103
1,8331 40
Test di ipotesi per una proporzione
Nel caso in cui la variabile di interesse X sia dicotomica con P(X=0)=1-π
e P(X=1)=π con π incognito, si può essere interessati a sottoporre a
verifica i seguenti sistemi di ipotesi:
! H : π =π " H : π =π ! H : π =π
# 0 0 $ 0 0
# 0 0
" # "
#$ H 1 : π < π 0 $% H 1 : π ≠ π 0 #$ H 1 : π > π 0
Si ricorre alla statistica test: p − π0
Z =
π 0 (1− π 0 ) n
che sotto H0 (per ng¥) ha una distribuzione N(0,1). π0 indica il valore
della proporzione ipotizzato sotto H0.
Ipotesi alternativa Regione di rifiuto
H1: π > π0 Z ≥ za
H1: π < π0 Z ≤ -za
H1: π ≠ π0 |Z| ≥ za/2 41
Esempio
Si vuole verificare se nel 2012 la percentuale degli occupati in Italia nel
settore agricolo è maggiore della percentuale registrata nel 2011 pari a
8,4%:
H0: π = 0,084 contro H1: π < 0,084
42
Esempio
Metodo di risoluzione del test con il p-value.
Essendo p-value < a, ovvero 0,0002 < 0,05, rifiuto l’ipotesi nulla.
-3,534 0
-2,326 43
Test Chi-quadro di indipendenza tra
variabili
Sia dato un campione casuale di n unità classificate secondo due
variabili qualitative, X, che può assumere H modalità, e Y, che può
assumere K modalità.
Allora, come noto, i dati possono essere organizzati in una tabella di
contingenza H x K, che in termini di frequenze relative risulta essere:
Dove pij è la frequenza relativa congiunta delle unità per cui si osserva la
modalità i della X e la modalità j della Y. 44
Test Chi-quadro di indipendenza tra
variabili
Estraendo a caso un elemento da tale popolazione avremo che:
P ( X = x i ∩Y = y j ) = pij
P ( X = x i ) = pi .
P (Y = y j ) = p. j
Vogliamo verificare l’ipotesi nulla H0: le due variabili sono
indipendenti, contro l’ipotesi alternativa H1: le due variabili non sono
indipendenti, ovvero:
" H : p =p p
$ 0 ij i . .j per almeno una
#
$% H 1 : pij ≠ pi . p. j combinazione (i,j)
45
Test Chi-quadro di indipendenza tra
variabili
In termini di frequenze assolute l’indipendenza implica che:
N i .N . j
N ij =
N
dove Nij è la frequenza assoluta di unità della popolazione (N in
totale) per cui si osserva la modalità i della X e la modalità j
della Y.
In questo caso se H0 fosse vera mi aspetterei che nel campione
si verifichi all’incirca la stessa cosa, ovvero:
ni .n. j *
nij ≈ =n ij
n
46
Test Chi-quadro di indipendenza tra
variabili
Per svolgere questo tipo di test si utilizza la statistica:
2
χ 2
H
= ∑∑
(Kn ij
−n *
ij )
*
i =1 j =1 n ij
Distribuzione c2(H-1)·(K-1)
Regione di Regione di
accettazione di H0 rifiuto di H0 48
Esempio
In un sondaggio pre-elettorale sono stati intervistati 200 individui. La
distribuzione delle preferenze secondo il sesso risulta essere la
seguente:
M F Totale
Partito A 30 65 95
Partito B 23 20 43
Partito C 37 25 62
Totale 90 110 200
49
Esempio
Per svolgere il test dobbiamo calcolare la statistica:
2
χ 2
= ∑∑
(
H n K
ij
−n *
ij )
i =1 j =1 nij"
Ci servono le frequenze teoriche sotto l’ipotesi di indipendenza, nij*:
M F Totale
Partito A 42,75 52,25 95
Partito B 19,35 23,65 43
Partito C 27,9 34,1 62
Totale 90 110 200
2 2
(30 − 42.75) (25 − 33.7)
χ2 = +… +
42.75 33.7
= 3.65 + 3.11+ 0.69 + 0.56 + 2.67 + 2.25 = 12.94 50
Esempio
Adesso dobbiamo confrontare il valore della statistica test c2 = 12,94
con il valore critico, c2a.
c2a è il valore della distribuzione (o variabile casuale) c2(3-1)(2-1) (Chi-
quadrato con (3-1)·(2-1) = 2 g.d.l.) che lascia a destra il 5% (a%)
della distribuzione. Dalle tavole della distribuzione Chi-quadrato
risulta: 2
χ 0,05;2 = 5,991
χ 2 = 12,94 > χ 0,05;2
2
= 5,991
Poiché si rifiuta H0, ovvero l’ipotesi che
la preferenza politica non dipenda dal sesso dell’elettore (per α=0,05,
ho il 5% di probabilità di sbagliare nel fare questa affermazione).
c2 = statistica test
P-value = 0,0015
a
5,991 12,94 c2
Regione di Regione di
accettazione di H0 rifiuto di H0
Test di
ipotesi
µ π Indipende
nza X e Y
X~ X ~ Altro X XeY
Normale o? dicotomic discrete
a
s2=nπ(1-
s2 noto s2 ignoto s2 noto s2 ignoto π)à s2
ignoto
Test con
n grande Test con
Nes T e s,
(TàN)
Test con
Nes
Argomento
non fatto
Test con
N e π0
Test c2
53
Schema riassuntivo
• Test con N e s:
X − µ0
Statistica test Z = ~ N (0,1)
σ n
• Test con T e s:
X − µ0
Statistica test T = ~ t n −1
S n
Nota:
1 n 1 n
X = ∑ X i (è una v.c.); x = ∑ x i (è una realizzazione della v.c.)
n i =1 n i =1
2 1 n 2 2 1 n
S = ∑ ( X i − X ) (è una v.c.); s = ∑ ( x i − x )2 (è una realizzazione della v.c.)
n −1 i =1 n −1 i =1
54
Schema riassuntivo
• Test con N e π0:
p − π0
Z = ~ N (0,1)
π 0 (1− π 0 ) n
• Test c2:
2
χ 2
H
= ∑∑
( n
K
ij
−n *
ij ) ~ χ (2H −1)⋅( K −1)
i =1 j =1 nij"
55
Schema riassuntivo
Modi per risolvere un test di ipotesi: