Sei sulla pagina 1di 55

Statistica: Verifica di ipotesi statistiche

Alessandro Barbiero

EMA at UNIMI

a.a. 2020/2021

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 1 / 55
Introduzione

Obiettivo di fondo di un’indagine statistica è la conoscenza delle


caratteristiche delle variabili di interesse nella popolazione da cui è
estratto il campione
ma mentre con la teoria della stima si stima il parametro ignoto, con
la verifica delle ipotesi si confronta la stima campionaria con un
ipotetico valore del parametro ignoto, in genere formulato in base a
conoscenze pregresse. Si valuta cioè la conformità della stima
campionaria a un ipotetico valore del parametro
la differenza tra la stima campionaria e il parametro può essere di
natura accidentale, cioè legata al caso, riconducibile alla naturale
variabilità campionaria, oppure significativa

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 2 / 55
Definizioni preliminari

Definizione 4.1
Viene chiamata ipotesi statistica ogni assunzione formulata nei riguardi di
uno o più parametri di una variabile casuale o nei riguardi della sua
distribuzione.
L’ipotesi si chiama non parametrica se si riferisce al modello probabilistico
che caratterizza la v.c. (la sua f.p. o la sua f.d.); parametrica se riguarda il
valore di un suo parametro.
L’ipotesi parametrica è semplice se presuppone un solo valore del
parametro, composta se presuppone più valori.
L’ipotesi sottoposta a verifica si chiama ipotesi nulla, H0 . L’insieme degli
ipotetici valori assumbili dal parametro θ costituisce l’insieme delle ipotesi
ammissibili; l’ipotesi nulla è una di queste. Tutti i valori delle ipotesi
ammissibili diversi da quelli dell’ipotesi nulla riguardano le ipotesi
alternative, H1 .

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 3 / 55
Definizioni preliminari

Esempio:

H0 : θ = θ 0 contro H1 : θ < θ0
(ipotesi alternativa unidirezionale o unilaterale) oppure

H0 : θ = θ 0 contro H1 : θ 6= θ0

(ipotesi alternativa bidirezionale o bilaterale)

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 4 / 55
Definizioni preliminari

Definizione 4.2
Viene chiamato test statistico ogni metodo impiegato per verificare
un’ipotesi statistica

Definizione 4.3
Viene chiamata statistica test una funzione dei dati campionari utilizzata
nel test
Un test è parametrico se verifica un’ipotesi parametrica su una v.c. di
distribuzione nota; è a distribuzione libera (distribution-free) se verifica
un’ipotesi non parametrica o parametrica, ma prescindendo dalla
distribuzione della v.c.

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 5 / 55
Passi nella verifica di ipotesi

1 si formulano le ipotesi nulla e alternativa


2 si estrae dalla popolazione un campione bernoulliano di ampiezza n
3 si costruisce la regola di decisione del test, che divide in due lo spazio
campionario Ωn : una zona contenente i campioni che portano ad
accettare H0 e l’altra zona che porta a rifiutare H0 .
Nella regola di decisione del test è presente implicitamente la
possibilità di commettere un errore.
Solitamente, si sintetizzano i dati campionari attraverso una loro
funzione, la statistica test (T̃n ), e si valuta probabilisticamente se tali
dati sostengono o meno l’ipotesi nulla.

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 6 / 55
Definizioni preliminari

Definizione 4.4
Si chiama zona di accettazione e si indica con Θ0 , il sottoinsieme dei valori
della statistica test che portano all’accettazione di H0

Definizione 4.5
0
Si chiama zona di rifiuto, o regione critica, e si indica con Θ , il
sottoinsieme dei valori della statistica test che portano al rifiuto di H0

Definizione 4.6
Si chiama valore critico del test il valore t̃c che divide la zona di
accettazione dalla zona di rifiuto

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 7 / 55
Definizioni preliminari

Definizione 4.7
Si chiama livello di significatività o ampiezza del test e si indica con α, la
probabilità che la statistica test assuma valori nella regione critica quando
l’ipotesi nulla è vera:
0
/ Θ0 |H0 )
P(T̃n ∈ Θ |H0 ) = α = P(T̃n ∈

Definizione 4.7
Si chiama potenza del test e si indica con 1 − β, la probabilità che la
statistica test assuma valori nella regione critica quando l’ipotesi nulla è
falsa:
0
P(T̃n ∈ Θ |H1 ) = 1 − β = P(T̃n ∈ / Θ0 |H1 )

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 8 / 55
Tipi di errori

Poiché la decisione si basa su dati campionari c’è sempre la possibilità di


commettere errori, che possono essere di due tipi, riassunti nella tabella
seguente:
Rifiuto H0 Accetto H0
H0 è vera errore Io tipo decisione corretta
α 1−α
H0 è falsa decisione corretta errore di IIo tipo
1−β β

Abbiamo già detto che 1 − β rappresenta la potenza del test; 1 − α lo


chiamiamo coefficiente di confidenza (analogo a livello di confidenza per la
stima intervallare)

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 9 / 55
Ipotesi bilaterali e regione di rifiuto

quando l’ipotesi altenativa è unilaterale, si ha un unico valore critico


che divide la zona di rifiuto dalla zona di accettazione
quando invece l’ipotesi alternativa è bilaterale, i valori critici sono
due, essendo la zona di rifiuto costituita da due intervalli illimitati
posti sulle due code della distribuzione della statistica test, sulle quali
la probabilità dell’errore di prima specie α viene ripartito in due parti
uguali pari a α/2. Chiariremo questo aspetto introducendo i prossimi
test statistici particolari.

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 10 / 55
Verifica di un’ipotesi sulla media nel caso di varianza nota
Sia X ∼ N(µ, σ 2 ), con µ ignota e σ 2 nota.
Si consideri il seguente sistema di ipotesi su µ:
H0 : µ = µ0 contro H1 : µ 6= µ0
Si estrae un campione di dimensione n e si calcola x̄ . Essendo x̄ una stima
di µ, valori di x̄ prossimi a µ0 portano a ritenere plausibile l’ipotesi
H0 : µ = µ0 , mentre valori di x̄ lontani da µ0 portano a ritenere H0 non
plausibile.
E’ possibile utilizzare la statistica test
X̄ − µ0
Z= (1)
√σ
n

che se H0 è vera ha distribuzione N(0, 1). Allora detto z il valore osservato


di Z la regola di decisione è la seguente
Si accetta H0 se −z1−α/2 < z < z1−α/2
Si rifiuta H0 se z ≤ −z1−α/2 o z ≥ z1−α/2
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 11 / 55
Verifica di un’ipotesi sulla media nel caso di varianza nota
Figure: Regioni di accettazione e di rifiuto per H1 : µ 6= µ0

Regione Regione
di rifiuto di rifiuto

α α
Regione di accettazione
2 2

zα z1−α
2 0 2

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 12 / 55
Verifica di un’ipotesi sulla media nel caso di varianza nota

Se H1 : µ > µ0 :

Si accetta H0 se z < z1−α


Si rifiuta H0 se z ≥ z1−α

Se H1 : µ < µ0 :

Si accetta H0 se z > zα
Si rifiuta H0 se z ≤ zα = −z1−α

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 13 / 55
Verifica di un’ipotesi sulla media nel caso di varianza nota

Figure: Regioni di accettazione e di rifiuto: a sx per H1 : µ < µ0 ; a dx per


H1 : µ > µ 0

Regione Regione
di rifiuto di rifiuto

α Regione di accettazione Regione di accettazione α

zα 0 0 z1−α

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 14 / 55
Esempio

Una macchinetta per il the dovrebbe erogare a regime 60 ml di the per


bicchiere, con uno scarto quadratico medio di 5 ml.
Il tecnico ha dei dubbi sul suo corretto funzionamento e misura il
contenuto medio di 20 bicchieri, che risulta pari a 57 ml. Assumendo che il
contenuto di the per bicchiere si distribuisca normalmente, effettuare un
opportuno test di ipotesi per verificare se la macchina funziona
correttamente, con un livello di significatività del 5%.

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 15 / 55
Esempio

Chiamiamo X il contenuto di the nel bicchiere, per ipotesi si ha


X ∼ N(µ, σ 2 ).
Dal testo sappiamo che σ = 5.
Il sistema di ipotesi che andiamo a considerare per µ è il seguente:

H0 : µ = µ0 = 60

contro
H1 : µ 6= 60
X̄ −µ0
La statistica test Z = σ
√ , che sotto H0 si distribuisce come una normale
n
57−60
standard, assume sul campione esaminato il valore z = 5/ √
20
= −2.68.
Essendo α = 0.05, abbiamo che la regione di accettazione del test è data
da (−z0.975 , +z0.975 ) = (−1.96, +1.96), mentre la regione di rifiuto è
costituita da (−∞, −1.96] ∪ [1.96, +∞).

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 16 / 55
Esempio

Cadendo z nella regione di rifiuto, il test rifiuta l’ipotesi nulla H0 a favore


di H1 : i dati suffragano cioè l’ipotesi che la macchina non funzioni più
correttamente.

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 17 / 55
Verifica di un’ipotesi sulla media nel caso di varianza ignota
Sia X ∼ N(µ, σ 2 ), con µ e σ 2 entrambe ignote.
Si consideri il seguente sistema di ipotesi su µ:
H0 : µ = µ0 contro H1 : µ 6= µ0
La procedura da seguire è analoga alla precedente, ma essendo la varianza
σ 2 ignota non è possibile utilizzare la statistica test Z ; σ 2 va stimata con
S 2 e si arriva alla statistica test
X̄ − µ0
T = (2)
S

n
che se H0 è vera ha distribuzione t di Student con g = n − 1 gradi di
libertà. Allora detto t il valore osservato di T , la regola di decisione è la
seguente

Si accetta H0 se −tn−1;1−α/2 < t < tn−1;1−α/2


Si rifiuta H0 se t ≤ −tn−1;1−α/2 o t ≥ tn−1;1−α/2
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 18 / 55
Verifica di un’ipotesi sulla media nel caso di varianza ignota

Se H1 : µ > µ0 :

Si accetta H0 se t < tn−1;1−α


Si rifiuta H0 se t ≥ tn−1;1−α (sulla coda destra)

Se H1 : µ < µ0 :

Si accetta H0 se t > tn−1;α


Si rifiuta H0 se t ≤ tn−1;α = −tn−1;1−α (sulla coda sinistra)

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 19 / 55
Esempio
Da un’indagine campionaria eseguita su 20 soggetti è emerso che la spesa
alimentare media mensile è pari a 160 euro, mentre la varianza campionaria è pari
a s 2 = 350.
a) Scrivere la regola di rifiuto per il test H0 : µ = 180 contro H1 : µ < 180 al
livello α = 0.01
b) Sulla base dei risultati campionari, accettereste o rifiutereste l’ipotesi nulla?

a)
H0 : µ = µ0 = 180 vs H1 : µ < µ0 = 180
x̄n − µ0
Uso la statistica t = e rifiuto H0 se
√s
n
t < tαn−1 = t0.01
19 19
= −t0.99 = −2.53948.
160−180
b) Per i dati del problema si ha t = √ = −4.78, quindi rifiuto H0 .
350/20

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 20 / 55
Esempio
0.4
0.3
0.2
f(t)

0.1

t t19
0.01 t19
0.99
0.0

−4 −2 0 2 4

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 21 / 55
Verifica di un’ipotesi sull’uguaglianza di due medie
(varianze note)
Siano X1 e X2 due v.c. indipendenti con X1 ∼ N(µ1 , σ12 ) e X2 ∼ N(µ2 , σ22 ).
Si consideri il sistema di ipotesi
H0 : µ1 = µ2

contro
H1 : µ1 6= µ2 oppure H1 : µ1 > µ2 oppure H1 : µ1 < µ2
Per verificare H0 vengono estratti dalle due popolazioni due campioni di dimensioni n1 e n2 , con
medie campionarie x̄1 e x̄2 , determinazioni di X̄1 e X̄2 . La v.c. X̄1 − X̄2 ha distribuzione normale
di media µ1 − µ2 e varianza σ12 /n1 + σ22 /n2 .
Si può allora considerare la statistica test

(X̄1 − X̄2 ) − (µ1 − µ2 )


Z = q
σ12 σ22
n1
+ n2

che sotto H0 si riduce a


(X̄ − X̄2 )
Z = q12 ∼ N(0, 1)
σ1 σ22
n1
+ n2

Allora le regole di decisione sono le stesse che per il test su una media con varianza nota.

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 22 / 55
Verifica di un’ipotesi sull’uguaglianza di due medie
(varianze note)

Nota: Se le varianze di X1 e X2 fossero uguali (diciamo σ12 = σ22 = σ 2 ),


allora la statistica test precedente diventa

X̄1 − X̄2 X̄1 − X̄2


Z=q =q
2 2
σ /n1 + σ /n2 σ 2 · nn11+n
n2
2

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 23 / 55
Test per due medie (varianze note): esempio

Due campioni di pazienti di ampiezza 70 e 110 sono sottoposti a due


trattamenti diversi che producono tempi medi di guarigione
rispettivamente di 57 e 60 giorni. Se i tempi di risposta sono distribuiti
normalmente con deviazioni standard note pari a 8 e 12 giorni
rispettivamente, verificare al livello di significatività del 1% se i due
trattamenti hanno pari efficacia o meno.

Chiamiamo X1 e X2 i tempi di guarigione dei pazienti sottoposti ai due


diversi trattamenti; dal testo si evince che X1 ∼ N(µ1 , σ1 = 8) e
X2 ∼ N(µ2 , σ1 = 12).
Si tratta di testare l’ipotesi nulla H0 : µ1 = µ2 contro l’alternativa
H1 : µ1 6= µ2

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 24 / 55
Test per due medie (varianze note): soluzione

La statistica test è
X̄1 − X̄2
Z=r
σ12 σ22
n1 + n2

e vale
57 − 60
z=q 2 = −2.01
8 122
70 + 110

Essendo l’alternativa bilaterale e α = 0.01, si rifiuta H0 per valori di |z|


maggiori di z1−α/2 = z0.995 = 2.58. Dato che |z| = 2.01 < 2.58, si accetta
l’ipotesi nulla che i due trattamenti abbiano la stessa efficacia.
Domanda: cosa sarebbe successo se avessimo scelto α = 5%?
Risposta: in questo caso avremmo rifiutato H0 (VERIFICATE!)

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 25 / 55
Verifica di un’ipotesi sull’uguaglianza di due medie
(varianze uguali ma ignote)
Nel caso in cui le due varianze fossero supposte uguali, ma ignote, è necessario stimare la
varianza comune σ 2 , e lo si fa attraverso lo stimatore

S12 g1 + S22 g2
S̄ 2 =
g1 + g2

con g1 = n1 − 1, g2 = n2 − 1 e S12 e S22 le varianze campionarie corrette per i due campioni


estratti da X1 e X2 . S̄ 2 è quindi una sorta di media ponderata delle due varianze campionarie
corrette.
La varianza di X̄1 − X̄2 si stima quindi attraverso

S12 g1 + S22 g2 n1 + n2 n1 + n2
SX̄2 = · = S̄ 2 ·
1 −X̄2 g1 + g2 n1 n2 n1 n2

e si utilizza la statistica test


X̄ − X̄2
T = q1
S2
X̄1 −X̄2

che sotto H0 si distribuisce come una t di Student con g = g1 + g2 = n1 + n2 − 2 gradi di libertà.


Le regole di decisione sono quelle del test per una media con varianza ignota.

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 26 / 55
Esempio

Due tipi di soluzioni chimiche sono state provate per misurarne il pH.
L’analisi di 6 campioni della prima soluzione ha mostrato un pH medio di
7.52 con scarto quadratico medio di 0.032; l’analisi di 5 campioni della
seconda soluzione ha mostrato un pH medio di 7.49 con uno scarto
quadratico medio di 0.024. Stabilire se le due soluzioni abbiano valori
uguali o diversi del pH usando il livello di significatività α = 0.05.

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 27 / 55
Esempio
Occorre anzitutto assumere che i pH delle due soluzioni siano modellabili come v.c. normali
indipendenti con la stessa varianza.
Quindi possiamo testare il sistema di ipotesi:

H0 : µ1 = µ2 contro H1 : µ1 6= µ2

Essendo
n1 = 6, x̄1 = 7.52, s1 = 0.032, e
n2 = 5, x̄2 = 7.49, s2 = 0.024
la stima congiunta della varianza σ 2 è

5 · 0.0322 + 4 · 0.0242
s̄ 2 = = 0.000825
6+5−2
e quindi la statistica test, che sotto H0 si distribuisce come una t di Student con
n1 + n2 − 2 = 9 gl, vale
r
1 1
t = (7.52 − 7.49)/ 0.000825 · ( + ) = 1.72
6 5

La regione di rifiuto è data dall’unione dei due intervalli esterni (−∞, −t0.975;9 = −2.262] e
[t0.975;9 = 2.262, +∞); la regione di accettazione è l’intervallo compreso tra i due quantili. Si
conclude che al livello di significatività del 5% le due soluzioni hanno lo stesso livello medio di
pH.
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 28 / 55
Verifica di ipotesi su una proporzione
Per una variabile dicotomica, che assume una certa caratteristica A con
probabilità p, si voglia verificare l’ipotesi nulla

H0 : p = p0

contro
H1 : p 6= p0 oppure H1 : p > p0 oppure H1 : p < p0
A tal fine si estrae dalla popolazione un campione bernoulliano di dimensione n e
si determina il numero x di unità nel campione che presentano la caratteristica A.
La v.c. X che descrive il numero di unità nel campione che presentano la
caratteristica A è una binomiale di parametri n e p. Se H0 è vera, X ∼ Bin(n, p0 ).
Si può allora costruire la statistica test

X − np0 P̂ − p0
Z= √ =p ≈ N(0, 1)
np0 q0 p0 q0 /n

che se n è sufficientemente grande... si distribuisce approssimativamente come


una normale standard. Allora una volta calcolato il valore z sul campione, si
procede come per il test della media di una normale con varianza nota.
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 29 / 55
Esempio
Si effettuano 500 lanci di una moneta e si ottiene 280 volte testa. Decidere
se la moneta è truccata oppure no, con un livello di significatività del 5%.
Soluzione. Il sistema di ipotesi da testare è il seguente:

H0 : p = p0 = 0.5 contro H1 : p 6= 0.5

dove p indica la probabilità che esca testa a ogni lancio e p0 è la


probabilità che esca testa se la moneta è non truccata.
La statistica test Z vale
p̂ − p0 280/500 − 0.5
z=p =p = 2.683
p0 (1 − p0 )/n 0.5 · 0.5/500

Essendo l’ipotesi alternativa bilaterale, la zona di rifiuto del test è data dai
valori di z ≥ z1−α/2 = 1.96 o ≤ −z1−α/2 = −1.96 (α = 5%). Cadendo z
nel primo intervallo, rifiutiamo quindi l’ipotesi nulla a favore
dell’alternativa: l’ipotesi che la moneta non sia truccata non è plausibile!

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 30 / 55
Test per l’uguaglianza di due proporzioni
Siano X1 e X2 due variabili indipendenti dicotomiche (bernoulliane) con parametri
p1 e p2 rispettivamente. Si consideri il sistema di ipotesi
H0 : p1 = p2
contro
H1 : p1 6= p2 oppure H1 : p1 > p2 oppure H1 : p1 < p2
Per verificare H0 vengono estratti dalle due popolazioni due campioni di
dimensioni n1 e n2 , con proporzioni campionarie p̂1 e p̂2 , determinazioni di P̂1 e
P̂2 . Si può allora considerare la statistica test
P̂1 − P̂2
Z=q
P̂(1 − P̂)( n11 + 1
n2 )

dove P̂ è la proporzione campionaria calcolata sulle complessive n1 + n2 unità


statistiche dei due campioni:
P̂1 n1 + P̂2 n2
P̂ =
n1 + n2
Sotto H0 , Z si distribuisce approssimativamente come una N(0, 1). Allora le
regole di decisione sono le stesse che per il test su una media con varianza nota.
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 31 / 55
Esempio

In uno studio sociale si vuole stabilire se la proporzione di mamme


lavoratrici è maggiore nel nord d’Italia rispetto al sud. A questo scopo è
stato selezionato un campione di 50 mamme delle nord e uno di 40
mamme del sud. Delle 50 mamme del nord 43 sono risultate lavoratrici,
mentre delle 40 mamme del sud 31 sono risultate occupate. Si risolva il
problema di verifica d’ipotesi usando un livello di significatività α = 0.05.

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 32 / 55
Esempio
Dobbiamo testare che la proporzione di mamme del nord che lavorano, p1 ,
sia uguale o maggiore alla proporzione di mamme del sud che lavorano, p2 :

H0 : p1 = p2 contro H1 : p1 > p2

Per il nostro problema abbiamo n1 = 50, p̂1 = 43/50 = 0.86, n2 = 40 e


p̂2 = 31/40 = 0.775. La proporzione di mamme lavoratrici nord+sud è
43+31
p̂ = 50+40 = 0.822.
La statistica test assume valore
0.86 − 0.775
z=q = 1.048.
1 1
0.822 · 0.178( 50 + 40 )

La regione di rifiuto è data dall’intervallo [z0.95 = 1.645, +∞), mentre la


regione di accettazione è (−∞, z0.95 = 1.645). Quindi il test accetta
l’ipotesi H0 di uguaglianza delle due proporzioni.

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 33 / 55
Il p-value di un test

Data una statistica test, il p-value indica la probabilità con cui si


osserverebbe, sotto H0 , un valore più estremo – con riferimento all’ipotesi
alternativa H1 – di quello effettivamente osservato.

Fissato il livello α del test, si rifiuta H0 se il p-value è più piccolo di α e,


viceversa, si accetta H0 se il p-value è più grande di α.
Valori piccoli del p-value, prossimi cioè allo zero, fanno quindi propendere
per il rifiuto di H0 .

Questa regola è valida qualsiasi sia il test che stiamo considerando!

In particolar modo, la regola del p-value è utile poiché tutti i software


statistici producono come output un p-value associato alla statistica test
che deve essere interpretato alla luce del valore predeterminato di α che
abbiamo in mente per il nostro test.

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 34 / 55
Il p-value

Come si calcola il p-value esattamente?

Nel caso della verifica di ipotesi del tipo H0 : µ = µ0 (v.c. X Normale con
varianza σ 2 nota)

quando H1 : µ 6= µ0 , p-value= 2 · P(Z > |z|) = 2(1 − Φ(|z|))

quando H1 : µ>µ0 , p-value= P(Z >z) = 1 − Φ(z)

quando H1 : µ<µ0 , p-value= P(Z <z) = Φ(z)

In modo analogo, si calcola il p-value per il test sulla media µ di una


normale con varianza ignota (sostituire Z con T , z con t, Φ con F )

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 35 / 55
Il p-value
Figure: Illustrazione del p-value per il test Z per il sistema d’ipotesi H0 : µ = µ0
vs H1 : µ > µ0

α
Regione di accettazione Regione di rifiuto

0 z1−α

p − value

0 z1−α z

p − value

0 z z1−α

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 36 / 55
Il p-value
Figure: Illustrazione del p-value per il test Z per il sistema d’ipotesi H0 : µ = µ0
vs H1 : µ 6= µ0

α 2 α 2
Regione di rifiuto Regione di accettazione Regione di rifiuto

− z1−α 2 0 z1−α 2

p − value

−z− z1−α 2 0 z1−α 2 z

p − value

− z1−α 2 −z 0 z z1−α 2

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 37 / 55
Esempio

Consideriamo l’esempio dei bicchierini di the.

H0 : µ = µ0 = 60

contro
H1 : µ 6= 60
La statistica test valeva z = −2.68.
Visto che l’ipotesi alternativa è bilaterale, calcoliamo il p-value come

p − value = 2P(Z > |z|) = 2[1 − P(Z < |z|)] = 2[1 − P(Z < 2.68)]
= 2(1 − 0.99632) = 0.00736

Essendo p − value = 0.00736 < 0.05 = α, si rifiuta H0 . Si rifiuterebbe H0


anche considerando α = 1%. Accetteremmo H0 se fissassimo α = 0.1%.

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 38 / 55
Esempio

Consideriamo l’esempio precedente, cambiando l’ipotesi alternativa:

H0 : µ = µ0 = 60 contro H1 : µ < µ0 = 60
La statistica test vale sempre z = −2.68. Il p-value è

p − value = P(Z < z) = P(Z < −2.68) = 0.00368

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 39 / 55
Test di indipendenza
Si considerino due variabili X e Y rilevate congiuntamente su una
popolazione. Può essere interessante stabilire se esse sono stocasticamente
indipendenti o meno. Sulla base delle informazioni campionarie
(X1 , Y1 ), . . . , (Xn , Yn ) si vuole saggiare il seguente sistema d’ipotesi:

H0 : X e Y sono indipendenti contro H1 : X e Y non sono indipendenti

Dopo aver organizzato i dati in una tabella di contingenza con frequenze


congiunte nij , per verificare se c’è o meno indipendenza stocastica tra X e
Y si utilizza la seguente statistica test:
h X
k
X (n̂ij − nij )2
X2 =
i=1 j=1
n̂ij

che sotto H0 si distribuisce, per n grande, approssimativamente come una


v.c. chi quadrato con (h − 1)(k − 1) gradi di libertà.

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 40 / 55
Test di indipendenza

Più le frequenze osservate nij sono diverse da quelle attese n̂ij in ipotesi di
indipendenza stocastica, più si è propensi a rifiutare l’ipotesi nulla. Quindi
la regione di rifiuto è costituita da tutti i valori di X 2 che sono maggiori di
una certa soglia, che viene determinata in base al livello di significatività α
prefissato.
Regione di accettazione e di rifiuto
Accetto H0 se X 2 < χ2(h−1)(k−1);1−α
Rifiuto H0 se X 2 ≥ χ2(h−1)(k−1);1−α

dove χ2(h−1)(k−1);1−α è il quantile di livello 1 − α della v.c. χ2 con


(h − 1)(k − 1) gradi di libertà.
N.B.:L’approssimazione col la v.c. chi quadrato è soddisfacente se n > 30
e tutti i nij sono maggiori di 5.

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 41 / 55
Test di indipendenza

Regione di accettazione Regione di rifiuto

0 χ2(h−1)(k−1), 1−α
X2

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 42 / 55
Esempio

Maturità tecnica/comm scientifica classica totale


Soddisfazione
bassa 57 10 5 72
media 35 45 10 90
alta 28 29 21 78
totale 120 84 36 240

Per questa tabella di contingenza, abbiamo già visto che X 2 = 44.05. Se


vogliamo testare il sistema d’ipotesi

H0 : X e Y sono indipendenti contro H1 : X e Y non sono indipendenti

al livello di significatività del 5%, allora la zona di rifiuto è data da tutti i


valori X 2 ≥ χ2(3−1)(3−1);0.95 = χ24;0.95 = 9.48773; la zona di accettazione è
data da tutti i valori X 2 < χ2(3−1)(3−1);0.95 = χ24;0.95 = 9.48773
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 43 / 55
Esempio

Quindi, dato che il valore della statistica test cade nella zona di rifiuto, si
rifiuta l’ipotesi di indipendenza H0 .
Si noti che il valore dell’indice di Pearson normalizzato χ̃2 per la tabella di
contingenza l’avevamo calcolato come 0.0918, un valore piuttosto basso,
che sembrava significare un livello di connessione molto basso e una certa
vicinanza alla condizione di indipendenza. Il test di indipendenza smentisce
quella interpretazione, o - meglio - ci dice che c’è una connessione magari
bassa, ma significativa, tra le due variabili.

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 44 / 55
Analisi della varianza (ANOVA)
Si supponga che la popolazione di riferimento sia suddivisa in k
sottopopolazioni (gruppi) e sia Y il carattere d’interesse che viene rilevato
nelle k sottopopolazioni. Si ipotizzi che nei vari gruppi la variabile Y
segua una distribuzione Normale con la medesima varianza σ 2 (ipotesi di
omoschedasticità) ma con medie µi non necessariamente uguali. Sulla
base di un campione di dati si vuole verificare il seguente sistema d’ipotesi:

H0 : µ1 = µ2 = · · · = µk contro H1 : Almeno una uguaglianza non vale

Yij : osservazione j-esima nel gruppo i, con i = 1, . . . , k, j = 1, . . . , ni


Ȳi = n1i nj=1
P i
Yij : media campionaria del gruppo i
Obiettivo: con la tecnica ANOVA si stabilisce se la diversità tra le medie
campionarie è “piccola” e quindi dovuta al caso, per cui H0 è da
considerarsi vera, oppure è sufficientemente elevata (statisticamente
significativa) da doversi imputare ad un causa sistematica: l’appartenenza
delle osservazioni a gruppi distinti in cui le medie di popolazione µi sono
effettivamente diverse.
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 45 / 55
ANOVA
Pk
Posto n = i=1 ni , abbiamo che la media campionaria complessiva di Y è
data da
k k X i n
1X 1X
Ȳ = ni Ȳi = Yij
n i=1 n i=1 j=1

Si può poi dimostrare la seguente uguaglianza

X ni
k X k
X ni
k X
X
(Yij − Ȳ )2 = ni (Ȳi − Ȳ )2 + (Yij − Ȳi )2
i=1 j=1 i=1 i=1 j=1

che si può riscrivere come

DT = DB + DW

dove

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 46 / 55
ANOVA

Pn
La quantità DT = n1 ki=1 j=1 j
(Yij − Ȳ )2 è detta devianza totale delle n
P

osservazioni e misura quanto le n osservazioni Yij sono diverse dalla loro


media comune Ȳ . E’ quindi una misura complessiva di dispersione dei dati.
La quantità DB = ki=1 ni (Ȳi − Ȳ )2 è detta devianza spiegata o between
P

e misura quanto le k medie campionarie Ȳi sono diverse tra loro. Se sono
tutte uguali allora coincidono con la loro media che coincide con la media
generale Ȳ .
La quantità DW = ki=1 nj=1 (Yij − Ȳi )2 è detta devianza residua o
P P i

within e misura quanto le n osservazioni Yij di ogni sottopopolazione sono


diverse dalla loro media di gruppo Ȳi .
Obiettivo: per stabilire se le medie campionarie di gruppo sono
significativamente diverse basta dunque verificare se la componente DB è
elevata rispetto a DW

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 47 / 55
ANOVA

A questo scopo si calcola la statistica test F , data dal rapporto tra DB e


DW , opportunamente standardizzate. Più in specifico, siano
Ŝ 2 = DB /(k − 1) e S̄ 2 = DW /(n − k), la statistica test da utilizzare per
verificare se le medie campionarie di gruppo sono significativamente
diverse tra loro è
Ŝ 2
F = 2

che sotto H0 , ossia se µ1 = µ2 = · · · = µk , si distribuisce come una v.c. F
di Snedecor con k − 1 e n − k gradi di libertà e si indica F ∼ Fk−1,n−k .

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 48 / 55
ANOVA

Table: Tabella ANOVA

Fonte g.d.l. Devianza Varianza Statistica test


di variabilità
Ŝ 2
Between k −1 DB Ŝ 2 = DB /(k − 1) F =
S̄ 2
(sistematica)
Within n−k DW S̄ 2 = DW /(n − k)
(casuale)
Totali n−1 DT S 2 = DT /(n − 1)

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 49 / 55
ANOVA

Si rifiuterà l’ipotesi nulla di uguaglianza delle medie se DB è elevata


rispetto a DW (se le medie campionarie di gruppo sono sufficientemente
diverse tra loro), per cui si rifiuterà per valori elevati della statistica test F .
Fissato un livello di significatività α la zona di accettazione di H0 è data
dai valori di F appartenenti all’intervallo [0, fk−1,n−k;1−α ) e la zona di
rifiuto è data dai valori di F appartenenti all’intervallo [fk−1,n−k;1−α , +∞),
dove fk−1,n−k;1−α è il quantile della distribuzione Fk−1,n−k che lascia alla
sua sinistra una probabilità pari 1 − α e alla sua destra una probabilità pari
ad α.
In sintesi:
Regola di decisione ANOVA
Si accetta H0 se f < fk−1,n−k;1−α
Si rifiuta H0 se f ≥ fk−1,n−k;1−α

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 50 / 55
ANOVA

Formule utili per il calcolo delle devianze:


k
X
DB = ni Ȳi2 − nȲ 2
i=1

X ni
k X k
X k
X
DW = Yij2 − ni Ȳi2 = (ni − 1)Si2
i=1 j=1 i=1 i=1

dove Si2 = ni 1−1 nj=1 (Yij − Ȳi )2 (varianza campionaria corretta del gruppo
P i

i-esimo).
Si noti anche che le devianze (totale, between e within) sono uguali a n
volte le corrispondenti varianze non corrette (totale, between, within).

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 51 / 55
Esempio

Consideriamo l’esempio relativo a quel campione di individui sui quali abbiamo


rilevato titolo di studio (variabile di gruppo X ) e reddito annuo (variabile
dipendente Y ).

Y =Stipendio (×1000 euro) 20 30 40 totale


X =Livello di istruzione
licenza media 10 4 1 15
diploma 15 21 24 60
laurea 5 5 15 25
totale 30 30 40 100

(andate a riprendere i risultati relativi a medie e varianze).

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 52 / 55
Esempio
Vogliamo testare al livello di significatività α = 5% il sistema di ipotesi

H0 : µ1 = µ2 = µ3 vs H1 : Almeno un uguaglianza non vale

dove µi , i = 1, 2, 3 sono gli stipendi medi dei tre gruppi in cui è divisa la
popolazione (lavoratori con licenza media, con diploma, con laurea).
Essendo n = 100,

dB = n · s̃B2 = 100 · 9.75 = 975


2
dW = n · s̃W = 100 · 59.25 = 5925
e quindi, essendo k = 3,
dB /(k − 1) 975/2
f = = = 7.981
dW /(n − k) 5925/97
e il quantile f0.95,2,97 , dalle tavole, risulta compreso tra 3.07 e 3.15
(calcolandolo in R, è 3.09). Quindi rifiuto l’ipotesi di uguaglianza delle
medie.
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 53 / 55
Esempio

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 54 / 55
Esempio
1.0
0.8
0.6
f.d.
0.4
0.2

Regione di accettazione Regione di rifiuto


α f
0.0

0 2 fk−1, n−k, 1−α 4 6 8


f

Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 55 / 55

Potrebbero piacerti anche