Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Alessandro Barbiero
EMA at UNIMI
a.a. 2020/2021
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 1 / 55
Introduzione
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 2 / 55
Definizioni preliminari
Definizione 4.1
Viene chiamata ipotesi statistica ogni assunzione formulata nei riguardi di
uno o più parametri di una variabile casuale o nei riguardi della sua
distribuzione.
L’ipotesi si chiama non parametrica se si riferisce al modello probabilistico
che caratterizza la v.c. (la sua f.p. o la sua f.d.); parametrica se riguarda il
valore di un suo parametro.
L’ipotesi parametrica è semplice se presuppone un solo valore del
parametro, composta se presuppone più valori.
L’ipotesi sottoposta a verifica si chiama ipotesi nulla, H0 . L’insieme degli
ipotetici valori assumbili dal parametro θ costituisce l’insieme delle ipotesi
ammissibili; l’ipotesi nulla è una di queste. Tutti i valori delle ipotesi
ammissibili diversi da quelli dell’ipotesi nulla riguardano le ipotesi
alternative, H1 .
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 3 / 55
Definizioni preliminari
Esempio:
H0 : θ = θ 0 contro H1 : θ < θ0
(ipotesi alternativa unidirezionale o unilaterale) oppure
H0 : θ = θ 0 contro H1 : θ 6= θ0
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 4 / 55
Definizioni preliminari
Definizione 4.2
Viene chiamato test statistico ogni metodo impiegato per verificare
un’ipotesi statistica
Definizione 4.3
Viene chiamata statistica test una funzione dei dati campionari utilizzata
nel test
Un test è parametrico se verifica un’ipotesi parametrica su una v.c. di
distribuzione nota; è a distribuzione libera (distribution-free) se verifica
un’ipotesi non parametrica o parametrica, ma prescindendo dalla
distribuzione della v.c.
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 5 / 55
Passi nella verifica di ipotesi
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 6 / 55
Definizioni preliminari
Definizione 4.4
Si chiama zona di accettazione e si indica con Θ0 , il sottoinsieme dei valori
della statistica test che portano all’accettazione di H0
Definizione 4.5
0
Si chiama zona di rifiuto, o regione critica, e si indica con Θ , il
sottoinsieme dei valori della statistica test che portano al rifiuto di H0
Definizione 4.6
Si chiama valore critico del test il valore t̃c che divide la zona di
accettazione dalla zona di rifiuto
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 7 / 55
Definizioni preliminari
Definizione 4.7
Si chiama livello di significatività o ampiezza del test e si indica con α, la
probabilità che la statistica test assuma valori nella regione critica quando
l’ipotesi nulla è vera:
0
/ Θ0 |H0 )
P(T̃n ∈ Θ |H0 ) = α = P(T̃n ∈
Definizione 4.7
Si chiama potenza del test e si indica con 1 − β, la probabilità che la
statistica test assuma valori nella regione critica quando l’ipotesi nulla è
falsa:
0
P(T̃n ∈ Θ |H1 ) = 1 − β = P(T̃n ∈ / Θ0 |H1 )
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 8 / 55
Tipi di errori
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 9 / 55
Ipotesi bilaterali e regione di rifiuto
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 10 / 55
Verifica di un’ipotesi sulla media nel caso di varianza nota
Sia X ∼ N(µ, σ 2 ), con µ ignota e σ 2 nota.
Si consideri il seguente sistema di ipotesi su µ:
H0 : µ = µ0 contro H1 : µ 6= µ0
Si estrae un campione di dimensione n e si calcola x̄ . Essendo x̄ una stima
di µ, valori di x̄ prossimi a µ0 portano a ritenere plausibile l’ipotesi
H0 : µ = µ0 , mentre valori di x̄ lontani da µ0 portano a ritenere H0 non
plausibile.
E’ possibile utilizzare la statistica test
X̄ − µ0
Z= (1)
√σ
n
Regione Regione
di rifiuto di rifiuto
α α
Regione di accettazione
2 2
zα z1−α
2 0 2
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 12 / 55
Verifica di un’ipotesi sulla media nel caso di varianza nota
Se H1 : µ > µ0 :
Se H1 : µ < µ0 :
Si accetta H0 se z > zα
Si rifiuta H0 se z ≤ zα = −z1−α
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 13 / 55
Verifica di un’ipotesi sulla media nel caso di varianza nota
Regione Regione
di rifiuto di rifiuto
zα 0 0 z1−α
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 14 / 55
Esempio
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 15 / 55
Esempio
H0 : µ = µ0 = 60
contro
H1 : µ 6= 60
X̄ −µ0
La statistica test Z = σ
√ , che sotto H0 si distribuisce come una normale
n
57−60
standard, assume sul campione esaminato il valore z = 5/ √
20
= −2.68.
Essendo α = 0.05, abbiamo che la regione di accettazione del test è data
da (−z0.975 , +z0.975 ) = (−1.96, +1.96), mentre la regione di rifiuto è
costituita da (−∞, −1.96] ∪ [1.96, +∞).
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 16 / 55
Esempio
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 17 / 55
Verifica di un’ipotesi sulla media nel caso di varianza ignota
Sia X ∼ N(µ, σ 2 ), con µ e σ 2 entrambe ignote.
Si consideri il seguente sistema di ipotesi su µ:
H0 : µ = µ0 contro H1 : µ 6= µ0
La procedura da seguire è analoga alla precedente, ma essendo la varianza
σ 2 ignota non è possibile utilizzare la statistica test Z ; σ 2 va stimata con
S 2 e si arriva alla statistica test
X̄ − µ0
T = (2)
S
√
n
che se H0 è vera ha distribuzione t di Student con g = n − 1 gradi di
libertà. Allora detto t il valore osservato di T , la regola di decisione è la
seguente
Se H1 : µ > µ0 :
Se H1 : µ < µ0 :
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 19 / 55
Esempio
Da un’indagine campionaria eseguita su 20 soggetti è emerso che la spesa
alimentare media mensile è pari a 160 euro, mentre la varianza campionaria è pari
a s 2 = 350.
a) Scrivere la regola di rifiuto per il test H0 : µ = 180 contro H1 : µ < 180 al
livello α = 0.01
b) Sulla base dei risultati campionari, accettereste o rifiutereste l’ipotesi nulla?
a)
H0 : µ = µ0 = 180 vs H1 : µ < µ0 = 180
x̄n − µ0
Uso la statistica t = e rifiuto H0 se
√s
n
t < tαn−1 = t0.01
19 19
= −t0.99 = −2.53948.
160−180
b) Per i dati del problema si ha t = √ = −4.78, quindi rifiuto H0 .
350/20
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 20 / 55
Esempio
0.4
0.3
0.2
f(t)
0.1
t t19
0.01 t19
0.99
0.0
−4 −2 0 2 4
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 21 / 55
Verifica di un’ipotesi sull’uguaglianza di due medie
(varianze note)
Siano X1 e X2 due v.c. indipendenti con X1 ∼ N(µ1 , σ12 ) e X2 ∼ N(µ2 , σ22 ).
Si consideri il sistema di ipotesi
H0 : µ1 = µ2
contro
H1 : µ1 6= µ2 oppure H1 : µ1 > µ2 oppure H1 : µ1 < µ2
Per verificare H0 vengono estratti dalle due popolazioni due campioni di dimensioni n1 e n2 , con
medie campionarie x̄1 e x̄2 , determinazioni di X̄1 e X̄2 . La v.c. X̄1 − X̄2 ha distribuzione normale
di media µ1 − µ2 e varianza σ12 /n1 + σ22 /n2 .
Si può allora considerare la statistica test
Allora le regole di decisione sono le stesse che per il test su una media con varianza nota.
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 22 / 55
Verifica di un’ipotesi sull’uguaglianza di due medie
(varianze note)
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 23 / 55
Test per due medie (varianze note): esempio
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 24 / 55
Test per due medie (varianze note): soluzione
La statistica test è
X̄1 − X̄2
Z=r
σ12 σ22
n1 + n2
e vale
57 − 60
z=q 2 = −2.01
8 122
70 + 110
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 25 / 55
Verifica di un’ipotesi sull’uguaglianza di due medie
(varianze uguali ma ignote)
Nel caso in cui le due varianze fossero supposte uguali, ma ignote, è necessario stimare la
varianza comune σ 2 , e lo si fa attraverso lo stimatore
S12 g1 + S22 g2
S̄ 2 =
g1 + g2
S12 g1 + S22 g2 n1 + n2 n1 + n2
SX̄2 = · = S̄ 2 ·
1 −X̄2 g1 + g2 n1 n2 n1 n2
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 26 / 55
Esempio
Due tipi di soluzioni chimiche sono state provate per misurarne il pH.
L’analisi di 6 campioni della prima soluzione ha mostrato un pH medio di
7.52 con scarto quadratico medio di 0.032; l’analisi di 5 campioni della
seconda soluzione ha mostrato un pH medio di 7.49 con uno scarto
quadratico medio di 0.024. Stabilire se le due soluzioni abbiano valori
uguali o diversi del pH usando il livello di significatività α = 0.05.
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 27 / 55
Esempio
Occorre anzitutto assumere che i pH delle due soluzioni siano modellabili come v.c. normali
indipendenti con la stessa varianza.
Quindi possiamo testare il sistema di ipotesi:
H0 : µ1 = µ2 contro H1 : µ1 6= µ2
Essendo
n1 = 6, x̄1 = 7.52, s1 = 0.032, e
n2 = 5, x̄2 = 7.49, s2 = 0.024
la stima congiunta della varianza σ 2 è
5 · 0.0322 + 4 · 0.0242
s̄ 2 = = 0.000825
6+5−2
e quindi la statistica test, che sotto H0 si distribuisce come una t di Student con
n1 + n2 − 2 = 9 gl, vale
r
1 1
t = (7.52 − 7.49)/ 0.000825 · ( + ) = 1.72
6 5
La regione di rifiuto è data dall’unione dei due intervalli esterni (−∞, −t0.975;9 = −2.262] e
[t0.975;9 = 2.262, +∞); la regione di accettazione è l’intervallo compreso tra i due quantili. Si
conclude che al livello di significatività del 5% le due soluzioni hanno lo stesso livello medio di
pH.
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 28 / 55
Verifica di ipotesi su una proporzione
Per una variabile dicotomica, che assume una certa caratteristica A con
probabilità p, si voglia verificare l’ipotesi nulla
H0 : p = p0
contro
H1 : p 6= p0 oppure H1 : p > p0 oppure H1 : p < p0
A tal fine si estrae dalla popolazione un campione bernoulliano di dimensione n e
si determina il numero x di unità nel campione che presentano la caratteristica A.
La v.c. X che descrive il numero di unità nel campione che presentano la
caratteristica A è una binomiale di parametri n e p. Se H0 è vera, X ∼ Bin(n, p0 ).
Si può allora costruire la statistica test
X − np0 P̂ − p0
Z= √ =p ≈ N(0, 1)
np0 q0 p0 q0 /n
Essendo l’ipotesi alternativa bilaterale, la zona di rifiuto del test è data dai
valori di z ≥ z1−α/2 = 1.96 o ≤ −z1−α/2 = −1.96 (α = 5%). Cadendo z
nel primo intervallo, rifiutiamo quindi l’ipotesi nulla a favore
dell’alternativa: l’ipotesi che la moneta non sia truccata non è plausibile!
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 30 / 55
Test per l’uguaglianza di due proporzioni
Siano X1 e X2 due variabili indipendenti dicotomiche (bernoulliane) con parametri
p1 e p2 rispettivamente. Si consideri il sistema di ipotesi
H0 : p1 = p2
contro
H1 : p1 6= p2 oppure H1 : p1 > p2 oppure H1 : p1 < p2
Per verificare H0 vengono estratti dalle due popolazioni due campioni di
dimensioni n1 e n2 , con proporzioni campionarie p̂1 e p̂2 , determinazioni di P̂1 e
P̂2 . Si può allora considerare la statistica test
P̂1 − P̂2
Z=q
P̂(1 − P̂)( n11 + 1
n2 )
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 32 / 55
Esempio
Dobbiamo testare che la proporzione di mamme del nord che lavorano, p1 ,
sia uguale o maggiore alla proporzione di mamme del sud che lavorano, p2 :
H0 : p1 = p2 contro H1 : p1 > p2
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 33 / 55
Il p-value di un test
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 34 / 55
Il p-value
Nel caso della verifica di ipotesi del tipo H0 : µ = µ0 (v.c. X Normale con
varianza σ 2 nota)
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 35 / 55
Il p-value
Figure: Illustrazione del p-value per il test Z per il sistema d’ipotesi H0 : µ = µ0
vs H1 : µ > µ0
α
Regione di accettazione Regione di rifiuto
0 z1−α
p − value
0 z1−α z
p − value
0 z z1−α
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 36 / 55
Il p-value
Figure: Illustrazione del p-value per il test Z per il sistema d’ipotesi H0 : µ = µ0
vs H1 : µ 6= µ0
α 2 α 2
Regione di rifiuto Regione di accettazione Regione di rifiuto
− z1−α 2 0 z1−α 2
p − value
p − value
− z1−α 2 −z 0 z z1−α 2
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 37 / 55
Esempio
H0 : µ = µ0 = 60
contro
H1 : µ 6= 60
La statistica test valeva z = −2.68.
Visto che l’ipotesi alternativa è bilaterale, calcoliamo il p-value come
p − value = 2P(Z > |z|) = 2[1 − P(Z < |z|)] = 2[1 − P(Z < 2.68)]
= 2(1 − 0.99632) = 0.00736
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 38 / 55
Esempio
H0 : µ = µ0 = 60 contro H1 : µ < µ0 = 60
La statistica test vale sempre z = −2.68. Il p-value è
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 39 / 55
Test di indipendenza
Si considerino due variabili X e Y rilevate congiuntamente su una
popolazione. Può essere interessante stabilire se esse sono stocasticamente
indipendenti o meno. Sulla base delle informazioni campionarie
(X1 , Y1 ), . . . , (Xn , Yn ) si vuole saggiare il seguente sistema d’ipotesi:
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 40 / 55
Test di indipendenza
Più le frequenze osservate nij sono diverse da quelle attese n̂ij in ipotesi di
indipendenza stocastica, più si è propensi a rifiutare l’ipotesi nulla. Quindi
la regione di rifiuto è costituita da tutti i valori di X 2 che sono maggiori di
una certa soglia, che viene determinata in base al livello di significatività α
prefissato.
Regione di accettazione e di rifiuto
Accetto H0 se X 2 < χ2(h−1)(k−1);1−α
Rifiuto H0 se X 2 ≥ χ2(h−1)(k−1);1−α
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 41 / 55
Test di indipendenza
0 χ2(h−1)(k−1), 1−α
X2
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 42 / 55
Esempio
Quindi, dato che il valore della statistica test cade nella zona di rifiuto, si
rifiuta l’ipotesi di indipendenza H0 .
Si noti che il valore dell’indice di Pearson normalizzato χ̃2 per la tabella di
contingenza l’avevamo calcolato come 0.0918, un valore piuttosto basso,
che sembrava significare un livello di connessione molto basso e una certa
vicinanza alla condizione di indipendenza. Il test di indipendenza smentisce
quella interpretazione, o - meglio - ci dice che c’è una connessione magari
bassa, ma significativa, tra le due variabili.
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 44 / 55
Analisi della varianza (ANOVA)
Si supponga che la popolazione di riferimento sia suddivisa in k
sottopopolazioni (gruppi) e sia Y il carattere d’interesse che viene rilevato
nelle k sottopopolazioni. Si ipotizzi che nei vari gruppi la variabile Y
segua una distribuzione Normale con la medesima varianza σ 2 (ipotesi di
omoschedasticità) ma con medie µi non necessariamente uguali. Sulla
base di un campione di dati si vuole verificare il seguente sistema d’ipotesi:
X ni
k X k
X ni
k X
X
(Yij − Ȳ )2 = ni (Ȳi − Ȳ )2 + (Yij − Ȳi )2
i=1 j=1 i=1 i=1 j=1
DT = DB + DW
dove
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 46 / 55
ANOVA
Pn
La quantità DT = n1 ki=1 j=1 j
(Yij − Ȳ )2 è detta devianza totale delle n
P
e misura quanto le k medie campionarie Ȳi sono diverse tra loro. Se sono
tutte uguali allora coincidono con la loro media che coincide con la media
generale Ȳ .
La quantità DW = ki=1 nj=1 (Yij − Ȳi )2 è detta devianza residua o
P P i
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 47 / 55
ANOVA
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 48 / 55
ANOVA
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 49 / 55
ANOVA
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 50 / 55
ANOVA
X ni
k X k
X k
X
DW = Yij2 − ni Ȳi2 = (ni − 1)Si2
i=1 j=1 i=1 i=1
dove Si2 = ni 1−1 nj=1 (Yij − Ȳi )2 (varianza campionaria corretta del gruppo
P i
i-esimo).
Si noti anche che le devianze (totale, between e within) sono uguali a n
volte le corrispondenti varianze non corrette (totale, between, within).
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 51 / 55
Esempio
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 52 / 55
Esempio
Vogliamo testare al livello di significatività α = 5% il sistema di ipotesi
dove µi , i = 1, 2, 3 sono gli stipendi medi dei tre gruppi in cui è divisa la
popolazione (lavoratori con licenza media, con diploma, con laurea).
Essendo n = 100,
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 54 / 55
Esempio
1.0
0.8
0.6
f.d.
0.4
0.2
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 55 / 55