Verifica

Statistica: Verifica di ipotesi statistiche
Alessandro Barbiero
EMA at UNIMI
a.a. 2020/2021
Alessandro Barbiero (EMA at UNIMI) Statistica: Verifica di ipotesi statistiche a.a. 2020/2021 1 / 55
Introduzione
Obiettivo di fondo di un’indagine statistica è la conoscenza delle

caratteristiche delle variabili di interesse nella popolazione da cui è
estratto il campione
ma mentre con la teoria della stima si stima il parametro ignoto, con
la verifica delle ipotesi si confronta la stima campionaria con un
ipotetico valore del parametro ignoto, in genere formulato in base a
conoscenze pregresse. Si valuta cioè la conformità della stima
campionaria a un ipotetico valore del parametro
la differenza tra la stima campionaria e il parametro può essere di
natura accidentale, cioè legata al caso, riconducibile alla naturale
variabilità campionaria, oppure significativa
Definizioni preliminari
Definizione 4.1
Viene chiamata ipotesi statistica ogni assunzione formulata nei riguardi di
uno o più parametri di una variabile casuale o nei riguardi della sua
distribuzione.
L’ipotesi si chiama non parametrica se si riferisce al modello probabilistico
che caratterizza la v.c. (la sua f.p. o la sua f.d.); parametrica se riguarda il
valore di un suo parametro.
L’ipotesi parametrica è semplice se presuppone un solo valore del
parametro, composta se presuppone più valori.
L’ipotesi sottoposta a verifica si chiama ipotesi nulla, H0 . L’insieme degli
ipotetici valori assumbili dal parametro θ costituisce l’insieme delle ipotesi
ammissibili; l’ipotesi nulla è una di queste. Tutti i valori delle ipotesi
ammissibili diversi da quelli dell’ipotesi nulla riguardano le ipotesi
alternative, H1 .
Esempio:
H0 : θ = θ 0 contro H1 : θ < θ0
(ipotesi alternativa unidirezionale o unilaterale) oppure
H0 : θ = θ 0 contro H1 : θ 6= θ0
(ipotesi alternativa bidirezionale o bilaterale)
Definizione 4.2
Viene chiamato test statistico ogni metodo impiegato per verificare
un’ipotesi statistica
Definizione 4.3
Viene chiamata statistica test una funzione dei dati campionari utilizzata
nel test
Un test è parametrico se verifica un’ipotesi parametrica su una v.c. di
distribuzione nota; è a distribuzione libera (distribution-free) se verifica
un’ipotesi non parametrica o parametrica, ma prescindendo dalla
distribuzione della v.c.
Passi nella verifica di ipotesi
1 si formulano le ipotesi nulla e alternativa

2 si estrae dalla popolazione un campione bernoulliano di ampiezza n
3 si costruisce la regola di decisione del test, che divide in due lo spazio
campionario Ωn : una zona contenente i campioni che portano ad
accettare H0 e l’altra zona che porta a rifiutare H0 .
Nella regola di decisione del test è presente implicitamente la
possibilità di commettere un errore.
Solitamente, si sintetizzano i dati campionari attraverso una loro
funzione, la statistica test (T̃n ), e si valuta probabilisticamente se tali
dati sostengono o meno l’ipotesi nulla.
Definizione 4.4
Si chiama zona di accettazione e si indica con Θ0 , il sottoinsieme dei valori
della statistica test che portano all’accettazione di H0
Definizione 4.5
0
Si chiama zona di rifiuto, o regione critica, e si indica con Θ , il
sottoinsieme dei valori della statistica test che portano al rifiuto di H0
Definizione 4.6
Si chiama valore critico del test il valore t̃c che divide la zona di
accettazione dalla zona di rifiuto
Definizione 4.7
Si chiama livello di significatività o ampiezza del test e si indica con α, la
probabilità che la statistica test assuma valori nella regione critica quando
l’ipotesi nulla è vera:
0
/ Θ0 |H0 )
P(T̃n ∈ Θ |H0 ) = α = P(T̃n ∈
Definizione 4.7
Si chiama potenza del test e si indica con 1 − β, la probabilità che la
statistica test assuma valori nella regione critica quando l’ipotesi nulla è
falsa:
0
P(T̃n ∈ Θ |H1 ) = 1 − β = P(T̃n ∈ / Θ0 |H1 )
Tipi di errori
Poiché la decisione si basa su dati campionari c’è sempre la possibilità di

commettere errori, che possono essere di due tipi, riassunti nella tabella
seguente:
Rifiuto H0 Accetto H0
H0 è vera errore Io tipo decisione corretta
α 1−α
H0 è falsa decisione corretta errore di IIo tipo
1−β β
Abbiamo già detto che 1 − β rappresenta la potenza del test; 1 − α lo

chiamiamo coefficiente di confidenza (analogo a livello di confidenza per la
stima intervallare)
Ipotesi bilaterali e regione di rifiuto
quando l’ipotesi altenativa è unilaterale, si ha un unico valore critico

che divide la zona di rifiuto dalla zona di accettazione
quando invece l’ipotesi alternativa è bilaterale, i valori critici sono
due, essendo la zona di rifiuto costituita da due intervalli illimitati
posti sulle due code della distribuzione della statistica test, sulle quali
la probabilità dell’errore di prima specie α viene ripartito in due parti
uguali pari a α/2. Chiariremo questo aspetto introducendo i prossimi
test statistici particolari.
Verifica di un’ipotesi sulla media nel caso di varianza nota
Sia X ∼ N(µ, σ 2 ), con µ ignota e σ 2 nota.
Si consideri il seguente sistema di ipotesi su µ:
H0 : µ = µ0 contro H1 : µ 6= µ0
Si estrae un campione di dimensione n e si calcola x̄ . Essendo x̄ una stima
di µ, valori di x̄ prossimi a µ0 portano a ritenere plausibile l’ipotesi
H0 : µ = µ0 , mentre valori di x̄ lontani da µ0 portano a ritenere H0 non
plausibile.
E’ possibile utilizzare la statistica test
X̄ − µ0
Z= (1)
√σ
n
che se H0 è vera ha distribuzione N(0, 1). Allora detto z il valore osservato

di Z la regola di decisione è la seguente
Si accetta H0 se −z1−α/2 < z < z1−α/2
Si rifiuta H0 se z ≤ −z1−α/2 o z ≥ z1−α/2
Figure: Regioni di accettazione e di rifiuto per H1 : µ 6= µ0
Regione Regione
di rifiuto di rifiuto
α α
Regione di accettazione
2 2
zα z1−α
2 0 2
Se H1 : µ > µ0 :
Si accetta H0 se z < z1−α

Si rifiuta H0 se z ≥ z1−α
Se H1 : µ < µ0 :
Si accetta H0 se z > zα
Si rifiuta H0 se z ≤ zα = −z1−α
Figure: Regioni di accettazione e di rifiuto: a sx per H1 : µ < µ0 ; a dx per

H1 : µ > µ 0
Regione Regione
di rifiuto di rifiuto
α Regione di accettazione Regione di accettazione α
zα 0 0 z1−α
Esempio
Una macchinetta per il the dovrebbe erogare a regime 60 ml di the per

bicchiere, con uno scarto quadratico medio di 5 ml.
Il tecnico ha dei dubbi sul suo corretto funzionamento e misura il
contenuto medio di 20 bicchieri, che risulta pari a 57 ml. Assumendo che il
contenuto di the per bicchiere si distribuisca normalmente, effettuare un
opportuno test di ipotesi per verificare se la macchina funziona
correttamente, con un livello di significatività del 5%.
Esempio
Chiamiamo X il contenuto di the nel bicchiere, per ipotesi si ha

X ∼ N(µ, σ 2 ).
Dal testo sappiamo che σ = 5.
Il sistema di ipotesi che andiamo a considerare per µ è il seguente:
H0 : µ = µ0 = 60
contro
H1 : µ 6= 60
X̄ −µ0
La statistica test Z = σ
√ , che sotto H0 si distribuisce come una normale
n
57−60
standard, assume sul campione esaminato il valore z = 5/ √
20
= −2.68.
Essendo α = 0.05, abbiamo che la regione di accettazione del test è data
da (−z0.975 , +z0.975 ) = (−1.96, +1.96), mentre la regione di rifiuto è
costituita da (−∞, −1.96] ∪ [1.96, +∞).
Esempio
Cadendo z nella regione di rifiuto, il test rifiuta l’ipotesi nulla H0 a favore

di H1 : i dati suffragano cioè l’ipotesi che la macchina non funzioni più
correttamente.
Verifica di un’ipotesi sulla media nel caso di varianza ignota
Sia X ∼ N(µ, σ 2 ), con µ e σ 2 entrambe ignote.
Si consideri il seguente sistema di ipotesi su µ:
H0 : µ = µ0 contro H1 : µ 6= µ0
La procedura da seguire è analoga alla precedente, ma essendo la varianza
σ 2 ignota non è possibile utilizzare la statistica test Z ; σ 2 va stimata con
S 2 e si arriva alla statistica test
X̄ − µ0
T = (2)
S
√
n
che se H0 è vera ha distribuzione t di Student con g = n − 1 gradi di
libertà. Allora detto t il valore osservato di T , la regola di decisione è la
seguente
Si accetta H0 se −tn−1;1−α/2 < t < tn−1;1−α/2

Si rifiuta H0 se t ≤ −tn−1;1−α/2 o t ≥ tn−1;1−α/2
Verifica di un’ipotesi sulla media nel caso di varianza ignota
Se H1 : µ > µ0 :
Si accetta H0 se t < tn−1;1−α

Si rifiuta H0 se t ≥ tn−1;1−α (sulla coda destra)
Se H1 : µ < µ0 :
Si accetta H0 se t > tn−1;α

Si rifiuta H0 se t ≤ tn−1;α = −tn−1;1−α (sulla coda sinistra)
Esempio
Da un’indagine campionaria eseguita su 20 soggetti è emerso che la spesa
alimentare media mensile è pari a 160 euro, mentre la varianza campionaria è pari
a s 2 = 350.
a) Scrivere la regola di rifiuto per il test H0 : µ = 180 contro H1 : µ < 180 al
livello α = 0.01
b) Sulla base dei risultati campionari, accettereste o rifiutereste l’ipotesi nulla?
a)
H0 : µ = µ0 = 180 vs H1 : µ < µ0 = 180
x̄n − µ0
Uso la statistica t = e rifiuto H0 se
√s
n
t < tαn−1 = t0.01
19 19
= −t0.99 = −2.53948.
160−180
b) Per i dati del problema si ha t = √ = −4.78, quindi rifiuto H0 .
350/20
Esempio
0.4
0.3
0.2
f(t)
0.1
t t19
0.01 t19
0.99
0.0
−4 −2 0 2 4
Verifica di un’ipotesi sull’uguaglianza di due medie
(varianze note)
Siano X1 e X2 due v.c. indipendenti con X1 ∼ N(µ1 , σ12 ) e X2 ∼ N(µ2 , σ22 ).
Si consideri il sistema di ipotesi
H0 : µ1 = µ2
contro
H1 : µ1 6= µ2 oppure H1 : µ1 > µ2 oppure H1 : µ1 < µ2
Per verificare H0 vengono estratti dalle due popolazioni due campioni di dimensioni n1 e n2 , con
medie campionarie x̄1 e x̄2 , determinazioni di X̄1 e X̄2 . La v.c. X̄1 − X̄2 ha distribuzione normale
di media µ1 − µ2 e varianza σ12 /n1 + σ22 /n2 .
Si può allora considerare la statistica test
(X̄1 − X̄2 ) − (µ1 − µ2 )

Z = q
σ12 σ22
n1
+ n2
che sotto H0 si riduce a

(X̄ − X̄2 )
Z = q12 ∼ N(0, 1)
σ1 σ22
n1
+ n2
Allora le regole di decisione sono le stesse che per il test su una media con varianza nota.
(varianze note)
Nota: Se le varianze di X1 e X2 fossero uguali (diciamo σ12 = σ22 = σ 2 ),

allora la statistica test precedente diventa
X̄1 − X̄2 X̄1 − X̄2

Z=q =q
2 2
σ /n1 + σ /n2 σ 2 · nn11+n
n2
2
Test per due medie (varianze note): esempio
Due campioni di pazienti di ampiezza 70 e 110 sono sottoposti a due

trattamenti diversi che producono tempi medi di guarigione
rispettivamente di 57 e 60 giorni. Se i tempi di risposta sono distribuiti
normalmente con deviazioni standard note pari a 8 e 12 giorni
rispettivamente, verificare al livello di significatività del 1% se i due
trattamenti hanno pari efficacia o meno.
Chiamiamo X1 e X2 i tempi di guarigione dei pazienti sottoposti ai due

diversi trattamenti; dal testo si evince che X1 ∼ N(µ1 , σ1 = 8) e
X2 ∼ N(µ2 , σ1 = 12).
Si tratta di testare l’ipotesi nulla H0 : µ1 = µ2 contro l’alternativa
H1 : µ1 6= µ2
Test per due medie (varianze note): soluzione
La statistica test è
X̄1 − X̄2
Z=r
σ12 σ22
n1 + n2
e vale
57 − 60
z=q 2 = −2.01
8 122
70 + 110
Essendo l’alternativa bilaterale e α = 0.01, si rifiuta H0 per valori di |z|

maggiori di z1−α/2 = z0.995 = 2.58. Dato che |z| = 2.01 < 2.58, si accetta
l’ipotesi nulla che i due trattamenti abbiano la stessa efficacia.
Domanda: cosa sarebbe successo se avessimo scelto α = 5%?
Risposta: in questo caso avremmo rifiutato H0 (VERIFICATE!)
(varianze uguali ma ignote)
Nel caso in cui le due varianze fossero supposte uguali, ma ignote, è necessario stimare la
varianza comune σ 2 , e lo si fa attraverso lo stimatore
S12 g1 + S22 g2
S̄ 2 =
g1 + g2
con g1 = n1 − 1, g2 = n2 − 1 e S12 e S22 le varianze campionarie corrette per i due campioni

estratti da X1 e X2 . S̄ 2 è quindi una sorta di media ponderata delle due varianze campionarie
corrette.
La varianza di X̄1 − X̄2 si stima quindi attraverso
S12 g1 + S22 g2 n1 + n2 n1 + n2
SX̄2 = · = S̄ 2 ·
1 −X̄2 g1 + g2 n1 n2 n1 n2
e si utilizza la statistica test

X̄ − X̄2
T = q1
S2
X̄1 −X̄2
che sotto H0 si distribuisce come una t di Student con g = g1 + g2 = n1 + n2 − 2 gradi di libertà.

Le regole di decisione sono quelle del test per una media con varianza ignota.
Esempio
Due tipi di soluzioni chimiche sono state provate per misurarne il pH.
L’analisi di 6 campioni della prima soluzione ha mostrato un pH medio di
7.52 con scarto quadratico medio di 0.032; l’analisi di 5 campioni della
seconda soluzione ha mostrato un pH medio di 7.49 con uno scarto
quadratico medio di 0.024. Stabilire se le due soluzioni abbiano valori
uguali o diversi del pH usando il livello di significatività α = 0.05.
Esempio
Occorre anzitutto assumere che i pH delle due soluzioni siano modellabili come v.c. normali
indipendenti con la stessa varianza.
Quindi possiamo testare il sistema di ipotesi:
H0 : µ1 = µ2 contro H1 : µ1 6= µ2
Essendo
n1 = 6, x̄1 = 7.52, s1 = 0.032, e
n2 = 5, x̄2 = 7.49, s2 = 0.024
la stima congiunta della varianza σ 2 è
5 · 0.0322 + 4 · 0.0242
s̄ 2 = = 0.000825
6+5−2
e quindi la statistica test, che sotto H0 si distribuisce come una t di Student con
n1 + n2 − 2 = 9 gl, vale
r
1 1
t = (7.52 − 7.49)/ 0.000825 · ( + ) = 1.72
6 5
La regione di rifiuto è data dall’unione dei due intervalli esterni (−∞, −t0.975;9 = −2.262] e
[t0.975;9 = 2.262, +∞); la regione di accettazione è l’intervallo compreso tra i due quantili. Si
conclude che al livello di significatività del 5% le due soluzioni hanno lo stesso livello medio di
pH.
Verifica di ipotesi su una proporzione
Per una variabile dicotomica, che assume una certa caratteristica A con
probabilità p, si voglia verificare l’ipotesi nulla
H0 : p = p0
contro
H1 : p 6= p0 oppure H1 : p > p0 oppure H1 : p < p0
A tal fine si estrae dalla popolazione un campione bernoulliano di dimensione n e
si determina il numero x di unità nel campione che presentano la caratteristica A.
La v.c. X che descrive il numero di unità nel campione che presentano la
caratteristica A è una binomiale di parametri n e p. Se H0 è vera, X ∼ Bin(n, p0 ).
Si può allora costruire la statistica test
X − np0 P̂ − p0
Z= √ =p ≈ N(0, 1)
np0 q0 p0 q0 /n
che se n è sufficientemente grande... si distribuisce approssimativamente come

una normale standard. Allora una volta calcolato il valore z sul campione, si
procede come per il test della media di una normale con varianza nota.
Esempio
Si effettuano 500 lanci di una moneta e si ottiene 280 volte testa. Decidere
se la moneta è truccata oppure no, con un livello di significatività del 5%.
Soluzione. Il sistema di ipotesi da testare è il seguente:
H0 : p = p0 = 0.5 contro H1 : p 6= 0.5
dove p indica la probabilità che esca testa a ogni lancio e p0 è la

probabilità che esca testa se la moneta è non truccata.
La statistica test Z vale
p̂ − p0 280/500 − 0.5
z=p =p = 2.683
p0 (1 − p0 )/n 0.5 · 0.5/500
Essendo l’ipotesi alternativa bilaterale, la zona di rifiuto del test è data dai
valori di z ≥ z1−α/2 = 1.96 o ≤ −z1−α/2 = −1.96 (α = 5%). Cadendo z
nel primo intervallo, rifiutiamo quindi l’ipotesi nulla a favore
dell’alternativa: l’ipotesi che la moneta non sia truccata non è plausibile!
Test per l’uguaglianza di due proporzioni
Siano X1 e X2 due variabili indipendenti dicotomiche (bernoulliane) con parametri
p1 e p2 rispettivamente. Si consideri il sistema di ipotesi
H0 : p1 = p2
contro
H1 : p1 6= p2 oppure H1 : p1 > p2 oppure H1 : p1 < p2
Per verificare H0 vengono estratti dalle due popolazioni due campioni di
dimensioni n1 e n2 , con proporzioni campionarie p̂1 e p̂2 , determinazioni di P̂1 e
P̂2 . Si può allora considerare la statistica test
P̂1 − P̂2
Z=q
P̂(1 − P̂)( n11 + 1
n2 )
dove P̂ è la proporzione campionaria calcolata sulle complessive n1 + n2 unità

statistiche dei due campioni:
P̂1 n1 + P̂2 n2
P̂ =
n1 + n2
Sotto H0 , Z si distribuisce approssimativamente come una N(0, 1). Allora le
regole di decisione sono le stesse che per il test su una media con varianza nota.
Esempio
In uno studio sociale si vuole stabilire se la proporzione di mamme

lavoratrici è maggiore nel nord d’Italia rispetto al sud. A questo scopo è
stato selezionato un campione di 50 mamme delle nord e uno di 40
mamme del sud. Delle 50 mamme del nord 43 sono risultate lavoratrici,
mentre delle 40 mamme del sud 31 sono risultate occupate. Si risolva il
problema di verifica d’ipotesi usando un livello di significatività α = 0.05.
Esempio
Dobbiamo testare che la proporzione di mamme del nord che lavorano, p1 ,
sia uguale o maggiore alla proporzione di mamme del sud che lavorano, p2 :
H0 : p1 = p2 contro H1 : p1 > p2
Per il nostro problema abbiamo n1 = 50, p̂1 = 43/50 = 0.86, n2 = 40 e

p̂2 = 31/40 = 0.775. La proporzione di mamme lavoratrici nord+sud è
43+31
p̂ = 50+40 = 0.822.
La statistica test assume valore
0.86 − 0.775
z=q = 1.048.
1 1
0.822 · 0.178( 50 + 40 )
La regione di rifiuto è data dall’intervallo [z0.95 = 1.645, +∞), mentre la

regione di accettazione è (−∞, z0.95 = 1.645). Quindi il test accetta
l’ipotesi H0 di uguaglianza delle due proporzioni.
Il p-value di un test
Data una statistica test, il p-value indica la probabilità con cui si

osserverebbe, sotto H0 , un valore più estremo – con riferimento all’ipotesi
alternativa H1 – di quello effettivamente osservato.
Fissato il livello α del test, si rifiuta H0 se il p-value è più piccolo di α e,

viceversa, si accetta H0 se il p-value è più grande di α.
Valori piccoli del p-value, prossimi cioè allo zero, fanno quindi propendere
per il rifiuto di H0 .
Questa regola è valida qualsiasi sia il test che stiamo considerando!
In particolar modo, la regola del p-value è utile poiché tutti i software

statistici producono come output un p-value associato alla statistica test
che deve essere interpretato alla luce del valore predeterminato di α che
abbiamo in mente per il nostro test.
Il p-value
Come si calcola il p-value esattamente?
Nel caso della verifica di ipotesi del tipo H0 : µ = µ0 (v.c. X Normale con
varianza σ 2 nota)
quando H1 : µ 6= µ0 , p-value= 2 · P(Z > |z|) = 2(1 − Φ(|z|))
quando H1 : µ>µ0 , p-value= P(Z >z) = 1 − Φ(z)
quando H1 : µ<µ0 , p-value= P(Z <z) = Φ(z)
In modo analogo, si calcola il p-value per il test sulla media µ di una

normale con varianza ignota (sostituire Z con T , z con t, Φ con F )
Il p-value
Figure: Illustrazione del p-value per il test Z per il sistema d’ipotesi H0 : µ = µ0
vs H1 : µ > µ0
α
Regione di accettazione Regione di rifiuto
0 z1−α
p − value
0 z1−α z
p − value
0 z z1−α
Il p-value
Figure: Illustrazione del p-value per il test Z per il sistema d’ipotesi H0 : µ = µ0
vs H1 : µ 6= µ0
α 2 α 2
Regione di rifiuto Regione di accettazione Regione di rifiuto
− z1−α 2 0 z1−α 2
p − value
−z− z1−α 2 0 z1−α 2 z
p − value
− z1−α 2 −z 0 z z1−α 2
Esempio
Consideriamo l’esempio dei bicchierini di the.
H0 : µ = µ0 = 60
contro
H1 : µ 6= 60
La statistica test valeva z = −2.68.
Visto che l’ipotesi alternativa è bilaterale, calcoliamo il p-value come
p − value = 2P(Z > |z|) = 2[1 − P(Z < |z|)] = 2[1 − P(Z < 2.68)]
= 2(1 − 0.99632) = 0.00736
Essendo p − value = 0.00736 < 0.05 = α, si rifiuta H0 . Si rifiuterebbe H0

anche considerando α = 1%. Accetteremmo H0 se fissassimo α = 0.1%.
Esempio
Consideriamo l’esempio precedente, cambiando l’ipotesi alternativa:
H0 : µ = µ0 = 60 contro H1 : µ < µ0 = 60
La statistica test vale sempre z = −2.68. Il p-value è
p − value = P(Z < z) = P(Z < −2.68) = 0.00368
Test di indipendenza
Si considerino due variabili X e Y rilevate congiuntamente su una
popolazione. Può essere interessante stabilire se esse sono stocasticamente
indipendenti o meno. Sulla base delle informazioni campionarie
(X1 , Y1 ), . . . , (Xn , Yn ) si vuole saggiare il seguente sistema d’ipotesi:
H0 : X e Y sono indipendenti contro H1 : X e Y non sono indipendenti
Dopo aver organizzato i dati in una tabella di contingenza con frequenze

congiunte nij , per verificare se c’è o meno indipendenza stocastica tra X e
Y si utilizza la seguente statistica test:
h X
k
X (n̂ij − nij )2
X2 =
i=1 j=1
n̂ij
che sotto H0 si distribuisce, per n grande, approssimativamente come una

v.c. chi quadrato con (h − 1)(k − 1) gradi di libertà.
Più le frequenze osservate nij sono diverse da quelle attese n̂ij in ipotesi di
indipendenza stocastica, più si è propensi a rifiutare l’ipotesi nulla. Quindi
la regione di rifiuto è costituita da tutti i valori di X 2 che sono maggiori di
una certa soglia, che viene determinata in base al livello di significatività α
prefissato.
Regione di accettazione e di rifiuto
Accetto H0 se X 2 < χ2(h−1)(k−1);1−α
Rifiuto H0 se X 2 ≥ χ2(h−1)(k−1);1−α
dove χ2(h−1)(k−1);1−α è il quantile di livello 1 − α della v.c. χ2 con

(h − 1)(k − 1) gradi di libertà.
N.B.:L’approssimazione col la v.c. chi quadrato è soddisfacente se n > 30
e tutti i nij sono maggiori di 5.
0 χ2(h−1)(k−1), 1−α
X2
Esempio
Maturità tecnica/comm scientifica classica totale

Soddisfazione
bassa 57 10 5 72
media 35 45 10 90
alta 28 29 21 78
totale 120 84 36 240
Per questa tabella di contingenza, abbiamo già visto che X 2 = 44.05. Se

vogliamo testare il sistema d’ipotesi
H0 : X e Y sono indipendenti contro H1 : X e Y non sono indipendenti
al livello di significatività del 5%, allora la zona di rifiuto è data da tutti i

valori X 2 ≥ χ2(3−1)(3−1);0.95 = χ24;0.95 = 9.48773; la zona di accettazione è
data da tutti i valori X 2 < χ2(3−1)(3−1);0.95 = χ24;0.95 = 9.48773
Esempio
Quindi, dato che il valore della statistica test cade nella zona di rifiuto, si
rifiuta l’ipotesi di indipendenza H0 .
Si noti che il valore dell’indice di Pearson normalizzato χ̃2 per la tabella di
contingenza l’avevamo calcolato come 0.0918, un valore piuttosto basso,
che sembrava significare un livello di connessione molto basso e una certa
vicinanza alla condizione di indipendenza. Il test di indipendenza smentisce
quella interpretazione, o - meglio - ci dice che c’è una connessione magari
bassa, ma significativa, tra le due variabili.
Analisi della varianza (ANOVA)
Si supponga che la popolazione di riferimento sia suddivisa in k
sottopopolazioni (gruppi) e sia Y il carattere d’interesse che viene rilevato
nelle k sottopopolazioni. Si ipotizzi che nei vari gruppi la variabile Y
segua una distribuzione Normale con la medesima varianza σ 2 (ipotesi di
omoschedasticità) ma con medie µi non necessariamente uguali. Sulla
base di un campione di dati si vuole verificare il seguente sistema d’ipotesi:
H0 : µ1 = µ2 = · · · = µk contro H1 : Almeno una uguaglianza non vale
Yij : osservazione j-esima nel gruppo i, con i = 1, . . . , k, j = 1, . . . , ni

Ȳi = n1i nj=1
P i
Yij : media campionaria del gruppo i
Obiettivo: con la tecnica ANOVA si stabilisce se la diversità tra le medie
campionarie è “piccola” e quindi dovuta al caso, per cui H0 è da
considerarsi vera, oppure è sufficientemente elevata (statisticamente
significativa) da doversi imputare ad un causa sistematica: l’appartenenza
delle osservazioni a gruppi distinti in cui le medie di popolazione µi sono
effettivamente diverse.
ANOVA
Pk
Posto n = i=1 ni , abbiamo che la media campionaria complessiva di Y è
data da
k k X i n
1X 1X
Ȳ = ni Ȳi = Yij
n i=1 n i=1 j=1
Si può poi dimostrare la seguente uguaglianza
X ni
k X k
X ni
k X
X
(Yij − Ȳ )2 = ni (Ȳi − Ȳ )2 + (Yij − Ȳi )2
i=1 j=1 i=1 i=1 j=1
che si può riscrivere come
DT = DB + DW
dove
ANOVA
Pn
La quantità DT = n1 ki=1 j=1 j
(Yij − Ȳ )2 è detta devianza totale delle n
P
osservazioni e misura quanto le n osservazioni Yij sono diverse dalla loro

media comune Ȳ . E’ quindi una misura complessiva di dispersione dei dati.
La quantità DB = ki=1 ni (Ȳi − Ȳ )2 è detta devianza spiegata o between
P
e misura quanto le k medie campionarie Ȳi sono diverse tra loro. Se sono
tutte uguali allora coincidono con la loro media che coincide con la media
generale Ȳ .
La quantità DW = ki=1 nj=1 (Yij − Ȳi )2 è detta devianza residua o
P P i
within e misura quanto le n osservazioni Yij di ogni sottopopolazione sono

diverse dalla loro media di gruppo Ȳi .
Obiettivo: per stabilire se le medie campionarie di gruppo sono
significativamente diverse basta dunque verificare se la componente DB è
elevata rispetto a DW
ANOVA
A questo scopo si calcola la statistica test F , data dal rapporto tra DB e

DW , opportunamente standardizzate. Più in specifico, siano
Ŝ 2 = DB /(k − 1) e S̄ 2 = DW /(n − k), la statistica test da utilizzare per
verificare se le medie campionarie di gruppo sono significativamente
diverse tra loro è
Ŝ 2
F = 2
S̄
che sotto H0 , ossia se µ1 = µ2 = · · · = µk , si distribuisce come una v.c. F
di Snedecor con k − 1 e n − k gradi di libertà e si indica F ∼ Fk−1,n−k .
ANOVA
Table: Tabella ANOVA
Fonte g.d.l. Devianza Varianza Statistica test

di variabilità
Ŝ 2
Between k −1 DB Ŝ 2 = DB /(k − 1) F =
S̄ 2
(sistematica)
Within n−k DW S̄ 2 = DW /(n − k)
(casuale)
Totali n−1 DT S 2 = DT /(n − 1)
ANOVA
Si rifiuterà l’ipotesi nulla di uguaglianza delle medie se DB è elevata

rispetto a DW (se le medie campionarie di gruppo sono sufficientemente
diverse tra loro), per cui si rifiuterà per valori elevati della statistica test F .
Fissato un livello di significatività α la zona di accettazione di H0 è data
dai valori di F appartenenti all’intervallo [0, fk−1,n−k;1−α ) e la zona di
rifiuto è data dai valori di F appartenenti all’intervallo [fk−1,n−k;1−α , +∞),
dove fk−1,n−k;1−α è il quantile della distribuzione Fk−1,n−k che lascia alla
sua sinistra una probabilità pari 1 − α e alla sua destra una probabilità pari
ad α.
In sintesi:
Regola di decisione ANOVA
Si accetta H0 se f < fk−1,n−k;1−α
Si rifiuta H0 se f ≥ fk−1,n−k;1−α
ANOVA
Formule utili per il calcolo delle devianze:

k
X
DB = ni Ȳi2 − nȲ 2
i=1
X ni
k X k
X k
X
DW = Yij2 − ni Ȳi2 = (ni − 1)Si2
i=1 j=1 i=1 i=1
dove Si2 = ni 1−1 nj=1 (Yij − Ȳi )2 (varianza campionaria corretta del gruppo
P i
i-esimo).
Si noti anche che le devianze (totale, between e within) sono uguali a n
volte le corrispondenti varianze non corrette (totale, between, within).
Esempio
Consideriamo l’esempio relativo a quel campione di individui sui quali abbiamo

rilevato titolo di studio (variabile di gruppo X ) e reddito annuo (variabile
dipendente Y ).
Y =Stipendio (×1000 euro) 20 30 40 totale

X =Livello di istruzione
licenza media 10 4 1 15
diploma 15 21 24 60
laurea 5 5 15 25
totale 30 30 40 100
(andate a riprendere i risultati relativi a medie e varianze).
Esempio
Vogliamo testare al livello di significatività α = 5% il sistema di ipotesi
H0 : µ1 = µ2 = µ3 vs H1 : Almeno un uguaglianza non vale
dove µi , i = 1, 2, 3 sono gli stipendi medi dei tre gruppi in cui è divisa la
popolazione (lavoratori con licenza media, con diploma, con laurea).
Essendo n = 100,
dB = n · s̃B2 = 100 · 9.75 = 975

2
dW = n · s̃W = 100 · 59.25 = 5925
e quindi, essendo k = 3,
dB /(k − 1) 975/2
f = = = 7.981
dW /(n − k) 5925/97
e il quantile f0.95,2,97 , dalle tavole, risulta compreso tra 3.07 e 3.15
(calcolandolo in R, è 3.09). Quindi rifiuto l’ipotesi di uguaglianza delle
medie.
Esempio
Esempio
1.0
0.8
0.6
f.d.
0.4
0.2

α f
0.0
0 2 fk−1, n−k, 1−α 4 6 8

f

Verifica

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Verifica

Caricato da

Copyright:

Formati disponibili

Statistica: Verifica di ipotesi statistiche

Obiettivo di fondo di un’indagine statistica è la conoscenza delle

(ipotesi alternativa bidirezionale o bilaterale)

1 si formulano le ipotesi nulla e alternativa

Poiché la decisione si basa su dati campionari c’è sempre la possibilità di

Abbiamo già detto che 1 − β rappresenta la potenza del test; 1 − α lo

quando l’ipotesi altenativa è unilaterale, si ha un unico valore critico

che se H0 è vera ha distribuzione N(0, 1). Allora detto z il valore osservato

Si accetta H0 se z < z1−α

Figure: Regioni di accettazione e di rifiuto: a sx per H1 : µ < µ0 ; a dx per

α Regione di accettazione Regione di accettazione α

Una macchinetta per il the dovrebbe erogare a regime 60 ml di the per

Chiamiamo X il contenuto di the nel bicchiere, per ipotesi si ha

Cadendo z nella regione di rifiuto, il test rifiuta l’ipotesi nulla H0 a favore

Si accetta H0 se −tn−1;1−α/2 < t < tn−1;1−α/2

Si accetta H0 se t < tn−1;1−α

Si accetta H0 se t > tn−1;α

(X̄1 − X̄2 ) − (µ1 − µ2 )

che sotto H0 si riduce a

Nota: Se le varianze di X1 e X2 fossero uguali (diciamo σ12 = σ22 = σ 2 ),

X̄1 − X̄2 X̄1 − X̄2

Due campioni di pazienti di ampiezza 70 e 110 sono sottoposti a due

Chiamiamo X1 e X2 i tempi di guarigione dei pazienti sottoposti ai due

Essendo l’alternativa bilaterale e α = 0.01, si rifiuta H0 per valori di |z|

con g1 = n1 − 1, g2 = n2 − 1 e S12 e S22 le varianze campionarie corrette per i due campioni

e si utilizza la statistica test

che sotto H0 si distribuisce come una t di Student con g = g1 + g2 = n1 + n2 − 2 gradi di libertà.

che se n è sufficientemente grande... si distribuisce approssimativamente come

H0 : p = p0 = 0.5 contro H1 : p 6= 0.5

dove p indica la probabilità che esca testa a ogni lancio e p0 è la

dove P̂ è la proporzione campionaria calcolata sulle complessive n1 + n2 unità

In uno studio sociale si vuole stabilire se la proporzione di mamme

Per il nostro problema abbiamo n1 = 50, p̂1 = 43/50 = 0.86, n2 = 40 e

La regione di rifiuto è data dall’intervallo [z0.95 = 1.645, +∞), mentre la

Data una statistica test, il p-value indica la probabilità con cui si

Fissato il livello α del test, si rifiuta H0 se il p-value è più piccolo di α e,

Questa regola è valida qualsiasi sia il test che stiamo considerando!

In particolar modo, la regola del p-value è utile poiché tutti i software

Come si calcola il p-value esattamente?

quando H1 : µ 6= µ0 , p-value= 2 · P(Z > |z|) = 2(1 − Φ(|z|))

quando H1 : µ>µ0 , p-value= P(Z >z) = 1 − Φ(z)

quando H1 : µ<µ0 , p-value= P(Z <z) = Φ(z)

In modo analogo, si calcola il p-value per il test sulla media µ di una

−z− z1−α 2 0 z1−α 2 z

Consideriamo l’esempio dei bicchierini di the.

Essendo p − value = 0.00736 < 0.05 = α, si rifiuta H0 . Si rifiuterebbe H0

Consideriamo l’esempio precedente, cambiando l’ipotesi alternativa:

p − value = P(Z < z) = P(Z < −2.68) = 0.00368

H0 : X e Y sono indipendenti contro H1 : X e Y non sono indipendenti

Dopo aver organizzato i dati in una tabella di contingenza con frequenze

che sotto H0 si distribuisce, per n grande, approssimativamente come una

dove χ2(h−1)(k−1);1−α è il quantile di livello 1 − α della v.c. χ2 con

Regione di accettazione Regione di rifiuto

Maturità tecnica/comm scientifica classica totale

Per questa tabella di contingenza, abbiamo già visto che X 2 = 44.05. Se

H0 : X e Y sono indipendenti contro H1 : X e Y non sono indipendenti

al livello di significatività del 5%, allora la zona di rifiuto è data da tutti i

H0 : µ1 = µ2 = · · · = µk contro H1 : Almeno una uguaglianza non vale

Yij : osservazione j-esima nel gruppo i, con i = 1, . . . , k, j = 1, . . . , ni

Si può poi dimostrare la seguente uguaglianza

che si può riscrivere come

osservazioni e misura quanto le n osservazioni Yij sono diverse dalla loro

within e misura quanto le n osservazioni Yij di ogni sottopopolazione sono