Inferenza 3

Inferenza_3 pagina 1
Verifica di ipotesi statistiche

IPOTESI SULLA MEDIA CON VARIANZA NOTA................................................................... 2
UN ESEMPIO......................................................................................................................................... 2
ERRORI DI PRIMO E SECONDO TIPO..................................................................................................... 3
DETERMINAZIONE DEL VALORE CRITICO........................................................................................... 8
IPOTESI ALTERNATIVA UNILATERALE .............................................................................................. 11
EQUIVALENZA TRA VERIFICA DELLE IPOTESI E CALCOLO DEGLI INTERVALLI DI CONFIDENZA .... 13
VERIFICA DELLE IPOTESI USANDO IL P-VALUE................................................................................. 15
IPOTESI SULLA MEDIA CON VARIANZA NON NOTA....................................................... 17
IPOTESI ALTERNATIVA UNILATERALE .............................................................................................. 18
USO DELLINTERVALLO DI CONFIDENZA PER LA MEDIA CAMPIONARIA.......................................... 19
USO DEL P-VALUE.............................................................................................................................. 20
IPOTESI SULLUGUAGLIANZA TRA DUE MEDIE............................................................... 21
IPOTESI SULLUGUAGLIANZA TRA DUE MEDIE SE LE VARIANZE SONO NOTE................................... 21
IPOTESI SULLUGUAGLIANZA TRA DUE MEDIE NEL CASO DI VARIANZE NON NOTE......................... 25
IPOTESI SULLA VARIANZA....................................................................................................... 27
LA DISTRIBUZIONE F DI FISHER............................................................................................ 30
IPOTESI SULLUGUAGLIANZA TRA DUE VARIANZE....................................................... 31

Appunti ad uso degli studenti

di

C. Romaniello

ITI Leonardo da Vinci Carpi (MO)

Verifica di ipotesi statistiche

Una branca importante dellinferenza statistica si occupa della verifica empirica di ipotesi, relative a
determinate caratteristiche della popolazione statistica.

Le ipotesi vengono formulate prima dellestrazione del campione.

Quindi sulla base dei dati campionari, utilizzando una qualche regola di decisione, le ipotesi
possono essere accettate o rifiutate.

Noi affronteremo esclusivamente la verifica dipotesi di tipo parametrico: come gi fatto per gli
intervalli di confidenza, supporremo sempre che il carattere oggetto di studio nella popolazione
statistica si distribuisca secondo una Normale. Quindi considereremo solo ipotesi sui parametri
della distribuzione Normale: ipotesi sulla media o sulla varianza.

Ipotesi sulla media con varianza nota

Un esempio

Un commerciante deve acquistare uno stock di 1000 pile alcaline. Il produttore ha assicurato che la
durata media delle pile, se misurata impiegandole ininterrotamente per alimentare una torca
tascabile, di 8,1 ore, cio 8 ore e 6 minuti.
Il commerciante prima di mettere in vendita le pile ai consumatori propri clienti, e prima di
effettuare il pagamento al produttore, vuole accertarsi che questi non gli abbia mentito circa le
caratteristiche di durata delle pile. In caso contrario potr recedere dal contratto dacquisto.
Come fare per verificare che la durata media delle pile quella dichiarata dal produttore?

Al commerciante viene lidea di estrarre un campione casuale (supponiamo con ripetizione) di pile
dal lotto acquistato, che vengono messe in funzione per misurarne la durata.
Vengono cos estratte 10 pile, sulle quali si riscontrano le seguenti durate espresse in ore:

8,5 7,7 8,4 7,2 8,1 7,5 8,3 7,6 7,4 7,3

La durata media campionaria risulta essere pari a 7, 8 x = ore (ovvero 7 ore e 48 minuti). Tra la
durata media riscontrata nel campione e la durata media certificata dal produttore c una differenza
di 0,3 ore, ovvero 18 minuti.

Alla luce di questo dato come dovrebbe comportarsi il commerciante? Il produttore delle pile stato
sincero oppure ha mentito circa la loro durata?
A questa domanda occorre rispondere in termini probabilistici, perch il campione di pile estratto
solo uno dei tanti possibili estraibili tra le 1000 pile.
I campioni estraibili con ripetizione sono
10 30
1000 10 = mentre quelli estraibili in blocco sono
23
1000
2,6341 10
10
| |
=
|
\
, davvero tanti. Quindi la differenza riscontrata tra la durata media rilevata sul
campione estratto e la durata media garantita dal produttore potrebbe dipendere semplicemente
dalla variabilit campionaria: al variare del campione effettivamente estratto varia anche la durata
media campionaria rilevata su di esso. Mentre la durata media calcolata prendendo in
considerazione tutti i campioni possibili potrebbe coincidere con la durata media teorica (quella
garantita dal produttore).
Allora la domanda precedente:il produttore delle pile ha mentito oppure stato sincero? pu
essere riformulata come: la differenza tra valore empirico e valore teorico significativamente
diversa da 0 oppure no? Lavverbio significativamente sta a indicare che non possibile
rispondere in maniera certa alla domanda, ma solo in termini probabilistici.

Occorre trovare un valore critico r tale per cui, se la differenza riscontrata maggiore di r si
ritiene che essa sia significativamente diversa da 0; mentre se la differenza minore di r si ritiene
che non sia significativamente diversa da 0.
Specificando il valore critico, si individuata la seguente regola di decisione:
1. se la differenza maggiore di r mi comporto come se la differenza diversa da zero; ritengo
che il produttore ha mentito sulla durata delle pile;
2. se la differenza minore di r mi comporto come se la differenza uguale a zero; ritengo che
il produttore ha detto la verit sulla durata delle pile.

Vediamo di formalizzare matematicamente quanto detto finora.
Indichiamo con
0
8,1 = la durata media teorica, quella garantita dal produttore delle pile.
Indichiamo con 7, 8 x = la durata media riscontrata nel campione estratto, che una delle possibili
realizzazioni della variabile casuale durata media X definita nello spazio di tutti i campioni.
La regola di decisione pu allora essere scritta formalmente nel seguente modo:
1. se
0
x r mi comporto come se
0
0 X ;
2. se
0
x r < mi comporto come se
0
0 X = .

Immaginiamo ad esempio che il valore critico sia 0, 5 r = .
Allora
0
7, 8 8,1 0, 3 0, 5 x r = = < = , per cui si riterr che la differenza osservata tra media
campionaria e media teorica non significativamente diversa da 0. Il commerciante si comporter
come se il produttore ha detto la verit sulla durata media delle pile.

Le decisioni prese in base a questa regola non sono per esenti da errore, a causa della variabilit
della media campionaria X . In particolare vedremo che si possono commettere due tipi di errore. E
vedremo che il valore critico da utilizzare nella regola di decisione pu essere definito cercando di
minimizzare questi errori.

Errori di primo e secondo tipo

Iniziamo con il formalizzare il problema della verifica delle ipotesi.

Si suppone che la variabile oggetto di studio sia distribuita nella popolazione statistica secondo una
Normale
( )
2
, X N

Per il momento immaginiamo di conoscere la varianza della distribuzione.
La media invece non nota. Viene avanzata unipotesi riguardo il suo valore, ipotesi di cui si vuole
verificare la veridicit. Questa definita come lipotesi nulla ed indicata con
0 0
: H = .
Nellesempio lipotesi nulla era
0
: 8,1 H = che equivaleva al fatto che il produttore avesse detto la
verit.

Si definisce inoltre unipotesi alternativa, indicata con

1 0
: H

che complementare allipotesi nulla. Nellesempio lipotesi alternativa
1
: 8,1 H che equivale
al fatto che il produttore ha mentito.

Per verificare (tecnicamente si dice testare) se lipotesi nulla vera oppure no, si estrae un
campione dalla popolazione sul quale si calcola la media campionaria x , che viene messa a
confronto con il valore ipotetico
0
.

La variabile casuale media campionaria, sappiamo, ha distribuzione anchessa Normale

2
, X N
n
| |
|
\

Allora anche la differenza tra la media campionaria ed il valore ipotetico della media sar una
variabile casuale che ha distribuzione Normale

( )
2
0 0
, X N
n

| |

|
\

Il risultato ottenuto applicando le propriet della media e della varianza, indicate come propriet
A1 e A2 a pag.2 del file Inferenza_1, essendo
0
una costante:
[ ]
0 0 0
E X E X ( = =

e
[ ]
2
0
V X V X
n
( = =

Allora, se lipotesi nulla
0 0
: H = vera, la distribuzione della v.c. media campionaria diventa

( )
0
2
0 0
, |
H
X N f X H
n
| |
=
|
\

e la distribuzione della v.c. differenza sar

( ) ( )
0
2
0 0 0
0, |
H
X N f X H
n

| |
=
|
\

Il valore critico r suddivide lo spazio dei campioni in due parti complementari:
1. linsieme di tutti i campioni per i quali
0
x r , che detta regione di rifiuto dellipotesi
nulla;
2. linsieme di tutti i campioni per i quali
0
x r < , detta regione di accettazione dellipotesi
nulla.

Le regioni di rifiuto e daccettazione sono rappresentate nella figura sottostante, assieme alla
funzione di densit della variabile casuale differenza quando vera lipotesi nulla :

Dalla figura appare chiaro che, qualsiasi sia il valore critico r, la probabilit di commettere un
errore sempre maggiore di 0.

Infatti ci sar sempre qualche campione per il quale il valore assunto dalla v.c. differenza
0
X
risulter superiore al valore critico. Questo comporter il rifiuto dellipotesi nulla, nonostante tale
ipotesi sia vera. Tale errore viene detto errore di primo tipo.

La probabilit dellerrore di primo tipo viene indicata con

{ }
0 0
Pr | X r H =

e corrisponde allarea sottostante la funzione di densit ( )
0 0
| f X H
(

nellintervallo della
regione di rifiuto dellipotesi nulla
0
H , ovvero nelle due code esterne allintervallo di ampiezza
2 r centrato sullo 0.

Appare evidente anche che esiste un rapporto di proporzionalit inversa tra ed r. Infatti se
vogliamo una pi piccola probabilit dellerrore di primo tipo dobbiamo prendere un valore critico
pi grande, cosa che corrisponde ad ampliare la regione di accettazione per lipotesi nulla.

Accanto allerrore di primo tipo si pu commettere anche un errore di secondo tipo, che consiste
nellaccettare lipotesi nulla quando invece essa falsa.
Ci si verifica quando per qualche campione il valore assunto dalla v.c. differenza
0
X risulta
inferiore al valore critico, il che porta ad accettare lipotesi nulla, mentre in realt lipotesi nulla
falsa ed vera lipotesi alternativa.

Per capire questo fatto, immaginiamo per ora di avere unipotesi alternativa semplice
1 1
: H = ,
con
1 0
< .
Se vera lipotesi alternativa, per lo stesso ragionamento usato in precedenza a pag. 4, la
distribuzione della differenza
0
X sar

( ) ( )
1
2
0 1 0 0 1
, |
H
X N f X H
n

| |
=
|
\

che ancora una Normale per centrata non pi attorno allo zero ma attorno al valore
1 0
0 < .

La figura sottostante riporta assieme i grafici della distribuzione della differenza
0
X nei due
casi in cui vera lipotesi nulla
0 0
: H = oppure vera lipotesi alternativa
1 1
: H = . Le due
distribuzioni hanno la stessa varianza, e quindi lo stesso andamento attorno alle loro medie che
invece sono differenti.

Per tutti quei campioni per i quali
0
x r < , che portano ad accetare lipotesi nulla
0
H , nel caso
fosse vera lipotesi alternativa
1
H , si commetterebbe un errore di secondo tipo, la cui probabilit,
detta probabilit dellerrore di secondo tipo, indicata con

{ }
0 1
Pr | X r H = <

La probabilit rappresentata nella figura precedente e corrisponde allarea sottostante la
funzione di densit ( )
0 1
| f X H
(

nellintervallo della regione di accettazione dellipotesi nulla
0
H .

In generale si possono avere 4 situazioni, rappresentate nella tabella sottostante:

Ipotesi che vera nella realt

0
H vera
0
H falsa
ed vera
1
H
Accetto
0
H

Decisione corretta

con probabilit 1

errore di II tipo

con probabilit

D
e
c
i
s
i
o
n
e

p
r
e
s
a

Rifiuto
0
H

errore di I tipo

con probabilit

Decisione corretta

con probabilit 1

Poich non sappiamo quale delle due ipotesi sia vera, le probabilit di commettere i due errori di
primo e secondo tipo saranno entrambe positive.

possibile soltanto tenere sotto controllo una delle due probabilit derrore a scapito dellaltra.

Infatti se si vuole ridurre possibile prendere un nuovo valore critico
1
r r > . La regione di
accettazione di
0
H sar pi grande; si riduce , ma contemporaneamente aumenta .

Si confronti al riguardo il grafico della pagina precedente con quello della pagina successiva, in cui
si scelto un valore critico
1
r pi grande di r.

Determinazione del valore critico

Rimane irrisolto il problema della determinazione del valore critico da utilizzare nella regola di
decisione. Vediamo quale soluzione stata trovata.

Vista limpossibilit di minimizzare entrambe le probabilit degli errori di primo e secondo tipo, la
soluzione attuata dagli statistici stata quella di tenere sotto controllo la probabilit dellerrore di
primo tipo .
Questo perch lipotesi nulla
0
H solitamente rappresenta lo stato delle conoscenze attuali, mentre
lipotesi alternativa
1
H rappresenta una novit rispetto a quanto ritenuto vero finora. Si pensi ad una
nuova teoria scientifica che si propone di sostituirne una vecchia. Scegliendo di tenere sotto
controllo , fissandola ad un valore molto piccolo, si vuole ridurre al minimo la probabilit di
abbandonare la vecchia teoria per la nuova quando invece la vecchia teoria ancora vera.
In altri termini fissando si ottengono dei test conservativi.

Si pensi ancora ad un test clinico che dovrebbe fornire al medico informazioni necessarie per
stabilire se il paziente sano o malato, per sottoporlo eventualmente ad un intervento chirurgico.
In questo caso lipotesi nulla
0
: H il paziente sano, e lipotesi alternativa
1
: H il paziente
malato. Le probabilit degli errori di I e II tipo saranno, in tal caso:
{ } Pr | di decidere che il paziente malato quando invece sano =
{ } Pr | di decidere che il paziente sano quando invece malato = .
evidente che prioritario evitare di sottoporre ad un intervento chirurgico una persona sana,
ritenendola malata; piuttosto che non sottoporre ad intervento una persona malata ritenendola sana.
Le conseguenze negative nel primo caso sono sicuramente pi malaugurate di quelle del secondo.
Discende da ci la preferenza a tenere sotto controllo la probabilit dellerrore di primo tipo rispetto
alla probabilit dellerrore di secondo tipo.

Fissato , solitamente ad un valore non superiore al 5%, si determina il corrispondente valore di r
dalla relazione
{ }
0 0
Pr | X r H = .

Infatti si sa che la distribuzione della differenza
0
X quando vera
0
H

( )
0
2
0
0,
H
X N
n
| |
|
\
.

Dividendo
0
X per
n
si ottiene una variabile casuale Normale Standard

( )
0
0
0, 1
H
X
Z N
n
=

Allora dividendo ambo i membri della disequazione
0
X r per
n
si ottiene

{ }
0
0
0 0 0
1
2
|
Pr | Pr Pr |
X
r
H
X r H Z z H
n n

= = =
` `
)
)

essendo
0

X
Z
n
= il valore assoluto di una v.c. Normale Standard

e
1
2

r
z
n

= l 1
2
| |

|
\
esimo percentile della distribuzione Normale Standard

Si pu determinare cos il valore critico
1
2
r z
n
= da utilizzare nella regola di decisione.

In realt viene pi comodo confrontare il valore
oss
z osservato, sul campione estratto, della
statistica test Z con il percentile
1
2
z

.
Infatti, per quanto visto prima, c equivalenza tra le due scritture
0
X r e
1
2
Z z

.

In conclusione allora, nel caso verifica dipotesi sulla media di una distribuzione con varianza
nota, ed ipotesi alternativa bilaterale

0 0
1 0
:
:
H
H

=

fissato il valore di , la regola di decisione la seguente:

Ritorniamo allesempio iniziale sulla durata media delle pile e ipotizziamo che la varianza in
popolazione nota e pari a 0,09. Fissiamo una probabilit dellerrore di primo tipo pari a 0,05.

Allora il valore osservato della statistica test della Normale, calcolato sul campione di 10 pile
estratto, sar

0
7,8 8,1 0, 3
10 3,162
0, 3 0, 3
10 10
oss
x
z
n

= = = = =

e il valore del percentile sar
0,975
1
2
1, 96 z z
= =

Poich
1
2
3,162 1, 96
oss
z z

= = il commerciante rifiuta lipotesi nulla

0
: 8,1 H = sulla durata
media delle pile. Quindi non pager la fattura al produttore e restituir le pile al produttore.

N.B.:
Mentre le ipotesi matematiche sono vere o false, le ipotesi statistiche sono solo probabilmente vere
o false. Un test statistico non pu dire mai se una ipotesi vera o falsa, ma fornisce solo una
indicazione di comportamento.
Nellesempio delle pile il test suggerisce al commerciante di comportarsi come se il produttore
abbia detto la verit.
se
1
2

oss
z z

si rifiuta lipotesi nulla

0
H e si accetta lipotesi alternativa
1
H ;

se
1
2

oss
z z

< si accetta lipotesi nulla

0
H .

Ipotesi alternativa unilaterale

Lipotesi alternativa pu essere anche unilaterale:
1 0
: H > oppure
1 0
: H < .

In tal caso per determinare la regola di decisione, quando si utilizza la differenza osservata tra valor
medio campionario e valor medio teorico ipotizzato, questa non va presa in valore assoluto.

Con il sistema dipotesi seguente (ipotesi unilaterale destra)

0 0
1 0
:
:
H
H

=
>

la regione di rifiuto
0
X r

e la probabilit dellerrore di primo tipo diventa

{ }
0 0
Pr | X r H = .

Quando si va a standardizzare si ottiene

{ } { }
0
0
0 0 1 0
|
Pr | Pr Pr |
X r
H
X r H Z z H
n n

= = =
`

)

La regola di decisione che si ottiene la seguente:

se
1

oss
z z

0
1
H ;

se
1

oss
z z

0
H .

Con il sistema dipotesi seguente (ipotesi unilaterale sinistra)

0 0
1 0
:
:
H
H

=
<

la regione di rifiuto
0
X r

e la probabilit dellerrore di primo tipo diventa

{ }
0 0
Pr | X r H = .

Quando si va a standardizzare si ottiene

{ } { }
0
0
0 0 0
|
Pr | Pr Pr |
X r
H
X r H Z z H
n n

= = =
`

)


se
oss
z z

0
1
H ;

se
oss
z z
> si accetta lipotesi nulla

0
H .

Equivalenza tra verifica delle ipotesi e calcolo degli intervalli di confidenza

Si pu facilmente verificare che esiste una perfetta corrispondenza tra il procedimento di verifica di
una ipotesi statistica ed il calcolo di un intervallo di confidenza.
Partiamo dal caso di ipotesi sulla media con varianza nota e ipotesi alternativa bilaterale:

0 0
1 0
:
:
H
H

=

Si visto che la regola di decisione si ottiene fissando un valore minimo della probabilit
dellerrore di prima specie

{ }
0
0
0 0 0
1
2
|
Pr | Pr Pr |
X
r
H
X r H Z z H
n n

= = =
` `
)
)
.

Se consideriamo levento complementare allerrore di prima specie, cio levento che consiste
nellaccettare lipotesi nulla quando essa vera, esso avr probabilit

{ }
0 0 0
1
2
1 Pr | Pr | X r H Z z H

= < = <
`
)
.

Consideriamo la disequazione
0
1
2

X
Z z
n
= <

e risolviamola rispetto alla media campionaria.

Poich compare un valore assoluto occorre distinguere due casi:

1. se
0
X > , allora
0
0 X > ; togliamo il valore assoluto e la relazione diventa

0
1
2

X
z
n
<
che risolta rispetto alla media campionaria porta alla soluzione
0
1
2
X z
n
< + .

2. se
0
X < , allora
0
0 X < ; togliamo il valore assoluto e la relazione diventa

0
1
2

X
z
n
<

che risolta rispetto alla media campionaria porta alla soluzione
0
1
2
z X
n
< .

Mettendo assieme le due cose si ottiene un intervallo di variazione per la media campionaria

0 0
1 1
2 2
z X z
n n

< < + .

Poich il punto di partenza stata la probabilit { }
0 0
1 Pr | X r H = < , possiamo scrivere

0 0 0
1 1
2 2
1 Pr | z X z H
n n

= < < +
`
)

Ci implica che c equivalenza perfetta tra leffettuare la verifica dellipotesi nulla
0 0
: H =
sulla media, fissando una probabilit dellerrore di primo tipo pari ad , e la costruzione di un
intervallo di confidenza per la media campionaria al livello di confidenza dell1 sotto la
condizione che lipotesi nulla
0 0
: H = sia vera (cio che la media di popolazione sia proprio
0
).

Riprendendo lesempio di pag.2, da cui si partiti, fissando 0, 05 = , se vera lipotesi nulla
0
: 8,1 H = (ipotizzando nota la varianza della popolazione pari a
2
0, 09 = ) si avranno i seguenti
estremi dellintervallo di confidenza per la media campionaria

1 0
1
2
0, 3
8,1 1, 96 8,1 0,186 7, 914
10
k z
n
= = = e
2
8,1 0,186 8, 286 k + =

Poich la media campionaria calcolata sul campione estratto di pile pari a 7, 8 x = e non rientra
quindi nellintervallo di confidenza al livello del 1 95% =

{ }
0
Pr 7, 914 8, 286 | 0, 95 X H < < =

rifiuteremo lipotesi nulla. Si perviene chiaramente alla stessa decisione a cui si era giunti a pag.10
utilizzando la statistica test Normale in valore assoluto Z .
Verifica delle ipotesi usando il p-value

Nellapproccio alla verifica delle ipotesi visto finora vi un elemento di arbitrariet dovuto al fatto
che tutto si basa sulla probabilit dellerrore di primo tipo, che viene fissata in maniera soggettiva.
Ma perch scegliere 0, 01 = piuttosto che 0, 05 = ?
Chiaramente la scelta di un valore pi piccolo per , poich soggettiva, indica una minore
propensione al rischio di commettere un errore del primo tipo. In un certo senso implica che si pi
conservatori.

Per ovviare alla soggettivit di questa scelta, stato sviluppato un approccio alternativo.
Nel caso di ipotesi alternativa bilaterale
0 0
1 0
:
:
H
H

=

estratto il campione, la procedura prevede ancora di calcolare il valore osservato
oss
z della
statistica test
0
X
Z
n
= che sappiamo ha distribuzione Normale Standard.

Quindi si calcola la probabilit di osservare un valore di Z superiore a quello effettivamente
osservato
{ } Pr
oss oss
Z z =

Questa probabilit chiamata p-value, e corrisponde allarea sottostante nelle due code della curva
Normale Standard in corrispondenza dei valori
oss
z e
oss
z , come rappresentato nella figura
sottostante:

Quanto pi grande il p-value tanto pi il valore osservato
oss
z sar piccolo, cio vicino allo 0.
Poich al numeratore di Z troviamo la differenza
0
X , un valore piccolo di
oss
z ci dice che la
media campionaria calcolata sul campione osservato si avvicina molto al valore ipotizzato della
media in popolazione. Di conseguenza saremo portati ad accettare lipotesi nulla
0 0
: H = .

Allinverso, quanto pi piccolo il p-value tanto pi saremo portati a rifiutare lipotesi nulla.

Chiaramente bisogna stabilire una regola per decidere se il p-value piccolo abbastanza per poter
rifiutare lipotesi nulla.

Non c una regola fissa al riguardo. Tuttavia per convenzione, sulla base di studi empirici, si
distinguono i 4 casi seguenti:

0.01
oss
< rifiuto
0
H senza problemi;

0.01 0.05
oss
< < rifiuto
0
H a meno che non vi siano informazioni aggiuntive che
portino a non rifiutare
0
H ;

0.05 0.1
oss
< < moderata indicazione verso il rifiuto
0
H , senza informazioni
aggiuntive;

0.1
oss
> accetto
0
H .

Riprendiamo ancora lesempio iniziale delle pile.
Il valore osservato della statistica test Z sul campione estratto

0
7,8 8,1 0, 3
10 3,162
0, 3 0, 3
10 10
oss
x
z
n

= = = = =

ed il corrispondente p-value

{ } { } { }
{ } ( )
Pr 3,162 Pr 3,162 Pr 3,162
2 Pr 3,162 2 1 0, 9992 2 0, 0008 0, 0016
oss
Z Z Z
Z
= = + =
= = = =

Poich 0, 0016 0, 01 < si rifiuta sicuramente lipotesi nulla.

Ipotesi sulla media con varianza non nota

Se la varianza della popolazione non nota, non pi possibile utilizzare il test della Normale.
Infatti abbiamo gi visto che vale

( )
0
0
0, 1
H
X
Z N
n
=

Se la varianza non nota la dovremo stimare con la varianza campionaria.
Allora come si gi visto trattando degli intervalli di confidenza, si veda il file Inferenza_2 a
pag.13, se vera lipotesi nulla
0 0
: H = che si vuole verificare, vale il seguente risultato

( )
0
0 0
1

1
H
n
X X
T t
S
S
n
n

= =

Allora fissando un valore della probabilit dellerrore di primo tipo si ottiene

{ }
0
0
0 0 0
1
2
|
Pr | Pr Pr t |
X
r
H
X r H T H
S S
n n

= = =
` `
)
)

essendo

0 0

1
X X
T
S
S
n
n

= =
il valore assoluto di una v.c. t di Student con 1 n gradi di libert

e
1
2

1
r r
t
S
S
n
n
= =
l 1
2
| |

|
\
esimo percentile della t di Student con 1 n g.d.l.

Si pu determinare cos il valore critico
1 1
2 2

1
S S
r t t
n n

= =
da utilizzare nella regola

di decisione.

Tuttavia pi comodo confrontare il valore
oss
t osservato, sul campione estratto, della statistica
test T con il percentile
1
2
t

.

Infatti, per quanto visto prima, c equivalenza tra le due scritture
0
X r e
1
2
T t

.

In conclusione allora, nel caso di verifica dipotesi sulla media di una distribuzione con
varianza non nota, ed ipotesi alternativa bilaterale

0 0
1 0
:
:
H
H

=

fissato il valore di , la regola di decisione la seguente:

se
1
2

oss
t t


0
1
H ;

se
1
2

oss
t t


0
H .

Riprendendo lesempio iniziale delle pile, se ipotizziamo di non conoscere la varianza della
popolazione occorre stimarla tramite lequivalente campionario. Si perviene allora ad una statistica
test distribuita secondo la t di Student.

La varianza campionaria calcolata sul campione di pile estratte pari a
2
0, 21 S = . Quindi
0, 21 0, 458 S =

Il valore osservato della statistica test T sar

0
7, 8 8,1 0, 3 0, 3 3 0, 3 3
1, 965
0, 458 0, 458
0, 458 0, 458
3 1 9
oss
x
t
S
n

= = = = = =

Fissato 0, 05 = , l 1
2
| |

|
\
esimo percentile della t di Student con 9 g.d.l.
( ) 9
0,975
2, 26 t =

Poich
1
2
1, 965 2, 26
oss
t t

= < = si accetta lipotesi nulla

0
: 8,1 H = .

Ipotesi alternativa unilaterale

Per motivazioni del tutto analoghe a quella viste nel caso di varianza nota, se lipotesi alternativa
unilaterale si distinguono le due situazioni seguenti:

Nel caso di ipotesi alternativa unilaterale destra

0 0
1 0
:
:
H
H

=
>


se
1

oss
t t

0
1
H ;

se
1

oss
t t

0
H .

Nel caso di ipotesi alternativa unilaterale sinistra

0 0
1 0
:
:
H
H

=
<


se
oss
t t

0
1
H ;

se
oss
t t

0
H .

Uso dellintervallo di confidenza per la media campionaria

Anche ora possibile accertare lequivalenza esistente tra procedimento di verifica dellipotesi
nulla sulla media di popolazione e costruzione di un intervallo di confidenza per la media
campionaria.

Infatti con un procedimento analogo a quello visto nel caso di varianza nota, si pu affermare che
fissare la probabilit dellerrore di primo tipo

{ }
0 0 0
1
2
Pr | Pr t | X r H T H

= =
`
)

equivalente a fissare il livello di confidenza 1 per lintervallo di confidenza della media
campionaria

0 0 0
1 1
2 2
1 Pr |
S S
t X t H
n n

= < < +
`
)

Poich in questo caso non conosciamo la varianza di popolazione sar un intervallo costruito
utilizzando la t di Student con 1 n gradi di libert, esattamente la stessa distribuzione usata nella
verifica dellipotesi nulla sulla media di popolazione con varianza non nota.

Riprendiamo ancora lesempio iniziale delle pile, e costruiamo lintervallo di confidenza per la
media campionaria, supponendo vera lipotesi nulla
0
: 8,1 H = .
Fissando 0, 05 = gli estremi di tale intervallo sono

1 0
1
2
0, 458
8,1 2, 26 8,1 0, 345 7, 755
1 9
S
k t
n
= = =
e
2
8,1 0, 345 8, 445 k + =

Poich la media campionaria calcolata sul campione estratto di pile pari a 7, 8 x = e rientra
quindi nellintervallo di confidenza al livello del 1 95% =

{ }
0
Pr 7, 755 8, 445 | 0, 95 X H < < =

accetteremo lipotesi nulla. Si perviene chiaramente alla stessa decisione a cui si era giunti a pag.18
utilizzando la statistica test t di Student in valore assoluto T .

Uso del p-value

0 0
1 0
:
:
H
H

=

Si calcola la probabilit di osservare un valore di T superiore a quello effettivamente
osservato

{ } Pr
oss oss
T t =

che corrisponde allarea sottostante nelle due code della curva t di Student con 1 n gradi di libert
in corrispondenza dei valori
oss
t e
oss
t .

Sempre riprendendo lo stesso esempio iniziale delle pile, il valore osservato 1, 965
oss
t = gi
calcolato a pag.18. Il corrispondente p-value

{ } { } { }
( )
{ } ( )
9
Pr 1, 965 Pr 1, 965 Pr 1, 965
2 Pr 1, 965 2 1 0, 9595 2 0, 0405 0, 081
oss
T T T
t
= = + =
= = = =

Poich 0.05 0.1
oss
< < si ha una moderata indicazione verso il rifiuto
0
H , se non ci sono
informazioni aggiuntive.

Ipotesi sulluguaglianza tra due medie

Ipotesi sulluguaglianza tra due medie se le varianze sono note

Partiamo ancora da un esempio.
Immaginiamo ancora il nostro commerciante che deve rifornirsi di pile alcaline. I fornitori
principali di pile siano 2. Il primo fornitore AAA offre pile a 1,50 ciascuna, garantendo una durata
media di 8 ore. Il secondo fornitore BBB invece offre pile a 1,40 ciascuna, garantendo la stessa
durata media di 8 ore.
Il commerciante fortemente tentato ad acquistare le pile dal secondo fornitore, perch a parit di
durata costano il 7% in meno. Il fornitore AAA per lo mette sullavviso: se le pile del fornitore
BBB durano anchesse 8 ore non possono costare di meno rispetto a quelle che vende lui stesso.
Per essere sicuro che i dati sulla durata delle pile siano corretti il commerciante propone ai due
fornitori di fare un test. Sceglier un campione casuale di pile da entrambi e misurer su di essi le
durate. Se effettivamente le durate risulteranno le stesse allora prender le pile dal fornitore BBB. In
caso contrario le acquister dal fornitore AAA se le sue pile risulteranno avere durata maggiore di
quelle del fornitore BBB.

Quindi nel nostro esempio abbiamo una prima popolazione statistica rappresentata dalle pile del
fornitore AAA ed una seconda popolazione statistica costituita dalle pile del fornitore BBB. Si
interessati alla variabile durata delle pile in ore che si suppone distribuita in entrambe le
distribuzioni secondo una Normale con media incognita e varianza che supporremo prima nota e poi
non nota.
Indichiamo con X la variabile durata nella popolazione di pile del fornitore AAA

( )
2
,
X X
X N

e con Y la variabile durata in quella del fornitore BBB

( )
2
,
Y Y
Y N

La durata delle pile di una popolazione inoltre indipendente dalla durata delle pile nellaltra
popolazione.

Lipotesi nulla che si vuole verificare quella di uguaglianza tra le due medie

0
:
X Y
H =

Lipotesi alternativa unilaterale destra

1
:
X Y
H >

La regola di decisione si baser chiaramente sul confronto tra le stime delle durate medie delle due
popolazioni di pile, ovvero dal confronto tra le durate medie campionarie di due campioni estratti
ognuno da una delle due popolazioni.

Si immagini di estrarre un campione bernoulliano per ognuna delle 2 popolazioni di pile: ad
esempio 10 pile da entrambe le popolazioni (ma i due campioni possono avere benissimo
numerosit diverse).
Su ogni pila dei campioni si rileva la durata delle pile in ore, ottenendo i dati riportati di seguito

i
x 8,3 8,5 7,7 8,4 8,1 8,4 7,8 8,5 8,2 7,6
8,15 x =

i
y 7,7 8,2 7,6 7,8 7,5 8,1 7,8 8,4 7,6 7,8
7, 85 y =

Dal confronto tra le due medie campionarie si nota che x y > , il che porterebbe a rifiutare lipotesi
nulla e ad accettare lipotesi alternativa.

Tuttavia sappiamo che questi sono solo due dei possibili campioni estratti ognuno da una delle due
popolazioni: potrebbe darsi benissimo che con altri campioni il confronto tra le due medie
campionarie porti a risultati opposti. Occorre tener conto della variabilit campionaria, cio di come
si distribuiscono le medie campionarie.

Per fare questo si utilizza la distribuzione della differenza tra due medie campionarie, che
qualcosa di gi noto
( )
2 2
1 2
,
X Y
X Y
X Y N
n n

| |
+
|
\
.

Si osservi ora che scrivere
X Y
= equivalente a scrivere 0
X Y
= .
Allora ipotesi nulla e ipotesi alternativa possono essere riscritte come

0
1
: 0
: 0
X Y
X Y
H
H

=
>

Stimate le due medie con le corrispondenti medie campionarie, la regola di decisione pu essere
scritta formalmente nel seguente modo:
1. se x y r mi comporto come se 0 X Y > , cio rifiuto lipotesi nulla ed accetto
lipotesi alternativa;
2. se x y r < mi comporto come se 0 X Y = , cio accetto lipotesi nulla.

Allora se lipotesi nulla
0
: 0
X Y
H = vera la distribuzione della differenza tra le medie
campionarie diventa
( )
2 2
1 2
0
0,
X Y
H
X Y N
n n
| |
+
|
\
.

Si fissa quindi la probabilit dellerrore di I tipo, { }
0
Pr | X Y r H = e si va a standardizzare.

Nel caso di ipotesi alternativa unilaterale destra, se le varianze sono note, si ottiene

{ }
0 1 0
2 2 2 2
1 2 1 2
Pr | Pr |
X Y X Y
X Y r
H Z z H
n n n n

= =

`
+ +

)

Allora la regola di decisione nel caso di ipotesi alternativa unilaterale destra pu essere espressa
come confronto tra il valore osservato
oss
z della statistica test

2 2
1 2

X Y
X Y
Z
n n

=
+

ed il percentile
1
z

:

se
1

oss
z z

0
1
H ;

se
1

oss
z z

0
H .

Ritorniamo al nostro esempio ed immaginiamo di conoscere le due varianze, che siano ad esempio
rispettivamente
2
0,15
X
= e
2
0, 075
Y
= , e si fissi 0, 05 = .

Allora il valore osservato della statistica test

8,15 7,85 0, 3 0, 3
2
0,15 0,15 0, 075 0, 0225
10 10
oss
z

= = = =
+

ed il valore dell 95-esimo percentile
0,95
1, 645 z = .

Poich
1
2 1,645
oss
z z

= = si rifiuta lipotesi nulla di uguaglianza tra le due medie e si
accetta lipotesi alternativa
X Y
> .

Nel nostro esempio equivale ad accettare lipotesi che la durata media delle pile del fornitore AAA
maggiore di quella delle pile del fornitore BBB.


0
1
:
:
X Y
X Y
H
H

=

le ipotesi possono essere riscritte
0
1
: 0
: 0
X Y
X Y
H
H

=

e la regola di decisione diventa:

Mentre nel caso di ipotesi alternativa unilaterale sinistra

Nel caso di ipotesi unilaterale sinistra

0
1
:
:
X Y
X Y
H
H

=
<

le ipotesi possono essere riscritte
0
1
: 0
: 0
X Y
X Y
H
H

=
<

e la regola di decisione diventa:

se
oss
z z

0
1
H ;

se
oss
z z

0
H .

se
1
2

oss
z z


0
1
H ;

se
1
2

oss
z z


0
H .
Ipotesi sulluguaglianza tra due medie nel caso di varianze non note

Se le varianze non sono note, ricordando quanto detto relativamente allintervallo di confidenza per
la differenza tra due medie (si vedano gli appunti Inferenza_2 a pag. 20 e seguenti), ipotizzando
che la variabile oggetto di studio ha identica varianza nelle due popolazioni, si utilizzer la
distribuione t di Student.

Infatti, se
2 2 2
X Y
= = , possibile stimare
2
con
2 2
2 1 2
1 2

2
X Y
n S n S
S
n n
+
=
+
.

Allora si pu utilizzare la seguente statistica test

( )
( )
1 2
1 2
2

1 1
X Y
n n
X Y
T
S
n n
t

+

=
+

che, nel caso in cui vera lipotesi nulla
0
: 0
X Y
H = , diventa

( )
1 2
0
1 2
2

1 1
H
n n
X Y
T
S
n n
t
+
=
+


0
1
:
:
X Y
X Y
H
H

=

la regola di decisione, fissata la probabilit dellerrore di I tipo, diventa:


0
1
:
:
X Y
X Y
H
H

=
<

se
1
2

oss
t t


0
1
H ;

se
1
2

oss
t t


0
H .


Nel caso di ipotesi alternativa unilaterale destra

0
1
:
:
X Y
X Y
H
H

=
>


Riprendiamo lesempio del commerciante e dei 2 fornitori di pile. un esempio di ipotesi
alternativa unilaterale destra.

Se le varianze delle due popolazioni non sono note si stimano le due varianze campionarie:
2
0,1025
X
S = e
2
0, 0765
Y
S = .

Quindi ipotizzando che le varianze di popolazione sono uguali fra di loro, si stima
2
con

2 2
2 1 2
1 2
10 0,1025 10 0, 0765 1, 025 0, 765
0, 0994
2 10 10 2 18
X Y
n S n S
S
n n
+ + +
= = = =
+ +

Allora la statistica test con i campioni osservati assume il valore

8,15 7, 85 0, 3 0, 3
2,13
0, 315 0, 447 0,140805 1 1
0, 315
10 10
oss
t

= = = =
+

Fissato 0, 05 = il valore dell
( )
1 esimo percentile della t di Student con 18 gradi di libert

0,95
1, 73 t = .

Poich
1
2,13 1,73
oss
t t

= = si rifiuta lipotesi nulla di uguaglianza tra le due medie e si
accetta lipotesi alternativa
X Y
> .
se
oss
t t

0
1
H ;

se
oss
t t

0
H .
se
1

oss
t t

0
1
H ;

se
1

oss
t t

0
H .

Ipotesi sulla varianza

Si ipotizza di avere come sempre una popolazione Normale, ( )
2
, X N .
La varianza non nota e su di essa si avanza una qualche ipotesi

2 2
0 0
: H =

che si vuole verificare sulla base dei dati contenuti in un campione estratto dalla popolazione.

Lidea quella di calcolare la varianza campionaria
2
S (oppure
2
S ) e di confrontarla con il valore
ipotizzato
2
0
.
Il confronto, a differenza di quanto si fa nel caso di verifica di ipotesi sulla media, viene affettuato
non tramite differenza ma prendendo il rapporto tra
2
S e
2
0
, perch solo in questo modo si ricava
una distribuzione nota.
Infatti se vera lipotesi nulla,
2 2
0 0
: H = , si ha ( )
0
2
0
,
H
X N .
Si pu utilizzare allora la distribuzione Chi-quadro, poich se vera lipotesi nulla vale che

( )
2 2
2
1 2 2
0 0
1

n
n S n S

= .

Esaminiamo il caso di unipotesi alternativa bilaterale

2 2
1 0
: H

Consideriamo il rapporto
2
2
0
S
. Se vera lipotesi nulla quel rapporto sar uguale ad 1.

Poich si ragiona in termini probabilistici, quanto pi il rapporto
2
2
0
S
si avvicina ad 1 saremo portati

ad accettare lipotesi nulla, mentre quanto pi quel rapporto si discosta da 1 saremo portati a
rifiutare lipotesi nulla e ad accettare lipotesi alternativa.

Occorre quindi trovare un valore critico r che permetta di definire una regola di decisione:

1. se
2
2
0

S
r
mi comporto come se
2
2
0
1
S
, cio rifiuto lipotesi nulla ed accetto lipotesi

alternativa;
2. se
2
2
0

S
r
< mi comporto come se

2
2
0
1
S
= , cio accetto lipotesi nulla.

Per trovare il valore critico, si fissa la probabilit dellerrore di I tipo,
2
0 2
0
Pr |
S
r H

=
`
)
e si
utilizza quindi la distribuzione Chi-quadro, dopo aver moltiplicato per n:

{ }
2
2
0 1 0 2
0
Pr | Pr |
n
n S
n r H n r H

= =
`
)

Essendo la distribuzione Chi-quadro non simmetrica, dovremo considerare entrambi i percentili
2

e
1
2
ottenendo

{ } { }
2 2
1 0 1 0
1
2 2
Pr | Pr |
n n
H H

= +

In conclusione la regola di decisione pu essere espressa come confronto tra il valore osservato
oss
c della statistica test
2
2
0

n S
C
=
ed i percentili
2
e
1
2
:


2 2
0 0
2 2
1 0
:
:
H
H

=
<

la regola di decisione diventa:

se
2

oss
c

oppure se
1
2

oss
c


0
H e si accetta
lipotesi alternativa
1
H ;

se
1
2 2

oss
c

< < si accetta lipotesi nulla

0
H .

se
oss
c

0
1
H ;

se >
oss
c

si accetta lipotesi nulla
0
H .
Infine nel caso di ipotesi alternativa unilaterale destra

2 2
0 0
2 2
1 0
:
:
H
H

=
>

la regola di decisione diventa:

se
1

oss
c

0
1
H ;

se
1
<
oss
c

si accetta lipotesi nulla
0
H .
La distribuzione F di Fisher

Siano Q e W due distribuzioni Chi-quadro, rispettivamente di m ed n gradi di libert

2

m
Q e
2

n
W

allora si dimostra che la quantit
,

m n
Q
m
F F
W
n
=

si distribuisce secondo una F di Fisher con m gradi di libert al numeratore ed n gradi di libert al
denominatore.

Essendo ottenuta come rapporto tra due Chi-quadro, anche la F di Fisher assume solo valori
positivi.
Di seguito ci sono alcuni esempi di grafici di distribuzioni F (di colore blue) per valori diversi dei
gradi di libert del numeratore e del denominatore. In rosso rappresentata una distribuzione
Normale avente stessa media e stessa varianza della F, per evidenziare che al crescere dei gradi di
libert vale sempre lapprossimazione alla Normale.

Ipotesi sulluguaglianza tra due varianze

Si gi visto per gli intervalli di confidenza della differenza tra due medie e per la verifica
dellipotesi di uguaglianza tra due medie che, quando le varianze delle due popolazioni non sono
note, si utilizza la distribuzione t di Student ma che bisogna ipotizzare che le due varianze in
popolazione siano uguali.
Luso della distribuzione t di Student corretto solo se lipotesi di uguaglianza tra le due varianze
vera. Da ci discende la necessit di testare tale ipotesi.

Si hanno quindi due popolazioni ( )
2
,
X X
X N e ( )
2
,
Y Y
Y N e si vuole testare lipotesi
nulla
2 2 2
0
:
X Y
H = =
contro lipotesi alternativa
2 2
1
:
X Y
H .

Per effettuare questo test si utilizza la distribuzione F di Fisher.

Si estraggono due campioni di numerosit m ed n, uno da ognuna delle due popolazioni, si
calcolano le due varianze campionarie,
2
X
S e
2
Y
S , che vengono quindi confrontate tramite rapporto
2
2
X
Y
S
S

Se vera lipotesi nulla,
2 2 2
0
:
X Y
H = = , il rapporto
2
2
X
Y
S
S
sar uguale ad 1.
Poich si ragiona in termini probabilistici, quanto pi il rapporto
2
2
X
Y
S
S
si avviciner ad 1 saremo
portati ad accettare lipotesi nulla, mentre quanto pi quel rapporto si discoster da 1 saremo portati
a rifiutare lipotesi nulla e ad accettare lipotesi alternativa,
2 2
1
:
X Y
H .

Occorre quindi trovare un valore critico r che permetta di definire una regola di decisione:

1. se
2
2

X
Y
S
r
S
mi comporto come se
2
2
1
X
Y
S
S
, cio rifiuto lipotesi nulla ed accetto lipotesi
alternativa;
2. se
2
2

X
Y
S
r
S
< mi comporto come se
2
2
1
X
Y
S
S
= , cio accetto lipotesi nulla.

Per trovare r si fissa come al solito la probabilit dellerrore di I tipo,
2
0 2
Pr |
X
Y
S
r H
S

=
`
)
.

noto che
2
2
1 2

X
m
X
m S
e che
2
2
1 2

Y
n
Y
n S
.
Per quanto visto riguardo la distribuzione F di Fisher, allora

2
2
1, 1 2
2
1

1
X
X
m n
Y
Y
m S
m
F F
n S
n

Ma se vera lipotesi nulla
2 2 2
0
:
X Y
H = = si ha

( )
( )
2
2 2
0 2
1
2 2
2
2
1
0
1 1
1

1 1
1
X
m
i
i X
n
Y Y
i
i
m S
x x
m S n n
m
F
n S n S m m
y y
n
=
=
= = =

Quindi diventa

{ }
2
0 1, 1 0 2
1 1 1
Pr | Pr |
1 1 1
X
m n
Y
m S n m n m n
r H F r H
n S m n m n m

= =
`

)

Nella pratica il test F viene effettuato con unipotesi alternativa unilaterale destra. Si procede nel
seguente modo: quando si vanno a rapportare fra di loro le due varianze campionarie, al numeratore
viene messa la pi grande delle due. In tal modo possiamo non tener conto del valore assoluto: la
probabilit dellerrore di primo tipo diventa allora

{ }
{ }
1, 1 0 1, 1 1 0
1
Pr | Pr |
1
m n m n
m n
F r H F F H
n m

= =

In conclusione la regola di decisione pu essere espressa come confronto tra il valore osservato
oss
F della statistica test
( )
( )
2
1
2
1
1

1
m
i
i
n
i
i
x x
n
F
m
y y
=
=

ed il percentile
1
F

se
1

oss
F F

0
1
H ;

se
1

oss
F F

0
H .

Inferenza 3

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Inferenza 3

Caricato da

Copyright:

Formati disponibili

Inferenza_3 pagina 1

Verifica di ipotesi statistiche

si ottiene una variabile casuale Normale Standard

= il valore assoluto di una v.c. Normale Standard

= da utilizzare nella regola di decisione.

= = il commerciante rifiuta lipotesi nulla

si rifiuta lipotesi nulla

< si accetta lipotesi nulla

si rifiuta lipotesi nulla

> si accetta lipotesi nulla

= che sappiamo ha distribuzione Normale Standard.

il valore assoluto di una v.c. t di Student con 1 n gradi di libert

da utilizzare nella regola

si rifiuta lipotesi nulla

< si accetta lipotesi nulla

= < = si accetta lipotesi nulla

si rifiuta lipotesi nulla

> si accetta lipotesi nulla

si rifiuta lipotesi nulla

> si accetta lipotesi nulla

si rifiuta lipotesi nulla

< si accetta lipotesi nulla

si rifiuta lipotesi nulla

< si accetta lipotesi nulla

si rifiuta lipotesi nulla

> si accetta lipotesi nulla

. Se vera lipotesi nulla quel rapporto sar uguale ad 1.

si avvicina ad 1 saremo portati

, cio rifiuto lipotesi nulla ed accetto lipotesi

< mi comporto come se

= , cio accetto lipotesi nulla.

si rifiuta lipotesi nulla

< < si accetta lipotesi nulla

Potrebbero piacerti anche