Sei sulla pagina 1di 25

1.

Intervalli di confidenza
Definizione 1. Sia X1 , . . . , Xn un campione aleatorio. Una statistica Tn = tn (X1 , . . . , Xn ) `e una
~ = (X1 , . . . , Xn ).
funzione del vettore aleatorio X
Sono esempi di statistiche:
(i) la media campionaria
n

X
n := 1
X
Xi
n i=1
in cui la funzione tn `e

1X
xi ;
tn (x1 , . . . , xn ) =
n i=1
(ii) la varianza campionaria
n

Sn2

1 X
n )2
(Xi X
:=
n 1 i=1

in cui la funzione tn `e
n

1 X
1X
xi
xi
tn (x1 , . . . , xn ) =
n 1 i=1
n i=1
p
(iii) la deviazione standard campionaria Sn := Sn2 .

!2
;

Definizione 2. Sia X1 , . . . , Xn un campione aleatorio. Supponiamo di aver fatto una misura di


X1 , . . . , Xn e aver trovato i valori x1 , . . . , xn (xi R). Allora diremo che x1 , . . . , xn `e la realizzazione
del campione ottenuta nella nostra miusura.
Dora in poi, indicheremo ogni statistica valutata sulla nostraPrealizzazione del campione
con la
Pn
1
(x

xn )2 .
corrispondente lettera minuscola: tn = tn (x1 , . . . , xn ), xn = n1 ni=1 xi , s2n = n1
i=1 i
n , S 2 sono tutte variabili aleatorie, le loro realizzazioni tn , xn , s2
Osserviamo che, mentre Tn , X
n
n
sono numeri reali.
Esempio 1. Consideriamo lesperimento aleatorio che consiste nel misurare laltezza di n = 8
maschi adulti presi a caso dalla stessa popolazione, e indichiamo con Xi la variabile aleatoria
Xi = altezza delli-esimo individuo.
Supponiamo di ottenere le misure
x1 = 1.82 x2 = 1.76 x3 = 1.78 x4 = 1.90 x5 = 1.85 x6 = 1.70 x7 = 1.68 x8 = 1.84.
Allora le nostre realizzazioni della media campionaria e della varianza campionaria sono rispettivamente
1.82 + 1.76 + 1.78 + . . . 1.84
xn =
= 1.79125
8
e
(1.82 1.79125)2 + (1.76 1.79125)2 + (1.78 1.79125)2 + . . . + (1.84 1.79125)2
2
sn =
81
= 0.005755357.
1

Definizione 3. Sia X una variabile aleatoria continua con densit`a fX . Dato (0, 1), il quantile
(destro) di ordine della densit`a di X `e il numero x R t.c.
P (X x ) = .
Equivalentemente, il quantile x `e il numero reale definito da
Z +
FX (x ) = 1 ,
fX (x) dx = ,
x

dove FX `e la funzione di ripartizione di X. Si osservi che la funzione 7 x `e decrescente, in


quanto al crescere di deve aumentare larea sottesa dalla densit`a alla destra di x , e quindi x
deve spostarsi a sinistra.
Osservazione 1. Se la densit`a fX `e simmetrica, cio`e fX (x) = fX (x) x R, allora valgono in
pi`
u le relazioni
x1 = x ,
FX (x ) = .
Infatti, dimostriamo per esempio la prima relazione:
Z +
Z
fX (x) dx =
fX (x0 ) dx0
col cambio di variabile x0 = x
x
Z xx
=
fX (x0 ) dx0
propriet`a dellintegrale e simmetria di fX

Z +
=1
fX (x0 ) dx0
normalizzazione di fX
x

= 1 .
In particolare, le relazioni precedenti valgono se X N (0, 1).
Definizione 4. Sia X1 , . . . , Xn un campione aleatorio, dove le Xi sono variabili aleatorie assolutamente continue con densit`a
fXi (x) f (x | )
dipendente da un parametro incognito . Siano An = an (X1 , . . . , Xn ) e Bn = bn (X1 , . . . , Xn ) due
statistiche tali che la probabilit`a dellevento {An Bn } sia
P (An Bn ) = 1 ,
dove (0, 1) `e un numero reale che non dipende dal parametro . Supponiamo di aver fatto una
misura di X1 , . . . , Xn e aver trovato la realizzazione x1 , . . . , xn . Allora diremo che lintervallo
(an (x1 , . . . , xn ) , bn (x1 , . . . , xn ))
`e un intervallo di confidenza di livello 1 per il parametro incognito (scriveremo per brevit`a
IC (1 )). Equivalentemente, si dice che
(an (x1 , . . . , xn ) , bn (x1 , . . . , xn ))
con confidenza 1 .

IC bilatero per la media di una popolazione normale con varianza nota. Se Xi


N (, 02 ), dove 02 `e nota e `e il parametro incognito che vogliamo stimare, allora un IC (1 ) `e


0
0
xn z/2 , xn + z/2
,
n
n
dove z/2 `e il quantile destro di ordine /2 della normale standard, che `e ricavabile dalle tavole
delle distribuzioni.
Infatti, ponendo
0
0
n z/2
n + z/2
An = X
,
Bn = X
n
n
nella definizione di IC (1 ), abbiamo




0
0
0
0

= P z/2 Xn z/2
P Xn z/2 Xn + z/2
n
n
n
n



Xn
0
= P z/2
n z/2
.
0
n
n N (, 02 /n), e quindi standardizzando
Poich`e per
un campione gaussiano sappiamo che X

n ) n/0 N (0, 1), abbiamo


( X


n
X
P z/2
n z/2 = (z/2 ) (z/2 )
0


perche N (0, 1) `e simmetrica (z/2 ) =
=1
2
2
2
= 1 ,
esattamente come richiesto dalla definizione di IC (1 ).
IC bilatero per la media di un campione numeroso qualunque, con varianza nota. Per
il teorema del limite centrale, se il campione ha densit`a arbitraria e non necessariamente gaussiana,
posto = E [X1 ] e 02 = Var (X1 ), sappiamo che vale comunque
n
X
n N (0, 1)
per n  1.
0
Quindi, a patto che n sia sufficientemente grande, la dimostrazione precedente continua a valere
(in modo approssimato) anche in questo caso, e permette di affermare che


0
0
xn z/2 , xn + z/2
n
n
`e un IC (1 ) (approssimato) per quando n  1 e le Xi hanno densit`a qualunque.
Esempio 2. Un astronomo misura la distanza di una galassia con uno strumento che ha una
precisione di 0 = 0.7 anni luce. Fa n = 8 misure indipendenti, che si possono supporre Xi
N (, 02 ), con
= distanza incognita della galassia
0 = precisione nota dello strumento

trovando i valori
x1 = 17.3 x2 = 16.5 x3 = 18.4 x4 = 17.7 x5 = 18.2 x6 = 18.7 x7 = 16.8 x8 = 18.2.
Con questi dati,
17.3 + 16.5 + . . . + 18.2
= 17.725,
8
e un IC (95%) per la distanza incognita `e (con = 0.05, z/2 = 1.96)


0.7
0.7
17.725 1.96 , 17.725 + 1.96
' (17.24 , 18.21).
8
8
Da notare che, se non avessimo fatto lipotesi a priori che la densit`a del campione `e gaussiana,
allora lintervallo precedente non sarebbe stato un IC (95%) nemmeno approssimato, perche un
campione di n = 8 misure `e troppo piccolo per poter applicare il Teorema del limite centrale.
x8 =

Osservazione 2. Nellesempio precedente, non ha alcun senso affermare che


P ( (17.24 , 18.21)) = 95%
in quanto (17.24 , 18.21) non `e un evento e dunque non se ne pu`o calcolare la probabilit`a.
Infatti, il parametro non `e una variabile aleatoria, ma `e semplicemente un numero che o sta
nellintervallo (17.24 , 18.21) o non ci sta. Proprio per questo motivo si dice che (17.24 , 18.21)
con confidenza del 95%, e non con probabilit`a del 95%. Ha invece senso affermare che la procedura
in cui:
8;
(1) effettuo n = 8 misure X1 , . . . , X8 , e da queste determino la statistica X
0.7
0.7

(2) costruisco lintervallo I = (X8 1.96 8 , X8 + 1.96 8 )


ha una probabilit`a del 95% di farmi ottenere un intervallo I che effettivamente contenga il parametro incognito .
IC unilateri per la media di una popolazione con varianza nota. Se Xi N (, 02 ), dove
02 `e nota e `e incognita, allora i seguenti sono intervalli di confidenza unilateri di livello 1
per :
(a) unilatero destro:


0
xn z , +
n
(b) unilatero sinistro:


0
, xn + z
.
n
P.es., dimostro (a):





n
0
n z
P X
=P
n z = (z ) = 1 .
0
n
In modo analogo a quanto fatto nel caso bilatero, si dimostra che i precedenti intervalli sono anche
IC (1 ) approssimati per la media di un campione arbitrario (non necessariamente gaussiano)
con varianza 02 = Var (X1 ) nota, quando la numerosit`a n del campione `e sufficientemente grande.
Il seguente teorema (non dimostrato) permette di trovare intervalli di confidenza per la varianza
di un campione gaussiano X1 , . . . , Xn , quando anche la sua media `e incognita.

Teorema 1. Sia X1 , . . . , Xn un campione gaussiano, con Xi N (, 2 ). Allora


(n 1)Sn2
2 (n 1),
2
dove 2 (n 1) `e la densit`a chi-quadrato con n 1 gradi di libert`a.
IC per la varianza di un campione gaussiano con media incognita. Se X1 , . . . , Xn `e un
campione gaussiano, con Xi N (, 2 ) e sia la media sia la varianza 2 sono incognite, allora i
seguenti sono tutti intervalli di confidenza di livello 1 per 2 :
(a) bilatero:
!
(n 1)s2n (n 1)s2n
,
2/2, n1 21/2, n1
(b) unilatero destro:



(n 1)s2n
, +
2, n1

(c) unilatero sinistro:




(n 1)s2n
0, 2
1, n1

(perche 2 > 0 sempre).


Negli intervalli precedenti, 2, n1 `e la notazione per il quantile destro di ordine della densit`a
2 (n 1), ricavabile dalle tavole delle distribuzioni.
Dimostriamo p.es. (a):
!
(
) (
)!
2
2
2
(n 1)Sn2
(n

1)S
(n

1)S
(n

1)S
n
n
n
P
2 2
=P
2 \
> 2
2/2, n1
1/2, n1
21/2, n1
2/2, n1

 

(n 1)Sn2
(n 1)Sn2
2
2
1/2, n1 \
> /2, n1
=P
2
2
(
)
(
)
2
(n 1)Sn2
(n

1)S
n
=P
21/2, n1 P
> 2/2, n1
2
2

| {z }
| {z }
2 (n1)

2 (n1)

= 1 .
2
2
Notiamo nel terzo passaggio che 2/2, n1 > 21/2, n1 , dunque abbiamo linclusione di eventi
{(n 1)Sn2 / 2 > 2/2, n1 } {(n 1)Sn2 / 2 21/2, n1 }, che giustifica la differenza delle
corrispondenti probabilit`a.


= 1

Esempio 3. Riprendiamo lEsempio 2, e supponiamo sempre che il campione delle 8 misure


X1 , . . . , X8 sia gaussiano, con Xi N (, 2 ), ma adesso rimuoviamo lipotesi che lastronomo
conosca a priori la precisione del suo strumento. Se ora vogliamo dare una stima di basandoci
sui dati x1 , . . . , x8 dellesperimento, dovremo pertanto usare gli intervalli di confidenza appena
ricavati. Per esempio, se desideriamo trovare un limite superiore per al livello di confidenza del

95%, ci`o significa che dovremo ricavare un IC (95%) unilatero sinistro (tipo (c)) per 2 . Il quantile
da usare `e
21, n1 = 20.9, 7 = 2.167
mentre dai dati ricaviamo che
n

s2n

1 X
(17.3 17.725)2 + (16.5 17.725)2 + . . . + (18.2 17.725)2
=
(xi xn )2 =
n 1 i=1
81
' 0.62786

Pertanto, il limite superiore per 2 `e


(n 1)s2n
(8 1) 0.62786
'
= 2.0281
2
1, n1
2.167

o, equivalentemente, il limite superiore per `e 2.0281 = 1.424.


Osservazione 3. Unespressione alternativa della varianza campionaria `e
!
n
X
1
2
2
2
n .
Sn =
X nX
n 1 i=1 i
Infatti
n


1 X
n 2 = 1
Xi X
n 1 i=1
n1
1
=
n1
1
=
n1
1
=
n1

n
X
i=1
n
X
i=1
n
X
i=1
n
X

Xi2 2

n
X

n +
Xi X

i=1

n 1
Xi2 2nX
n

n
X

!
2
X
n

i=1
n
X

2
Xi + X
n

i=1

n
X

!
1

i=1

!
n2 + nX
n2
Xi2 2nX
!
2 .
Xi2 nX
n

i=1

Proposizione 1. La varianza campionaria `e uno stimatore non distorto della varianza vera del
campione 2 := Var (Xi ). In altre parole, E [Sn2 ] = 2 .
Dimostrazione. Utilizzando la formula alternativa ricavata nellosservazione precedente, per la
linearit`a della media
!
n
X
 2
 2
 
 2 
 2
1
1

E Xi nE X
=
E Sn =
nE X12 nE X
.
n
n
n 1 i=1
n1
Ricordiamo che, dalla formula alternativa per la varianza di una variabile aleatoria Y qualunque,
 
E Y 2 = Var (Y ) + E [Y ]2 .

Inserendo questa relazione nellespressione precedente,


 

 2 
n 
n E X
n
E Sn2 =
Var (X1 ) + E [X1 ]2 Var X
n
1

 

1 2
n
2
2
2
n = Var (X1 ) e E X
n = E [X1 ]
+ E [X1 ] E [X1 ]
perche Var X
=
n1
n
n


1
n
1
2
=
n1
n
= 2.

Come conseguenza della legge dei grandi numeri, la variabile aleatoria Sn2 approssima bene la
varianza vera del campione 2 = Var (X1 ) quando n `e sufficientemente grande. In altre parole, se
n  1, la varianza campionaria Sn2 `e con buona approssimazione la variabile aleatoria costante e
identicamente uguale a 2 . Ci`o pu`o essere euristicamente dimostrato nel modo che segue. Per la
n ' , e quindi, posto Yi = (Xi X
n )2 ,
legge dei grandi numeri (LGN), se n `e grande abbiamo X
vale che Yi ' (Xi )2 . Pertanto le variabili
aleatorie Y1 , . . . , Yn sono approssimativamente
P
i.i.d.. Osserviamo che per definizione Sn2 = ni=1 Yi /(n 1) = nYn /(n 1). Quindi, una seconda
applicazione della LGN ci dice che


n
n
n
n
n
Sn2 =
Yn '
E [Y1 ] '
E (Xi )2 =
Var (X1 ) =
2 ' 2,
n1
n1
n1
n1
n1
dove si `e usato anche il fatto che, per n  1, si ha n/(n 1) ' 1.
IC per la media di un campione numeroso con varianza incognita. Sia X1 , . . . , Xn un
campione con
Xi qualunque

:= E [Xi ], 2 := Var (Xi ) entrambe incognite.

Supponiamo n  1. Allora i seguenti sono tutti intervalli di confidenza approssimati di livello


1 per :


sn
sn

(a) xn z/2 n , xn + z/2 n ;




(b) xn z snn , + ;


(c) , xn + z snn , + .
Infatti, per quello che abbiamo appena visto Sn ' al limite per n  1 e quindi
n
n
X
X
n'
n.
Sn

Ma per il Teorema del limite centrale


n
X
n N (0, 1)

n
X
n N (0, 1).
Sn

Pertanto, per mostrare p.es. (b),




X

n
S
n
n z
P X
=P
n z ' (z ) = 1 .
S
n
| n{z }
N (0,1)

Le dimostrazioni di (a) e (c) sono del tutto simili.


Teorema 2 (Non dimostrato). Se X1 , . . . , Xn `e un campione aleatorio gaussiano, con Xi
N (, 2 ), allora
n
X
n t(n 1),
Sn
dove t(n 1) `e la densit`a t di Student con n 1 gradi di libert`a.
Osservazione 4. (a) Come la normale standard, anche la densit`a t(n) `e simmetrica rispetto
allasse delle y, dunque i suoi quantili soddisfano la relazione
t1,n = t,n .
(b) Abbiamo visto che, se X1 , . . . , Xn `e un campione con densit`a qualsiasi, per n  1 vale
lapprossimazione
n
n
X
X
n '
n N (0, 1).
LGN
T LC
Sn

n
Daltra
parte, se in pi`
u sappiamo che il campione `e gaussiano, con Xi N (, 2 ), allora (X

) n/Sn t(n 1) sempre (anche per n piccolo!). Confrontando le due cose, questo significa che
quando n  1 la densit`a t(n) di Student `e approssimativamente una normale standard. Segue
che in tal caso anche i quantili della t di Student sono approssimativamente quelli della normale
standard:
t,n ' z

per n  1.

Si pu`o verificare guardando direttamente sulle tavole che questa approssimazione vale gi`a abbastanza bene quando n 40.
IC per la media di una popolazione normale con varianza incognita. Sia X1 , . . . , Xn un
campione con Xi N (, 2 ), dove sia sia sono entrambi parametri incogniti. Allora i seguenti
sono tutti intervalli di confidenza di livello 1 per :


(a) xn t/2,n1 snn , xn + t/2,n1 snn ;


sn

(b) xn t,n1 n , + ;


(c) , xn + t,n1 snn , + .

n )n/Sn t(n 1) come


La dimostrazione `e la solita, e usa in questo caso il fatto che (X
enunciato nel precedente teorema. Dimostriamo p.es. (a):




n
S
X
S
n
n

P Xn t/2,n1 Xn + t/2,n1
= P t/2,n1
n t/2,n1
S
n
n
| n{z }
t(n1)


= Ft(n1) (t/2,n1 ) Ft(n1) (t/2,n1 ) = 1
2
2
= 1 ,
dove Ft(n1) `e la funzione di ripartizione della densit`a t(n 1) e abbiamo usato la simmetria della
t di Student per ricavare Ft(n1) (t/2,n1 ) = /2.
IC per la frequenza di una popolazione bernoulliana. Sia X1 , . . . , Xn un campione con
Xi Be(1, p) p incognita.
Supponiamo n  1. Allora i tre intervalli (a), (b), (c) del caso precedente sono tutti intervalli di
confidenza approssimati di livello 1 per la frequenza p. Infatti, nel caso presente le variabili
aleatorie Xi possono prendere solo i valori 0 o 1, dunque la media campionaria
n = X1 + . . . + Xn = #{i {1, . . . , n} : Xi = 1}
X
n
n
non `e altro che la frequenza empirica. Mostriamo invece che per la deviazione standard campionaria
Sn vale la relazione
Sn2 ' Xn (1 Xn ).
Infatti, ricordando la formula alternativa
!
n
X
1
n2
Xi2 nX
Sn2 =
n 1 i=1
e osservando che nel caso presente Xi2 = Xi (perch`e 02 = 0 e 12 = 1), abbiamo
!
!
n
n
X
X

1
1
1
n X
n2
n2 =
n2 = n
Sn2 =
X
Xi nX
n
Xi nX
n 1 i=1
n1
n i=1
n1


n
n ' X
n 1 X
n ,
Xn 1 X
=
n1
in quanto n/(n 1) ' 1 per n  1. Perci`o, i tre intervalli di confidenza (a), (b), (c) per la media
di un campione numeroso con varianza incognita si riscrivono


q
q
x
n (1
xn )
x
n (1
xn )
(a) xn z/2
, xn + z/2
;
n
n


q
xn )
(b) xn z xn (1
, + ;
n


q
x
n (1
xn )
(c) 0 , xn + z
,
n
e sono tutti intervalli di confidenza di livello 1 per p (notare che in (c) il primo estremo `e 0
anzich`e , in quanto p > 0 per definizione).

10

Teorema 3. Se X1 , . . . , Xn e Y1 , . . . , Ym sono due campioni normali indipendenti, con


2
Xi N (X , X
)

Yi N (Y , Y2 )

allora:
(a) si ha sempre
n Ym (X Y )
X
q
N (0, 1);
2
2
X
Y
+ m
n
(b) (non dimostrato) se vale in pi`
u la condizione X Y , definita la varianza pooled
Sp2 :=
si ha

2
(n 1)SX
+ (m 1)SY2
,
n+m2

n Ym (X Y )
X
q
t(n + m 2).
1
1
Sp n + m

n Ym ha densit`a gaussiana, in quanto comDimostrazione. (a) La variabile aleatoria Z = X


binazione lineare di variabili aleatorie normali indipendenti. La sua media e la sua varianza
sono
 
 
n E Ym = X Y
E [Z] = E X


n + Var Ym
n e Ym
Var (Z) = Var X
per lindipendenza di X
2
X
2
+ Y.
n
m
p
n Ym (X Y )]/ 2 /n + 2 /m ha densit`a N (0, 1),
Pertanto la variabile aleatoria Z0 = [X
X
Y
perche `e la standardizzazione di Z.
(b) Non dimostrato.


IC per la differenza delle medie di due popolazioni normali. Sotto le ipotesi del teorema
precedente,
(a) se Xe Y sono entrambe note, allora gli intervalli

q
q
2
2
2
2
X
X
Y
Y
(i) xn ym z/2 n + m , xn ym + z/2 n + m


q
2
2
X
Y
(ii) xn ym z n + m , +


q
2
2
X
Y
(iii) , xn ym + z n + m
sono tutti intervalli di confidenza di livello 1 per la differenza delle medie X Y ;
(b) se ne X ne Y sono note, maq
`e noto che X = Y , allora gli intervalli
q

1
1
(i) xn ym t/2,n+m2 sp n + m , xn ym + t/2,n+m2 sp n1 + m1
q


(ii) xn ym t,n+m2 sp n1 + m1 , +
q


(iii) , xn ym + t,n+m2 sp n1 + m1

11

sono tutti intervalli di confidenza di livello 1 per la differenza delle medie X Y .


La dimostrazione `e unapplicazione immediata del Teorema 3 e dei soliti passaggi.

12

2. Test dipotesi
Supponiamo di avere a che fare con il seguente problema pratico.
Esempio 4. Problema: Un produttore di tondini di ferro afferma che i suoi tondini hanno un
diametro medio di 17.2mm, con una precisione di fabbrica di 0 = 0.7mm. Volendo mettere alla
prova tale affermazione, misuriamo un campione di n = 8 tondini, ottenendo per i loro diametri i
seguenti valori
x1 = 17.3 x2 = 16.5 x3 = 18.4 x4 = 17.7
(1)
x5 = 18.2 x6 = 18.7 x7 = 16.8 x8 = 18.2.
Possiamo supporre che le misure provengano da un campione X1 , . . . , X8 , con
Xi N (, 02 ) = diametro incognito 0 = 0.7 = precisione nota.
Ci poniamo allora la seguente domanda: Questi dati sono compatibili con il diametro medio
dichiarato dal produttore oppure no? In effetti, vediamo che ci sono misure che si discostano
anche in modo significativo dal valore di 17.2. Tali scostamenti possono essere giustificati da
semplici fluttuazioni statistiche oppure abbiamo fondati motivi per ritenere che il produttore ci
stia dicendo il falso?
Soluzione: La media empirica delle misure `e
xn = 17.725
che si discosta dal diametro dichiarato dal produttore
0 = 17.2
di
|
xn 0 | = |17.725 17.2| = 0.525mm.
Ci chiediamo se questo scostamento `e cos` ampio da rendere laffermazione
H0 : il diametro medio `e 0 = 17.2mm
poco plausibile, oppure se tale scostamento pu`o essere giustificato dallimprecisione della macchina
produttrice, cio`e dallerrore statistico intrinseco nel processo di fabbricazione.
Se `e vera H0 , allora sappiamo che


n 0
02
X

Xn N 0 ,
Z0 :=
n N (0, 1)
n
0
e quindi



Xn 0 0.525




PH0 |Xn 0 | 0.525 = PH0
n
8
0
0.7
= PH0 (|Z0 | 2.12) = PH0 (Z0 2.12) + PH0 (Z0 2.12)
= 1 (2.12) + (2.12) = 1 (2.12) + 1 (2.12)
= 2(1 (2.12)) ' 2(1 0.9830)
= 3.4%.
Nellespressione precedente, PH0 `e la probabilit`a calcolata supponendo che Xi N (0 , 02 ), come
affermato in H0 . Si vede quindi che, se fosse vera H0 , la probabilit`a di ottenere uno scostamento

13

pari o superiore a quello che abbiamo riscontrato nel nostro campione sarebbe ' 3.4%. Quindi,
sulla base dei nostri dati, possiamo ritenere laffermazione del produttore ben poco plausibile!
Definizione 5. Sia X1 , . . . , Xn un campione. Unipotesi statistica `e unaffermazione su uno o pi`
u
parametri incogniti della densit`a delle Xi .
Esempio 5. Nel problema precedente:
(a) H0 : = 0 `e lipotesi nulla sul parametro della densit`a N (, 02 ) del nostro campione,
cio`e lipotesi di partenza che siamo disposti a rigettare solo se i dati empirici la rendono
estremamente poco plausibile (vogliamo essere molto sicuri che il produttore menta prima di
dargli del bugiardo!);
(b) H1 : 6= 0 `e lipotesi alternativa, incompatibile con H0 : siamo disposti a rigettare H0 e
accettare H1 solo quando H0 spiega estremamente poco i dati empirici.
Definizione 6. Un test dipotesi `e una regola di decisione tra H0 e H1 , e consiste nella seguente
procedura:
(1) fisso una statistica test T = t(X1 , . . . , Xn );
(2) stabilisco una regione di rifiuto (o regione critica) C R;
(3) rifiuto H0 se con le mie misure x1 , . . . , xn trovo t(x1 , . . . , xn ) C; in caso contrario, la
accetto.
Definizione 7. In un test dipotesi, commetto un errore:
(a) di I tipo, se rifiuto H0 quando H0 in realt`a `e vera;
(b) di II tipo, se accetto H0 quando H0 in realt`a `e falsa.
La definizione dei due tipi di errore `e chiarita dalla seguente tabella.
Accetto H0
H0 `e vera
OK
H0 `e falsa Errore II tipo

Rifiuto H0
Errore I tipo
OK

Definizione 8. Il livello di significativit`a di un test `e la probabilit`a di commettere lerrore di I


tipo, cio`e
:= PH0 (rifiuto H0 ) = PH0 (T C) .
In un test, si vuole che la probabilit`a di errore di I tipo sia piccola. P.es., se faccio un test
per decidere se il produttore di tondini dellEsempio 4 `e sincero o meno, voglio che sia piccola la
probabilit`a di dargli del bugiardo (cio`e rifiutare H0 ) quando in realt`a egli `e in perfetta buona fede
(cio`e H0 `e vera). Perci`o, i tipici livelli di significativit`a di un test sono molto piccoli: = 5%,
= 2.5%, o anche meno.
Al contrario, la probabilit`a di errore di II tipo pu`o essere anche molto alta (vedi Osservazione
6 seguente): nel nostro esempio, ci`o significa che per noi accettare laffermazione del produttore
quando in realt`a il produttore sta mentendo `e un rischio molto meno grave di dargli ingiustamente
del bugiardo.
Esempio 6. NellEsempio 4 del produttore di tondini, scelgo
n 0
X
n
T Z0 =
0
C (, z/2 ) (z/2 , +).

14

Allora so che
Z0 N (0, 1) se `e vera H0
mentre vale luguaglianza di eventi



Xn 0


rifiuto H0 = {Z0 C} =
n z/2 .
0
Il livello di significativit`a `e pertanto



PH0 (rifiuto H0 ) = PH0 |Z0 | z/2 = PH0 Z0 z/2 + PH0 Z0 z/2

h
i
= (z/2 ) + [1 (z/2 )] = + 1 1
2
2
= .
Con i nostri dati




xn 0 17.725 17.2
|z0 | =
n =
8 ' 2.12.
0
0.7

Pertanto:
(i) al livello di significativit`a = 5%, ho z/2 = z0.025 = 1.96, e quindi
2.12 > 1.96

rifiuto H0 ;

(ii) al livello di significativit`a = 2%, ho z/2 = z0.01 = 2.325, e quindi


2.12 < 2.325

accetto H0 .

Il test dellesempio precedente `e un caso particolare della famiglia degli Z-test per una popolazione gaussiana, che ora andremo a descrivere in generale.
Z-test per un campione normale con varianza nota. Supponiamo che X1 , . . . , Xn sia un
campione normale, con
Xi N (, 02 ),
Allora, posto
z0 =

incognita,

0 nota.

xn 0
n
0

si ha che
rispetto alle ipotesi

H0 : = 0
(a)
 H1 : 6= 0
H0 : = 0
(b)
 H1 : > 0
H0 : = 0
(c)
H1 : < 0

la regola
rifiuto H0
se |z0 | > z/2
rifiuto H0
se z0 > z
rifiuto H0
se z0 < z

sono tutti test di livello di significativit`a .


Infatti, dimostriamolo in ciascuno dei tre casi:
(a) Gi`a visto nellesempio precedente.
n 0 )n/0 ha densit`a N (0, 1) se H0 `e
(b) PH0 (Z0 > z ) perch`e la statistica Z0 = (X
vera.

15

(c) Simile a (b) (provare per esercizio!).


Osservazione 5. Si osservi che nello Z-test lipotesi alternativa H1 determina la forma della
regione di rifiuto, cio`e stabilisce se la regione di rifiuto `e lunione di due intervalli (caso (a)) oppure
un intervallo unilatero destro (caso (b)) oppure unilatero sinistro (caso (c)). P.es., nel test (b) ci`o
si spiega perch`e solo quando trovo
xn  0
posso dire che levidenza sperimentale a favore di H1 `e talmente grande da permettermi di rifiutare
H0 con un elevato margine di sicurezza. La condizione xn  0 `e equivalente a
xn 0
z0 =
n > c,
0
dove c > 0 `e una soglia che deve essere abbastanza alta. Il livello di significativit`a del test
quantifica tale soglia di rifiuto esattamente in c = z .
Osservazione 6. In uno Z-test, la probabilit`a di errore di II tipo, cio`e la probabilit`a di accettare
H0 quando in realt`a H0 `e falsa, dipende naturalmente da qual `e il vero valore del parametro
incognito . Infatti, se H0 `e falsa, non `e pi`
u vero che = 0 , ma potr`a invece assumere un
qualunque valore 6= 0 (caso (a)) o > 0 (caso (b))
oppure ancora < 0 (caso (c)). In tal caso, non
n 0 )n/0 ha densit`a N (0, 1), perch`e questespressione
`e pi`
u vero che la statistica test Z0 = (X
n . La standardizzazione corretta `e invece
non `e pi`
u la standardizzazione di X
n
X
n N (0, 1).
0
Per fissare le idee, supponiamo di fare uno Z-test bilatero (tipo (a)), per il quale si ha luguaglianza di eventi



X n 0


accetto H0 = {|Z0 | < z/2 } =
n < z/2 .
0
Se Xi N (, 02 ) e 6= 0 , la probabilit`a di errore di II tipo sar`a dunque

P (accetto H0 ) = P |Z0 | < z/2


n 0
X
= P z/2 <
n < z/2
0


n
X
0
= P z/2 <
n+
n < z/2
0
0

n
0
X
0 
= P z/2
n<
n < z/2
n
0
0
0
| {z }
N (0,1)




0
0
= z/2
n z/2
n .
0
0


In questo calcolo per evidenziare che 6= 0 abbiamo indicato con P la probabilit`a calcolata
quando Xi N (, 02 ).

16

P.es., supponiamo che nellEsempio 4 il produttore di tondini ci stia dichiarando il falso, e che
il diametro medio reale sia invece = 17.5mm anzch`e i 0 = 17.2mm da lui dichiarati. Allora, se
facciamo uno Z-test bilatero con livello di significativit`a = 5%, abbiamo una probabilit`a pari a




17.5 17.2
17.5 17.2
1.96
8 1.96
8 =
0.7
0.7
= (0.75) (3.17) = 0.7734 0.0008 = 77.26%.
di non accorgerci che il produttore ci sta mentendo. Tale probabilit`a `e molto alta!
Naturalmente, quando = 0 lespressione precedente per la probabilit`a di errore di II tipo
assume il suo massimo valore 1 , in quanto
P0 (accetto H0 ) = PH0 (accetto H0 ) = 1 PH0 (rifiuto H0 ) = 1 .
Per gli altri valori di , invece, si pu`o mostrare che otteniamo una funzione decrescente della
distanza | 0 |: tanto pi`
u il vero valore di sar`a lontano da 0 , tanto meno probabile sar`a non
accorgersi della menzogna del produttore.
Z-test con ipotesi nulla composta. Sia X1 , . . . , Xn il solito campione normale, con
Xi N (, 02 ),

incognita,

0 nota.

Supponiamo di voler testare


H0 : 0

contro H1 : > 0 .

n
In questo
caso, H0 non determina pi`
u completamente la densit`a della statistica test Z0 = (X

0 ) n/0 . Per distinguere questo tipo di test da quelli visti in precedenza, in cui H0 invece fissava
univocamente la densit`a della statistica test, si dice che ora lipotesi nulla `e composta.
Tuttavia, si pu`o ancora definire il livello di significativit`a come la probabilit`a massima di errore
di I tipo quando il parametro incognito soddisfa H0 :
:= max P (rifiuto H0 ) .
0

Qui abbiamo di nuovo indicato con P la probabilit`a calcolata supponendo Xi N (, 02 ), e


pertanto P (rifiuto H0 ) `e una funzione di ; il livello di significativit`a `e definito come il
massimo di tale funzione sullintervallo (, 0 ). Nel nostro caso, fissando la stessa regione di
rifiuto dello Z-test (b) (si ricordi che la forma della regione di rifiuto `e determinata dallipotesi
alternativa H1 ) abbiamo


X n 0
rifiuto H0 = {Z0 z } =
n z
0

17

e quindi


X n 0
P (rifiuto H0 ) = P
n > z
0


Xn
0
= P
n+
n > z
0
0
X
n
0 
n > z
n
= P

0
| 0{z }
N (0,1)


0
= 1 z
n .
0
2
n )n/0 N (0, 1), ma non
),
allora
(
X
Qui, abbiamo
usato
il
fatto
che,
se
X

N
(,

i
0
n 0 )n/0 n !!! La funzione di ripartizione `e crescente, dunque il max0 `e raggiunto
(X
per 0 , e vale


0 0
1 z
n = 1 (z ) = .
0
In altre parole, il livello di significativit`a del test
xn 0
n > z
rifiuto H0 se
0
`e ancora .
Similmente, si dimostra che se le ipotesi sono


H0 : 0

contro H1 : < 0

allora la regola
rifiuto H0 se

xn 0
n < z
0

`e ancora un test di livello di significativit`a .


Riassumendo, i seguenti sono tutti test di livello di significativit`a quando lipotesi nulla H0 `e
composta:
ipotesi
H0 : 0
(d)
 H1 : > 0
H0 : 0
(e)
H1 : < 0


corrispondente test di livello


rifiuto H0
se z0 > z
rifiuto H0
se z0 < z

Osservazione 7. Se un test si conclude accettando lipotesi nulla H0 , tale conclusione `e in generale


debole: significa solo che, in base al campione che abbiamo misurato, non abbiamo un margine di
sicurezza sufficiente per rigettarla. Se al contrario il test si conclude rifiutando H0 , ci`o vuol dire
che abbiamo una forte evidenza sperimentale a favore dellipotesi alternativa H1 .
Ci`o `e esemplificato dal fatto che gli stessi dati (cio`e lo stesso valore numerico della statistica
test z0 ) possono indurre ad accettare H0 sia nello Z-test (d) sia in (e). Questo infatti succede
ogniqualvolta troviamo per la statistica test un valore compreso nellintervallo z < z0 < z .

18

Esempio 7. Facciamo un altro esempio di come scegliere le ipotesi H0 e H1 in un caso concreto.


Supponiamo di dover costruire un ponte, e di aver bisogno per questo di piloni con un carico di
rottura di almeno 10t. Supponiamo di avere a disposizione dei piloni con un carico di rottura
incognito, e di voler determinare se essi sono sicuri per il nostro ponte oppure no. Allora, il test
corretto a cui sottoporre un campione di n dei nostri piloni avr`a le ipotesi
H0 : 10t contro H1 : > 10t.
Infatti, notiamo anzitutto che utilizzeremo i piloni se e solo se il test precedente si concluder`a
rifiutando H0 . In altre parole, abbiamo luguaglianza di eventi
rifiuto H0 = uso i piloni per costruire il ponte.
La probabilit`a di errore di I tipo diventa dunque la probabilit`a di usare i piloni per costruire il ponte
quando H0 `e vera, cio`e quando il carico di rottura `e pi`
u piccolo di 10t. Siccome non vogliamo
causare disastri, `e questa (e cio`e la significativit`a ) la probabilit`a che desideriamo rendere piccola.
Purch`e sia piccola, siamo disposti a tollerare anche unelevata probabilit`a di gettar via i piloni
quando in realt`a essi sono adatti, cio`e unalta probabilit`a di errore di II specie. Questo `e infatti il
male di gran lunga minore.
In altre parole, `e quando accettiamo lipotesi alternativa H1 che siamo molto sicuri di non
sbagliare (conclusione forte), non quando accettiamo H0 (conclusione debole).
Fin qui, abbiamo sempre supposto che il livello di significativit`a di un test fosse fissto a priori
una volta per tutte (p.es., tipicamente = 5%), e in base al suo valore abbiamo stabilito la soglia
` spesso per`o altrettanto utile considerare il problema inverso: in base
della regione di rifiuto. E
ai dati che ho misurato, a quali livelli di significativit`a posso accettare H0 e a quali devo invece
rifiutarla? Ci`o giustifica la definizione seguente.
Definizione 9. In un test dipotesi, il p-value `e il pi`
u piccolo livello di significativit`a che impone
di rifiutare H0 in base ai dati x1 , . . . , xn che abbiamo misurato:

> p-value rifiuto H0
.
< p-value accetto H0
Esempio 8 (p-value dello Z-test). Di seguito `e calcolato il p-value dello Z-test in ciascuno dei
casi (a) - (e).
(a) Il p-value `e il valore di per cui |z0 | z/2 , cio`e, per la definizione di quantile,
p-value
= 1 (|z0 |) p-value = 2[1 (|z0 |)].
2
(b,d) Il p-value `e il valore di per cui z0 z , cio`e, sempre per la definizione di quantile,
p-value = 1 (z0 ).
(c,e) Il p-value `e il valore di per cui z0 z , cio`e
p-value = 1 (z0 ) = (z0 ).
P.es., nello Z-test bilatero per la media del diametro dei tondini di ferro (vedi Esempi 4 e 6)
ritroviamo
p-value = 2[1 (2.12)] = 3.4%

19

come gi`a visto in precedenza. Segue che al 5% > 3.4% non accettiamo H0 , ma la accettiamo al
2% < 3.4% (vedi Esempio 6).
Come nel caso degli intervalli di confidenza, quando abbiamo a che fare con un campione gaussiano in cui sia la media che la varianza sono incognite, la statistica che si usa non ha pi`
u densit`a
normale standard, ma `e unopportuna t di Student. Infatti, in tal caso si applica la seguente
famiglia di test.
T -test per un campione normale con media e varianza incognite. Supponiamo che
X1 , . . . , Xn sia un campione normale, con
Xi N (, 2 ),

e entrambe incognite.

Sia

xn 0
n.
sn
Allora i seguenti sono tutti test di livello di significativit`a :
t0 =

ipotesi
H0 : = 0
H1 : 
6= 0
: 0
H0
o
: > 0
 H1
: 0
H0
o
: < 0
H1


H0
 H1
H0
H1

: = 0
: > 0
: = 0
: < 0

corrispondente test di livello


rifiuto H0
se |t0 | > t/2,n1
rifiuto H0
se t0 > t,n1
rifiuto H0
se t0 < t,n1

Le dimostrazioni sono analoghe


al caso dello Z-test, con la sola differenza che in questo caso la

statistica test T0 = (Xn 0 ) n/Sn ha densit`a t(n 1) quando H0 `e vera.


Esempio 9. Supponiamo che nellEsempio 4 dei tondini di ferro il produttore non ci abbia rivelato
la sua precisione di fabbrica 0 , ma ci abbia solo dichiarato il diametro medio 0 = 17.2mm. Allora,
se con i nostri dati (1) vogliamo testare
H0 : = 0 = 17.2 contro H1 : 6= 0

dobbiamo fare un T -test bilatero. Per calcolare t0 = (


xn 0 ) n/sn , gi`a abbiamo trovato x8 =
17.725. Ci resta da calcolare
v
r
u
8
u 1 X
(17.3 17.725)2 + (16.5 17.725)2 + . . .
s8 = t
(xi x8 )2 =
= 0.7924.
8 1 i=1
7
Pertanto,

17.725 17.2
8 = 1.874.
0.7924
Guardando le tavole dei quantili della t di Student troviamo
t0 =

t0.20/2,81 = 1.415 < |t0 | = 1.874 < t0.10/2,81 = 1.895

10% < p-value < 20%.

20

Perci`o, accettiamo laffermazione del produttore a tutti i livelli di significativit`a 10%, e la


rifiutiamo ai livelli 20%. Notare che, senza sapere la precisione di fabbrica, laffermazione del
produttore sul diametro medio diventa molto pi`
u plausibile.
Z e T -test per la differenza delle medie di due campioni normali. Siano X1 , . . . , Xn e
Y1 , . . . , Ym due campioni normali indipendenti, con
Yi N (Y , Y2 ).

2
)
Xi N (X , X

(a) Supponiamo che X e Y siano entrambe note. Allora i seguenti sono tutti test di livello di
significativit`a per la differenza delle medie:
ipotesi

corrispondente test di livello






rxn ym
rifiuto H0 se 2 2 > z/2
X + Y




H0 : X
H1 : X
H0 : X
H1 : X

H0 : X = Y
H1 : X 6= Y

Y
H0
oppure
> Y
H1

Y
H0
oppure
< Y
H1

: X = Y
: X > Y
: X = Y
: X < Y

rifiuto H0 se
rifiuto H0 se

n
ym
rx
2
X
n

n
ym
rx
2
X
n

> z

2
Y
m

2
Y
+ m

< z

(b) Supponiamo che X e Y siano entrambe incognite, ma che sia noto che X = Y . Allora i
seguenti sono tutti test di livello di significativit`a per la differenza delle medie:
ipotesi
H0 : X = Y
H1 : X 6= 
Y
Y
H0
oppure
> Y
 H1
Y
H0
oppure
< Y
H1

corrispondente test

n ym
rifiuto H0 se x
1
1

H0
 H1
H0
H1

: X
: X
: X
: X

Sp

: X
: X
: X
: X

= Y
> Y
= Y
< Y

rifiuto H0 se
rifiuto H0 se

+m

di livello


> t/2,n+m2

ym
n
1
1
+m
Sp
n
x

ym
n
1
1
Sp
+m
n

> t,n+m2
< t,n+m2

Le dimostrazioni sono analoghe a quelle degli Z-test e T -test corrispondenti, usando le statistiche
del Teorema 3.
Test per la frequenza di una popolazione bernoulliana numerosa. Sia X1 , . . . , Xn un
campione, con
Xi B(1, p),
p incognita.
Supponiamo n  1. Allora i seguenti sono tutti test di livello di significativit`a :



H0
 H1
H0
H1

ipotesi
H0 : p = p0
H1 : p 6= p0

: p p0
H0 : p = p0
oppure
: p > p0
 H1 : p > p0
: p p0
H0 : p = p0
oppure
: p < p0
H1 : p < p0

corrispondente test di livello




xn p0
rifiuto H0 se
n > z/2
p0 (1p0 )

rifiuto H0 se xn p0

p0 (1p0 )

rifiuto H0 se xn p0

p0 (1p0 )

n > z

n < z

21

Infatti, se n  1, sappiamo che la statistica


p0
X
p n
n N (0, 1) se `e vera H0
p0 (1 p0 )
come conseguenza del teorema del limite centrale. Le dimostrazioni del fatto che i test precedenti
hanno significativit`a sono dunque analoghe al caso dello Z-test, sostituendo a Z0 la statistica
precedente.

22

3. Test non parametrici


Finora abbiamo considerato solo test su ipotesi che si riferivano a uno o pi`
u parametri della
densit`a del campione, tuttavia la forma della densit`a si supponeva sempre fissata a priori. Per
esempio, nello Z-test per la media di una popolazione normale a varianza 02 nota, avevamo a che
fare con un campione X1 , . . . , Xn in cui le Xi avevano media incognita, ma
psapevamo comunque
(x)2 /(202 )
a priori che la loro densit`a era la funzione gaussiana fXi (x) = e
/ 202 . Nei due nuovi
test che considereremo adesso, invece, le ipotesi riguarderanno proprio il tipo di densit`a della
popolazione, cio`e la forma della funzione fXi stessa.
Il primo test confronta come la densit`a empirica ricavata dal campione si adatta a una densit`a
teorica prefissata, e per farlo usa il seguente teorema.
Teorema 4 (Non dimostrato). Sia X1 , . . . , Xn un campione aleatorio, con Xi variabili aleatorie
discrete a valori nellinsieme {1, . . . , k} (cio`e Xi : {1, . . . , k} per ogni i). Sia p : {1, . . . , k}
[0, 1] la densit`a di una qualsiasi delle Xi . Per ogni l {1, . . . , k}, definiamo le variabili aleatorie
Ol = #{i {1, . . . , n} : Xi = l}.
Sia inoltre T la statistica
k
X
Ol2
T =
n.
np(l)
l=1

Allora, se n  1, la statistica T ha approssimativamente densit`a chi-quadrato con k 1 gradi di


libert`a:
T 2 (k 1).
Per fissare le idee, possiamo pensare che ogni l {1, . . . , k} sia una particolare caratteristica
(o classe), e che ogni individuo Xi del campione possa avere una e una sola di tali caratteristiche
(o, equivalentemente, appartenere a una e una sola classe l). La variabile aleatoria Ol `e dunque
la numerosit`a empirica della caratteristica l allinterno del campione, cio`e il numero di individui del campione che presentano tale caratteristica. Analogamente, la densit`a p rappresenta la
distribuzione delle caratteristiche {1, . . . , k} allinterno dellintera popolazione.
Osservazione 8. Una regola empirica per vautare quando n `e sufficientemente grande da far valere
lapprossimazione T 2 (k1) `e che almeno l80% delle frequenze teoriche np(l) dovrebbero essere
maggiori di 5, e il restante 20% dovrebbero esser tutte maggiori di 1. Se questo non `e verificato,
le classi vanno raggruppate in modo opportuno.
Test di buon adattamento a una densit`
a completamente nota. Supponiamo che p0 :
{1, . . . , k} [0, 1] sia una densit`a discreta assegnata. Sia X1 , . . . , Xn un campione, con Xi variabile
aleatoria discreta con densit`a p : {1, . . . , k} [0, 1] incognita. Supponiamo inoltre n  1. Allora,
rispetto alle ipotesi
H0 : p = p0 contro H1 : p 6= p0 ,
la regola
rifiuto H0 se t =

k
X
l=1

o2l
n 2,k1
np0 (l)

23

`e un test di livello di significativit`a .


La dimostrazione segue direttamente dal teorema precedente, che ci dice che
T 2 (k 1) se `e vera H0
e quindi

PH0 (rifiuto H0 ) = PH0 T 2,k1 = .
Esempio 10. Problema: La roulette ha 37 numeri: 18 neri, 18 rossi e 1 verde. Osservo n = 300
giocate, registrando le uscite dei seguenti colori:
nero rosso verde
numero di uscite 135 159
6
Sulla base di questi dati, posso mettere in discussione il fatto che la roulette sia equilibrata?
Soluzione: Definiamo le classi 1 nero, 2 rosso, 3 verde. Sia Xi : {1, 2, 3} il colore
uscito alli-esima giocata, e sia p la sua densit`a incognita. Se la roulette fosse equilibrata, Xi
avrebbe densit`a
18
18
1
p0 (1) =
p0 (2) =
p0 (3) = .
37
37
37
Testiamo quindi
H0 : p = p0 contro H1 : p 6= p0 .
La tabella delle numerosit`a empiriche a confronto con quelle teoriche `e
l=1
l=2
l=3
ol
135
159
6
np0 (l) 300 18/37 300 18/37 300 1/37
Vediamo in particolare che tutte le frequenze teoriche np0 (l) sono ben maggiori di 5, dunque
possiamo applicare il test di adattamento appena descritto. Coi nostri dati, la statistica test vale
t=

1352
1592
62
+
+
300 ' 2.537
300 18/37 300 18/37 300 1/37

Si ha
2.537 < 20.05,31 = 5.991

accetto H0 al 5% di significativit`a.

Il secondo test non parametrico che descriveremo considera invece due diverse propriet`a x e y
del campione e cerca di stabilire se tali propriet`a sono tra loro indipendenti. Per esempio, in un
campione di n persone scelte a caso le propriet`a x e y potrebbero essere
x = sesso,

y = colore degli occhi di ciascun individuo.

Questo test si basa sul seguente teorema.


Teorema 5 (Non dimostrato). Sia (X1 , Y1 ), . . . , (Xn , Yn ) un campione costituito da vettori aleatori
discreti a due componenti, con
(Xi , Yi ) : {1, . . . , r} {1, . . . , s}.

24

Definiamo le statistiche
Ol,m = #{i {1, . . . , n} : (Xi , Yi ) = (l, m)}
s
r
X
X
Ol =
Ol,m
O m =
Ol,m .
m=1

l=1

Allora, se vale lipotesi nulla


H0 : Xi e Yi sono indipendenti per ogni i,
la statistica test
!
r X
s
2
X
Ol,m
T =n
1
Ol O m
l=1 m=1
per n  1 ha approssimativamente densit`a chi-quadrato con (r 1)(s 1) gradi di libert`a:
T 2 ((r 1)(s 1)) se `e vera H0 .
Test dindipendenza. Se (X1 , Y1 ), . . . , (Xn , Yn ) `e il campione del teorema precedente e n  1,
allora, rispetto alle ipotesi
H0 : Xi e Yi sono indipendenti

contro

H1 : Xi e Yi non sono indipendenti,

la regola
!
s
r X
X
o2l,m
1 2,k1
rifiuto H0 se t = n
o
o
l

m
l=1 m=1
`e un test di livello di significativit`a .
La dimostrazione `e identica a quella del test di buon adattamento.
Osservazione 9. Anche in questo caso, la regola empirica per vautare quando n `e sufficientemente
grande da far valere lapprossimazione T 2 ((r 1)(s 1)) `e che almeno l80% delle frequenze
teoriche npl,m dovrebbero essere maggiori di 5, e le restanti dovrebbero esser tutte maggiori di 1.
Tuttavia, poich`e in questo caso le frequenze teoriche non sono note, si usano quelle stimate dai dati
n
pl,m = ol o m /n. Pertanto, n deve essere abbastanza grande e ciascuna classe sufficientemente
numerosa da aversi almeno l80% delle classi con 5 o pi`
u individui del campione, e tutte le restanti
con 1 o pi`
u.
Esempio 11. Problema: Il corso di statistica viene insegnato dallo stesso docente in 3 diversi
corsi di laurea: fisica, matematica e ingegneria. I risultati dei 3 corsi sono riassunti nella seguente
tabella:
fisica matematica ingegneria
promossi 50
15
30
bocciati
37
8
40
Sulla base di questi dati, possiamo affermare che ci sia dipendenza tra il corso di laurea e il livello
di preparazione degli studenti?
Soluzione: Definiamo le classi nel modo seguente:

25

1
2
3
1 o1,1 = 50 o1,2 = 15 o1,3 = 30
2 o2,1 = 37 o2,2 = 8 o2,3 = 40
Notiamo che ogni casella contiene pi`
u di 5 individui, dunque sono soddisfatte le condizioni dellosservazione precedente e non `e necessario raggruppare pi`
u classi in una sola. Completiamo la
tabella aggiungendo sotto e a destra le rispettive numerosit`a marginali, ottenute sommando sulle
relative colonne e righe:
1
2
3
1 o1,1 = 50 o1,2 = 15 o1,3 = 30 o1 = 95
2 o2,1 = 37 o2,2 = 8 o2,3 = 40 o2 = 85
o 1 = 87 o 2 = 23 o 3 = 70
La numerosit`a del campione `e
n = o1 + o2 = o 1 + o 2 + o 3 = 180.
La statistica test vale
!
r X
s
X
o2l,m
1
t=n
o
o
l

m
l=1 m=1


502
152
302
372
82
402
= 180
+
+
+
+
+
1
87 95 23 95 70 95 87 85 23 85 70 85
' 4.961
(N.B.: Nel calcolo precedente, attenzione a non approssimare ciascun termine della somma in
modo troppo grossolano, altrimenti si rischia di trovare un valore molto diverso per t!!!). Questo
valore va confrontato con i quantili della 2 ((3 1)(2 1)) = 2 (2), e si vede che
4.961 < 5.991 = 20.05,2 .
Perci`o, il p-value dei dati `e > 5% accetto H0 al 5% di significativit`a.