Sei sulla pagina 1di 40

27

2. Statistica induttiva
Abbiamo visto come per mezzo della statistica descrittiva sia possibile ottenere una
descrizione sintetica di dati sperimentali riguardanti un determinato processo; questa è finalizzata
alla rappresentazione dell’informazione utile agli scopi fissati per la definizione di opportune
strategie di intervento. Tuttavia, riprendendo l’esempio trattato, abbiamo visto come i parametri
descrittivi venivano dedotti dalla distribuzione campionaria o empirica, ovvero il loro valore era
legato strettamente ai valori dei dati ottenuti nel particolare esperimento eseguito; ripetendo
l’esperimento, cioè prelevando un altro campione di N  100 supporti di ferro, determinando sul
nuovo campione di dati la distribuzione campionaria  i  , non necessariamente rispetto agli stessi
sottoinsiemi  Ei  , ricalcolando i parametri statistici  ,  2 , d , c , otterremmo dei valori diversi da
quelli relativi al primo insieme di dati! Questa variabilità dipende in primo luogo dalla numerosità
del campione analizzato e poi dalla sua significatività, ovvero da quanto debba ritenersi
rappresentativo di tutta la produzione. E’ facile comprendere come un campione molto numeroso
consenta di definire un istogramma più preciso della distribuzione effettiva e quindi un calcolo più
attendibile delle varie medie; tuttavia se la nostra fabbrica di supporti in ferro si servisse da due
diversi fornitori di materie prime, ed il nostro campione di dati, ancorché numeroso, avesse
riguardato le unità prodotte con materie prime prese solo da uno dei due fornitori, avremmo
ottenuto una parziale descrizione delle caratteristiche del processo di produzione, non considerando
le caratteristiche dei prodotti ottenuti con lo stesso processo ma con materie prime di altra
provenienza.
La statistica induttiva si propone di fornire procedure sistematiche per la verifica della
significatività di un campione di dati in termini sia di scelta della numerosità che di
rappresentatività dell’intera popolazione! Possiamo grosso modo distinguere i seguenti argomenti

 Stima puntuale: consiste nel determinare dai dati il valore di un parametro e nel valutare
l’attendibilità della stima
 Stima di intervallo: si vuole determinare un intervallo di valori entro il quale possa cadere
con buona probabilità il valore di un parametro incognito
 Criteri di verifica delle ipotesi: scelta sistematica tra possibili valori di un parametro quello
più verosimile sulla base dell’evidenza sperimentale
 Analisi della varianza: per verificare ipotesi complesse
 Programmazione degli esperimenti: tecniche di campionamento e di scelta della
numerosità del campione.

Stima puntuale del valore medio e della varianza

Consideriamo un insieme  di N unità e sia X una v.a. che rappresenta i valori di una
determinata qualità degli elementi dell’insieme (il carico di rottura dei supporti in ferro, il
coefficiente  del transistor, il rendimento annuo di un prodotto finanziario, la percentuale di
sostanze inquinanti in un campione di acqua, ecc.), che quindi assume i valori  xi , i  1, , N  , su
 . Come è noto il valor medio e la varianza di X sono definiti nel seguente modo
28

1 N 1 N
 2    xi   
2
 xi ,
N i 1 N i 1
ma, non potendo analizzare tutto l’insieme  , risultano di valore incognito.
Estraiamo ora dall’insieme  un campione casuale di n  N elementi e valutiamo la media
campionaria su questo sottoinsieme di dati

1 n
ˆ n   xj
n j 1

Ci chiediamo, quanto il valore ̂ n sia vicino o meno al valore medio di popolazione  ; in altre
parole possiamo dire che ̂ n è una buona stima di  ? Quali caratteristiche di ̂ n dovremmo
osservare per validare o meno questa affermazione?
Come al solito dovremo considerare le cose da un punto di vista statistico. Infatti la
grandezza ̂ n è di natura aleatoria in quanto scegliendo a caso da  un qualunque altro campione
di dimensione n , otterremmo un valore ̂ n differente dal precedente, e così via per ogni scelta del
campione. La stima sarà buona se la distribuzione dei valori di ̂ n si localizza sul valore vero  e
se i valori sono tutti addensati intorno a  . In altre parole stiamo richiedendo che

E  ˆ n    ,  2ˆn  E  ˆ n     piccola


2
 

cioè che la media E  ˆ n  della stima di valor medio coincida con il valore vero  , e che la
varianza della stima sia piccola. Calcoliamo quindi queste grandezze

1 n  1 n 1
E  ˆ n   E   x j    E  x j   n  
 n j 1  n j 1 n

dove nel penultimo passaggio si è considerato che il generico valore x j deriva da una popolazione
con valore medio  . Il primo requisito è rispettato; in questi casi si dice che la stima non è distorta,
vale a dire che mediamente non si commettono errori nel determinare il valore della grandezza
incognita  . Se questo non fosse stato il caso, i.e. E  ˆ n    , avrebbe significato che il nostro
metodo di stima sarebbe stato affetto da un errore sistematico (uno strumento starato).
Il calcolo della varianza è un po’ più elaborato perché dipende da come è estratto il
campione; se gli elementi del campione sono scelti in maniera indipendente uno dall’altro si ha

 1 n 
2

  E  ˆ n      E   x j    
2 2
ˆ n    n j 1  
29

 1 n  
2
1 n  
2
1 n n 
 2
ˆ n  E   x j      E  2   ( x j   )    E  2    xi     x j    
 n j 1    n  j 1    n i 1 j 1 

 
2
 2  E  x j       E  xi     x j       2 n 2 
1 n  2
 n n 1
n  j 1   i 1 j 1  n n
 j i 

dove, per l’indipendenza degli elementi, si ha che la covarianza

  E  xi     x j      E  xi     E  x j      0


i j

Se invece gli elementi del campione non sono indipendenti si ha

 1 n  
2
1 n  
2
1 n n 
 2
ˆ n  E   x j      E  2   ( x j   )    E  2    xi     x j    
 n j 1    n  j 1    n i 1 j 1 

 
 2
2 n
 2  E  x j       E  xi     x j     
1 n  2
 n n
  2  
n  j 1   i 1 j 1  n n  2
 j i 

Ora se scegliessimo n  N avremmo ˆ n   con varianza nulla, per cui

2 2 N  2 N 1 2
0         
N N 2  2  N N N 1

da cui

2n 1  2  n 1  2
 2
   1  
n  N  1  N  1  n
ˆ n
n

In entrambi i casi si vede come aumentando n si ottenga una diminuzione di  2ˆn e quindi un
aumento della precisione della stima!
Tuttavia, se dal problema ci fosse richiesto di determinare il minimo valore di n per
assicurare che la precisione della stima non scenda sotto un minimo assegnato, per cui la varianza
30

della stima  2ˆn non deve superare un limite assegnato, ci troveremmo nella necessità di dover
stimare anche la varianza  2 della popolazione. Analogamente a quanto è stato fatto per il valor
medio, potremmo pensare di stimare la varianza campionaria con la seguente espressione

  x j  ˆ n 
1 n 2
sn2 
n j 1

ma in questo caso si può vedere subito che tale stima sarebbe distorta, cioè presenterebbe un errore
sistematico; infatti, nel caso in cui gli elementi del campione siano scelti in modo indipendente, si
ottiene

1 n 2 1 n 2 1 n 2
E[ sn2 ]  E    x j  ˆ n    E    x j  ˆ n        E    ( x j   )  ( ˆ n   )  
 n j 1   n j 1  n  j 1 

1 n 
E    x j       ˆ n     2   x j     ˆ n    
2 n 2 n

n  j 1 j 1 j 1 

1 2  1 2  n 1 2
  n 2  n 2ˆ n  n 2    n 2  n  2 2    2
n n  n n  n

mentre nel caso che gli elementi non siano scelti in modo indipendente, omettendo i calcoli, si
ottiene

n 1 N
E[ sn2 ]  2 2
n N 1
Ma la situazione non è così drammatica, infatti basta modificare l’espressione della stima in
modo opportuno per togliere l’errore sistematico. Nel caso di campione indipendente si scelga come
stima campionaria della varianza la seguente espressione

  x j  ˆ n  ,
n 2 1 n 2
ˆ n2,1  sn  E ˆ n2,1    2
n 1 n  1 j 1

mentre nel secondo caso si scelga

n N  1 2 N  1 1 n 2
ˆ n2,2 
n 1 N
sn   
N  n  1 j 1
 x j  
ˆ n  ,

E ˆ n2,2    2
31

In entrambi i casi siamo in grado di ottenere quindi una stima centrata della varianza.
Analizziamo ora la varianza della stima. Per il caso di campione indipendente si ha (omettiamo la
dimostrazione)

 
 4  E  X     n  3 
 4

 E ˆ n ,1  E[ˆ n ,1 ] 
  2
 2 2 2

ˆ n2,1   n  4 n  1 
 

Ora sappiamo che un valore di riferimento per il rapporto E[( X   ) 4 ] /  4 è 3 ( tale valore occorre
se la distribuzione della v.a. X è gaussiana); per tale valore si ha

2 4
 2
ˆ n2,1

n 1
per cui il coefficiente di variazione della nostra distribuzione campionaria vale


E  ˆ n2,1  E[ˆ n2,1 ]   2
2

2

  n 1  2

E[ˆ n2,1 ] 2 n 1

Per una distribuzione che si vuole piuttosto addensata intorno al valor medio si può
richiedere che il coefficiente di variazione non superi il 20%; per cui

2
 0.2  n  51
n 1

Se poi la Curtosi è compresa tra 0 e 2, come nei casi di asimmetria, si ricava n  100 . Se
invece la Curtosi è compresa tra 2 e 20, come nei casi di distribuzione con probabilità non
trascurabile di presentare valori eccezionali (code grasse), si ottiene n  500 .
Se la Curtosi è inferiore a 0 occorre sempre che n  50 .
Le stesse conclusioni si ottengono nel caso di non indipendenza del campione.

Riassumendo possiamo dire che, nel caso di campione indipendente, la stima centrata
ˆ 2ˆn della varianza  2ˆn di ˆ n è data da

2
 2
ˆ n 
n
ˆ n2,1
1 n s2
ˆ 2ˆ n   sn2  n
n n n 1 n 1
mentre nel caso di campione con elementi non indipendenti si ha
32

2 N n
 2
ˆ n 
n N 1
ˆ n2,2 N  n
1 n N 1 N  n sn2  n
ˆ 2ˆ n    sn2   1  
n N  1 n  n  1 N  N  1 n  1 N 

Vediamo un semplice esempio. Si è ricevuto un lotto di N  1000 barrette di ferro


qualitativamente omogenee, ovvero ottenute con un ciclo di produzione in cui tutti i fattori
caratteristici sono stati mantenuti costanti (fornitore delle materie prime, stesse macchine operatrici
utilizzate, stessa squadra di operai). Da un campione di n  50 unità si è ricavato che le barrette
hanno un diametro medio di ˆ n  3.5mm con una varianza campionaria sn2  0.09mm2 . Si stima
quindi il valore medio  dei diametri su tutto il lotto con il valore ˆ n  3.5mm , che sappiamo
essere una stima non affetta da errore sistematico. Per valutare la variabilità della stima supponiamo
di avere preso un campione con gli elementi scelti tutti indipendentemente uno dall’altro
(chiariremo poi questo concetto), allora la stima centrata della varianza  2ˆn è data da

sn2
ˆ 2ˆn   0.00183
n 1
mentre nel caso che gli elementi del campione non siano scelti tutti indipendentemente uno
dall’altro si ha

sn2  n
ˆ 2ˆn  1    0.00174
n  1 N 

Nell’ipotesi che la distribuzione dei valori del diametro delle barrette possa ritenersi
gaussiana nel lotto, dato che n  50 , la stima di ˆ n è da ritenersi accurata, nel senso che il
coefficiente di variazione della stima della sua varianza ˆ ˆ n è non superiore al 20%.
2

Se volessimo rendere la stima ˆ n più accurata dovremmo aumentare la numerosità del


campione; infatti, volendo ridurre la varianza ˆ ˆ n a 0.0004 otterremmo
2

0.09 0.09
0.0004   n  1  226
n 1 0.0004
nel caso di campionamento indipendente e

0.09  n  1000(0.09  0.0004)


0.0004  1    n  184
n  1  1000  0.0004*1000  0.09
33

nell’altro caso.

Il prelievo del campione fatto in modo che tutti gli elementi siano scelti in modo
indipendente uno dall’altro significa in sostanza che il fatto di selezionare un elemento dalla
popolazione per metterlo nel campione, non deve alterare la composizione statistica della
popolazione. Questo può essere ottenuto sostanzialmente in due modi: se la dimensione della
popolazione non è molto grande rispetto a quella del campione da prelevare si effettua un
campionamento con reinserzione; nel caso contrario se N  n si può ritenere che il prelievo del
campione alteri la composizione statistica della popolazione in modo trascurabile. Naturalmente la
reinserzione può essere praticata se l’analisi del campione non modifica in alcun modo i suoi
elementi: nell’esempio della misura del diametro delle barrette questo si verifica, ma nell’esempio
della misura del carico di rottura, l’elemento analizzato verrebbe distrutto e quindi diventerebbe non
reinseribile! In questo caso il campionamento sarebbe necessariamente senza reinserzione, e la
indipendenza del campione dipenderebbe solo, come detto, dal confronto tra la numerosità della
popolazione e quella del campione stesso!

Riassumiamo con una tabella sinottica i risultati della stima puntuale di valore medio e
varianza di una popolazione ottenuta da un campione dei suoi elementi

Valori di
Stime campionarie
popolazione
Campione indipendente Campione non indipendente

1 n 1 n
Valor medio  ˆ n   xj ˆ n   xj
n j 1 n j 1

n N  1 2 N  1 1 n 2
n 2 1 n
  x j  ˆ n  ˆ n ,2   
2
Varianza  2 ˆ n2,1  sn  2
sn    x  
ˆ 
n 1 n  1 j 1 n 1 N N  n  1 j 1
j n

Varianza  ˆ 2
ˆ 2
1 n s2 ˆ N  n
2
s 
2
n
n
ˆ 2ˆ  n ,1  sn2  n ˆ 2ˆ  n,2  n 1  
della stima ˆ n n
n n n 1 n 1 n
n N  1 n  1 N 
4  E  X     
4
   n 3
sn    x j  mn  ; 
1 n 2
2
 ˆ 2 
2
 (varianza di ˆ n ,1 , valore di popolazione)
2

n j 1 n ,1 n   4
n  1 
 
34

Stima di intervallo e controllo statistico della qualità

Quindi abbiamo visto come la media aritmetica ˆ n costituisca una buona stima del valore
medio  di una v.a. X con varianza  2 , di cui si sono considerati n determinazioni  xi in1
indipendenti; si è supposto quindi che il campione di dati sperimentali sia stato prelevato da una
popolazione molto grande, ovvero sia stato prelevato con reinserzione da una popolazione finita. In
tale caso si ha

E[ ˆ n ]   , E[( ˆ n   ) 2 ]  ˆ n2,1 / n .

Come si vede, la stima di valor medio è una stima accurata in quanto ha distorsione nulla, e la sua
precisione aumenta all'aumentare della dimensione n del campione casuale analizzato, in quanto la
varianza della stima è inversamente proporzionale a n .
In definitiva, il parametro incognito  viene valutato mediante una sua stima puntuale ˆ n che ha
una variabilità misurata da ˆ n2,1 / n . Questo significa che se si analizzassero più campioni di
dimensione n , si otterrebbero tanti valori differenti della stima puntuale ˆ n , ma che si localizzano
intorno al valore incognito  , potendo peraltro presentare errori ˆ n   positivi e negativi che
hanno mediamente un range dell'ordine di ˆ n,1 / n .
Da quanto detto la stima puntuale del valor medio per essere apprezzabile deve essere
accompagnata anche dal valore della sua dispersione, cioè dalla misura della sua variabilità.
Ci si chiede quindi se non sia possibile rappresentare la stima con un unico elemento che faccia
comparire in modo esplicito la variabilità della stima. In altre parole appare di più facile
interpretazione poter fornire un intervallo I ,n di possibili valori tale che si possa ritenere con una
certa confidenza che il valore incognito  appartenga a tale intervallo

 
P   I  , n  1  %

In questo caso non si fornirebbe un unico valore ˆ n per  , attendibile a meno di un errore medio
pari a ˆ n,1 / n , ma un intervallo I ,n di valori attendibili per  con una confidenza dell' 1  % .
Vediamo come fare.
Consideriamo la v.a. standardizzata

ˆ n  
n 
ˆ n ,1 / n

che ha quindi valor medio nullo e varianza pari a 1. Se si conoscesse la distribuzione di tale
variabile aleatoria, potremmo risolvere il seguente problema: assegnato il valore % trovare il
valore  per cui risulti

P     n     1  %
35

Ora, dal teorema del limite centrale sappiamo che per n   la variabile standardizzata n tende
in distribuzione ad una gaussiana standard N (0,1) . Questo implica che, se n è abbastanza grande ,
la probabilità dell'evento    n   possa essere calcolata usando la distribuzione limite


e t /2
2

P     n      dt
 2 

A questo punto, scelto % , il valore di  tale che P     n     1  % è dato dal percentile


  della gaussiana, ottenibile dall'opportuna tabella dei percentili. Infatti si ricordi che il valore 
che risolve il problema precedente, risolve anche il seguente

 
P         P       %

che fa riferimento all'evento complementare, ed è esattamente l'evento che viene considerato sulle
tabelle dei percentili.
A questo punto sappiamo che con una confidenza del 1  % il valore n ottenuto dai dati
sperimentali sarà compreso nel seguente intervallo

    n   
cioè

ˆ n  
   
ˆ n,1 / n

da cui con semplici passaggi si ottiene

ˆ n,1 ˆ n,1
ˆ n      ˆ n  
n n

n 2
e quindi, ricordando che ˆ n2,1  sn , si ha
n 1

sn sn
ˆ n      ˆ n  
n 1 n 1

L’ultima relazione stabilisce un intervallo di confidenza I  ,n cui apparterrà il valore


incognito della media  della popolazione con probabilità 1  % . Come si vede dalla sua
espressione, fissato  % , l’ampiezza  I  ,n di tale intervallo dipende sostanzialmente dalla
numerosità del campione

sn  sn  sn
 I  ,n  ˆ n     ˆ n     2
n 1  n 1  n 1

per cui, all'aumentare della dimensione del campione analizzato, a parità di confidenza,
36

l'intervallo I  ,n diventa più stretto, dando luogo ad una valutazione più precisa dei valori attendibili
del parametro incognito  .
Ovviamente nel caso che il campione fosse stato non casuale, con ragionamenti del tutto
analoghi, avremmo ottenuto I  ,n pari a

sn n sn n
ˆ n   1    ˆ n   1
n 1 N n 1 N

di lunghezza pari a

sn n
 I  ,n  2 1
n 1 N

Nell'espressione dell'intervallo di confidenza si è potuto utilizzare il percentile  della gaussiana


standard nell'ipotesi che n fosse abbastanza grande da ritenere soddisfatto il teorema del limite
centrale, ed utilizzare quindi la distribuzione limite per calcolare la probabilità degli eventi della
variabile  n . Se la distribuzione dei dati fosse gaussiana, allora basterebbe n  50 . Se invece fosse
dissimmetrica, con una curtosi al più uguale a 2, allora dovrebbe essere n  100 . Se infine si avesse
un'alta probabilità di avere valori estremi (cioè molto lontani dalla media) , con curtosi quindi
maggiore di 2, allora dovrebbe essere n  500 .

Nel caso in cui i dati a disposizione non soddisfacessero nessuna delle condizioni
precedenti, ad esempio n  30 sempre per un campione casuale, allora si può avere la distribuzione
della v.a. standardizzata  n solo nel caso in cui si possa validare un'ipotesi di gaussianità dei dati.
In tal caso infatti la variabile standardizzata

ˆ nn  
n 
sn / n  1

ha distribuzione t-student con n  1 gradi di libertà, per cui il valore  per cui, fissato  % , si ha

P     n     1  % oppure P       %

è dato dal percentile t della distribuzione t-student con n  1 gradi di libertà (ottenibile
dall'opportuna tabella dei percentili) , ottenendo per l’intervallo di confidenza

sn sn
ˆ n  t    ˆ n  t
n 1 n 1

Vediamo un esempio. Un’officina meccanica deve stimare il carico medio di rottura di un


cospicuo lotto di pezzi. Si seleziona un campione di 100 unità e si determina mn  1115 Kg / cm2 e
37

sn  2,16 Kg / cm2 . Dalla tabella della N(0,1) si ricava che con   0.05 sia ha   1.96 , per cui
il carico di rottura medio  si trova nell’intervallo

 2.16 2.16 
1115  1.96 , 1115  1.96   1114.57, 1115.42 kg / cm
2

 100  1 100  1 

con una confidenza di 0.95. Se aumentassimo il campione analizzato a 300 unità si otterrebbe un
intervallo di confidenza dello 0.95 pari a

 2.16 2.16 
1115  1.96 , 1115  1.96   1114.8, 1115.2 kg / cm
2

 300  1 300  1 

quindi più ristretto rispetto al precedente, costituendo quindi un intervallo di valori più preciso per il
carico di rottura medio  .

La stessa officina vuole determinare il valore medio dello spessore di un lotto di lamine; tale
grandezza risulta avere distribuzione gaussiana con media  e varianza  2 incognite. Si preleva
un campione di 14 barrette e si determina  n  52.52 mm e sn  3.37 mm . Siccome n  30 ,
stavolta dobbiamo usare la distribuzione t-student per determinare l’intervallo di confidenza per lo
spessore medio  . Dalla tabella per   0.05 si ottiene t  2.160 per 13 gradi di libertà, per cui si
ha

 3.37 3.37 
52.52  2.16 , 52.52  2.16   50.5011,54.5389
 14  1 14  1 

con confidenza pari a 0.95.


38

Controllo di qualità.
L’intervallo di confidenza viene utilizzato nel controllo statistico della qualità di un processo
di produzione. In condizioni nominali le unità prodotte presentino, per quanto concerne un certo
attributo, una distribuzione gaussiana con un valor medio  ed una varianza  2 , noti perché
determinati in modo preliminare (cioè determinati con un esperimento dedicato, con un campione di
dati differente da quelli attualmente in esame) usando i metodi descritti precedetemente. Per
controllare che il processo mantenga la qualità nel tempo, vengono prelevati ad intervalli regolari
dei campioni di dimensione n e su questi si calcola la media campionaria ˆ n ; dato che la
distribuzione si suppone gaussiana, n può essere scelto anche piccolo, ad esempio 5 o 10, e la
variabile normalizzata

ˆ n  
n 
/ n

è certamente N(0,1); quindi fissando   0.05 otteniamo   1.96 per cui

  
P   ˆ n        0.95
 n 

Ciò significa che l’evento

 
  ˆ n    
n n

 
    ˆ n    
n n

occorre con probabilità del 95%. La qualità del processo di produzione è quindi da ritenersi idonea
se ˆ n si mantiene nell’intervallo      / n ,     / n 
ˆ n

    / n

    / n

tempo
39

Qualora ˆ n dovesse uscire dai limiti prefissati si dovrebbe intervenire subito per individuare le
cause che hanno determinato questo scostamento significativo della qualità della produzione dallo
standard (utensile logorato, inquinamento dei reagenti, ecc.).

Test di confronto.
In molti casi pratici si deve poter confrontare la stima di campionaria di una statistica ( media,
varianza, frequenza relativa) con valori considerati come noti, evidentemente acquisiti da indagini
precedenti. Esaminiamo ad esempio il seguente caso.
Una compagnia di televisione via cavo asserisce che il 60% degli abitanti della zona di
esercizio possiede la televisione via cavo, mentre una compagnia di televisione satellitare crede che
il precedente valore sia troppo grande, dopo aver effettuato un rilevamento per cui 81 abitazioni
avevano la televisione via cavo e 69 ne erano sprovviste. La compagnia di televisione via cavo
afferma che tale differenza è solo dovuta al caso. A quale delle due compagnie dareste ragione, con
una confidenza del 95%?
La compagnia di televisione via cavo sostiene che in media la proporzione p delle persone
nella popolazione di riferimento che hanno la tv via cavo è pari a 0.6, potendo la proporzione
effettiva variare entro certi limiti. Il valore di questa proporzione, risultante dall'esame del campione
di abitazioni effettuato dalla compagnia di tv satellitare, è di 81/(81+69)=0.54. C'è quindi uno
scostamento significativo del valore stimato della proporzione pˆ  0.54 dal valore di riferimento
ipotizzato  p  0.6 . La compagnia di tv via cavo sostiene che tale scostamento rientra nella
variabilità naturale insita nella stima campionaria di p ; per cui l'ipotesi nulla è che il valore di
riferimento della proporzione di abitazioni con tv via cavo sia del 60%

H 0 :  p  0.6
H1 :  p  0.6

Confronto tra proporzioni

Per validare o meno questa ipotesi, basta appunto misurare la variabilità della stima della
proporzione  2p e costruire un set critico con significatività del 5%
p   p  2  p
con il percentile del 10% in modo che la singola coda misuri 5%. La regola di rifiuto dell'ipotesi
nulla è unilaterale perché pˆ   p e la compagnia di tv satellitare ritiene che appunto che  p  0.6
sia troppo grande.
La misura delle proporzioni segue la distribuzione binomiale: in una popolazione in cui un
dato evento occorre con probabilità p0 , la probabilità con cui si avranno k risultati favorevoli
all'evento su un campione di N unità (caso delle prove ripetute di Bernoulli) è pari a

N N!
P ( X  k )    p0k (1  p0 ) N k  p0k (1  p0 ) N k
k ( N  k )!k !

La variabile aleatoria X data dal "n° di successi su N prove indipendenti" viene detta binomiale
ed ha valor medio e varianza pari a
40

 X  N p0 ,  X2  N p0 (1  p0 )

Tale distribuzione è simmetrica per qualunque N se p0  0.5 , mentre tende ad essere simmetrica
per qualunque p0 quanto più N è grande. Dalla distribuzione di X si ottiene subito la distribuzione
della proporzione p  X del numero di successi su N prove ripetute: essa è ancora una
N
binomiale, ma con media e varianza pari a
  2 p (1  p0 )
 p  X  p0 ,  2p  X2  0
N N N

Si dimostra inoltre che se Np0 (1  p0 ) 10 si ha

p  p p  p0
 : N  0,1
p p0 (1  p0 )
N

cioè, la variabile aleatoria standardizzata ha distribuzione limite pari alla gaussiana standard. Questo
risultato al solito è fondamentale per dedurre i percentili per gli intervalli di confidenza che
riguardano la variabile aleatoria p . Nel caso in esame infatti abbiamo

p0 (1  p0 )
 p  p0  0.6,  p   0.04, Np0 (1  p0 )  36 10
N

e il set critico cercato è pari a

pˆ   p  2  p  0.6  1.645  0.04  0.5342

per cui, dato che pˆ  0.54 , dobbiamo concludere che la compagnia di tv via cavo aveva ragione,
con un rischio del 5% di prendere la decisione sbagliata.
Nel prossimo caso le proporzioni da confrontare sono estratte da due campioni differenti.
La malattia di Lyme o Borreliosi è una infezione batterica che colpisce le articolazioni, il sistema
nervoso, gli organi interni e la pelle dei gatti. Il contagio avviene per via delle zecche. Vogliamo
valutare l'efficacia di un nuovo antibiotico X nella terapia contro la Borrelliosi, confrontandola
con quella dell' amoxicillina. A questo scopo, analizziamo i test clinici su una popolazione di gatti
affetti da Borrelliosi in cura presso alcuni ambulatori veterinari in un trimestre. I dati raccolti sono
riportati in tabella

guariti non guariti totale % guariti


X 56 14 70 80
amoxicillina 52 23 75 69.33

totale 108 37 145 74.48


41

In particolare, si noti che su un totale di 145 gatti, 70 sono stati sottoposti a trattamento con il nuovo
antibiotico X e di questi l'80% sono guariti ( 56 su 70). Per i restanti 75 gatti, trattati con
amoxicillina, si è avuta una percentuale di guarigione pari al 69.33% (52 su 75). Sembrerebbe che il
nuovo farmaco sia più efficace. Tuttavia, bisogna assicurarsi che la differenza tra le percentuali dei
guariti nei due gruppi sia significativa e non dovuta al caso.

Nel gruppo di gatti trattati con X si ha quindi una proporzione pˆ1  0.8 di soggetti guariti su un
campione di n1  70 unità, prelevato da una popolazione in cui la proporzione dei guariti è un
p (1  p1 )
valore p1 . Per quanto visto precedentemente sia ha che E[ pˆ1 ]  p1 e  2pˆ1  1 .
n1
Analogamente per il gruppo di n2  75 unità trattato con amoxicillina si osserva una proporzione di
p (1  p2 )
soggetti guariti pˆ 2  0.7 , con E[ pˆ 2 ]  p2 e  2pˆ 2  2 . Ora come statistica del test possiamo
n2
scegliere la differenza delle proporzioni p  pˆ1  pˆ 2 , che avrà valor medio pari a E  p   p1  p2 ,
e varianza ˆ 2 p   2p1   2p2 dato che i due gruppi di dati sono indipendenti. Dobbiamo quindi testare
le seguenti ipotesi

H 0 : E  p   p1  p2  0
H1 : E  p   0

L'ipotesi nulla H 0 si riferisce al caso in cui i due trattamenti sono equivalenti e la differenza tra le
proporzioni osservate è del tutto casuale. La statistica del test, se è vera H 0 è

p  E  p  p p
 
 2pˆ1   2pˆ 2  2pˆ1   2pˆ 2 1 1 
p0 (1  p0 )   
 n1 n2 

dove p0 è la proporzione totale di guariti sull'unione dei due gruppi


56  52
p0   0.7448
70  75
Se  n1  n2  p0 1  p0   10 , la statistica del test ha distribuzione gaussiana standard, per cui il set
critico del test è

p
 
1 1 
p0 (1  p0 )   
 n1 n2 

con  percentile dell'  % di N (0,1) . Nel nostro caso, volendo effettuare un test con significatività
del 5%, otterremmo
42

0.80  0.6933
1.3802  1.96
 1 1 
0.7448(1  0.7448)   
 70 75 

per cui dovremmo accettare l'ipotesi H 0 e ritenere che il nuovo farmaco X abbia avuto un effetto
non significativamente differente da quello ottenuto con l' amoxicillina. In effetti, volendo testare se
sia conveniente usare il nuovo farmaco, avremmo fatto meglio ad eseguire un test unilaterale,
impostando l'ipotesi alternativa sul fatto che ci si aspetta che il nuovo farmaco abbia una
percentuale di guariti superiore rispetto all'amoxicillina, i.e. H1 : E   p   0 .

Consideriamo ora un altro caso di studio.

Per valutare l’efficacia antirughe, elasticizzante, “ridensificante” e riparatrice per la barriera


cutanea di un trattamento cosmetico è stato eseguito uno studio1 clinico su 10 soggetti sani di sesso
femminile. Vengono riportati in tabella i dati relativi all'elasticità cutanea prima del trattamento
(tempo T0 ) e dopo quindici giorni di trattamento (tempo T15 ). Il trattamento cosmetico è stato
efficace?

Confronto tra medie, misure appaiate

Per rispondere al quesito si può ragionare così. Per ogni soggetto si


misura la stessa grandezza, l'elasticità cutanea, in due tempi
differenti. Per cui in effetti è come se si misurasse la variazione di
elasticità cutanea per ogni soggetto; di conseguenza alla tabella
precedente potremmo sostituire quella ottenuta dalle differenze dei
dati per ogni soggetto

0.0345 -0.0054 0.0244 0.0402 0.0625 0.0400 -0.0196 -0.0281 0.0006 0.0695

con media ˆ d  0.0219 e deviazione standard ˆ d  0.0336 .

Ora se il trattamento non ha avuto effetto, vuol dire che mediamente le differenze dei valori
dell'elasticità cutanea è zero; mentre si avranno effetti significativi se la media delle differenze è
significativamente differente da zero. Per cui, se la nostra ipotesi nulla corrisponde all'assenza di
effetto significativo del farmaco, possiamo scrivere
H 0 : E  ˆ d   0
H1 : E  ˆ d   0

1
http://www.biotivia.cc/attachments/down/Celle%20-%20CLINICAL%20TEST.pdf
43

in quanto per l'ipotesi alternativa dobbiamo considerare che l'effetto del cosmetico deve produrre un
aumento dell'elasticità cutanea. Possiamo quindi disporre un test unilaterale di ipotesi semplice con
un livello di significatività del 5% ; il set critico avrà quindi la seguente forma

ˆ d
ˆ d  E  ˆ d   2 ˆ ˆ d  E  ˆ d   2
n

Facciamo ora l'ipotesi di gaussianità dei dati (da verificare eventualmente con un opportuno test); in
questo modo potremo scegliere il percentile 2 come il percentile del 10% di una t-Student a 9
gradi di libertà ottenendo il seguente set critico

0.0336
ˆ d  0  1.833  0.0195
10

Dato che ˆ d  0.0219 è maggiore di 0.0195, dobbiamo rifiutare l'ipotesi nulla e ritenere, con una
confidenza del 95%, che il cosmetico abbia avuto effetto.

Nel caso esaminato, la variabilità dei dati era legata alla presenza di soggetti differenti in uno stesso
gruppo. In altre situazioni i dati variano anche per il fatto che i dati si riferiscono a gruppi differenti
di soggetti. Il caso che segue chiarisce questo aspetto. Per semplicità di notazioni, le medie
calcolate su due gruppi di n1 e n2 dati, saranno indicate con ̂1 e ̂2 anziché ˆ n1 , ˆ n 2 .

Un’azienda produce disinfettante industriale concentrato, in confezioni per le quali dichiara che è
possibile ottenere mediamente 150 litri di disinfettante con una varianza pari a 36 litri2. La
produzione avviene in due stabilimenti separati. Un primo rivenditore analizza un campione casuale
di 225 confezioni, prelevato dal primo stabilimento, e ottiene una media ̂1 di 148 litri di
disinfettante; un secondo rivenditore analizza un campione casuale di144 confezioni, prelevato
dall'altro stabilimento, e ottiene una quantità media ̂2 di disinfettante pari a 151 litri. La differenza
tra queste rilevazioni è significativa oppure è da ritenersi dovuta alla naturale variabilità del
prodotto?

Confronto tra medie, misure non appaiate, varianza nota

Come sappiamo, la stima di valor medio è centrata, per cui risulta che E[ ˆ1 ]   con varianza
2 36  2 36
 2ˆ 1    0.16 e E[ ˆ 2 ]   con varianza  2ˆ 2    0.25 . Ora possiamo scegliere
n 225 n 144
come statistica del test la differenza tra i valori medi rilevati sui due campioni indipendenti
ˆ d  ˆ 2  ˆ1 , per la quale possiamo testare le ipotesi

H 0 : E  ˆ d   0
H1 : E  ˆ d   0
44

L'ipotesi nulla corrisponde al caso in cui la differenza osservata sia da attribuire al caso, mentre
l'ipotesi alternativa corrisponde al fatto che i due stabilimenti hanno una differenza sistematica nella
produzione del disinfettante. Se è vera H 0 abbiamo che E[ ˆ d ]  0 mentre, indipendentemente da
H 0 , H1 risulta  2d   2ˆ 1   2ˆ 2  0.16  0.25  0.41 . La scelta dell'ipotesi alternativa determina un
set critico bilaterale

ˆ d  E[ ˆ d ] ˆ d
  
 d  2 1   2 2

Se possiamo validare un'ipotesi di gaussianità dei dati, possiamo scegliere  =1.96 corrispondente
al percentile del 5% di una gaussiana standard. In questo caso si otterrebbe

ˆ d 151  148 3
   4.685  1.96
 2 1   2 2 0.41 0.41

Si dovrebbe quindi accettare l'ipotesi alternativa e ritenere che ci siano cause sistematiche nel
processo di produzione dei due stabilimenti che determina una differenza significativa nella qualità
del prodotto fornito.

Il più delle volte la varianza dei dati, differentemente dal caso appena esaminato, è incognita.
Questo accade ad esempio nel problema che segue 2.

E' stato condotto uno studio clinico per la valutazione


dell’efficacia della Tulatromicina nella prevenzione delle
forme respiratorie del bovino da carne (BRD), nelle normali
condizioni d’allevamento italiane. La patologia esordisce
con sintomi generali (abbattimento e riduzione
dell’appetito) che, nell’arco di poche ore, si accompagnano
a febbre, dispnea, tosse, scolo nasale (catarrale e/o muco
purulento, vedi figura) e nei casi più gravi e senza un
adeguato intervento, evolvono in pochi giorni verso una
polmonite grave che può condurre a morte l’animale.
In tabella vengono riportati i dati relativi all'esperimento: un
gruppo di n1  89 bovini è stato trattato con Tulatromicina ed
un secondo gruppo n2  81 con Tilmicosina. Dopo 60 giorni
si è osservato un peso medio per il primo gruppo di
ˆ1  537.39 Kg con una deviazione standard ˆ n1 ,1  42.96
Kg, mentre per il secondo gruppo si è ottenuto un peso
medio ˆ 2  529.49 Kg con una deviazione standard
ˆ n2 ,1  41.47 Kg.

2
Tratto da: M. Muraro et al. Large Animal Review 2008; 14: 267-272 267.
45

Confronto tra medie, misure non appaiate, varianza incognita

Siamo in presenza ancora di un caso in cui i dati appartengono a due gruppi differenti di soggetti
per cui essi non possono considerarsi appaiati. Si devono confrontare quindi due medie per capire se
la loro differenza sia significativa o dovuta al caso. La varianza dei dati è incognita, ma le varianze
del peso dei bovini sono state stimate dai dati dei due campioni di 89 e 81 unità. Nell'ipotesi (da
verificare con un test ovviamente!) che la varianza dei dati sia costante, e che la differenza tra ˆ n2 ,1 1

e ˆ n22 ,1 sia del tutto casuale, la varianza di ˆ d  ˆ 2  ˆ1 è data dalla seguente espressione

n1sn21  n2 sn22  1 1  1 n1 n1
 x1,i  ˆ1  , sn22 
1
  x2,i  ˆ 2 
2 2
 d
2
   ,
n1  n2  2  n1 n2 
sn21  
n1 i 1 n2 i 1

che viene detta pooled variance. In questo caso, nell'ipotesi di gaussianità dei dati, la statistica del
test di confronto tra medie
H 0 : E  ˆ d   0
H1 : E  ˆ d   0
è data da
ˆ d
n1sn21  n2 sn22  1 1 
  
n1  n2  2  n1 n2 

e segue una distribuzione t-Student a n1  n2  2 gradi di libertà. Per cui il set critico unilaterale di
significatività  % sarà dato da

ˆ d
 tn1  n2 2,2
n1sn21  n2 sn22
1 1 
  
n1  n2  2  n1 n2 

Nel caso di studio si ottiene

7.9
 1.2174  t168,0.10  1.645
6.4891

per cui si accetta l'ipotesi nulla e si conclude che il trattamento con Tulatromicina non ha avuto un
effetto significativamente differente dal trattamento con Tilmicosina.

Nel caso in cui si debba rifiutare l'ipotesi che la varianza dell'insieme dei dati del primo e del
secondo gruppo sia costante, allora si può usare la seguente statistica
46

ˆ d
 t gdl ,
ˆ n21 ,1 ˆ n22,1

n1 n2

che seguirà approssimativamente una distribuzione t-Student, nell'ipotesi di gaussianità dei dati, con
gradi di libertà ottenuti dal termine di correzione di Welch- Satterwhaite

2
 ˆ n2 ,1 ˆ n2 ,1 
 1  2 
 n1 n2 
gdl   
2 2
 ˆ n21 ,1   ˆ n22 ,1 
 n1   n2 
   
n1  1 n2  1

ovviamente si prende come numero di gradi di libertà il valore intero della precedente espressione.

Confronto tra varianze

I test di confronto tra proporzioni e tra medie appena visti, possono applicarsi anche al caso in cui
si debbano confrontare le varianze.

Si consideri a esempio un insieme di dati per cui si ipotizzi una distribuzione gaussiana con media
 e varianza  2 . Si estragga un campione casuale di n unità è si verifichi l'ipotesi

H 0 :  n2,1   2
H1 :  n2,1   2

Se l'ipotesi nulla è vera si può dimostrare facilmente che la grandezza

n
 ( xi  ˆ n )2 (n  1)  n2,1 nsn2
i 1
 
2 2 2

ha distribuzione  n21 con n  1 gradi di libertà. Il set critico per il test posto sarà quindi

(n  1)  n2,1
  n21,
 2

dove  n21, è il percentile dell'  % . Nel caso in cui l'ipotesi alternativa fosse stata H1 :  n2,1   2 ,
allora il set critico con significatività dell'  % sarebbe stato

(n  1)  n2,1
  n21,1
 2
47

mentre se l'ipotesi alternativa fosse stata H1 :  n2,1   2 , allora avremmo avuto il seguente set critico
di livello  %

 (n  1)  n2,1   (n  1)  n2,1 
   2
n 1,1 /2 
    2
n 1,  /2 
    
2 2


Concludiamo questo paragrafo considerando il caso di differenze tra varianze. Vogliamo


confrontare le varianze di due campioni di dati con distribuzione gaussiana con parametri ( 1, 12 )
e ( 2 ,  22 ) rispettivamente. Si vuole verificare l'ipotesi H 0 : 12   22 contro l'ipotesi alternativa
H1 : 12   22 . A questo punto dal primo campione di n1 dati stimiamo ˆ n1 e  n21 ,1 , e analogamente
dal secondo gruppo di n2 dati stimiamo ˆ n2 e  n22 ,1 (entrambi i gruppi si intendono essere due
campioni casuali di dati). Ora, per quanto visto prima, la variabile
n1
 ( xi  ˆ n1 )2 (n1  1)  n21 ,1
i 1

12 12

è distribuita come una  n21 1 , mentre la variabile

n2
 ( x j  ˆ n2 )2 (n2  1)  n22 ,1
j 1

 22  22
è distribuita come una  n22 1 . Per cui, se l'ipotesi nulla è vera, la variabile

 n21 ,1
F1 , 2 
 n22 ,1

ha una distribuzione Fisher con 1  n1  1, 2  n2  1 gradi di libertà. Per cui il set critico di livello
 % per cui si rifiuta l'ipotesi nulla è

F1 , 2  F1 , 2 , 

Se l'ipotesi alternativa fosse stata H1 : 12   22 , avremmo scelto come statistica del test il reciproco
della precedente F ' 2 ,1  1/ F1 , 2 ed il set critico sarebbe stato
F ' 2 ,1  F 2 ,1 , 

Infine, se l'ipotesi alternativa fosse stata H1 : 12   22 avremmo ottenuto il seguente set critico
48

F ' ,
2 1
 F 2 ,1 ,  /2  F , 1 2
 F1 , 2 ,  /2 

Confronto tra varianze di più gruppi

In molti casi pratici l’insieme di dati in esame è costituito da più di due gruppi per i quali è
necessario sapere se hanno tutti la stessa varianza, ovvero almeno due gruppi hanno varianza l’uno
differente dall’altro. Nel primo caso si dice che l’insieme di dati è omoschedastico, nell’altro caso
che è eteroschedastico. Per decidere se un insieme di dati sia omoschedastico si ricorre al solito a
dei test satistici. Come dati di partenza si consideri un insieme di N dati costituito da k gruppi
costituiti da n1 , n2 ,  , nk unità rispettivamente con medie 1 ,  2 ,  ,  k e con varianze
 12 ,  22 ,  ,  k2 .

Test di Bartlett. Nel caso in cui l’insieme di dati segua una distribuzione gaussiana si può usare
questo test che prevede le seguenti ipotesi composte

H 0 :  12   22     k2
H 1 :  i2   2j per almeno una coppia (i, j )

La statistica del test è data dalla seguente variabile

k
( N  k ) ln ˆ 2p   (ni  1) ln ˆ n2i ,1
i 1
T
1 k  1  1 
1    
3(k  1)  i 1  ni  1  N  k 

dove le ˆ n2i ,1 sono le stime corrette delle varianze dei singoli gruppi, mentre

1 k
ˆ 2p    ni  1ˆ n2i ,1
N  k i 1

è la sample pooled variance, che abbiamo già incontrato nel caso di due soli gruppi. Le due
espressioni differiscono perché nel caso del confronto tra medie, la pooled variance si riferisce
appunto alla varianza della stima di valor medio. La variabile T segue approssimativamente una
distribuzione  k21 , per cui il set critico di livello  % è dato da

T   k21,

Se questo si verifica, l’ipotesi nulla viene rifiutata e l’insieme di dati si ritiene eteroschedastico.

Test di Levene. Questo test è indicato nel caso in cui l’insieme di dati non segua una distribuzione
gaussiana. Sia xi , j il j-esimo dato dell' i-esimo gruppo, e si definiscano le seguenti grandezze
49

ni
1
zi , j  xi , j  ˆ i , ˆ i 
ni
 xij
j 1
ni
1
zi 
ni
 zi, j , media delle zi, j nell ' i  esimo gruppo
j 1

1 k
z 
N
 ni zi , media di tutte le zi, j
i 1

La statistica del test è data dalla seguente variabile

k
 ni  zi  z 
2
N k i 1
W
k 1 nj
   zi, j  zi 
k 2

i 1 j 1

che ha distribuzione di Fisher Fk 1, N  k . Il set critico di livello  % è il seguente

W  Fk 1, N k ,

per cui se la grandezza W è più grande del percentile dell’  % della Fisher Fk 1, N  k , l’ipotesi nulla
va rifiutata, e si deve ritenere l’insieme di dati eteroschedastico.

ANOVA (Analysis of Variance) : confronto tra medie di più gruppi


In molte situazioni, l’insieme o popolazione di unità da analizzare può presentare delle
sottostrutture per cui il modello statistico rappresentato dalle medie di insieme (valore medio,
varianza, …) può risultare in una descrizione troppo grossolana della variabilità insita nella
popolazione: infatti parte di questa variabilità non è da attribuirsi al caso, all’evento aleatorio, ma
alla presenza di una variabilità strutturata, determinata appunto da queste sottostrutture: in ognuna
di queste gli elementi hanno un comportamento statisticamente omogeneo, ovvero presentano una
variabilità interamente dovuta a cause aleatorie e bene descritta da medie di insieme, caratteristiche
tuttavia del sottogruppo considerato; queste medie peraltro possono cambiare molto tra i vari
sottogruppi per motivi non di natura aleatoria ma dovuti a meccanismi di natura sistematica! Si
pensi ad esempio ad una produzione che venga effettuata da reparti con esperienza ed affiatamento
differenti; alla vendita di articoli editoriali di varia natura: giornali, settimanali, audiovisivi;
all’effetto di materie prime acquistate da fornitori differenti, come stoffe, filati , reagenti chimici, e
chi più ne ha più ne metta! Consideriamo il caso di un portafoglio costituito da k  4 prodotti
finanziari di cui interessa il numero di scambi giornalieri in borsa su un numero di 10 rilevazioni
per ognuno di essi
50

Prodotti Finanziari
1 2 3 4

61 100 66 86
80 74 52 35
N° in migliaia di 98 85 73 52
Scambi 64 77 69 70
giornalieri 78 84 80 79
73 95 73 43
57 96 62 60
95 62 50 65
78 80 71 58
86 87 84 82

Media 77 84 68 63

Il numero di rilevazioni per ciascuna classe non deve necessariamente coincidere, e le singole
determinazioni possono considerarsi come estrazioni casuali indipendenti di una v.a. X . In
generale quindi avremo ni , i  1, , k , rilevazioni sperimentali; indichiamo con xij la j-esima
rilevazione per la classe i-esima ( i  1, , k ; j  1, , ni ).
Come si vede le medie interclasse ˆ i sono diverse tra loro e diverse dalla media di
popolazione

k ni k ni
1 1

n
  xij , n   ni , ˆ i 
ni
 xij
i 1 j 1 i 1 j 1

Vogliamo stabilire se questa variabilità è da attribuirsi al caso oppure è qualcosa di sistematico.


Nell'ipotesi che la popolazione di dati possa ritenersi omoschedastica con distribuzione gaussiana,
rappresentiamo il generico dato xij nel seguente modo

xij    ai  yij

dove ai modella l’effetto della classe i-esima e yij è una fluttuazione statistica che modelliamo
come una gaussiana con media nulla e varianza  2 costante per tutte le classi; risulta che xij è
modellata come una gaussiana con media i    ai e varianza  2 .
A questo punto si vuole testare l’ipotesi composta

 H 0 : ai  0 per ogni i

cioè che la differenza interclasse è da attribuirsi al caso, contro l’ipotesi alternativa

 H1 : ai  0 per almeno un i
51

che tale differenza sia dovuta ad un fattore sistematico.

Consideriamo la varianza campionaria totale

1 k ni
  1 k ni
 
1 k
xij  ˆ    xij  ˆ i   ni  ˆ i  ˆ 
2 2
 
2

n i 1 j 1 n i 1 j 1 n 
i 1  
 
T V W

che con semplici passaggi può decomporsi nelle due varianze parziali V e W : la prima rappresenta
la variabilità intraclasse, cioè la variabilità dei dati all’interno di ciascun gruppo di ni termini che è
la stessa indipendentemente dal fatto che l’ipotesi H 0 sia vera o falsa; la seconda fornisce la
variabilità interclasse e, se l’ipotesi H 0 è vera, risulta essere una fluttuazione casuale, altrimenti
porta in conto la variabilità dovuta alle differenze tra le medie dei vari sottogruppi.
Ora se l’ipotesi H 0 è vera, la variabile T /  2 risulta essere distribuita come una  2 con
n  1 gradi di libertà. In base al teorema di Cochran si può quindi dimostrare che V /  2 è distribuita
come una  2 con n  k gradi di libertà, mentre W /  2 ha distribuzione  2 con k  1 gradi di
libertà; inoltre V e W sono tra loro indipendenti. Quindi il rapporto

W /(k  1)
F
V /(n  k )
ha distribuzione di Fisher con 1  k  1,  2  n  k gradi di libertà. Se W è troppo grande
dovremmo rifiutare H 0 ; fissando un livello di significatività del test pari ad  , ovvero fissando la
probabilità di commettere l’errore di tipo I rifiutando H 0 quando è vera, dalle tavole della
distribuzione F1 , 2 si ricava il percentile F per cui se

F  F

si rifiuta H 0 prendendo la decisione giusta nell’ (1   )% dei casi. Il terst appena anlizzato prende
comunemente il nome di F-test.

L’analisi svolta viene normalmente riportata su una tabella che viene detta appunto tabella
dell’analisi della varianza

somme dei
variazione gradi di libertà devianze statistiche
quadrati
Tra gruppi k-1 W W/(k-1) W /(k  1)
;
Nei gruppi n-k V V/(n-k) V /(n  k )
Totale n-1 T z  ln F

che nel nostro caso diventa


52

Somme dei
variazione gradi di libertà devianze statistiche
quadrati
Tra gruppi 3 2620 873.33
F = 4.84;
Nei gruppi 36 6496 183.22
z = 0.79
Totale 39 9116

Se si sceglie   0.05 dalle tavole si ricava F  2.90 ; per cui dato che 4.84>2.90 dobbiamo
rifiutare l’ipotesi che la differenza tra le medie degli scambi giornalieri dei 4 prodotti finanziari sia
dovuta al caso.

Lo stesso tipo di analisi può essere condotta se la misura della grandezza di interesse x è
influenzata da più di un attributo. In riferimento al caso già trattato supponiamo di considerare il
numero di scambi giornalieri di k titoli in h mercati; per cui ora xij(  ) denota la  -esima rilevazione
del numero di scambi giornalieri del titolo i -esimo nel mercato j -esimo.

Ora, il generico dato può essere rappresentato nel seguente modo

xij(  )    ai  b j   ij  yij(  )

Senza perdita di generalità, per semplificare le notazioni, si assume che ciascuna classe sia
composta dallo stesso numero di elementi, per cui 1    m per ogni i, j . La costante  ij modella
l'effetto combinato dei due attributi, e la variabile yij( ) modella al solito la variabilità statistica del
dato e si assume con distribuzione N (0,  2 ) .

Siano ora

1 h m ( ) 1 h m ( ) 1 m ()
ˆi,.,.    xij ,
h m j 1  1
ˆ., j ,.    xij ,
k m i 1  1
ˆij   xij
m  1

la media dei dati per il valore i-esimo del primo attributo, la media dei dati per il valore j-esimo del
secondo attributo, la media dei dati all'interno di ciascun gruppo individuato dalla generica coppia
di valori i, j del primo e del secondo attributo. La variabilità totale T dei dati può essere questa
volta decomposta nel seguente modo

    xij()  ˆ     
k h m k h m k h
 h m  ˆ i ,.,.  ˆ   k m  ˆ., j ,.  ˆ
2 2 2 2
    xij( )  ˆij
i 1 j 1  1 i 1 j 1  1 i 1 j 1

 
k h 2
 m  ˆ ij  ˆ i ,.,.  ˆ., j ,.  ˆ  V  W1  W2  WI
i 1 j 1

Il primo termine a secondo membro V rappresenta la variabilità statistica dei dati all'interno di
ciascun gruppo ed è indipendente dalla presenza degli effetti degli attributi; esso costituisce il
53

termine di errore. Il secondo termine W1 ed il terzo W2 rappresentano la variabilità dovuta


all'effetto del primo attributo ed all'effetto del secondo attributo, rispettivamente. Il termine
WI viene detto interazione e quantifica l'effetto legato alla sinergia degli attributi. L'ipotesi nulla
H 0 richiede che tutte le costanti ai , b j ,  ij siano nulle. Se questo è vero, con l'ipotesi di gaussianità
dei dati, si ha al solito che T /  2 è distribuita come una  2 con  k h m  1 gradi di libertà. Si può
quindi applicare il teorema di Cochran ed affermare che V  2 , W1  2 , W2  2 , WI  2 sono
variabili aleatorie indipendenti con distribuzione  2 con gradi di libertà k h  m  1 ,  k  1 ,  h  1
e  k  1 h  1 rispettivamente. A questo punto si possono testare varie ipotesi: se si vuole valutare
l'importanza del primo attributo si considera la variabile

W1 /  k  1
F1 
V / kh  m  1

che risulta avere distribuzione di Fisher con  k  1 , kh  m  1 gradi di libertà. Fissando al solito il
livello  % di significatività del test è possibile rilevare sulle tabelle opportune il relativo percentile
F1, ; se il valore F1 ottenuto dai dati dell'esperimento supera F1, si deve ritenere che l'effetto del
primo attributo introduce una variabilità sistematica nei dati, non attribuibile a cause aleatorie, e
quindi ha senso stratificare i dati in base ai valori del primo attributo. Lo stesso ragionamento vale
per il secondo attributo; si consideri la variabile

W2 /  h  1
F2 
V / kh  m  1

che ha distribuzione di Fisher con  h  1 , kh  m  1 gradi di libertà. Si scelga il livello  % di


significatività del test e si determini il percentile F2, dalle tabelle. I valori del secondo attributo
inducono una stratificazione significativa dei dati se F2  F2, .
Infine il grado di interazione fra gli attributi può essere valutato considerando la variabile

WI /  k  1 h  1
FI 
V / k h  m  1

che ha distribuzione di Fisher con  k  1 h  1 , kh  m  1 gradi di libertà. Scelto il livello  % di


significatività del test e determinato il percentile FI , dalle tabelle, se risulta FI  FI , dovremo
ritenere che l'effetto combinato dei due attributi è significativo ai fini di una stratificazione della
popolazione. La popolazione risulta essere omogenea se in tutti e tre i test precedenti le statistiche
F1, F2 e FI ottenute dai dati non superano i rispettivi percentili.

Nel caso particolare in cui m  1 , per cui è disponibile una sola rilevazione xij della variabile x per
ogni coppia di valori (i, j ) dei due attributi, non è possibile modellare il grado di interazione tra gli
attributi. Per cui si avrà la seguente rappresentazione del dato generico
54

xij    ai  b j  yij
dove, nelle stesse ipotesi del caso con interazione, ai è una costante che tiene conto dell’effetto
dell’attributo “titolo”, b j è una costante che tiene conto dell’effetto dell’attributo “mercato”, e
yij  
N 0 , 2 . In questa situazione le grandezze

1 h 1 k 1 k h
ˆ i ,.   xij ,
h j 1
ˆ ., j   xij ,
k i 1
ˆ  
hk i 1
 xij
j 1

denotano la media degli scambi giornalieri del titolo i -esimo sull’insieme dei mercati, la media
degli scambi giornalieri dell’insieme di titoli nel mercato j -esimo e la media degli scambi
giornalieri di titoli sull’insieme dei mercati, rispettivamente.

La variabilità totale dei dati risulterà quindi ripartita nel seguente modo

   xij  ˆ       xij  ˆ i ,.  ˆ ., j  ˆ 
k h k h k h k h
    ˆ i ,.  ˆ     ˆ ., j  ˆ
2 2 2 2

i 1 j 1 i 1 j 1 i 1 j 1 i 1 j 1

     xij  ˆ i ,.  ˆ ., j  ˆ 
k h k h
 h  i ,.  ˆ   k  ˆ ., j  ˆ
2 2 2

i 1 j 1 i 1 j 1

 W1  W2  V

Il primo termine a secondo membro è la variabilità tra i vari titoli, il secondo è la variabilità tra i
mercati, ed il terzo termine è detto comunemente termine di errore. Con ragionamenti analoghi al
caso precedente, a norma del teorema di Cochran, possiamo affermare che i tre termini a secondo
membro sono indipendenti; inoltre W1  2 è distribuita come una  2 con k  1 gradi di libertà,
W2  2 è distribuita come una  2 con h  1 gradi di libertà e V è distribuita come una  2 con
 h  1 k  1 gradi di libertà.
A questo punto possiamo testare varie ipotesi; per esempio se vogliamo testare se l’effetto della
variabilità dovuta ai titoli è significativo basta considerare la variabile

W1 /  k  1
F1 
V /  h  1 k  1
che sarà distribuita come una Fisher Fk 1, h1 k 1 . Se invece vogliamo testare per la significatività
dell’effetto legato ai mercati possiamo considerare la variabile

W2 /  h  1
F2 
V /  h  1 k  1
55

che sarà distribuita come una Fisher Fh1, h1 k 1 .

adhf primer method Esaminiamo il seguente caso. Tre tipi di fondo per vernici
(primer) sono applicatio su alluminio in due modi: immersione
1 4.0 1 D
2 4.5 1 D (dipping, D), a spruzzo (spraying, S). L'esperimento consiste nel
3 4.3 1 D determinare la forza di adesione della vernice (adhf)
4 5.6 2 D dipendentemente dal fondo e dal metodo utilizzati. In base ai
5 4.9 2 D valori della tabella valutiamo se la forza di adesione risente
6 5.4 2 D
7 3.8 3 D
singolarmente del primer e del metodo di applicazione, o risente
8 3.7 3 D del loro effetto combinato. I dati dell'esperimento sono riportati
9 4.0 3 D nella tabella accanto: si ha un totale di 18 misure: per ogni primer
10 5.4 1 S si hanno tre ripetute per il metodo dipping e tre ripetute per lo
11 4.9 1 S spraying. La forza di aderenza della vernice dipende da due
12 5.6 1 S
13 5.8 2 S attributi : il "metodo di deposizione del primer", attributo con
14 6.1 2 S k  2 valori "D" e "S"; il "tipo di primer " con h  3 valori "tipo
15 6.3 2 S 1", "tipo 2" e "tipo 3". Gli attributi determinano un totale di
16 5.5 3 S k * h  6 gruppi, ciascuno con m  3 ripetute
17 5.0 3 S
18 5.0 3 S

Normal Probability Plot

xij( ) , i  1, 2 j  1, 2,3   1, 2,3 0.98

Verifichiamo l'applicabilità del test 0.95


ANOVA a 2 vie descritto. Il valor 0.90
medio campionario dei dati è pari a
4.9889, mentre la deviazione 0.75
standard stimata, nell'ipotesi che il
Probability

campione sia casuale, è pari a 0.50

0.2070. I dati sono valori positivi, ci


chiediamo quanto sia verosimile 0.25
testare un'ipotesi di gaussianità:
notiamo in effetti che la media dei 0.10 dati
dista dallo 0 per più di 4, per la 0.05
distribuzione gaussiana può essere un 0.02
buon modello di distribuzione dei dati, 4 4.5 5
Data
5.5 6 in
quanto prevede che l'insieme dei valori negativi ha una probabilità di occorrere
inferiore a 0.006. Analizziamo il Q-Q plot. Dalla figura accanto si nota un certo allineamento tra i
quantili: il test di Lilliefors (Matlab) suggerisce che il rifiuto dell'ipotesi nulla che la distribuzione
dei dati sia gaussiana ha un rischio (p_value) pari a 0.4233>>0.05, per cui l'ipotesi nulla va
accettata, ed i dati sono ritenersi estratti da una distribuzione gaussiana. Verifichiamo ora
l'omoschedasticità dei dati (ipotesi nulla): il test di Bartlett garantisce che non ci sia differenza
significativa tra le varianze dei gruppi, con un p_value pari a 0.9214. Siamo quindi nelle condizioni
di applicazione del test ANOVA di Pearson.
Ripartiamo quindi la variabilità totale dei dati nel modo visto

     
2 3 3 2 3 3 2 3
 9  ˆ i ,.,.  ˆ   6  ˆ., j ,.  ˆ
2 2 2 2
T     xij( )  ˆ     xij( )  ˆij
i 1 j 1  1 i 1 j 1  1 i 1 j 1

 
2 3 2
 3  ˆ ij  ˆi ,.,.  ˆ., j ,.  ˆ  V  W1  W2  WI
i 1 j 1
56

1 3 3 () 1 3 3 ( )
ˆ1,.,.    x  4.4667 ,
9 j 1 1 1 j
ˆ 2,.,.    x  5.5111
9 j 1 1 2 j
methods

1 2 3 () 1 2 3 () 1 2 3 ( )
ˆ.,1,.    x 4.7833,
6 i 1 1 i1
ˆ.,2,.    x  5.6833
6 i 1 1 i 2
ˆ.,3,.    x  4.5
6 i 1  1 i 3
primers

1 3 ( ) 1 3 () 1 3 ()
ˆ11   x  4.2667,
3 1 11
ˆ12   x  5.3,
3 1 12
ˆ13   x  3.8333,
3 1 13
1 3 ( ) 1 3 ( ) 1 3 ( )
ˆ 21   x  5.3,
3 1 21
ˆ 22   x  6.0667
3 1 22
ˆ 23   x  5.1667
3 1 23

1 2 3 3 ( )
    xij  4.9889
18 i 1 j 1 1

Si ottiene

T  10.7178, V  0.9867, W 1  4.9089, W 2  4.5811, WI  0.2411

I dati sono gaussiani e omoschedastici, per cui sotto l'ipotesi nulla

H 0 : a1  a2  0, b1  b2  0,  11   12   21   22  0
la variabile T 2 ha distribuzione 17 2
; il teroema di Cochran assicura quindi che le variabili

V ,W 1,W 2, WI sono  2 tra loro indipendenti, con gradi di libertà rispettivamente pari a 12, 1, 2, 2 .
A questo punto calcoliamo le statistiche del test per la significatività dell'attributo "metodo di
deposizione"

W1
F1   59.7027
V /12
dell'attributo "tipo di primer"

W2/2
F2  27.8581
V /12

e dell'interazione fra i due attributi

WI / 2
FI  1.4662
V /12

Fissando il livello di significatività del test pari a  %  0.05 , dalle tabelle della Fisher otteniamo il
percentile per la F1,12 pari a 4.75, per cui si può ritenere che il metodo di deposizione del fondo
costituisca un attributo che influenza significativamente la forza di aderenza della vernice; dai
57

valori medi calcolati per methods si vede subito che il secondo metodo (spraying) determina una
forza media (sui tre tipi di primer) di aderenza pari a 5.5111 contro 4.4667 del primo metodo
(dipping). Invece il percentile per la F2,12 pari a 3.88, per cui anche l'attributo "tipo di primer"
influenza significativamente la forza di aderenza: dai valori medi calcolati per primers si nota come
il secondo tipo di fondo garantisca una forza di aderenza media (sui due metodi di deposizione) pari
a 5.6833, significativamente più alta rispetto agli altri due tipi di fondo, che hanno prestazioni simili
di 4.7833 (tipo 1) e 4.5 (tipo 3). Questa considerazione comunque andrebbe confortata con una
ulteriore analisi ponendo i dati relativi al tipo1 e tipo 3 in un unico gruppo e verificare la differenza
significativa con il gruppo di dati relativi al tipo 2. Per quanto riguarda l'interazione, dato che il
percentile è lo stesso che per F2, si vede come si debba escludere una sinergia tra metodo di
deposizione del fondo e tipo di fondo.
Per quanto riguarda la significatività dei due attributi singolarmente, avremmo potuto anche
utilizzare due ANOVA ad una via. Ad esempio, per l'attributo "metodo di deposizione", avremmo
raggruppato i dati in due classi: la prima per il valore "dipping" dell'attributo, aggregando i 9 dati in
tabella contrassegnati con "D", relativi ai tre tipi di primer; la seconda classe relativa al valore
"sparying" dell'attributo, aggregando i 9 dati in tabella contrassegnati con "S". In questo caso si
sarebbe ottenuta la seguente ripartizione della variabilità dei dati

   
2 3 3 2 2 3 3 2 2
T     xij( )  ˆ     xij( )  ˆi   9  ˆi  ˆ   V  W
2

i 1 j 1  1 i 1 j 1  1 i 1

dove  è lo stesso di prima in quanto è la media globale dei dati, mentre

1 3 3 ( ) 1 3 3 ( )
1   x
9 j 1  1 1 j
 4.4667  1,.,. ,  2    x  5.5111  2,.,.
9 j 1  1 2 j

Si ottiene

T  10.7178, V  5.8089, W  4.9089


Si noti come il termine W è lo stesso del termine W 1 dell'ANOVA a due vie con interazione,
mentre il termine d'errore V raccolga la somma dei termini V ,W 2,WI (salvo approssimazioni
numeriche) della precedente analisi.
Nelle stesse ipotesi statistiche abbiamo che la variabile

W
F 13.521
V /16
ha distribuzione Fisher F1,16 il cui percentile del 5% è compreso tra 4.54 e 4.35. Per cui si deve
rifiutare l'ipotesi nulla e ritenere il metodo di deposizione un fattore significativo per la forza di
aderenza della vernice. Inoltre, avendo solo due gruppi, risulta immediatamente che il secondo
metodo, lo spraying, ha le prestazioni migliori, garantendo una forza di adesione media (su tutti i
primer) di 5.5111 contro 4.4667 del metodo dipping. Tale risultato conferma quanto ottenuto
nell'ANOVA a due vie. Sulla scorta di questa osservazione eseguiamo ora un ANOVA ad una via
per l'attributo "tipo di primer". Si ottengono tre classi, ognuna di 6 dati ottenuti considerando per
ogni primer le 3 ripetute contrassegnate con "D" e le 3 contrassegnate con "S". Si ottiene
58

   
2 3 3 2 2 3 3 2 3
T     xij( )  ˆ     xij( )  ˆ i   6  ˆ i  ˆ   V  W
2

i 1 j 1  1 i 1 j 1  1 i 1

con
1 2 3 ( ) 1 2 3 1 2 3
1   
6 i 1  1
xi1  4.7833  .,1,. , 2    xi(2 )  5.6833  .,2,. , 3    xi(3 )  4.5  .,3,.
6 i 1  1 6 i 1  1

Si ottengono quindi i seguenti valori

T  10.7178, V  6.1367, W  4.5811

Possiamo anche qui notare che W  W 2 , mentre V raccoglie i termini V ,W 1,WI dell'ANOVA a due
vie. Osserviamo che il termine di differenza tra gruppi questa volta è più piccolo che nel caso
precedente per l'attributo "metodo di deposizione ", mentre la V è più grande. Infatti risulta

W /2
F2   5.5989
V
15
che comunque è maggiore del percentile del 5% di una Fisher F2,15  3.68 . Per cui anche l'effetto
dell'attributo " tipo di primer" è da ritenersi significativo. Tuttavia, rispetto al caso precedente, ora
ci sono tre gruppi e non è chiaro come scegliere il primer migliore, in quanto il rifiuto dell'ipotesi
nulla dice solo che c'è almeno un gruppo significativamente differente dagli altri. Per cui bisogna
condurre un'analisi ulteriore, come si era peraltro già precisato in occasione dell'analisi ANOVA a 2
vie.
Analizziamo ora il caso di studio togliendo la variabilità dei dati dovuta alle tre ripetute per
ogni gruppo: questo si ottiene sostituendo alle 3 ripetute la loro media ij , i  1, 2 j  1, 2,3 .
Otteniamo quindi uno schema di analisi ANOVA a 2 vie senza interazione

       ˆ ij  ˆ i ,.  ˆ ., j  ˆ 
2 3 2 3 2 3
 3  ˆ i ,.  ˆ   2 ˆ ., j  ˆ
2 2 2
T    ˆ ij  ˆ
2

i 1 j 1 i 1 j 1 i 1 j 1

 W1  W2  V

dove

1 3 1 3
ˆ 1,.   ˆ 1 j  4.4667 ,
3 j 1
ˆ 2 ,.   ˆ 2 j  5.5111
3 j 1

1 2 1 2 1 2
ˆ .,1   i1  4.7833,
2 i 1
ˆ .,2   i2
2 i 1
  5. 6833, 
ˆ .,3   ˆ i3  4.5
2 i 1

Quindi si ottiene

T  3.2427, V  0.0804, W1  1.6363, W2 1.5270


59

Notiamo subito che la variabilità totale è diminuita rispetto ai casi precedenti in quanto questa è
dovuta solo alle "medie delle misure in ciascun gruppo" ij e non dalle misure xij( ) , come nei casi
precedenti. Nelle stesse ipotesi statistiche dei casi precedenti abbiamo che le variabili

W1 W /2
F1   40.7189, F2  2 19
V /2 V /2
hanno distribuzione di Fisher F1,2 con percentile del 5% pari 18.51, e F2,2 con percentile del
5% pari 19. Per cui, mentre per il primo l'attributo "metodo di deposizione" otteniamo dei risultati
in accordo con quelli delle analisi precedenti, in quanto l'ipotesi nulla deve essere rifiutata, per il
secondo attributo "tipo di primer" la situazione è un pò critica: si ottiene un valore di F2 proprio pari
al percentile F2,2,0.05  19 (in effetti sarebbe F2  19.000000000000142 ). A questo punto siamo
proprio sulla frontiera del set critico, potremmo senz'altro decidere comunque di rifiutare l'ipotesi
nulla; sarebbe comunque più ragionevole ad esempio richiedere l'acquisizione di dati ulteriori. Ma,
indipendentemente dalla decisione che prenderemo, notiamo come l'aver mediato le misure
riducendo la variabilità totale dei dati abbia portato ad una situazione di indecisione. Avremmo
anche potuto avere un risultato per cui, nel caso del secondo attributo, avremmo dovuto accettare
l'ipotesi nulla, ottenendo un'indicazione in netto contrasto con quella delle analisi precedenti.
Questo semplice caso di studio su dati reali ha mostrato che è meglio usare un modello per i
dati in cui i due (o più) attributi vengono considerati contemporaneamente, conviene quindi sempre
rappresentare al meglio tutte le cause di variabilità dei dati.
60

Concludiamo la sezione dell'ANOVA riassumendo e discutendo le ipotesi che devono essere


soddisfatte dall'insieme dei dati affinché l'F-test dia risultati attendibili

1. ciascun gruppo dell'insieme deve essere un campione di dati casuale, e i dati relativi a
gruppi differenti devono essere indipendenti
2. i gruppi devono avere grosso modo lo stesso numero di dati
3. la scala di variazione dei dati deve essere comparabile tra i diversi gruppi
4. la distribuzione dei dati deve essere gaussiana
5. la varianza deve essere costante

Diciamo subito che l'F-test è robusto rispetto a violazioni delle condizione 4) e 5) se ogni gruppo
ha un numero di dati sufficientemente grande e più o meno uguale tra loro. In caso di numero di dati
basso, le differenze tra le varianze può risultare determinante.

K-W ANOVA. L'algoritmo di Kruskal-Wallis è un test ANOVA non parametrico che si può
applicare tutte le volte che la distribuzione dei dati differisca significativamente dalla gaussiana, pur
rimanendo la stessa per tutta la popolazione, per cui deve sempre valere l'omoschedasticità. Per
meglio illustrare l'algoritmo consideriamo un esempio.

Un'azienda vinicola chiede a degli intenditori di testare tre dei loro vini, indichiamoli per semplicità
A, B e C, con un punteggio da uno a dieci. Ecco quanto ottenuto dopo i vari assaggi (tabella di
sinistra)

Per prima cosa si devono ordinare i dati in ordine


crescente. Nella tabella quindi ad ogni dato viene
sostituito il suo numero d'ordine nella lista (rank). Se due
o più dati dovessero avere lo stesso valore e quindi
occupare lo stesso rank, questo viene ripartito in parti
uguali in modo da non privilegiare nessun gruppo
(adjusted ranks). Nel caso in esame si ottiene la tabella di
destra.
Ora l'ipotesi nulla consiste nel testare che i valori medi
dei ranghi dei tre gruppi siano uguali, contro l'ipotesi
alternativa che almeno due di essi differiscano. Siano al solito n1, n2 , n3 il numero di dati per
ciascun gruppo, e si indichino con r1 , r 2 , r 3 i valori medi dei ranghi nei tre gruppi, mentre sia
r la media dei ranghi per tutto l'insieme di dati. La statistica del test è data dalla seguente variabile

3
 ni  ˆ ri  ˆ r 
2

i 1
H
1
N  N  1
12
dove al solito N è il numero totali di dati. Questa risulta essere distribuita approssimativamente
come una 321   22 (chi-quadro a 2 gradi di libertà ). Il percentile del 5% di tale distribuzione è
pari a 5.991. Per cui il set critico del test di livello 5% è data da
61

H  5.991

Nel caso in esame si ottiene H  9.5591 , per cui si deve rifiutare l'ipotesi nulla e ritenere che i
gruppi abbiano ranghi con medie significativamente differenti; si noti in particolare come i ranghi
corrispondenti al vino A siano più elevati rispetto agli altri due vini, per cui possiamo senz'altro
concludere che il vino A abbia riscosso maggior successo tra gli intenditori.

Il test K-W da buoni risultati se le la distribuzione dei dati ha la stessa forma per tutti i gruppi e le
varianze sono sostanzialmente uguali, già con 5 dati per ogni gruppo. Generalmente si assegna
come regola che la varianza più grande sia non più del doppio della varianza più piccola.

Se tuttavia i dati avessero la stessa distribuzione ma soffrissero di una forte eteroschedasticità, il test
K-W non è affidabile. In caso che la distribuzione sia gaussiana si può ricorrere al seguente test.

Welch ANOVA. Con il solito significato dei simboli, facciamo riferimento ad un insieme di dati con
k gruppi; la distribuzione sia gaussiana ma le varianze dei gruppi differiscano significativamente.
In queste condizioni il valor medio di popolazione si calcoli con la seguente media pesata

k
 wi ˆi ni k
ˆ   i 1
, wi  , w   wi
w sn2i i 1

dove al solito le sn2i sono le varianze campionarie di ciascun gruppo. La statistica del test è data
dalla seguente variabile

k
 wi ( ˆi  ˆ )2
i 1

W k 1
2
2(k  2)  1   wi 
k
1 2   1 
w 
k  1 i 1  ni  1  

che risulta essere distribuita come una chi-quadro con un numero di gradi di libertà dato da

k 2 1
 1   wi 2
k
3   1  
i 1  ni  1   w
Come al solito si prende il valore intero più vicino.
62

Piano degli esperimenti

Come abbiamo visto, l’analisi della varianza permette di testare ipotesi composte nella stima
del valor medio di una popolazione. Nel caso quindi che l’ipotesi H 0 debba essere rifiutata significa
sostanzialmente che l’insieme di dati non è omogeneo statisticamente; quindi se nella stima del
valor medio di insieme il campione di n dati non venga opportunamente stratificato tra le varie
classi dell’insieme, ne risulterebbe una stima affetta da grande variabilità, e quindi poco affidabile.
Questo può essere facilmente compreso se consideriamo il caso in cui gran parte dei dati del
campione cadano in una sola delle classi; questo darebbe luogo ad una stima del valor medio
d’insieme fortemente polarizzata dalle caratteristiche statistiche della classe suddetta.
Nasce quindi l’esigenza di pianificare l’esperimento in modo da raccogliere i dati
distribuendo opportunamente la numerosità del campione tra le varie classi o strati; questa tecnica
prende il nome di stratificazione (o clusterizzazione). La situazione generale è quindi quella di un
insieme di N elementi suddivisi in k strati ognuno con Ni unità. Sia i il valor medio di un certo
attributo degli elementi considerati nella classe i-esima, e sia wi  Ni / N il peso della classe i-esi-
ma nell’insieme, che supponiamo noto perché, ad esempio, ottenuto da una precedente indagine
sperimentale condotta ad hoc. Come è facile verificare per il valore medio di insieme  si ha

k
   wi i
i 1

Ora consideriamo ni elementi per ogni strato e stimiamo i con la media campionaria ˆ ni . Come
sappiamo questa è una stima centrata E  ˆ ni   i e, nel caso realistico di estrazione in blocco
senza reinserzione, con varianza

Ni  ni  i2
 2ˆ 
ni Ni  1 ni

mentre nel caso sia possibile l’estrazione di un campione indipendente si otterrebbe

 i2
 2ˆ 
n
i ni
dove  i2 è la varianza intraclasse dell’attributo considerato, ed è inferiore alla varianza  2 di
popolazione se, ovviamente, la stratificazione è stata eseguita opportunamente! La stima ˆ n della
media di popolazione  è quindi data da

k
ˆ n   wi ˆ ni
i 1

che è centrata come è facile verificare; inoltre ritenendo che il campione preso da uno strato sia
indipendente da quelli presi dagli altri, la varianza di ˆ n è data da
63

 k
2 i
2
  i nw camp. indp.
 i 1 i
k

 2ˆ   wi2 2ˆ 
n
i 1
ni
k
 w2 Ni  ni  i
2

  i
Ni  1 ni
camp. non indp.
i 1

dove  i2 può essere a sua volta stimata nei modi indicati.

Come si vede la varianza della stima dipende dagli ni , per cui una corretta scelta di essi può
rendere la stima ˆ n più accurata possibile una volta fissato, per motivi di costi o altri motivi di
ordine pratico, la numerosità totale n del campione. Esaminiamo due possibili strategie!

1) Attribuzione proporzionale

In questo caso si sceglie ni  wi n (ovviamente approssimato ad un intero); per la varianza


della stima otteniamo

 1 k
 
n i 1
wi i2 camp. indp.


 ˆ  
2
n
 k
 1  w Ni  ni  2 camp. non indp.
 n i 1 i Ni  1 i

ed è facile dimostrare che risulta essere minore rispetto a quella ottenibile estraendo un campione
casuale di dimensione n dall’intera popolazione.

2) Attribuzione ottimale

In questo caso si cercano i valori ottimi ni* che rendano minima la varianza  2ˆ della stima,
n
con il vincolo  ni  n . Mediante la tecnica dei moltiplicatori di Lagrange si ottiene
64



 Ni i
 n camp. indp.
k
  N j j
 j 1
* 
ni  

 Ni
Ni 
 Ni  1 i
n camp. non indp.
 k Nj
  N j 
N j 1 j
 j 1

In effetti, nella misura in cui N i /  N i  1 1, si può usare la stessa attribuzione ottima

e la varianza della stima all’ottimo vale

  k 
2
 1
  wi i  camp. indp.
 n  i 1 

 ˆ  
2
n
 2
1  k Ni  k w2 2
      i i
w i i  camp. non indp.
 n  i 1 Ni  1  i 1 Ni  1

Esempio

Si vuole stimare il consumo medio giornaliero di pane in un’azienda di N  10.000 dipendenti. Se


si ricorresse ad un campione casuale di n  1000 dipendenti, supponendo una varianza di
popolazione  2  9 , la stima campionaria ˆ n della media  avrebbe varianza

2 9
 2ˆ    0.009
n n 1000

Tendendo conto delle varie tipologie di dipendenti, si può pensare alla seguente stratificazione

i strato Ni wi i
1 manovali 6.500 0.650 1
2 operai specializzati 2.500 0.250 1.5
3 impiegati 920 0.092 2
4 dirigenti 80 0.008 2.5
totale 10.000 1.00
65

Nell’ipotesi che il campionamento interclasse sia indipendente, nel caso di attribuzione


proporzionale si ottiene

(0.65)12  (0.25)1.52  (0.092)22  (0.008)2.52 1.6305


 2ˆ  
n n n

Volendo mantenere la stessa accuratezza della stima ottenuta con il campione casuale si pone

1.6305
 0.009
n
da cui si ricava n  190 anziché 1000 come prima, ottenendo quindi un forte risparmio in termini di
numero di rilevamenti da effettuare. L’attribuzione proporzionale sarebbe la seguente

i ni
1 124
2 47
3 17
4 2
totale 190

Fissando definitivamente n  190 e scegliendo l’attribuzione ottima

i n*i
1 98
2 57
3 29
4 6
totale 190

otterremmo la seguente varianza della stima

1
 2ˆ  (0.65)1  (0.25)1.5  (0.092)2  (0.008)2.52  0.00794
n 190

che è sensibilmente inferiore a quella ottenuta con l’attribuzione proporzionale.


Svolgiamo ora la nostra indagine circa il consumo medio giornaliero di pane sulla base di un
campione di 190 unità come indicato dalla nostra analisi preliminare. I dati sono N  10.000 , i
valori di Ni e wi della tabella precedente, ed i valori ottimi ni* appena determinati. Prelevando
quindi il campione secondo la modalità prestabilita e calcolando medie e varianze campionarie si è
ottenuto
66

ˆ ni ni*
i ˆ ni ,1  sni
ni*  1
1 4.3 1.2
2 3.5 1.6
3 2.0 2.1
4 1.5 2.3

Per il consumo medio giornaliero di pane per l’azienda considerata si ottiene

4
ˆ n   wi ˆ ni  0.65  4.3  0.25  3.5  0.092  2  0.008 1.5  3.866
i 1

La stima della varianza, con le stime delle varianze intraclasse, risulta

1
ˆ 2ˆ  0.65 1.2  0.25 1.6  0.092  2.1  0.008  2.32  0.0102
n 190

che da luogo ad una deviazione standard di 0.1010 ed un coefficiente di variazione

ˆ ˆ n 0.1010
  0.026  2.6%
ˆ n 3.866

denotando una stima molto precisa della media!

Potrebbero piacerti anche