Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
2. Statistica induttiva
Abbiamo visto come per mezzo della statistica descrittiva sia possibile ottenere una
descrizione sintetica di dati sperimentali riguardanti un determinato processo; questa è finalizzata
alla rappresentazione dell’informazione utile agli scopi fissati per la definizione di opportune
strategie di intervento. Tuttavia, riprendendo l’esempio trattato, abbiamo visto come i parametri
descrittivi venivano dedotti dalla distribuzione campionaria o empirica, ovvero il loro valore era
legato strettamente ai valori dei dati ottenuti nel particolare esperimento eseguito; ripetendo
l’esperimento, cioè prelevando un altro campione di N 100 supporti di ferro, determinando sul
nuovo campione di dati la distribuzione campionaria i , non necessariamente rispetto agli stessi
sottoinsiemi Ei , ricalcolando i parametri statistici , 2 , d , c , otterremmo dei valori diversi da
quelli relativi al primo insieme di dati! Questa variabilità dipende in primo luogo dalla numerosità
del campione analizzato e poi dalla sua significatività, ovvero da quanto debba ritenersi
rappresentativo di tutta la produzione. E’ facile comprendere come un campione molto numeroso
consenta di definire un istogramma più preciso della distribuzione effettiva e quindi un calcolo più
attendibile delle varie medie; tuttavia se la nostra fabbrica di supporti in ferro si servisse da due
diversi fornitori di materie prime, ed il nostro campione di dati, ancorché numeroso, avesse
riguardato le unità prodotte con materie prime prese solo da uno dei due fornitori, avremmo
ottenuto una parziale descrizione delle caratteristiche del processo di produzione, non considerando
le caratteristiche dei prodotti ottenuti con lo stesso processo ma con materie prime di altra
provenienza.
La statistica induttiva si propone di fornire procedure sistematiche per la verifica della
significatività di un campione di dati in termini sia di scelta della numerosità che di
rappresentatività dell’intera popolazione! Possiamo grosso modo distinguere i seguenti argomenti
Stima puntuale: consiste nel determinare dai dati il valore di un parametro e nel valutare
l’attendibilità della stima
Stima di intervallo: si vuole determinare un intervallo di valori entro il quale possa cadere
con buona probabilità il valore di un parametro incognito
Criteri di verifica delle ipotesi: scelta sistematica tra possibili valori di un parametro quello
più verosimile sulla base dell’evidenza sperimentale
Analisi della varianza: per verificare ipotesi complesse
Programmazione degli esperimenti: tecniche di campionamento e di scelta della
numerosità del campione.
Consideriamo un insieme di N unità e sia X una v.a. che rappresenta i valori di una
determinata qualità degli elementi dell’insieme (il carico di rottura dei supporti in ferro, il
coefficiente del transistor, il rendimento annuo di un prodotto finanziario, la percentuale di
sostanze inquinanti in un campione di acqua, ecc.), che quindi assume i valori xi , i 1, , N , su
. Come è noto il valor medio e la varianza di X sono definiti nel seguente modo
28
1 N 1 N
2 xi
2
xi ,
N i 1 N i 1
ma, non potendo analizzare tutto l’insieme , risultano di valore incognito.
Estraiamo ora dall’insieme un campione casuale di n N elementi e valutiamo la media
campionaria su questo sottoinsieme di dati
1 n
ˆ n xj
n j 1
Ci chiediamo, quanto il valore ̂ n sia vicino o meno al valore medio di popolazione ; in altre
parole possiamo dire che ̂ n è una buona stima di ? Quali caratteristiche di ̂ n dovremmo
osservare per validare o meno questa affermazione?
Come al solito dovremo considerare le cose da un punto di vista statistico. Infatti la
grandezza ̂ n è di natura aleatoria in quanto scegliendo a caso da un qualunque altro campione
di dimensione n , otterremmo un valore ̂ n differente dal precedente, e così via per ogni scelta del
campione. La stima sarà buona se la distribuzione dei valori di ̂ n si localizza sul valore vero e
se i valori sono tutti addensati intorno a . In altre parole stiamo richiedendo che
cioè che la media E ˆ n della stima di valor medio coincida con il valore vero , e che la
varianza della stima sia piccola. Calcoliamo quindi queste grandezze
1 n 1 n 1
E ˆ n E x j E x j n
n j 1 n j 1 n
dove nel penultimo passaggio si è considerato che il generico valore x j deriva da una popolazione
con valore medio . Il primo requisito è rispettato; in questi casi si dice che la stima non è distorta,
vale a dire che mediamente non si commettono errori nel determinare il valore della grandezza
incognita . Se questo non fosse stato il caso, i.e. E ˆ n , avrebbe significato che il nostro
metodo di stima sarebbe stato affetto da un errore sistematico (uno strumento starato).
Il calcolo della varianza è un po’ più elaborato perché dipende da come è estratto il
campione; se gli elementi del campione sono scelti in maniera indipendente uno dall’altro si ha
1 n
2
E ˆ n E x j
2 2
ˆ n n j 1
29
1 n
2
1 n
2
1 n n
2
ˆ n E x j E 2 ( x j ) E 2 xi x j
n j 1 n j 1 n i 1 j 1
2
2 E x j E xi x j 2 n 2
1 n 2
n n 1
n j 1 i 1 j 1 n n
j i
1 n
2
1 n
2
1 n n
2
ˆ n E x j E 2 ( x j ) E 2 xi x j
n j 1 n j 1 n i 1 j 1
2
2 n
2 E x j E xi x j
1 n 2
n n
2
n j 1 i 1 j 1 n n 2
j i
2 2 N 2 N 1 2
0
N N 2 2 N N N 1
da cui
2n 1 2 n 1 2
2
1
n N 1 N 1 n
ˆ n
n
In entrambi i casi si vede come aumentando n si ottenga una diminuzione di 2ˆn e quindi un
aumento della precisione della stima!
Tuttavia, se dal problema ci fosse richiesto di determinare il minimo valore di n per
assicurare che la precisione della stima non scenda sotto un minimo assegnato, per cui la varianza
30
della stima 2ˆn non deve superare un limite assegnato, ci troveremmo nella necessità di dover
stimare anche la varianza 2 della popolazione. Analogamente a quanto è stato fatto per il valor
medio, potremmo pensare di stimare la varianza campionaria con la seguente espressione
x j ˆ n
1 n 2
sn2
n j 1
ma in questo caso si può vedere subito che tale stima sarebbe distorta, cioè presenterebbe un errore
sistematico; infatti, nel caso in cui gli elementi del campione siano scelti in modo indipendente, si
ottiene
1 n 2 1 n 2 1 n 2
E[ sn2 ] E x j ˆ n E x j ˆ n E ( x j ) ( ˆ n )
n j 1 n j 1 n j 1
1 n
E x j ˆ n 2 x j ˆ n
2 n 2 n
n j 1 j 1 j 1
1 2 1 2 n 1 2
n 2 n 2ˆ n n 2 n 2 n 2 2 2
n n n n n
mentre nel caso che gli elementi non siano scelti in modo indipendente, omettendo i calcoli, si
ottiene
n 1 N
E[ sn2 ] 2 2
n N 1
Ma la situazione non è così drammatica, infatti basta modificare l’espressione della stima in
modo opportuno per togliere l’errore sistematico. Nel caso di campione indipendente si scelga come
stima campionaria della varianza la seguente espressione
x j ˆ n ,
n 2 1 n 2
ˆ n2,1 sn E ˆ n2,1 2
n 1 n 1 j 1
n N 1 2 N 1 1 n 2
ˆ n2,2
n 1 N
sn
N n 1 j 1
x j
ˆ n ,
E ˆ n2,2 2
31
In entrambi i casi siamo in grado di ottenere quindi una stima centrata della varianza.
Analizziamo ora la varianza della stima. Per il caso di campione indipendente si ha (omettiamo la
dimostrazione)
4 E X n 3
4
E ˆ n ,1 E[ˆ n ,1 ]
2
2 2 2
ˆ n2,1 n 4 n 1
Ora sappiamo che un valore di riferimento per il rapporto E[( X ) 4 ] / 4 è 3 ( tale valore occorre
se la distribuzione della v.a. X è gaussiana); per tale valore si ha
2 4
2
ˆ n2,1
n 1
per cui il coefficiente di variazione della nostra distribuzione campionaria vale
E ˆ n2,1 E[ˆ n2,1 ] 2
2
2
n 1 2
E[ˆ n2,1 ] 2 n 1
Per una distribuzione che si vuole piuttosto addensata intorno al valor medio si può
richiedere che il coefficiente di variazione non superi il 20%; per cui
2
0.2 n 51
n 1
Se poi la Curtosi è compresa tra 0 e 2, come nei casi di asimmetria, si ricava n 100 . Se
invece la Curtosi è compresa tra 2 e 20, come nei casi di distribuzione con probabilità non
trascurabile di presentare valori eccezionali (code grasse), si ottiene n 500 .
Se la Curtosi è inferiore a 0 occorre sempre che n 50 .
Le stesse conclusioni si ottengono nel caso di non indipendenza del campione.
Riassumendo possiamo dire che, nel caso di campione indipendente, la stima centrata
ˆ 2ˆn della varianza 2ˆn di ˆ n è data da
2
2
ˆ n
n
ˆ n2,1
1 n s2
ˆ 2ˆ n sn2 n
n n n 1 n 1
mentre nel caso di campione con elementi non indipendenti si ha
32
2 N n
2
ˆ n
n N 1
ˆ n2,2 N n
1 n N 1 N n sn2 n
ˆ 2ˆ n sn2 1
n N 1 n n 1 N N 1 n 1 N
sn2
ˆ 2ˆn 0.00183
n 1
mentre nel caso che gli elementi del campione non siano scelti tutti indipendentemente uno
dall’altro si ha
sn2 n
ˆ 2ˆn 1 0.00174
n 1 N
Nell’ipotesi che la distribuzione dei valori del diametro delle barrette possa ritenersi
gaussiana nel lotto, dato che n 50 , la stima di ˆ n è da ritenersi accurata, nel senso che il
coefficiente di variazione della stima della sua varianza ˆ ˆ n è non superiore al 20%.
2
0.09 0.09
0.0004 n 1 226
n 1 0.0004
nel caso di campionamento indipendente e
nell’altro caso.
Il prelievo del campione fatto in modo che tutti gli elementi siano scelti in modo
indipendente uno dall’altro significa in sostanza che il fatto di selezionare un elemento dalla
popolazione per metterlo nel campione, non deve alterare la composizione statistica della
popolazione. Questo può essere ottenuto sostanzialmente in due modi: se la dimensione della
popolazione non è molto grande rispetto a quella del campione da prelevare si effettua un
campionamento con reinserzione; nel caso contrario se N n si può ritenere che il prelievo del
campione alteri la composizione statistica della popolazione in modo trascurabile. Naturalmente la
reinserzione può essere praticata se l’analisi del campione non modifica in alcun modo i suoi
elementi: nell’esempio della misura del diametro delle barrette questo si verifica, ma nell’esempio
della misura del carico di rottura, l’elemento analizzato verrebbe distrutto e quindi diventerebbe non
reinseribile! In questo caso il campionamento sarebbe necessariamente senza reinserzione, e la
indipendenza del campione dipenderebbe solo, come detto, dal confronto tra la numerosità della
popolazione e quella del campione stesso!
Riassumiamo con una tabella sinottica i risultati della stima puntuale di valore medio e
varianza di una popolazione ottenuta da un campione dei suoi elementi
Valori di
Stime campionarie
popolazione
Campione indipendente Campione non indipendente
1 n 1 n
Valor medio ˆ n xj ˆ n xj
n j 1 n j 1
n N 1 2 N 1 1 n 2
n 2 1 n
x j ˆ n ˆ n ,2
2
Varianza 2 ˆ n2,1 sn 2
sn x
ˆ
n 1 n 1 j 1 n 1 N N n 1 j 1
j n
Varianza ˆ 2
ˆ 2
1 n s2 ˆ N n
2
s
2
n
n
ˆ 2ˆ n ,1 sn2 n ˆ 2ˆ n,2 n 1
della stima ˆ n n
n n n 1 n 1 n
n N 1 n 1 N
4 E X
4
n 3
sn x j mn ;
1 n 2
2
ˆ 2
2
(varianza di ˆ n ,1 , valore di popolazione)
2
n j 1 n ,1 n 4
n 1
34
Quindi abbiamo visto come la media aritmetica ˆ n costituisca una buona stima del valore
medio di una v.a. X con varianza 2 , di cui si sono considerati n determinazioni xi in1
indipendenti; si è supposto quindi che il campione di dati sperimentali sia stato prelevato da una
popolazione molto grande, ovvero sia stato prelevato con reinserzione da una popolazione finita. In
tale caso si ha
E[ ˆ n ] , E[( ˆ n ) 2 ] ˆ n2,1 / n .
Come si vede, la stima di valor medio è una stima accurata in quanto ha distorsione nulla, e la sua
precisione aumenta all'aumentare della dimensione n del campione casuale analizzato, in quanto la
varianza della stima è inversamente proporzionale a n .
In definitiva, il parametro incognito viene valutato mediante una sua stima puntuale ˆ n che ha
una variabilità misurata da ˆ n2,1 / n . Questo significa che se si analizzassero più campioni di
dimensione n , si otterrebbero tanti valori differenti della stima puntuale ˆ n , ma che si localizzano
intorno al valore incognito , potendo peraltro presentare errori ˆ n positivi e negativi che
hanno mediamente un range dell'ordine di ˆ n,1 / n .
Da quanto detto la stima puntuale del valor medio per essere apprezzabile deve essere
accompagnata anche dal valore della sua dispersione, cioè dalla misura della sua variabilità.
Ci si chiede quindi se non sia possibile rappresentare la stima con un unico elemento che faccia
comparire in modo esplicito la variabilità della stima. In altre parole appare di più facile
interpretazione poter fornire un intervallo I ,n di possibili valori tale che si possa ritenere con una
certa confidenza che il valore incognito appartenga a tale intervallo
P I , n 1 %
In questo caso non si fornirebbe un unico valore ˆ n per , attendibile a meno di un errore medio
pari a ˆ n,1 / n , ma un intervallo I ,n di valori attendibili per con una confidenza dell' 1 % .
Vediamo come fare.
Consideriamo la v.a. standardizzata
ˆ n
n
ˆ n ,1 / n
che ha quindi valor medio nullo e varianza pari a 1. Se si conoscesse la distribuzione di tale
variabile aleatoria, potremmo risolvere il seguente problema: assegnato il valore % trovare il
valore per cui risulti
P n 1 %
35
Ora, dal teorema del limite centrale sappiamo che per n la variabile standardizzata n tende
in distribuzione ad una gaussiana standard N (0,1) . Questo implica che, se n è abbastanza grande ,
la probabilità dell'evento n possa essere calcolata usando la distribuzione limite
e t /2
2
P n dt
2
P P %
che fa riferimento all'evento complementare, ed è esattamente l'evento che viene considerato sulle
tabelle dei percentili.
A questo punto sappiamo che con una confidenza del 1 % il valore n ottenuto dai dati
sperimentali sarà compreso nel seguente intervallo
n
cioè
ˆ n
ˆ n,1 / n
ˆ n,1 ˆ n,1
ˆ n ˆ n
n n
n 2
e quindi, ricordando che ˆ n2,1 sn , si ha
n 1
sn sn
ˆ n ˆ n
n 1 n 1
sn sn sn
I ,n ˆ n ˆ n 2
n 1 n 1 n 1
per cui, all'aumentare della dimensione del campione analizzato, a parità di confidenza,
36
l'intervallo I ,n diventa più stretto, dando luogo ad una valutazione più precisa dei valori attendibili
del parametro incognito .
Ovviamente nel caso che il campione fosse stato non casuale, con ragionamenti del tutto
analoghi, avremmo ottenuto I ,n pari a
sn n sn n
ˆ n 1 ˆ n 1
n 1 N n 1 N
di lunghezza pari a
sn n
I ,n 2 1
n 1 N
Nel caso in cui i dati a disposizione non soddisfacessero nessuna delle condizioni
precedenti, ad esempio n 30 sempre per un campione casuale, allora si può avere la distribuzione
della v.a. standardizzata n solo nel caso in cui si possa validare un'ipotesi di gaussianità dei dati.
In tal caso infatti la variabile standardizzata
ˆ nn
n
sn / n 1
ha distribuzione t-student con n 1 gradi di libertà, per cui il valore per cui, fissato % , si ha
P n 1 % oppure P %
è dato dal percentile t della distribuzione t-student con n 1 gradi di libertà (ottenibile
dall'opportuna tabella dei percentili) , ottenendo per l’intervallo di confidenza
sn sn
ˆ n t ˆ n t
n 1 n 1
sn 2,16 Kg / cm2 . Dalla tabella della N(0,1) si ricava che con 0.05 sia ha 1.96 , per cui
il carico di rottura medio si trova nell’intervallo
2.16 2.16
1115 1.96 , 1115 1.96 1114.57, 1115.42 kg / cm
2
100 1 100 1
con una confidenza di 0.95. Se aumentassimo il campione analizzato a 300 unità si otterrebbe un
intervallo di confidenza dello 0.95 pari a
2.16 2.16
1115 1.96 , 1115 1.96 1114.8, 1115.2 kg / cm
2
300 1 300 1
quindi più ristretto rispetto al precedente, costituendo quindi un intervallo di valori più preciso per il
carico di rottura medio .
La stessa officina vuole determinare il valore medio dello spessore di un lotto di lamine; tale
grandezza risulta avere distribuzione gaussiana con media e varianza 2 incognite. Si preleva
un campione di 14 barrette e si determina n 52.52 mm e sn 3.37 mm . Siccome n 30 ,
stavolta dobbiamo usare la distribuzione t-student per determinare l’intervallo di confidenza per lo
spessore medio . Dalla tabella per 0.05 si ottiene t 2.160 per 13 gradi di libertà, per cui si
ha
3.37 3.37
52.52 2.16 , 52.52 2.16 50.5011,54.5389
14 1 14 1
Controllo di qualità.
L’intervallo di confidenza viene utilizzato nel controllo statistico della qualità di un processo
di produzione. In condizioni nominali le unità prodotte presentino, per quanto concerne un certo
attributo, una distribuzione gaussiana con un valor medio ed una varianza 2 , noti perché
determinati in modo preliminare (cioè determinati con un esperimento dedicato, con un campione di
dati differente da quelli attualmente in esame) usando i metodi descritti precedetemente. Per
controllare che il processo mantenga la qualità nel tempo, vengono prelevati ad intervalli regolari
dei campioni di dimensione n e su questi si calcola la media campionaria ˆ n ; dato che la
distribuzione si suppone gaussiana, n può essere scelto anche piccolo, ad esempio 5 o 10, e la
variabile normalizzata
ˆ n
n
/ n
P ˆ n 0.95
n
ˆ n
n n
ˆ n
n n
occorre con probabilità del 95%. La qualità del processo di produzione è quindi da ritenersi idonea
se ˆ n si mantiene nell’intervallo / n , / n
ˆ n
/ n
/ n
tempo
39
Qualora ˆ n dovesse uscire dai limiti prefissati si dovrebbe intervenire subito per individuare le
cause che hanno determinato questo scostamento significativo della qualità della produzione dallo
standard (utensile logorato, inquinamento dei reagenti, ecc.).
Test di confronto.
In molti casi pratici si deve poter confrontare la stima di campionaria di una statistica ( media,
varianza, frequenza relativa) con valori considerati come noti, evidentemente acquisiti da indagini
precedenti. Esaminiamo ad esempio il seguente caso.
Una compagnia di televisione via cavo asserisce che il 60% degli abitanti della zona di
esercizio possiede la televisione via cavo, mentre una compagnia di televisione satellitare crede che
il precedente valore sia troppo grande, dopo aver effettuato un rilevamento per cui 81 abitazioni
avevano la televisione via cavo e 69 ne erano sprovviste. La compagnia di televisione via cavo
afferma che tale differenza è solo dovuta al caso. A quale delle due compagnie dareste ragione, con
una confidenza del 95%?
La compagnia di televisione via cavo sostiene che in media la proporzione p delle persone
nella popolazione di riferimento che hanno la tv via cavo è pari a 0.6, potendo la proporzione
effettiva variare entro certi limiti. Il valore di questa proporzione, risultante dall'esame del campione
di abitazioni effettuato dalla compagnia di tv satellitare, è di 81/(81+69)=0.54. C'è quindi uno
scostamento significativo del valore stimato della proporzione pˆ 0.54 dal valore di riferimento
ipotizzato p 0.6 . La compagnia di tv via cavo sostiene che tale scostamento rientra nella
variabilità naturale insita nella stima campionaria di p ; per cui l'ipotesi nulla è che il valore di
riferimento della proporzione di abitazioni con tv via cavo sia del 60%
H 0 : p 0.6
H1 : p 0.6
Per validare o meno questa ipotesi, basta appunto misurare la variabilità della stima della
proporzione 2p e costruire un set critico con significatività del 5%
p p 2 p
con il percentile del 10% in modo che la singola coda misuri 5%. La regola di rifiuto dell'ipotesi
nulla è unilaterale perché pˆ p e la compagnia di tv satellitare ritiene che appunto che p 0.6
sia troppo grande.
La misura delle proporzioni segue la distribuzione binomiale: in una popolazione in cui un
dato evento occorre con probabilità p0 , la probabilità con cui si avranno k risultati favorevoli
all'evento su un campione di N unità (caso delle prove ripetute di Bernoulli) è pari a
N N!
P ( X k ) p0k (1 p0 ) N k p0k (1 p0 ) N k
k ( N k )!k !
La variabile aleatoria X data dal "n° di successi su N prove indipendenti" viene detta binomiale
ed ha valor medio e varianza pari a
40
X N p0 , X2 N p0 (1 p0 )
Tale distribuzione è simmetrica per qualunque N se p0 0.5 , mentre tende ad essere simmetrica
per qualunque p0 quanto più N è grande. Dalla distribuzione di X si ottiene subito la distribuzione
della proporzione p X del numero di successi su N prove ripetute: essa è ancora una
N
binomiale, ma con media e varianza pari a
2 p (1 p0 )
p X p0 , 2p X2 0
N N N
p p p p0
: N 0,1
p p0 (1 p0 )
N
cioè, la variabile aleatoria standardizzata ha distribuzione limite pari alla gaussiana standard. Questo
risultato al solito è fondamentale per dedurre i percentili per gli intervalli di confidenza che
riguardano la variabile aleatoria p . Nel caso in esame infatti abbiamo
p0 (1 p0 )
p p0 0.6, p 0.04, Np0 (1 p0 ) 36 10
N
per cui, dato che pˆ 0.54 , dobbiamo concludere che la compagnia di tv via cavo aveva ragione,
con un rischio del 5% di prendere la decisione sbagliata.
Nel prossimo caso le proporzioni da confrontare sono estratte da due campioni differenti.
La malattia di Lyme o Borreliosi è una infezione batterica che colpisce le articolazioni, il sistema
nervoso, gli organi interni e la pelle dei gatti. Il contagio avviene per via delle zecche. Vogliamo
valutare l'efficacia di un nuovo antibiotico X nella terapia contro la Borrelliosi, confrontandola
con quella dell' amoxicillina. A questo scopo, analizziamo i test clinici su una popolazione di gatti
affetti da Borrelliosi in cura presso alcuni ambulatori veterinari in un trimestre. I dati raccolti sono
riportati in tabella
In particolare, si noti che su un totale di 145 gatti, 70 sono stati sottoposti a trattamento con il nuovo
antibiotico X e di questi l'80% sono guariti ( 56 su 70). Per i restanti 75 gatti, trattati con
amoxicillina, si è avuta una percentuale di guarigione pari al 69.33% (52 su 75). Sembrerebbe che il
nuovo farmaco sia più efficace. Tuttavia, bisogna assicurarsi che la differenza tra le percentuali dei
guariti nei due gruppi sia significativa e non dovuta al caso.
Nel gruppo di gatti trattati con X si ha quindi una proporzione pˆ1 0.8 di soggetti guariti su un
campione di n1 70 unità, prelevato da una popolazione in cui la proporzione dei guariti è un
p (1 p1 )
valore p1 . Per quanto visto precedentemente sia ha che E[ pˆ1 ] p1 e 2pˆ1 1 .
n1
Analogamente per il gruppo di n2 75 unità trattato con amoxicillina si osserva una proporzione di
p (1 p2 )
soggetti guariti pˆ 2 0.7 , con E[ pˆ 2 ] p2 e 2pˆ 2 2 . Ora come statistica del test possiamo
n2
scegliere la differenza delle proporzioni p pˆ1 pˆ 2 , che avrà valor medio pari a E p p1 p2 ,
e varianza ˆ 2 p 2p1 2p2 dato che i due gruppi di dati sono indipendenti. Dobbiamo quindi testare
le seguenti ipotesi
H 0 : E p p1 p2 0
H1 : E p 0
L'ipotesi nulla H 0 si riferisce al caso in cui i due trattamenti sono equivalenti e la differenza tra le
proporzioni osservate è del tutto casuale. La statistica del test, se è vera H 0 è
p E p p p
2pˆ1 2pˆ 2 2pˆ1 2pˆ 2 1 1
p0 (1 p0 )
n1 n2
p
1 1
p0 (1 p0 )
n1 n2
con percentile dell' % di N (0,1) . Nel nostro caso, volendo effettuare un test con significatività
del 5%, otterremmo
42
0.80 0.6933
1.3802 1.96
1 1
0.7448(1 0.7448)
70 75
per cui dovremmo accettare l'ipotesi H 0 e ritenere che il nuovo farmaco X abbia avuto un effetto
non significativamente differente da quello ottenuto con l' amoxicillina. In effetti, volendo testare se
sia conveniente usare il nuovo farmaco, avremmo fatto meglio ad eseguire un test unilaterale,
impostando l'ipotesi alternativa sul fatto che ci si aspetta che il nuovo farmaco abbia una
percentuale di guariti superiore rispetto all'amoxicillina, i.e. H1 : E p 0 .
0.0345 -0.0054 0.0244 0.0402 0.0625 0.0400 -0.0196 -0.0281 0.0006 0.0695
Ora se il trattamento non ha avuto effetto, vuol dire che mediamente le differenze dei valori
dell'elasticità cutanea è zero; mentre si avranno effetti significativi se la media delle differenze è
significativamente differente da zero. Per cui, se la nostra ipotesi nulla corrisponde all'assenza di
effetto significativo del farmaco, possiamo scrivere
H 0 : E ˆ d 0
H1 : E ˆ d 0
1
http://www.biotivia.cc/attachments/down/Celle%20-%20CLINICAL%20TEST.pdf
43
in quanto per l'ipotesi alternativa dobbiamo considerare che l'effetto del cosmetico deve produrre un
aumento dell'elasticità cutanea. Possiamo quindi disporre un test unilaterale di ipotesi semplice con
un livello di significatività del 5% ; il set critico avrà quindi la seguente forma
ˆ d
ˆ d E ˆ d 2 ˆ ˆ d E ˆ d 2
n
Facciamo ora l'ipotesi di gaussianità dei dati (da verificare eventualmente con un opportuno test); in
questo modo potremo scegliere il percentile 2 come il percentile del 10% di una t-Student a 9
gradi di libertà ottenendo il seguente set critico
0.0336
ˆ d 0 1.833 0.0195
10
Dato che ˆ d 0.0219 è maggiore di 0.0195, dobbiamo rifiutare l'ipotesi nulla e ritenere, con una
confidenza del 95%, che il cosmetico abbia avuto effetto.
Nel caso esaminato, la variabilità dei dati era legata alla presenza di soggetti differenti in uno stesso
gruppo. In altre situazioni i dati variano anche per il fatto che i dati si riferiscono a gruppi differenti
di soggetti. Il caso che segue chiarisce questo aspetto. Per semplicità di notazioni, le medie
calcolate su due gruppi di n1 e n2 dati, saranno indicate con ̂1 e ̂2 anziché ˆ n1 , ˆ n 2 .
Un’azienda produce disinfettante industriale concentrato, in confezioni per le quali dichiara che è
possibile ottenere mediamente 150 litri di disinfettante con una varianza pari a 36 litri2. La
produzione avviene in due stabilimenti separati. Un primo rivenditore analizza un campione casuale
di 225 confezioni, prelevato dal primo stabilimento, e ottiene una media ̂1 di 148 litri di
disinfettante; un secondo rivenditore analizza un campione casuale di144 confezioni, prelevato
dall'altro stabilimento, e ottiene una quantità media ̂2 di disinfettante pari a 151 litri. La differenza
tra queste rilevazioni è significativa oppure è da ritenersi dovuta alla naturale variabilità del
prodotto?
Come sappiamo, la stima di valor medio è centrata, per cui risulta che E[ ˆ1 ] con varianza
2 36 2 36
2ˆ 1 0.16 e E[ ˆ 2 ] con varianza 2ˆ 2 0.25 . Ora possiamo scegliere
n 225 n 144
come statistica del test la differenza tra i valori medi rilevati sui due campioni indipendenti
ˆ d ˆ 2 ˆ1 , per la quale possiamo testare le ipotesi
H 0 : E ˆ d 0
H1 : E ˆ d 0
44
L'ipotesi nulla corrisponde al caso in cui la differenza osservata sia da attribuire al caso, mentre
l'ipotesi alternativa corrisponde al fatto che i due stabilimenti hanno una differenza sistematica nella
produzione del disinfettante. Se è vera H 0 abbiamo che E[ ˆ d ] 0 mentre, indipendentemente da
H 0 , H1 risulta 2d 2ˆ 1 2ˆ 2 0.16 0.25 0.41 . La scelta dell'ipotesi alternativa determina un
set critico bilaterale
ˆ d E[ ˆ d ] ˆ d
d 2 1 2 2
Se possiamo validare un'ipotesi di gaussianità dei dati, possiamo scegliere =1.96 corrispondente
al percentile del 5% di una gaussiana standard. In questo caso si otterrebbe
ˆ d 151 148 3
4.685 1.96
2 1 2 2 0.41 0.41
Si dovrebbe quindi accettare l'ipotesi alternativa e ritenere che ci siano cause sistematiche nel
processo di produzione dei due stabilimenti che determina una differenza significativa nella qualità
del prodotto fornito.
Il più delle volte la varianza dei dati, differentemente dal caso appena esaminato, è incognita.
Questo accade ad esempio nel problema che segue 2.
2
Tratto da: M. Muraro et al. Large Animal Review 2008; 14: 267-272 267.
45
Siamo in presenza ancora di un caso in cui i dati appartengono a due gruppi differenti di soggetti
per cui essi non possono considerarsi appaiati. Si devono confrontare quindi due medie per capire se
la loro differenza sia significativa o dovuta al caso. La varianza dei dati è incognita, ma le varianze
del peso dei bovini sono state stimate dai dati dei due campioni di 89 e 81 unità. Nell'ipotesi (da
verificare con un test ovviamente!) che la varianza dei dati sia costante, e che la differenza tra ˆ n2 ,1 1
e ˆ n22 ,1 sia del tutto casuale, la varianza di ˆ d ˆ 2 ˆ1 è data dalla seguente espressione
n1sn21 n2 sn22 1 1 1 n1 n1
x1,i ˆ1 , sn22
1
x2,i ˆ 2
2 2
d
2
,
n1 n2 2 n1 n2
sn21
n1 i 1 n2 i 1
che viene detta pooled variance. In questo caso, nell'ipotesi di gaussianità dei dati, la statistica del
test di confronto tra medie
H 0 : E ˆ d 0
H1 : E ˆ d 0
è data da
ˆ d
n1sn21 n2 sn22 1 1
n1 n2 2 n1 n2
e segue una distribuzione t-Student a n1 n2 2 gradi di libertà. Per cui il set critico unilaterale di
significatività % sarà dato da
ˆ d
tn1 n2 2,2
n1sn21 n2 sn22
1 1
n1 n2 2 n1 n2
7.9
1.2174 t168,0.10 1.645
6.4891
per cui si accetta l'ipotesi nulla e si conclude che il trattamento con Tulatromicina non ha avuto un
effetto significativamente differente dal trattamento con Tilmicosina.
Nel caso in cui si debba rifiutare l'ipotesi che la varianza dell'insieme dei dati del primo e del
secondo gruppo sia costante, allora si può usare la seguente statistica
46
ˆ d
t gdl ,
ˆ n21 ,1 ˆ n22,1
n1 n2
che seguirà approssimativamente una distribuzione t-Student, nell'ipotesi di gaussianità dei dati, con
gradi di libertà ottenuti dal termine di correzione di Welch- Satterwhaite
2
ˆ n2 ,1 ˆ n2 ,1
1 2
n1 n2
gdl
2 2
ˆ n21 ,1 ˆ n22 ,1
n1 n2
n1 1 n2 1
ovviamente si prende come numero di gradi di libertà il valore intero della precedente espressione.
I test di confronto tra proporzioni e tra medie appena visti, possono applicarsi anche al caso in cui
si debbano confrontare le varianze.
Si consideri a esempio un insieme di dati per cui si ipotizzi una distribuzione gaussiana con media
e varianza 2 . Si estragga un campione casuale di n unità è si verifichi l'ipotesi
H 0 : n2,1 2
H1 : n2,1 2
n
( xi ˆ n )2 (n 1) n2,1 nsn2
i 1
2 2 2
ha distribuzione n21 con n 1 gradi di libertà. Il set critico per il test posto sarà quindi
(n 1) n2,1
n21,
2
dove n21, è il percentile dell' % . Nel caso in cui l'ipotesi alternativa fosse stata H1 : n2,1 2 ,
allora il set critico con significatività dell' % sarebbe stato
(n 1) n2,1
n21,1
2
47
mentre se l'ipotesi alternativa fosse stata H1 : n2,1 2 , allora avremmo avuto il seguente set critico
di livello %
(n 1) n2,1 (n 1) n2,1
2
n 1,1 /2
2
n 1, /2
2 2
n2
( x j ˆ n2 )2 (n2 1) n22 ,1
j 1
22 22
è distribuita come una n22 1 . Per cui, se l'ipotesi nulla è vera, la variabile
n21 ,1
F1 , 2
n22 ,1
ha una distribuzione Fisher con 1 n1 1, 2 n2 1 gradi di libertà. Per cui il set critico di livello
% per cui si rifiuta l'ipotesi nulla è
F1 , 2 F1 , 2 ,
Se l'ipotesi alternativa fosse stata H1 : 12 22 , avremmo scelto come statistica del test il reciproco
della precedente F ' 2 ,1 1/ F1 , 2 ed il set critico sarebbe stato
F ' 2 ,1 F 2 ,1 ,
Infine, se l'ipotesi alternativa fosse stata H1 : 12 22 avremmo ottenuto il seguente set critico
48
F ' ,
2 1
F 2 ,1 , /2 F , 1 2
F1 , 2 , /2
In molti casi pratici l’insieme di dati in esame è costituito da più di due gruppi per i quali è
necessario sapere se hanno tutti la stessa varianza, ovvero almeno due gruppi hanno varianza l’uno
differente dall’altro. Nel primo caso si dice che l’insieme di dati è omoschedastico, nell’altro caso
che è eteroschedastico. Per decidere se un insieme di dati sia omoschedastico si ricorre al solito a
dei test satistici. Come dati di partenza si consideri un insieme di N dati costituito da k gruppi
costituiti da n1 , n2 , , nk unità rispettivamente con medie 1 , 2 , , k e con varianze
12 , 22 , , k2 .
Test di Bartlett. Nel caso in cui l’insieme di dati segua una distribuzione gaussiana si può usare
questo test che prevede le seguenti ipotesi composte
H 0 : 12 22 k2
H 1 : i2 2j per almeno una coppia (i, j )
k
( N k ) ln ˆ 2p (ni 1) ln ˆ n2i ,1
i 1
T
1 k 1 1
1
3(k 1) i 1 ni 1 N k
dove le ˆ n2i ,1 sono le stime corrette delle varianze dei singoli gruppi, mentre
1 k
ˆ 2p ni 1ˆ n2i ,1
N k i 1
è la sample pooled variance, che abbiamo già incontrato nel caso di due soli gruppi. Le due
espressioni differiscono perché nel caso del confronto tra medie, la pooled variance si riferisce
appunto alla varianza della stima di valor medio. La variabile T segue approssimativamente una
distribuzione k21 , per cui il set critico di livello % è dato da
T k21,
Se questo si verifica, l’ipotesi nulla viene rifiutata e l’insieme di dati si ritiene eteroschedastico.
Test di Levene. Questo test è indicato nel caso in cui l’insieme di dati non segua una distribuzione
gaussiana. Sia xi , j il j-esimo dato dell' i-esimo gruppo, e si definiscano le seguenti grandezze
49
ni
1
zi , j xi , j ˆ i , ˆ i
ni
xij
j 1
ni
1
zi
ni
zi, j , media delle zi, j nell ' i esimo gruppo
j 1
1 k
z
N
ni zi , media di tutte le zi, j
i 1
k
ni zi z
2
N k i 1
W
k 1 nj
zi, j zi
k 2
i 1 j 1
W Fk 1, N k ,
per cui se la grandezza W è più grande del percentile dell’ % della Fisher Fk 1, N k , l’ipotesi nulla
va rifiutata, e si deve ritenere l’insieme di dati eteroschedastico.
Prodotti Finanziari
1 2 3 4
61 100 66 86
80 74 52 35
N° in migliaia di 98 85 73 52
Scambi 64 77 69 70
giornalieri 78 84 80 79
73 95 73 43
57 96 62 60
95 62 50 65
78 80 71 58
86 87 84 82
Media 77 84 68 63
Il numero di rilevazioni per ciascuna classe non deve necessariamente coincidere, e le singole
determinazioni possono considerarsi come estrazioni casuali indipendenti di una v.a. X . In
generale quindi avremo ni , i 1, , k , rilevazioni sperimentali; indichiamo con xij la j-esima
rilevazione per la classe i-esima ( i 1, , k ; j 1, , ni ).
Come si vede le medie interclasse ˆ i sono diverse tra loro e diverse dalla media di
popolazione
k ni k ni
1 1
n
xij , n ni , ˆ i
ni
xij
i 1 j 1 i 1 j 1
xij ai yij
dove ai modella l’effetto della classe i-esima e yij è una fluttuazione statistica che modelliamo
come una gaussiana con media nulla e varianza 2 costante per tutte le classi; risulta che xij è
modellata come una gaussiana con media i ai e varianza 2 .
A questo punto si vuole testare l’ipotesi composta
H 0 : ai 0 per ogni i
H1 : ai 0 per almeno un i
51
1 k ni
1 k ni
1 k
xij ˆ xij ˆ i ni ˆ i ˆ
2 2
2
n i 1 j 1 n i 1 j 1 n
i 1
T V W
che con semplici passaggi può decomporsi nelle due varianze parziali V e W : la prima rappresenta
la variabilità intraclasse, cioè la variabilità dei dati all’interno di ciascun gruppo di ni termini che è
la stessa indipendentemente dal fatto che l’ipotesi H 0 sia vera o falsa; la seconda fornisce la
variabilità interclasse e, se l’ipotesi H 0 è vera, risulta essere una fluttuazione casuale, altrimenti
porta in conto la variabilità dovuta alle differenze tra le medie dei vari sottogruppi.
Ora se l’ipotesi H 0 è vera, la variabile T / 2 risulta essere distribuita come una 2 con
n 1 gradi di libertà. In base al teorema di Cochran si può quindi dimostrare che V / 2 è distribuita
come una 2 con n k gradi di libertà, mentre W / 2 ha distribuzione 2 con k 1 gradi di
libertà; inoltre V e W sono tra loro indipendenti. Quindi il rapporto
W /(k 1)
F
V /(n k )
ha distribuzione di Fisher con 1 k 1, 2 n k gradi di libertà. Se W è troppo grande
dovremmo rifiutare H 0 ; fissando un livello di significatività del test pari ad , ovvero fissando la
probabilità di commettere l’errore di tipo I rifiutando H 0 quando è vera, dalle tavole della
distribuzione F1 , 2 si ricava il percentile F per cui se
F F
si rifiuta H 0 prendendo la decisione giusta nell’ (1 )% dei casi. Il terst appena anlizzato prende
comunemente il nome di F-test.
L’analisi svolta viene normalmente riportata su una tabella che viene detta appunto tabella
dell’analisi della varianza
somme dei
variazione gradi di libertà devianze statistiche
quadrati
Tra gruppi k-1 W W/(k-1) W /(k 1)
;
Nei gruppi n-k V V/(n-k) V /(n k )
Totale n-1 T z ln F
Somme dei
variazione gradi di libertà devianze statistiche
quadrati
Tra gruppi 3 2620 873.33
F = 4.84;
Nei gruppi 36 6496 183.22
z = 0.79
Totale 39 9116
Se si sceglie 0.05 dalle tavole si ricava F 2.90 ; per cui dato che 4.84>2.90 dobbiamo
rifiutare l’ipotesi che la differenza tra le medie degli scambi giornalieri dei 4 prodotti finanziari sia
dovuta al caso.
Lo stesso tipo di analisi può essere condotta se la misura della grandezza di interesse x è
influenzata da più di un attributo. In riferimento al caso già trattato supponiamo di considerare il
numero di scambi giornalieri di k titoli in h mercati; per cui ora xij( ) denota la -esima rilevazione
del numero di scambi giornalieri del titolo i -esimo nel mercato j -esimo.
xij( ) ai b j ij yij( )
Senza perdita di generalità, per semplificare le notazioni, si assume che ciascuna classe sia
composta dallo stesso numero di elementi, per cui 1 m per ogni i, j . La costante ij modella
l'effetto combinato dei due attributi, e la variabile yij( ) modella al solito la variabilità statistica del
dato e si assume con distribuzione N (0, 2 ) .
Siano ora
1 h m ( ) 1 h m ( ) 1 m ()
ˆi,.,. xij ,
h m j 1 1
ˆ., j ,. xij ,
k m i 1 1
ˆij xij
m 1
la media dei dati per il valore i-esimo del primo attributo, la media dei dati per il valore j-esimo del
secondo attributo, la media dei dati all'interno di ciascun gruppo individuato dalla generica coppia
di valori i, j del primo e del secondo attributo. La variabilità totale T dei dati può essere questa
volta decomposta nel seguente modo
xij() ˆ
k h m k h m k h
h m ˆ i ,.,. ˆ k m ˆ., j ,. ˆ
2 2 2 2
xij( ) ˆij
i 1 j 1 1 i 1 j 1 1 i 1 j 1
k h 2
m ˆ ij ˆ i ,.,. ˆ., j ,. ˆ V W1 W2 WI
i 1 j 1
Il primo termine a secondo membro V rappresenta la variabilità statistica dei dati all'interno di
ciascun gruppo ed è indipendente dalla presenza degli effetti degli attributi; esso costituisce il
53
W1 / k 1
F1
V / kh m 1
che risulta avere distribuzione di Fisher con k 1 , kh m 1 gradi di libertà. Fissando al solito il
livello % di significatività del test è possibile rilevare sulle tabelle opportune il relativo percentile
F1, ; se il valore F1 ottenuto dai dati dell'esperimento supera F1, si deve ritenere che l'effetto del
primo attributo introduce una variabilità sistematica nei dati, non attribuibile a cause aleatorie, e
quindi ha senso stratificare i dati in base ai valori del primo attributo. Lo stesso ragionamento vale
per il secondo attributo; si consideri la variabile
W2 / h 1
F2
V / kh m 1
WI / k 1 h 1
FI
V / k h m 1
Nel caso particolare in cui m 1 , per cui è disponibile una sola rilevazione xij della variabile x per
ogni coppia di valori (i, j ) dei due attributi, non è possibile modellare il grado di interazione tra gli
attributi. Per cui si avrà la seguente rappresentazione del dato generico
54
xij ai b j yij
dove, nelle stesse ipotesi del caso con interazione, ai è una costante che tiene conto dell’effetto
dell’attributo “titolo”, b j è una costante che tiene conto dell’effetto dell’attributo “mercato”, e
yij
N 0 , 2 . In questa situazione le grandezze
1 h 1 k 1 k h
ˆ i ,. xij ,
h j 1
ˆ ., j xij ,
k i 1
ˆ
hk i 1
xij
j 1
denotano la media degli scambi giornalieri del titolo i -esimo sull’insieme dei mercati, la media
degli scambi giornalieri dell’insieme di titoli nel mercato j -esimo e la media degli scambi
giornalieri di titoli sull’insieme dei mercati, rispettivamente.
La variabilità totale dei dati risulterà quindi ripartita nel seguente modo
xij ˆ xij ˆ i ,. ˆ ., j ˆ
k h k h k h k h
ˆ i ,. ˆ ˆ ., j ˆ
2 2 2 2
i 1 j 1 i 1 j 1 i 1 j 1 i 1 j 1
xij ˆ i ,. ˆ ., j ˆ
k h k h
h i ,. ˆ k ˆ ., j ˆ
2 2 2
i 1 j 1 i 1 j 1
W1 W2 V
Il primo termine a secondo membro è la variabilità tra i vari titoli, il secondo è la variabilità tra i
mercati, ed il terzo termine è detto comunemente termine di errore. Con ragionamenti analoghi al
caso precedente, a norma del teorema di Cochran, possiamo affermare che i tre termini a secondo
membro sono indipendenti; inoltre W1 2 è distribuita come una 2 con k 1 gradi di libertà,
W2 2 è distribuita come una 2 con h 1 gradi di libertà e V è distribuita come una 2 con
h 1 k 1 gradi di libertà.
A questo punto possiamo testare varie ipotesi; per esempio se vogliamo testare se l’effetto della
variabilità dovuta ai titoli è significativo basta considerare la variabile
W1 / k 1
F1
V / h 1 k 1
che sarà distribuita come una Fisher Fk 1, h1 k 1 . Se invece vogliamo testare per la significatività
dell’effetto legato ai mercati possiamo considerare la variabile
W2 / h 1
F2
V / h 1 k 1
55
adhf primer method Esaminiamo il seguente caso. Tre tipi di fondo per vernici
(primer) sono applicatio su alluminio in due modi: immersione
1 4.0 1 D
2 4.5 1 D (dipping, D), a spruzzo (spraying, S). L'esperimento consiste nel
3 4.3 1 D determinare la forza di adesione della vernice (adhf)
4 5.6 2 D dipendentemente dal fondo e dal metodo utilizzati. In base ai
5 4.9 2 D valori della tabella valutiamo se la forza di adesione risente
6 5.4 2 D
7 3.8 3 D
singolarmente del primer e del metodo di applicazione, o risente
8 3.7 3 D del loro effetto combinato. I dati dell'esperimento sono riportati
9 4.0 3 D nella tabella accanto: si ha un totale di 18 misure: per ogni primer
10 5.4 1 S si hanno tre ripetute per il metodo dipping e tre ripetute per lo
11 4.9 1 S spraying. La forza di aderenza della vernice dipende da due
12 5.6 1 S
13 5.8 2 S attributi : il "metodo di deposizione del primer", attributo con
14 6.1 2 S k 2 valori "D" e "S"; il "tipo di primer " con h 3 valori "tipo
15 6.3 2 S 1", "tipo 2" e "tipo 3". Gli attributi determinano un totale di
16 5.5 3 S k * h 6 gruppi, ciascuno con m 3 ripetute
17 5.0 3 S
18 5.0 3 S
2 3 3 2 3 3 2 3
9 ˆ i ,.,. ˆ 6 ˆ., j ,. ˆ
2 2 2 2
T xij( ) ˆ xij( ) ˆij
i 1 j 1 1 i 1 j 1 1 i 1 j 1
2 3 2
3 ˆ ij ˆi ,.,. ˆ., j ,. ˆ V W1 W2 WI
i 1 j 1
56
1 3 3 () 1 3 3 ( )
ˆ1,.,. x 4.4667 ,
9 j 1 1 1 j
ˆ 2,.,. x 5.5111
9 j 1 1 2 j
methods
1 2 3 () 1 2 3 () 1 2 3 ( )
ˆ.,1,. x 4.7833,
6 i 1 1 i1
ˆ.,2,. x 5.6833
6 i 1 1 i 2
ˆ.,3,. x 4.5
6 i 1 1 i 3
primers
1 3 ( ) 1 3 () 1 3 ()
ˆ11 x 4.2667,
3 1 11
ˆ12 x 5.3,
3 1 12
ˆ13 x 3.8333,
3 1 13
1 3 ( ) 1 3 ( ) 1 3 ( )
ˆ 21 x 5.3,
3 1 21
ˆ 22 x 6.0667
3 1 22
ˆ 23 x 5.1667
3 1 23
1 2 3 3 ( )
xij 4.9889
18 i 1 j 1 1
Si ottiene
H 0 : a1 a2 0, b1 b2 0, 11 12 21 22 0
la variabile T 2 ha distribuzione 17 2
; il teroema di Cochran assicura quindi che le variabili
V ,W 1,W 2, WI sono 2 tra loro indipendenti, con gradi di libertà rispettivamente pari a 12, 1, 2, 2 .
A questo punto calcoliamo le statistiche del test per la significatività dell'attributo "metodo di
deposizione"
W1
F1 59.7027
V /12
dell'attributo "tipo di primer"
W2/2
F2 27.8581
V /12
WI / 2
FI 1.4662
V /12
Fissando il livello di significatività del test pari a % 0.05 , dalle tabelle della Fisher otteniamo il
percentile per la F1,12 pari a 4.75, per cui si può ritenere che il metodo di deposizione del fondo
costituisca un attributo che influenza significativamente la forza di aderenza della vernice; dai
57
valori medi calcolati per methods si vede subito che il secondo metodo (spraying) determina una
forza media (sui tre tipi di primer) di aderenza pari a 5.5111 contro 4.4667 del primo metodo
(dipping). Invece il percentile per la F2,12 pari a 3.88, per cui anche l'attributo "tipo di primer"
influenza significativamente la forza di aderenza: dai valori medi calcolati per primers si nota come
il secondo tipo di fondo garantisca una forza di aderenza media (sui due metodi di deposizione) pari
a 5.6833, significativamente più alta rispetto agli altri due tipi di fondo, che hanno prestazioni simili
di 4.7833 (tipo 1) e 4.5 (tipo 3). Questa considerazione comunque andrebbe confortata con una
ulteriore analisi ponendo i dati relativi al tipo1 e tipo 3 in un unico gruppo e verificare la differenza
significativa con il gruppo di dati relativi al tipo 2. Per quanto riguarda l'interazione, dato che il
percentile è lo stesso che per F2, si vede come si debba escludere una sinergia tra metodo di
deposizione del fondo e tipo di fondo.
Per quanto riguarda la significatività dei due attributi singolarmente, avremmo potuto anche
utilizzare due ANOVA ad una via. Ad esempio, per l'attributo "metodo di deposizione", avremmo
raggruppato i dati in due classi: la prima per il valore "dipping" dell'attributo, aggregando i 9 dati in
tabella contrassegnati con "D", relativi ai tre tipi di primer; la seconda classe relativa al valore
"sparying" dell'attributo, aggregando i 9 dati in tabella contrassegnati con "S". In questo caso si
sarebbe ottenuta la seguente ripartizione della variabilità dei dati
2 3 3 2 2 3 3 2 2
T xij( ) ˆ xij( ) ˆi 9 ˆi ˆ V W
2
i 1 j 1 1 i 1 j 1 1 i 1
1 3 3 ( ) 1 3 3 ( )
1 x
9 j 1 1 1 j
4.4667 1,.,. , 2 x 5.5111 2,.,.
9 j 1 1 2 j
Si ottiene
W
F 13.521
V /16
ha distribuzione Fisher F1,16 il cui percentile del 5% è compreso tra 4.54 e 4.35. Per cui si deve
rifiutare l'ipotesi nulla e ritenere il metodo di deposizione un fattore significativo per la forza di
aderenza della vernice. Inoltre, avendo solo due gruppi, risulta immediatamente che il secondo
metodo, lo spraying, ha le prestazioni migliori, garantendo una forza di adesione media (su tutti i
primer) di 5.5111 contro 4.4667 del metodo dipping. Tale risultato conferma quanto ottenuto
nell'ANOVA a due vie. Sulla scorta di questa osservazione eseguiamo ora un ANOVA ad una via
per l'attributo "tipo di primer". Si ottengono tre classi, ognuna di 6 dati ottenuti considerando per
ogni primer le 3 ripetute contrassegnate con "D" e le 3 contrassegnate con "S". Si ottiene
58
2 3 3 2 2 3 3 2 3
T xij( ) ˆ xij( ) ˆ i 6 ˆ i ˆ V W
2
i 1 j 1 1 i 1 j 1 1 i 1
con
1 2 3 ( ) 1 2 3 1 2 3
1
6 i 1 1
xi1 4.7833 .,1,. , 2 xi(2 ) 5.6833 .,2,. , 3 xi(3 ) 4.5 .,3,.
6 i 1 1 6 i 1 1
Possiamo anche qui notare che W W 2 , mentre V raccoglie i termini V ,W 1,WI dell'ANOVA a due
vie. Osserviamo che il termine di differenza tra gruppi questa volta è più piccolo che nel caso
precedente per l'attributo "metodo di deposizione ", mentre la V è più grande. Infatti risulta
W /2
F2 5.5989
V
15
che comunque è maggiore del percentile del 5% di una Fisher F2,15 3.68 . Per cui anche l'effetto
dell'attributo " tipo di primer" è da ritenersi significativo. Tuttavia, rispetto al caso precedente, ora
ci sono tre gruppi e non è chiaro come scegliere il primer migliore, in quanto il rifiuto dell'ipotesi
nulla dice solo che c'è almeno un gruppo significativamente differente dagli altri. Per cui bisogna
condurre un'analisi ulteriore, come si era peraltro già precisato in occasione dell'analisi ANOVA a 2
vie.
Analizziamo ora il caso di studio togliendo la variabilità dei dati dovuta alle tre ripetute per
ogni gruppo: questo si ottiene sostituendo alle 3 ripetute la loro media ij , i 1, 2 j 1, 2,3 .
Otteniamo quindi uno schema di analisi ANOVA a 2 vie senza interazione
ˆ ij ˆ i ,. ˆ ., j ˆ
2 3 2 3 2 3
3 ˆ i ,. ˆ 2 ˆ ., j ˆ
2 2 2
T ˆ ij ˆ
2
i 1 j 1 i 1 j 1 i 1 j 1
W1 W2 V
dove
1 3 1 3
ˆ 1,. ˆ 1 j 4.4667 ,
3 j 1
ˆ 2 ,. ˆ 2 j 5.5111
3 j 1
1 2 1 2 1 2
ˆ .,1 i1 4.7833,
2 i 1
ˆ .,2 i2
2 i 1
5. 6833,
ˆ .,3 ˆ i3 4.5
2 i 1
Quindi si ottiene
Notiamo subito che la variabilità totale è diminuita rispetto ai casi precedenti in quanto questa è
dovuta solo alle "medie delle misure in ciascun gruppo" ij e non dalle misure xij( ) , come nei casi
precedenti. Nelle stesse ipotesi statistiche dei casi precedenti abbiamo che le variabili
W1 W /2
F1 40.7189, F2 2 19
V /2 V /2
hanno distribuzione di Fisher F1,2 con percentile del 5% pari 18.51, e F2,2 con percentile del
5% pari 19. Per cui, mentre per il primo l'attributo "metodo di deposizione" otteniamo dei risultati
in accordo con quelli delle analisi precedenti, in quanto l'ipotesi nulla deve essere rifiutata, per il
secondo attributo "tipo di primer" la situazione è un pò critica: si ottiene un valore di F2 proprio pari
al percentile F2,2,0.05 19 (in effetti sarebbe F2 19.000000000000142 ). A questo punto siamo
proprio sulla frontiera del set critico, potremmo senz'altro decidere comunque di rifiutare l'ipotesi
nulla; sarebbe comunque più ragionevole ad esempio richiedere l'acquisizione di dati ulteriori. Ma,
indipendentemente dalla decisione che prenderemo, notiamo come l'aver mediato le misure
riducendo la variabilità totale dei dati abbia portato ad una situazione di indecisione. Avremmo
anche potuto avere un risultato per cui, nel caso del secondo attributo, avremmo dovuto accettare
l'ipotesi nulla, ottenendo un'indicazione in netto contrasto con quella delle analisi precedenti.
Questo semplice caso di studio su dati reali ha mostrato che è meglio usare un modello per i
dati in cui i due (o più) attributi vengono considerati contemporaneamente, conviene quindi sempre
rappresentare al meglio tutte le cause di variabilità dei dati.
60
1. ciascun gruppo dell'insieme deve essere un campione di dati casuale, e i dati relativi a
gruppi differenti devono essere indipendenti
2. i gruppi devono avere grosso modo lo stesso numero di dati
3. la scala di variazione dei dati deve essere comparabile tra i diversi gruppi
4. la distribuzione dei dati deve essere gaussiana
5. la varianza deve essere costante
Diciamo subito che l'F-test è robusto rispetto a violazioni delle condizione 4) e 5) se ogni gruppo
ha un numero di dati sufficientemente grande e più o meno uguale tra loro. In caso di numero di dati
basso, le differenze tra le varianze può risultare determinante.
K-W ANOVA. L'algoritmo di Kruskal-Wallis è un test ANOVA non parametrico che si può
applicare tutte le volte che la distribuzione dei dati differisca significativamente dalla gaussiana, pur
rimanendo la stessa per tutta la popolazione, per cui deve sempre valere l'omoschedasticità. Per
meglio illustrare l'algoritmo consideriamo un esempio.
Un'azienda vinicola chiede a degli intenditori di testare tre dei loro vini, indichiamoli per semplicità
A, B e C, con un punteggio da uno a dieci. Ecco quanto ottenuto dopo i vari assaggi (tabella di
sinistra)
3
ni ˆ ri ˆ r
2
i 1
H
1
N N 1
12
dove al solito N è il numero totali di dati. Questa risulta essere distribuita approssimativamente
come una 321 22 (chi-quadro a 2 gradi di libertà ). Il percentile del 5% di tale distribuzione è
pari a 5.991. Per cui il set critico del test di livello 5% è data da
61
H 5.991
Nel caso in esame si ottiene H 9.5591 , per cui si deve rifiutare l'ipotesi nulla e ritenere che i
gruppi abbiano ranghi con medie significativamente differenti; si noti in particolare come i ranghi
corrispondenti al vino A siano più elevati rispetto agli altri due vini, per cui possiamo senz'altro
concludere che il vino A abbia riscosso maggior successo tra gli intenditori.
Il test K-W da buoni risultati se le la distribuzione dei dati ha la stessa forma per tutti i gruppi e le
varianze sono sostanzialmente uguali, già con 5 dati per ogni gruppo. Generalmente si assegna
come regola che la varianza più grande sia non più del doppio della varianza più piccola.
Se tuttavia i dati avessero la stessa distribuzione ma soffrissero di una forte eteroschedasticità, il test
K-W non è affidabile. In caso che la distribuzione sia gaussiana si può ricorrere al seguente test.
Welch ANOVA. Con il solito significato dei simboli, facciamo riferimento ad un insieme di dati con
k gruppi; la distribuzione sia gaussiana ma le varianze dei gruppi differiscano significativamente.
In queste condizioni il valor medio di popolazione si calcoli con la seguente media pesata
k
wi ˆi ni k
ˆ i 1
, wi , w wi
w sn2i i 1
dove al solito le sn2i sono le varianze campionarie di ciascun gruppo. La statistica del test è data
dalla seguente variabile
k
wi ( ˆi ˆ )2
i 1
W k 1
2
2(k 2) 1 wi
k
1 2 1
w
k 1 i 1 ni 1
che risulta essere distribuita come una chi-quadro con un numero di gradi di libertà dato da
k 2 1
1 wi 2
k
3 1
i 1 ni 1 w
Come al solito si prende il valore intero più vicino.
62
Come abbiamo visto, l’analisi della varianza permette di testare ipotesi composte nella stima
del valor medio di una popolazione. Nel caso quindi che l’ipotesi H 0 debba essere rifiutata significa
sostanzialmente che l’insieme di dati non è omogeneo statisticamente; quindi se nella stima del
valor medio di insieme il campione di n dati non venga opportunamente stratificato tra le varie
classi dell’insieme, ne risulterebbe una stima affetta da grande variabilità, e quindi poco affidabile.
Questo può essere facilmente compreso se consideriamo il caso in cui gran parte dei dati del
campione cadano in una sola delle classi; questo darebbe luogo ad una stima del valor medio
d’insieme fortemente polarizzata dalle caratteristiche statistiche della classe suddetta.
Nasce quindi l’esigenza di pianificare l’esperimento in modo da raccogliere i dati
distribuendo opportunamente la numerosità del campione tra le varie classi o strati; questa tecnica
prende il nome di stratificazione (o clusterizzazione). La situazione generale è quindi quella di un
insieme di N elementi suddivisi in k strati ognuno con Ni unità. Sia i il valor medio di un certo
attributo degli elementi considerati nella classe i-esima, e sia wi Ni / N il peso della classe i-esi-
ma nell’insieme, che supponiamo noto perché, ad esempio, ottenuto da una precedente indagine
sperimentale condotta ad hoc. Come è facile verificare per il valore medio di insieme si ha
k
wi i
i 1
Ora consideriamo ni elementi per ogni strato e stimiamo i con la media campionaria ˆ ni . Come
sappiamo questa è una stima centrata E ˆ ni i e, nel caso realistico di estrazione in blocco
senza reinserzione, con varianza
Ni ni i2
2ˆ
ni Ni 1 ni
i2
2ˆ
n
i ni
dove i2 è la varianza intraclasse dell’attributo considerato, ed è inferiore alla varianza 2 di
popolazione se, ovviamente, la stratificazione è stata eseguita opportunamente! La stima ˆ n della
media di popolazione è quindi data da
k
ˆ n wi ˆ ni
i 1
che è centrata come è facile verificare; inoltre ritenendo che il campione preso da uno strato sia
indipendente da quelli presi dagli altri, la varianza di ˆ n è data da
63
k
2 i
2
i nw camp. indp.
i 1 i
k
2ˆ wi2 2ˆ
n
i 1
ni
k
w2 Ni ni i
2
i
Ni 1 ni
camp. non indp.
i 1
Come si vede la varianza della stima dipende dagli ni , per cui una corretta scelta di essi può
rendere la stima ˆ n più accurata possibile una volta fissato, per motivi di costi o altri motivi di
ordine pratico, la numerosità totale n del campione. Esaminiamo due possibili strategie!
1) Attribuzione proporzionale
1 k
n i 1
wi i2 camp. indp.
ˆ
2
n
k
1 w Ni ni 2 camp. non indp.
n i 1 i Ni 1 i
ed è facile dimostrare che risulta essere minore rispetto a quella ottenibile estraendo un campione
casuale di dimensione n dall’intera popolazione.
2) Attribuzione ottimale
In questo caso si cercano i valori ottimi ni* che rendano minima la varianza 2ˆ della stima,
n
con il vincolo ni n . Mediante la tecnica dei moltiplicatori di Lagrange si ottiene
64
Ni i
n camp. indp.
k
N j j
j 1
*
ni
Ni
Ni
Ni 1 i
n camp. non indp.
k Nj
N j
N j 1 j
j 1
In effetti, nella misura in cui N i / N i 1 1, si può usare la stessa attribuzione ottima
k
2
1
wi i camp. indp.
n i 1
ˆ
2
n
2
1 k Ni k w2 2
i i
w i i camp. non indp.
n i 1 Ni 1 i 1 Ni 1
Esempio
2 9
2ˆ 0.009
n n 1000
Tendendo conto delle varie tipologie di dipendenti, si può pensare alla seguente stratificazione
i strato Ni wi i
1 manovali 6.500 0.650 1
2 operai specializzati 2.500 0.250 1.5
3 impiegati 920 0.092 2
4 dirigenti 80 0.008 2.5
totale 10.000 1.00
65
Volendo mantenere la stessa accuratezza della stima ottenuta con il campione casuale si pone
1.6305
0.009
n
da cui si ricava n 190 anziché 1000 come prima, ottenendo quindi un forte risparmio in termini di
numero di rilevamenti da effettuare. L’attribuzione proporzionale sarebbe la seguente
i ni
1 124
2 47
3 17
4 2
totale 190
i n*i
1 98
2 57
3 29
4 6
totale 190
1
2ˆ (0.65)1 (0.25)1.5 (0.092)2 (0.008)2.52 0.00794
n 190
ˆ ni ni*
i ˆ ni ,1 sni
ni* 1
1 4.3 1.2
2 3.5 1.6
3 2.0 2.1
4 1.5 2.3
4
ˆ n wi ˆ ni 0.65 4.3 0.25 3.5 0.092 2 0.008 1.5 3.866
i 1
1
ˆ 2ˆ 0.65 1.2 0.25 1.6 0.092 2.1 0.008 2.32 0.0102
n 190
ˆ ˆ n 0.1010
0.026 2.6%
ˆ n 3.866