Sei sulla pagina 1di 81

POLITECNICO DI MILANO

FACOLTÀ DI INGEGNERIA DEI SISTEMI


Corso di Laurea in Ingegneria matematica

I TEST DI PERMUTAZIONE E I LINEAR RANK TESTS:


TEORIA ED ESEMPI IN AMBITO PARAMETRICO E
NON PARAMETRICO

Relatore: Prof. ANNA MARIA PAGANONI

Tesi di laurea di:


SARA MACCAFERRI
Matr. 661874

Anno Accademico 2005 - 2006


Ringraziamenti

Vorrei esprimere un ringraziamento particolare alla mia relatrice, la pro-


fessoressa Anna Maria Paganoni, per l’aiuto e la disponibilità mostratami
durante tutto il periodo di lavoro. Vorrei ringraziare inoltre i miei compagni
di corso, che mi hanno spesso dato preziosi consigli; infine ringrazio la mia
amica Valentina, per avermi aiutato a trovare testi molto utili per questo
mio lavoro.

Sara Maccaferri

2
Indice

Ringraziamenti 2

Elenco delle figure 5

Introduzione 6

1 Test d’ipotesi 9
1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Test parametrici . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Proprietà delle funzioni test . . . . . . . . . . . . . . . . . . . 11
1.3.1 Errori e funzione potenza . . . . . . . . . . . . . . . . 11
1.3.2 Test uniformemente più potenti . . . . . . . . . . . . . 13
1.4 Test non parametrici . . . . . . . . . . . . . . . . . . . . . . . 14

2 Test di permutazione 16
2.1 Un esempio introduttivo . . . . . . . . . . . . . . . . . . . . . 16
2.2 La teoria dei test di permutazione . . . . . . . . . . . . . . . 18
2.3 Test di permutazione non distorti . . . . . . . . . . . . . . . . 20
2.4 Test UMP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5 Comportamento asintotico . . . . . . . . . . . . . . . . . . . . 30
2.5.1 Test per un campione . . . . . . . . . . . . . . . . . . 31
2.5.2 Test per due campioni . . . . . . . . . . . . . . . . . . 35
2.5.3 Il teorema sulle forme lineari . . . . . . . . . . . . . . 37
2.6 Test di permutazione Monte Carlo . . . . . . . . . . . . . . . 44

3 Linear rank tests 49


3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.2 La statistica test . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3 Test per il parametro di locazione con due campioni . . . . . 54
3.3.1 Normal score tests . . . . . . . . . . . . . . . . . . . . 55

3
3.3.2 Test di van der Waerden . . . . . . . . . . . . . . . . . 56
3.3.3 Wilcoxon rank-sum test . . . . . . . . . . . . . . . . . 56
3.3.4 Il test sulla mediana . . . . . . . . . . . . . . . . . . . 57

4 Esempi ed applicazioni 59
4.1 Confronto della funzione potenza: esperimento bilanciato . . 59
4.2 Confronto della funzione potenza: esperimento non bilanciato 66
4.3 Test di Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . 69

5 La randomizzazione come base per l’inferenza negli studi


clinici 75
5.1 Il modello di popolazione . . . . . . . . . . . . . . . . . . . . 75
5.2 Il modello di randomizzazione . . . . . . . . . . . . . . . . . . 76

Bibliografia 80

4
Elenco delle figure

4.1 Grafico della potenza di un test parametrico e di quella em-


pirica ottenuta con un test di permutazione . . . . . . . . . . 65
4.2 Grafico della potenza del test di permutazione nel caso di
esperimento bilanciato e sbilanciato . . . . . . . . . . . . . . . 69
4.3 Normal Probability Plot per i dati provenienti da pazienti
affetti dal morbo di Crohn . . . . . . . . . . . . . . . . . . . . 72
4.4 Normal Probability Plot per i dati provenienti da pazienti
affetti da celiachia . . . . . . . . . . . . . . . . . . . . . . . . 72

5
Introduzione

Lo scopo di questo lavoro è quello di presentare i risultati più importanti


riguardanti i test di permutazione e i linear rank tests. Queste due tipologie
di processi decisionali appartengono alla famiglia di test d’ipotesi non para-
metrici, test cioè che non necessitano, come verrà spiegato più in dettaglio
nel capitolo riguardante i test d’ipotesi, di conoscere alcuna informazione
sulla distribuzione da cui proviene il campione su cui si vuole fare inferenza.
Questa caratteristica rende i test d’ipotesi non parametrici molto utili nel
campo delle applicazioni pratiche, soprattutto in ambito clinico.
Molto spesso quando si effettuano degli studi clinici e si rilevano de-
terminati dati sui pazienti (ad esempio, la pressione sanguigna, il tasso di
colesterolo nel sangue, etc. . . ), non si conosce a quale tipo di distribuzione
(Normale, Esponenziale, . . . ) appartengano i dati rilevati, quindi non si
può applicare nessun risultato di inferenza parametrica. In casi come questi
si potrebbe pensare di ricorrere ai risultati sull’asintotica Normalità, si
potrebbe cioè ipotizzare che il campione abbia distribuzione Normale, se
la sua numerosità è sufficientemente alta. Anche questa strada spesso è im-
praticabile perchè, soprattutto nel caso in cui si vogliano studiare patologie
poco diffuse, il numero di dati disponibili è molto basso e non è applica-
bile nessun risultato asintotico. L’unica strada percorribile per poter fare
inferenza rimane quella dei test non parametrici.
I test di permutazione si basano sulle permutazioni dei valori delle osser-
vazioni, mentre i linear rank tests si basano sui ranghi delle osservazioni. La
letteratura su questi due argomenti è molto vasta e non sempre concorde sul
legame che intercorre tra i test di permutazione e i linear rank tests. Secon-
do alcuni (ad esempio, si veda Lehmann [10]), i test di permutazione sono
un caso particolare dei test sui ranghi, mentre secondo altri (ad esempio, si
veda Hajek e Sidak [6]) i test sui ranghi sono un caso particolare dei test di
permutazione. Quello che è certo è che i test di permutazione e quelli sui
ranghi sono due modi simili di affrontare lo stesso problema inferenziale.
Da un lato i test di permutazione, utilizzando il valore dell’osservazione,

6
sfruttano tutta l’informazione contenuta nelle osservazioni stesse, mentre
dall’altro lato i test sui ranghi, basandosi sul rango dei dati, sfruttano già
una sintesi delle informazioni contenute nelle osservazioni; in entrambi i casi
però le conclusioni a cui si giunge sono le medesime.
Il motivo per cui si è voluto analizzare proprio questi test non parametrici
è dovuto alla loro applicazione in ambito clinico, come verrà spiegato meglio
nell’ultimo capitolo. I test d’ipotesi tradizionali si basano sul concetto di
un modello di popolazione, in base al quale ogni campione proveniente da
una popolazione è rappresentativo di tale popolazione, e tutti gli elementi
del campione possono essere considerati come indipendenti e identicamente
distribuiti con funzione di distribuzione nota a meno di parametri. Per
condurre un test si estraggono un certo numero di soggetti, tutti indipen-
denti e identicamente distribuiti, dalla popolazione, che si suppone essere di
ampiezza infinita. Nel caso dei test clinici questo modello non è più valido,
perchè i pazienti non sono più scelti in maniera totalmente casuale, e spesso
il numero di pazienti adatti allo studio è molto basso (nel caso ad esem-
pio di patologie rare) o addirittura nullo, nel caso si voglia sperimentare un
nuovo trattamento. In questi casi non è più lecito supporre l’esistenza di
una popolazione (in questo caso specifico formata da pazienti) di ampiezza
infinita, e i processi decisionali legati a tale modello non sono più validi.
Quando l’ipotesi di modello di popolazione non è più valida si ricorre al
modello di randomizzazione, che è alla base dei test di permutazione e dei
linear rank tests. L’utilizzo della randomizzazione fornisce infatti le basi
per poter implementare test statistici, che non prevedano l’esistenza di una
popolazione da cui estrarre i campioni, per il confronto ad esempio dei trat-
tamenti A e B somministrati agli nA e nB pazienti scelti. La differenza
fondamentale tra i test basati sul modello di popolazione e quelli basati sul
modello di randomizzazione è la seguente: nei test di permutazione le realiz-
zazioni ottenute sono considerate fissate mentre variano gli assegnazioni ad
un trattamento o all’altro; in un test con un modello di popolazione invece
le variabili aleatorie possono assumere in maniera casuale, con una certa
probabilità, un valore proveniente da un insieme fissato generico.
La materia presentata in questo lavoro è cosı̀ organizzata:
Capitolo 1. Sono riportati tutti i principali risultati sulla teoria dei test
d’ipotesi, in ambito parametrico e non parametrico.
Capitolo 2. Viene presentata la teoria dei test di permutazione: definizione
di test, test non distorti, lemma di Neymann-Pearson. Sono riportati
anche i risultati principali sul comportamento asintotico, quando il nu-
mero delle osservazioni tende all’infinito. Nell’ultima parte del capitolo

7
viene descritto un metodo di simulazione di tali test basato sul metodo
Monte Carlo.

Capitolo 3. Viene presentata la teoria dei linear rank tests. Dal momento
che questa categoria di test è molto vasta, vengono anche riportati
alcuni fra i linear rank tests più utilizzati.

Capitolo 4. In questo capitolo si applica la teoria presentata nei capitoli


precedenti ad alcuni esempi. Si confronta la funzione potenza per un
test parametrico e per un test di permutazione nei casi di un esper-
imento bilanciato (ampiezza dei due campioni uguale) e non bilanci-
ato (differente ampiezza dei due campioni), e si presenta un test di
Mann-Whitney (linear rank test).

Capitolo 5. In questo ultimo capitolo si spiega il perché, in ambito clinico,


molto spesso vengano utilizzati i test di permutazione e i linear rank
tests.

8
Capitolo 1

Test d’ipotesi

1.1 Introduzione
I test d’ipotesi sono un esempio di processo decisionale dell’inferenza statis-
tica, ovvero sono delle procedure che permettono di trarre delle conclusioni
riguardo caratteristiche della popolazione che si vuole studiare. Tale proce-
dura si applica a sottoinsiemi della popolazione chiamati campioni : essi sono
modellizzati da un certo numero di variabili aleatorie la cui distribuzione
può essere nota a meno di parametri (ad esempio, il campione è formato
da variabili aleatorie Normali con media incognita e varianza nota), oppure
può essere completamente incognita. Nel primo caso i test d’ipotesi sono
detti parametrici, nell’altro caso non parametrici. Le realizzazioni di tali
campioni, generalmente formati da n elementi, assumono valori in Rn .
Essi sono costituiti da due ipotesi relative alla popolazione, che sono
chiamate ipotesi nulla (che in seguito verrà indicata con H0 ), e ipotesi alter-
nativa (indicata con H1 ). Lo scopo di un test d’ipotesi è quello di decidere,
basandosi su di un campione proveniente da una certa popolazione, quale
delle due ipotesi sia vera.

1.2 Test parametrici


Se θ ∈ Θ è un generico parametro incognito (la media, la varianza, . . . ) della
popolazione su cui si vuole fare il test, le due ipotesi assumono la seguente
forma:
H0 : θ ∈ Θ0
(1.1)
H1 : θ ∈ Θ1

9
dove Θ0 e Θ1 sono sottoinsiemi dello spazio dei parametri disgiunti, cosı̀ che
θ non possa appartenere contemporaneamente ad entrambi. Se ad esempio θ
indica la media della variazione di pressione sanguigna di un malato al quale
è stato somministrato un certo farmaco, gli studiosi potrebbero eseguire il
seguente test: H0 : θ = 0 contro H1 : θ 6= 0. L’ipotesi nulla afferma che,
in media, il farmaco non ha alcun effetto sulla pressione sanguigna, mentre
l’ipotesi alternativa afferma che vi è un qualche effetto.
In un problema di test d’ipotesi, dopo aver osservato il campione si deve
decidere se accettare H0 come vera o se rifiutare H0 in favore di H1 .

Definizione 1.2.1 Un test d’ipotesi è una procedura che specifica:

• Per quali valori del campione si accetta H0 .

• Per quali valori si rifiuta H0 .

Il sottoinsieme di Rn dei valori del campione stesso per cui si rifiuta H0 si


chiama regione critica.

Esiste una funzione che rappresenta questo processo decisionale:

Definizione 1.2.2 Si dice funzione test la seguente funzione:

δ(x1 , . . . , xn ) : Rn → {0, 1}.

La funzione δ(x1 , . . . , xn ) è una funzione del campione di ampiezza n e


assume solo i valori 0 o 1: il valore 0 equivale ad accettare l’ipotesi nulla
H0 mentre il valore 1 equivale a rifiutare l’ipotesi nulla. Alla luce di questa
osservazione si può definire la regione critica nel modo seguente:

Definizione 1.2.3 Si dice regione critica o di rifiuto l’insieme cosı̀ definito:

R = {(x1 , . . . , xn ) ∈ Rn : δ(x1 , . . . , xn ) = 1}.

La regione complementare Rc si dice regione di accettazione.

La procedura del test d’ipotesi viene sempre specificata in termini di


una statistica test funzione del campione. Ad esempio, in un test si può
arrivare a rifiutare H0 se X̄, la media campionaria, è maggiore di 3. In
questo caso W (X1 , . . . , Xn ) = X̄ è la statistica test e la regione critica della
definizione 1.2.3 è equivalente a {(x1 , . . . , xn ) : x̄ = 3}.

10
1.3 Proprietà delle funzioni test
Decidere di accettare o rifiutare H0 comporta degli errori: per questo motivo
si vogliono valutare tali errori e si cercano test con basse probabilità di errore.

1.3.1 Errori e funzione potenza


Un test con le ipotesi (1.1) può commettere uno dei seguenti due tipi di
errore. Se θ ∈ Θ0 ma il test d’ipotesi porta a rifiutare H0 , allora il test
commette un errore di primo tipo. Se, viceversa, θ ∈ Θ1 ma il test porta
ad accettare H0 , allora il test commette un errore di secondo tipo. Tale
situazione è descritta nella seguente tabella:

accetto H0 rifiuto H0
H0 vera Decisione corretta Errore di primo tipo
H1 vera Errore di secondo tipo Decisione corretta

Sia R la regione di rifiuto di un test. Se θ ∈ Θ0 allora la probabilità


di compiere un errore di primo tipo è Pθ ((X1 , . . . , Xn ) ∈ R). D’altro can-
to, se θ ∈ Θ1 la probabilità di commettere un errore di secondo tipo è
Pθ ((X1 , . . . , Xn ) ∈ Rc ). La relazione tra le probabilità Pθ ((X1 , . . . , Xn ) ∈
Rc ) = 1 − Pθ ((X1 , . . . , Xn ) ∈ R) dimostra che tutte le informazioni nec-
essarie sul test con regione di rifiuto R sono contenute nella probabilità
Pθ ((X1 , . . . , Xn ) ∈ R).


Probabilità errore di I tipo se θ ∈ Θ0
Pθ ((X1 , . . . , Xn ) ∈ R) =
Uno meno probabilità errore di II tipo se θ ∈ Θ1

Si può dare ora la seguente definizione:

Definizione 1.3.1 La funzione potenza di un test d’ipotesi con regione


critica R è la funzione di θ definita da

β(θ) = Pθ ((X1 , . . . , Xn ) ∈ R)

con θ ∈ Θ0 ∪ Θ1

La funzione potenza ideale vale 0 per tutti i θ ∈ Θ0 e vale 1 per tutti i


θ ∈ Θ1 ma nella pratica questa situazione non si verifica mai; si ricercano
allora test d’ipotesi la cui funzione potenza sia vicino a 1 per θ ∈ Θ1 e sia
vicino a 0 per θ ∈ Θ0 .

11
Per un campione di ampiezza fissata è praticamente impossibile ottenere
che le probabilità di entrambi i tipi di errori siano arbitrariamente piccole e
per questo, quando si costruisce un buon test, si considera la probabilità di
commettere l’errore di primo tipo e si decide di garantire che rimanga al di
sotto di una certa soglia fissata.
Definizione 1.3.2 Data una funzione test δ, si dice dimensione del test il
valore α tale che
sup β(θ) = α
θ∈Θ0
dove 0 ≤ α ≤ 1.
Dire che un test è di dimensione α equivale a dire quindi che la probabilità
di commettere un errore di primo tipo è al più pari ad α.
Definizione 1.3.3 Data una funzione test δ, si dice livello del test il valore
α tale che
sup β(θ) ≤ α
θ∈Θ0
dove 0 ≤ α ≤ 1.
In base alle precedenti definizioni, dimensione è livello di un test non sono la
stessa cosa: nel primo caso si conosce il valore massimo della probabilità di
commettere un errore di primo tipo, mentre nel secondo caso si sa solo che
tale valore è al di sotto di una certa soglia, ma tale soglia può anche essere
una stima grossolana, molto più grande del valore vero.
Quando si ha a che fare con modelli e test complessi per i quali è impos-
sibile, da un punto di vista computazionale, costruire un test di dimensione
α, ci si accontenta di conoscere il livello di tale test. In questi casi si speci-
fica sempre il valore del livello scelto; i valori di α scelti normalmente sono
α = 0.01, 0.05 e 0.1. È importante sottolineare che, fissando il livello del
test, si controlla soltanto la probabilità di commettere un errore di primo
tipo, mentre non si può dire nulla sulla probabilità di commettere un errore
di secondo tipo.
Oltre al livello, esiste un’ulteriore proprietà dei test.
Definizione 1.3.4 Un test di livello α per le ipotesi (1.1) si dice non dis-
torto se β(θ) ≥ α per ogni θ ∈ Θ1 .
Un test non distorto è un test per cui è più probabile rifiutare H0 se θ ∈ Θ1
piuttosto che per θ ∈ Θ0 .
Definizione 1.3.5 Un test di livello α per le ipotesi (1.1) si dice esatto se
β(θ) = α per ogni θ ∈ Θ0 .

12
1.3.2 Test uniformemente più potenti
Nella sezione precedente sono stati introdotti test d’ipotesi che controllano
la probabilità di commettere un errore di primo tipo; ad esempio, i test
d’ipotesi di livello α hanno probabilità di commettere un errore di primo
tipo al massimo pari ad α per tutti i θ ∈ Θ0 . Sarebbe utile poter trovare tra
tutti questi test quelli che hanno anche una bassa probabilità di commettere
un errore di secondo tipo, ovvero una funzione potenza con valori grandi per
θ ∈ Θ1 . Se fra tutti questi test ne esiste uno con funzione potenza massima,
tale test è un buon candidato per essere il migliore fra tutti quelli presi in
considerazione.

Definizione 1.3.6 Sia C la classe di test per le ipotesi (1.1). Un test δ ap-
partenente a tale classe C con funzione potenza β(θ) è il test uniformemente
più potente (UMP) della classe C se β(θ) ≥ β 0 (θ) per ogni θ ∈ Θ1 e per ogni
β 0 (θ) funzione potenza di un generico test δ 0 appartenente a C.

Quando la classe C è la classe di tutti i test di livello α, il test descritto nella


definizione 1.3.6 è chiamato test UMP di livello α.
Le condizioni della definizione 1.3.6 sono cosı̀ forti che non sempre esiste il
test UMP che le soddisfa. Il seguente teorema descrive un metodo operativo
per trovare i test UMP di livello α.

Teorema 1.3.7 (Lemma di Neymann-Pearson) Si considerino le ipote-


si H0 : θ = θ0 contro H1 : θ = θ1 e sia f (x1 , . . . , xn |θi ), con i = 0, 1 la densità
congiunta del campione. Si consideri un test δ tale che:

(x1 , . . . , xn ) ∈ R se f (x1 , . . . , xn |θ1 ) > kf (x1 , . . . , xn |θ0 )


(1.2)
(x1 , . . . , xn ) ∈ Rc se f (x1 , . . . , xn |θ1 ) < kf (x1 , . . . , xn |θ0 )

per k > 0, e
α = Pθ0 ((X1 , . . . , Xn ) ∈ R) = Eθ0 [δ]. (1.3)
Allora:

• Ogni test che soddisfa (1.2) e (1.3) è un test UMP di livello α.

• Se esiste un test δ che soddisfa (1.2) e (1.3) e se un altro test δ 0 è


UMP di livello α per le ipotesi H0 : θ = θ0 contro H1 : θ = θ1 , allora
δ 0 soddisfa (1.2) e (1.3) tranne al più in un insieme A di misura nulla
(ovvero tale che Pθ0 ((X1 , . . . , Xn ) ∈ A) = Pθ1 ((X1 , . . . , Xn ) ∈ A) =
0).

13
Sı̀ è già accennato prima che non in tutti i problemi esiste un test UMP
di livello α: questo succede perchè la classe di test C di livello α è troppo
grande e nessun test appartenente a tale classe riesce a dominare in termini
di funzione potenza tutti gli altri. In questi casi, se si vuole trovare comunque
un test UMP si deve restringere la ricerca ad un sottoinsieme di funzioni test
di C e si ottiene il test UMP relativo a tale sottoinsieme.

1.4 Test non parametrici


In tutti i precedenti test d’ipotesi si era ipotizzato che la distribuzione delle
variabili aleatorie fosse nota a meno di qualche parametro. Nella pratica tut-
tavia, l’espressione della funzione di distribuzione è quasi sempre incognita.
É utile studiare delle procedure di test d’ipotesi che siano indipendenti dall’e-
spressione esplicita della funzione di distribuzione; tali procedure prendono
il nome di metodi non parametrici. Queste procedure sono caratterizzate dal
fatto che l’unica ipotesi che si fa sulla funzione di distribuzione è che essa
sia assolutamente continua oppure discreta. Il termine ”non parametrici”
indica che non si opera più sui i singoli parametri, come si è fatto finora,
ma si utilizzano altre tecniche. La procedura per eseguire il test è la stessa
della definizione (1.2.1), cosı̀ come la definizione di funzione test e di regione
critica. Cambiano invece le seguenti definizioni:

Definizione 1.4.1 La funzione potenza di un test d’ipotesi δ è la funzione


β definita come
β(F, G) = E[δ]
dove F e G sono le funzioni di distribuzione, incognite o meno, relative alle
ipotesi del test.

Definizione 1.4.2 Data una funzione test δ, si dice dimensione del test il
valore α tale che
sup β(F, G) = α
H0

dove 0 ≤ α ≤ 1.

Definizione 1.4.3 Data una funzione test δ, si dice livello del test il valore
α tale che
sup β(F, G) ≤ α
H0

dove 0 ≤ α ≤ 1.

14
Definizione 1.4.4 Un test di livello α si dice non distorto se β(F, G) ≥ α
quando vale l’ipotesi alternativa.

Definizione 1.4.5 Un test di livello α si dice esatto se β(F, G) = α quando


vale l’ipotesi nulla.

15
Capitolo 2

Test di permutazione

2.1 Un esempio introduttivo


Il seguente esempio, proposto da Good [5], ha lo scopo di introdurre il prob-
lema dei test di permutazione. Si vogliono valutare le capacità di allungare
la vita dei fibroblasti diploidi umani con un nuovo trattamento sperimentale.
Per fare questo, si dividono le colture di cellule in due gruppi: uno viene
alimentato con una soluzione nutritiva standard e l’altro con una soluzione
contenente vitamina E. Alla fine dell’esperimento e dopo l’eliminazione delle
colture contaminate, entrambi i gruppi sono formati da tre vetrini, trattati
tutti in modo indipendente. Dopo aver eseguito delle radiografie sulle col-
ture gli studiosi hanno in mano solo il numero di cellule presenti in ogni
coltura. I valori ottenuti, i primi tre provenienti dal primo gruppo e gli altri
dal secondo gruppo, sono riportati nella tabella 2.1. Questo è un esempio

I gruppo II gruppo
121 118 110 34 12 22

Tabella 2.1: valori iniziali

di problema in cui non si possono applicare i test parametrici, perchè non


si conoscono le funzioni di distribuzione della popolazione da cui proviene il
campione, e non si possono neanche applicare risultati asintotici, perchè il
numero di osservazioni è molto piccolo. Si possono invece utilizzare un tipo
particolare di test non parametrici, che verrà definito in seguito, chiamato
test di permutazione.
Per prima cosa si deve stabilire qual è l’ipotesi nulla e qual è l’ipotesi

16
alternativa. L’ipotesi nulla, vera fino a prova contraria, è che la crescita
di una coltura non sia influenzata dalla presenza della vitamina E nella
soluzione, mentre l’ipotesi alternativa è che le cellule trattate con la vitamina
E vivano più a lungo (e possano quindi riprodursi di più).
Successivamente si deve scegliere una statistica test che permetta di
scegliere fra l’ipotesi nulla e quella alternativa. Una statistica utile in questo
ambito è la somma dei valori ottenuti nel gruppo trattato con la vitamina E.
Se l’ipotesi alternativa è vera questa somma dovrebbe essere maggiore della
somma delle osservazioni del gruppo non trattato. Se l’ipotesi nulla invece è
vera, allora la somme dei due gruppi di osservazioni dovrebbero essere quasi
uguali.
Si calcola la statistica test in corrispondenza delle osservazioni originali.
Le prime tre osservazioni provengono dal gruppo di colture trattato con
vitamina E, quindi è possibile calcolare la statistica test per le osservazioni
come sono state originariamente classificate: 121 + 118 + 110 = 349.
Successivamente si permutano le osservazioni, assegnando in maniera
casuale ad ogni osservazione l’etichetta ”trattato” o ”non trattato”, tre per
ogni tipo: per esempio, consideriamo 121, 118 e 34 ”trattati”, e 110, 12
e 22 ”non trattati”. Con questa assegnazione la somma delle osservazioni
del gruppo ”trattato” è 273. Ripetiamo questa procedura finché tutte le
6
3 = 20 permutazioni non sono state analizzate. Tutte le permutazioni
sono riportate nella tabella 2.2.
Si è scelto questo ordine di permutazioni per poter avere i valori del-
la statistica test, ovvero la somma delle osservazioni del primo gruppo, in
ordine decrescente e poter individuare più facilmente i valori estremi.
L’ultimo passo è il processo decisionale. Intuitivamente si può fare il
seguente ragionamento: se si ipotizza che tra i due trattamenti non ci siano
grandi differenze, allora il valore della statistica test originale è simile ai
valori della statistica test ottenuti a partire dalle permutazioni: in tal caso
si accetta l’ipotesi nulla. Viceversa, se si ipotizza una qualche differenza tra i
due trattamenti, il valore della statistica test originale compare come valore
estremo: in tal caso si rifiuta l’ipotesi nulla. In questo caso si osserva che
la somma delle osservazioni provenienti dal gruppo realmente trattato con
la vitamina E è 349 e tale valore non è mai superato per le altre possibili
permutazioni. Si può dire che è raro osservare un valore cosı̀ alto, solo una
volta su 20, quindi si rifiuta l’ipotesi nulla con un livello del 5% (ovvero
con probabilità al massimo del 5% io rifiuto l’ipotesi nulla quando questa è
vera).

17
Primo gruppo Secondo gruppo Somma del primo gruppo
1. 121 118 110 34 22 12 349
2. 121 118 34 110 22 12 273
3. 121 110 34 118 22 12 265
4. 118 110 34 121 22 12 262
5. 121 118 22 110 34 12 261
6. 121 110 22 118 34 12 253
7. 121 118 12 110 34 22 251
8. 118 110 22 121 34 12 250
9. 121 110 12 118 34 22 243
10. 118 110 12 121 34 22 240
11. 121 34 22 118 110 12 177
12. 118 34 22 121 110 12 174
13. 121 34 12 118 110 22 167
14. 110 34 22 121 118 12 166
15. 118 34 12 121 110 22 164
16. 110 34 12 121 118 22 156
17. 121 22 12 118 110 34 155
18. 118 22 12 121 110 34 152
19. 110 22 12 121 118 34 144
20. 34 22 12 121 118 110 68

Tabella 2.2: Permutazioni

2.2 La teoria dei test di permutazione


Prima di passare alla trattazione dei test di permutazione vera e propria, è
utile introdurre il concetto di scambiabilità (si veda [4]). Per spiegare questo
concetto si fa riferimento, per comodità, al caso parametrico, ma l’estensione
al caso non parametrico è immediata.

Definizione 2.2.1 Una successione di variabili aleatorie X1 , . . . , Xn fini-


ta o infinita numerabile si dice scambiabile se, per ogni k ≥ 1 e per ogni
possibile permutazione di indici (i1 , . . . , ik ) la funzione di distribuzione del
vettore (X1 , . . . , Xk ) è la stessa di (Xi1 , . . . , Xik ), ovvero la funzione di dis-
tribuzione dipende solo da k e non dalla permutazione di indici (i1 , . . . , ik )
scelta.

Un risultato importante sulla scambiabilità è il seguente teorema, dovuto


a de Finetti.

18
Teorema 2.2.2 Se X1 , . . . , Xn sono variabili aleatorie scambiabili, allora
esiste una variabile aleatoria Θ tale che
 
Yn

P [ X1 ≤ x1 , . . . , Xn ≤ xn | Θ] = E  F (xj ) Θ (2.1)
j=1

dove F (xj ) è la funzione di distribuzione della variabile aleatoria Xj .

La formula (2.1) dice in pratica che se le variabili aleatorie sono scam-


biabili, allora tali variabili, condizionatamente a Θ, sono indipendenti e
identicamente distribuite.
Sia S(z) l’insieme ottenuto da una realizzazione del campione z = (x1 , . . . , xm ,
y1 , . . . , yn ) permutando gli elementi di z in tutti gli (m + n)! modi possibili.
Vale la seguente definizione:

Definizione 2.2.3 Si dicono test di permutazione i test δ che soddisfano


X
δ(z 0 ) = α(m + n)! (2.2)
z 0 ∈S(z)

dove α è il livello del test.

Una condizione sufficiente affinchè un test di permutazione sia esatto è la


scambiabilità delle osservazioni.
Si supponga ora di avere due campioni, X1 , . . . , Xm con funzione di dis-
tribuzione F (x), e Y1 , . . . , Yn con funzione di distribuzione F (x − ∆), e si
supponga anche che F abbia densità f . Nel caso di un test avente come
ipotesi
H0 : f = f (x1 , . . . , xm , y1 , . . . , yn )
(2.3)
H1 : f = f (x1 , . . . , xm , y1 − ∆, . . . , yn − ∆)
vale il seguente teorema.

Teorema 2.2.4 Sia F la famiglia di tutte le distribuzioni (n+m)-dimensionali


con densità f , integrabili e simmetriche nei loro argomenti. Si vogliono sot-
toporre a verifica le ipotesi 2.3. Un test δ è non distorto e di livello α per
ogni f ∈ F se e solo se vale la 2.2, ovvero se
X
δ(z 0 ) = α(m + n)!
z 0 ∈S(z)

quasi ovunque.

19
Dimostrazione. Dato un campione Z1 , . . . , Zm+n di variabili aleatorie, si
dice statistica d’ordine T (Z) = (Z(1) , . . . , Zm+n ) la statistica definita da:
Z(1) = min{Zi }
Z(2) = min{Zi : Zi ≥ Z(1) }
..
.
Z(n) = min{Z(i) : Z(i) ≥ Z(n−1) }
Date Z1 , . . . , Zm+n , m + n variabili aleatorie, la statistica d’ordine T (Z) =
T (Z1 , . . . , Zm+n ) = (Z(1) , . . . , Z(m+n) ) è sufficiente e completa. Una ulte-
riore condizione necessaria e sufficiente affinché il test sia non distorto è
che E[δ(Z)|T (z)] = α quasi ovunque. Calcoliamo ora la distribuzione di Z
condizionata a T (Z): osserviamo che la densità di T (Z) vale
(m + n)! m+n
 Q
i=1 f (ti ) se t1 ≤ . . . ≤ tm+n
0 altrimenti
La densità di Z condizionata a T (Z) vale allora:
f (z1 , . . . , zm+n |Z1 = t1 , . . . , Zm+n = tm+n )
( Q
i fQ
(zi )
(m+n)! i f (zi ) se Z1 = t1 , . . . , Zm+n = tm+n
=
0 altrimenti
ovvero la densità di Z condizionata a T (Z) assegna probabilità 1/(m + n)!
ad ogni elemento di S(z). Si può concludere che E[δ(Z)|T (z)] = α se e solo
1 0
P
se (m+n)! z ∈S(z) δ(z ) = α e il teorema è dimostrato.
0

2.3 Test di permutazione non distorti


Si vuole ora studiare il test di permutazione con un nuovo tipo di ipotesi. A
tale scopo è bene introdurre prima il concetto di ordine stocastico.
Definizione 2.3.1 Siano X una variabile aleatoria avente funzione di dis-
tribuzione F e Y un’altra variabile aleatoria avente funzione di distribuzione
G. Si dice che G è stocasticamente maggiore di F (o anche che Y è
stocasticamente maggiore di X) e si scrive
Y ≥ST X
se vale
F (x) ≥ G(x) per ogni x ∈ R. (2.4)

20
F (x) e G(x) rappresentano le probabilità che la variabile aleatoria di cui
sono distribuzione sia minore o uguale a x, ovvero rappresentano, in un
certo senso, le probabilità di ottenere ”piccoli valori”: la relazione (2.4)
esprime il fatto che piccoli valori sono meno probabili con G che con F .
Siano X1 , . . . , Xm variabili aleatorie indipendenti e identicamente dis-
tribuite con funzione di distribuzione F e siano Y1 , . . . , Yn variabili aleatorie
indipendenti e identicamente distribuite con funzione di distribuzione G. Le
ipotesi che si vogliono sottoporre a verifica sono le seguenti:

H0 : F = G
H1 : F 6= G

dove con l’espressione F 6= G si intende che F è stocasticamente maggiore


o minore di G.

Teorema 2.3.2 Siano X1 , . . . , Xm variabili aleatorie indipendenti e identi-


camente distribuite con funzione di distribuzione F e siano Y1 , . . . , Yn vari-
abili aleatorie indipendenti e identicamente distribuite con funzione di dis-
tribuzione G. Sia β(F, G) la funzione potenza del test δ(X1 , . . . , Xm ; Y1 , . . . , Yn ).
Si supponga di prendere la somma
n
X
Yj (2.5)
j=1

di tutti gli elementi Yj , di scegliere in maniera casuale n elementi fra gli


m + n e calcolare la relativa somma, e di ripetere il calcolo per tutte le
m+n
n possibili scelte.
Il test di permutazione δ(X1 , . . . , Xm ; Y1 , . . . , Yn ) = 1 solo se il valore
della somma (2.5) cade tra gli α m+n n valori più grandi, dove α è il livello di
tale test. Allora β(F, F ) = α e β(F, G) ≥ α per tutte le coppie di funzioni di
distribuzione per cui vale che Y ≥ST X; analogamente vale che β(F, G) ≤ α
se Y ≤ST X.

Si osservi che β(F, F ) = α equivale a dire che il test è esatto, mentre


β(F, G) ≥ α equivale a dire che è non distorto. Per poter dimostrare il
teorema è necessario introdurre i seguenti lemmi.

Lemma 2.3.3 Siano F0 e F1 due funzioni di distribuzione a valori reali.


Allora F1 (x) ≤ F0 (x) per ogni x (ovvero F1 è stocasticamente maggiore di
F0 ) se e solo se esistono una variabile aleatoria V e due funzioni monotone
non decrescenti h0 e h1 tali che:

21
• h0 (v) ≤ h1 (v) per ogni v.

• Le variabili aleatorie h0 (V ) e h1 (V ) hanno come funzione di distribuzione


rispettivamente F0 e F1 .

Dimostrazione. Si supponga che esistano h0 , h1 e V . Allora vale:

F1 (x) = P [h1 (V ) ≤ x] ≤ P [h0 (V ) ≤ x] = F0 (x).

La precedente disuguaglianza vale per ogni x, quindi F1 (x) ≤ F0 (x) per ogni
x.
Viceversa, si supponga che F1 (x) ≤ F0 (x) per ogni x. Si definisce:

hi (y) = inf{x : Fi (x − 0) ≤ y ≤ Fi (x)} con i = 0, 1

dove l’espressione Fi (x − 0) è equivalente a limt→x− Fi (t).


Vale che hi (Fi (x)) ≤ x per ogni x, perché hi (Fi (x)) = inf{x : Fi (x − 0) ≤
Fi (x) ≤ Fi (x)}, con i = 0, 1 e vale il ≤ perché hi è definita con un inf.
Vale che Fi (hi (y)) ≥ y per ogni y, perché hi (y) è l’inf degli x per cui vale
y ≤ Fi (x). Quindi ho:

hi (Fi (x)) ≤ x Fi (hi (y)) ≥ y ∀x, y i = 0, 1 (2.6)

Si prenda ora un x0 generico: si ha che y ≤ Fi (x0 ) implica che hi (y) ≤


hi (Fi (x0 )) perchè hi è monotona non decrescente. Da hi (y) ≤ hi (Fi (x0 )),
grazie alla prima delle relazioni (2.6), si ha che hi (y) ≤ hi (Fi (x0 )) ≤ x0 e si
può concludere che
hi (y) ≤ x0 . (2.7)
Analogamente hi (y) ≤ x0 implica che Fi (hi (y)) ≤ Fi (x0 ) per la monotonia
della funzione di distribuzione e quindi, per la seconda relazione di (2.6),
vale Fi (hi (y)) ≤ Fi (x0 ) e si può concludere che

y ≤ Fi (x0 ) (2.8)

Le relazioni (2.7) e (2.8) sono equivalenti.


Ora si consideri la variabile aleatoria uniforme in [0, 1] V . Vale

P [hi (V ) ≤ x] = P [V ≤ Fi (x)] = Fi (x) con i = 0, 1

grazie all’equivalenza delle relazioni (2.7) e (2.8). Poiché per ipotesi F1 (x) ≤
F0 (x) per ogni x, si può concludere che h0 (y) ≤ h1 (y) per ogni y.

22
Lemma 2.3.4 Siano X1 , . . . , Xm variabili aleatorie indipendenti e iden-
ticamente distribuite con funzione di distribuzione F , e siano Y1 , . . . , Yn
variabili aleatorie indipendenti e identicamente distribuite con funzione di
distribuzione G. Sia δ(X1 , . . . , Xm ; Y1 , . . . , Yn ) un test tale che:

• Sotto l’ipotesi nulla che F = G tale test ha livello α.

• Se yi ≤ yi0 per ogni i = 1, . . . , n, allora δ(x1 , . . . , xm ; y1 , . . . , yn ) ≤


δ(x1 , . . . , xm ; y10 , . . . , yn0 ).

Allora il valore atteso di δ è maggiore o uguale di α per tutte le coppie


di funzioni di distribuzione per le quali Y è stocasticamente maggiore di
X. Analogamente il valore atteso è minore o uguale ad α nel caso in cui
X ≥ST Y .

Dimostrazione. Dire che Y è stocasticamente maggiore di X equivale a


dire che G è stocasticamente maggiore di F . Grazie al lemma (2.3.3) si
può dire che esistono due funzioni non decrescenti f e g (che nel teorema
precedente erano state indicate con h0 e h1 ) e V1 , . . . , Vm+n variabili aleatorie
indipendenti e identicamente distribuite tali che le funzioni di distribuzione
di f (Vi ) sono F e le funzioni di distribuzione di g(Vi ) sono G. Sempre per il
lemma (2.3.3) vale che f (z) ≤ g(z) per ogni z.
La prima ipotesi del teorema equivale a

E [δ(f (V1 ), . . . , f (Vm ); f (Vm+1 ), . . . , f (Vm+n ))] = α.

Detta β la funzione potenza, e detta β(F, G) la funzione potenza dipendente


da F e G, vale che

E [δ(f (V1 ), . . . , f (Vm ); g(Vm+1 ), . . . , g(Vm+n ))] = β.

Poiché per ipotesi f (z) ≤ g(z) per ogni z, vale anche che f (vi ) ≤ g(vi ) per
ogni vi dove vi è una generica realizzazione di Vi .
Per ogni realizzazione (v1 , . . . , vm+n ) per ipotesi vale che

δ(f (V1 ), . . . , f (Vm ); f (Vm+1 ), . . . , f (Vm+n )) ≤

δ(f (V1 ), . . . , f (Vm ); g(Vm+1 ), . . . , g(Vm+n ))

e la stessa disuguaglianza vale passando ai valori attesi da entrambe le par-


ti, quindi β ≥ α. La dimostrazione nel caso X ≥ST Y è completamente
analoga.

23

Dimostrazione del teorema 2.3.2. Per dimostrare il teorema, si
applichi il lemma (2.3.4). Se sono verificate le ipotesi di tale lemma, si può
concludere che δ è non distorto.
Il fatto che β(F, F ) = α segue dal teorema (2.2.4) e dalla definizione di
δ. Il primo punto del lemma (2.3.4) è verificato. La definizione di test di
permutazione data dall’espressione (2.2) diventa ora
 
X
0 m+n
δ(z ) = α .
0
n
z ∈S(z)

La (2.2) era riferita ad un test su un solo campione e il numero di permu-


tazioni era dato da (m + n)!, mentre  ora ho due campioni e, sommando
m+n
solo su n elementi, ho in tutto n possibili permutazioni. Si verifichi il
secondo punto. Sia zi , con i = 1, . . . , m + n una generica realizzazione tra
le (x1 , . . . , xm ; y1 , . . . , yn ) realizzazioni. δ = 1 solo se
m+n
X
Zi
i=m+1

compreso tra gli α m+n



(è una riscrittura della (2.5)) assume un valore n
valori più grandi ottenuti a partire dalle m+n

n permutazioni. In particolare,
Pm+n Pm+n
i=m+1 Zi è maggiore di un certo numero di somme del tipo i=m+1 zji
ottenute dalle permutazioni delle zi , dove ji indica ina generica permutazione
di indici.
δ = 1 solo se vi è un certo numero di differenze
m+n
X m+n
X
zi − zji
i=m+1 i=m+1

positive.
Pe una particolare permutazione di indici (j1 , . . . , jm+n ) vale
m+n
X m+n
X p
X p
X
zi − zji = zs i − zr i (2.9)
i=m+1 i=m+1 i=1 i=1

dove r1 < . . . < rp rappresentano gli interi jm+1 , . . . , jm+n che sono minori o
uguali a m, mentre s1 < . . . < sp rappresentano gli interi m+1, . . . , m+n che
non erano compresi nell’insieme jm+1 , . . . , jm+n . Come esempio di questo
fatto si considerino 5 realizzazioni z1 , z2 , z3 , z4 , z5 e sia m = 2 e n = 3, e si
consideri una generica permutazione:

24
m=2 n=3
z 1 z2 z3 z4 z5
z3 z1 z4 z5 z2

Con questa scelta di permutazione, riscrivendo la (2.9), si ottiene la seguente


uguaglianza:

z3 + z4 + z5 − z1 − z 5 − z2 = z3 + z4 − z1 − z2 .

La sequenza di permutazione vale infatti (3, 4, 1, 2, 5). Gli interi jm+1 , . . . , jm+n
che sono minori o uguali a m sono 1 e 2, mentre gli interi m + 1, . . . , m + n
che non sono compresi nell’insieme jm+1 , . . . , jm+n sono 3 e 4. Con queste
osservazioni
P si verifica P l’uguaglianza.
Se pi=1 zsi − pi=1 zri è positiva, e se yP 0
i ≤ yi , ovvero zi ≤ zi0 per i =
p p
m + 1, . . . , m + n allora anche la differenza i=1 zs0 i − i=1 zri è positiva e
P
quindi δ soddisfa il primo punto del lemma (2.3.4).

2.4 Test UMP


Si vuole ora determinare il test che, soddisfando (2.2), massimizzi la funzione
potenza. Le nuove ipotesi del test, del tutto generali, che vengono prese in
considerazione sono le seguenti: dato un campione di Zi

H0 : Zi hanno densità p0 (z)


(2.10)
H1 : Zi hanno densità p1 (z)

Viene riportato di segutito il lemma di Neymann-Pearson nella sua versione


non parametrica.

Teorema 2.4.1 Siano P0 e P1 due funzioni di distribuzione e p0 e p1 le


rispettive densità. Si consideri un test δ tale che:

δ(z) = 1 se p1 (z) > kp0 (z)


(2.11)
δ(z) = 0 se p1 (z) < kp0 (z)

per k > 0, e
α = E0 [δ(Z)]. (2.12)
Allora:

• Ogni test che soddisfa (2.11) e (2.12) è un test UMP di livello α.

25
• Se esiste un test δ che soddisfa (2.11) e (2.12) e se un altro test δ 0
è UMP di livello α per le ipotesi (2.10), allora δ 0 soddisfa (2.11) e
(2.12) tranne al più in un insieme A di misura nulla per entrambe le
distribuzioni.

Prima di passare alla trattazione dei test UMP, viene riportato un risultato
che sarà utilizzato in seguito.
Siano X1 , . . . , Xn variabili aleatorie indipendenti e identicamente dis-
tribuite con funzione di distribuzione continua e sia

T (X1 , . . . , Xn ) = (X(1) , . . . , X(n) )

la statistica d’ordine. Senza perdere in generalità si può restringere l’at-


tenzione a valori tali che x(1) < . . . , < x(n) , dato che la probabilità che
due elementi distinti siano uguali è 0. Sia X l’insieme di tutte le n-uple
x1 , . . . , xn , sia T l’insieme di tutte le n-uple ordinate e siano A e B le classi
di sottoinsiemi di Borel di X e di T . Si può dire che T è una trasformazione
misurabile dallo spazio (X , A) allo spazio misurabile (T , B).
Con la trasformazione T −1 l’insieme formato dalla singola n-upla
a = (a1 , . . . , an ) viene trasformato nell’insieme contenente le n-uple del
tipo (ai1 , . . . , ain ) (dove i1 , . . . , in è una generica permutazione degli indici
1 . . . , n) ovvero viene trasformato nell’insieme contenente tutte le n! possi-
bili permutazioni di elementi di a. La trasformazione T −1 induce su (X , A)
il nuovo insieme A0 = T −1 (B) = {T −1 (B) : B ∈ B}. La classe A0 ottenu-
ta da T applicando la trasformazione T −1 è simmetrica nel senso che, se
un insieme A0 (elemento di A0 ) contiene la n-upla x = (x1 , . . . , xn ), allora
contiene anche tutte le n-uple x = (xi1 , . . . , xin ).
Per ogni funzione integrabile f , sia
1 X
f0 (x) = f (xi1 , . . . , xin )
n!
dove la sommatoria è estesa a tutte le n! permutazioni di (x1 , . . . , xn ). Poichè
f0 (x) è simmetrica nei suoi n argomenti (perché permutando x1 , . . . , xn il
valore di f0 (x) non cambia), f0 (x) è A0 misurabile. Vale inoltre:
Z Z
f (x1 , . . . , xn )dP (x1 ) . . . dP (xn ) = f (xi1 , . . . , xin )dP (x1 ) . . . dP (xn )
A0 A0

e da questa uguaglianza si può dimostrare che vale

f0 (x) = E[f (X)|T (x)].

26
La formula precedente può essere ricavata anche senza supporre che
X1 , . . . , Xn siano indipendenti e identicamente distribuite. Si supponga
che X1 , . . . , Xn abbia densità congiunta h(x) rispetto ad una misura µ
(come per esempio la misura di Lebesgue), che sia simmetrica nelle vari-
abili x1 , . . . , xn , nel senso che per ogni A ∈ A tale densità assegni all’in-
sieme {x : (xi1 , . . . , xin ) ∈ A} la stessa misura per tutte le permutazioni
(i1 , . . . , in ).
Sia P
f (xi1 , . . . , xin )h(xi1 , . . . , xin )
f0 (x1 , . . . , xn ) = P
h(xi1 , . . . , xin )
dove le somme si intendono estese a tutte le n! permutazioni di (x1 , . . . , xn ).
La funzione f0 è simmetrica nei suoi n argomenti e quindi è A0 misurabile.
Per ogni insieme A0 , l’integrale
Z
f0 (x1 , . . . , xn )h(xi1 , . . . , xin )dµ(x1 , . . . , xn )
A0

ha lo stesso valore per ogni permutazione (xi1 , . . . , xin ) e quindi


R
A0 f0 (x1 , . . . , xn )h(x1 , . . . , xn )dµ(x1 , . . . , xn )

1
R P
= A0 f0 (x1 , . . . , xn ) n! h(xi1 , . . . , xin )dµ(x1 , . . . , xn )
R
= A0 f (x1 , . . . , xn )h(x1 , . . . , xn )dµ(x1 , . . . , xn )

e quindi si dimostra che f0 (x) = E[f (X)|T (x)]. concludendo, si è dimostrato


che P
f (xi1 , . . . , xin )h(xi1 , . . . , xin )
E[f (X)|T (x)] = P (2.13)
h(xi1 , . . . , xin )
Ritornando ai test UMP, si osservi che per ipotesi del tipo H0 : Zi ∼ g(z)
contro H1 : Zi ∼ h(z), con i = 1 . . . , m + n e con g e h densità fissate, la
funzione potenza di un test δ per queste ipotesi vale:
Z Z
δ(z)h(z)dz = E[δ(Z)|T (Z) = t]dPT (t)

dove PT (t) è la funzione di distribuzione della statistica d’ordine. Grazie


all’equazione (2.13), si dimostra che
P
z∈S(t) δ(z)h(z)
E[δ(Z)|T (Z) = t] = P .
z∈S(t) h(z)

27
Per massimizzare la potenza di δ soddisfacendo anche la condizione (2.2) è
necessario massimizzare E[δ(Z)|T (Z) = t] per ogni t soddisfacendo anche
la (2.2). Il problema si riduce a determinare una funzione δ(z) tale che,
soddisfacendo X 1
δ(z) =α
(m + n)!
z∈S(t)

massimizzi
X h(z)
δ(z) P 0
.
z∈S(t) z 0 ∈S(t) h(z )

Applicando il lemma di Neymann-Pearson, tale espressione raggiunge il suo


massimo rifiutando l’ipotesi nulla per quegli elementi z di S(t) per i quali

h(z)
P 0
(2.14)
z 0 ∈S(t) h(z )

raggiunge valori massimi. Il test UMP di livello α è il seguente:



1 se h(z) > C[T (z), α]
δ(z) =
0 se h(z) < C[T (z), α]

dove C[T (z), α] è un valore che dipende da T (z) e da α.


Per eseguire questo test si ordinano le permutazioni in base ai valori della
densità h e si rifiuta l’ipotesi nulla per i k valori più grandi, dove k è un
intero tale che
k ≤ α(m + n)! ≤ k + 1.
Esempio. Sia m + n = N e siano Z1 , . . . , Zm e Zm+1 , . . . , Zm+n due
campioni con distribuzione Normale. Le ipotesi del test che si vuole eseguire
sono le seguenti:

H0 : Zi ∼ N (η, σ 2 ) i = 1, . . . , m + n
(2.15)
Z ∼ N (η, σ 2 ) i = 1, . . . , m
H1 : i
Zi ∼ N (η + ∆, σ 2 ) i = m + 1, . . . , m + n

con ∆ > 0. Si vuole eseguire un test sull’uguaglianza delle medie dei due
campioni (aventi la stessa varianza). Tale test può essere esguito con le
tecniche dei test parametrici, ma ora lo si vuole eseguire con la teoria dei
test di permutazione, per mostrare che si giunge alle medesime conclusioni.

28
Per prima cosa si calcola la distribuzione congiunta sotto l’ipotesi H1 :
n hP io
1 N/2 exp − 1 m 2+
Pm+n 2
h(z) = ( 2πσ 2 ) 2σ 2
(z
j=1 j − η) j=m+1 j (z − η − ∆)
n hP
1 N/2 exp − 1 m 2
Pm+n 2
= ( 2πσ 2) 2σ 2 j=1 (zj − η) + j=m+1 (zj − η) +
io
+ m+n
P 2
Pm+n
j=m+1 ∆ − 2∆ j=m+1 (zj − η)

n hP
1 N/2 exp − 1 m+n 2
Pm+n
= ( 2πσ 2) 2σ 2 j=1 (zj − η) − 2∆ j=m+1 (zj − η)+
2

+n∆
n hP
1 N/2 exp 1 m 2
Pm+n
= ( 2πσ 2) − 2σ2 j=1 (zj − η) − 2∆ j=m+1 zj +
2

+2n∆η + n∆
n hP
1 N/2 exp − 1 m 2
Pm+n
= ( 2πσ 2 ) 2σ 2 j=1 (zj − η) − 2∆ j=m+1 zj +
+n∆(2η + ∆)]}

Prima di sostituire nella formula (2.14), si possono eliminare tutti i fattori


che
Pm+nrimangono costanti nelle permutazioni: questi fattori sono (1/2πσ 2 )N/2 ,
j=1 zj e n∆(2η + ∆). Il test rifiuta l’ipotesi nulla quando
 
 ∆ m+n
X 
exp zj > C[T (z), α] (2.16)
 σ2 
j=m+1

ovvero quando la somma delle osservazioni del secondo campione m+n


P
z
j=m+1 j
supera un certo valore. Si valuta questa somma per tutte le m+n n permu-
tazioni e la regione di rifiuto, grazie al teorema (2.3.2), è formata dagli
α m+n
n valori più grandi.
Dalla teoria dei test parametrici (si veda ad esempio [11]), il test per le
ipotesi (2.15) rifiuta l’ipotesi nulla quando

Ȳ − X̄
q > z1−α (2.17)
σ 2 ( n1 + 1
m)

dove z1−α è il quantile di ordine α. I risultati ottenuti con il test di permu-


tazione e con il test parametrico conducono allo stesso processo decisionale.
Per semplicità tale uguaglianza viene mostrata nel caso in cui m = n. La

29
(2.16) può essere riscritta come
2n
X σ2
zj > ln (C[T (z), α]) (2.18)

j=n+1

Per quanto riguarda il caso parametrico, si può osservare che i due campioni
hanno densità Xi ∼ N (µ, σ 2 ) e Yi ∼ N (µ+∆, σ 2 ). Le Yi possono essere viste
come la somma di due variabili aleatorie Normali entrambe con varianza σ 2 ,
una con media µ e l’altra con media ∆: le Yi possono quindi essere riscritte
come Yi = Xi + i , dove Xi ∼ N (µ, σ 2 ) e i ∼ N (∆, σ 2 ). Il termine di
sinistra della (2.17) può essere riscritto come
Pn
j=1 j

2nσ 2
e quindi (2.17) diventa
Xn √
j > z1−α 2nσ 2 (2.19)
j=1
A meno di fattori costanti, che possono rientrare nella costante C[T (z), α],
le sommatorie delle espressioni (2.18) e (2.19) coincidono e quindi, a patto
di prendere un adeguato valore per C[T (z), α], i processi decisionali (2.18)
e (2.19) portano alle medesime conclusioni.
Tutti i precedenti risultati sono stati riportati da Good [5] e da Lehmann [9]

2.5 Comportamento asintotico


I test di permutazione sono molto utilizzati perché in molte situazioni reali,
in cui si hanno campioni di ampiezza piccola e con funzione di distribuzione
incognita, rappresentano l’unico processo decisionale utilizzabile per eseguire
delle analisi inferenziali. Nel caso di campioni con funzione di distribuzione
incognita infatti non è possibile applicare nessuna tecnica parametrica; se
poi il campione è anche di piccole dimensioni non si può neppure applicare
nessun risultato per l’asintotica normalità. L’unica strada percorribile è
allora quella di utilizzare i test di permutazione, in quanto è l’unica tecnica
di inferenza che non ha richieste molto restrittive sui dati a disposizione.
Nel caso invece in cui il campione è molto grande, si può dimostrare che
la potenza dei test di permutazione si avvicina a quella dei test parametrici
più potenti. Tali risultati, dovuti a Romano [14], possono essere molto
interessanti dal punto di vista teorico, ma nella pratica sono poco utilizzabili
perchè se si hanno a disposizione campioni di ampiezza molto grande si
preferisce utilizzare tecniche di inferenza basate sull’asintotica normalità.

30
2.5.1 Test per un campione
Dato X = (X1 , . . . , Xn ) campione di ampiezza n e con funzione di dis-
tribuzione incognita F . Per prima cosa si vogliono sottoporre a verifica le
seguenti ipotesi sull media:

H0 : µ(F ) = µ0
H1 : µ(F ) 6= µ0 .

dove µ = µ(F ) è la media del campione X. Per semplicità si può considerare


µ0 = 0.
Sia Gn un gruppo di trasformazioni g della forma

g(x) = g(x1 , . . . , xn ) = ((−1)j1 x1 , . . . , (−1)jn xn ),

dove ji vale 0 o 1, con i = 1, . . . , n.


Data una statistica test Sn (X) = Sn (X1 , . . . , Xn ), sia Rn (x, Gn ) la fun-
zione di distribuzione empirica di tutti i possibili valori di S(g(x)) al variare
di g in Gn , ovvero l’insieme di tutti i possibili valori assunti da S(g(x)) al
variare di g in Gn .
Tra 1/2
P tutte le statistiche, si sceglie Sn (X1 , . . . , Xn ) = n X̄n , dove X̄n =
1/n i Xi , e sia Jn (x, F ) la funzione di distribuzione della statistica Sn (X)
valutata in corrispondenza dei valori originali.
Si consideri la statistica d’ordine T (X) = (Sn(1) (X), . . . , Sn(M ) (X)),
dove M = 2n , ottenuta ordinando tutti i valori che Sn (X) può assumere
in corrispondenza di tutte le trasformazioni g appartenenti a Gn . Il test di
permutazione δ = δ(X1 , . . . , Xn ) rifiuta l’ipotesi nulla se

Sn (X) > Sn(k) (X)

dove Sn (X) è la statistica valutata in corrispondenza delle osservazioni


originali, mentre k è tale che

k ≤ α2n ≤ k + 1

dove α è il livello del test e 2n è il numero di elementi di Gn .

Teorema 2.5.1 Sia X1 , . . . , Xn un campione proveniente da una popolazione


con funzione di distribuzione F con media nulla e varianza σ 2 (F ) > 0 finita.
Allora, per n → ∞,

sup |Rn (x, Gn ) − Jn (x, F )| → 0 (2.20)


x

31
con probabilità 1, e
 
x
sup Rn (x, Gn ) − Φ
→0 (2.21)
x σ(F )

con probabilità 1. Inoltre


rn → σ(F )z1−α , (2.22)
dove rn è il valore critico del test e z1−α è il quantile di ordine 1 − α, con
probabilità 1 e
EF [δ(X1 , . . . , Xn )] → α (2.23)

Il teorema implica che la probabilità di commettere un errore di primo tipo


tende ad α, ovvero al livello, anche se F non è simmetrica.
Prima di procedere alla dimostrazione del teorema è necessario enunciare
il seguente lemma:

Lemma 2.5.2 Sia y1 , y2 , . . . una sequenza di numeri che soddisfano


n
X y2
lim i
= σ2
n→∞ n
i=1

per qualche σ 2 > 0. Siano 1 , 2 , . . . variabili aleatorie indipendenti e iden-


ticamente distribuite tali che
1
P [i = 1] = P [i = −1] = .
2
√ P
Sia Sn = 1/ n yi i . Allora Sn converge in distribuzione ad una Normale
di media nulla e varianza σ 2 .

Dimostrazione del teorema 2.5.1. Si considerino le Xj fissate, cosı̀ che


√ P
Rn (x, Gn ) è la funzione di distribuzione di 1/ n Xj j , dove j sono vari-
abili aleatorie indipendenti e identicamente distribuite che assumono val-
ore +1 o −1 con probabilità 1/2. Grazie alla legge dei grandi numeri,
Pn Xi2 2
i=1 n → σ (F ) con probabilità 1.  Quindi grazie al lemma 2.5.2, se
P Xi2 x

→ σ 2 (F ) allora Rn (x, Gn ) → Φ σ(F ) e per ogni x fissato Rn (x, Gn ) →
n 
x
Φ σ(F ) con probabilità 1. Sia Q un generico sottoinsieme denso di R.
Allora  
x
sup Rn (x, Gn ) − Φ
→0
x∈Q σ(F )

32
con probabilità 1. Da questo si dimostra che Rn (·, Gn ) converge debolmente
a Φ(·/σ(F )) per quasi tutte le sequenze campionarie X1 , X2 , . . .. Dal mo-
mento che tale distribuzione limite è continua, segue che la convergenza è
uniforme in x, vale (2.21). Da (2.21) e dal fatto che Jn (x, F ) → Φ(x/σ(F ))
uniformemente in x, segue (2.20). Per provare (2.22), si noti che ogni volta
che Hn (·) è una sequenza di funzioni di distribuzione che convergono uni-
formemente ad una funzione di distribuzione H(·) continua e strettamente
crescente, allora Hn−1 (1 − α) → H −1 (1 − α); in questo caso Hn−1 (1 − α)
può essere qualsiasi numero compreso tra sup{x : Hn (x) ≤ (1 − α)} e
inf{x : Hn (x) ≥ (1 − α)}. Poiché rn è il quantile 1 − α di Rn (·, Gn ), segue
(2.22).

Per condurre un test sulla mediana, si considerino le seguenti ipotesi:

H0 : med(X1 , . . . , Xn ) = m0
H1 : med(X1 , . . . , Xn ) 6= m0 .

Analogamente a quanto fatto prima, si può porre m0 = 0. Mantenen-


do tutte le notazioni precedenti, eccetto Sn che diventa Sn (X1 , . . . , Xn ) =
n1/2 med(X1 , . . . , Xn ), si ha il seguente risultato:

Teorema 2.5.3 Sia X1 , . . . , Xn un campione proveniente da una popolazione


con funzione di distribuzione F con mediana nulla e densità f positiva e con-
tinua in qualche intorno dello 0. Si assuma inlotre che F (x) = 21 + xf (0) +
o(x) quando x → 0. Allora, per n → ∞,

sup |Rn (x, Gn ) − Jn (x, F )| → 0 (2.24)


x

con probabilità 1. Inoltre


 
x
sup Rn (x, Gn ) − Φ →0 (2.25)
x τ (F )

con probabilità 1, dove


1
τ 2 (F ) = .
4f 2 (0)
Infine
rn → τ (F )z1−α (2.26)
con probabilità 1.

33
Prima di procedere alla dimostrazione del teorema è necessario enunciare
il seguente lemma:
Lemma 2.5.4 Sia x1 , . . . , xn una fissata sequenza di numeri. Sia Rn (x) la
funzione di distribuzione di Sn = n−1/2 med(σ1 x1 , . . . , σn xn ), dove le σi sono
variabili aleatorie indipendenti e identicamente distribuite tali che P [σi =
1] = P [σi = −1] = 1/2. Per un vlore fissato x, sia An = An (x) il numero
di xi , con 1 ≤ i ≤ n, tali che |xi | > √1n x. Si assuma che

An
= 1 − n−1/2 2xC + o(n−1/2 ) (2.27)
n
per n → ∞, dove C è una costante positiva. Allora Rn (x) → Φ(2xC).
Dimostrazione del teorema 2.5.3. Sia Rn (·, Gn ) la funzione di dis-
tribuzione di n−1/2 med(σ1 X1 , . . . , σn Xn ), con le Xi considerate fissate. Sia
An = An (x) il numero di Xi , con 1 ≤ i ≤ n, tali che |Xi | > n−1/2 x. Allora
An ∼ BI(n, pn ), dove pn = 1 − [F (n−1/2 x) − F (−n−1/2 )]. Infatti
h i
An = n − n F̂n (n−1/2 x) − F̂n (−n−1/2 )

dove F̂n è la funzione di distribuzione empirica di X1 , . . . , Xn . Si vuole


mostrare che
An
= 1 − n−1/2 2xf (0) + o(n−1/2 )
n
per quasi tutte le sequenze x1 , X2 , . . . in modo che (2.27) valga con proba-
bilità 1.
Si dimostra che

An
lim sup F (−n−1/2 x) − F (n−1/2 x) − + 1 ≤ kn−3/4 (log (n))1/2

n→∞ n
con probabilità 1, dove k è un’opportuna costante. Per ipotesi vale che

F (−n−1/2 x) − F (n−1/2 x) = −2n−1/2 xf (0) + o(n−1/2 ).

Dalle ultime due equazioni si ottiene che


An h i
− 1 = −2n −1/2
xf (0) + o(n −1/2
) + O(n−3/4 (log (n))1/2 )
n
per quasi tutte le sequenze campionarie. Il lemma 2.5.4 può essere applicato
e si può dire che Rn (x, Gn ) → Φ(2f (0)x) con probabilità 1. Da questo si
può dedurre la (2.25).

34
Analogamente a quanto dimostrato nel teorema precedente, Rn (·, Gn )
converge debolmente a Φ(2f (0)·) per quasi tutte le sequenze campionarie.
Da (2.25) e dal fatto che Jn (x, F ) → Φ(x/σ(F )) uniformemente in x, segue
(2.24). Per provare (2.26), si noti che ogni volta che Hn (·) è una sequenza di
funzioni di distribuzione che convergono uniformemente ad una funzione di
distribuzione H(·) continua e strettamente crescente, allora Hn−1 (1 − α) →
H −1 (1−α); in questo caso Hn−1 (1−α) può essere qualsiasi numero compreso
tra sup{x : Hn (x) ≤ (1 − α)} e inf{x : Hn (x) ≥ (1 − α)}. Poiché rn è il
quantile 1 − α di Rn (·, Gn ), segue (2.26).

2.5.2 Test per due campioni


Sia X1 , . . . , Xm un campione di ampiezza m con funzione di distribuzione
FX , e Y1 , . . . , Yn un campione di ampiezza n con funzione di distribuzione
FY , sia Z = (X1 , . . . , Xm ; Y1 , . . . , Yn ) e z = (x1 , . . . , xm ; y1 , . . . , yn ) ∈ Rm+n
una generica realizzazione di Z e sia N = m + n. Sia inoltre (zj1 , . . . , zjN )
una generica permutazione (j1 , . . . , jN ) e sia Π l’insieme di tutte le possibili
permutazioni. Sotto l’ipotesi che FX = FY , tutte le possibili permutazioni
del campione hanno la stessa distribuzione.
Si supponga che FX e FY siano funzioni di distribuzione a valori in R.
Si vuole testare l’uguaglianza delle medie µ dei due campioni, ovvero:

H0 : µ(FX ) = µ(FY )
H1 : µ(FX ) 6= µ(FY ).

Si consideri la statistica test


1
Sm,n (Z) = Sm,n (X1 , . . . , Xm ; Y1 , . . . , Yn ) = √ (X̄m − Ȳn ).
m

Sia Rn (z, Π) la funzione di distribuzione empirica di Tm,n (Z) ottenuta al


variare di tutte le possibili permutazioni in Π.
Analogamente a quanto fatto con i test per un campione, sia T (Z) =
(Sm,n(1) (Z), . . . , Sm,n(M ) ), dove M = N !, la statistica d’ordine ottenuta or-
dinando tutti i valori che Sm,n (Z) può assumere in corrispondenza di tutte
le permutazioni (j1 , . . . , jN ) appartenenti a Π.
Il test di permutazione δ = δ(X1 , . . . , Xn ) rifiuta l’ipotesi nulla se

Sm,n (Z) > Sm,n(k) (Z)

35
dove Sm,n (X) è la statistica valutata in corrispondenza delle osservazioni
originali, mentre k è tale che

k ≤ αN ! ≤ k + 1

dove α è il livello del test e N ! è il numero di elementi di Π.


Teorema 2.5.5 Si supponga che FX e FY abbiano ugual media µ e varianza
n
finita σ 2 (FX ) e σ 2 (FY ) e sia N=m+n. Si assuma che N → λ quando
2
m → ∞, con λ ∈ (0, 1). Sia σp la varianza di λFY + (1 − λ)FX , ovvero
σp2 = λσ 2 (FY ) + (1 − λ)σ 2 (FX ). Allora
 
zσ p
sup Rn (z, Π) − Φ √ → 0
z λ
con probabilità 1, e
σp z1−α
rn → √
λ
con probabilità 1.
Sotto le ipotesi di tale teorema, Sm,n è asintoticamente distribuita come una
Normale di media nulla e varianza σ 2 (FX ) + 1−λ 2
λ σ (FY ), mentre Rn (z, Π)
è asintoticamente distribuita come una Normale di media nulla e varianza
σ 2 (FY ) + 1−λ 2
λ σ (FX ). Le due Normali sono uguali solo se FX e FY hanno
la stessa varianza o se λ = 1/2. Il test sulla media per due campioni è
asintoticamente valido solo se FX e FY hanno la stessa varianza o se i due
campioni hanno dimensioni simili.
Si consideri ora il test con le seguenti ipotesi:
H0 : med(FX ) = med(FY )
H1 : med(FX ) 6= med(FY )

dove med(FX ) = inf{x : FX (x) ≥ 1/2} e med(F h Y ) = inf{y : FY (y) ≥i1/2}.


Si consideri la statistica test Tm (Z) = m 1/2 med(FˆX ) − med(FˆY ) , dove
FˆX è la funzione di distribuzione empirica di X1 , . . . , Xm , mentre FˆY è la
funzione di distribuzione empirica di Y1 , . . . , Yn . Sia RN (z, Π) la funzione di
distribuzione di Tm (Z) ottenuta al variare di tutte le permutazioni in Π.
Teorema 2.5.6 Si supponga che FX e FY abbiano la stessa mediana e la
si indichi con θ. Siano fX e fY le densità di FX e FY , continue e positive
n
in un intorno di θ. Si assuma che N → λ quando m → ∞, con λ ∈ (0, 1).
Sia
τ 2 = [λfY (θ) + (1 − λ)fX (θ)]−1/2 .

36
Allora   

sup RN (z, Π) − Φ √ →0
z λ
con probabilità 1, e √
rN → τ z1−α λ
con probabilità 1.

2.5.3 Il teorema sulle forme lineari


I seguenti risultati sono stati dimostrati da Wald e Wolfowitz [16], [17] e da
Hoeffding [7].
Siano HN = (h1 , . . . , hN ), con N = 1, 2, . . ., delle sequenze di numeri
reali e sia  r
N N
1 X 1 X 
µr (HN ) = hi − hj
N N
i=1 j=1

per ogni r ∈ N.

Definizione 2.5.7 Per ogni funzione f (N ) e per ogni funzione positiva


ϕ(N ), si dice che f (N ) = O(ϕ(N )) se |f (N )/ϕ(N )| è limitato superior-
mente per ogni N .

Si denoti con [ρ] il valore intero più grande minore o uguale a ρ.

Definizione 2.5.8 Tutte le sequenze HN = (h1 , . . . , hN ), con N = 1, 2, . . .


soddisfano la condizione W se, per ogni intero r > 2, vale

µr (HN )
= O(1). (2.28)
[µr (HN )]r/2

Per ogni valore di N sia x = (x1 , . . . , xN ) una realizzazione del vettore


aleatorio X = (X1 , . . . , XN ) che prende valori fra le N ! possibili permu-
tazioni degli elementi della sequenza AN = (a1 , . . . , aN ). Si ipotizzi che ogni
permutazione di AN abbia la stessa probabilità 1/N ! di realizzarsi.

Teorema 2.5.9 Siano AN = (a1 , . . . , aN ) e DN = (d1 , . . . , dN ) due sequen-


ze di numeri reali che soddisfano la condizione W della definizione (2.5.8),
e sia LN una variabile aleatoria definita come
N
X
LN = di Xi .
i=1

37
Allora, per N → ∞, vale
Z t
1 1 2
P [LN − E[LN ] < tσ(LN )] → √ e− 2 x dx
2π −∞

dove E[LN ] è la media di LN e σ(LN ) la deviazione standard.

Per semplicità, la dimostrazione di tale teorema sarà suddivisa in vari lemmi.


L’espressione
LN − E[LN ]
L∗N =
σ(LN )
rimane invariata se si aggiunge a tutti gli elementi di AN o di DN una
costante o se li si moltiplica per una costante. Per questo motivo, le sequenze
AN e DN possono essere sostituite dalle sequenze A0N e DN 0 , i cui elementi

sono definiti nel modo seguente:


 
N
1 1 X
a0i = [µ2 (AN )]− 2 ai − aj  (2.29)
N
j=1

e  
N
d i − 1
1 X
d0i = [µ2 (DN )]− 2 dj  . (2.30)
N
j=1
0 continuano a soddisfare la condizione W . Inoltre
Le sequenze A0N e DN

µ1 (A0N ) ≡ µ1 (DN
0
)≡0 (2.31)

e
µ2 (A0N ) ≡ µ2 (DN
0
) ≡ 1. (2.32)

Lemma 2.5.10 Valgono le seguenti uguaglianze:


X
a0i1 , . . . , a0ik = O(N [N/2] ) (2.33)
i1 <i2 <···<ik ≤N

e X
d0i1 , . . . , d0ik = O(N [N/2] ). (2.34)
i1 <i2 <···<ik ≤N

Dalle equazioni (2.31) e (2.32) e dal fatto che A0N e DN 0 soddisfano la

condizione W , segue che A0N e DN


0 soddisfano le seguenti condizioni:

38
• Esiste una sequenza di numeri l1 , . . . , lr , . . ., tali che

N
1 X r
ai ≤ lr (2.35)
N


i=1

con r = 1, 2, . . . e per ogni N .

• Vale
lim inf µ2 (AN ) > 0. (2.36)
N

• Esiste una costante K positiva tale che, per ogni intero N ∈ N,


N
X
−K ≤ ai ≤ K. (2.37)
i=1

Dimostrazione. Le somme i1 <i2 <···<ik ≤N a0i1 , . . . , a0ik possono essere riscritte


P
come la somma di un numero finito di termini dove ogni termine è il prodotto
dei fattori
XN
Sr = ari
i=1

con r = 1, 2, . . .. Grazie alla (2.37) S1 = O(1) e grazie alla (2.35) Sr = O(N ).


Dal momento che il numero dei fattori Sr (r > 1) in un singolo termine delle
0 0
P
somme i1 <i2 <···<ik ≤N ai1 , . . . , aik è al massimo pari a [k/2], vale (2.33).
Con lo stesso ragionamento si dimostra (2.34).


Lemma 2.5.11 Sia v = (v1 , . . . , vN ) una generica realizzazione del vettore


aleatoria V = (V1 , . . . , VN ). Se x è una generica permutazione degli elementi
di AN , v è la corrispondente permutazione degli elementi di a0N . Sia Y =
i2 ir
V1 · · · Vk Z, dove Z = Vk+1 · · · Vk+r , con ij > 1, j = 1, . . . , r e k, r, i1 , . . . , ir
sono valori fissati indipendenti da N . Allora

E[Y ] = O(N [k/2]−k ). (2.38)

Dimostrazione. Sia E[Y |vk+1 , . . . , vk+r ] la media condizionata di Y quan-


do Vk+1 , . . . , Vk+r sono fissati. Dal lemma (2.5.10) segue che

E[Y |vk+1 , . . . , vk+r ] = O(N [k/2]−k )

e quindi anche E[Y ] = O([k/2] − k).

39


Con ragionamenti analoghi si dimostra che

d0j1 · · · d0jk d0ijk+1


X
1
· · · d0ijk+r
r
= O(N [k/2]−k )O(N k+r ) = O(N [k/2]+r ).
j1 ,...,jk+r
(2.39)

Lemma 2.5.12 Siano i1 , . . . , ik+r k + r valori interi positivi e ≤ N . Vale


i1
E[V1 · · · Vk Vk+1 ir
· · · Vk+r ] = E[Vi1 · · · Vik Viik+1
1
· · · Viik+r
r
]. (2.40)

Dimostrazione. La dimostrazione segue dal fatto che tutte le permutazioni


di A0N hanno la stessa probabilità.

Lemma 2.5.13 Sia


N
X
L0N = d0i Vi .
i=1

Allora vale
E[L0p
N ] = O(N
[p/2]
). (2.41)

Dimostrazione. Si espanda l’espressione di L0p N e si prenda il valor medio


0p
di tutti i termini. Il contributo a E[LN ] di tutti i termini multipli del termine
di destra dell’espressione (2.40), con k, r, i1 , . . . , ir , fissati, tali che k + r +
i1 + · · · + ir = p, è, per i lemmi (2.5.11) e (2.5.12),

O(N [k/2]−k ) j1 6=···6=jk+r d0j1 · · · d0jk d0ijk+1 · · · d0ijk+r = O(N [k/2]−k )O(N [k/2]+r )
P 1 r

.
= O(N 2[k/2]−k+r )

Poiché ij > 1 con j = 1, . . . , r e per ipotesi k + r + i1 + · · · + ir = p, segue


che 2r ≤ p − k e 2r = p − k solo se i1 = · · · = ir = 2. Vale
 
k p−k p
2 −k+r ≤r ≤ ≤ (2.42)
2 2 2

e il lemma è dimostrato.

Dalle considerazioni del precedente lemma segue:

40
Lemma 2.5.14
 
(2k)!  X
E[L02k
N ]− d02 02 
i1 · · · dik E[V12 · · · Vk2 ] = o(N k ). (2.43)
k!2k
i1 6=···6=ik

Lemma 2.5.15
E[L0N ] = 0 (2.44)
E[L02 2
N ] = N E[V1 ] + o(N ) = N + o(N ). (2.45)

Dimostrazione. L’equazione (2.44) segue dalla (2.29).


Si consideri lo sviluppo di tutti i termini di L02
N e se ne faccia la media.
La somma di tutti i termini del tipo
d0i d0j E[Vi Vj ]
è  
X
 d0i d0j  E[Vi Vj ] = O(N )O(N −1 ) = O(1)
i6=j

grazie ai lemmi (2.5.10) e (2.5.11). La somma di tutti i termini del tipo


d02 2
i E[Vi ]


N
!
X
d02
i E[V12 ] = N E[V12 ] = N
i=1
grazie alle formule (2.29) e (2.30).


Lemma 2.5.16
E[V12 · · · Vj2 ] = 1 + o(1) (2.46)
X
d02 02 j
i1 · · · dij = N + o(N ).
j
(2.47)
i1 6=···6=ij

Dimostrazione. Si consideri la relazione seguente:


N
!j
X X
Nj = d2i = d02 02
i1 · · · dij + altri termini.
i=1 i1 6=···6=ij

Grazie alla (2.39) la somma di questi altri termini non può essere maggiore
di O(N j−1 ), e la (2.47) è dimostrata. In modo analogo si dimostra la (2.46).

41

Dimostrazione del teorema 2.5.9. Poiché
L0N LN − E[LN ]
L∗N = = ,
σ(L0N ) σ(LN )
è sufficiente mostrare che i momenti di L∗N tendono a quelli di una dis-
tribuzione Normale quando N → ∞. Dalla (2.44), dalla (2.45) e dalla (2.41)
si vede che, quando p è dispari, il momento p-esimo di L∗N è O(N −1/2 ) e tende
a zero quando N → ∞. Viceversa, quando p è pari ed è uguale a 2s, dal
lemma 2.5.14 segue che
 
(2s)!  X
E[L02s
N ]− d02 02 
i1 · · · dis E[V12 · · · Vs2 ] = o(N s ).
s!2s
i1 6=···6=is

Grazie alla (2.46) e alla (2.47), segue che


(2s)! s
E[L02s
N ]= N + o(N s ). (2.48)
s!2s
Dalla (2.48) e dalla (2.45), segue che

∗2s (2s)!
lim E[LN ]=
N →∞ s!2s
e la dimostrazione del teorema è completata.

Un’applicazione (proposta da Pitman,1937) di questo risultato è la seguente.
Per sottoporre a verifica il fatto che due campioni provengano o meno dalla
stessa popolazione, Pitman ha proposto la seguente procedura. Siano

a1 , . . . , am

le realizzazioni del primo campione di ampiezza m, mentre siano

am+1 , . . . , am+n

le realizzazioni del secondo campione di ampiezza n. Si ponga m + n = N


e si costruiscano le sequenze AN e A0N . Siano inoltre

di = 1 i = 1, . . . , m

di = 0 i = m + 1, . . . , m + n

42
e si costruiscano le sequenze DN e DN 0 . L’espressione della statistica test da

considerare è, a meno di un fattore costante,


N
!
1 X
√ d0i a0i . (2.49)
N i=1

Quando N → ∞ e m/n rimane costante, la sequenza DN soddisfa la con-


dizione W e se anche AN soddisfa la condizione W , allora si può applicare
il teorema 2.5.9 per la statistica test (2.49).
Esiste un altra condizione analoga alla definizione 2.5.8 che soddisfa il
teorema 2.5.9, e viene riportata di seguito senza dimostrazione.
Definizione 2.5.17 Due sequenze HN = (h1 , . . . , hN ) e UN = (u1 , . . . , uN )
soddisfano la condizione H se
PN r
PN r
r/2−1 i=1 (hi − h̄) i=1 (hi − h̄)
lim N r/2 P r/2
N →∞
 PN   
2 N 2
i=1 (hi − h̄) i=1 (hi − h̄)

PN PN
per ogni r > 2, dove h̄ = 1/N i=1 hi e ū = 1/N i=1 ui .

Il teorema sulle forme lineari diventa:


Teorema 2.5.18 Siano AN = (a1 , . . . , aN ) e DN = (d1 , . . . , dN ) due se-
quenze di numeri reali che soddisfano la condizione H della definizione
(2.5.17), e sia LN una variabile aleatoria definita come
N
X
LN = di Xi .
i=1

Allora, per N → ∞, vale


Z t
1 1 2
P [LN − E[LN ] < tσ(LN )] → √ e− 2 x dx
2π −∞

dove E[LN ] è la media di LN e σ(LN ) la deviazione standard.


I teoremi (2.5.9) e (2.5.18) si riferiscono a forme lineari, ma si possono
applicare anche ai test di permutazione e il legame con tali test è molto
semplice. La statistica LN altro non è che una riscrittura più generale della
(2.5), dove al posto di una sequenza generica DN si sceglie una sequenza
DN cosı̀ definita:
di = 0 i = 1, . . . , m
di = 1 i = m + 1, . . . , N

43
con N = m + n.
Con questa scelta la somma pesata delle variabili N aleatorie viene ri-
condotta alla somma delle osservazioni provenienti dal secondo campione,
ovvero alla (2.5).
I teoremi (2.5.9) e (2.5.18) sono una generalizzazione del Teorema del
Limite Centrale. La differenza fondamentale è che mentre nel Teorema
del Limite Centrale le variabili aleatorie devono essere tutte indipenden-
ti e identicamente distribuite, ora non viene più fatta nessuna richiesta
sull’indipendenza delle variabili aleatorie.

2.6 Test di permutazione Monte Carlo


P
Il livello di un test di permutazione basato su una statistica G del tipo Yi
m+n

si ottiene valutando G per ciascuna delle n permutazioni e contando
il numero M di valori ottenuti che sono maggiori o uguali al valore di G
valutato in corrispondenza delle osservazioni originali (in seguito tale valore
M
verrà indicato con Goss ). Il livello α si calcola come il rapporto m+n .
( n )
Anche se concettualmente molto semplice, ci sono in realtà molti prob-
lemi pratici per applicare questo tipo di procedura. Infatti, se il numero
di permutazioni è molto alto, o se G è una funzione complessa da valutare,
anche i moderni calcolatori possono incontrare delle difficoltà.
Un approccio alternativo è quello di scegliere in maniera casuale NR
permutazioni fra tutte quelle possibili, valutare la statistica G per il sottoin-
sieme di permutazioni scelto e contare il numero MR tra questi valori che
sono maggiori o uguali a Goss . Il livello del test calcolato come αR = M NR è
R

una stima del livello α e il suo valore ovviamente dipende dal sottoinsieme
di permutazioni scelto.
Questo metodo, molto utile, è noto in letteratura come Monte Carlo
test. Dal momento che αR è basato su un sottoinsieme di permutazioni, tale
valore è affetto da un errore dipendente dal campionamento eseguito. Per
essere sicuri che tale errore sia sufficientemente piccolo, si deve selezionare
un sottoinsieme di permutazioni sufficientemente grande.
Siano X1 , . . . , Xm e Y1 , . . . , Yn due campioni di ampiezza m e n, e sup-
poniamo che l’ipotesi nulla sia che i due campioni abbiano la stessa dis-
tribuzione. Se è vera l’ipotesi nulla, allora il numero di permutazioni che
producono un valore della statistica maggiore o uguale a Goss è una variabile
aleatoria con distribuzione binomiale di parametri NR e α.
Definizione 2.6.1 Il coefficiente di variazione è una misura della disper-
sione relativa e viene definito come il rapporto tra la deviazione standard e

44
la media, in formula: p
var(X)
,
|E[X]|
dove X è una generica variabile aleatoria.
In questo caso X è la variabile aleatoria che rappresenta il numero di permu-
tazioni che producono un valore della statistica maggiore o uguale a Goss :
il coefficiente di variazione assume in tal caso la seguente forma:
s
(1 − α)
.
NR α
Per trovare valori di NR che permettano di stimare con precisione valori
piccoli di α si impone che il coefficiente di variazione di X sia minore di un
certo valore prefissato, ad esempio 0.05 o 0.1. Per ottenere un coefficiente
di variazione di 0.1 con α = 0.5, NR deve essere pari a 100, ma questo
valore cresce fino a 1900 se α = 0.05. Questo è intuitivamente ragionevole:
un numero maggiore di simulazioni è necessario per determinare, con una
precisione fissata, la probabilità di un evento raro piuttosto che la probabilità
di un evento più comune.
Per determinare NR a partire dal coefficiente di variazione è necessario
conoscere una stima di α. Un primo approccio a questo problema, di tipo
conservativo, è quello di scegliere un valore di α molto piccolo, a patto
però di essere disposti a utilizzare, se il valore di α non è quello esatto,
un numero di permutazioni maggiore del necessario. Questo metodo si usa
per applicazioni in cui risulta agevole campionare anche molte migliaia di
permutazioni, e la valutazione della statistica sia veloce.
Un approccio alternativo, detto sequenziale (Besag e Clifford, 1991), è
utile quando la valutazione della statistica è molto dispendiosa in termini
di tempo o di memoria del calcolatore occupata. L’idea che sta alla base
è che se la statistica osservata non è un valore estremo rispetto alle altre,
allora è probabile che la maggior parte dei valori di G ottenuti a partire dalle
prime (poche) permutazioni siano maggiori di Goss . Per esempio, se 40 tra
le prime 100 osservazioni danno valori della statistica G maggiori di Goss ,
allora risulta chiaro che tale test non rifiuterà l’ipotesi nulla. In tal caso non
serve procedere con altre permutazioni per ottenere una stima sempre più
accurata di αR , perchè è molto probabile che non si rifiuterà l’ipotesi nulla.
D’altro canto, se Goss è un valore estremo, si deve andare avanti a campi-
onare nuove permutazioni fino a ottenere una stima sufficientemente precisa
di α. Besag e Clifford sostengono di dover continuare a campionare permu-
tazioni e calcolare G fino a che non si ottengono h valori di G maggiori di

45
Goss . Se il numero di permutazioni necessarie per ottenere questo è l, allora
la stima di α è αR = h/l. Per h si scelgono solitamente valori pari a 10 o 20,
ma nel caso di campionamenti e valutazioni di G particolarmente onerosi, si
possono scegliere valori di h più piccoli.
I valori dei livelli che si possono ottenere con questo metodo sono valori
discreti, del tipo 0, 1/NR , . . . , (NR − 1)/NR , 1. Nella pratica però NR è
sufficientemente grande da generare una griglia molto fitta di valori.
I risultati appena presentati sono riportati in [1].
Esempio. Due gruppi di topi sono stati trattati con due due differenti
tipologie di diete: per il primo gruppo una dieta con un alto contenuto di
proteine, e per secondo caso con un basso contenuto di proteine. Per en-
trambi i gruppi è stato misurato l’aumento di peso tra il 28esimo e l’84esimo
giorno di trattamento. I dati ottenuti sono riportati in tabella 2.3. Si vuole

Alto contenuto Basso contenuto


134 70
146 118
104 101
119 85
124 107
161 132
107 94
83
113
129
97
123
Totale 1440 707

Tabella 2.3: Aumento di peso in grammi tra il 28esimo e l’84esimo giorno


di trattamento.

vedere se la deviazione standard dell’aumento di peso è la stessa in entrambi


i gruppi. Utilizzando come formula per la deviazione standard
r
p 1 X
var(x) = (xi − x̄)2
n−1
dove x̄ è la media campionaria, si ottiene che la deviazione standard del
primo gruppo è 21.39g e la deviazione standard del secondo è 20.62g. Si

46
decide di considerare come statistica test il rapporto tra le deviazioni stan-
dard dei due gruppi. La tabella 2.4 mostra i valori ottenuti e alcune delle

Permutazioni
Aumento Osservazioni 2 3 4 ... 50388
di peso (g) originali
134 H L H H L
146 H H L H L
104 H H H L L
119 H H H H L
124 H H H H L
161 H H H H L
107 H H H H L
83 H H H H H
113 H H H H H
129 H H H H H
97 H H H H H
123 H H H H H
70 L H H H H
118 L L L L H
101 L L L L H
85 L L L L H
107 L L L L H
132 L L L L H
94 L L L L H
Rapporti 1.037 1.349 1.116 1.653 ... 0.942
delle DevSt

Tabella 2.4: Alcune permutazioni per il test sull’uguaglianza della deviazione


standard. H e L rappresentano il gruppo trattato rispettivamente con alto
e basso contenuto di proteine.

possibili permutazioni. Se è vera l’ipotesi nulla che le deviazioni standard


dei due gruppi sono uguali, allora il valore ottenuto in corrispondenza dei
valori originali, ovvero 1.037, sarà simile ai valori ottenuti in corrispondenza
delle altre permutazioni.
Nell’esempio in esame si hanno a disposizione 19 osservazioni, 12 per
il primo gruppo e 7 per il secondo. Il numero totale di permutazioni è
19

12 = 50388. Invece che generare tutte queste possibili permutazioni, si

47
può utilizzare il Monte Carlo test. Se si utilizza un coefficiente di variazione
pari a 0.1 e se si sceglie α = 0.05, allora sono necessarie 1900 permutazioni,
mentre se α = 0.1, allora ne servono solo 900.
Per 1900 permutazioni, 1760 danno risultati della statistica test mag-
giori di quella originale, e il valore di αR = 1760/1900 = 0.926. Per 900
permutazioni invece si ottengono 844 valori più grandi e αR = 844/900 =
0.938.
Utilizzando l’approccio sequenziale invece, si continua a generare per-
mutazioni finchè non si sono ottenuti 20 valori della statistica test maggiori
del valore originale. Già nelle prime 22 osservazioni si ottengono 20 valori
della statistica test maggiori di 1.037 e si ha αR = 20/22 = 0.909.
In tutti i test eseguiti si sono ottenute stime di α molto alte e simili tra
di loro, e si può concludere il test dicendo che non c’è evidenza per rifiutare
l’ipotesi nulla. Il vantaggio rispetto ad un test di permutazione normale è
che non è stato necessario generare e valutare tutte le 50388 permutazioni
possibili, ma ne è bastato un numero molto più ridotto.

48
Capitolo 3

Linear rank tests

3.1 Introduzione
Un’altra categoria di test non parametrici che spesso viene presentata assieme
ai test di permutazione è quella dei linear rank tests. Come dice il nome stes-
so, questo tipo di test si basa sul concetto di rango di un’osservazione (si
veda a tal proposito la definizione 3.2.1). Secondo alcuni (ad esempio, si
veda Lehmann [10]), i test di permutazione sono un caso particolare dei test
sui ranghi, mentre secondo altri (ad esempio, si veda Hajek e Sidak [6]) i
test sui ranghi sono un caso particolare dei test di permutazione. Quello che
è certo è che i test di permutazione e quelli sui ranghi sono due modi simili
di affrontare lo stesso problema inferenziale.
Da un lato i test di permutazione, utilizzando il valore dell’osservazione,
sfruttano tutta l’informazione contenuta nelle osservazioni stesse, mentre
dall’altro lato i test sui ranghi, basandosi sul rango dell’osservazione, sfrut-
tano già una sintesi delle informazioni contenute nelle osservazioni; in en-
trambi i casi però le conclusioni a cui si giunge sono le medesime.
In questo capitolo verranno presentati i risultati più importanti della
teoria dei linear rank tests e anche alcuni tra i tipi di test più diffusi.

3.2 La statistica test


Come detto prima, i test presentati in questa sezione si basano sul concetto
di rango.

Definizione 3.2.1 Siano X1 , . . . , XN variabili aleatorie. Per ogni N ≥ 1,

49
si dice rango Ri di Xi rispetto a X1 , . . . , XN , il valore
N
X
Ri = u(Xi − Xj ) con i = 1, . . . , N
j=1

dove u(t) : R 7→ {0, 1} è una funzione che assume il valore 0 se t < 0 o 1 se


t ≥ 0.
Con questa definizione, il vettore dei ranghi R = (R1 , . . . , RN ) altro non è
che una possibile permutazione di (1, . . . , N ).
Una statistica S che dipende dal campione solo attraverso il vettore dei
ranghi R si dice rank statistic. A seconda del tipo di test e delle ipotesi che
si vogliono testare, S assume una forma particolare.
si vuole sottoporre a verifica il fatto che tutte le variabili aleatorie X1 , . . . , XN
siano indipendenti e identicamente distribuite con funzione di distribuzione
F : l’ipotesi nulla del test quindi è che le variabili aleatorie siano indipenden-
ti e identicamente distribuite, mentre l’ipotesi alternativa è che le variabili
aleatorie non siano indipendenti e identicamente distribuite. Sotto l’ipotesi
nulla S assume la forma
XN
S= a(i, Ri ), (3.1)
i=1
dove [a(i, j)] è una matrice arbitraria di dimensioni N × N . Si ponga:
N
1 X
a(·, j) = a(i, j)
N
i=1

N
1 X
a(i, ·) = a(i, j)
N
j=1
e
N N
1 XX
ā = 2 a(i, j).
N
i=1 j=1

Sotto l’ipotesi nulla specificata prima la media di S vale

E[S] = N ā (3.2)

mentre la varianza vale


N N
1 XX
var(S) = [a(i, j) − a(·, j) − a(i, ·) + ā]2 . (3.3)
N −1
i=1 j=1

50
Infatti
var(S) = E (S − E[S])2
 

 2 
P N
= E i=1 (a(i, Ri ) − a(·, Ri ) − a(i, ·) + ā)

PN h i
2
= i=1 E (a(i, R i ) − a(·, R i ) − a(i, ·) + ā) +

P
+ i6=j E [a(i, Ri ) − a(·, Ri ) − a(i, ·) + ā] ·

· [a(j, Rj ) − a(·, Rj ) − a(j, ·) + ā] .


Poiché
1
se i 6= j, h 6= k

P [Ri = k; Rj = k] = N (N −1)
0 6 j, h = k
se i =
la varianza diventa
PN PN
var(S) = 1
N i=1 j=1 [a(i, j) − a(·, j) − a(i, ·)ā]2 +

1 P P
N (N −1) i6=j h6=k [a(i, h) − a(·, h) − a(i, ·) + ā]· (3.4)

·[a(j, k) − a(·, k) − a(j, ·) + ā]


Se si osserva che
P
h6=k [a(i, h) − a(·, h) − a(i, ·) + ā][a(j, k) − a(·, k) − a(j, ·) + ā] =

PN
=− h=1 [a(i, h) − a(·, h) − a(i, ·) + ā][a(j, h) − a(·, h) − a(j, ·) + ā]
(3.5)
e che
P
i6=j [a(i, h) − a(·, h) − a(i, ·) + ā][a(j, h) − a(·, h) − a(j, ·) + ā] =
(3.6)
PN
=− i=1 [a(i, h) − a(·, h) − a(i, ·) + ā]2
si ottiene, sostituendo (3.5) e (3.6) nella (3.4)

var(S) = N1 N
P PN 2
i=1 j=1 [a(i, j) − a(·, j) − a(i, ·)ā] +

PN PN
+ N (N1−1) i=1 j=1 [a(i, j) − a(·, j) − a(i, ·)ā]2
PN PN
= 1
N −1 i=1 j=1 [a(i, j) − a(·, j) − a(i, ·) + ā]2

51
e la (3.3) è dimostrata.
Nel caso in cui H0 sia l’ipotesi nulla che ipotizza che le variabili aleato-
rie Xi siano tutte indipendenti e identicamente distribuite, vale il seguente
risultato generale.
Definizione 3.2.2 Sia J un intervallo di R aperto contenente lo 0. Una
famiglia F di densità d(x, θ), con θ ∈ J, si dice che soddisfa la condizione
A se
• d(x, θ) è assolutamente continua in θ per quasi tutti i valori di x.

• Il limite
˙ 0) = lim 1 [d(x, θ) − d(x, 0)]
d(x, (3.7)
θ→0 N
˙ θ) è la derivata parziale
esiste per quasi tutti i valori di x, dove d(x,
di d(x, θ) rispetto a θ.

• Vale Z +∞ Z +∞
lim ˙ θ)|dx =
|d(x, ˙ 0)|dx < ∞.
|d(x, (3.8)
θ→0 −∞ −∞

˙ θ) altro non è che una riscrittura di fθ (x).


L’espressione d(x,
Lemma 3.2.3 Sia la densità f (x) una funzione assolutamente continua che
soddisfa Z +∞
|f 0 (x)|dx < ∞.
−∞
Allora la famiglia F di densità d(x, θ) = f (x − θ) soddisfano la condizione
A.
Dimostrazione. I primi due punti della definizione (3.2.2) sono banalmente
verificati. Si può del resto osservare che
Z +∞ Z +∞
|f 0 (x − θ)|dx
˙
d(x, θ) dx =

−∞ −∞

e che Z +∞ Z +∞
lim |f 0 (x − θ)|dx = |f 0 (x)|dx.
θ→0 −∞ −∞
Per ipotesi vale che Z +∞
|f 0 (x)|dx < ∞.
−∞
e quindi anche il terzo punto della definizione (3.2.2) è dimostrato.

52


Si consideri ora la densità ipotizzata dall’ipotesi alternativa della forma


N
Y
q= d(xi , ∆ci ) (3.9)
i=1

e si introduca una funzione a definita come


" #
˙ (i) , 0)
d(X
a(i, d) = E
d(X(i) , 0)

dove X(i) indica l’i-esimo elemento della statistica d’ordine.

Teorema 3.2.4 Sia F una famiglia di densità d(x, θ), con θ ∈ J, che
soddisfi la condizione A. Allora il test con regione critica
N
X
ci a(Ri , d) ≥ k (3.10)
i=1

con k tale che


N
" #
X
P ci a(Ri , d) ≥ k = α
i=1

è il rank test UMP di livello α per H0 contro ipotesi alternative con densità
q definita dalla (3.9), con ∆ > 0.

Il risultato generale appena enunciato è alla base di tutti i test con H0


che ipotizza l’indipendenza tra le variabili aleatorie che verranno presentati
di seguito.

Definizione 3.2.5 Si dice linear rank statistic una rank statistic S della
forma
XN
S= ci a(Ri ) (3.11)
i=1

dove (c1 , . . . , cN ) e (a(1), . . . , a(N )) sono dei vettori.

Ponendo
N
1 X
ā = a(i)
N
i=1

53
N
1 X
c̄ = ci
N
i=1
e
N
1 X
σa2 = (a(i) − ā)2
N −1
i=1
le formule (3.2) e (3.3) diventano
N
X
E[S] = ā ci
i=1

N
X
var(S) = σa2 (ci − c̄)2 .
i=1
La statistica S definita in (3.11) dipende dal campione X1 , . . . , XN solo
attraverso il vettore dei ranghi R ed dipende anche da una funzione di score
φ(u), con 0 < u < 1, tale che a(Ri ) è una funzione (uno score) dipendente
da φ. La scelta di φ e il tipo di dipendenza di S da φ non sono univoci, ma
dipendono solo dal tipo di test che si vuole utilizzare.

3.3 Test per il parametro di locazione con due


campioni
Siano X1 , . . . , Xm e Y1 , . . . , Yn due campioni di variabili aleatorie con densità
f1 e f2 . Si vuole sottoporre a test l’ipotesi nulla H0 che f1 e f2 siano uguali
anche se incognite, contro l’ipotesi alternativa che f1 e f2 differiscano per il
parametro di locazione, ovvero f1 (x) = f2 (x − ∆). Si ponga per semplicità
Zi = Xi con i = 1, . . . , m e Zm+i = Yi con i = 1, . . . , n, e inoltre sia
N = m+n. Sia Ri , con i = 1, . . . , N il rango dell’osservazione della variabile
Zi .
La densità sotto l’ipotesi alternativa vale:
m
Y N
Y
q= f (xi ) f (xi − ∆) ∆>0 (3.12)
i=1 i=m+1

ovvero il secondo campione è traslato a destra rispetto al primo campione.


Si assuma che f sia assolutamente continua e che valga
Z +∞
|f 0 (x)|dx < ∞. (3.13)
−∞

54
Vale il seguente teorema:
Teorema 3.3.1 Sotto l’ipotesi (3.13) il test con regione critica
N
X
a(Ri , f ) ≥ k
i=m+1

con k tale che hX i


PH0 a(Ri , f ) ≥ k = α, (3.14)
è il test UMP di livello α per Ho contro ipotesi alternative con densità q
definite da (3.12).
Dimostrazione. f per ipotesi è assolutamente continua e soddisfa la (3.13),
quindi per il lemma 3.2.3 f soddisfa la condizione A e vale quindi il teorema
3.2.4. Alla luce di queste considerazioni, il teorema che si vuole dimostrare
discende direttamente dal teorema 3.2.4.

Esistono molti tipi di linear rank test per queste ipotesi, di seguito
verranno presentati i più diffusi.

3.3.1 Normal score tests


Sia Φ(t) la funzione di distribuzione di una Normale standard. Il test che si
vuole prendere in considerazione assume come funzione di score la funzione
inversa della Φ(t), e pone

a(i) = E Φ−1 (U(i) )


 
(3.15)

dove (U(1) , . . . , U(N ) ) è la statistica d’ordine di un campione di ampiezza N


estratto da un’Uniforme in [0, 1]. Ponendo:

Φ−1 (U(i) ) = V(i)

si ottiene che (V(1) , . . . , V(N ) ) è la statistica d’ordine di un campione di


ampiezza N estratto da una Normale standard; cosı̀ facendo, la (3.15)
diventa:  
a(Ri ) = E V(Ri )
e la statistica test è:
N
X
S= a(Ri ).
i=m+1

55
Grazie al teorema 3.3.1 il test con regione critica {S ≥ k}, con k definito
da (3.14), è il test UMP di livello α nel caso in cui f abbia distribuzione
Normale.
La statistica S ha media nulla, mentre la varianza di S vale
N
mn X  2
var(S) = E V(i) .
(m + n)(m + n + 1)
i=1

3.3.2 Test di van der Waerden


Questo test è analogo al precedente, solo che invece di U(i) si utilizza il valore
Ri
m+n+1 , cosı̀ la formula per a diventa
 
−1 Ri
a(Ri ) = Φ
m+n+1

e S diventa
N  
X
−1 Ri
S= Φ .
m+n+1
i=m+1

La statistica S ha media nulla, mentre la varianza di S vale


N    2
mn X
−1 Ri
var(S) = E Φ .
(m + n)(m + n + 1) m+n+1
i=1

3.3.3 Wilcoxon rank-sum test


Il test probabilmente più conosciuto e utilizzato tra i test per due campioni
è il Wilcoxon rank-sum test, che si basa sulla statistica test
N
X
S= Ri (3.16)
i=m+1

ovvero la funzione a(Ri ) diventa semplicemente Ri . Grazie al teorema 3.3.1


si pù vedere che il test con regione critica {S ≥ k} è il test UMP di livello
α per H0 contro ipotesi alternative con ∆ > 0.
La media di S vale
1
E[S] = n(m + n + 1),
2

56
mentre la varianza di S vale
1
var(S) = mn(m + n + 1).
12
Una versione analoga della (3.16) è la statistica U di Mann-Whitney,
cosı̀ definita: sia 
1 se Xi < Yj
Zij =
0 se Xi ≥ Yj
per ogni coppia
Pm di Xi , Yj , con i = 1, . . . , m e j = 1, . . . , n.PCon questa
n
notazione Z
i=1 ij è il numero di X minori di Yj , mentre j=1 ij è il
Z
numero di Y maggiori di Xi . La statistica U è:
m X
X n
U= Zij . (3.17)
i=1 j=1

Si dimostra che anche la media e la varianza di U valgono


E[U ] = 12 n(m + n + 1)

1
var(S) = 12 mn(m + n + 1)

I test aventi come statistiche test la (3.16) e la (3.17) sono totalmente


equivalenti.

3.3.4 Il test sulla mediana


L’ultimo tipo di test per il parametro di locazione presentato in questa
sezione è il test basato sulla mediana. La statistica S si basa sul numero di
osservazioni provenienti dal secondo campione che risultano maggiori della
mediana del secondo campione. In formule:
N  
X 1 1 1
S= sign(Ri − (m + n + 1)) + 1 = (S 0 + n),
2 2 2
i=m+1

dove
N
0
X 1
S = sign(Ri − (m + n + 1)).
2
i=m+1
Tale distribuzione risulta asintoticamente normale nel caso in cui f sia una
densità della forma 12 e−|x| . Valgono inoltre:
1
E[S] = n
2

57
e (
mn
4(m+n−1) se m + n è pari
var(S) = mn
4(m+n) se m + n è dispari

58
Capitolo 4

Esempi ed applicazioni

In questo capitolo vengono presentati alcuni esempi pratici dei test presentati
nei capitoli precedenti.

4.1 Confronto della funzione potenza: esperimen-


to bilanciato
Dati due campioni
X1 , . . . , Xn ∼ N (µ0 , σ 2 )
Y1 , . . . , Yn ∼ N (µ1 , σ 2 )
con distribuzione Normale, si vuole testare l’uguaglianza tra le medie dei
due campioni, ipotizzando che abbiano varianza uguale e nota. Suppongo
inizialmente che i due campioni abbiano la stessa numerosità n (esperimento
bilanciato).
H0 : µ0 − µ1 = 0
H1 : µ0 − µ1 > 0
Lo scopo di questo esempio è quello di affrontare lo stesso problema decision-
ale con due tecniche diverse, un test parametrico e un test di permutazione,
e di confrontare successivamente i grafici delle potenze di questi due test. Mi
aspetto due curve con un andamento simile, ma con una crescita più rapida
per la curva del test parametrico. Per implementare questi test utilizzo il
software Matlab.
Affrontando il problema con tecniche parametriche, è noto dalla teoria
(si veda [11]) che si rifiuta l’ipotesi nulla quando

Z > z1−α

59
dove
X̄ − Ȳ
Z= q ∼ N (0, 1)
2σ 2
n

e dove z1−α è il quantile di ordine 1 − α. Chiamo θ la differenza tra le medie


µ0 e µ1 , ovvero θ = µ0 − µ1 , con θ appartenente a R+ . Se si ha a che fare
con campioni di variabili aleatorie indipendenti e identicamente distribuite,
in questo caso con distribuzione Normale, valgono i seguenti risultati:

σ2 σ2
X̄ ∼ N (µ0 , ) Ȳ ∼ N (µ1 , )
n n
e inoltre
2σ 2
Q̄ = X̄ − Ȳ ∼ N (θ, )
n
La funzione potenza β, definita, in ambito parametrico, come la probabilità
di cadere nella regione d rifiuto al variare del parametro nel suo dominio di
definizione, diventa, per il test che si sta analizzando,
" r # " r #
2σ 2 2σ 2
β(θ) = P Q̄ > z1−α = 1 − P Q̄ < z1−α
n n

ovvero  q 
2
z1−α 2σn − θ
β(θ) = 1 − Φ  q 
2σ 2
n

Si osservi che, per θ = 0, cioè sotto l’ipotesi nulla, si ritrova che

β(θ) = 1 − Φ(z1−α ) = 1 − 1 + α = α

che è il livello del test. Per ottenere in Matlab il grafico della funzione
potenza per θ compreso fra 0 e 3, implemento il seguente codice.

z=sqrt(2)*erfinv(1-2*a);
beta=inline(’0.5+0.5*erf((x-z*sqrt(s*2/n))/sqrt(s*4/n))’,’x’,’z’,’s’,’n’);
X=[0:0.01:3];
Y=beta(X,z,s,n);
plot(X,Y)

60
dove z=sqrt(2)*erfinv(1-2*a) è la formula per il quantile di ordine α
(indicata nel codice con la lettera a), s è la varianza e n l’ampiezza dei due
campioni, che per comodità considero uguale. La funzione erf è definita
come Z x
2 2
erf(x) = √ e−t dt
π 0
mentre erfinv è la sua inversa.
Per calcolare la funzione potenza del test di permutazione non esistono
formule esplicite, ma si deve ricorrere alla simulazione. Decido di utilizzare
due campioni di Normali cosı̀ distribuiti:

X1 , . . . , Xn ∼ N (1 + t, 1) Y1 , . . . , Yn ∼ N (1, 1)

dove t è un opportuno parametro.


La statistica test che scelgo di utilizzare è la somma delle osservazioni
del primo campione; rifiuto l’ipotesi nulla quando il valore  della statistica
test valutato per le osservazioni originali cade tra gli α 2n n valori più gran-
2n

di ottenuti in corrispondenza di tutte le n possibili permutazioni degli
elementi.
Ricordo che nel caso di test non parametrici la funzione potenza β è
definita come la media della funzione test δ: per ottenere il grafico della
potenza empirica devo calcolare la media di δ al variare della differenza tra
le medie dei due campioni, ovvero al variare di t in R+ . Mi limito a tracciare
il grafico per t che varia nell’intervallo [0, 3]. All’interno di questo intervallo
prendo 300 nodi, a distanza 0.01 l’uno dall’altro e per tutti i nodi ottenuti
calcolo la media di δ. Per ogni valore di t che ottengo, ripeto il test un
certo numero di volte: ogni volta δ vale 1 o 0 a seconda che la statistica test
originale cada o meno tra gli α 2n n valori estremi. Alla fine il valore di β
per un t fissato è dato dalla media di tutti i valori assunti da δ tutte le volte
che si è ripetuto il test.
Il problema principale di tale simulazione è quello di simulare il test
e tutte le permutazioni su cui il test si basa. Per prima cosa genero due
campioni di Normali con medie mu+t e mu e li salvo nei vettori Z1 e Z2,
che rappresentano rispettivamente i campioni X1 , . . . , Xn e Y1 , . . . , Yn , con
i seguenti comandi.
Z1=sqrt(s)*randn(1,n)+mu+t;
Z2=sqrt(s)*randn(1,n)+mu;
Calcolo la somma degli elementi di Z1
sommaoriginale=sum(Z1);

61
perchè è la statistica test valutata in corrispondenza delle osservazioni orig-
inali. Salvo gli elementi dei vettori Z1 e Z2 in un unico vettore

Z=[Z1 Z2];

che contiene tutti gli elementi che andrò a permutare e ad utilizzare per
calcolare i valori della statistica test corrispondenti a tutte le possibili per-
mutazioni degli elementi.
A questo punto devo poter creare uno ‘schema’ da seguire che mi per-
metta di generare tutte le possibili permutazioni e mi permetta di calcolare
le rispettive statistiche test. Per fare questo creo un vettore

indici=[1:1:2*n];

contenente tutti gli interi da 1 a 2n: tali valori rappresentano le posizioni di


tutti gli elementi del vettore Z. Con il comando

perm=nchoosek(indici,n);

creo una matrice perm di dimensione 2n



n × n, le cui righe rappresentano
tutte le possibili scelte di n elementi fra i 2n del vettore indici.
Per calcolare la statistica test in corrispondenza di una generica permu-
tazione di elementi di Z, ovvero in corrispondenza di una generica riga k
della matrice perm, sommo tra loro tutti gli elementi di Z che occupano il
posto indicato dall’elemento (k,j) di perm. Ad esempio, se una generica
riga di perm è

[1 5 7 8 10]

sommo i seguenti elementi di Z:

Z(1,1)+Z(1,5)+Z(1,7)+Z(1,8)+Z(1,10).

Per calcolare tutti i valori delle statistiche test basta iterare il procedimento
per tutte le righe di perm. Il codice è:

statistica=[];
for k=1:dim
somma=0;
for j=1:n
somma=somma+Z(1,perm(k,j));
end
statistica=[statistica, somma];
end.

62
Creo anche un vettore statistica, inizialmente vuoto, in cui vado ad ag-
giungere, alla fine di ogni ciclo, il valore della statistica test calcolato in
corrispondenza di una certa scelta di indici. dim è un numero ed è uguale a
2n

n .
Il vettore statistica contiene tutti i valori delle statistiche test, ma a
priori in ordine sparso. Per poter confrontare sommaoriginale con gli α 2n n
valori estremi creo un vettore statordinata contenente tutti gli elementi
di statistica in ordine crescente e poi confronto gli ultimi α 2n n elementi
di statordinata con sommaoriginale, a patto di aver fissato il valore di
α. Per questa simulazione ho fissato α, che in codice Matlab indico con a,
pari a 0.05. Se sommaoriginale cade tra i valori estremi, allora δ vale 1,
altrimenti vale 0; con il valore di δ che ottengo vado ad aggiornare, per ogni
test che eseguo, il vettore delta, i cui elementi saranno 0 o 1. In codice:
delta=[];
statordinata=sort(statistica);
numero=ceil(a*dim);
valoriestremi=statordinata(dim-numero+1:dim);
confronto=valoriestremi==sommaoriginale;
if sum(confronto)>=1
delta=[delta, 1];
else
delta=[delta, 0];
end
L’elemento generico j-esimo del vettore confronto vale 1 se l’elemento j-
esimo del vettore valoriestremi è uguale a sommaoriginale, altrimen-
ti vale 0. Se il vettore confronto  contiene almeno un 1, vuol dire che
2n
sommaoriginale cade fra gli α n valori estremi e quindi δ vale 1, ovvero
rifiuto l’ipotesi nulla.
Dopo aver simulato 5000 volte, in corrispondenza di un valore di t fis-
sato, tale test, ripetendo tutti i passaggi appena descritti, il vettore delta
sarà formato da elementi uguali a 0 o 1. Il valore della funzione potenza
corrispondente a t è pari alla media degli elementi di delta. Per poter trac-
ciare il grafico finale aggiorno un vettore potenza, inizialmente vuoto, con
le medie di delta ottenute in corrispondenza di ogni incremento di t.
potenza=[potenza, mean(delta)];
Il codice intero del programma è riportato di seguito.

function finale

63
n=5;
potenza=[];
x=[0:0.01:3];
s=1
mu=1
a=0.05
z=sqrt(2)*erfinv(1-2*a);
beta=inline(’0.5+0.5*erf((x-z*sqrt(s*2/n))/sqrt(s*4/n))’,’x’,’z’,’s’,’n’);
Y=beta(x,z,s,n);
plot(x,Y)
hold on

for t=1.*x
delta=[];
indici=[1:1:2*n];
perm=nchoosek(indici,n);
dim=nchoosek(2*n,n);
for i=1:5000
Z1=sqrt(s)*randn(1,n)+mu+t;
Z2=sqrt(s)*randn(1,n)+mu;
Z=[Z1 Z2];
sommaoriginale=sum(Z1);
statistica=[];
for k=1:dim
somma=0;
for j=1:n
somma=somma+Z(1,perm(k,j));
end
statistica=[statistica, somma];
end
statordinata=sort(statistica);
numero=ceil(a*dim);
valoriestremi=statordinata(dim-numero+1:dim);
confronto=valoriestremi==sommaoriginale;
if sum(confronto)>=1
delta=[delta, 1];
else
delta=[delta, 0];
end

64
end
potenza=[potenza, mean(delta)];
end
plot(x,potenza,’r’)
title(’Funzioni potenza’)
legend(’Potenza teorica’,’Potenza empirica’)
xlabel(’theta’)
ylabel(’beta’)
return

Ho dovuto scegliere un numero basso di elementi per ogni campione (5


per ogni campione) perchè il comando Matlab nchoosek(V,K), dove V è un
vettore di lunghezza N, funziona soltanto per valori di N molto piccoli.
Il grafico che ottengo è riportato in figura 4.1

Figura 4.1: Grafico della potenza di un test parametrico e di quella empirica


ottenuta con un test di permutazione

Il grafico in blu è la potenza ottenuta con un test parametrico, mentre


il grafico in rosso è la potenza ottenuta dal test di permutazione. Il primo
parte esattamente dal valore α, come si era dimostrato analiticamente, e si
mantiene sempre al di sopra della curva rossa. Dal momento che il campione
è molto piccolo, la curva della potenza teorica sale molto lentamente (se
avessi ad esempio un campione di ampiezza 100 la curva raggiungerebbe il
suo massimo già per θ = 1), ma il test di permutazione la appossima molto
bene perchè per campioni piccoli il test di permutazione ha una potenza
adeguata proprio per campioni piccoli.

65
4.2 Confronto della funzione potenza: esperimen-
to non bilanciato
Si vuole ora ripetere lo stesso test di permutazione del paragrafo precedente
nel caso in cui i campioni non abbaiano più la stessa ampiezza, ovvero nel
caso in cui si ha a che fare con un esperimento non bilanciato. Si dimostra che
la funzione potenza, a θ fissato, è massima quando i due campioni hanno la
stessa numerosità. In questo paragrafo si vuole controllare che questo valga
ancora nel caso di test di permutazione.
I campioni che si utilizzano per la simulazione sono

X1 . . . , Xn1 ∼ N (µ0 , σ 2 )
Y1 . . . , Yn2 ∼ N (µ1 , σ 2 )

e di conseguenza la distribuzione di Q̄ diventa


  
2 1 1
Q̄ ∼ N θ, σ + .
n1 n2

A patto di modificare opportunamente il codice del programma tutte le volte


che compare la dimensione del campione, il procedimento per la simulazione
rimane identico a quello del caso bilanciato.
É interessante confrontare le funzioni potenza dei due test di permu-
tazione, nel caso bilanciato e sbilanciato. Il codice Matlab è il seguente.

function sbilanciato2

n1=2;
n2=8;
n=n1+n2;
potenza=[];
x=[0:0.01:3];
s=1
mu=1
a=0.05
% modello sbilanciato
for t=1.*x
delta=[];
indici=[1:1:n];
perm=nchoosek(indici,n1);
dim=nchoosek(n,n1);

66
for i=1:5000
Z1=sqrt(s)*randn(1,n1)+mu+t;
Z2=sqrt(s)*randn(1,n2)+mu;
Z=[Z1 Z2];
sommaoriginale=sum(Z1);

statistica=[];
for k=1:dim
somma=0;
for j=1:n1
somma=somma+Z(1,perm(k,j));
end
statistica=[statistica, somma];
end
statordinata=sort(statistica);
numero=ceil(a*dim);
valoriestremi=statordinata(dim-numero+1:dim);
confronto=valoriestremi==sommaoriginale;
if sum(confronto)>=1
delta=[delta, 1];
else
delta=[delta, 0];
end
end
potenza=[potenza, mean(delta)];
end
plot(x,potenza)
hold on

%modello bilanciato

n=5;
potenza=[];
x=[0:0.01:3];

for v=1.*x
delta=[];
indici=[1:1:2*n];

67
perm=nchoosek(indici,n);
dim=nchoosek(2*n,n);
for i=1:5000
Z1=sqrt(s)*randn(1,n)+mu+v;
Z2=sqrt(s)*randn(1,n)+mu;
Z=[Z1 Z2];
sommaoriginale=sum(Z1);

statistica=[];
for k=1:dim
somma=0;
for j=1:n
somma=somma+Z(1,perm(k,j));
end
statistica=[statistica, somma];
end
statordinata=sort(statistica);
numero=ceil(a*dim);
valoriestremi=statordinata(dim-numero+1:dim);
confronto=valoriestremi==sommaoriginale;
if sum(confronto)>=1
delta=[delta, 1];
else
delta=[delta, 0];
end
end
potenza=[potenza, mean(delta)];
end
plot(x,potenza,’r’)
title(’Funzioni potenza’)
legend(’Potenza sbilanciata’,’Potenza bilanciata’)
xlabel(’theta’)
ylabel(’beta’)

return

Il grafico che si ottiene è riportato in figura 4.2. Come ci si aspettava


dalla teoria, la funzione potenza del test bilanciato è maggiore di quella
del test non bilanciato. Il test di permutazione bilanciato è più potente
dell’analogo test non bilanciato.

68
Figura 4.2: Grafico della potenza del test di permutazione nel caso di
esperimento bilanciato e sbilanciato

4.3 Test di Mann-Whitney


Il test di Mann-Whitney, presentato nella sezione precedente, si utilizza
nel seguente modo, e per fornire un esempio più generale lo eseguo in un
caso bilatero, utilizzando una regione critica costruita con criteri totalmente
analoghi al caso unilatero. Si supponga di avere le seguenti osservazioni,
provenienti da due campioni A e B indipendenti.
A 7 4 9 17
B 11 6 21 14
Si vuole testare se i campioni A e B hanno la stessa distribuzione o meno.
Per prima cosa si ordinano le osservazioni e si sceglie uno dei due gruppi,

4 6 7 9 11 14 17 21
A B A A B B A B

Tabella 4.1: Osservazioni ordinate

ad esempio A. Per ogni osservazione appartenente al gruppo A in tabella


4.1 si contano quanti elementi appartenenti a B lo precedono. Per il primo
elemento appartenente ad A, 4, non c’è nessun elemento appartenente a B
che lo precede. Per il secondo A, 7, 1 B lo precede, cosı̀ come per il terzo

69
A, 9. Per il quarto elemento appartenente ad A, 17, ci sono 3 elementi di B
che lo precedono.
La statistica U , definita dalla 3.17, è data dalla somma del numero di
tutti gli elementi di B che precedono ogni elemento di A, ovvero

U =0+1+1+3=5

Se U è molto piccolo, vuol dire che la maggior parte delle osservazioni ap-
partenenti ad A sono più piccole della maggior parte delle osservazioni ap-
partenenti a B; se U è molto grande, vuol dire che la maggior parte delle
osservazioni appartenenti ad A sono più grandi della maggior parte delle os-
servazioni appartenenti a B. Il valore minimo di U è 0, quando tutti i valori
di A sono più piccoli del più piccolo valore di B, mentre il valore massimo
di U è n1 n2 , dove n1 e n2 sono le numerosità dei due campioni, in questo
caso n1 = n2 = 4.
Se si conosce la distribuzione di U sotto l’ipotesi nulla in base alla quale
i due campioni provengono dalla stessa popolazione o meno, si può calco-
lare la probabilità di avere le osservazioni ottenute. La distribuzione di U
può essere facilmente calcolata. Esistono 84 = 70 possibili combinazioni


di ordinamenti, da AAAABBBB a BBBBAAAA. Sotto l’ipotesi nulla ogni


ordinamento ha probabilità 1/70 = 0.014 e ogni ordinamento assume un
valore per U compreso fra 0 e 16. Per esempio, U = 0 si ha solo per la
sequenza AAAABBBB e quindi ha probabilità 1/70 = 0.014 e U = 1 si ha
solo per la sequenza AAABABBB e ha probabilità 1/70 = 0.014. U = 2
invece si può ottenere con AAABBABB e AABAABBB e ha probabilità
2/70 = 0.029. La distribuzione completa di U è riportata in tabella 4.2 Nel

U Probabilità U Probabilità U Probabilità


0 0.014 6 0.100 12 0.071
1 0.014 7 0.100 13 0.043
2 0.029 8 0.114 14 0.029
3 0.043 9 0.100 15 0.014
4 0.071 10 0.100 16 0.014
5 0.071 11 0.071

Tabella 4.2: Distribuzione della statistica U per due campioni di ampiezza


4

caso analizzato all’inizio si otteneva U = 5; dalla tabella 4.2 si ottiene che


la probabilità di ottenere U = 5 è 0.071. I valori estremi che si considerano

70
sono i valori minori o uguali a 5 e i valori maggiori o uguali a 16 − 5 = 11.
Dalla tabella 4.2 la probabilità di ottenere questi valori estremi vale:

2(0.071 + 0.071 + 0.043 + 0.029 + 0.014 + 0.014) = 0.484

perchè si può osservare che la distribuzione di U è simmetrica.


Nella pratica tuttavia non si è necessario calcolare le probabilità della
tabella 4.2, in quanto la distribuzione di U è stata già tabulata (tabella 4.4).
La tabella 4.4 riporta i valori di U , in corrispondenza delle ampiezze dei
due campioni n1 e n2 : se il valore estremo (inferiore) di U è minore o uguale
al valore riportato in tabella, rifiuto l’ipotesi nulla con un livello del 5%. Nel
nostro caso n1 = n2 = 4 e il valore corrispondente riportato in tabella è 0.
U vale 5 e tale valore è il valore estremo inferiore: poiché 5 è maggiore di 0,
non ho evidenza per rifiutare l’ipotesi nulla.
Se si calcola l’altro valore estremo (scegliendo di calcolare il numero di
elementi di A che precedono ogni B), in questo caso pari a 11 si può ancora
utilizzare la tabella 4.4 a patto di considerare però il valore estremo, dato
da n1 n2 − U = 16 − 11 = 5.
Tali considerazioni possono essere ora applicate per l’analisi di dati reali.
Il seguente esempio è stato tratto da [2]. In tabella 4.3 sono riportati i dati
già ordinati relativi allo spessore dell’epidermide dell’avambraccio misurato
su pazienti affetti dal morbo di Crohn e su pazienti affetti da celiachia (sono
due patologie lagate a disfunzioni intestinali). Si vuole sottoporre a verifica
il fatto che i due campioni provengano dalla stessa distribuzione. I due
campioni sono di ampiezza differente, n1 = 20 e n2 = 9.

Morbo di Crohn Celiachia


1.8 2.8 4.2 6.2 1.8 3.8
2.2 3.2 4.4 6.6 2.0 4.2
2.4 3.6 4.8 7.0 2.0 5.4
2.5 3.8 5.6 10.0 2.0 7.6
2.8 4.0 6.0 10.4 3.0

Tabella 4.3: Spessore (in mm) dell’epidermide dell’avambraccio in due


gruppi di pazienti

Per prima cosa verifico che i due dati non abbiano distribuzione Nor-
male, tracciando il Normal Probability Plot per i due campioni. Il Normal
Probability Plot è uno strumento grafico che permette di visualizzare il buon
adattamento di una serie di dati ad una distribuzione Normale.

71
Figura 4.3: Normal Probability Plot per i dati provenienti da pazienti affetti
dal morbo di Crohn

Figura 4.4: Normal Probability Plot per i dati provenienti da pazienti affetti
da celiachia

R2 è il coefficiente di regressione ed è un indicatore di quanto i dati siano


dipendenti tra loro. Valori di R2 vicini allo 0 indicano che i dati sono poco
dipendenti o indipendenti, mentre valori di R2 vicini a 1 indicano che i dati
sono dipendenti tra loro. In questo caso coefficiente di regressione R2 per
entrambi i grafici è abbastanza buono, molto vicino a 1, tuttavia in entrambi
i grafici i residui, ovvero le distanze dei punti dalla retta (linea di tendenza),
non sembrano avere un andamento casuale (come dovrebbe invece essere se
i dati fossero Normali) ma seguono un certo trend, perché partono sopra
la retta, poi passano sotto e infine ritornano sopra, quasi a descrivere un
andamento parabolico. Alla luce di queste osservazioni è lecito affermare
che i dati non hanno una distribuzione Normale.

72
Si può condurre un test statistico con la procedura di Mann-Whitney
appena introdotta.
Indico il gruppo di dati proveninti da pazienti affetti dal morbo di Crohn
con la lettera A, l’altro gruppo con la lettera B, e li ordino.
1.8 1.8 2.0 2.0 2.0 2.2 2.4 2.5 2.8 2.8
A B B B B A A A A A

3.0 3.2 3.6 3.8 3.8 4.0 4.2 4.2 4.4 4.8
B A A A B A B A A A

5.4 5.6 6.0 6.2 6.6 7.0 7.6 10.0 10.4


B A A A A A B A A

Conto il numero di elementi appartenenti ad A che precedono ogni ele-


mento appartenente a B, ma subito mi accorgo che c’è un problema, perchè
molti elementi, appartenenti anche a due gruppi diversi, hanno lo stesso val-
ore. La prima A e la prima B hanno lo stesso valore, e non so se A viene
prima di B o se B viene prima di A: risolvo la questione assegnando valore
0.5 alla A che precede la prima B, e faccio cosı̀ anche per tutti gli altri casi.
Il valore di U diventa

U = 0.5 + 1 + 1 + 1 + 6 + 8.5 + 10.5 + 13 + 18 = 59.5

Questo è il valore estremo inferiore e quindi possiamo utilizzare i valori ri-


portati in tabella 4.4, corrispondenti a n1 = 20 e n2 = 9. Il valore corrispon-
dente è 48 e visto che il valore trovato di U è maggiore, posso concludere
che non ho evidenza per rifiutare l’ipotesi nulla.

73
n2
n1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2 - - - - - - 0 0 0 0 1 1 1 1 1 2 2 2 2
3 - - - 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8
4 - - 0 1 2 3 4 4 5 6 7 8 9 10 11 12 13 13
5 - 0 1 2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20
6 - 1 2 3 5 6 8 10 11 13 14 16 17 19 21 22 24 25 27
7 - 1 3 5 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
8 0 2 4 6 8 10 13 15 17 19 22 24 26 29 31 34 36 38 41
9 0 2 4 7 10 12 15 17 20 23 26 28 31 34 37 39 42 45 48
10 0 3 5 8 11 14 17 20 23 26 29 33 36 39 42 45 48 52 55
11 0 3 6 9 13 16 19 23 26 30 33 37 40 44 47 51 55 58 62
12 1 4 7 11 14 18 22 26 29 33 37 41 45 49 53 57 61 65 69
13 1 4 8 12 16 20 24 28 33 37 41 45 50 54 59 63 67 72 76
14 1 5 9 13 17 22 26 31 36 40 45 50 55 59 64 67 74 78 83
15 1 5 10 14 19 24 29 34 39 44 49 54 59 64 70 75 80 85 90
16 1 6 11 15 21 26 31 37 42 47 53 59 64 70 75 81 86 92 98
17 2 6 11 17 22 28 34 39 45 51 57 63 67 75 81 87 93 99 105
18 2 7 12 18 24 30 36 42 48 55 61 67 74 80 86 93 99 106 112
19 2 7 13 19 25 32 38 45 52 58 65 72 78 85 92 99 106 113 119
20 2 8 13 20 27 34 41 48 55 62 69 76 83 90 98 105 112 119 127

Tabella 4.4: Distribuzione del valore estremo più piccolo di U per un test
bilatero con un livello del 5%. Rifiuto l’ipotesi nulla se il valore di U ottenuto
è minore o uguale al valore riportato in tabella

74
Capitolo 5

La randomizzazione come
base per l’inferenza negli
studi clinici

5.1 Il modello di popolazione


Uno dei concetti alla base della teoria dei test statistici è quello di un mod-
ello di popolazione (si veda [15] e [8]), in base al quale ogni campione prove-
niente da una popolazione è rappresentativo di tale popolazione, e tutti gli
elementi del campione possono essere considerati come indipendenti e iden-
ticamente distribuiti con funzione di distribuzione nota a meno di qualche
parametro. Per condurre dei test di confronto tra due trattamenti, con il
modello di popolazione nA elementi sono estratti in maniera casuale da una
popolazione di ampiezza infinita di soggetti sottoposti ad un trattamento
indicato con A, mentre nB elementi sono estratti in maniera sempre ca-
suale da una popolazione di ampiezza infinita di soggetti sottoposti ad un
altro trattamento indicato con B. Tutti gli elementi di entrambi i campioni
YA1 , . . . , YAnA e YB1 , . . . , YBnB sono considerati indipendenti e identicamente
distribuiti, con funzione di distribuzione G(y|θi ), con i = A, B, dove θi è un
parametro incognito. Conoscendo G, esiste una vasta serie di test statistici
che si possono eseguire.
Sfortunatamente però, i test clinici non utilizzano campioni di pazienti
estratti in maniera casuale da popolazioni di ampiezza infinita di pazienti
sottoposti al trattamento A o B, perchè tali popolazioni non esistono e anzi,
nel caso in cui si voglia sperimentare l’efficacia di un nuovo trattamento,
non esistono per niente pazienti trattati con questo trattamento tra i quali

75
sia possibile estrarre un campione. Nella maggior parte degli studi clinici i
pazienti vengono scelti tra quelli provenienti da una selezione non casuale di
ospedali: gli ospedali sono scelti in base alla loro fama, alla loro disponibilità
a collaborare e al loro budget. Da queste strutture scelte, si prendono una
selezione non casuale di pazienti, con i requisiti necessari per gli studi che si
vogliono eseguire e disposti a sottoporsi a questi studi. Solo a questo punto
si possono assegnare i pazienti in maniera casuale al trattamento A o B.
Estraendo gli nA e nB pazienti, è pratica comune supporre ugualmente
che entrambi i campioni provengano ciascuno da una qualche popolazione
indefinita di ampiezza infinita, anche se tali campioni non sono stati estratti
in maniera completamente casuale da queste popolazioni (anzi, talvolta tali
popolazioni non esistono del tutto). In questi casi, comuni nell’ambito clini-
co, si può dire che il modello di popolazione viene invocato come base da cui
partire per fare inferenza, ipotizzando quindi che ogni Yij abbia funzione di
distribuzione G(y|θi ). Il modello di popolazione e il modello di popolazione
invocato sono riassunti in tabella 5.1.
Sia nel modello di popolazione che nel modello invocato si è trattato
soltanto di modelli di popolazione omogenei, in cui cioè le risposte dei pazi-
enti ai trattamenti potevano essere rappresentate da variabili aleatorie aven-
ti la stessa distribuzione, dipendente solo dal trattamento assegnato. Nella
realtà però all’interno anche solo dei campioni stessi si hanno delle disomo-
geneità, o delle caratteristiche che variano nel tempo, di cui il modello, cosı̀
com’è, non tiene conto.

5.2 Il modello di randomizzazione


Non esiste tuttavia alcun fondamento statistico che permetta di affermare
che il modello invocato sia una buona base da cui partire per gli studi clini-
ci: si ricorre allora al modello di randomizzazione, che è riassunto in tabella
5.2. L’utilizzo della randomizzazione fornisce infatti le basi per poter im-
plementare test statistici, che non prevedano l’esistenza di una popolazione
da cui estrarre i campioni, per il confronto dei trattamenti A e B sommin-
istrati agli nA e nB pazienti scelti. Tali tipi di test sono noti come test di
permutazione.
L’ipotesi nulla di tale test è che i due trattamenti assegnati in maniera
casuale, con uguale probabilità ad ogni paziente, abbiano gli stessi effet-
ti: tale ipotesi verrà in seguito indicata con l’espressione ipotesi nulla di
randomizzazione.
Questa ipotesi nulla di randomizzazione è molto diversa da un’ipotesi

76
nulla che si poteva avere con un modello di popolazione, dove semplice-
mente si ipotizzava l’uguaglianza tra i parametri di due distribuzioni note a
meno del parametro. Una caratteristica essenziale del test di permutazione
è che, sotto l’ipotesi nulla di randomizzazione, l’insieme dei valori osservati
viene considerato come un insieme di valori deterministici che non dipen-
dono dal trattamento; la risposta cioè che si osserva per ogni paziente, sotto
l’ipotesi nulla, è quella che si sarebbe osservata indipendentemente dal trat-
tamento assegnato al paziente stesso. Le differenze che si osservano tra i due
gruppi dipendono solo dal modo in cui è stato assegnato a ciascun paziente
il trattamento.
A questo punto si sceglie una grandezza che possa rispecchiare un qualche
effetto del trattamento, e la si utilizza nella statistica test. Si valuta quindi
la statistica test scelta in funzione delle osservazioni originali e di quelle
permutate e si analizza la distribuzione ottenuta come fatto nel capitolo
sulla teoria dei test di permutazione.
Questo modo di procedere tuttavia sembra essere in contraddizione con la
teoria dei test parametrici. Nei test di permutazione le realizzazioni ottenute
sono considerate fissate mentre variano gli assegnamenti ad un trattamento o
all’altro; in un test con un modello di popolazione invece le variabili aleatorie
possono assumere in maniera casuale, con una certa probabilità, un valore
proveniente da un insieme fissato. Questa contraddizione viene meno se si
osserva che nel modello di randomizzazione non si ipotizza l’esistenza di una
popolazione di ampiezza infinita, nota o meno, da cui proviene il campione,
come invece accade nei test con un modello di popolazione.

77
Modello di popolazione Modello invocato

Popolazione di
Popolazione A Popolazione B
pazienti
Y ∼ G(y|θA ) Y ∼ G(y|θB )
indefinita

↓ ↓ ↓

Procedura di
Campionamento Campionamento campionamento
casuale casuale indefinita

↓ ↓ ↓

nA pazienti nB pazienti
N pazienti
YAj ∼ G(y|θA ) YBj ∼ G(y|θB )


Randomizzazione
↓ ↓

nA pazienti nB pazienti
YAj ∼ G(y|θA ) YBj ∼ G(y|θB )

Tabella 5.1: Schema del modello di popolazione e del modello di popolazione


invocato

78
Modello di randomizzazione

Pazienti provenienti dagli


ospedali scelti

N pazienti


Randomizzazione

. &

nA pazienti nB pazienti

Tabella 5.2: Modello di randomizzazione per gli studi clinici

79
Bibliografia

[1] Armitage P., Berry G.: Statistical Methods in Medical Research,


Blackwell, Oxford, 1994

[2] Bland M.: An Introduction to Medical Statistics, Oxford University


Press, 2000

[3] Casella G., Berger R.L.: Statistical Inference, Duxbury, CA, 2002

[4] Chow Y. S., Teicher H.: Probability Theory, Springer, NY, 1978

[5] Good P.: Permutation Tests, Springer, NY, 2000

[6] Hajek J., Sidak P.D.:Theory of Rank Tests, Academic Press, NY, 1967

[7] Hoeffding W.: A combinatorial central limit theorem, Annals of


Mathematical Statistics, 1951, 22: 558-566

[8] Lachin J.M.: Statistical Properties of Randomization in Clinical Trials,


Controlled Clinical Trials, 1988, 9: 289-311

[9] Lehmann E.L.: Testing Statistical Hypoteses, Wiley, NY, 1959

[10] Lehmann E.L.: Nonparametrics: Statistical Methods Based on Ranks,


Holden Day, 1975

[11] Montgomery D.C., Runger G.C., Hubele N.F.: Statistica per


Ingegneria, Egea, 2004

[12] Puri M.L., Sen P.K.: Nonparametric Methods in General Linear Models,
Wiley, NY, 1985

[13] Rohatgi V.K.: An Introduction to Probability and Mathematical


Statistics, Wiley, NY, 1976

80
[14] Romano J.P.: On the Behavior of Randomization Tests Without a
Group Invariance Assumption, Journal of the American Statistical
Association, 1990, 85: 686-692

[15] Rosenberger, W.F.,Lachin J.M.: Randomization in Clinical Trials,


Wiley, NY, 2002

[16] Wald A., Wolfowitz J.: An Exact Test for Randomness in the Non-
Parametric Case Based on Serial Correlation, Annals of Mathematical
Statistics, 1943, 14: 378-388

[17] Wald A., Wolfowitz J.: Statistical Tests Based on Permutations of


Observation, Annals of Mathematical Statistics, 1944, 15: 358-372

81

Potrebbero piacerti anche