Sei sulla pagina 1di 32

Introduzione alla statistica non parametrica

Introduzione alla statistica non parametrica

Statistica parametrica e non parametrica

Premessa
Esempio
Metodi non parametrici
Mediana e rango

Metodi parametrici e non parametrici (1)


I metodi parametrici utilizzati per la soluzione di problemi di
carattere univariato e multivariato hanno, come limitazione, la
necessit di dover ricorrere allintroduzione di ipotesi molto
restrittive, spesso ingiustificate se non impossibili da giustificare,
irrealistiche, non sempre chiare, difficilmente interpretabili,
formulate ad hoc per poter fare inferenza. A questo si deve
aggiungere che le assunzioni che rendono valida lapplicazione di
tali metodi (normalit, omoschedasticit, indipendenza e identica
distribuzione della componente stocastica erratica) sono di norma
raramente soddisfatte e, quandanche soddisfatte, i risultati sono
spesso ottenuti tramite approssimazione.

Introduzione alla statistica non parametrica

Statistica parametrica e non parametrica

Premessa
Esempio
Metodi non parametrici
Mediana e rango

Metodi parametrici e non parametrici (2)


Sempre pi spesso, per problemi multivariati complessi studiati in
ambito biomedico, ingegneristico, psicologico, farmacologico, negli
esperimenti clinici, nel controllo della qualit, quando
non noto il modello distributivo,
non si pu invocare la normalit,
linferenza riguarda variabili di tipo qualitativo,
la numerosit del campione inferiore al numero di variabili,
ci sono dati mancanti non a caso,
si passa da un approccio parametrico ad uno non parametrico,
ovviando cos, senza perdita sostanziale di efficienza, le limitazioni
sopra accennate.
Introduzione alla statistica non parametrica

Statistica parametrica e non parametrica

Premessa
Esempio
Metodi non parametrici
Mediana e rango

Test parametrici
Presentano la caratteristica comune di avere per oggetto ipotesi
parametriche, cio ipotesi riguardanti ad esempio il valore del
parametro di una o pi popolazioni come, per esempio la media e la
varianza. La determinazione della zona di rifiuto basata sulla
distribuzione che la statistica test segue sotto lipotesi nulla,
distribuzione che dipende da un modello distributivo della
popolazione (in generale la normale); solo per ampiezze campionarie
elevate svincolata da tale modello distributivo. Nella pratica, la
natura della distribuzione non verificata, mentre sarebbe bene
sottoporre sempre i dati ad un test di normalit, controllando il
valore assunto da parametri come simmetria e curtosi o verificando
ladattamento dellistogramma alla curva di distribuzione.
Introduzione alla statistica non parametrica

Statistica parametrica e non parametrica

Premessa
Esempio
Metodi non parametrici
Mediana e rango

Passaggio alla statistica non parametrica

Tra i dati che non si adattano alla distribuzione normale vi sono i


punteggi (score) e le votazioni utilizzati da osservatori, come
medici, psicologi, insegnanti, giudici di gara, ecc., per valutare
fenomeni come lintelligenza, la capacit di memoria, il rendimento
a scuola, la produttivit nel lavoro, la prestazione atletica, ecc.
In tutti questi casi la scala non riferita a grandezze fisiche, bens a
diversi livelli qualitativi di espressione del fenomeno, trasformati
numericamente solo in base a convenzione. Ad esempio, nei licei si
attribuisce 6 per indicare la sufficienza, mentre alluniversit si
attribuisce 18.

Introduzione alla statistica non parametrica

Statistica parametrica e non parametrica

Premessa
Esempio
Metodi non parametrici
Mediana e rango

Parametri dinteresse
In ambito non parametrico, indicatore rappresentativo di una
distribuzione la mediana che, diversamente dalla media, uno
stimatore robusto. Sfruttando linformazione che, per una qualsiasi
v.c. continua,
Pr(X > M e) = Pr(X 6 M e) =

1
,
2

diventa pi agevole derivare la distribuzione delle statistiche test. In


alternativa, si possono utilizzare le v.c. rango (rank), definite come
lintero corrispondente al posto che la v.c. occupa quando si passa
dal campione casuale (X1 , X2 , . . . , Xn ) al campione casuale
ordinato in senso crescente (X(1) , X(2) , . . . , X(n) ). La v.c. rango
per un campione di dimensione n costituisce una permutazione
casuale degli interi (1, 2, . . . , n).
Introduzione alla statistica non parametrica

Test non parametrici

Introduzione
Regione critica
Conclusioni

Test sui segni (1)


Sia M e la mediana della v.c. continua X e si costruisca un test per
verificare H0 : M e = M e0 contro H1 : M e 6= M e0 . Se vera H0
circa met delle osservazioni dovrebbe essere superiore (inferiore) a
M e0 , per cui la regola di decisione dovr essere costruita in modo
che si rifiuti H0 se nel campione tale requisito non soddisfatto.
Per un campione casuale (X1 , X2 , . . . , Xn ), il numero delle
osservazioni Tn superiori a M e0 una v.c. binomiale tale che
Tn Bi(n, ).
Quindi verificare lipotesi nulla H0 : M e = M e0 ,
verificare
1
vs.
H1 : 6=
H0 : =
2

equivale a
1
.
2

Introduzione alla statistica non parametrica

Test non parametrici

Introduzione
Regione critica
Conclusioni

Test sui segni (2)


Sotto H0 , Tn Bi(n, ), per cui in media, il campione conterr n2
osservazioni al di sopra (di sotto) di M e0 . Pertanto, si pu definire
la seguente RC():
|Tn n/2| > c/2
ove il valore critico c/2 determinato in modo che
= Pr(|Tn n/2| > c 2 )
= 1 Pr(n/2 c/2 < Tn < n/2 + c/2 )



2c/2 + 1

' 2 1
n
utilizzando lapprossimazione alla normale della v.c. binomiale con
la correzione per la continuit.
Introduzione alla statistica non parametrica

Test non parametrici

Introduzione
Regione critica
Conclusioni

Test sui segni (3)


Essendo (z/2) = 1 /2, si ha che
c/2

z/2 n 1
'
.
2

Se Tn la statistica test definita come il numero di unit superiori


alla mediana M e0 , la regione critica RC() diventa:

(
z/2 n

Tn 6 n+1
2
2
Tn >

n+1
2

z/2 n
2

Tale procedura detta test dei segni perch per il calcolo della
statistica test si soliti contrassegnare con + () i valori superiori
(non superiori) a M e0 e poi contare il numero di segni positivi
presenti nella sequenza.
Introduzione alla statistica non parametrica

Test non parametrici

Introduzione
Regione critica
Conclusioni

Test sui segni (4)


Questo test pu essere utilizzato nel caso di dati appaiati.
Supponiamo di voler verificare leffetto di unazione nota
(medicinale, messaggio pubblicitario, ecc.) sulla stessa unit
statistica: Xi la variabile rilevata prima dellesperimento e Yi il
risultato dellesperimento sullo stesso individuo. Supponendo che le
variabili oggetto dellesperimento siano continue, possiamo indicare
con
+ levento {Xi > Yi };
levento {Xi < Yi };
= Pr(Xi > Yi ).
Se vera H0 : Xi = Yi , ovvero non vi alcun effetto, si avr
= 1/2. Il numero dei segni + equivalente al numero di successi
in una successione di n prove indipendenti con probabilit costante
pari a ; quindi, una v.c. Bi(n, ).
Introduzione alla statistica non parametrica

Esempi
Introduzione
Ipotesi e regioni critiche
Statistica test
Un altro test sui segni

Test sui ranghi

Calcolo dei ranghi (1)


Si consideri il seguente vettore di dati:
41

84

67

123

81

Si ordinino le osservazioni in una graduatoria crescente e si


sostituisca poi ad ogni valore il posto occupato nella graduatoria,
cio 1 al valore pi piccolo, 2 al successivo, e cos via. Questi nuovi
numeri sono i ranghi. Il vettore contenente i ranghi associato al
vettore di dati sopra considerato sar:
3

Introduzione alla statistica non parametrica

Test sui ranghi

Esempi
Introduzione
Ipotesi e regioni critiche
Statistica test
Un altro test sui segni

Calcolo dei ranghi (2)


Consideriamo ora alcune varianti:
a) sostituiamo il valore 123 con il valore 1230 e i ranghi non
cambiano, infatti si ha
41 9 84 1 67 1230 81
3 2 6 1 4 7 5
b) sostituiamo il valore 123 con il valore 12.3 e alcuni ranghi
cambiano di una posizione, infatti
41 9 84 1 67 12.3 81
4 2 7 1 5 3 6
c) sostituiamo infine il valore 123 con il valore 0 e si ottiene
41 9 84 1 67 0 81
4

Introduzione alla statistica non parametrica

Esempi
Introduzione
Ipotesi e regioni critiche
Statistica test
Un altro test sui segni

Test sui ranghi

Calcolo dei ranghi (3)


Questi esempi dimostrano come i ranghi siano molto robusti anche
in presenza di variazioni notevoli nei dati. Nel caso in cui tutti i dati
vengano trasformati in modo lineare (additivo o moltiplicativo) o
non lineare (esponenziale o logaritimico), i ranghi non cambiano in
quanto i dati mantengono la stessa posizione. In generale, qualsiasi
trasformazione, purch monotona, non altera i ranghi. Come ultimo
esempio si consideri il caso in cui i dati sopra considerati sono tutti
elevati al quadrato. I ranghi non cambiano e in particolare si ha:
412
1681

92
81

842
7056
3

12
1
6

672
4489
1

1232
15129
7

812
6561

Introduzione alla statistica non parametrica

Esempi
Introduzione
Ipotesi e regioni critiche
Statistica test
Un altro test sui segni

Test sui ranghi

Calcolo dei ranghi (4)


Con riferimento allultimo esempio, bisogna prestare attenzione
quando ci sono dei numeri negativi. Infatti in tal caso i quadrati dei
valori negativi si rifletterebbero sulla scala dei valori positivi
sconvolgendo completamente lordine originario. Infine, quando
esistono valori uguali, a ciascuno di essi si attribuisce la media dei
ranghi che spetterebbero agli stessi valori se questi fossero diversi.
per esempio, per il vettore di dati
32

63

41

85

32

51

85

79

85

27

68

il vettore contentente i ranghi ad esso associato sar:


2.5

10

2.5

10

10

Introduzione alla statistica non parametrica

Test sui ranghi

Esempi
Introduzione
Ipotesi e regioni critiche
Statistica test
Un altro test sui segni

Test dei ranghi con segno di Wilcoxon (1)


Questo test pu essere utilizzato per verificare se un campione
casuale possiede una certa mediana o se le differenze appaiate
hanno mediana pari a 0. E lequivalente non parametrico del test t
di Student per campioni appaiati (dipendenti). Se si considera il
campione casuale (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) delle
osservazioni appaiate, indichiamo con Di = (Yi Xi ) le
corrispondenti differenze, mentre se si tratta di un solo campione
indichiamo con Di = (Xi M e0 ) le differenze rispetto ad un
valore prefissato M e0 per la mediana. Si assuma che le v.c. Di
siano continue, simmetriche, indipendenti e tutte con la stessa
mediana. Supponiamo che |Di |, i = 1, 2, . . . , n siano le differenze
in valore assoluto non nulle a cui si attribuiscono i ranghi da 1 (per
min |Di | ad n (per max |Di |). Nel caso di ranghi coincidenti si
provvede a sostituirle con la loro media artitmetica.
Introduzione alla statistica non parametrica

Test sui ranghi

Esempi
Introduzione
Ipotesi e regioni critiche
Statistica test
Un altro test sui segni

Test dei ranghi con segno di Wilcoxon (2)


Le ipotesi da verificare sono:
1

H0 : M e(Di ) = 0 vs. H1 : M e(Di ) > 0,

H0 : M e(Di ) = 0 vs. H1 : M e(Di ) < 0,

H0 : M e(Di ) = 0 vs. H1 : M e(Di ) 6= 0,

e le corrispondenti RC sono:
1

Tn > c ,

Tn 6 c ,

c/2 6 Tn 6 c/2 .

Introduzione alla statistica non parametrica

Test sui ranghi

Esempi
Introduzione
Ipotesi e regioni critiche
Statistica test
Un altro test sui segni

Test dei ranghi con segno di Wilcoxon (3)


In tutti i casi, la statistica test data dalla somma dei ranghi
r(|Di |) corrispondenti alle differenze Di > 0, ovvero
Tn =

n
X

r(|Di |)I(Di > 0),

i=1

dove I() la funzione indicatrice. Si pu dimostrare che sotto


lipotesi nulla
n(n + 1)(2n + 1)
n(n + 1)
V(Tn ) =
.
E(Tn ) =
4
24
Se n abbastanza grande (n > 15), si pu ricorrere
allapprossimazione normale (modificata per la correzione di
continuit)
T n(n + 1)/4 1/2 d
pn
N (0, 1).
n(n + 1)(2n + 1)/24
Introduzione alla statistica non parametrica

Test sui ranghi

Esempi
Introduzione
Ipotesi e regioni critiche
Statistica test
Un altro test sui segni

Test sui segni di McNemar


Consideriamo ancora il caso di dati appaiati. Siano
P
U = #(Di > 0) = i I(Di > 0) il numero di differenze
positive,
= #(Di 6= 0) il numero di differenze non nulle.
Allora, sotto H0 , la statistica U ha distribuzione binomiale con
parametri e 1/2, ovvero U Bin(, 1/2). Sotto lipotesi
alternativa H1 , U ha ancora distribuzione binomiale, ma con
parametri e > 1/2. Per esempio, con = 20 e U = 17, si ha
che
X  20 
Pr(U > 17|D) =
220 = 0.0013,
i
i>17

che significativo a livello = 0.005.


Introduzione alla statistica non parametrica

Dati appaiati

Introduzione
Esempio
Ipotesi e modello
Altri modelli

Un problema con dati appaiati nel caso univariato (1)

Consideriamo il caso in cui si vuole verificare lefficacia del


trattamento nella riduzione dellansia in campione di 9 soggetti. Si
presuma che i soggetti siano omogenei rispetto ad altre importanti
condizioni, quali et e stato di salute, che in genere sono le variabili
esplicative in questo tipo di esperimenti. Si assuma poi che la v.c.
risposta Y misuri lansia: in particolare rappresenta il punteggio
ottenuto in un test psicologico somministrato ai 9 soggetti.
Ciascuna unit viene osservata prima del trattamento, al tempo A
(baseline observation), e dopo il trattamento, al tempo B. Ci si
aspetta che il trattamento riduca lansia.

Introduzione alla statistica non parametrica

Dati appaiati

Introduzione
Esempio
Ipotesi e modello
Altri modelli

Un problema con dati appaiati nel caso univariato(2)

Le risposte bivariate sono dipendenti con rispetto alle unit, dato


che le misurazioni vengono fatte in tempi diversi ma negli stessi
soggetti, mentre le n coppie di osservazioni sono indipendenti, in
quanto relative ad unit diverse. Se si assume che gli individui siano
omogenei in relazione alle condizioni sperimentali, linsieme dei dati
appaiati {(YAi , YBi ), i = 1, ..., n} pu essere visto come un
campione casuale di n coppie i.i.d. di osservazioni estratte da una
variabile bivariata (YA , YB ). Sia Xi = YAi YBi , i = 1, 2, . . . , 9, la
differenza pre-post trattamento osservata.

Introduzione alla statistica non parametrica

Dati appaiati

Introduzione
Esempio
Ipotesi e modello
Altri modelli

I dati
I valori osservati sono riportati nella tabella sottostante:
i
1
2
3
4
5
6
7
8
9

YA
19
22
18
18
24
30
26
28
15

YB
16
23
13
17
20
22
30
21
11

X
3
-1
5
1
4
8
-4
7
4

Introduzione alla statistica non parametrica

Introduzione
Esempio
Ipotesi e modello
Altri modelli

Dati appaiati

Formalizzazione del problema


Le ipotesi dinteresse sono
d

H0 : YA = YB

vs.

H1 : YA > YB .

dove H1 rappresenta lipotesi di dominanza stocastica. Uno dei


modelli utilizzati per descrivere la variabile risposta osservata, il
modello con effetti additivi fissi, in cui
YAi = + ZAi e YBi = + ZBi , i = 1, . . . , n,
dove la costante di popolazione; leffetto del trattamento,
assunto sotto H1 finito e strettamente positivo, ZAi e ZBi sono
componenti derrore casuali identicamente distribuite, indipendenti
tra le unit, ma non necessariamente indipendenti entro le unit.
Introduzione alla statistica non parametrica

Dati appaiati

Introduzione
Esempio
Ipotesi e modello
Altri modelli

Modelli alternativi
Tra i modelli pi utilizzati per descrivere la variabile risposta
osservata sono da citare:
i modelli con effetti additivi fissi e unit non omogenee in cui
YAi = + i + ZAi e YBi = + i + ZBi ,
i modelli con effetti additivi che variano da individuo a
individuo del tipo
YAi = + i + ZAi e YBi = + i i + ZBi ,
i modelli con effetti stocastici generalizzati dove
YAi = + i + ZAi e YBi = + i + ZBi Bi .
Introduzione alla statistica non parametrica

Dati appaiati

Introduzione
Esempio
Ipotesi e modello
Altri modelli

Confronto tra modelli


Prendendo come modello di riferimento il modello con effetti
additivi fissi, sotto H0 la variabile differenza X = + ZA ZB
simmetrica rispetto allo 0, mentre sotto H1 simmetrica rispetto al
parametro , indicatore delleffetto del trattamento. Quando si usa
come variabile di riferimento la variabile differenza X il modello a
effetti additivi fissi e il modello ad effetti additivi fissi e unita non
omogenee coincidono, infatti si ha che
Xi = YAi YBi = + ZAi ZBi .
Dunque se non vi un reale effetto del trattamento ed eventuali
variazioni osservate sono apportate solo da i , si dice che X
covariate-free.
Introduzione alla statistica non parametrica

Soluzioni del problema

Soluzione parametrica
Soluzione non parametrica

Il test t di Student (1)


Una soluzione al problema dei dati appaiati pu essere ottenuta in
un contesto parametrico solo se si assume che le variabili siano
normalmente distribuite e abbiano varianza ignota. Il modello con
effetti additivi fissi pu essere scritto come
{YAi = + ZAi , YBi = + ZBi , i = 1, . . . , n}
in cui la costante di popolazione, leffetto del trattamento,
la deviazione standard, ignota, indipendente dalle unit e dal
livello del trattamento e tale che 0 < < +, Zij N (0, 1) con
i = 1, ..., n, j = A, B indipendenti tra le unit ma non
necessariamente entro le unit.

Introduzione alla statistica non parametrica

Soluzioni del problema

Soluzione parametrica
Soluzione non parametrica

Il test t di Student (2)


La statistica test pi usata data da

X n
T =

b
P
P
in cui
2 = i (Xi X)2 /(n 1) e X = i Xij /n con le
2 ). Sotto H la statistica T ha distribuzione t di
Xi N (, X
0
Student centrale con (n 1) g.d.l, mentre sotto H1 distribuita
come una t di Student non centrale con un parametro di non
centralit positivo cos che valori grandi diventano significativi. Il
parametro ignoto X solo un parametro di disturbo e T una
statistica invariante rispetto al valore assunto da questa quantit.
Per i dati dellesempio precedente, il valore della statistica
T0 = 2.3635 e il p-value pari a p = 0.0229 (test a una coda).
Introduzione alla statistica non parametrica

Soluzioni del problema

Soluzione parametrica
Soluzione non parametrica

Metodi non parametrici di permutazione


Caratteristica dei test di permutazione il condizionamento
allinsieme dei dati osservati che un insieme di statistiche
sufficienti qualunque sia il modello sottostante di riferimento. I test
di permutazioni vengono chiamati distribution free, ossia le
distribuzioni dei test prescindono completamente dalla legge che
governa la variabile aleatoria su cui si vuol fare inferenza e non
necessario fare assunzioni stringenti sulla distribuzione dei termini
derrore. I metodi non parametrici di permutazione non sono una
panacea per tutti i problemi inferenziali di interesse. Se, sotto H0 ,
1

non ci si condiziona ad un insieme di statistiche sufficienti,

assume lipotesi di scambiabilit dei dati,

le soluzioni ottenute sono tuttaltro che esatte.


Introduzione alla statistica non parametrica

Metodi non parametrici di permutazione

Un p di teoria
Monte Carlo condizionato
Step algoritmo

Definizione dello spazio di permutazione campionario (1)


d

Si osservi innanzitutto che lipotesi H0 : {YA = YB } implica la


scambiabilit delle variabili YA e YB entro ciascuna unit rispetto ai
due tempi di rilevazione A e B. Il segno di ciascuna differenza Xi ,
per i = 1, . . . , n, si pu pensare sia attribuito
P con probabilit 1/2.
Si consideri inoltre la statistica test T = i Xi . La distribuzione
condizionata FT (t|X) di T , quando i punti osservati
X = {Xi , i = 1, . . . , n} sono fissati, si ottiene sotto lipotesi che
H0 sia vera, cio attribuendo casualmente e in tutti i modi possibili
i segni + e a ciascuna differenza con uguale probabilit.
P Per fare

questo, si pu considerare la distribuzione di T = i Xi , in cui le


Xi sono ottenute attribuendo casualmente il segno + o alla
differenza Xi , i = 1, . . . , n, con probabilit 1/2.
Introduzione alla statistica non parametrica

Metodi non parametrici di permutazione

Un p di teoria
Monte Carlo condizionato
Step algoritmo

Definizione dello spazio di permutazione campionario (2)


La distribuzione di probabilit di X = {Xi , i = 1, . . . , n} ,
condizionatamente a X, uniforme dentro lo spazio di
permutazione X/X , ovvero tutti i punti sono equiprobabili. In
particolare, per il nostro problema, lo spazio campionario di
permutazione X/X contiene M = 2 punti, perch la permutazione
dei segni sulle n differenze nulle non produce effetto. Sia
F (z|X) = Pr{T z|X}
la funzione di ripartizione condizionata (c.d.f.) ottenuta via
permutazione, indotta da T dato X. Indicato To = T (X) il valore
osservato di T , se il p-value = Pr{T To |X} superiore al
livello di soglia fissato , H0 viene accettata, secondo le usuali
regole dei test per la verifica dipotesi.
Introduzione alla statistica non parametrica

Metodi non parametrici di permutazione

Un p di teoria
Monte Carlo condizionato
Step algoritmo

Tecniche di ricampionamento condizionato


Vi sono due criteri per permutare i dati: si permutano in modo
sistematico tutti i dati o si prende in considerazione solo un
campione estratto casualmente dallo spazio di permutazione. In
genere, lo spazio di permutazione X/X ha cardinalit cos grande
che non si possono esaminare tutti i suoi punti. Quindi, la scelta
del secondo metodo comporta una riduzione dei calcoli, senza
perdita di attendibilit del risultato o potenza del test. Il metodo di
simulazione di Monte Carlo Condizionato (C.M.C.) consente di
effettuare, tramite simulazione, un campionamento di punti
dallorbita di permutazione condizionale allinsieme dei dati
ossservati. Il campionamento C.M.C. altro non se non la
replicazione dei campionamenti senza reinserimento.
Introduzione alla statistica non parametrica

Metodi non parametrici di permutazione

Un p di teoria
Monte Carlo condizionato
Step algoritmo

Descrizione dellalgoritmo

Il metodo C.M.C. opera secondo lalgoritmo sotto riportato:


s.1) calcolo del valore osservato To della statistica T : To = T (X),
sullinsieme X osservato;
s.2) per ciascuna delle n differenze in X, si consideri
unattribuzione casuale dei segni in modo tale da ottenere X ;
s.3) calcolo di T = T (X );
s.4) si ripetano B volte, in maniera indipendente, i passi descritti in
s.2) e s.3).

Introduzione alla statistica non parametrica

Metodi non parametrici di permutazione

Un p di teoria
Monte Carlo condizionato
Step algoritmo

Conclusione dellalgoritmo
Per concludere, i B insiemi X contenenti le permutazioni, sono un
campionamento casuale da X/X . I corrispondenti B valori T
simulano la distribuzione nulla di permutazione di T e consentono
di stimare la c.d.f. di permutazione F (z|X) e la funzione del livello
di significativit L(z|X) = Pr{T z|X} tramite la e.d.f.
b (z) = #(T z)/B
FbB (z) = #(T z)/B e la funzione L
B
rispettivamente. Allaumentare del numero B di iterazioni Monte
Carlo, migliorano le stime delle funzioni F (|X) e L(|X). Il p-value
stimato a partire dal valore osservato To dato da
b=L
b B (To ) = #(T To )/B.

b , si rifiuta H0 secondo le usuali regole della verifica


Se
dipotesi.
Introduzione alla statistica non parametrica

Potrebbero piacerti anche