Sei sulla pagina 1di 24

Cap. 2.- Mtodos estadsticos no paramtricos.

CAPITULO 2.

METODOS ESTADISTICOS NO PARAMETRICOS

2.1. Introduccin. En los captulos anteriores se han analizado modelos estadsticos que
implican distribuciones continuas con ciertos supuestos bsicos para la aplicacin de estas
tcnicas. El principal uso de esos modelos es la estimacin de parmetros desconocidos de la
poblacin en estudio, para poder hacer pruebas de validacin o ensayos de significacin y
testear as las hiptesis planteadas. Estos supuestos se plantean fundamentalmente sobre el
valor que toman los parmetros poblacionales o sobre comparaciones de dos de ellos. Hasta
ahora se ha trabajado con magnitudes de tipo cuantitativa y continua. A las magnitudes
discretas se las tratado como proporciones para poder usar los modelos vistos, y cuando se
us el modelo de Gauss (distribucin normal) se tuvo que hacer una correccin por
continuidad. A esta metodologa de trabajo se la denomina Estadstica Paramtrica, por
contraposicin a otra donde lo que interesa es comparar distribuciones en lugar de
parmetros. Mientras los supuestos usados en la paramtrica especifican la distribucin
original (generalmente la distribucin normal), hay otros casos en la prctica donde no se
puede hacer esto, donde no se puede especificar la forma de la distribucin original. Se
requiere entonces otra metodologa de trabajo, una estadstica de distribuciones libres, donde
no se necesitan hacer supuestos acerca de la distribucin poblacional, donde se puede
comparar distribuciones entre si o verificar supuestos a cerca de la forma de la poblacin.
Las pruebas de hiptesis en las que se han utilizado la estadstica Z, la t o la F se denominan
mtodos paramtricos. En estas pruebas se supone que la distribucin de probabilidad de la
poblacin en la que se extrae la muestra tiene forma y que su (o sus) parmetro verifica
ciertas condiciones de manera que la estadstica muestral correspondiente tenga una
distribucin de probabilidad conocida en la que se puede determinar una regin crtica y
establecer una regla de decisin. Por ejemplo, para la aplicacin de la prueba t, se requiere
suponer que la poblacin es normal.
Sin embargo, existen muchas aplicaciones donde no es posible conocer la distribucin de las
poblaciones de las que se extraen las muestras. En estos casos, se utilizan mtodos
Cap. 2.- Mtodos estadsticos no paramtricos. 2

alternativos equivalentes a los paramtricos denominados mtodos no paramtricos o de


distribucin libre.
Con frecuencia se utilizan los mtodos no paramtricos cuando se tratan de inferir con
muestras pequeas y distribucin desconocida de la poblacin, ya que en estos casos no se
puede utilizar el teorema del lmite central.

Hay ciertas ventajas en el uso de los mtodos estadsticos no paramtricos, tales como:
- trabajar con magnitudes cualitativas, adems de la cuantitativas;
- estudiar casos donde no es posible precisar la naturaleza de la distribucin;
- dem para los casos donde los supuestos de la forma poblacional son dbiles;
- aplicar el mismo modelo a casi todas las distribuciones en lugar a una sola;
- es ms fcil de entender para quienes no poseen base matemtica adecuada.
Y tambin tiene algunas desventajas como:
- clculos usualmente ms engorrosos;
- no extraen tanta informacin como los paramtricos si se aplican al mismo caso;
- son menos eficientes si las muestras son grandes.

2.2. Algunos mtodos no paramtricos.


2.2.1. La prueba de los signos (una sola muestra).
Los mtodos que se utilizan para probar H 0 : o contra H 1 : o o H1 : o o
H 1 : o , son vlidos slo si la poblacin es normal o si el tamao de la muestra es n 30.

Se requiere adems que los valores de la muestra se encuentren cuando menos en escala de
intervalos. Pero, si la poblacin no es normal y si n < 30, o cuando los valores de la muestra
se encuentran cuando menos en escala ordinal, se debe utilizar la prueba no paramtrica
correspondiente. La prueba de los signos se utiliza para probar la hiptesis nula H 0 : o .
Para aplicar la prueba del signo no se requiere hacer suposiciones de normalidad de la
poblacin, se requiere si que los valores de la muestra se encuentren cuando menos en escala
ordinal.
La hiptesis nula consiste pues en afirmar que la mediana de la poblacin, parmetro que
denotaremos por ~ ~
~0 , esto es, H 0 :
, es igual a algn valor dado ~ . La alternativa
o

puede ser de un extremo o de dos extremos.

El procedimiento de la prueba de los signos es como sigue:


Cap. 2.- Mtodos estadsticos no paramtricos. 3

Se asigna el signo + a cada valor mayor que ~


0 ; se asigna el signo - a cada valor de la

muestra menor que ~ ~0 . El nmero de valores


0 . Se descarta la medicin que es igual a

no descartados es el tamao n de la muestra.


Si la hiptesis nula H 0 : ~ ~
o es verdadera, debemos tener aproximadamente el mismo

nmero de signos + y de signos - , es decir que la proporcin de signos positivos (y de signos


negativos) debe ser 0.5.
Si X representa el nmero de veces que ocurre el signo menos frecuente, entonces X es una
variable aleatoria discreta cuya distribucin de probabilidades es Binomial B(n, p) con p = .
Esta distribucin es la que se utiliza en la prueba de los signos.

- Si la prueba es unilateral, esto es:


~~
H0 : o contra H 1 : ~ ~o

o ~~
H0 : o contra H 1 : ~
~
o

Se rechaza H 0 si el valor P calculado, P P X x cuando p 1/2 , donde x < n /


2.

- Si la prueba es bilateral :
~
H0 : ~o contra H 1 :
~
~o

Se rechaza H 0 si el valor P, P 2P X x cuando p 1/2 , donde x < n / 2.

Nota.- Cuando n 30 y p = . , se puede utilizar la distribucin normal como aproximacin


de la Binomial (basta con n > 10 para tener una buena aproximacin, ya que as se verifica
np > 5). La estadstica de prueba en este caso es:

x np x n/2
Z N( 0, 1)
npq 1
n
2
Cap. 2.- Mtodos estadsticos no paramtricos. 4

Ejemplo 1.- Los siguientes datos representan el nmero de unidades vendidas en una
muestra de 12 tiendas de un nuevo artculo de uso personal:

15 25 32 20 34 30 31 16 28 22 36 23

No se hacen suposiciones de normalidad de la distribucin. Utilice la prueba de los signos al


nivel de significancia 5% para probar la hiptesis nula de que la mediana de las ventas no es
mayor que 20 unidades.

Solucin.
1. Hiptesis: H 0 : ~ 20 contra H 1 : ~
20

2. Nivel de significancia: = 0.05


3. Estadstica: La variable X Binomial con n = 11 y p = 0.5
4. Clculos: Se asignan los signos + o - a cada valor de la muestra que es mayor o
menor a 20 respectivamente y se asigna el 0 a la medicin que es igual a 20, resultando la
secuencia:

- + + 0 + + + - + + + +

para la cual n = 11 (signos, se descarta el 0), x = 2 (el nmero de veces que ocurre el signo
menos frecuente).

Sea X: nmero de signos negativos de los n = 11 signos. Entonces el valor calculado de P


es:
2
11
P P X 2 cuando p 1/2 (0.5)11 0.0327
x 0 x

5. Decisin. Dado que P = 0.0327 < 0.05, se rechaza H 0 y se concluye que las ventas
medianas es mayor que 20 unidades.

Nota.- Al utilizar la aproximacin de la curva normal, para n =11 y x = 2 signos negativos,


se tiene: np = 11 (0.5) = 5.5 npq 11(0.5)(0.5) 1.658

x 1/2 np 2.5 - 5.5


Z -1.81
npq 1.658
Cap. 2.- Mtodos estadsticos no paramtricos. 5

Por lo tanto, P P X 2 P z - 1.81 0.0352 , lo cual conduce a rechazar H 0 al


nivel de significancia del 5%.

2.2.2. La prueba de rango con signo de Wilcoxon. (Una sola muestra)


Igual que en la prueba del signo, la prueba de rangos con signo de Wilcoxon conocida
tambin como prueba W de Wilcoxon se utiliza para probar H 0 : ~ ~o contra una

alternativa unilateral o bilateral. Para aplicar la prueba, los valores de la muestra deben estar
dados cuando menos en escala ordinal. No se requieren hacer suposiciones acerca de la
forma de la distribucin de la poblacin.
El procedimiento de la prueba es como sigue:
- Se determina la diferencia entre cada uno de los valores observados y el valor
~ .
~0 , esto es, d x
hipottico de la mediana, digamos 0

Si alguna de las diferencias es igual a cero, se elimina la observacin correspondiente


del anlisis y de esta manera se reduce el tamao efectivo de la muestra n (numero de
diferencias no nula).
- Se ordenan los valores absolutos de la diferencia, de menor a mayor, asignando el
rango 1 a la diferencia absoluta mas pequea, 2 a la siguiente diferencia menor, etc.
Cuando las diferencias absolutas son iguales, se asigna el rango promedio a los
valores que son iguales.
- Finalmente, se obtienen por separado la suma de los rangos para las diferencias
positivas y negativas.

La suma de rangos + y de rangos - se representan por w + y w- , respectivamente. Se


asigna al valor ms pequeo de los w+ y w- por w.
Luego, cualquiera que sea la hiptesis alternativa, se rechazar la hiptesis H 0 : ~
~o

cuando el valor del estadstico w+, w- o w es suficientemente pequeo.


El procedimiento de la prueba se resume a continuacin:

Prueba de rango con signo.


Para probar H 0 contra H1 Calcule
< 0
= 0 w+
> 0
w-
0 w
Cap. 2.- Mtodos estadsticos no paramtricos. 6

Se rechaza H 0 si el valor de w+, w- o w es menor que el valor k. No se rechaza H 0 en caso


contrario. En la tabla de valores de la W de Wilcoxon se encuentra el valor crtico k.

Ejemplo2. Con los datos del ejemplo 1, utilice la prueba de Wilcoxon para probar, al nivel
de significancia de 0.05, la hiptesis nula de que la mediana de las ventas es igual a 20
unidades, contra la alternativa que es diferente a 20 unidades.

Solucin. Tenemos los siguientes datos:

15 25 32 20 34 30 31 16 28 22 36 23

Al restar la mediana 20 de cada uno de los 12 valores de la muestra, se obtiene una


diferencia igual a cero. Luego se obtiene n = 11.

1. Hiptesis: H 0 : ~ 20 contra H 1 : ~
20

2. Nivel de significancia: = 0.05


3. Estadstica y regin crtica de la prueba: W de Wilcoxon.
Para n = 11 y una prueba bilateral con = 0.05, en la tabla de valores crticos de Wilcoxon,
se halla el valor de k = 11. Se rechazar H 0 si w 11.
4. Clculos: al restar 20 a cada medicin y despus dndole rangos a las diferencias sin
considerar el signo, se tiene:
23 +3 2
Valor de Xi d i x i ~0 Rangos

15 -5 4.5
25 +5 4.5
32 +12 9
20 0 -
34 +14 10
30 +10 7
31 +11 8
Ahora w+ =58.5, w- =7.5, de tal forma
16 -4 3
que w = 7.5, es el ms pequeo de w + y
28 +8 6
w-.
22 +2 1
36 +16 11
Cap. 2.- Mtodos estadsticos no paramtricos. 7

5. Decisin: Dado que w = 7.5 < 11, se rechaza H 0 y se concluye que las venta mediana es
significativamente diferente de 20 unidades.

- Cuando n 10 y la hiptesis nula es verdadera, la estadstica W tiene una


distribucin {aproximadamente Normal con
n(n 1)
Media: W
4
n(n 1)(2n 1)
y varianza: W
2

24

En este caso, para determinar la regin crtica de la prueba, se puede utilizar la


estadstica de prueba:
w W
Z N(0,1)
W

Nota.- Observar que si se utiliza el mtodo de aproximacin a la normal, para n = 11 y


w = 7.5, se tiene:
n(n 1) 11 12
W 33
4 4

n(n 1)(2n 1) 11(12)(23)


W 11 .247
24 24

7.5 33
Z -2.27
11 .247

Por lo tanto: 2 P( Z 2.27) 2 0.0116 0.0232 , lo cual conduce a rechazar H 0 al


nivel de significancia del 5%.
Cap. 2.- Mtodos estadsticos no paramtricos. 8

2.2.3. La prueba de los signos (Dos muestras dependientes).

La prueba de los signos es un mtodo no paramtrico que tambin se aplica cuando se tienen
dos muestras relacionadas para probar la hiptesis nula de que las dos distribuciones de las
dos poblaciones (X, Y) son iguales (tienen medianas iguales o medias iguales si las
poblaciones son continuas). No se requieren hacer suposiciones de normalidad de las dos
distribuciones poblacionales. Solo se requiere que los valores de las dos muestras aleatorias
apareadas sean cuando menos de escala ordinal.

El procedimiento para la prueba de los signos es como sigue:


Cada par de valores de la muestra se reemplaza por un + si la diferencia x i yi de las
observaciones pareadas es positiva (es decir, si xi > yi ) y por un signo - si la diferencia es
negativa (es decir, si xi < yi ) . Si la diferencia es cero (xi = yi), las parejas se eliminan del
anlisis. El nmero de parejas no descartadas es el tamao n de la muestra.
Si la hiptesis H 0 : ~1 ~2 es verdadera, es decir, si las dos poblaciones tienen igual
mediana debemos tener aproximadamente el mismo nmero de signos + y de signos -,
decir que la proporcin de signos positivos (y de negativos) debe ser 0.5.

La variable X representa el nmero de veces que ocurre el signo menos frecuente, entonces
la variable aleatoria X ~ B(n, p) con p = , la misma que se utiliza para realizar la prueba.

Nota. Cuando n 30 y p = 1/2 , puede utilizarse la distribucin normal como aproximacin


de la binomial (bastar con n > 10 ya que as , np > 5). En este caso la estadstica de prueba
es:

x np
Z N( 0, 1)
npq
Cap. 2.- Mtodos estadsticos no paramtricos. 9

Ejemplo 3. A un grupo de consumidores que consiste de 15 personas se les pide que


califique de 0 a 20, dos marcas A y B de un bien de consumo diario. Las calificaciones se
dan en la tabla que sigue:

Consumidor 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Marca A 10 19 18 14 10 14 09 17 18 20 14 10 16 08 16
Marca B 06 11 08 07 10 16 13 12 11 10 16 13 07 08 15

Utilice la prueba de los signos al nivel de significancia del5%, para probar la hiptesis de
que la mediana de la diferencia en la calificacin para las dos marcas del bien es cero, contra
una alternativa bilateral.

~ y
Solucin. Sean ~ las calificaciones medianas para las marcas del bien A y B
1 2

respectivamente.

1. Hiptesis: H 0 : ~ ~ contra H : ~
1 ~
2 1 1 2

2. Nivel de significancia: = 0.05


3. Estadstica de prueba: La variable aleatoria Binomial X con p = 0.5.
4. Clculos. En la tabla que sigue se indican con los signos + y - a cada par de valores
cuya medicin en la primera muestra es mayor y menor respectivamente que la medicin en
la segunda muestra. Se asigna el 0 a los pares de mediciones iguales.

Consumidor 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Marca A 10 19 18 14 10 14 09 17 18 20 14 10 16 08 16
Marca B 06 11 08 07 10 16 13 12 11 10 16 13 07 08 15
Signo de la diferencia + + + + 0 - - + + + - - + 0 +

Resultando n = 13 el tamao de la muestra. De los 13 signos, 9 son positivos y 4 son


negativos.
Para n = 13, x = 4 el valor calculado de P es:
4
13
P( X 4 cuando p 1 / 2) (0.5)13 0.1334
x 0 x
Cap. 2.- Mtodos estadsticos no paramtricos. 10

5. Decisin. Dado que 2 P 2(0.1334) 0.2668 0.05 , no se rechaza H 0 y se concluye


que no existe diferencia en cuanto a la calificacin de las dos marcas del bien de consumo
diario.

Nota. Observar que si utilizamos la aproximacin normal:


n p = 13(0.5) = 6.5 > 5 , npq 13(0.5)(0.5) 1.8

4 0.5 6.5
Luego, P( X 4 ) P Z
1 .8 P Z 1.11 0.1334

Ahora, dado que dado que 2 P 2(0.1334) 0.2668 0.05 , no se rechaza H 0

2.2.4. La prueba de rango con signos (Dos muestras dependientes).


Se ha observado que la prueba de los signos slo utiliza los signos ms y menos de las
diferencias entre los pares de observaciones en el caso de muestra pareada, pero no toma en
consideracin las magnitudes relativas de estas diferencias. Por ejemplo una diferencia de
12, es tratada en la misma forma que una diferencia de 1.

La prueba de rango con signo de Wilcoxon considera los signos e incorpora la magnitud de
las diferencias y por eso es ms potente que de la prueba del signo para el caso de dos
muestras correlacionadas (dependientes). Siendo, adems una alternativa adecuada a la
prueba paramtrica t de dos muestras correlacionadas (apareadas) cuando se verifican los
requerimientos de normalidad de las variables.

Para el caso de dos muestras pareadas, se le da rango a las diferencias de las observaciones
pareadas sin considerar el signo y se procede como en el caso de una sola muestra.
El procedimiento de la prueba para el caso de dos muestras pareada se resume a
continuacin:
Prueba de rango con signo.
Para probar H 0 contra H1 Calcule
Cap. 2.- Mtodos estadsticos no paramtricos. 11

1 < 2
W+
1 = 2 1 > 2
W-
1 2 W

La hiptesis nula H 0 se rechaza si el valor calculado W+, W- o W es menor que el valor


crtico apropiado que aparece en la tabla de Wilcoxon.

Ejemplo 4. Con los datos del ejemplo 3, utilice la prueba de los signos con rango de
Wilcoxon al nivel de significancia del 5%, para probar la hiptesis nula de que no existe
diferencia en las calificaciones promedio para las dos marcas del bien de consumo diario,
contra una alternativa bilateral.

Solucin.
1. Hiptesis: H 0 : ~ ~ contra H : ~
1 ~
2 1 1 2

2. Nivel de significancia: = 0.05


3. Regin critica: dado que n = 13, despus de descartar las dos diferencias iguales a cero.
Con n = 13, = 0.05 y una prueba bilateral, en la tabla de valores crticos de Wilcoxon se
encuentra el valor de 17. Se rechaza H 0 si W 17. No se rechazar en caso contrario.
.4. Clculos.
Jurado Marca A Marca B Diferencia Rango
1 10 06 4 5.5
2 19 11 8 10
3 18 08 10 12.5
4 14 07 7 8.5
5 10 10 0 -
6 14 16 -2 2.5
7 09 13 -4 5.5
8 17 12 5 7
9 18 11 7 8.5
10 20 10 10 12.5
11 14 16 -2 2.5
12 10 13 -3 4
Cap. 2.- Mtodos estadsticos no paramtricos. 12

13 16 07 9 11
14 08 08 0 -
15 16 15 1 1

Ahora tenemos: W+ = 76.5 y W- = 14.5 de tal forma que forma que W = 14.5 , el valor
ms pequeo de W+ y W-.
5. Decisin. Dado que el valor calculado W = 14.5 < 17, se rechaza H 0 .

Nota. Observar que si se utiliza el mtodo de aproximacin a la normal se tiene:

13(13 1) 13(13 1)( 2 13 1)


45.5 y 14.3
4 24

14.5 45.5
Z 2.18 P ( Z 2.18 ) 0.0146
14.3

Ahora, dado que dado que 2 P 2(0.0146) 0.0292 0.05 , con lo cual se rechaza H
0

2.2.5. La prueba de la suma de rangos (Dos muestras independientes).


Cuando se interesa probar la igualdad de medias de dos distribuciones continuas que
obviamente no son normales, y las muestras son independientes (es decir, no hay
pareamiento de observaciones), la prueba de la suma de rangos de Mann - Whitney es una
alternativa apropiada a la prueba t de dos muestras independientes. Es el mtodo no
paramtrico ms poderoso para comparar dos muestras cuando no son apareadas. Con la
prueba de suma de rangos de Mann - Whitney o prueba de U de Mann - Whitney, no se
requiere hacer suposicin alguna acerca de la forma de las distribuciones poblacionales. Pero
si se requiere que el nivel de medicin de las observaciones de las dos muestras sea al menos
de escala ordinal.
Si las distribuciones de las poblaciones son continuas, la hiptesis nula consiste en afirmar
que las dos medias poblacionales son iguales, esto es, H 0 : 1 2 contra una alternativa
unilateral o bilateral.
Cap. 2.- Mtodos estadsticos no paramtricos. 13

El procedimiento es el siguiente:
- sea n 1 el nmero de observaciones en la muestra ms pequea y n 2 el nmero de
observaciones en la muestra ms grande. Cuando las muestras son de igual tamao, n 1 y n2
se pueden asignar aleatoriamente.
- Se acomodan las observaciones n1 + n2 de las muestras combinadas en orden ascendente
y se sustituye un rango de 1, 2,, n1 + n2 para cada observacin, si se encuentran
observaciones iguales, se le asigna el promedio de sus rangos.

La suma de rangos correspondiente a las n1 observaciones en la muestra ms pequea se


representa por w1. En forma semejante, el valor de w 2 representa la suma de los n2 rangos
correspondientes a la muestra ms grande. Observar que las W i son las sumas de rangos de
Wilcoxon.
La hiptesis H 0 : 1 2 se rechazar a favor de H 1 : 1 2 si W1 es suficientemente
pequea, la alternativa H 1 : 1 2 se acepta si W2 es suficientemente pequea; y la
alternativa H 1 : 1 2 se acepta si el nmero de W1 y W2 es suficientemente pequeo.

En la prctica, la decisin por lo comn se basa en el valor,


n 1 (n 1 1) n 2 (n 2 1)
u1 w 1 o u2 w 2
2 2
del estadstico correspondiente U1 y U2 o sobre el valor de u del estadstico U, el mnimo de

u1 y u2.
En consecuencia, la hiptesis nula se rechazar siempre que el estadstico apropiado U1, U2 o
U tiene un valor menor o igual que el valor crtico deseado proporcionado en la tabla U de
Mann - Whitney (ver tabla A- 17).
Prueba de la suma de rangos.
Para probar H 0 contra H1 Calcule
1 < 2
u1
1 = 2 1 > 2
u2
1 2
u
Cap. 2.- Mtodos estadsticos no paramtricos. 14

Ejemplo 5. Se registran las siguientes muestras de ingresos familiares mensuales (en


dlares) de dos cuidades A y B.
Ingresos A: 850 600 700 910 870 800 700 1050
Ingresos B: 940 1000 1100 880 850 860 780 650 820 700

Utilice la prueba U de Mann Whitney al nivel de significancia del 5% , para probar la


hiptesis nula de que son iguales los ingresos familiares de las dos poblaciones A y A contra
la hiptesis alternativa de que son diferentes los ingresos.
Solucin.
1. Hiptesis: H 0 : 1 2 contra H1 : 1 2
2. Nivel de significancia: = 0.05
3. Estadstica de prueba: U de Mann Whitney (no se supone normalidad)
4. Regin critica: Para n1 = 8 y n2 = 10 y = 0.05, en la tabla A-17 de valores de u, se obtiene
el valor critico igual a 17.
Se rechazar H 0 si u, el menor de los valores de u1 y u2 es menor o igual a 17; es decir si

u 17.
5. Clculos. Las observaciones se acomodan en orden ascendente y se asignan los rangos de
1 a 18.

Ingresos Rangos 1000 16

600 * 1 1050 * 17

650 2 1100 18

700 * 4
Los rangos de los ingresos que pertenecen a los ingresos A,
700 * 4
700 4 la muestra ms pequea, aparece marcado con asterisco
780 6 (*).
800 * 7
820 8 Ahora:
850 * 9.5 w1 = 1 + 4 + 4 + 7 + 9.5 + 12 + 14 + 17 = 68.5
850 9.5 y
860 11 18 19
w2 68.5 102.5
870 * 12 2
880 13
910 * 14 Por lo tanto:
940 15
Cap. 2.- Mtodos estadsticos no paramtricos. 15

89
u1 68.5 32.5
2
Luego u = 32.5
10 11
u 2 102.5 47.5
2

5. Decisin. Dado que u = 32.5 > 17, no se rechaza H 0 y se concluye que son iguales los
ingresos promedios familiares de las dos ciudades.

Nota.- Puede verificarse que si se supone normalidad de las variables, utilizando la prueba t
se obtiene t = -0.735 , para una prueba bilateral. Un valor de
P 2 P (t 0.735) 0.473 0.05 .

Por lo tanto, tambin se acepta la hiptesis H 0.

Aproximacin a la teora normal para dos muestras.


Cuando n1 y n2 exceden de 8, la distribucin muestral de u1 (o u2) se aproxima a la
distribucin normal con
n1 n2
Media u
1 2
n1 n2 (n1 n2 1)
y varianza u21
12

Por lo tanto, cuando n1 es mayor que 20 y n2 es al menos 9, se puede utilizar el estadstico


u1 u
Z 1
N (0,1)
u
1

2.2.6. La prueba de Kruskal -Wallis (K muestras independientes).

La prueba de Kruskal - Wallis, llamada tambin prueba H de Kruskal Wallis se utiliza para
probar la hiptesis nula de que k muestras independientes provienen de poblaciones idnticas
o de la misma poblacin. Es una generalizacin de la prueba U de Mann Whitney para el
caso de K > 2 muestras independientes.
La prueba de Kruskal Wallis (introducida en 1952), es un procedimiento no paramtrico
para probar la igualdad de medias en el anlisis de varianza de un factor cuando se desea
Cap. 2.- Mtodos estadsticos no paramtricos. 16

evitarse la suposicin de que las muestras se seleccionaron de poblaciones normales. Se


requiere que los valores de las muestras aleatorias independientes estn cuando menos en
escala ordinal.
El procedimiento de la s como sigue:
- Sea ni (i = 1, 2,, k) el nmero de observaciones en la i-sima muestra. Se combinan
las k muestras y se arreglan las n = n1 + n2 ++ nk observaciones en orden
ascendente e identificndolos de acuerdo al grupo muestral al que pertenecen.

- Se les asigna el rango apropiado de 1, 2,, n a cada observacin. Si se encuentran


valores iguales, se les asigna como rango el promedio de sus rangos. La suma de los
rangos correspondientes a las ni observaciones en la muestra i se representa por la
variable aleatoria Ri.

Consideremos el estadstico de prueba:


12 k
R i2
H
n(n 1) i 1 n i
3(n 1) (2k 1)

Cuando la hiptesis H 0: las k poblaciones son iguales, es verdadera y si cada muestra


consiste de al menos 5 observaciones (ni 5).
Luego, para probar H 0, calclese:
12 k
ri2
h 3(n 1)
n(n 1) i 1 n i

Si h ( , k 1) se rechaza H 0 al nivel de significancia de ; de otra manera se acepta H 0 .


2

Ejemplo 6. Los datos que siguen representan los tiempos de operacin en horas, de tres tipos
de bateras de telfonos celulares hasta antes que requieran cargarlas.

Bateras 25.9 19.2 20.3


A B C
18.5 23.4

24.9 19.8 18.2 19.0

26.1 18.2 19.0 19.5

22.8 17.5 19.6


21.8 17.5 20.1
Cap. 2.- Mtodos estadsticos no paramtricos. 17

bateras son iguales, al nivel de


Pruebe la hiptesis que los tiempos
significancia = 0.05.
promedios de operacin para las tres

Solucin.

1. Hiptesis: H 0 : 1 2 3
H 1 : No son iguales las tres medias.

2. Nivel de significancia: = 0.05


12 k
R i2
3. Estadstica de prueba: H
n(n 1) i 1 n i
3(n 1) (22)

4. Regin critica:
R.C = {h /h > 5.99}
f(2)

= 0.05

2
0 2 (0.05,2) = 5.99

5. Clculos. En la tabla siguiente se convierten las 19 observaciones a rangos y se suman los


mismos para cada grupo (bateras).

Rango de la duracin de las 19.0


operaciones 19.5

Bateras
A B C

24.9 19.8 18.2


Se tiene n1 = 5, n2 = 8, n3 = 6, r1 = 83,
26.1 18.2 19.0
22.8 17.5 19.6 r2 = 46 y r3 = 61.
21.8 17.5 20.1 El valor h de la estadstica H es:
25.9 19.2 20.3 12 83 2 46 2 612
h 3 20
18.5 23.4 19 20 5 8 6 .
11.446
Cap. 2.- Mtodos estadsticos no paramtricos. 18

6. Decisin. Dado que h = 11.446 > 5.99, se debe rechazar H 0 y concluir que los tiempos
promedios de duracin para las tres clases de bateras son diferentes.

2.2.7. Prueba de corridas.


Al aplicar muchos conceptos estadsticos, se supuso que los datos maestrales se haban
obtenido mediante algn procedimiento aleatorizado. La prueba de corridas, que se basa en
el orden en el cual se obtienen las observaciones muestrales, es una tcnica til para probar
la hiptesis nula H 0 de que las observaciones se extraen realmente al azar.

Definicin. Una corrida es una subsecuencia de uno o ms smbolos idnticos que


representan una propiedad comn de los datos.

Consideremos la siguiente secuencia:


M M F F F M F F M M M M

Donde se han agrupado subsecuencias de smbolos similares. Tales agrupamientos se llaman


corridas (en nuestro ejemplo, se tienen 5 corridas).
Al hacer caso omiso de si las mediciones muestrales son datos cualitativos o cuantitativos, la
prueba de corrida divide los datos en dos categoras mutuamente excluyentes; Hombres o
mujeres; defectuoso o no; caras o sellos; arriba o debajo de la mediana, etc. Como resultado,
una secuencia estar siempre limitada por dos smbolos distintos.

Sea n1 el nmero de smbolos asociados con la categora que ocurre menos y n 2 el nmero de
smbolos que pertenecen a la otra categora. Entonces el tamao de la muestra es n = n1 + n2.
La prueba de corridas para aleatoriedad se fundamenta en la variable aleatoria V: el nmero
total de corridas que ocurran en la secuencia completa del experimento.
En la tabla A-18, los valores de P(v v cuando H 0 es verdadera ) estn dados por
v*=2, 3,, 20 corridas y los valores de n1 y n2 10. Los valores de P para ambas pruebas de
una o dos colas se obtienen utilizando estos valores tabulados.

En el conjunto anterior se exhiben un total de 5 Fs y 7 Ms. De aqu que, con n 1 = 5, n2 = 7 y


v = 5, se ve de la tabla A-18 que para una prueba de dos colas el valor de P es:
Cap. 2.- Mtodos estadsticos no paramtricos. 19

P 2 P (v 5 cuando H 0 es verdadera ) 2(0.197) 0.394 0.05

Es decir, el valor v = 5 es razonable al nivel de significancia =0.05 cuando H 0 es verdadera


y, por lo tanto, se tiene evidencia insuficiente para rechazar la hiptesis de aleatoriedad de la
muestra.
La prueba de corridas tambin se puede utilizar para detectar desviaciones en la aleatoriedad
de una secuencia de mediciones cuantitativas en el tiempo, ocasionadas por tendencias o
periodicidades.

Ejemplo 7. Se ajusta una mquina para despachar adelgazante de pintura acrlica en un


recipiente. Dira Ud. que la cantidad de adelgazante que est siendo despachada por esta
mquina varia aleatoriamente, si los contenidos de los siguientes quince recipientes se miden
y se encuentra que son:

3.6 3.9 4.1 3.6 3.8 3.7 3.4 4.0 4.8 4.1 3.9 4.0 3.8 4.2 y 4.1 litros?

Utilice un nivel de significancia de 0.1.

Solucin.
1. Hiptesis: H 0: La secuencia es aleatoria
H 1: La secuencia no es aleatoria
2. Nivel de significancia: = 0.10
3. Estadstica de prueba: V, el nmero total de corridas.
4. Clculo. Para la muestra dada se encuentra ~ x 3.9 . Al reemplazar cada medicin por
el smbolo + si cae arriba de 3.9, por el smbolo- si cae por debajo de 3.9 y al omitir
las dos mediciones que son iguales que 3.9, se obtiene la secuencia:

- + - - - - + + + + - + +

Para lo cual n1 = 6, n2 = 7 y v = 6.

Por lo tanto, el valor calculado de P es:


Cap. 2.- Mtodos estadsticos no paramtricos. 20

P 2 P (v 6 cuando H 0 es verdadera ) 2(0.296) 0.592 0.10

5. Decisin. Se acepta la hiptesis de que la secuencia de mediciones vara aleatoriamente.

Observacin.

- Cuando el nmero de corridas es grande, por ejemplo si v = 11 y n1=5 y n2=7,


entonces el valor P en una prueba de dos colas es:

P 2 P (v 11 cuando H 0 es verdadera ) 21 P (v 10) cuando H 0 es verdadera


2(1 0.992) 0.016 0.05

Lo cual conduce a rechazar la hiptesis de que los valores muestrales ocurrieron al


azar.

- Cuando n1 y n2 aumentan en tamao, la distribucin de v se aproxima a la


distribucin normal con
2n 1 n 2 2n n (2n 1 n 2 n 1 n 2 )
Media v 1 y varianza v2 1 2
n1 n 2 (n 1 n 2 ) 2 (n 1 n 2 1)
Lo anterior da como resultado que cuando n1 y n2 son ambos mayores que 10, se
podra utilizar el estadstico:

v v
Z
v

para establecer la regin crtica de la prueba de corridas.


Cap. 2.- Mtodos estadsticos no paramtricos. 21

2.2.8. Coeficiente de correlacin de rango de Spearman.

El coeficiente de correlacin r de Pearson se aplica cuando se supone que hay una relacin
lineal entre dos variables X e Y cuyas mediciones de las variables son al menos en escala de
intervalos. Una medida no paramtrica de la asociacin entre dos variables X e Y es el
coeficiente de correlacin de rangos de Spearman rS.
Para n pares de datos observados (Xi, Yi), i = 1, 2,, n de (X, Y) el coeficiente de correlacin
de rangos de Spearman rS est dado por:

n
6 d i2
rS 1 i 1

n (n 2 1)

donde di es la diferencia entre los rangos asignados a Xi, e Yi .

El coeficiente de rS de Spearman es el coeficiente r de Pearson basado en el rango de los datos

y en consecuencia se interpreta en forma similar al coeficiente r de Pearson, esto es:

-1 rS 1.
De acuerdo al valor de rS se tiene:

-1.00 = Correlacin negativa prefecta.


-0.90 = Correlacin negativa muy fuerte.
-0.75 =.Correlacin negativa considerable.
-0.50 = Correlacin negativa media.
-0.10 =.Correlacin negativa dbil.
0.00 = No existe correlacin alguna entre las variables.
+0.10 =.Correlacin positiva dbil.
+0.50 = Correlacin positiva media.
+0.75 =.Correlacin positiva considerable.
+0.90 = Correlacin positiva muy fuerte.
+1.00 = Correlacin positiva prefecta.
Cap. 2.- Mtodos estadsticos no paramtricos. 22

El signo indica la direccin de la correlacin (positiva o negativa) y el valor numrico, la


magnitud de la correlacin.

Para aplicar el coeficiente rS de Spearman no se requiere suponer que hay relacin lineal entre X e
Y. Tampoco se requiere hacer suposiciones de normalidad respecto a X e Y para probar H 0 : S 0 .
Se requiere si que las mediciones sean hechas en escala por lo menos ordinal.

Para probar la hiptesis H 0 : S 0 contra una alternativa adecuada, se debe considerar la

distribucin muestral de los valores de rS bajo la suposicin de que no hay correlacin. Se han
calculado los valores crticos para = 0.05, 0.025, 0.01 y 0.005 y se dan en la tabla A-21.

Ejemplo 8. La siguiente tabla contiene las calificaciones registradas por 10 alumnos en el


examen parcial y final de la asignatura de Estadstica Aplicada.

Alumno 1 2 3 4 5 6 7 8 9 10
Examen parcial 14 09 15 08 13 16 10 12 07 11
Examen final 17 13 18 09 16 15 11 12 10 14
a) Calcule el coeficiente de correlacin por rangos de Spearman.
b) Pruebe la hiptesis nula H 0 : S 0 contra H 0 : S 0 al nivel de significancia = 0.05.

Solucin.
a) Se ordenan por rangos las mediciones (calificaciones) en cada uno de los examenes.
En la tabla que sigue se presentan los rangos de las notas del examen parcial (X) y
del examen final (Y), las diferencias d i en rangos para los diez pares de datos y los
cuadrados de las d i2 .
Rango para las calificaciones del examen
parcial y final.

Alumno xi yi di d i2

1 8 9 -1 1
2 3 5 -2 4
3 9 10 -1 1
4 2 1 1 1
5 7 8 -1 1
6 10 7 3 9
7 4 3 1 1
8 6 4 2 4
9 1 2 -1 1
10 5 6 -1 1
Cap. 2.- Mtodos estadsticos no paramtricos. 23

Total 24

Sustituyendo en la formula para rS se obtiene:


6 (24)
rS 1 0.8545
10 (10 2 1)

Indica una correlacin positiva fuerte (alta) entre las calificaciones obtenidas en el
examen parcial y final en los alumnos.

b)

1. Hiptesis H 0 : S 0 contra H 0 : S 0
2. Nivel de significancia: = 0.05.
3. Regin crtica: rS > 0.564 de la tabla A-21.

4. Clculos: De la parte a), se tiene rS = 0.8545

5. Decisin. Como rS = 0.8545 > 0.564 se rechaza H 0 y se concluye que existe una
correlacin significativa entre las notas de los dos examenes.

2.2.9. La prueba de Kolmogorov Smirnov. (Una sola muestra).

El mtodo de Kolmogorov Smirnov es un procedimiento no paramtrico que se utiliza para


comprobar la hiptesis nula de que la muestra procede de una poblacin en la que la variable
est distribuida segn la normal (tambin la uniforme o Poisson).
La estadstica de prueba se denota por D (mxima desviacin) y se define por:

D mximo S n (x i ) F(x i )

Donde S n (x i ) y F (x i ) son las probabilidades acumuladas observadas y esperadas


respectivamente.

En la tabla de Kolmogorov Smirnov se encuentran ciertos valores crticos de la distribucin


muestral de D para diversos valores de n y . Se rechaza la hiptesis nula que los datos
provienen de una distribucin normal contra la hiptesis alternativa de que los datos no
provienen de la distribucin normal, si el valor de D es mayor que el valor critico
correspondiente. No se rechaza la hiptesis nula en caso contrario.
Cap. 2.- Mtodos estadsticos no paramtricos. 24

Ejemplo 9. Al nivel de significancia = 0.01. Podemos afirmar que es normal la poblacin de la


que ha sido extrada la muestra aleatoria simple: 17 15 8 13 9 12 10 14 11 16

Solucin.
1. Hiptesis: H 0: La muestra aleatoria proviene de una distribucin normal.
H 1: La muestra aleatoria no proviene de una distribucin normal
2. Nivel de significancia: = 0.01
3. Regin crtica: para = 0.01 y n =10, en la tabla de valores de Kolmogorov Smirnov se
encuentra el valor crtico 0.490. Se rechaza H 0 si D > 0.490.
4. Clculos: Se ordenan los n datos y se obtiene la distribucin de frecuencia acumulada

k
relativa S n (x i ), las proporciones acumuladas estn dadas por S n (x i ) , donde k es el
n
nmero de observaciones menor o igual que x i . Se obtienen las proporciones o

probabilidades tericas Fi (x i ) P(X x i ) de la distribucin normal a partir de los datos

xi x
estandarizados: Z i .
S
Las probabilidades acumuladas observadas y esperadas se muestran en la siguiente tabla:

Las probabilidades acumuladas observadas y esperadas suponiendo Normalidad .

Datos Valores Prob. acumulada Prob. acumulada Diferencia


ordenados Estand. Z i observada, S n (x i ) Esperada F i (Z i )
| S n (x i ) - F i (Z i ) |

8 -1.49 0.1 0.0681 0.0319


9 -1.16 0.2 0.1230 0.0770
10 -0.83 0.3 0.2033 0.0967 *
11 -0.50 0.4 0.3085 0.0915
12 -0.17 0.5 0.4325 0.0675
13 0.17 0.6 0.5675 0.0325
14 0.50 0.7 0.6915 0.0085
15 0.83 0.8 0.7967 0.0033
16 1.16 0.9 0.8770 0.0230
17 1.49 1.0 0.9319 0.0687

* La diferencia mxima en valor absoluto es 0.0967

5. Decisin. Dado que D = 0.0967 < 0.490, debemos aceptar la hiptesis nula de que es normal
la poblacin de cual se ha obtenido la muestra.

Potrebbero piacerti anche