Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
CAPITULO 2.
2.1. Introduccin. En los captulos anteriores se han analizado modelos estadsticos que
implican distribuciones continuas con ciertos supuestos bsicos para la aplicacin de estas
tcnicas. El principal uso de esos modelos es la estimacin de parmetros desconocidos de la
poblacin en estudio, para poder hacer pruebas de validacin o ensayos de significacin y
testear as las hiptesis planteadas. Estos supuestos se plantean fundamentalmente sobre el
valor que toman los parmetros poblacionales o sobre comparaciones de dos de ellos. Hasta
ahora se ha trabajado con magnitudes de tipo cuantitativa y continua. A las magnitudes
discretas se las tratado como proporciones para poder usar los modelos vistos, y cuando se
us el modelo de Gauss (distribucin normal) se tuvo que hacer una correccin por
continuidad. A esta metodologa de trabajo se la denomina Estadstica Paramtrica, por
contraposicin a otra donde lo que interesa es comparar distribuciones en lugar de
parmetros. Mientras los supuestos usados en la paramtrica especifican la distribucin
original (generalmente la distribucin normal), hay otros casos en la prctica donde no se
puede hacer esto, donde no se puede especificar la forma de la distribucin original. Se
requiere entonces otra metodologa de trabajo, una estadstica de distribuciones libres, donde
no se necesitan hacer supuestos acerca de la distribucin poblacional, donde se puede
comparar distribuciones entre si o verificar supuestos a cerca de la forma de la poblacin.
Las pruebas de hiptesis en las que se han utilizado la estadstica Z, la t o la F se denominan
mtodos paramtricos. En estas pruebas se supone que la distribucin de probabilidad de la
poblacin en la que se extrae la muestra tiene forma y que su (o sus) parmetro verifica
ciertas condiciones de manera que la estadstica muestral correspondiente tenga una
distribucin de probabilidad conocida en la que se puede determinar una regin crtica y
establecer una regla de decisin. Por ejemplo, para la aplicacin de la prueba t, se requiere
suponer que la poblacin es normal.
Sin embargo, existen muchas aplicaciones donde no es posible conocer la distribucin de las
poblaciones de las que se extraen las muestras. En estos casos, se utilizan mtodos
Cap. 2.- Mtodos estadsticos no paramtricos. 2
Hay ciertas ventajas en el uso de los mtodos estadsticos no paramtricos, tales como:
- trabajar con magnitudes cualitativas, adems de la cuantitativas;
- estudiar casos donde no es posible precisar la naturaleza de la distribucin;
- dem para los casos donde los supuestos de la forma poblacional son dbiles;
- aplicar el mismo modelo a casi todas las distribuciones en lugar a una sola;
- es ms fcil de entender para quienes no poseen base matemtica adecuada.
Y tambin tiene algunas desventajas como:
- clculos usualmente ms engorrosos;
- no extraen tanta informacin como los paramtricos si se aplican al mismo caso;
- son menos eficientes si las muestras son grandes.
Se requiere adems que los valores de la muestra se encuentren cuando menos en escala de
intervalos. Pero, si la poblacin no es normal y si n < 30, o cuando los valores de la muestra
se encuentran cuando menos en escala ordinal, se debe utilizar la prueba no paramtrica
correspondiente. La prueba de los signos se utiliza para probar la hiptesis nula H 0 : o .
Para aplicar la prueba del signo no se requiere hacer suposiciones de normalidad de la
poblacin, se requiere si que los valores de la muestra se encuentren cuando menos en escala
ordinal.
La hiptesis nula consiste pues en afirmar que la mediana de la poblacin, parmetro que
denotaremos por ~ ~
~0 , esto es, H 0 :
, es igual a algn valor dado ~ . La alternativa
o
o ~~
H0 : o contra H 1 : ~
~
o
- Si la prueba es bilateral :
~
H0 : ~o contra H 1 :
~
~o
x np x n/2
Z N( 0, 1)
npq 1
n
2
Cap. 2.- Mtodos estadsticos no paramtricos. 4
Ejemplo 1.- Los siguientes datos representan el nmero de unidades vendidas en una
muestra de 12 tiendas de un nuevo artculo de uso personal:
15 25 32 20 34 30 31 16 28 22 36 23
Solucin.
1. Hiptesis: H 0 : ~ 20 contra H 1 : ~
20
- + + 0 + + + - + + + +
para la cual n = 11 (signos, se descarta el 0), x = 2 (el nmero de veces que ocurre el signo
menos frecuente).
5. Decisin. Dado que P = 0.0327 < 0.05, se rechaza H 0 y se concluye que las ventas
medianas es mayor que 20 unidades.
alternativa unilateral o bilateral. Para aplicar la prueba, los valores de la muestra deben estar
dados cuando menos en escala ordinal. No se requieren hacer suposiciones acerca de la
forma de la distribucin de la poblacin.
El procedimiento de la prueba es como sigue:
- Se determina la diferencia entre cada uno de los valores observados y el valor
~ .
~0 , esto es, d x
hipottico de la mediana, digamos 0
Ejemplo2. Con los datos del ejemplo 1, utilice la prueba de Wilcoxon para probar, al nivel
de significancia de 0.05, la hiptesis nula de que la mediana de las ventas es igual a 20
unidades, contra la alternativa que es diferente a 20 unidades.
15 25 32 20 34 30 31 16 28 22 36 23
1. Hiptesis: H 0 : ~ 20 contra H 1 : ~
20
15 -5 4.5
25 +5 4.5
32 +12 9
20 0 -
34 +14 10
30 +10 7
31 +11 8
Ahora w+ =58.5, w- =7.5, de tal forma
16 -4 3
que w = 7.5, es el ms pequeo de w + y
28 +8 6
w-.
22 +2 1
36 +16 11
Cap. 2.- Mtodos estadsticos no paramtricos. 7
5. Decisin: Dado que w = 7.5 < 11, se rechaza H 0 y se concluye que las venta mediana es
significativamente diferente de 20 unidades.
24
7.5 33
Z -2.27
11 .247
La prueba de los signos es un mtodo no paramtrico que tambin se aplica cuando se tienen
dos muestras relacionadas para probar la hiptesis nula de que las dos distribuciones de las
dos poblaciones (X, Y) son iguales (tienen medianas iguales o medias iguales si las
poblaciones son continuas). No se requieren hacer suposiciones de normalidad de las dos
distribuciones poblacionales. Solo se requiere que los valores de las dos muestras aleatorias
apareadas sean cuando menos de escala ordinal.
La variable X representa el nmero de veces que ocurre el signo menos frecuente, entonces
la variable aleatoria X ~ B(n, p) con p = , la misma que se utiliza para realizar la prueba.
x np
Z N( 0, 1)
npq
Cap. 2.- Mtodos estadsticos no paramtricos. 9
Consumidor 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Marca A 10 19 18 14 10 14 09 17 18 20 14 10 16 08 16
Marca B 06 11 08 07 10 16 13 12 11 10 16 13 07 08 15
Utilice la prueba de los signos al nivel de significancia del5%, para probar la hiptesis de
que la mediana de la diferencia en la calificacin para las dos marcas del bien es cero, contra
una alternativa bilateral.
~ y
Solucin. Sean ~ las calificaciones medianas para las marcas del bien A y B
1 2
respectivamente.
1. Hiptesis: H 0 : ~ ~ contra H : ~
1 ~
2 1 1 2
Consumidor 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Marca A 10 19 18 14 10 14 09 17 18 20 14 10 16 08 16
Marca B 06 11 08 07 10 16 13 12 11 10 16 13 07 08 15
Signo de la diferencia + + + + 0 - - + + + - - + 0 +
4 0.5 6.5
Luego, P( X 4 ) P Z
1 .8 P Z 1.11 0.1334
Ahora, dado que dado que 2 P 2(0.1334) 0.2668 0.05 , no se rechaza H 0
La prueba de rango con signo de Wilcoxon considera los signos e incorpora la magnitud de
las diferencias y por eso es ms potente que de la prueba del signo para el caso de dos
muestras correlacionadas (dependientes). Siendo, adems una alternativa adecuada a la
prueba paramtrica t de dos muestras correlacionadas (apareadas) cuando se verifican los
requerimientos de normalidad de las variables.
Para el caso de dos muestras pareadas, se le da rango a las diferencias de las observaciones
pareadas sin considerar el signo y se procede como en el caso de una sola muestra.
El procedimiento de la prueba para el caso de dos muestras pareada se resume a
continuacin:
Prueba de rango con signo.
Para probar H 0 contra H1 Calcule
Cap. 2.- Mtodos estadsticos no paramtricos. 11
1 < 2
W+
1 = 2 1 > 2
W-
1 2 W
Ejemplo 4. Con los datos del ejemplo 3, utilice la prueba de los signos con rango de
Wilcoxon al nivel de significancia del 5%, para probar la hiptesis nula de que no existe
diferencia en las calificaciones promedio para las dos marcas del bien de consumo diario,
contra una alternativa bilateral.
Solucin.
1. Hiptesis: H 0 : ~ ~ contra H : ~
1 ~
2 1 1 2
13 16 07 9 11
14 08 08 0 -
15 16 15 1 1
Ahora tenemos: W+ = 76.5 y W- = 14.5 de tal forma que forma que W = 14.5 , el valor
ms pequeo de W+ y W-.
5. Decisin. Dado que el valor calculado W = 14.5 < 17, se rechaza H 0 .
14.5 45.5
Z 2.18 P ( Z 2.18 ) 0.0146
14.3
Ahora, dado que dado que 2 P 2(0.0146) 0.0292 0.05 , con lo cual se rechaza H
0
El procedimiento es el siguiente:
- sea n 1 el nmero de observaciones en la muestra ms pequea y n 2 el nmero de
observaciones en la muestra ms grande. Cuando las muestras son de igual tamao, n 1 y n2
se pueden asignar aleatoriamente.
- Se acomodan las observaciones n1 + n2 de las muestras combinadas en orden ascendente
y se sustituye un rango de 1, 2,, n1 + n2 para cada observacin, si se encuentran
observaciones iguales, se le asigna el promedio de sus rangos.
u1 y u2.
En consecuencia, la hiptesis nula se rechazar siempre que el estadstico apropiado U1, U2 o
U tiene un valor menor o igual que el valor crtico deseado proporcionado en la tabla U de
Mann - Whitney (ver tabla A- 17).
Prueba de la suma de rangos.
Para probar H 0 contra H1 Calcule
1 < 2
u1
1 = 2 1 > 2
u2
1 2
u
Cap. 2.- Mtodos estadsticos no paramtricos. 14
u 17.
5. Clculos. Las observaciones se acomodan en orden ascendente y se asignan los rangos de
1 a 18.
600 * 1 1050 * 17
650 2 1100 18
700 * 4
Los rangos de los ingresos que pertenecen a los ingresos A,
700 * 4
700 4 la muestra ms pequea, aparece marcado con asterisco
780 6 (*).
800 * 7
820 8 Ahora:
850 * 9.5 w1 = 1 + 4 + 4 + 7 + 9.5 + 12 + 14 + 17 = 68.5
850 9.5 y
860 11 18 19
w2 68.5 102.5
870 * 12 2
880 13
910 * 14 Por lo tanto:
940 15
Cap. 2.- Mtodos estadsticos no paramtricos. 15
89
u1 68.5 32.5
2
Luego u = 32.5
10 11
u 2 102.5 47.5
2
5. Decisin. Dado que u = 32.5 > 17, no se rechaza H 0 y se concluye que son iguales los
ingresos promedios familiares de las dos ciudades.
Nota.- Puede verificarse que si se supone normalidad de las variables, utilizando la prueba t
se obtiene t = -0.735 , para una prueba bilateral. Un valor de
P 2 P (t 0.735) 0.473 0.05 .
La prueba de Kruskal - Wallis, llamada tambin prueba H de Kruskal Wallis se utiliza para
probar la hiptesis nula de que k muestras independientes provienen de poblaciones idnticas
o de la misma poblacin. Es una generalizacin de la prueba U de Mann Whitney para el
caso de K > 2 muestras independientes.
La prueba de Kruskal Wallis (introducida en 1952), es un procedimiento no paramtrico
para probar la igualdad de medias en el anlisis de varianza de un factor cuando se desea
Cap. 2.- Mtodos estadsticos no paramtricos. 16
Ejemplo 6. Los datos que siguen representan los tiempos de operacin en horas, de tres tipos
de bateras de telfonos celulares hasta antes que requieran cargarlas.
Solucin.
1. Hiptesis: H 0 : 1 2 3
H 1 : No son iguales las tres medias.
4. Regin critica:
R.C = {h /h > 5.99}
f(2)
= 0.05
2
0 2 (0.05,2) = 5.99
Bateras
A B C
6. Decisin. Dado que h = 11.446 > 5.99, se debe rechazar H 0 y concluir que los tiempos
promedios de duracin para las tres clases de bateras son diferentes.
Sea n1 el nmero de smbolos asociados con la categora que ocurre menos y n 2 el nmero de
smbolos que pertenecen a la otra categora. Entonces el tamao de la muestra es n = n1 + n2.
La prueba de corridas para aleatoriedad se fundamenta en la variable aleatoria V: el nmero
total de corridas que ocurran en la secuencia completa del experimento.
En la tabla A-18, los valores de P(v v cuando H 0 es verdadera ) estn dados por
v*=2, 3,, 20 corridas y los valores de n1 y n2 10. Los valores de P para ambas pruebas de
una o dos colas se obtienen utilizando estos valores tabulados.
3.6 3.9 4.1 3.6 3.8 3.7 3.4 4.0 4.8 4.1 3.9 4.0 3.8 4.2 y 4.1 litros?
Solucin.
1. Hiptesis: H 0: La secuencia es aleatoria
H 1: La secuencia no es aleatoria
2. Nivel de significancia: = 0.10
3. Estadstica de prueba: V, el nmero total de corridas.
4. Clculo. Para la muestra dada se encuentra ~ x 3.9 . Al reemplazar cada medicin por
el smbolo + si cae arriba de 3.9, por el smbolo- si cae por debajo de 3.9 y al omitir
las dos mediciones que son iguales que 3.9, se obtiene la secuencia:
- + - - - - + + + + - + +
Para lo cual n1 = 6, n2 = 7 y v = 6.
Observacin.
v v
Z
v
El coeficiente de correlacin r de Pearson se aplica cuando se supone que hay una relacin
lineal entre dos variables X e Y cuyas mediciones de las variables son al menos en escala de
intervalos. Una medida no paramtrica de la asociacin entre dos variables X e Y es el
coeficiente de correlacin de rangos de Spearman rS.
Para n pares de datos observados (Xi, Yi), i = 1, 2,, n de (X, Y) el coeficiente de correlacin
de rangos de Spearman rS est dado por:
n
6 d i2
rS 1 i 1
n (n 2 1)
-1 rS 1.
De acuerdo al valor de rS se tiene:
Para aplicar el coeficiente rS de Spearman no se requiere suponer que hay relacin lineal entre X e
Y. Tampoco se requiere hacer suposiciones de normalidad respecto a X e Y para probar H 0 : S 0 .
Se requiere si que las mediciones sean hechas en escala por lo menos ordinal.
distribucin muestral de los valores de rS bajo la suposicin de que no hay correlacin. Se han
calculado los valores crticos para = 0.05, 0.025, 0.01 y 0.005 y se dan en la tabla A-21.
Alumno 1 2 3 4 5 6 7 8 9 10
Examen parcial 14 09 15 08 13 16 10 12 07 11
Examen final 17 13 18 09 16 15 11 12 10 14
a) Calcule el coeficiente de correlacin por rangos de Spearman.
b) Pruebe la hiptesis nula H 0 : S 0 contra H 0 : S 0 al nivel de significancia = 0.05.
Solucin.
a) Se ordenan por rangos las mediciones (calificaciones) en cada uno de los examenes.
En la tabla que sigue se presentan los rangos de las notas del examen parcial (X) y
del examen final (Y), las diferencias d i en rangos para los diez pares de datos y los
cuadrados de las d i2 .
Rango para las calificaciones del examen
parcial y final.
Alumno xi yi di d i2
1 8 9 -1 1
2 3 5 -2 4
3 9 10 -1 1
4 2 1 1 1
5 7 8 -1 1
6 10 7 3 9
7 4 3 1 1
8 6 4 2 4
9 1 2 -1 1
10 5 6 -1 1
Cap. 2.- Mtodos estadsticos no paramtricos. 23
Total 24
Indica una correlacin positiva fuerte (alta) entre las calificaciones obtenidas en el
examen parcial y final en los alumnos.
b)
1. Hiptesis H 0 : S 0 contra H 0 : S 0
2. Nivel de significancia: = 0.05.
3. Regin crtica: rS > 0.564 de la tabla A-21.
5. Decisin. Como rS = 0.8545 > 0.564 se rechaza H 0 y se concluye que existe una
correlacin significativa entre las notas de los dos examenes.
D mximo S n (x i ) F(x i )
Solucin.
1. Hiptesis: H 0: La muestra aleatoria proviene de una distribucin normal.
H 1: La muestra aleatoria no proviene de una distribucin normal
2. Nivel de significancia: = 0.01
3. Regin crtica: para = 0.01 y n =10, en la tabla de valores de Kolmogorov Smirnov se
encuentra el valor crtico 0.490. Se rechaza H 0 si D > 0.490.
4. Clculos: Se ordenan los n datos y se obtiene la distribucin de frecuencia acumulada
k
relativa S n (x i ), las proporciones acumuladas estn dadas por S n (x i ) , donde k es el
n
nmero de observaciones menor o igual que x i . Se obtienen las proporciones o
xi x
estandarizados: Z i .
S
Las probabilidades acumuladas observadas y esperadas se muestran en la siguiente tabla:
5. Decisin. Dado que D = 0.0967 < 0.490, debemos aceptar la hiptesis nula de que es normal
la poblacin de cual se ha obtenido la muestra.