Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ERRNVPHGLFRVRUJ
WA 950
ISBN 978-959-212-617-6
Introducción / 1
Capítulo 1. Estadística descriptiva / 5
1.1. Escalas de cuantificación / 5
1.2. Distribuciones de frecuencias según las escalas de cuantificación / 7
1.3. Representaciones gráficas de las distribuciones de frecuencias / 13
1.4. Distribuciones de frecuencias por intervalos de clase y bivariada / 18
1.5. Indicadores de tendencia central / 24
1.6. Indicadores de posición / 28
1.7. Indicadores de dispersión / 30
1.8. Conjuntos, matrices, ficheros o archivos de datos en las diferentes
escalas / 33
1.9. Indicadores de correlación / 35
1.10. Coeficientes de correlación de Spearman, punto biserial
y V de Cramér / 39
1.11. Coeficientes de correlación de Kendall / 54
1.12. Valores críticos de los coeficientes de correlación / 60
1.13. Diseño de experimentos / 65
Capítulo 2. Pruebas de hipótesis / 68
2.1. Conceptos básicos de pruebas de hipótesis / 68
2.2. Algoritmo general para realizar una dócima de hipótesis / 70
2.3. Dócimas para la media de una población / 71
2.4. Decisión sobre la base de una probabilidad / 77
Capítulo 3. Dócimas para muestrasen escalas nominales / 79
3.1. Dócimas para una población / 79
3.2. Dócimas para dos poblaciones / 96
3.3. Dócimas para más de dos poblaciones / 116
Capítulo 4. Dócimas para muestras en escalas ordinales / 121
4.1. Dócimas para una población / 121
4.2. Dócimas para dos poblaciones / 134
4.3. Dócimas para más de dos poblaciones / 167
ERRNVPHGLFRVRUJ
ERRNVPHGLFRVRUJ
1
ERRNVPHGLFRVRUJ
2
ERRNVPHGLFRVRUJ
3
ERRNVPHGLFRVRUJ
Estadística descriptiva
5
ERRNVPHGLFRVRUJ
6
ERRNVPHGLFRVRUJ
Ejemplo 1.1:
En un análisis realizado se registraron 48 pacientes femeninos con valores
de la hemoglobina por debajo de 120 g/L y se anotó su municipio de residencia:
Marianao (M), Cerro (C), Playa (P) y Guanabacoa (G) obteniéndose:
M G P P C G M P M G P C P G M P M G P P C G M P
M G P C P G M P M G P P C G M P M G P C P G M P
Se puede observar a simple vista que son cuatro los municipios de residencia
de los 48 pacientes, que cada paciente reside en uno y solo un municipio y que
entre estos municipios no hay definido un orden ni unidad de medida, por lo
que se puede afirmar que los datos anteriores están en escala nominal.
7
ERRNVPHGLFRVRUJ
Municipio Frecuencia
Marianao 12
Playa 18
Cerro 6
Guanabacoa 12
Total 48
Se puede observar, además, que Playa tiene la mayor frecuencia (18), Cerro
tiene la menor (6), y Marianao y Guanabacoa tienen la misma (12).
Una distribución de frecuencias es todo agrupamiento de los datos en clases
o categorías acompañadas de las frecuencias de clase.
La utilidad de la misma radica en que permite descubrir regularidades en
un conjunto de datos.
La distribución de frecuencias de la tabla 1.1 recibe el nombre de distribu-
ción por conteo de valores distintos, porque para construirlas se toman como
clases los valores distintos del conjunto de datos, de la variable en cuestión y
luego se contabiliza cuantos valores del conjunto coinciden con cada clase y
esta cantidad será la frecuencia de la clase en cuestión. Así se procede con cada
una de las clases restantes para completar la distribución de frecuencias. Esta
distribución se utiliza cuando el número de clases distintas es pequeño.
Una distribución de frecuencias, de datos en escala nominal como estos, puede
contener cualquiera de los tipos de frecuencias que aparecen en la tabla 1.2.
Tabla 1.2. Tipos de frecuencias variables en escalas nominales
Frecuencia
Municipio Absoluta Relativa Porcentual Tasa por 10 000
Marianao 12 0,250 25,0 2 500
Playa 18 0,375 37,5 3 750
Cerro 6 0,125 12,5 1 250
Guanabacoa 12 0,250 25,0 2 500
Total 48 1,000 100,0 10 000
8
ERRNVPHGLFRVRUJ
Idvd Sexo Raza GRM EV1 EV2 EV3 EdC CI1 CI2 CI3
1 M N L 3 2 2 9,88 67,1 69,2 29,5
2 F O M 6 2 3 7,31 70,5 70,1 39,1
3 M N L 3 5 3 3,04 50,8 41,8 35
4 F O M 4 5 3 12,8 53,1 47,6 35,4
9
ERRNVPHGLFRVRUJ
10
ERRNVPHGLFRVRUJ
Leyenda:
GRM: grado de retraso mental.
EV1, EV2 y EV3: representan las escalas de Mad Vinelad en que valores más altos más grave el
retraso mental.
CI1, CI2 y CI3: representan los coeficientes de inteligencia registrados en tres momentos distintos
de la vida de los individuos.
EdC: representa la edad cronológica.
Ejemplo 1.2:
Se observan 300 personas y se clasifican según su aspecto físico o peso en obe-
sa (O), gruesa (G), buen peso (B), delgada (D) y muy delgada (M) (tabla 1.4)
Tabla 1.4. Resultados de la clasificación según aspecto físico y peso
M G B D G B O B O M D D G B D G D O O O O D M D G
O M G D B D G B D O B M D B G B B G O B B M D G B
O O D O B O B O D M B B G B B O O B M O O O B D G
M B O O M D O B G M D D B D O G B M G D G G D B B
G D O O M B B D G M M M D G G G B D D G D B O M B
B D B D D G D M M B B D D B B G B G D B D O B M G
D D O D D B B G B B B G D D M M G G B B B G B B B
B B D G G G M D D D O B B D G O G D G M D G O B O
O G D B B G M D M B D D D B G D G B M G B B G G O
G O D B G D G O O B G G O G O G B B B B O D M B B
D M O M D O B B B D G B M M O D B B M B B B D D B
M M O M B O O G O D M D G B B D O B G D D D D M D
11
ERRNVPHGLFRVRUJ
Frecuencias
Aspecto físico Acumulativas
Absolutas Relativas Acumulativas
relativas
Muy delgado 38 0,127 38 0,127
Delgado 71 0,237 109 0,363
Buen Peso 86 0,287 195 0,650
Obeso 48 0,160 243 0,810
Grueso 57 0,190 300 1,000
Suma 300 1,001
La suma de las frecuencias relativas no da 1,000 por error de redondeo de los números a
tres cifras decimales.
12
ERRNVPHGLFRVRUJ
13
ERRNVPHGLFRVRUJ
Ejemplo 1.3
En la tabla 1.6 aparece la distribución de frecuencias del aspecto físico de
otro grupo de 300 individuos cuya distribución se compara con la de la tabla
1.5 en las figuras 1.8 y 1.9.
14
ERRNVPHGLFRVRUJ
15
ERRNVPHGLFRVRUJ
16
ERRNVPHGLFRVRUJ
Ejemplo 1.4:
Se registra el estado de salud de 40 niños como mal (M), regular (R), bien
(B) y excelente (E) y se obtiene la lista:
R, M, E, E, M, M, R, B, M, M, B, B, B, B, B, E, B, B, R, R,
R, E, B, B, B, R, B, B, R, M, E, B, B, R, R, B, B, R, R, R
En las tablas 1.7 y 1.8 se muestra la construcción de una distribución de
frecuencias con las frecuencias relativas y acumulativas y su representación
gráfica elemental mediante un histograma en posición horizontal.
Con un determinado objetivo se decide agrupar los excelentes y bien en la
categoría satisfactorio y regular y mal en la categoría no satisfactorio, entonces
se obtiene la tabla 1.9 con otra distribución de frecuencias del estado de salud
de los 40 niños, agrupados en solo dos clases. Se han reagrupado las clases y
reducido a dos valores solamente.
Tablas 1.7. Distribución de frecuencias e histograma
Frecuencia
Clases Histograma
Absoluta
Mal 6 ▄▄▄▄▄▄
Regular 12 ▄▄▄▄▄▄▄▄▄▄▄▄
Bien 17 ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
Excelente 5 ▄▄▄▄▄
Total 40
17
ERRNVPHGLFRVRUJ
18
ERRNVPHGLFRVRUJ
Ejemplo 1.5:
Los datos de la tabla 1.10 corresponden a la cantidad de veces, en 1 año, que
han asistido a la consulta 50 niños asmáticos de un área de salud de Marianao.
Las observaciones se han ordenando previamente para facilitar el trabajo.
Tabla 1.10. Veces que asistieron a consulta 50 niños asmáticos
de Marianao
31 36 36 37 39 41 41 42 42 42
42 43 44 44 44 44 44 44 44 45
45 45 45 45 46 46 46 46 46 47
47 47 48 48 48 48 49 49 50 50
51 52 52 53 53 55 55 56 57 59
El número de veces que ha asistido a consulta es una variable de conteo, en escala ordi-
nal. El máximo, 59 y el mínimo, 31 del conjunto se han destacado.
19
ERRNVPHGLFRVRUJ
20
ERRNVPHGLFRVRUJ
21
ERRNVPHGLFRVRUJ
Se observa lo diferentes que son las distribuciones de los dos sexos, aunque
en los valores 2, 3 y 4 se comportan de modo casi proporcional, más bajo en
los del sexo femenino y para los 5 y la 6 aproximadamente se invierten sus
frecuencias. La interpretación y el nombre de piramidal depende de los datos,
se realizaron de estos pocos datos para simplificar, pero deben construirse a
partir de muchos datos para que se aprecien bien las regularidades.
22
ERRNVPHGLFRVRUJ
Sexo
Día Suma
M F
1 3 5 8
2 2 4 6
3 5 4 9
4 8 10 18
5 10 14 24
6 1 6 7
7 12 18 30
8 15 25 40
9 9 7 16
10 5 9 14
11 13 17 30
12 16 23 39
13 5 7 12
14 17 22 39
15 2 8 10
16 6 14 20
17 4 11 15
18 21 23 44
19 4 10 14
20 21 19 40
21 11 9 20
22 13 11 24
23 14 11 25
24 11 16 27
25 11 18 29
26 6 11 17
27 9 14 23
28 9 12 21
29 17 12 29
30 19 13 32
23
ERRNVPHGLFRVRUJ
Clases Frecuencia
Masculino 299
Femenino 383
Clase M F Total
0<x≤5 28 37 65
5 < x ≤ 10 42 65 107
10 < x ≤ 15 53 77 130
15 < x ≤ 20 56 77 133
20 < x ≤ 25 60 65 125
25 < x ≤ 30 60 62 122
Total 299 383 682
1.5.1. La moda
En un conjunto de datos es el dato más frecuente, es decir, el que más se
repite.
Ejemplo 1.7:
En el ejemplo 1.1 la moda es Playa (P), en el ejemplo 1.2 la clase buen peso
(B) y en el ejemplo 1.4 bien (B).
A veces en lugar de la moda se define el concepto de clase modal, que es
la clase con mayor frecuencia de una distribución.
24
ERRNVPHGLFRVRUJ
1.5.2. La mediana
En un conjunto es el elemento que ocupa la posición central en la lista de
los elementos ordenados. Pero la mediana se define para variables continuas,
solo en este caso es única y exacta. Implica que por debajo de ella hay un 50 %
de los datos y por encima de ella otro 50 %, porque ella es un punto y, por
tanto no cuenta, porque no tiene dimensiones o porque entre la mediana y otro
punto cualquiera hay infinitos puntos tan cercanos a ella como se quiera. Para
distribuciones discretas la definición es solo aproximada, y puede darse el caso
de que más de un elemento aparezca como mediana, porque su valor es uno del
conjunto de datos y cada valor representa un porcentaje, que influye y por tanto
la suma de los porcentajes de datos por encima o por debajo de las mediana
no será nunca igual a 100 % si no se incluye en ellos la mediana. Cuando más
de un elemento aparezca como mediana se escogerá uno y, si los datos son
numéricos y admiten promedio, se tomará el promedio de todas las posibles
medianas, si no se tomará uno de los dos como mediana, pero mencionando
que hay otro que también cumple.
En el ejemplo 1.4, de los 300 datos de la variable aspecto, la mediana es
la clase buen peso (B) y tiene frecuencia 86. En el ejemplo 1.5 la mediana
es 46.
A veces en lugar de la mediana se define el concepto de clase de la mediana,
que es la clase que contiene la mediana de una distribución, este es el caso de
las distribuciones por intervalos, en las que es mucho más fácil de calcular y
la única forma si solo se cuenta con la distribución de frecuencia y no con los
datos originales.
En el ejemplo 1.5 la mediana es el intervalo de 40 a 45.
25
ERRNVPHGLFRVRUJ
26
ERRNVPHGLFRVRUJ
1.5.3. La media
Es el indicador de tendencia central más usual, pero solo cuando la variable
está en escala de intervalo o razón, no obstante, es tan buen indicador que a ve-
ces se usa incorrectamente con datos numéricos en escala ordinal, cuando esta
proviene de variables que admiten la media, porque ofrece más información que
la mediana. Además, muchos indicadores o medidas que se conocen y se utilizan
frecuentemente en realidad son medias, por ejemplo, la velocidad de un móvil,
el peso de una persona, la cantidad de sangre en el cuerpo de una persona, la
distancia hasta un punto, entre otras, comúnmente son medias; por esto y por su
uso como referencia en la estadística no paramétrica se ofrece su definición.
Si la variable se denota por X la media se denotará y se definirá entonces
mediante:
X + X 2 +···+ X n
X= 1
n
Y se denota por:
1 n
X = ∑ Xi
n i =1
n
Donde el símbolo ∑ X i indica la suma de los valores Xi que tienen subíndice
i =1
comprendido entre 1 y n, ambos inclusive. Por ejemplo la media de 2, –4, 0, 8
es igual a 2 − 4 + 0 + 8 = 1,5.
4
1.5.4. La media ponderada
Considere los datos 5, 9, 8, 5, 8, 9, 6, 5, 6, 7, 8, 6, 6, 6, 8. Su suma se cal-
culará de manera más fácil así:
27
ERRNVPHGLFRVRUJ
28
ERRNVPHGLFRVRUJ
Ejemplo 1.8:
Con los datos de la tabla 1.10 del ejemplo 1.5, ordenados por fila y acom-
pañados del porcentaje que acumula cada uno, se obtiene:
312% 364% 366% 378% 3910% 4112% 4114% 4216% 4218% 4220%
4222% 4324% 4426% 4428% 4430% 4432% 4434% 4436% 4438% 4540%
4542% 4544% 4546% 4548% 4650% 4652% 4654% 4656% 4658% 4760%
29
ERRNVPHGLFRVRUJ
Por ser 50 números cada número de ellos acumula un 2 % del total de nú-
meros, por tanto, el percentil de orden 80 está entre los números 50 y 51, que
ocupan las posiciones 39 y 40 los dos 50 y la posición 41 el 51.
El 50 tiene por debajo 38 números que representan el 76 % del total, y por
encima 10 números, que representan el 20 % del total.
El 51 tiene por debajo 40 números que representan el 80 % del total, pero
por encima tiene 9 números que representa el 18 % del total 50.
Luego, según la definición ninguno es el percentil de orden 80. Para resolver
el problema se utiliza la caracterización dada después de la definición, y según
ella ambos números 50 y 51 son percentiles de orden 80 porque cada uno tiene
por debajo a lo sumo el 80 % y por encima a lo sumo el 20 % de los datos. Si
tuviera sentido promediarlos se obtendría una solución mejor diciendo que el
percentil de orden 80 es , pero no necesariamente 50,5 es
admisible, pues no es un número de la lista.
30
ERRNVPHGLFRVRUJ
1.7.3. La varianza
Es igual a la media de las diferencias cuadráticas de cada dato respecto a
la media del conjunto, o sea:
1 n
S 2 = ∑ ( X i − X )2
n i =1
31
ERRNVPHGLFRVRUJ
32
ERRNVPHGLFRVRUJ
33
ERRNVPHGLFRVRUJ
34
ERRNVPHGLFRVRUJ
35
ERRNVPHGLFRVRUJ
36
ERRNVPHGLFRVRUJ
x Y xy x2 y2
1 7 7 1 49
–2 –4 8 4 16
2 0 0 4 0
3 9 27 9 81
4 12 42 18 146
37
ERRNVPHGLFRVRUJ
En la tabla 1.20 se observa una alta correlación lineal de 0,97825 entre CI1
y CI2, lo que indica que a mayor coeficiente de inteligencia 1, mayor el coefi-
ciente de inteligencia 2. En cuanto a correlación, también es interesante que
no hay otros coeficientes ni moderadamente altos, además del hecho de que las
correlaciones entre CI3 y las otras tres variables son todas inversas, además, el
resto de las correlaciones directas.
Un criterio que permitirá mejorar la interpretación el valor del coeficiente
de correlación lineal de Pearson consiste en que su cuadrado r2 coincide con
el llamado coeficiente de determinación de la regresión múltiple cuyo valor
representa la proporción de la variación de Y explicada por X.
Entonces si r2 = 0,50 se podrá interpretar como que X explica un 50 % de
la variación de Y. Si se conviene en considerar altas las correlaciones para las
que r2 > 0,50 eso equivaldrá aproximadamente a que r > 7,07106781, de modo
que se podrán considerar altas las correlaciones de los coeficientes r algo ma-
yores que 0,7.
38
ERRNVPHGLFRVRUJ
Donde solo una de las dos variables puede estar en una escala superior.
39
ERRNVPHGLFRVRUJ
X rg(X) Y rg(Y) d i2
1 2 7 3 1
–2 1 –4 1 0
2 3 0 2 1
3 4 9 4 0
Suma de cuadrados 2
rg(x) rg(y) d i2
2 3 1
1 1 0
3 2 1
4 4 0
Suma de cuadrados 2
40
ERRNVPHGLFRVRUJ
Ejemplo 1.9:
En la tabla 1.24 se han calculado los coeficientes de correlación de rangos
de Spearman entre las variables GRM, EV1, EV2 y EV3 y entre ellas y cada una
de las cuatro variables en escala de intervalo y por tanto ordinales también de
la tabla 1.17.
Tabla 1.24. Matriz de correlaciones de rangos de Spearman
41
ERRNVPHGLFRVRUJ
Sexo Raza GRM EV1 EV2 EV3 EdC CI1 CI2 CI3
Sexo 1,00
Raza - 1,00
GRM - - 1,00
EV1 - - –0,14 –0,25
EV2 - - 0,08 –0,03 1,00
EV3 - - 0,74 –0,10 0,05 1,00
EdC - - 0,09 0,12 –0,03 0,09 1,00
CI1 - - –0,18 0,12 –0,25 –0,08 0,02 1,00
CI2 - - –0,18 –0,20 –0,25 –0,08 0,07 0,98 1,00
CI3 - - 0,88 –0,25 –0,02 0,73 –0,03 –0,09 –0,08 1,00
42
ERRNVPHGLFRVRUJ
Ejemplo 1.10:
En la tabla 1.26 se ofrecen los resultados del cálculo del coeficiente de
correlación de rangos de Spearman entre las variables X e Y con la corrección
por ligaduras.
Tabla 1.26. Elementos para el calculo del coeficiente de Spearman
corregido por ligaduras
X Y rg(X) rg(Y) d i2
1 7 2 4 4
–2 –4 1 1,5 0,25
2 0 4 3 1
3 9 6 5,5 0,25
2 –4 4 1,5 6,25
2 9 4 5,5 2,25
Suma de cuadrados 14,00
para el rango 4 de X.
Para los rangos 1,5 y 5,5 de y que se repiten dos veces cada uno:
43
ERRNVPHGLFRVRUJ
44
ERRNVPHGLFRVRUJ
45
ERRNVPHGLFRVRUJ
Donde:
Y: representa la variable en escala de intervalo.
P: es la proporción de uno de los valores en la variable dicotómica X.
Q: es la proporción del otro valor en la variable dicotómica X, q = 1 – p.
Y p : representa la media de los valores de Y correspondientes a los valores
de X cuya proporción es p en la variable dicotómica X.
Yq : representa la media de los valores de Y correspondientes a los valores
de X cuya proporción es q en la variable dicotómica X.
Ejemplo 1.11:
Para los cuatro pares de puntos siguientes:
x 0 1 0 1
y 15 12 13 12
2
Se tiene que p es la proporción de pares con x = 0 y por tanto p = = 0,5
2 4
y q es la proporción de pares con x = 1 y por tanto q = = 0,5 .
4
Sy ≈ 1,22
Lo que indica una correlación bastante alta, pero cuidado que los datos son
solo cuatro y para pocos datos la correlación debe ser muy alta para la estimación
en base a ella de la correlación poblacional sea confiable.
Ejemplo 1.12:
Con más datos, he aquí el cálculo del coeficiente de correlación punto biserial
entre el sexo y EdC para los datos de la matriz de DatosM2 de la tabla 1.3.
46
ERRNVPHGLFRVRUJ
...
...
...
...
...
Ar o1r o2r ··· ocr n·r
ni· n1· n2· ··· nc· n··
Donde:
oij: es la frecuencia absoluta de la celda ij-ésima que a partir de ahora se
denominará frecuencia observada de individuos clasificados en el nivel i-ésimo
del factor A y el nivel j-ésimo del factor B, o sea, en celda (i, j)-ésima de la tabla
(para i = 1, 2,..., c; j = 1, 2,..., r).
r
ni • = ∑ oij : representa la suma de la fila i‑ésima y la frecuencia absoluta de Ai.
j =1
c
n• j = ∑ oij : representa la suma de la columna j‑ésima y la frecuencia abso-
i =1
luta de Bj.
r c
n = n•• = ∑ n• j =∑ ni•
j =1 i =1
47
ERRNVPHGLFRVRUJ
A A1 A2 ··· Ar
n·j n·1 n·2 ··· n·r
B B1 B2 ··· Bc
ni· n1· n2· ··· nc·
48
ERRNVPHGLFRVRUJ
49
ERRNVPHGLFRVRUJ
Frecuencias observadas
GRM
Masculino Femenino Total
L 6 6 12
M 10 10 20
SoG 14 4 18
Total 30 20 50
Frecuencias observadas
GRM
Masculino Femenino Total
L 7,2 4,8 12,0
M 12,0 8,0 20,0
SoG 10,8 7,2 18,0
Total 30,0 20,0 50,0
1.10.4. Coeficiente φ
Se denomina así al caso particular del coeficiente V de Cramér para dos
variables dicotómicas o binarias, es decir, aplicado a tablas de dimensión 2 x 2,
o sea, del tipo:
50
ERRNVPHGLFRVRUJ
C D
χ2
V= y
n
Ejemplo 1.15:
Cálculo del coeficiente de correlación φ entre la variable grado de retrazo
mental recodificada a 0 para leve o moderada y 1 para severa o grave, y la
variable sexo de la tabla 1.31.
Entonces la tabla obtenida es:
16 14
16 4
51
ERRNVPHGLFRVRUJ
, para el caso de 2 x 2.
Por ejemplo, para los datos de las tablas 1.31 y 1.33 se obtienen, respecti-
vamente, aplicando esta corrección χ2 ≈ 3,6806 y V ≈ 2,3264, valores próximos
a los obtenidos sin las correcciones de Yates, como era de esperar.
52
ERRNVPHGLFRVRUJ
Como se obtiene:
1. Los coeficientes entre las variables EdC, CI1, CI2 y CI3 son lineales de
Pearson por estar en escala de intervalo ambas.
2. Los coeficientes entre las variables GRM, EV1, EV2 y EV3 y entre estas y
EdC, CI1, CI2 y CI3 son de rangos de Speraman por estar una en escala
ordinal y la otra en escala igual o superior.
3. Los coeficientes entre las variables sexo, GRM, EV1, EV2 y EV3 y entre
raza, sexo, GRM, EV1, EV2, EV3, EdC, CI1, CI2 y CI3 son V de Cramér
por haber entre ellas una variable en escala nominal. Los coeficientes
entre raza y EdC, CI1, CI2 y CI3 presentan una dificultad adicional que
consiste en que hay que recodificar estas últimas variables de modo que
se reduzcan notablemente sus valores distintos, porque no es buena una
tabla de dos o tres filas por 47 o 50 columnas. Para sexo contra CI1, CI2
y CI3 a continuación se ofrece otra solución mejor.
4. Los coeficientes entre las variables sexo y EdC, CI1, CI2 y CI3 son
punto biserial por ser entre una variable en escala dicotómica y la otra
de intervalo o razón. Los coeficientes punto biserial se pueden calcular
en el Excel bastante fácilmente, como se orienta en el epígrafe 5.1.5.
Para el cálculo de los cuatro coeficientes V de Cramér de la variable raza
con las variables EdC, CI1, CI2 y CI3 se aplicaron las recodificaciones
que aparecen en la tabla 1.36.
Tabla 1.36. Recodificación de las variables EdC y CI1, CI2 y CI3
EdC CI1, CI2 y CI3
Recodificado a Recodificado a
de: de:
1a5 1 10 a 20,5 1
5,01 a 10 2 20,51 a 30,5 2
10,01 a 15 3 30,51 a 40,5 3
15,01 al 20 4 40,51 a 50,5 4
20,01 al 25 5 50,51 a 60,5 5
60,51 a 70,5 6
70,51 a 80,5 7
80,51 a 90,5 8
53
ERRNVPHGLFRVRUJ
54
ERRNVPHGLFRVRUJ
Ejemplo 1.16:
Para calcular el coeficiente de rangos de Kendall de los datos de las variables
X e Y de la tabla 1.37.
Tablas 1.37. Datos del ejemplo 1.16
Datos originales
X 1 –2 2 3
Y 7 –4 0 9
Rangos
X 2 1 3 4
Y 3 1 2 4
55
ERRNVPHGLFRVRUJ
Ejemplo 1.17:
Cálculo del coeficiente de correlación de rangos de Kendall con esta
corrección por ligaduras a partir de los datos de la tablas 1.39.
Tabla 1.39. Datos para el ejemplo 1.17
Datos originales
X 1 –2 2 9 6 7
Y 7 –4 0 9 –4 9
Rangos
X 2 1 3 6 4 5
Y 4 1,5 3 5,5 1,5 5,5
56
ERRNVPHGLFRVRUJ
57
ERRNVPHGLFRVRUJ
···
···
···
Cn rgf(x1n) rgf(x2n) ··· rgf(xkn)
Sumas de rangos R1 R2 ··· Rk
Donde rgf(xij) indica rango por fila y representa el rango asignado por el
calificador j al tratamiento i, para i = 1, 2,..., k y j = 1, 2,..., n.
n
Ri = ∑ rgf ( xij ) para i = 1, 2,..., n es la suma de la columna j-ésima columna
i =1
después de rangueadas las filas.
rCK se basa en la comparación de las sumas Ri de los rangos de las columnas
i = 1, 2,..., k, si varias de ellas son iguales o muy semejantes esto indicará falta de
concordancia entre los conjuntos rangueados, esto, es entre los calificadores.
Se define por:
Donde:
k: es el número de (tratamientos).
n: el número de los calificadores.
R : la media de las k columnas de rangos R1 , R2 , ..., Rk, después de ran-
guear las filas.
S²: la varianza de las sumas de las columnas Ri después de ranguear las filas.
Ejemplo 1.18:
Tres ejecutivos de un hospital tienen la tarea de calificar, independiente-
mente, a seis solicitantes de trabajo sometidos a una prueba, asignándole un
rango de 1 a 6. Los resultados aparecen en la tabla 1.43.
Tabla 1.43. Datos del ejemplo 1.18
Solicitante A B C D E F
Ejecutivo 1 1 6 3 2 5 4
Ejecutivo 2 1 5 6 4 2 3
Ejecutivo 3 6 3 2 5 4 1
Suma 8 14 11 11 11 8
58
ERRNVPHGLFRVRUJ
De donde se puede obtener una fórmula para rCK en función de rSm:
2. En caso de que se presenten ligas en los rangos de un mismo calificador
el valor de rCK resultará disminuido, por lo que, en el caso de que el
número de ligas sea considerable se requiere una corrección por ligadura.
Esta es la fórmula corregida:
Donde tj representa la cantidad de observaciones muestrales de la j-ésima
ligadura del calificador i-ésimo para i = 1, 2,.. , k; j = 1, 2,..., n.
59
ERRNVPHGLFRVRUJ
Algo que tiene interés por lo que aporta en la interpretación de los co-
eficientes de correlación son las pruebas de hipótesis de significación de los
coeficientes de correlación que permiten decidir si en la población de donde
procede la muestra en que se calculó el coeficiente de correlación hay o no
correlación.
Estas pruebas se estudiarán, pues ellas en algunos casos permiten, además,
deducir valores críticos, de un coeficiente de correlación tales que si un valor
muestral del coeficiente lo supera en valor absoluto se podrá decir entonces que
se rechaza la hipótesis de que en la población de donde procede la muestra no
hay correlación, lo que algunos expresan diciendo que la correlación o el valor
del coeficiente de correlación es significativo.
Esta expresión de significativo, si se dice con conocimiento de causa no
está del todo mal, pero si no se sabe que viene de una prueba de esta hipótesis
no se debe decir y menos aún interpretar de otra manera.
1. Para el coeficiente de correlación lineal de Pearson, la prueba de sig-
nificación utiliza un estadígrafo con distribución t de Student que se
tratará en el epígrafe 4.2.5 y es válida también para el coeficiente de
correlación de rangos de Spearman.
2. Para el coeficiente de correlación de rangos de Spearman se ofrece la
tabla 1.44 de valores críticos para varios valores de n y de α y también
es válida la prueba t de Student anterior.
3. Para el coeficiente de correlación punto biserial se ofrece la tabla 1.45
de valores críticos.
Tabla 1.44. Valores críticos del coeficiente de correlación de rangos
de Spearman
Valores de α
n 0,001 0,005 0,010 0,025 0,050 0,100
4 - - - - 0,8000 0,8000
5 - - 0,9000 0,9000 0,8000 0,7000
60
ERRNVPHGLFRVRUJ
gl α gl α
n–2 0,05 0,01 n–2 0,05 0,01
1 0,997 1,00 24 0,388 0,496
2 0,950 0,990 25 0,381 0,487
3 0,878 0,959 26 0,374 0,478
4 0,811 0,917 27 0,367 0,470
5 0,754 0,874 28 0,361 0,463
6 0,707 0,834 29 0,355 0,456
7 0,666 0,798 30 0,349 0,449
8 0,632 0,756 35 0,325 0,418
9 0,576 0,708 40 0,304 0,393
61
ERRNVPHGLFRVRUJ
Ejemplo 1.19:
Verifique si hay correlación entre las variables sexo y CI1 en la población
de donde procede la muestra aleatoria de la matriz DatosM2 de la tabla 1.3.
Solución: Como sexo está en escala nominal dicotómica y CI1, coeficiente
de inteligencia 1 está en escala de intervalo la correlación adecuada es la de
punto biserial.
r·bis = 0,1803 n = 50 n – 2 = 48
Región crítica: r·bis > 0,273, valor crítico obtenido en la tabla 1.44, de valo-
res críticos para el coeficiente de correlación punto biserial, y como 0,1803 no
supera a 0,273, no se puede afirmar que haya correlación entre estas variables
en la población (0,1803 no es significativo).
Observación:
1. Para el coeficiente V de Cramér no existen tablas de valores críticos, pero
existe la prueba ji cuadrado de independencia en tablas de contingencia,
que se tratará en el epígrafe 3.2.2 y que si en ella se rechaza la hipótesis
de independencia entonces se podrá afirmar que hay correlación en la
población de donde proviene la muestra.
2. Para el coeficiente de correlación de rangos de Kendall se ofrece la
tabla 1.46 de niveles de significación para los valores de las sumas de
rangos S para n < 10.
3. Para el coeficiente de concordancia de rangos de Kendall para n < 8,
se ofrece la tabla 1.47 de valores críticos de las varianzas de las sumas
de rangos S2 para decidir si se puede afirmar que en la población hay
62
ERRNVPHGLFRVRUJ
63
ERRNVPHGLFRVRUJ
Para cada valor de k, en la tabla se consideran los valores de arriba con nivel de significación
de 0,05 y los de abajo con nivel significación de 0,01.
Ejemplo 1.20:
En el ejemplo desarrollado de rCK, se calcula S² = 4,25 y como k = 3, n = 6, en
la tabla 1.47 se encuentra el valor 17,3 para un nivel de significación de 0,05, y
entonces como el valor 4,25 de S2 no supera este valor en la población no hay
concordancia entre tres los ejecutivos.
Muchos paquetes estadísticos ofrecen o destacan los coeficientes de corre-
lación significativos, es decir, para los cuales se rechaza la hipótesis de que en
la población no hay correlación.
Observación: se reitera que afirmar que un coeficiente de correlación mues-
tral sea significativo expresa única y exclusivamente haber tomado la decisión
de rechazar la hipótesis de que en la población de donde provino la muestra a
partir de la cual se calculó, hay correlación y al hacer la afirmación, como en
toda decisión estadística, se corre el riesgo de equivocarse.
La medición de este riesgo es un problema probabilístico. En la estadística
inferencial se hacen estimaciones de parámetros con un nivel de confianza
(probabilidad) dado y se tomarán decisiones acerca de la población sobre la
base de la información muestral, acompañándola de la probabilidad de equivo-
carse al tomarla, De modo que una buena comprensión de esas estimaciones y
decisiones requieren un conocimiento lo más completo posible de las teoría de
probabilidades y de la teoría del muestreo.
Por lo pronto se tiene la definición:
64
ERRNVPHGLFRVRUJ
65
ERRNVPHGLFRVRUJ
66
ERRNVPHGLFRVRUJ
67
ERRNVPHGLFRVRUJ
Pruebas de hipótesis
Uno de los llamados métodos estadísticos más utilizados son los relacionados
con la toma de decisiones acerca de los parámetros de de la distribución de una
población sobre la base de la información de una o varias de sus muestras. Por
lo general proporcionan un algoritmo para realizarla utilizando los medios de
cómputo o no. En la actualidad se ha puesto al alcance de muchos profesionales,
por contarse con la informática y el software estadístico que lo facilita extraor-
dinariamente. En este capítulo se hará una introducción intuitiva que abarcará
la terminología general y el desarrollo del modelo de prueba de hipótesis y
particularmente el tratamiento de estas con el moderno software estadístico en
el que se decide según el valor de una probabilidad muy relacionada con el nivel
de significación, que se denominará probabilidad crítica, para simplificar.
68
ERRNVPHGLFRVRUJ
Realidad
Decisión
H0 cierta H0 falsa
Rechazo H0 Error de tipo I Decisión acertada
Acepto H0 Decisión acertada Error de tipo II
69
ERRNVPHGLFRVRUJ
70
ERRNVPHGLFRVRUJ
X − µ0
O mejor aún si: Z = supera cierto valor crítico ZC significativa-
σ
n
mente grande.
Pero este estadígrafo Z depende de X , cuya distribución tiene media
σ
µ y desviación estándar y aparece estandarizado y, puesto que X tiene
n
distribución normal con media µ y varianza σ2, la distribución muestral de Z
es normal estándar y además resulta un estadígrafo apropiado para tomar la
decisión. Para hallar ZC, utilizando las propiedades de las probabilidades y la
distribución normal, se partirá de este hecho y de la definición del nivel de
significación, utilizando en la igualdad:
α = P{rechazar H0 / H0 cierta} = P{|Z| > ZC}
Y se tiene que (⇔significa es equivalente a):
()
α = P{|Z| > ZC} ⇔ 1 – α = P{|Z| ≤ ZC} porque P A = 1 − P ( A) para todo
suceso A, donde A es el suceso que ocurre cuando no ocurre A.
71
ERRNVPHGLFRVRUJ
Centésimas de t
t
0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,500 0,503 0,507 0,511 0,515 0,519 0,523 0,527 0,531 0,535
0,1 0,539 0,543 0,547 0,551 0,555 0,559 0,563 0,567 0,571 0,575
0,2 0,579 0,583 0,587 0,591 0,594 0,598 0,602 0,606 0,61 0,614
0,3 0,618 0,622 0,625 0,629 0,633 0,636 0,64 0,644 0,648 0,652
0,4 0,655 0,659 0,662 0,666 0,670 0,673 0,677 0,68 0,684 0,687
0,5 0,691 0,694 0,698 0,702 0,705 0,708 0,712 0,715 0,719 0,722
72
ERRNVPHGLFRVRUJ
73
ERRNVPHGLFRVRUJ
Ejemplo 2.1:
Una muestra aleatoria de tamaño 25 de una población con distribución normal
con varianza igual a 16 arrojó una media de 35. Utilizando un nivel de significa-
ción de 0,05. ¿Se podrá afirmar que la media poblacional es inferior a 38?
Están dadas las condiciones de muestra aleatoria y distribución poblacional
normal con varianza conocida y, por ello, se puede aplicar la dócima que se
acaba de estudiar.
1. Datos: n = 25, σ² = 16, σ = 4, , µo = 38 y α= 0,05.
Hipótesis: H0: µ ≥ 38 contra H1: µ < 38 (lo que se quiere probar en H1).
n
2. El estadígrafo: Z = (X − µ 0 ) cuyo valor en la muestra es:
σ
74
ERRNVPHGLFRVRUJ
Ejemplo 2.2:
¿Se podrá afirmar que la media de la población de donde procede esta
muestra aleatoria {38, 51, 51, 38, 47, 50, 44, 48, 42, 48} es mayor que 43? Use
un nivel de significación igual a 0,05.
La dócima a aplicar es la que acabamos de estudiar. La condición de muestra
aleatoria viene dada en el problema y la de distribución normal poblacional
la supondremos para poder resolverlo (los métodos para verificarlo ceden en
confiabilidad por el poco tamaño de la muestra, se requerirían más datos, en
tal caso mejor resultaría aplicar alguna otra prueba alternativa que no exija esta
condición). El problema proporciona la muestra y por tanto todos los datos que
se necesiten calcular con ella como son la media muestral (45,7) y la varianza
muestral (24,6677).
Hipótesis: H0: µ ≤ 43 contra H1: µ > 43, α = 0,05.
X − µ0
Estadígrafo: t = n ≈ 1,718742
s
Los grados de libertad son 10 – 1 = 9 y en la tabla de la distribución t de
Student encontramos que y como 1,718742 no es
mayor que 1,83 no se rechaza H0 con nivel de significación de 0,05.
Con un un software estadístico se obtiene:
P{T > 1,718742} ≈ 0,059891
Donde T es la variable con distribución t de Student con nueve grados de
libertad, igual a la del estadígrafo.
75
ERRNVPHGLFRVRUJ
76
ERRNVPHGLFRVRUJ
77
ERRNVPHGLFRVRUJ
Ejemplo 2.3:
En los ejemplos 2.1 y 2.2 se calculó con software las probabilidades P{Z < 3,75}
≈ 0,000088 y P{T > 1,718742} ≈ 0,05989 que condujeron a rechazar H0 en el
primer caso y a no rechazarla en el segundo con nivel de significación de 0,05.
Además, en el primer caso se pudo reducir el valor α de 0,05 a 0,000089.
Entonces para las hipótesis H0: µ = 43 contra H1: µ ≠ 43 y α = 0,05:
La probabilidad crítica será igual a 2(0,059891) = 0,119782 y la decisión
será no rechazar H0 con nivel de significación de 0,05.
Por otra parte, si para las hipótesis: H0: µ = 40 contra H1: µ ≠ 40 se obtiene
con un software P{T> 3,628456} ≈ 0,005499.
Entonces para las hipótesis: H0: µ ≤ 40 contra H1: µ > 40 y α = 0,05 la
probabilidad crítica será igual a 0,005499 = 0,0027495.
2
Y la decisión será rechazar H0 con nivel de significación de 0,05 (y también
de 0,0027496).
Si en el ejemplo 2.1 las hipótesis fueran H0: μ = 38 contra H1: μ ≠ 38, se
rechazaría también H0, con nivel de significación de 0,05 por ser 2(0,000088)
= 0,000176 menor que 0,05.
78
ERRNVPHGLFRVRUJ
79
ERRNVPHGLFRVRUJ
drados e iguales a 1.
n
Y, considerando la distribución de probabilidades de X = ∑ X i se llega
i =1
a que el estadígrafo Z de la tabla 3.1 se obtiene del de la dócima de la media
de una población con distribución normal de la tabla 3.2, sustituyendo allí X
por p, y σ por P0Q0 .
Ejemplo 3.1:
Una muestra aleatoria de tamaño 53 arrojó una proporción de alumnos
excelentes en Bioestadística igual a 0,25. ¿Con un nivel de significación
α = 0,05 podrá afirmarse que el porcentaje poblacional es mayor que 20?
Las condiciones de muestra aleatoria de tamaño n grande se cumplen:
n = 53, p = 0,25, α = 0.05, P0 = 0,20, Q0 = 1−P0 = 0,80, nP0 = 10,6 > 5 y
nQ0 = 42,4 > 5. Por tanto se cumplen las condiciones de muestra grande.
H0: P ≤ 0,20 contra H1: P > 0,20 (lo que se desea docimar).
p − P0
Z= ≈ 0,910 P {Z ≥ 0,910} ≈ 0,1814
P0Q0
n
Decisión: Como 0,1814 no es menor que 0,05 no se rechaza H0 con nivel
de significación de 0,05. Sobre la base de estos datos no se puede afirmar que
el porcentaje poblacional es mayor que 20.
80
ERRNVPHGLFRVRUJ
n n!
= donde k! = k (k −1)( k – 2)... 1 para k = 1, 2,... n y 0! = 1.
k
k !( n − k )!
Entonces el estadígrafo es X = np y representa la cantidad de individuos en
la muestra que poseen la característica A.
Considerando los n individuos de la muestra como n repeticiones del ex-
perimento consistente en observar en cada individuo de la muestra si posee o
no la característica A. la distribución de X, en caso de una muestra aleatoria y
bajo la hipótesis H0: P = P0, es binomial con parámetros n y P0.
La región crítica la constituirán los valores x de X tales que, para las hi-
pótesis:
H0: P ≥ P0 contra H1: P < P0, cumplan que P{X < x} < α.
H0: P ≤ P0 contra H1: P > P0, cumplan que P{X > x} < α.
H0: P = P0 contra H1: P ≠ P0, cumplan que:
α
P{X < x}< en el caso de x < nP0.
2
81
ERRNVPHGLFRVRUJ
Ejemplo 3.2:
En un una facultad de medicina se desea saber si los varones constituyen
o no el 50 % de los estudiantes. Para decidir acerca de esto seleccionan una
muestra aleatoria de 12 estudiantes de la facultad y se encuentran 4 varones.
¿Qué decisión se podrá tomar?
Considerando los 12 estudiantes como 12 repeticiones del experimento
consistente en en observar si es varon o no, la variable X, que registra el
número de varones tendrá, bajo H0, distribución binomial con parámetros
n = 12 y p = 0,5.
La hipótesis se puede escribir así: H0: P = 0,5 contra H1: P ≠ 0,5
Se tiene que n = 12 y una proporción muestral , y se adopta un
nivel de significación de 0,05. Se calculan los primeros valores de la distribución
binomial con parámetros n = 12 y p = P0 = 0,5 (tabla 3.2).
Tabla 3.2. Cálculo de los primeros valores de la distribución
k P{ X = k } P{ X < k }
0 0,00024 0,00000
1 0,00293 0,00024
2 0,01611 0,00317
3 0,05371 0,01929
4 0,12085 0,07300
82
ERRNVPHGLFRVRUJ
Y como 0,0735 no es menor que 0,05 no se rechaza H0, con nivel de signifi-
cación de 0,05. Estas probabilidades se buscan en la tabla 2.2 de la distribución
normal estándar o en un software estadístico que las calcule.
Problema propuesto 3.1:
Verifique si la proporción de niños con retraso mental severo o grave en la
población de donde proviene la muestra del archivo DatosM2 es menor que 0,33.
Verifique también si entre los que tienen retraso mental grave la proporción de varo-
nes es mayor que 0,5. Si por el tamaño muestral no se cumplieron las condiciones,
más adelante podrá resolverlo con las dócimas de los epígrafes 2.1.2 y 2.1.3.
83
ERRNVPHGLFRVRUJ
χ 2 =∑
r
(oi − ei )2
y rechazar H0 si resulta significativamente grande..
i =1 ei
El estadígrafo se denomina ji cuadrado por el nombre de su distribución
de probabilidades, que, bajo H0, y para n suficientemente grande, tiene aproxi-
madamente, distribución ji cuadrado con r – 1 – m grados de libertad, donde
m es igual al número de parámetros que es necesario estimar para obtener la
estimación de las frecuencias esperadas ei.
Una condición para que la afirmación anterior sea válida es que las frecuen-
cias esperadas ei sean tales que:
− Ninguna sea menor que 1.
− No más del 20 % sea menor que 5.
Una solución para el caso en que no se cumplan estas condiciones consiste
en unir dos o más clases o sucesos contiguos con poca frecuencia esperada
para que el nuevo suceso o clase unión tenga mayor frecuencia esperada, pero
teniendo en cuenta que después de esto la distribución de frecuencias no será
la misma.
84
ERRNVPHGLFRVRUJ
Los datos para esta dócima generalmente vienen dados en forma tabular
(tabla 3.3).
Tabla 3.3. Tabla modelo para la prueba de bondad de ajuste
Suceso A1 A2 ··· Ar
Frecuencia observada o1 o2 ··· or
Frecuencia esperada e1 e2 ··· er
Ejemplo 3.4:
En un área de salud se clasifican a los que asisten a la consulta con asma
en las categorías A, B, C y D para determinada actividad. Un investigador de-
sea saber si la distribución por categorías es homogénea, para ello selecciona
al azar una muestra de 54 asistentes asmáticos del área de salud y obtiene los
resultados que aparecen en la tabla 3.4.
Tabla 3.4. Datos del ejemplo 3.4
Categoría A B C D
Número de asmáticos 12 17 15 10
85
ERRNVPHGLFRVRUJ
86
ERRNVPHGLFRVRUJ
87
ERRNVPHGLFRVRUJ
En muestras grandes no habrá gran diferencia entre los valores de los estadí-
grafos corregido y no corregido. La mayor utilidad de la corrección está en los
casos en que el valor del estadígrafo está en los límites de la región crítica.
En el ejemplo anterior, utilizando la corrección de Yates se obtiene
χ2 ≈ 2,2222 y P{χ² > 2,2222} = 0,527628, por lo que la decisión no cambia.
(II) F M F M F M F M F M F M F M FFF
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
88
ERRNVPHGLFRVRUJ
Ejemplo 3.6:
Se observan 17 personas en fila esperando para acceder a la consulta de
Cardiología de un policlínico A y se registra su sexo (F significa femenino y
M, masculino):
FFMFFMFFMMFMMMFFF
¿Es aleatoria la secuencia de los dos sexos a la entrada de la consulta de
Cardiología?
Hipótesis:
H0: La secuencia de los dos sexos a la entrada de la de la consulta de Car-
diología es aleatoria.
H1: No lo es.
Estadígrafo:
Se observan r = 9 rachas: cinco de F y cuatro de M.
El número de individuos del sexo femenino es k = 10 y el del sexo mascu-
lino es m = 7. Para estos dos valores, en cualquier orden, y para α = 0,05, en
la tabla 3.8 se halla:
rα = r0,025 = 5 y
2
89
ERRNVPHGLFRVRUJ
3 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3
4 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4
9 9
5 2 2 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5
9 10 1011 11
6 2 2 3 3 3 3 4 4 4 4 5 5 5 5 5 5 6 6
9 10 1112 12 13 13 13 13
7 2 2 3 3 3 4 4 5 5 5 5 5 6 6 6 6 6 6
11 1213 13 14 14 14 14 15 15 15
8 2 3 3 3 4 4 5 5 5 6 6 6 6 6 7 7 7 7
11 1213 14 14 15 15 16 16 16 16 17 17 17 17 17
9 2 3 3 4 4 5 5 5 6 6 6 7 7 7 7 8 8 8
1314 14 15 16 16 16 17 17 18 18 18 18 18 18
10 2 3 3 4 5 5 5 6 6 7 7 7 7 8 8 8 8 9
1314 15 16 16 17 17 18 18 18 19 19 19 20 20
11 2 3 4 4 5 5 6 6 7 7 7 8 8 8 9 9 9 9
1314 15 16 16 17 17 18 18 18 19 19 19 20 20
12 2 2 3 4 4 5 6 6 7 7 7 8 8 8 9 9 9 10 10
1314 16 16 17 18 19 19 20 20 21 21 21 22 22
13 2 2 3 4 5 5 6 6 7 7 8 8 9 9 9 10 10 10 10
15 16 17 18 19 19 20 20 21 21 22 22 23 23
14 2 2 3 4 5 5 6 7 7 8 8 9 9 9 10 10 10 11 11
15 16 17 18 19 20 20 21 22 22 23 23 23 24
15 2 3 3 4 5 6 6 7 7 8 8 9 9 10 10 11 11 11 12
15 16 18 18 19 20 21 22 22 23 23 24 24 25
16 2 3 4 4 5 6 6 7 8 8 9 9 10 10 11 11 11 12 12
17 18 19 20 21 21 22 22 23 24 25 25 25
17 2 3 4 4 5 6 7 7 8 9 9 10 10 11 11 11 12 12 13
17 18 19 20 21 22 23 23 24 25 25 26 26
18 2 3 4 5 5 6 7 8 8 9 9 10 10 11 11 12 12 13 13
17 18 19 20 21 22 23 24 25 25 26 26 27
19 2 3 4 5 6 6 7 8 8 9 10 10 11 11 12 12 13 13 13
17 18 20 21 22 23 23 24 25 26 26 27 27
20 2 3 4 5 6 6 7 8 9 9 10 10 11 12 12 13 13 13 14
17 18 20 21 22 23 24 25 25 26 27 27 28
90
ERRNVPHGLFRVRUJ
Ejemplo 3.7:
Una muestra de información digitalizada arrojó la siguiente secuencia:
0 0 0 0 0 1 1 0 0 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 0 1
0 1 0 1 0 1 1 1 1 1 1 0 0 0 0 1 0 0 0 0 0 1 1 1 1
91
ERRNVPHGLFRVRUJ
H0: P = P0
m = 2(k + 0,5) y r = 2(n – k + 0,5) F > F1−α (m, r )
H1: P > P0
H0: P = P0
m = 2(n – k + 0,5) y r = 2(k + 0,5) F < Fα (m, r )
H1: P < P0
F < Fα (m, r )
2
Si p < P0 el caso se tratará como el caso (1)
H0: P = P0 o
Si p > P0 el caso se tratará como el caso (2)
H1: P ≠ P0
Si p = P0 no se rechazará H0. F>F α ( m, r )
1−
2
92
ERRNVPHGLFRVRUJ
Ejemplo 3.9:
Se quiere verificar si la probabilidad de que salga el 6 en el lanzamiento de
un dado es menor que 1/6 o no. Para ello se lanza el dado 12 veces y se observa
que la cara con el 6 aparece 1 vez.
1 1
Hipótesis: H0: P = contra H1: P <
6 6
1 5
Datos: n = 12, k = 1, P0 = , Q0 =
6 6
93
ERRNVPHGLFRVRUJ
Bioestadística cualitativa.indd 94
0,95 161 200 216 225 230 234 237 239 241 242
0,975 648 800 864 900 922 937 948 957 963 969
0,99 4050 5000 5400 5620 5760 5860 5930 5980 6020 6060
0,995 16200 20000 21600 22500 23100 23400 23700 23900 24100 24200
2 0,90 8,53 9,07 9,16 9,24 9,29 9,33 9,35 9,37 9,38 9,39
0,95 18,5 19 19,2 19,2 19,3 19,3 19,4 19,4 19,4 19,4
0,975 38,5 39 39,2 39,2 39,3 39,3 39,4 39,4 39,4 39,4
94
0,99 98,5 99,7 99,2 99,2 99,3 99,3 99,4 99,4 99,4 99,4
0,995 198 199 199 199 199 199 199 199 199 199
ERRNVPHGLFRVRUJ
3 0,90 5,54 5,46 5,39 5,34 5,31 5,28 5,27 5,25 5,24 5,23
0,95 10,1 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79
0,975 17,4 16 15,4 15,1 14,9 14,7 14,6 14,5 14,5 14,4
0,99 34,1 30,8 29,5 28,7 28,2 27,9 27,7 27,5 27,3 27,2
0,995 55,6 49,8 47,5 46,2 45,4 44,8 44,4 44,1 43,9 43,7
4 0,90 4,54 4,32 4,19 4,11 4,05 4,01 3,98 3,95 3,94 3,92
0,95 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6 5,96
Bioestadística cualitativa.indd 95
0,995 31,3 26,3 24,3 23,2 22,5 22 21,6 21,4 21,1 21
5 0,90 4,06 3,78 3,62 3,52 3,45 3,4 3,37 3,34 3,32 3,30
0,95 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74
0,975 10 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62
0,99 16,3 13,3 12,1 11,4 11 10,7 10,5 10,3 10,2 10,1
0,995 22,8 18,3 16,5 15,5 14,9 14,5 14,2 14 13,8 13,6
6 0,90 3,78 3,46 3,29 3,18 3,11 3,05 3,01 2,98 2,96 2,94
0,95 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,1 4,06
95
0,975 8,81 7,26 6,6 6,23 5,99 5,82 5,7 5,6 5,52 5,46
ERRNVPHGLFRVRUJ
0,99 13,7 10,9 9,78 9,15 8,75 8,47 8,26 8,1 7,98 7,87
0,995 18,6 14,5 12,9 12 11,5 11,1 10,8 10,6 10,4 10,2
7 0,90 3,59 3,26 3,07 2,96 2,88 2,83 2,78 2,75 2,72 2,7
0,95 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64
0,975 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,9 4,82 4,76
0,99 12,2 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62
0,995 16,2 12,4 10,9 10 9,52 9,16 8,89 8,68 8,51 8,38
Sean, respectivamente:
− X1, X2,...,, Xm y Y1, Y2, ..., Yn dos muestras aleatorias de las poblaciones
X e Y.
− P1, p1, P2, p2 las respectivas proporciones poblacionales y muestrales
de X e Y.
− R, r los respectivos coeficientes de correlación poblacional y muestral
entre X e Y.
96
ERRNVPHGLFRVRUJ
con yq=1–p
Ejemplo 3.11:
¿Puede afirmarse que hay diferencia entre las proporciones de alumnas en
las poblaciones? Utilice un nivel de significación de 0,05.
Datos: n1 = 25, n2 = 50, p1 = 0,56 y p2 = 0,60.
97
ERRNVPHGLFRVRUJ
Ejemplo 3.12:
¿Puede afirmarse que hay diferencia entre las proporciones de matriculados
en los institutos 1 y 2 de la población de la matriz de DatosE3 de tabla 1.30?
Suponiendo que la matrícula en el institutos 1 excluye la matrícula en el
instituto 2 y viceversa.
Hipótesis: H0: P1 = P2 contra H1: P1 ≠ P2
Datos: , y m + n = 50
98
ERRNVPHGLFRVRUJ
Ejemplo 3.13:
¿Puede afirmarse que hay diferencia entre las proporciones de alumnos
con grado de habilidad entre 1 y 6 y de alumnos con grado de habilidad entre
6 y 10?
Datos: y
,
Ya que de un total de 50, hay 34 con grado de habilidad entre 1 y 6, hay 24
con grado de habilidad entre 6 y 10, y hay 8 con grado de habilidad igual a 6.
Utilice un nivel de significación de 0,05.
Hipótesis:
H0: P1 = P2 contra H1: P1 ≠ P2
Z = 1,581 P {Z > 1,581} = 0,0569
Decisión: Como 2(0,0569) = 0,1138 no es menor que 0,5 no se rechaza
H0 con nivel de significación de 0,05. Sobre la base de estos datos no puede
hacerse la afirmación.
También se tiene que Z0,975 ≈ 1,96 y por tanto la región crítica viene
determinada por |Z| > 1,96 y 1,581 no cae en ella, por tanto la decisión es la
misma.
99
ERRNVPHGLFRVRUJ
100
ERRNVPHGLFRVRUJ
∑ pi • = 1 y ∑ p• j = 1
j =1
i =1
Ejemplo 3.14:
Con los datos de los 50 niños y niñas clasificados con retraso ligero, mode-
rado y severo o grave de la matriz de DatosM2 se obtiene la tabla 3.12.
Para comprobar si se cumplen las condiciones se calculan, en la tabla 3.13,
n n
las frecuencias esperadas por la fórmula eij = i• • j , o sea, la suma de la fila i
n
por la suma de la columna j dividida entre el total general n.. = n.
101
ERRNVPHGLFRVRUJ
102
ERRNVPHGLFRVRUJ
Hipótesis:
H0: Hay independencia entre el sexo y el tipo de retraso mental en la po-
blación de donde proviene la muestra de la tabla 3.15.
Solución: A = 16, B = 16, C = 14 y D = 4 entonces n = A + B + C + D = 50,
y por tanto:
(AD – BC)2 = (64 – 224) =1602 = 25 600
(A + B)(A + C)(C + D)(B + D) = 32(30)18(20) = 345 600
103
ERRNVPHGLFRVRUJ
Ejemplo 3.16:
En una prueba realizada al final de un experimento a tres grupos (mues-
tras) de alumnos de medicina en el cual se evaluaron los estudiantes en cinco
asignaturas del semestre. Los resultados muestran las cantidades de aprobados
en las distintas asignaturas y aparecen en la tabla 3.15. Se desea saber si hay
homogeneidad entre las poblaciones de donde provienen los grupos en cuanto
a las cantidades de aprobados en las distintas asignaturas.
Tabla 3.15. Datos del ejemplo 3.15
Número de aprobados
Asignatura Total
Grupo 1 Grupo 2 Grupo 3
1 20 18 20 58
2 17 16 14 47
3 13 12 8 33
4 11 9 7 27
5 11 10 15 36
Total 72 65 64 201
104
ERRNVPHGLFRVRUJ
significación de 0,05.
Alternativas de estas dócimas ji cuadrado son las de proporciones ya estu-
diadas y la de probabilidad exacta de Fisher.
Observación: La dócima de homogeneidad no es exactamente igual a la de
independencia, aunque la tabla de contingencia, los cálculos necesarios para
obtener el estadígrafo y la región crítica sean los mismos, como se ha podido
apreciar en el ejemplo. Se diferencian en las suposiciones de partida y en lo
siguiente:
1. En la dócima de independencia se consideran dos variables
(poblaciones) fila y columna representando cada una un factor con r
y c niveles respectivamente, y en la de homogeneidad r poblaciones
(variables X1, X2,..., Xr) de donde proceden las distintas filas de la
tabla, cada una de las cuales representa una muestra aleatoria (o bien
c poblaciones, variables X1, X2,..., Xc, de donde proceden las distintas
columnas de la tabla, cada una de las cuales representa una muestra
aleatoria
2. Las hipótesis en la de independencia son H0: hay independencia entre los
niveles de los factores y en la de homogeneidad; H0: las r proporciones
poblaciones de donde proceden las muestras-filas son homogéneas, o
bien, H0: las c proporciones poblaciones de donde proceden las muestras-
columnas son homogéneas.
3. Las estimaciones de las frecuencias esperadas para el cálculo del
estadígrafo dependen de las hipótesis que como se verá a continuación,
son diferentes. En la de independencia son las descritas anterirmente, al
tratar esta dócima, y en la de homogeneidad de las columnas se parte de
que la estimación de las proporciones poblacionales son las frecuencias
marginales de la variable fila divididas por el total general de la tabla,
que multiplicadas por el total de columna correspondiente proporciona,
n n
en cada caso, como se verá más adelante, el mismo estimador i• • j
que en la de dócima de independencia. n
Por ejemplo en la tabla 3.16, bajo la hipótesis H0: las poblaciones de donde
proceden las muestras de los grupos experimentales son homogéneas y consi-
derando las tres columnas tres muestras aleatorias de la misma población o de
poblaciones homogéneas, bajo H0, la mejor estimación de la proporción pobla-
105
ERRNVPHGLFRVRUJ
puesto que las tres poblaciones son homogéneas, esta proporción se puede in-
terpretar como si se aplicara a cada una de las tres poblaciones individualmente.
Así, bajo H0, es la mejor estimación de la probabilidad de que un estudiante
elegido aleatoriamente de entre los que se han evaluado en las cinco asignaturas
haya aprobado la asignatura 1, y se esperaría encontrar que
aprueben la asignatura 1.
Con lo anterior se llena la primera fila de la tabla de frecuencias esperadas,
repitiendo el proceso con la mejor estimación de la proporción poblacional
combinada de los aprobados en la asignatura 2 que, bajo H0, es ,
se obtendría la segunda fila y luego la tercera, cuarta y quinta hasta completar
la tabla 3.16, final de frecuencias esperadas.
Como se habrá podido observar, este razonamiento difiere, en cuanto al
procedimiento de obtención de las frecuencias esperadas aplicado en la dócima
ji cuadrado de independencia.
106
ERRNVPHGLFRVRUJ
Ejemplo 3.17:
Decida si hay correlación según el coeficiente V de Cramér entre el sexo y
la variable EV1 con los valores A, B y C (haciendole corresponder a los valores
1 y 2 de EV1 la A, al 3 y 4 la B y al 5 y 6 la C) en la población los 50 individuos
de la matriz de DatosM2 de la tabla 1.3. En distribución bivariada de frecuencias
de la tabla 3.17 se brindan los datos necesarios.
Tabla 3. 17. Datos del ejemplo 3.17
Frecuencias observadas
Masculino Femenino Total
A 3 7 10
B 7 13 20
C 10 10 20
Total 20 30 50
107
ERRNVPHGLFRVRUJ
108
ERRNVPHGLFRVRUJ
A B
C D
Y los valores de A, B, C y D son los finalmente obtenidos, o sea, tales que
A es la menor de las cuatro frecuencias A, B, C y D. Los clasificacion según los
encabezamientos de filas y columnas originales deben quedar inalteradas con
estos intercambios de filas y columna2s, se intercambiarán las filas y columnas
junto con sus encabezamientos y se mantendran las sumas marginales.
Entonces la regla de decisión será rechazar H0 si:
P{X ≤ A} < α en dócimas de una cola.
P{X ≤ A} < en dócimas de dos colas.
Ejemplo 3.18:
Se quiere verificar si en una población de personal médico los dos sexos di-
fieren en cuanto al modo de enfrentar la gripe (racionalmente e irracionalmente)
109
ERRNVPHGLFRVRUJ
Como P{X < 2} ≈ 0,00988 < 0,025 se rechaza H0 con nivel de significación
de 0,05. Sobre la base de estos datos se puede afirmar que no hay independen-
cia entre el sexo y el modo de enfrentar la gripe cuando ellos la sufren en la
población de donde procede la muestra.
En la tabla 3.22 aparece la distribución de probabilidades (de una
variable aleatoria Y con distribución hipergeométrica con parámetros
110
ERRNVPHGLFRVRUJ
111
ERRNVPHGLFRVRUJ
Ejemplo 3.19:
Un psiquiatra ha observado el comportamiento de los niños con retraso
mental antes y después de la realización de un conjunto de actividades que
él supone que los hará cambiar. Con la finalidad de comprobar su hipótesis,
se escogen aleatoriamente 29 de los niños con retraso mental, se someten a
este tratamiento y se clasifican, de acuerdo con su comportamiento en malo y
aceptable tanto antes como después de realizar el conjunto de actividades. Los
resultados aparecen en la tabla 3.25.
Tabla 3.25. Datos del ejemplo 3.19
Después
Aceptable Malo
Antes Malo 5 13
Aceptable 4 7
Hipótesis:
H0: La realización del conjunto de actividades no los hará cambiar.
H1: La realización del conjunto de actividades los hará cambiar.
Estadígrafo:
Además, y por tanto la región crítica vendrá dada por χ2 > 3,84.
Decisión: Como 0,38648 no es menor que 0,05 (también por no ser 0,75
mayor que 3,84) no se rechaza H0 con nivel de significación de 0,05. Sobre
la base de estos datos no se puede afirmar que la realización del conjunto de
actividades los hará cambiar.
112
ERRNVPHGLFRVRUJ
113
ERRNVPHGLFRVRUJ
Ejemplo 3.20:
Se observan las calificaciones de una muestra aleatoria de 127 residentes
de un área de salud antes y después de una serie de conferencias sobre su es-
pecialidad médica y se obtienen los resultados de la tabla 3.27.
Tabla 3.27. Calificaciones de los residentes del ejemplo 3.20
Después
Antes Mal Regular Bien Excelente
Mal 10 13 15 4
Regular 9 12 10 5
Bien 6 9 6 3
Excelente 7 10 5 3
114
ERRNVPHGLFRVRUJ
Ejemplo 3.21:
Verifique si hay correlación entre las variables sexo y el coeficiente de
inteligencia (CI3) en la población de donde procede la muestra aleatoria de la
tabla 1.3, matriz de DatosM2.
Solución: Como sexo es una variable dicotómica y CI3, coeficiente de
inteligencia 3, está en escala de intervalo la correlación apropiada en cuestión
es la punto biserial.
Hipótesis: H0: R·bis = 0 contra H1: R·bis ≠ 0
Estadígrafo:
115
ERRNVPHGLFRVRUJ
Donde:
n1, n2,..., nk: son los tamaños de las k muestras.
mi: la frecuencia de individuos con la característica A en la muestra de
tamaño ni, para i = 1, 2,..., k.
k k
m
n = ∑ ni , m = ∑ mi , p = y q =1− p
i =1 i =1 n
Donde p es la proporción de la muestra conjunta.
Región crítica: V > V1 – α (k – 1)
En en la tabla 3.28 se ofrecen los valores de V1 – α (k – 1), para algunos
valores comunes de k y de 1– α.
Tabla 3.28. Percentiles de V
k–1 0,95 0,99 k–1 0,95 0,99 k–1 0,95 0,99
1 3,84 6,63 8 1,94 2,51 40 1,46 1,70
2 3,00 4,60 10 1,88 2,41 50 1,39 1,59
3 2,60 3,78 12 1,83 2,32 60 1,35 1,52
4 2,37 3,32 16 1,75 2,18 70 1,32 1,47
116
ERRNVPHGLFRVRUJ
Ejemplo 3.22:
Entre los 14 niños de la raza blanca de la matriz de DatosM2 de la tabla 1.3
hay 9 varones, entre los 14 de la raza negra hay 7 y entre los 22 de otras razas
hay 14 y se desea verificar si hay o no diferencias entre las proporciones de
varones en estas tres razas. Utilice un nivel de significación de 0,01.
Hipótesis: H0: p1 = p2 = ... = pk. H1: Algún par de proporciones difiere.
n1 = 14, n2 = 14, n3 = 22, m1 = 9, m2 = 7, m3 = 14, n = 50, m = 30
Para los datos del ejemplo anterior, suponiendo que se cumplen las con-
diciones χ 2 > χ12− α (k − 1) ≈ 5,9 , χ2 = 2(0,4058) = 0,8116 que no es mayor que
5,99, P{χ2 > 0,8116} ≈ 0,666443 y por tanto la decisión es la misma, no se
rechaza la hipótesis nula con nivel de significación de 0,05. Sobre la base de
estos datos no hay elementos suficientes para afirmar que haya diferencias en
las proporciones poblacionales. Se aplico esta transformación como ejemplo
para simplificar los cálculos pero siempre que se pueda aplicar el ANOVA
117
ERRNVPHGLFRVRUJ
Estadígrafo:
k k
2
(k − 1)k ∑ ci − ∑ ci
2
i =1 i = 1 aproximadamente
Q = ~ χ 2k − 1
n n
k ∑ F j − ∑ F j2 bajo H 0
j =1 j =1
Ejemplo 3.23:
Se desea tomar una decisión respecto a si hay diferencias o no entre los
resultados de la aplicación de tres tratamientos contra el dengue hemorrágico,
para lo cual se cuenta con tres muestras aleatorias igualadas, una para cada
tratamiento, obtenidas después de seleccionar 20 ternas igualadas de pacientes,
asignando aleatoriamente cada uno de los tres pacientes de una terna a uno de
los tres tratamientos. Luego se registraron los efectos de cada tratamiento con
la notación siguiente:
Notación:
T1: indica el tratamiento 1.
118
ERRNVPHGLFRVRUJ
tomando α = 0,05
119
ERRNVPHGLFRVRUJ
120
ERRNVPHGLFRVRUJ
121
ERRNVPHGLFRVRUJ
Ejemplo 4.1:
Se desea saber si ha variado la distribución de la escala de Vineland EV1
de los niños de población de donde procede la muestra aleatoria de la matriz
de DatosM2 de la tabla 1.3 respecto a la distribución dada por las frecuencias
hipotéticas EV0 que se ofrece en la tabla 4.2 junto a la construida con los datos
de EV1.
Tabla 4.2. Distribuciones de frecuencia de EV1 e hipotética
Frecuencia Frecuencia
Clases
observada hipotética
1 2 3
2 8 9
3 11 14
4 9 10
5 11 8
6 9 6
122
ERRNVPHGLFRVRUJ
123
ERRNVPHGLFRVRUJ
124
ERRNVPHGLFRVRUJ
125
ERRNVPHGLFRVRUJ
3 n2 − n
rα = + n − Z1 − α
2 2n − 1
Ejemplo 4.3:
Al considerar una muestra de tamaño 21, por ejemplo, la siguiente:
4 1 5 6 3 2 5 1 7 8 6 4 1 9 11 7 12 6 15 17 13
Se ordena para hallar la mediana:
1 1 1 2 3 4 4 5 5 6 6 6 7 7 8 9 11 12 13 15 17
La mediana es igual a 6. Se compara ahora cada puntaje original con la
mediana y se le hace corresponder a o b según sea menor o mayor, respecti-
vamente que 6.
126
ERRNVPHGLFRVRUJ
127
ERRNVPHGLFRVRUJ
Ejemplo 4.4:
Aplique esta dócima basada en la longitud de la racha más larga de los
símbolos a o b a los datos del ejemplo 4.2:
14 16 12 7 1 14 9 15 11 6
18 10 5 12 9 17 13 11 7 8
Hipótesis:
H0: Todas las posibles disposiciones de los puntajes en la secuencia son
igualmente probables.
H1: Hay presencia de cambio, tendencia o ambos.
La longitud de la racha más larga es L = 3.
n = 20, α = 0,05 ⇒ 8 < Lα < 9, según la tabla 4.5.
Región crítica: L > Lα.
Y como L = 3 no es mayor que 8 no cae en la región crítica, se rechaza H0
con nivel de significación de 0,05. Sobre la base de estos datos no se puede
afirmar que haya cambios, tendencia o ambos en la secuencia de datos.
Ejemplo 4.5:
Aplique la misma dócima basada en la longitud de la racha más larga de
los símbolos a o b a los datos del ejemplo 4.3:
Hipótesis:
H0: Todas las posibles disposiciones de los puntajes en la secuencia son
igualmente probables.
128
ERRNVPHGLFRVRUJ
n = 21, α = 0,05
La longitud de la racha más larga es L = 8.
La región crítica viene dada por L > Lα donde:
Para valores de n ≤ 12 se usa la tabla 4.7 para hallar los valores críticos.
129
ERRNVPHGLFRVRUJ
Ejemplo 4.6:
Se aplica un test psicológico a 12 pacientes que se van presentando y se
obtiene la secuencia de sus puntajes xi de la tabla 4.8:
Tabla 4.8. Datos del ejemplo 4.6
xi 4 1 5 6 3 2 5 1 7 8 6 4
xi – xi – 1 −3 4 −1 −3 −1 3 −4 6 1 −2 −2
Rachas de signo + + 1 2 3
Para xα = 3 y
130
ERRNVPHGLFRVRUJ
α
En la dócima de dos colas, para = 0,025 el valor más cercano es 0,022
2
que corresponden a x α = 3 y los valores críticos son entonces 8,5 y 2,5.
2
Por tanto X = 3 no cae en la región crítica X < 2,5 o X > 8,5 y por tanto
no se rechaza la hipótesis H0 de que no hay tendencia. Todo esto con nivel de
significación de 0,05.
En el caso de una hipótesis unilateral, por ejemplo:
H0: No hay tendencia descendente contra.
H1: Sí la hay.
1 1
Para ≤ α ≤ 1 − se tiene que la región crítica viene dada por los valores
3n 3n
críticos:
Ejemplo 4.7:
En el caso de la secuencia del ejemplo 4.3, que se ofrece en la tabla 4.9.
Tabla 4.9. Secuencia y sus rachas de signos + y – obtenidos de Xi – Xi – 1
4 1 5 6 3 2 5 1 7 8 6 4 1 9 11 7 12 6 15 17 13
− + + − − + − + + − − − + + − + − + + −
1 2 3 4 5 6
131
ERRNVPHGLFRVRUJ
1 n −1 n +1 22
Xα ≈ + −Z α ≈ 0,5 + 10 − 1,96 ≈ 7,85
1
2 2 1−
2
12 12
1 n −1 n +1 22
X ′α ≈ + −Z α ≈ 0,5 + 10 + 1,96 ≈ 13,15
2
2 2 1−
2
12 12
1 1
Para, el único caso, n ≥ 20 y ≤ α ≤ 1−
3n 3n
Utilice uno de los enteros más próximos, en cada caso.
Ejemplo 4.8:
Resuelva el ejemplo 4.7 mediante esta dócima.
Primeramente se plantean las hipótesis:
H0: Todas las posibles disposiciones de los puntajes en la secuencia son
igualmente probables.
H1: Hay presencia de cambio, tendencia o ciclos.
132
ERRNVPHGLFRVRUJ
Por tanto como Y = 13 no cae en la región crítica Y < 9,56 o Y > 16,769 no
se rechaza H0 con nivel de significación de 0,05. Sobre la base de estos datos no
hay elementos suficientes para afirmar que hay presencia de cambio, tendencia
o ciclos en la secuencia de puntajes.
3. Dócima basada en la racha más larga
Permite docimar la hipótesis H0 de que todas las posibles disposiciones de
los puntajes en la secuencia definida son igualmente probables en la población.
Exige escala ordinal en que esté permitida la operación sustracción.
La tabla 4.12 resume los aspectos generales de esta de la dócima
Tabla 4.12. Resumen de la dócima basada en la racha más larga
Hipótesis alternativa posibles Estadígrafos Región crítica
H11: hay tendencia ascendente Z es el tamaño de la racha Z > Zα
H12: hay tendencia descendente más larga de signos + Z ' > Zα
H13: hay tendencia (ascendente Z´es el tamaño de la racha Z > Zα o Z'> Zα
o descendente) más larga de signos – 2 2
n
4 0,083
5 0,150 0,017
6 0,217 0,031
7 0,275 0,044
133
ERRNVPHGLFRVRUJ
8 0,058
9 0,071 0,010
10 0,085 0,012
11 0,098 0,015
12 0,111 0,017
13 0,124 0,019
14 0,137 0,022
Ejemplo 4.9:
Resuelva el ejemplo 4.7 mediante esta dócima (tabla 4.14).
Tabla 4.14. Secuencia y sus rachas más largas de signos + y – obtenidos
de Xi – Xi – 1
4 1 5 6 3 2 5 1 7 8 6 4 1 9 11 7 12 6 15 17 13
− + + − − + − + + − − − + + − + − + + −
Z=2 Z´= 3
Z = 2 y Z’ = 3, n = 12 y α = 0,05.
Hipótesis:
H0: No hay tendencia.
H1: Hay tendencia (ascendente o descendente).
Región crítica: Z > Z α o Z ' > Z α y en la tabla 4.13 se encuentra Z α = 4 y
2 2 2
Z ´ α = 5 que corresponden a 0,111 y 0,017 entre los cuales está 0,05.
2
Decisión: Como ni Z > 4 ni Z’ > 5, puesto que Z = 2 y Z’ = 3, no caen en la
región crítica y por tanto no se rechaza H0 con nivel de significación de 0,05.
Sobre la base de estos datos no hay elementos suficientes para afirmar que hay
presencia de tendencia en la secuencia de puntajes.
134
ERRNVPHGLFRVRUJ
135
ERRNVPHGLFRVRUJ
Ejemplo 4.10:
Utilizando los datos muestrales de los niños y las niñas de la variable EV1
y los 10 primeros puntajes de las niñas de EV2 de la matriz DatosM2 de la tabla
1.3 para igualar a 30 los tamaños muestrales de niños y niñas en una nueva
variable EV1A con ellos formada y suponiendo las muestras independientes.
Aplique esta dócima para verificar si hay diferencia entre las distribuciones de
los puntajes de EV1A de los niños y las niñas procedentes respectivamente de
las poblaciones de donde provinieron las muestras. Para ello se decidió aplicar
esta dócima de Kolmogórov-Smírnov para dos poblaciones y con este fin se
construyeron las dos distribuciones de frecuencias acumulativas relativas que
se muestran en la tabla 4.16.
Tabla 4.16. Distribuciones de frecuencias acumulativas relativas
EV1A Niños Niñas Diferencia absoluta
1 0,0667 0,0000 0,0667
2 0,2333 0,2000 0,0333
3 0,4667 0,4667 0,0000
4 0,6667 0,5667 0,1000
5 0,7667 0,9000 0,1333
6 1,0000 1,0000 0,0000
136
ERRNVPHGLFRVRUJ
Ejemplo 4.11:
Aplique esta dócima para verificar si hay diferencia entre las distribuciones
de las variables G1 y B1 de las poblaciones de donde proviene las muestras de
tamaño 50 de las matrices de datos DatosMT de la tabla 1.17 y DatosMPR de
la tabla 5.42 (tabla 4.18).
Tabla 4.18. Datos del ejemplo 4.11
MM M R RB B MB E
B1 0,02 0,06 0,16 0,30 0,50 0,78 1,00
G1 0,02 0,06 0,16 0,30 0,48 0,82 1,00
137
ERRNVPHGLFRVRUJ
Ejemplo 4.12:
Con los datos del ejemplo 4.11, se desea verificar las hipótesis:
H0: Las probabilidades de la distribución poblacional de G1 predominan
en valores sobre las de B1.
Estadígrafo: D = 0,04 como fue calculado en el ejemplo 4.11.
Región crítica:
138
ERRNVPHGLFRVRUJ
S G M S L L M M L M M S M M M M M S S M S M G S M
S L M S M G L S S L L S S M G L M G G G L G S L L
139
ERRNVPHGLFRVRUJ
Ejemplo 4.13:
Se desea saber si los niños con retraso mental ligero difieren de los niños
con retraso mental severo en cuanto a la escala EV1 en la población de donde
procede la muestra de la matriz de DatosM2 de la tabla 1.3. Los datos muestrales
se brindan en la tabla 4.22.
Primeramente se plantean las hipótesis:
H0: Las distribuciones de las dos poblaciones no difieren.
H1: Las distribuciones de las dos poblaciones difieren.
Se tiene además que n = 12 y m = 10.
Se asignan los rangos al conjunto después de ordenar los puntajes de las
dos muestras combinadas como en la tabla 4.23.
140
ERRNVPHGLFRVRUJ
141
4 0,005 0 0 0 0 1 1 2 2 3 3 4 4 5 6 6 7 7 8 9
0,01 0 0 0 1 2 2 3 4 4 5 6 6 7 9 8 9 0 0 11
ERRNVPHGLFRVRUJ
0,025 0 0 1 2 3 4 5 5 6 7 8 9 10 11 12 12 13 14 15
0,05 0 1 2 3 4 5 6 7 8 9 10 11 12 13 15 16 17 18 19
0,10 1 2 4 5 6 7 8 10 11 12 13 14 16 17 18 19 21 22 23
5 0,005 0 0 0 1 2 2 3 4 5 6 7 8 8 9 10 11 12 13 14
0,01 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
0,025 0 1 2 3 4 6 7 8 9 10 12 13 14 15 16 18 19 20 21
0,05 1 2 3 5 6 7 9 10 12 13 14 16 17 19 20 21 23 24 26
0,10 2 3 5 6 8 9 11 13 14 16 18 19 21 23 24 26 28 29 31
6 0,005 0 0 1 2 3 4 5 6 7 8 10 11 12 13 14 16 17 18 19
0,01 0 0 2 3 4 5 7 8 9 10 12 13 14 16 17 19 20 21 23
7 0,005 0 0 1 2 4 5 7 8 10 11 13 14 16 17 19 20 22 23 25
0,01 0 1 2 4 5 7 8 10 12 13 15 17 18 20 22 24 25 27 29
0,025 0 2 4 6 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35
0,05 1 3 5 7 9 12 14 16 18 20 22 25 27 29 31 34 36 38 40
0,10 2 5 7 9 12 14 17 19 22 24 27 29 32 34 37 39 42 44 47
8 0,005 0 0 2 3 5 7 8 10 12 14 16 18 19 21 23 25 27 29 31
0,01 0 1 3 5 7 8 10 12 14 16 18 21 23 25 27 29 31 33 35
142
0,025 1 3 5 7 9 11 14 16 18 20 23 25 27 30 32 35 37 39 42
0,05 2 4 6 9 11 14 16 19 21 24 27 29 32 34 37 40 42 45 48
0,10 3 6 8 11 14 17 20 23 25 28 31 34 37 40 43 46 49 52 55
ERRNVPHGLFRVRUJ
9 0,005 0 1 2 4 6 8 10 12 14 17 19 21 23 25 28 30 32 34 37
0,01 0 2 4 6 8 10 12 15 17 19 22 24 27 29 32 34 37 39 41
0,025 1 3 5 8 11 13 16 18 21 24 27 29 32 35 38 40 43 46 49
0,05 2 5 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 56
0,10 3 6 10 13 16 19 23 26 29 32 36 39 42 46 49 53 56 59 63
10 0,005 0 1 3 5 7 10 12 14 17 19 22 25 27 30 32 35 38 40 43
0,01 0 2 4 7 9 12 14 17 20 23 25 28 31 34 37 39 42 45 48
11 0,005 0 1 3 6 8 11 14 17 19 22 25 28 31 34 37 40 43 46 49
0,01 0 2 5 8 10 13 16 19 23 26 29 32 35 38 42 45 48 51 54
0,025 1 4 7 10 14 17 20 24 27 31 34 38 41 45 48 52 56 59 63
0,05 2 6 9 13 17 20 24 28 32 35 39 43 47 51 55 58 62 66 70
0,10 4 8 12 16 20 24 28 32 37 41 45 49 53 58 62 66 70 74 79
12 0,005 0 2 4 7 10 13 16 19 22 25 28 32 35 38 42 45 48 52 55
0,01 0 3 6 9 12 15 18 22 25 29 32 36 39 43 47 50 54 57 61
0,025 2 5 8 12 15 19 23 27 30 34 38 42 46 50 54 58 62 66 70
143
0,05 3 6 10 14 18 22 27 31 35 39 43 48 52 56 61 65 69 73 78
0,10 5 9 13 18 22 27 31 36 40 45 50 54 59 64 68 73 78 82 87
ERRNVPHGLFRVRUJ
13 0,005 0 2 4 8 11 14 18 21 25 28 32 35 39 43 46 50 54 58 61
0,01 1 3 6 10 13 17 21 24 28 32 36 40 44 48 52 56 60 64 68
0,025 2 5 9 13 17 21 25 29 34 38 42 46 51 55 60 64 68 73 77
0,05 3 7 11 16 20 25 29 34 38 43 48 52 57 62 66 71 76 81 85
0,10 5 10 14 19 24 29 34 39 44 49 54 59 64 69 75 80 85 90 95
14 0,005 0 2 5 8 12 16 19 23 27 31 35 39 43 47 51 55 59 64 68
0,01 1 3 7 11 14 18 23 27 31 35 39 44 48 52 57 61 66 70 74
0,025 2 6 10 14 18 23 27 32 37 41 46 51 56 60 65 70 75 79 84
0,05 4 8 12 17 22 27 32 37 42 47 52 57 62 67 72 78 83 88 93
16 0,005 0 3 6 10 14 19 23 28 32 37 42 46 51 56 61 66 71 75 80
0,01 1 4 8 13 17 22 27 32 37 42 47 52 57 62 67 72 77 83 88
0,025 2 7 12 16 22 27 32 38 43 48 54 60 65 71 76 82 87 93 99
0,05 4 9 15 20 26 31 37 43 49 55 61 66 72 78 84 90 96 102 108
144
0,10 6 12 18 24 30 37 43 49 55 62 68 75 81 87 94 100 107 113 120
17 0,005 0 3 7 11 16 20 25 30 35 40 45 50 55 61 66 71 76 82 87
0,01 1 5 9 14 19 24 29 34 39 45 50 56 61 67 72 78 83 89 94
ERRNVPHGLFRVRUJ
0,025 3 7 12 18 23 29 35 40 46 52 58 64 70 76 82 88 94 100 106
0,05 4 10 16 21 27 34 40 46 52 58 65 71 78 84 90 97 103 110 116
15 0,005 0 3 6 9 13 17 21 25 30 34 38 43 47 52 56 61 65 70 74
0,01 1 4 8 12 16 20 25 29 34 38 43 48 52 57 62 67 71 76 81
0,025 2 6 11 15 20 25 30 35 40 45 50 55 60 65 71 76 81 86 91
0,05 4 8 13 19 24 29 34 40 45 51 56 62 67 73 78 84 89 95 101
0,10 6 11 17 23 28 34 40 46 52 58 64 69 75 81 87 93 99 105 111
16 0,005 0 3 6 10 14 19 23 28 32 37 42 46 51 56 61 66 71 75 80
17 0,005 0 3 7 11 16 20 25 30 35 40 45 50 55 61 66 71 76 82 87
0,01 1 5 9 14 19 24 29 34 39 45 50 56 61 67 72 78 83 89 94
0,025 3 7 12 18 23 29 35 40 46 52 58 64 70 76 82 88 94 100 106
0,05 4 10 16 21 27 34 40 46 52 58 65 71 78 84 90 97 103 110 116
0,05 4 10 16 21 27 34 40 46 52 58 65 71 78 84 90 97 103 110 116
0,10 7 13 19 26 32 39 46 53 59 66 73 80 86 93 100 107 114 121 128
18 0,005 0 3 7 12 17 22 27 32 38 43 48 54 59 65 71 76 82 88 93
0,01 1 5 10 15 20 25 31 37 42 48 54 60 66 71 77 83 89 95 101
0,025 3 8 13 19 25 31 37 43 49 56 62 68 75 81 87 94 100 107 113
145
0,05 5 10 17 23 29 36 42 49 56 62 69 76 83 89 96 103 110 117 124
ERRNVPHGLFRVRUJ
0,10 7 14 21 28 35 42 49 56 63 70 78 85 92 99 107 114 121 129 136
19 0,005 1 4 8 13 18 23 29 34 40 46 52 58 64 70 75 82 88 84 100
0,01 2 5 10 16 21 27 33 39 45 51 57 64 70 76 83 89 95 102 108
0,025 3 8 14 20 26 33 39 46 53 59 66 73 79 86 93 100 107 114 120
0,05 5 11 18 24 31 38 45 52 59 66 73 81 88 95 102 110 117 124 131
0,10 8 15 22 29 37 44 52 59 67 74 82 90 98 105 113 121 129 136 144
Puntaje 4 4 5 5 5 5 5 6 6 6 6
Muestra L S L L L S S L L S S
Rango 12 12 16 16 16 16 16 20,5 20,5 20,5 20,5
Por tanto:
U0,025 = 30 y, utilizando la propiedad U1 – β = nm – Uβ para todo β tal que
0 < β < 1 se llega a que:
U0,975 = 12(10) −30 = 90 y con un software estadístico se obtiene la pro-
babilidad crítica 0,496507.
Decisión: Como U = 49 no es menor que 30 ni mayor que 90, no cae en la
región crítica y por tanto no se rechaza H0 con nivel de significación de 0,05
(también como 0,496507 no es menor que 0,05). Sobre la base de estos datos
no se puede afirmar que los niños con retraso mental ligero difieren de los niños
con retraso mental severo en cuanto a EV1 en la población de donde procede
la muestra.
Ejemplo 4.14:
Se desea decidir si dos municipios A y B difieren en la cantidad mensual de
embarazadas diabéticas en un periodo de 24 meses, para ello se selecciona una
muestra aleatoria de cada municipio, en este periodo, de las que se obtuvieron
146
ERRNVPHGLFRVRUJ
147
ERRNVPHGLFRVRUJ
Las muestras aleatorias son de tamaños 13 y 24. Se juntan las dos muestras
teniendo en cuenta la identificación de los puntajes de cada una, se ordena la
muestra conjunta y se procede al rangueo en la propia tabla 4.24.
R = 7 + 2(11,5) + 14 + 25 + 26 + 27,5 + 29 + 2(31) + 36 +3 7 = 286,5 para
el municipio A.
Tomando en cuenta que al menos una de las dos muestras tiene un tamaño
24, mayor que 20 y la otra de tamaño 13 se utilizará la aproximación normal
de la distribución del estadígrafo:
Y por tanto la región crítica vendrá dada por |Z| > 1,645 y la decisión sería
la misma por ser 1,26 menor que 1,65.
Tratamiento de ligaduras
Para aplicar la dócima U de Mann‑Whitney, se supone que las variables alea-
torias originales son continuas, sin embargo debido a que todo instrumento de me-
dición proporciona valores discretos, las muestras pueden tener valores repetidos,
ligados. Las observaciones ligadas son en realidad diferentes, pero en una magnitud
tan pequeña que no puede detectarse mediante el proceso de medición.
148
ERRNVPHGLFRVRUJ
Donde:
N=n+m
k: es la cantidad de ligaduras.
tj: cantidad de observaciones muestrales de la j‑ésima ligadura para j =1,
2,..., k.
Ejemplo 4.15:
Resolución del ejemplo 4.14 utilizando el estadígrafo corregido ZC.
Primeramente se calcula la suma adicional:
t1 = 5 para el rango 7 que se repite 5 veces
t2 = 2 para el rango 11,5 que se repite 2 veces
t3 = 2 para el rango 16,5 que se repite 2 veces
t4 = 2 para el rango 18,5 que se repite 2 veces
t5 = 2 para el rango 20,5 que se repite 2 veces
t6 = 2 para el rango 22,5 que se repite 2 veces
t7 = 2 para el rango 27,5 que se repite 2 veces
t8 = 3 para el rango 31 que se repite 3 veces
t9 = 2 para el rango 34,5 que se repite 2 veces
k = 9 N = n + m = 37 nm = 312 N(N – 1) = 1332
k
∑ (t 3j − t j ) = 53 – 5 + 7(23 – 2) + 33−3 = 125 – 5 + 7(8 – 2) + (27 – 3) = 186
j =1
149
ERRNVPHGLFRVRUJ
Sea (x1, y1); (x2, y2);...; (xn, yn) una muestra aleatoria bivariada de las po-
blaciones 1 y 2 representadas pos las variables aleatorias X e Y.
150
ERRNVPHGLFRVRUJ
151
ERRNVPHGLFRVRUJ
, aproximadamente.
Ejemplo 4.16:
Para un estudio acerca del estado de salud mental de niños clasificados
con retraso mental ligero o moderado se seleccionó una muestra aleatoria de
15 niños de estos y se les midió el estado de salud mental antes y después de
someterse a un nuevo tratamiento. ¿Puede concluirse que el estado de salud
mental de los niños con retraso mental ligero o moderado mejora después de
cumplido el tratamiento? Los datos aparecen a continuación:
Antes 70 75 84 90 81 95 87 72 92 85 88 76 85 81 84
Después 76 80 86 87 85 95 97 75 87 96 98 77 80 87 89
Hipótesis:
H0: El estado general de salud mental de los niños con retraso mental ligero
o moderado no mejora con el nuevo tratamiento.
H1: El estado general de salud mental de los niños con retraso mental ligero
o moderado mejora con el nuevo tratamiento.
La tabla 4.27 contiene los datos y sus transformaciones para el cálculo del
valor del estadígrafo.
Tabla 4.27. Datos y transformaciones que requiere la dócima
de Wilcoxon
Antes Después D ABS(D) rgABSd rgABSdCS
70 76 6 6 10,5 10,5
75 80 5 5 7,5 7,5
84 86 2 2 2,0 2,0
152
ERRNVPHGLFRVRUJ
Resulta más cómodo sumar los rangos negativos que son menos, pero se
sumarán los positivos. Se tiene que V = 86,5.
Y tomando α = 0,05 con n = 15 – 1 = 14 por haber un dato ausente.
Vα = V0,05 = 26
Ejemplo 4.17:
Un psicólogo de salud desea comprobar si la realización de un conjunto
de actividades tiene algún efecto en la capacidad de asociación para niños con
retraso mental ligero. Para verificarlo se tomaron 26 pares de niños con retraso
mental ligero de forma tal que cada par estaba formado por niños con carac-
terísticas similares. Se seleccionó al azar un niño de cada par y se realizó con
ellos las actividades, mientras que el otro niño del par no las realizó. Al final
se aplicó a cada niño una prueba de asociación y se obtuvieron los resultados
de la tabla 4.28.
153
ERRNVPHGLFRVRUJ
154
ERRNVPHGLFRVRUJ
Para aplicar esta dócima se mezclan las dos muestras para constituir
los valores de una variable Y con los valores A y B y se define una variable
identificadora X, dicotómica que toma un valor si el correspondiente valor
de Y pertenece a la muestra de A y otro valor si pertenece a la muestra de B.
Además, r se obtiene ordenando la muestra conjunta de las dos variables por
la variable Y y contando el número total de rachas que se proporcionan en la
variable identificadora X.
155
ERRNVPHGLFRVRUJ
156
ERRNVPHGLFRVRUJ
Este resultado se tiene si salió escudo, escudo, cara, cara, por ser las liga-
duras 6, 9, 13 y 18 las únicas que hay entre los puntajes de ambas muestras.
El número de rachas es entonces igual a 9 y como los valores críticos, según
la tabla 3.8 son 6 y 16, con un nivel de significación de 0.05, no se rechaza la
hipótesis de que la secuencia es aleatoria. Hay que tener siempre mucho cui-
dado en la forma en que se rompen las ligaduras garantizando que no alteren
la información original de modo sustancial.
Con la disposición original anterior a esta, en que hay 5 rachas la decisión
tendría que ser la de rechazar H0, pero hay otras posibles disposiciones que pro-
porcionan más de 6 y menos de 16, como esta de la tabla 4.28 en que hay 8.
Tabla 4.28. Resultado con ocho rachas
4 5 5 6 6 6 6 6 9 9 9 9 10 13 13 15 15 16 18 18
A A A B B A A A B A A A A A B B B B A B
157
ERRNVPHGLFRVRUJ
Ejemplo 4.20:
Se observó el número de ensayos requeridos para la adquisición de un
determinado grado de habilidad en la operación de un equipo nuevo por dos
grupos de técnicos de salud: el E de 9 personas y el C de 21, cuyos resultados
aparecen en la tabla 4.29.
Tabla 4.29. Datos del ejemplo 4.19
E 19 49 31 30 66 42 71 50 33 48
C 23 8 30 15 8 6 15 15 21 23 16 15 30 15 21 15 18 14 22 15 14
158
ERRNVPHGLFRVRUJ
159
ERRNVPHGLFRVRUJ
Siendo A < B < C < D < E y se asignan los signos + y – según lo conveni-
do y se obtiene la tabla 4.33, donde se consideraron los pares (a, b) en que a
representa el puntaje del primer semestre y b el del segundo.
Tabla 4.33. Resultados del cálculo de los signos
Alumno 1 2 3 4 5 6 7 8 9 10 11 12
Signos − − − + + + − − − + − 0
160
ERRNVPHGLFRVRUJ
Tratamiento de ligaduras
En caso de ligaduras, en que resulta a = b se eliminan los individuos liga-
dos y, por tanto, el tamaño n de la muestra se reducirá en una cantidad igual al
número de ligaduras. Si no es aceptable la disminución del tamaño muestral se
podría utilizar un rompimiento de las ligaduras semejante al realizado antes.
161
ERRNVPHGLFRVRUJ
162
ERRNVPHGLFRVRUJ
163
ERRNVPHGLFRVRUJ
164
ERRNVPHGLFRVRUJ
Región crítica:
|Z| > Z0,975 ≈ 1,96.
165
ERRNVPHGLFRVRUJ
Ejemplo 4.25:
Decida si hay o no concordancia entre los puntajes de las variables EV1,
EV2 y EV3 a partir de muestras de la matriz de DatosM2 de la tabla 1.3.
Hipótesis:
H0: RCK = 0 o sea no hay concordancia entre las tres poblaciones.
H1: RCK ≠ 0 o sea hay concordancia entre las tres poblaciones.
Datos y cálculos: k = 3, n = 50, α = 0,05; rCK = 0,07156.
Estadígrafo: χ2 = k(n – 1) rCK = 3(49)0,07156 = 10,5193.
Región crítica:
χ 2 > χ12 − α (k − 1) ≈ 5,991465
P{χ2 > 105193} ≈ 0,02793
Decisión: Puesto que 10,5193 supera a 5,991465 y más aún como 0,002793
es menor que 0,05, se rechaza la hipótesis H0 con nivel de significación de 0,05.
Sobre la base de estos datos se puede afirmar que hay concordancia entre las
tres variables.
Problemas propuestos 4.11:
a) Para n < 8, consulte, en el capítulo 1, la dócima de significación de
este coeficiente de concordancia y precísela, acorde con los nuevos
conocimientos de pruebas de hipótesis.
b) Decida si hay o no concordancia entre los coeficientes de inteligencia
de las tres poblaciones correspondientes a las los individuos del sexo
166
ERRNVPHGLFRVRUJ
Ejemplo 4.26:
Decida si hay o no diferencias entre los grados de retrazo mental de los
niños de las tres razas de población de donde proviene la muestra de la matriz
de DatosM2 de la tabla 1.3, que se ofrecen a continuación en la tabla 4.40.
167
ERRNVPHGLFRVRUJ
H0: No hay diferencias entre las tres razas en cuanto a retrazo mental.
H0: Hay diferencias entre la tres razas en cuanto a retrazo mental.
Con un software estadístico a partir de la muestra conjunta rangueada se
obtiene la tabla 4.41.
Tabla 4.41. Total y sumas de rangos por muestra
Raza ni Ri
B 14 411
N 14 378
O 22 486
168
ERRNVPHGLFRVRUJ
169
ERRNVPHGLFRVRUJ
Como se puede observar hay cuatro rangos distintos ligados 82, 96, 115, 132.
Ahora se calculará el valor del estadígrafo HC.
mi
170
ERRNVPHGLFRVRUJ
…
Jn X1n X2n ··· Xkn
Tratamiento
Juez
T1 T2 ··· Tn
J1 rgf(x11) rgf(x21) ··· rgf(xk1)
J2 rgf(x12) rgf(x22) ··· rgf(xk2)
…
171
ERRNVPHGLFRVRUJ
Hipótesis:
H0: Los cuatro tratamientos producen iguales resultados.
H1: Los cuatro tratamientos no producen iguales resultados.
La tabla 4.48 se obtiene rangueando cada fila de la tabla 4.47.
Tabla 4.48. Rangueo por fila y suma de rangos por columnas de la tabla 4.47
Métodos
Grupo
I II III IV
1 4 2 1 3
2 3 2 1 4
3 4 1 2 3
Suma de rangos 11 5 4 10
172
ERRNVPHGLFRVRUJ
173
ERRNVPHGLFRVRUJ
Ejemplo 4.29:
Decida si hay o no diferencia entre los niños de las tres razas (blanca,
negra y otras) de la población de donde proceden las muestras de la matriz de
DatosM2 de la tabla 1.3 en cuanto a la escala de Vineland EV2. En la tabla 4.50
se ofrecen los datos.
Tabla 4.50. Distribuciones de frecuencias observadas y esperadas obtenidas
Frecuencias observadas Frecuencias esperadas
Total
N O B N O B
Menor que la mediana 9 10 6 25 7 11 7
Menor que la mediana 5 12 8 25 7 11 7
Total 14 22 14 50 14 22 14
B: blanca. N: negra. O: otras.
Hipótesis:
H0: No hay diferencia entre las tres razas respecto a EV2 en la población de
donde proviene la muestra de la matriz de DatosM2 de la tabla 1.3.
H1: hay diferencia entre las tres razas respecto a EV2 en la población de
donde proviene la muestra de la matriz de DatosM2 de la tabla 1.3.
Como se cumple que la condición de que no más del 20 % de las frecuencias
esperadas sea menor que 5 y ninguna menor que 1, necesaria para aplicar la
dócima de independencia u homogeneidad en tablas de contingencia, se puede
aplicar la dócima.
Mediana = 3,5; χ2 ≈ 1,610390 gl = 2 p = 0,4470
Decisión: Como 0,4470 no es menor que 0,05 no se rechaza H0 con nivel
de significación de 0,05. Sobre la base de estos datos no se puede afirmar que
haya diferencias entre las tres razas en cuanto a la EV2 en la población de donde
proviene la muestra aleatoria de la matriz de DatosM2 de la tabla 1.3.
174
ERRNVPHGLFRVRUJ
Problemas y suplementos
175
ERRNVPHGLFRVRUJ
2007 2010
176
ERRNVPHGLFRVRUJ
177
ERRNVPHGLFRVRUJ
178
ERRNVPHGLFRVRUJ
179
ERRNVPHGLFRVRUJ
180
ERRNVPHGLFRVRUJ
181
ERRNVPHGLFRVRUJ
41. ESTIMACION.LINEAL: permite estimar los parámetros de una
tendencia lineal, es decir, los coeficientes de las variables independientes
y el intersecto en la ecuación de regresión simple y múltiple, así como
las estadísticas corrientes de la regresión Y = b0 + b1X1 + ... + bnXn.
41. ESTIMACION.LOGARITMICA: permite estimar los parámetros
de una tendencia exponencial, o sea los coeficientes de las variables
independientes y el intersecto en la ecuación de regresión Y = b0b1X1b2X2
… bnXn y las estadísticas asociadas con la regresión logaritmica ln(Y)
= ln(b0) + ln(b1)X1 + … + ln(bn)Xn
42. FRECUENCIA: permite calcular una distribución de frecuencia como
una matriz vertical.
43. FISHER: permite calcular la transformación Fisher o coeficiente z dada por
.
44. PRUEBA.FISHER.INV: permite calcular la función inversa de la
transformación de Fisher, si y = FISHER (x) entonces PRUEBA.
FISHER.INV(y) = x.
45. GAMMA.LN: permite calcular el logaritmo natural de la función
gamma.
182
ERRNVPHGLFRVRUJ
183
ERRNVPHGLFRVRUJ
184
ERRNVPHGLFRVRUJ
Y poniendo, por ejemplo, estos 50 datos numéricos en una sola fila, la fila
1 de una hoja de Excel y los números 1, 2, 3 y 4 como clases en la fila 2 de una
hoja de Excel e introduciéndolas convenientemente en el cuadro de diálogo de
la opción Histograma se obtiene la tabla de 5.1.
Las clases no numéricas se agregan a posteriori. Debe tenerse cuidado de que
las clases literales y los números mantengan el orden original de los datos. Otra
185
ERRNVPHGLFRVRUJ
Aunque aun no se han empleado números con decimales, hay que tener en
cuenta que en Windows se configura el símbolo de separación decimal y otros
en la opción Personalizar de Configuración regional y de idioma del panel de
control.
En Excel se puede cambiar en el menú Herramientas/Opciones/ Interna-
cional y marcar en usar separador decimal y marcar el punto o la coma, según
conveniencia y como separador de cifras cualquier otro. Debe cerrarse Excel
y después abrirse nuevamente para que tengan efecto los cambios. También
se puede cambiar el signo de separación de decimales en los números con la
opción Usar separador del sistema (o no) de la opción Internacional del menú
Opciones. Y si no se desea cambiar definitivo, se selecciona el rango del conjunto
de datos al que se le desea cambiar y con la opción Buscar/Reemplazar donde
se debe escribir coma (,) por punto (.) o punto (.) por coma (,) según convenga.
La computadora en que usted esta trabajando puede tener punto o coma.
186
ERRNVPHGLFRVRUJ
187
ERRNVPHGLFRVRUJ
188
ERRNVPHGLFRVRUJ
− Se ordenan por la variable sexo, con la opción ordenar del menú Da-
tos, para facilitar el cómputo de las proporciones p y q y de las otras
variables para los individuos de cada sexo. En el rango F1:F6 se sitúan
los nombres o símbolos que aparecen en la tabla 5.4 para calcularlos
inicialmente en la columna G para la primera variable EdC.
189
ERRNVPHGLFRVRUJ
190
ERRNVPHGLFRVRUJ
191
ERRNVPHGLFRVRUJ
192
ERRNVPHGLFRVRUJ
Las sumas de las filas y las columnas de las frecuencias esperadas deben ser
iguales a las de las frecuencias observadas. Las diferencias que puedan existir
se deben a la aproximación por redondeo o truncamiento a pocos decimales.
193
ERRNVPHGLFRVRUJ
194
ERRNVPHGLFRVRUJ
195
ERRNVPHGLFRVRUJ
196
ERRNVPHGLFRVRUJ
197
ERRNVPHGLFRVRUJ
198
ERRNVPHGLFRVRUJ
199
ERRNVPHGLFRVRUJ
200
ERRNVPHGLFRVRUJ
201
ERRNVPHGLFRVRUJ
202
ERRNVPHGLFRVRUJ
Decisión: Como 0,12 no cae en la región crítica Dmáx > 0,188 no se rechaza
H0 con nivel de significación de 0,05. Sobre la base de estos datos no se puede
afirmar que el ajuste sea bueno.
5.1.8.7. Pruebas de las rachas
1. Prueba de las rachas por encima y por debajo de la mediana basada en
el número total de rachas de los símbolos a y b
Solución del ejemplo 4.2 con ayuda de Excel. La tabla 5.18 muestra
los datos en el rango A1:A8 y, además, símbolos, fórmulas y los enca-
bezamientos de filas y columnas como en Excel.
Datos: 1 1 1 2 3 4 4 5 5 6 6 6 7 7 8 9 11 12 13 15 17.
n = 21, mediana: 6, rachas: 6.
Tabla 5.18. Prueba basada en el total de rachas de símbolos a y b
A Símbolos de A Fórmulas de A
1 21 n
2 0,05 α
3 0,95 1–α =1-B2
1
4 0,01190476 =1/(4*A1)
4n
1
5 0,98809524 1− =1−B4
4n
Condiciones para aplicarla =SI(O(0.05>A4;0.05<A5);“Hay”;“No hay”)
6 6 r r
7 1,64485363 Z1-α DISTR.NORM.ESTAND.INV(A3)
8 17,2354655 rα =(3/2)+A1-A7*RAIZ((A1^2-A1)/(2*A1-1))
=SI(A6>A8;“Se rechaza H0”;
9 Decisión
“No se rechaza H0”)
203
ERRNVPHGLFRVRUJ
1 1
Si ≤ α ≤1−
n n
Tabla 5.19. Prueba de las rachas basada en la longitud de la racha
más larga
A Símbolos de A Fórmulas de A
1 21 n
2 0,05 α
1
3 0,047619048 =1/B1
n
1
4 0,952380952 1− =1-1/B1
n
SI(O(A2<A3;A2>A4);“Se cumplen”;
Condiciones para aplicar la dócima
“No se cumple”)
5 8,677403379 Lα =-LN(-LN(1-B2)/B1)/LN(2)
6 8 L
=SI(A6>A5;“Se rechaza H0 con α = 0,05”;“No se rechaza Ho con α = 0,05”)
204
ERRNVPHGLFRVRUJ
Si n ≥ 20:
205
ERRNVPHGLFRVRUJ
206
ERRNVPHGLFRVRUJ
207
ERRNVPHGLFRVRUJ
208
ERRNVPHGLFRVRUJ
209
ERRNVPHGLFRVRUJ
H0: No hay diferencias entre las tres razas en cuanto a grado de retraso
mental.
Disponiendo los datos en A1:C5, y realizando los cálculos intemedios como
en la tabla 5.28 sin encabezamientos se puede lograr la decisión con esta otra
fórmula:
=SI(A14<0,05;“Rechazo H0”;“No rechazo H0” con nivel de significación
α = 0,05.
2. ANOVA de la mediana
Solución del ejemplo 4.29. Se desea saber si hay diferencia entre las tres
razas respecto a EV2. Para ello se separan en una hoja de Excel las variables raza
y EV2 se halla la mediana de EV2 y se ordenan ambas variables por raza y por
EV2 y se cuentan valores de EV2 menores y luego los mayores que la mediana
para cada raza, para ello puede utilizar de la función =CONTAR.SI, y construir
con ellos la distribución de frecuencias bivariada o tabla de contingencia de
tres filas encabezadas por las tres razas y dos columna encabezadas por menor
que la mediana una y mayor que la mediana otra. En la tabla 5.30 se ejempli-
fica como se calcula la cantidad de mayores y la cantidad de menores que la
210
ERRNVPHGLFRVRUJ
211
ERRNVPHGLFRVRUJ
212
ERRNVPHGLFRVRUJ
213
ERRNVPHGLFRVRUJ
214
ERRNVPHGLFRVRUJ
215
ERRNVPHGLFRVRUJ
216
ERRNVPHGLFRVRUJ
Decisiones: Como 0,012 es menor que 0,05 no se rechaza HG. Como 0,030
es menor que 0,05 se rechaza HC. Como 0,437 no es menor que 0,05 no se
rechaza HI. Todos con nivel de significación de 0,05.
Sobre la base de estos datos se puede afirmar que hay efecto de los factores
grupo y CI, pero no hay efecto del factor interacción.
5.1.8.13. Funciones de Excel que representan pruebas de hipótesis
− PRUEBA.T que ofrece la probabilidad crítica para tres pruebas para las
medias de dos poblaciones con distribuciones normales, en dependencia
del parámetro tipo que si toma el valor:
• 1: Brinda la prueba t para el caso de muestras apareadas.
• 2: Brinda la prueba para el caso de muestras independientes proce-
dentes de poblaciones con varianzas desconocidas pero iguales.
• 3: Brinda la prueba para el caso de muestras independientes proceden-
tes de dos poblaciones con varianzas desconocidas y diferentes.
217
ERRNVPHGLFRVRUJ
218
ERRNVPHGLFRVRUJ
219
ERRNVPHGLFRVRUJ
220
ERRNVPHGLFRVRUJ
221
ERRNVPHGLFRVRUJ
222
ERRNVPHGLFRVRUJ
223
ERRNVPHGLFRVRUJ
224
ERRNVPHGLFRVRUJ
225
ERRNVPHGLFRVRUJ
226
ERRNVPHGLFRVRUJ
227
ERRNVPHGLFRVRUJ
228
ERRNVPHGLFRVRUJ
Observaciones:
− Las modas de C1, C2 y C3 son tres: 71,45; 75,46 y 75,88 en los tres casos.
− Las celdas vacías indican que en este caso no está definido el
indicador
− B1, B2 y B3 no tienen rango ni rango intercuartílico por no permitir la
sustracción sus valores.
5. Construya gráficas de cajas y bigotes de las variables B1, B2 y B3 así
como de las variables C1, C2 y C3, con los indicadores apropiados e
interprételas.
Las gráficas aparecen en las figuras 5.8 y 5.9.
229
ERRNVPHGLFRVRUJ
6. Calcule los matriz de correlaciones de las variables A1, A2, A3, B1, B2,
B3, C1, C2 y C3 y la correlación entre todas las variables dicotómicas de
230
ERRNVPHGLFRVRUJ
231
ERRNVPHGLFRVRUJ
232
ERRNVPHGLFRVRUJ
233
ERRNVPHGLFRVRUJ
234
ERRNVPHGLFRVRUJ
235
ERRNVPHGLFRVRUJ
236
ERRNVPHGLFRVRUJ
237
ERRNVPHGLFRVRUJ
238
ERRNVPHGLFRVRUJ
239
ERRNVPHGLFRVRUJ
240
ERRNVPHGLFRVRUJ
Una tabla con algo más del mínimo de 15 dócimas que más información
extraen de las muestras, clasificadas según la escala, el número de poblaciones
y el tipo de muestras.
Poblaciones y Escala
muestras Intervalo o razón Ordinal Nominal
Media, varianza y Bondad de ajuste de Binomial para la
Una población
distribución Kolmogorov-Smírnov proporción, exacta F
Dos
Independencia y
poblaciones Medias y U de Mann-Whitney,
homogeneidad y exacta
y muestras varianzas Kolmogórov-Smírnov
de Fisher
independientes
241
ERRNVPHGLFRVRUJ
Sirva como ejemplo general, por el que se debe guiar para resolver cualquier
problema de prueba de hipótesis este:
¿Se podrá afirmar que hay diferencias entre las tres razas en cuanto grado
de retraso mental a partir de la muestra aleatoria de la matriz de DatosM2. Use
un nivel de significación igual a 0,05.
1. Selección de la prueba que aprovechan mejor la información de la muestra
y verificación de las condiciones que exige: la condición de muestra
aleatoria se da como dato, la escala de la variable grado de retraso mental
es ordinal y las tres muestras son independientes, por tanto, el ANOVA
de clasificación simple no se puede aplicar, por exigir este distribuciones
normales, varianzas iguales y el modelo aditivo de ANOVA, y si el de
rangos de Kruskall-Wallis, que solo exige escalas ordinales.
2. Planteamiento de las hipótesis:
H0: La población de niños de las tres razas no difiere en cuanto a grado
de retraso mental.
H1: La población de niños de las tres razas difiere en cuanto a grado
de retraso mental.
3. Selección del estadígrafo adecuado o la prueba adecuada en el
software:
Estadígrafo: H = 5,850182; pc = 0,0537 y n = 50
4. Decisión estadística y popular:
Como p ≈ 0,0537, no es menor 0,05 no se rechaza H0 con nivel de
significación de 0,05. Sobre la base de estos datos no se puede afirmar
que la media poblacional difiera de 43.
242
ERRNVPHGLFRVRUJ
243
ERRNVPHGLFRVRUJ
1 ex
F ( x) = −x
= para −∞ < x < ∞.
1+ e 1 + ex
El modelo de regresión lineal viene dado por la ecuación:
Y = β0 + β1X1 +... + βkXk
Donde:
Y: es la variable dependiente o de respuesta.
X1, X2,…, Xk: son las variables independientes o explicativas.
β0, β1, β2,…, βk: son los coeficientes constantes respectivos de X1, X2,…, Xk.
El modelo de regresión lineal simple representa el caso particular:
Y = β0 + β1X1
Una vez construido el modelo de regresión lineal se debe decidir acerca de
la bondad de su ajuste, la significación de sus coeficientes y los posibles factores
de confusión o variables confusoras todo esto para determinar si se incluyen
nuevas variables independientes o se eliminan algunas de las existentes con lo
que se obtiene el modelo mas simple y que mejor ajusta.
244
ERRNVPHGLFRVRUJ
(I)
245
ERRNVPHGLFRVRUJ
p
Y denominando odds al cociente se puede decir que α es el logaritmo
q
del odds dado que X = 0 y α + β es el logaritmo del odds dado que X = 1, de
modo que entonces:
p
/ X =1
q
β = ln
p
/ X = 0
q
Es decir, β es el logaritmo del cociente de los odds para los dos valores de
la variable X, y se tiene que:
p
/ X =1
β q
e = recibe el nombre de odds ratio.
p
/X =0
q
Al tabular las variables dicotómicas X e Y se obtiene:
X=1 X=0 Total
Y=1 a b a+b
Y=0 c d c+d
Total a+c b+d n
246
ERRNVPHGLFRVRUJ
1
Lo que es equivalente a p = .
− (β 0 + β1 x1 + ... + β k x k )
1+ e
Que se obtiene análogamente a como en el caso anterior, teniendo en cuenta
que en esa deducción no se alteró el exponente, salvo en la última transfor-
mación, en que solo cambió de signo. Este caso representa la generalización
del anterior y con esta transformación se obtienen los n valores pronosticados
de Y evaluando la expresión precedente en cada uno de los n valores de las
variables Xi o X según el caso. El modelo de regresión logística es, más bien,
un modelo de regresión no lineal, pero se linealiza aplicando transformaciones
logarítmicas y sus propiedades.
247
ERRNVPHGLFRVRUJ
248
ERRNVPHGLFRVRUJ
Donde:
EE: el error estándar y los coeficientes son β1 = 0,13 y α = β0 = –2,44.
Odd = eβ: representa el odds ratio y su valor de 1,14, es mayor que 1, por lo
que se puede afirmar, teniendo en cuenta que la prueba de bondad de ajuste da
una probabilidad crítica de 0,0115 < 0,05, que, sobre la base de esta muestra,
y con un nivel de significación de 0,05, que cuanto más cigarrillos diarios se
consumen más se contribuye a que se contraiga la influenza AH1N1.
249
ERRNVPHGLFRVRUJ
250
ERRNVPHGLFRVRUJ
251
ERRNVPHGLFRVRUJ
Ejemplo 5.1:
Para más de una variable independiente. Se cree que en la enfermedad Y
influyen fundamentalmente dos factores X1 y X2. Una muestra aleatoria de 25
pacientes con la enfermedad Y arrojó los resultados de la tabla 5.63. Los resul-
tados del análisis de regresión logística para verificar la creencia sobre la base
de las variables Y, X1 y X2 se muestran en la tabla 5.68.
Tabla 5.68. Aplicación de la regresión logística con dos variables
independientes
Predictor Coeficiente EE Odds LI LS –2(L0 – L1) p
Constante –2,42 1,16 0,09 0,01 0,86 5,54 0,0186
X1 0,08 0,25 1,08 0,66 1,77 0,09 0,7603
X2 0,07 0,29 1,07 0,6 1,9 0,05 0,8156
Razón de máxima verosimilitud –14,09
252
ERRNVPHGLFRVRUJ
5.6.1. Terminología
− Registrar la información: consiste en cuantificarla y esto no significa
que se represente por números exclusivamente, existen varias escalas
de cuantificación y no todas son numéricas.
− Variable: ente que puede tomar un valor cualquiera de los comprendidos
en un conjunto bien definido.
− Matriz de datos: sistema de variables con los valores que tomó en
un conjunto de individuos o elementos dispuesto en forma de matriz
en columnas encabezadas por los nombres de las variables y filas
encabezadas por los individuos o transpuesta, o sea en que las filas y
las columnas se intercambian de lugar.
− Cuestionario: incluye encuestas, entrevistas, formularios, planillas de
datos a llenar y hasta entrevistas, pues algo se pregunta en ellas.
Por lo menos para la aplicación de los métodos estadísticos la clasificación
de los datos según las escalas nominal, ordinal, de intervalo y de razón es la
más completa.
En general la escala superior, la de razón registra la información métrica,
la ordinal, la presencia del 0 absoluto y la nominal.
La escala de intervalo registra información métrica, la ordinal y la nominal.
La escala ordinal registra información ordinal y la nominal
La escala la nominal registra información de la simple clasificación en
clases.
Por eso si se puede cuantificar en una escala superior no se debe hacer en
una escala inferior porque se perderá información al hacerlo, salvo que prime
253
ERRNVPHGLFRVRUJ
254
ERRNVPHGLFRVRUJ
Nada impide que esta matriz se transponga y se pueda presentar también así:
Individuo Raúl María Ana Juan Mario
Edad 27 19 23 21 30
Evaluación de un examen Bien Excelente Regular Mal Regular
Color preferido Rojo Azul Rojo Verde Azul
255
ERRNVPHGLFRVRUJ
Ejemplo 5.2:
Selección de k colores de un conjunto de m colores distintos por cada uno
de n individuos.
1. Cada uno de n individuos selecciona un color (k = 1). En este caso no
tiene sentido considerar orden o repeticiones de colores.
Los resultados serán los colores seleccionados, se define la variable
color, cuyos valores posibles serán los siete colores. Así, para n = 3 se
ofrece, en la tabla 5.70, cómo disponer los resultados.
2. De los colores denotados por A, B, C, D, E, F, G selecciona exactamente
cuatro distintos cada uno de n individuos:
En este caso n = 3, k = 4 y m = 7 y se considera que no puede
seleccionarse el mismo color más de una vez y que no hay orden alguno
se pueden definir entonces:
a) Cuatro variables que denotaremos por V, X, Y, Z del tipo de la varia-
ble del caso 1, en escalas nominales, cuyos valores posibles serán
los siete colores A, B, C, D, E, F, G. En la tabla 5.71 se muestra un
ejemplo.
256
ERRNVPHGLFRVRUJ
257
ERRNVPHGLFRVRUJ
258
ERRNVPHGLFRVRUJ
259
ERRNVPHGLFRVRUJ
260
ERRNVPHGLFRVRUJ
261
ERRNVPHGLFRVRUJ
5.7.2. Estandarización
Igualmente se logra homogeneización, a este efecto, en el caso de variables
en escala al menos de intervalo, con la estandarización, que consiste en restar de
cada puntaje la media de todos los puntajes de la variable en cuestión y dividir
la diferencia obtenida entre la desviación estándar correspondiente.
Los puntajes transformados de esta manera se denominan estandarizados y
en ocasiones normalizados. Esta transformación permite también lograr puntajes
con una media y una desviación estándar fijadas a conveniencia con el objeto
de simplificar su interpretación y comparación.
Denotando la media de un conjunto de datos por M y la desviación estándar
por S se tiene que:
X −M
Z= es el puntaje X estandarizado.
S
262
ERRNVPHGLFRVRUJ
263
ERRNVPHGLFRVRUJ
5.7.3. Recodificación
264
ERRNVPHGLFRVRUJ
blación
Razón o taza de
prevalencia
Los dos primeros son razones y los dos últimos son también proporciones
que habitualmente se multiplican por una potencia de 10 para simplificar su
interpretación.
E N
+ A B
– C D
265
ERRNVPHGLFRVRUJ
De modo que a las proporciones y razones son cocientes muy útiles como
indicadores en el caso de las variables nominales y algunas ordinales y en la
medicina al igual que en la economía se usa y abusa de ellos. Por esta razón es
preferible conocer la base, el fundamento matemático y no tanto la semántica,
el contenido que es propio de la especialidad, que es lo que diferencia los dis-
tintos indicadores o números índices, como le dicen en economía. Y al igual
que no es necesario enumerar la semántica o contenido de las miles de medias
de múltiples variables continuas que se usan en diversas especialidades y acti-
vidades de la vida corriente, no es necesario tampoco enumerar los contenidos o
semántica de todas las proporciones, tazas y razones que se emplean en medicina
o biología para aprender bioestadística, más aun en la enseñanza que no debe
ser repetitiva o reiterativa, porque la repetición no aporta, información nueva,
si acaso solo la que no se obtuvo antes por alguna razón, y en la actualidad la
información es mucha y no hay que perder tiempo en repeticiones si se desea
conocer más para servir mejor a la sociedad, resolviendo cada vez más nuevos y
viejos problemas que la aquejan aplicando los conocimientos nuevos y también
los viejos no adquiridos antes.
Sea Xi para todo i = 1, 2,..., n una variable dicotómica o binaria, esto es que
solo puede tomar los valores 0 y 1. Sea, además:
n
X = ∑ Xi
i =1
266
ERRNVPHGLFRVRUJ
267
ERRNVPHGLFRVRUJ
268
ERRNVPHGLFRVRUJ
variables en escala ordinal, sino para las que además admiten medias y desvia-
ciones estándar σ o al menos provienen de variables continuas.
donde q = 1 – p es la
n
varianza de X = ∑ X i .
i =1
Sea p1 la proporción de unos en X, p2 la proporción de unos en Y y
p12 la proporción de pares (1, 1) entre los valores del vector (X, Y),
entonces:
1 n
∑ X iYi es igual a la media de los pares (1, 1) que se ha denotado
n i =1
por p12.
y por tanto:
269
ERRNVPHGLFRVRUJ
1 n 2 1 k 2 1 n−k 2 k
∑
n i =1
X i = ∑ a + ∑ 0 = a2 = a2 p
n i =1 n i =1 n
donde q = 1 – p
Donde:
p1, p2 y p12 son las proporciones de a en X, de a en Y, y de (a, a) en
(X , Y), respectivamente.
Este resultado es el mismo resultado anterior con valores 0 y 1 en
ambas variables.
b) Sea b ≠ 0, entonces definiendo X = X´ – b, o sea, la variable que solo
toma los valores a – b y 0. Se tiene que esta nueva variable X tiene
la forma de la X del inciso anterior con a – b en lugar de a, y en-
tonces los resultados del epígrafe anterior son validos aquí también,
270
ERRNVPHGLFRVRUJ
donde q = 1 – p
De modo que r no depende, en ninguno de los casos de los valores
de a y de b.
Queda demostrado que la variables cuyos posibles valores son dos
valores cualesquiera a y b tiene un coeficiente de correlación que
no depende de a ni de b, de modo que para todo par de variables
dicotómica, ambas con los mismos dos valores posibles su coefi-
ciente de correlación lineal es el mismo independientemente de a
y de b. Por otro lado, como el coeficiente de correlación lineal de
Pearson coincide con el coeficiente φ, o V de Cramér para variables
dicotómicas, no importan los dos valores que tenga la variable dico-
tómica y entonces se podrá calcular por la fórmula del coeficiente
de correlación lineal de Pearson que está programada en muchos
paquetes estadísticos y no se requiere construir la distribución bi-
variada de frecuencias previamente como lo requiere φ.
271
ERRNVPHGLFRVRUJ
272
ERRNVPHGLFRVRUJ
Para realizar la conversión es construye una tabla de 51 filas por tres colum-
nas. La primera columna encabezada por Individuo se numera del 1 al 50, la
segunda columna se encabeza por raza, la variable de menos valores distintos,
tendrá situados 14 N, de negra, 22 O de otras y 14 B de blanca una a continua-
ción de hasta completar los 50.
La tercera columna, se encabeza por grado de retraso mental y a las primeras
14 negras (N) se le hace corresponder las primeras siete celdas con el valor de
ligero (L), las cuatro siguientes con el valor de moderado (M), la siguiente con
el valor S y la dos siguiente con el valor de grave. A continuación se procede
análogamente con las restantes celdas, de la columna grado de retraso mental,
correspondientes al total de 22 otras (O) y las restantes 14 blancas (B) de la
columna raza. en la tabla 5.87 se ofrece la transformación completa.
Tablas 5.87. Matriz de datos de la raza y el grado de retardo mental
Individuo Raza Grado de retraso mental
1 N L
2 N L
3 N L
4 N L
5 N L
6 N L
7 N L
8 N M
273
ERRNVPHGLFRVRUJ
274
ERRNVPHGLFRVRUJ
(1)
n n n
sd2 = 1
n ∑ (xi − x )2 + 1n ∑ (yi − y )2 − n2 ∑ (xi − x )(yi − y )
i =1 i =1 i =1
(3)
275
ERRNVPHGLFRVRUJ
Donde E(A), E(B), E(C) y E(D) denotan las frecuencias esperadas corres-
pondientes a las frecuencias observadas A, B, C y D y se van a denotar los
totales marginales por n1• = A + B , n2• = C + D , n•1 = A + C y n•2 = B + D
y el total general por n = A + B + C + D.
Demostración:
276
ERRNVPHGLFRVRUJ
277
ERRNVPHGLFRVRUJ
278
ERRNVPHGLFRVRUJ
Estos datos son cualitativos, están en una escala nominal, entre ellos no
hay orden, por tanto si nos quedamos solo con las frecuencias: 6, 8, 12 y 7, en
cualquier orden, tendremos la información de que hay cuatro clases distintas
con estas respectivas frecuencias, que es toda la información no semántica y
estadística que contienen y por tanto no se habrá perdido información relevante
alguna al cuantificar los resultados, que se podrían representar incluso por C,
R, D y O o cualesquiera otros cuatro símbolos. De modo que las frecuencias
cuantifican los datos cualitativos en las distribuciones de frecuencia
279
ERRNVPHGLFRVRUJ
280
ERRNVPHGLFRVRUJ
281
ERRNVPHGLFRVRUJ
282
ERRNVPHGLFRVRUJ
283
ERRNVPHGLFRVRUJ
284
ERRNVPHGLFRVRUJ
285
ERRNVPHGLFRVRUJ
286
ERRNVPHGLFRVRUJ
287
ERRNVPHGLFRVRUJ
Daniel, W. W.: Biostatistics, Foundations for Analysis in the Health Sciencies, John Wiley and
Sons, Inc., 1974.
De la Noval, N.: “Fundamento Lógico de la Enseñanza de la Programación”, Instituto Superior
Pedagógico Enrique José varona, Tesis de Maestría, La Habana, 1999.
Dixon, J. W. y J. F. Massey: Introducción al Análisis Estadístico. 2da ed., University of Cali-
fornia, 1965.
Egaña, E.: La estadística. herramienta fundamental en la investigación pedagógica. Editorial
Pueblo y Educación, La Habana, 2003.
Egaña, E.: Manual de Estadística General, Universidad Nacional Autónoma de Nicaragua,
Managua, 1989.
Linares, G.: Análisis de Datos, Editora del Ministerio de Educación Universidad de La Habana,
Facultad de Matemática y Cibernética, La Habana, 1990.
López-Calleja, C.: Conferencias de Estadística Multivariada, CEDEM, Universidad de La
Habana, 1999.
Martinez C. H. y P. S. Santana: Manual de procedimientos estadísticos, Instituto de Ciencias
Médicas de La Habana, 1990.
Microsoft Excel: Ayuda. Versiones XP, 2003, 2007 y 2010.
Padua, J.: Técnicas de Investigación Aplicadas a las Ciencias Sociales, Fondo de Cultura Eco-
nómica,. Avenida Universidad, 975, México 12, DF, 1979.
Siegel, S.: Nonparametric Statistics for the Behavioral Sciences, McGraw-Hill Book Company,
Inc., New York, 1956.
Yamane, T.: Statistics: An Introductory Analysis, 2nd. Edition, University of California, 1965.
ERRNVPHGLFRVRUJ
291
ERRNVPHGLFRVRUJ
292
ERRNVPHGLFRVRUJ
293
ERRNVPHGLFRVRUJ
294
ERRNVPHGLFRVRUJ