Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
MÓDULO 3
ESTADÍSTICA
PROGRAMA
La Habana/Caracas
2007
2
Módulo 3. Estadística
Objetivos:
Plan Temático:
1
3
Contenido:
Evaluación:
La evaluación del tema, forma parte del sistema evaluativo del curso; este
incluye la evaluación, por parte del profesor, de las respuestas a los trabajos
individuales y de grupo. A ello se le adicionará una prueba escrita de los
contenidos del tema. La Evaluación Final se realizará mediante la integración
de todos los componentes de ésta, en escala cualitativa (excelente, bien,
aprobado, desaprobado)
2
4
Selección de lecturas
Bibliografía Complementaria:
3
5
MÓDULO 3
ESTADÍSTICA
GUÍA DE ESTUDIO
La Habana/Caracas
2007
6
Guía de Estudio
Estimado cursista:
I. Orientaciones Generales:
El estudio de cada uno de los contenidos de cada tema deberá comenzar por la
revisión de la Bibliografía Básica, luego conteste la tarea independiente planteada
para cada contenido; finalmente reúnase con el resto de los integrantes del grupo
de estudio y realicen el trabajo correspondiente.
1
7
III. Contenidos:
No. Título
1 Estadística. Conceptos Básicos. Universo y muestra. Variables. Concepto y
clasificación. Escalas de clasificación. Distribución de frecuencias absolutas,
relativas y acumuladas.
2 Representación Estadística. Tablas estadísticas: elementos a considerar en su
confección. Representación gráfica: errores de elaboración e interpretación.
Principales tipos de gráficos: barras, pastel, histograma, polígono de
frecuencia. Uso de paquetes computacionales.
3 Medidas de resumen para variables cualitativas. Razón, proporción,
porcentaje, tasa. Definiciones. Tasas brutas y específicas. Cálculo e
interpretación. Medidas de resumen para variables cuantitativas. Medidas de
tendencia central: Media aritmética, mediana y moda. Medidas de
Dispersión: necesidad del estudio de la dispersión. Rango o amplitud.
Desviación media, varianza, desviación estándar y coeficiente de variación.
Uso de paquetes computacionales.
4 Análisis de Series Cronológicas: Definición, clasificación e importancia.
Requisitos para el tratamiento estadístico de las series. Métodos gráficos y
matemáticos para el análisis de la tendencia. Métodos para el análisis de
estacionalidad. Uso de paquetes computacionales.
5 Estadísticas de Salud. Introducción. Clasificación de las Estadísticas de Salud.
Indicadores sanitarios y demográficos más utilizados. Uso de paquetes
computacionales.
6 Probabilidad. Conceptos básicos. Experimentos y sucesos aleatorios.
Variables aleatorias. Distribución de probabilidad de una variable aleatoria.
7 Distribuciones muestrales: distribución muestral de la media, de la
proporción y de la diferencia entre medias y proporciones.
8 Estimación de parámetros. Estimación puntual y por intervalos de confianza.
Intervalo de confianza para una media y para la diferencia entre dos medias
poblacionales. Intervalo de confianza para la proporción y para la diferencia
entre dos proporciones poblacionales.
9 Docimasia de Hipótesis. Aspectos generales. Pruebas de hipótesis a partir de
medias. Pruebas de Hipótesis a partir de proporciones. Análisis de la varianza
de una vía. Prueba de hipótesis para una proporción poblacional y para la
diferencia entre dos proporciones. Pruebas de homogeneidad e
independencia. Regresión y Correlación Lineal.
2
8
9 Contenido 1.
En la Bibliografía Básica del Módulo revise las páginas 3 a la 11. Una vez que
haya estudiado estos contenidos realice, de forma individual, la tarea (trabajo
independiente) siguiente:
3
9
9 Contenido 2.
Creatinina Sérica
160,00 170,54 166,00 150,00
160,36 160,20 156,70 151,78
158,20 163,20 154,50 152,00
174,00 165,80 155,00 154,80
170,00 165,90 155,90 156,70
4
10
Edad materna
# de
< 20 > 20 Total
hijos
# % # % # %
0 8 8.0 14 14.0 22 22.0
1-3 20 20.0 6 6.0 26 26.0
3-4 10 10.0 19 19.0 29 29.0
5-6 10 10.0 6 6.0 16 16.0
6 y más 2 2.0 7 7.0 9 9.0
Total 50 100.0 50 100.0 100 100.0
Fuente: Encuesta
5
11
ADE F 14
LOI F 11
YGF M 5
HTR M 9
SDE F 10
GTW F 8
JFY F 9
BHG M 8
FRW M 12
RTL F 8
ABV F 9
JUY M 10
9 Contenido 3.
6
12
9 Contenido 4.
____ Para construir una serie temporal los hechos deben registrarse
cronológicamente.
____ La obtención de la tendencia de una serie, mediante el método de las
diferencias absolutas es muy buena cuando la serie tiene grandes
fluctuaciones.
____ La línea recta que se obtiene mediante el método de los semipromedios
resulta muy atractiva para observar la tendencia.
____ Los componentes de la serie, según el método clásico, son: la tendencia,
estacionalidad, el ciclo y la aleatoriedad.
9 Contenido 5.
Lea detenidamente las páginas 65 a la 119 de la Bibliografía Básica. Una vez que
haya estudiado estos contenidos realice, de forma independiente, la tarea
siguiente:
7
13
1. Enumere al menos cinco interrogantes, a las que Ud. puede dar respuesta con
el uso de las estadísticas de salud, en el contexto de su área de trabajo.
8
14
9 Contenido 6.
Lea detenidamente las páginas 120 a la 150 de la Bibliografía Básica. Una vez
que haya estudiado estos contenidos realice, de forma independiente, la tarea
siguiente:
2. Explique con sus palabras, ¿Qué entiende por variable aleatoria?. De tres
ejemplos de aplicación en el contexto de la Salud Pública. Clasifíquelas.
9 Contenidos 7 - 9.
Lea detenidamente las páginas 151 a la 266 de la Bibliografía Básica. Una vez
que haya estudiado estos contenidos realice, de forma independiente, la tarea
siguiente:
9
15
10
16
¿Es posible concluir que las cuatro áreas difieren respecto al peso medio al nacer
de niños a término?
Considere un α=0.05
11
17
87 440 91 525
87 480 91 575
87 535 92 600
88 460 92 490
88 525 92 510
89 480 93 575
89 510 93 540
89 530 94 595
89 545 94 525
90 600 94 600
90 495 94 625
90 545 95 680
91 575 80 420
90 620 89 512
85 480 90 495
V. Bibliografía:
12
18
Básica:
Complementaria:
La evaluación del tema, forma parte del sistema evaluativo del curso; este incluye
la evaluación, por parte del profesor, de las respuestas a los trabajos individuales
y de grupo. A ello se le adicionará una prueba escrita de los contenidos del tema.
La Evaluación Final se realizará mediante la integración de todos los componentes
de ésta, en escala cualitativa (excelente, bien, aprobado, desaprobado)
13
19
MÓDULO 3
ESTADÍSTICA
SELECCIÓN DE LECTURAS
La Habana/Caracas
2007
20
Tabla de Contenido
2.4 La mortalidad................................................................................................. 81
Edad. (años)
20 -25
25 - 29
30 - 34
35 - 39
40 - 44
Si se producen nacimientos en menores de 20 años, algo bastante probable, no
tendrían una categoría donde ser ubicados por tanto no se cumpliría el principio de
la exhaustividad, por otra parte si nace un niño cuya madre tiene 25 años no
sabríamos en que categoría incluirlo, si en la primera o en la segunda, por tanto
las clases de la escala no son mutuamente excluyentes.
Las escalas pueden ser cuantitativas o cualitativas, en dependencia de si sus
categorías pueden ser numéricamente medidas o no. Para las variables
cualitativas se construyen escalas cualitativas, las que consisten simplemente en
27
4. Delimitar los límites inferiores (LI) de los intervalos. Partiendo del valor mínimo
de la serie, sumar la amplitud de los intervalos (A) y se obtendrá el LI del
intervalo siguiente, a este se le suma la amplitud (A) y se obtiene el
subsiguiente, y así hasta llegar al último intervalo de la escala.
5. Delimitar los límites superiores (LS). Se obtiene sustrayendo (restando) una
unidad al LI siguiente. En el caso del LS del último intervalo, se obtiene
sumándole la amplitud al último LI, y luego restando al resultado una unidad.
A fin de fijar ideas, veamos la construcción de una escala paso a paso. A
continuación se tiene una lista con los pesos (en libras) de 20 adolescentes, y se
desea agruparlos en una escala cuantitativa con intervalos de igual amplitud.
Nro. Peso Nro. Peso Nro. Peso Nro. Peso
1. 160,00 6. 170,54 11. 166,00 16. 150,00
2. 160,36 7. 160,20 12. 156,70 17. 151,78
3. 158,20 8. 163,20 13. 154,50 18. 152,00
4. 174,00 9. 165,80 14. 155,00 19. 154,80
5. 170,00 10. 165,90 15. 155,90 20. 156,70
Como puede verse el valor mínimo es 150, y el máximo 174, de manera que la
escala se construirá de la siguiente manera:
1. El recorrido de la serie es R = 174.00 – 150.00 = 24.
2. Establecemos como mínimo 4 intervalos de clase.
3. La amplitud que tendrán los intervalos es A = 24 / 4 = 6.
4. Límites inferiores se muestran a continuación:
Intervalo Límites inferiores
1. 150
2. 150 + 6 = 156
3. 156 + 6 = 162
4. 162 + 6 = 168
1
Se le llama serie de datos al conjunto de valores de una variable obtenidos en un
estudio, por ejemplo todos los pesos de los pacientes estudiados.
30
5. Límites superiores:
Intervalos Límites superiores
1. 156 - 1 = 155
2. 162 - 1 = 161
3. 168 - 1 = 167
4. 174 - 1 = 173
Hasta este punto, la escala será 150-155, 156-161, 162-167, 168-173,
completando así los cuatro intervalos deseados. Pero como puede comprobarse,
en los datos existe un valor que supera 173, de ahí que sea necesario añadir un
intervalo de clase al número predicho con el objetivo de lograr la exhaustividad de
la escala:
Límite inferior del quinto IC: 168 + 6 = 174
Límite superior del último intervalo: 174 + 6 - 1 = 179
Finalmente, la escala es la siguiente:
Observa que esta escala cumple con los requisitos planteados al inicio de este
epígrafe, es decir, es exhaustiva y sus intervalos son excluyentes entre sí.
1.1.5 Distribuciones de frecuencias absolutas, relativas y acumuladas.
Una vez definidas las variables y su escala de clasificación, el siguiente paso sería
clasificar la información, obtener el número de elementos que corresponden a
cada una de las clases de la escala, es decir, la frecuencia absoluta de cada
clase, con lo que estamos resumiendo la información original.
Cuando tenemos una escala de clasificación y la frecuencia absoluta calculada
estamos en presencia de una distribución de frecuencias para esa variable.
Además de la frecuencia absoluta también se puede obtener la frecuencia relativa.
Esta se obtiene dividiendo la frecuencia absoluta de cada clase entre el total de
observaciones, el valor que se obtiene se conoce por el nombre de proporción y si
este resultado se multiplica por cien (x 100) estaremos en presencia del por ciento
o porcentaje, que es una medida de la contribución que hace cada clase, la
importancia relativa con relación al total de observaciones, al total de la población
o al tamaño de la muestra. Veamos un ejemplo:
31
- Absoluta
Distribuciones - Relativa
De frecuencias
- Absoluta
- Acumulada
- Relativa
2
Cuadro o Tabla de manera indistinta, pero no debiera usarse alternativamente en
un mismo trabajo: uno o el otro.
33
Deben ser autoexplicativos, o sea, que se expliquen por sí mismos, por lo que se
debe evitar presentar demasiada información en ellos en aras de ganar claridad.
En general, como forma de presentación se utilizan cuadros uni y bidimensionales,
reservándose el uso de los multidimensionales para fines de trabajo.
4. Fuente. Se refiere al documento3 de donde se extrajo la información
presentada. Por lo general, las fuentes de información se clasifican en:
3
Cuando decimos documento no hacemos distinción de su soporte, puede estar
impreso, en formato digital, etc.
34
Errores de cálculo.
Cuadros sobrecargados.
Número de
Tipo de Gráfico
Variables
20
15
10
5
0
Ausente Baja Media Alta
Ausente
Baja
Media
Alta
Fuente: Tabla 1.
Nota: Con toda intención representamos los mismos datos por dos formas gráficas
diferentes (barras simples y pastel), así confirmamos la posibilidad de utilizarlos
indistintamente, aunque si la variable tiene más de cinco categorías, es preferible
usar las barras simples.
39
Fuente: Libro de matrícula del Círculo Infantil “El Camarón Encantado”. Curso
1999-2000.
Gráfico 3. Distribución de niños según raza y sexo. Círculo Infantil “El Camarón
Encantado”. Municipio Playa, 1999.
%
60
50
40
Blanca
30
Negra
20 Mestiza
10
0
Masculino Femenino Sexo
Fuente: Tabla 2
40
100%
80%
60%
Mestiza
40%
Negra
20% Blanca
0%
Masculino Femenino Sexo
Fuente: tabla 2.
Número de
Tipo de Gráfico
Variables
1 Histograma de frecuencias, ojiva*
2 Polígono de frecuencias
* No abordaremos este gráfico por su infrecuente uso en nuestro ámbito.
41
Histograma
Uso: Este gráfico consiste en barras adyacentes, y se utiliza cuando queremos
representar una variable cuantitativa continua, y la información se dispone en
frecuencias absolutas o relativas, o en medidas de resumen.
Elementos a considerar en su construcción
1. Las barras o rectángulos se disponen unidos para dar idea de continuidad.
2. El ancho dependerá de la amplitud de los intervalos de clase en que se
clasifica la variable en estudio.
3. La altura de cada IC se obtiene mediante el cociente frecuencia
absoluta/amplitud.
4. Por el eje X se consigna el límite de clase inferior de cada intervalo.
5. Lo originan tablas unidimensionales.
Ejemplo: A continuación presentamos los resultados de un estudio relacionado
con las edades maternas.
Tabla 3. Distribución de recién nacidos según edad materna. HGO “E. Hernández,
julio, 1999.
%
40
35
30
25
20
15
10
5
0
15 20 25 30 35
Fuente: Tabla 3 Edad
42
Polígono de frecuencias
Uso: Este gráfico se utiliza cuando queremos representar hasta dos variables, de
las que al menos una debe ser cuantitativa continua y la otra (en caso de ser dos
variables) cualitativa o cuantitativa discreta, y la información se dispone en
frecuencias absolutas o relativas, o en medidas de resumen. Está formado por una
o dos curvas que representan a cada variable estudiada.
Elementos a considerar en su construcción
1. Se pueden construir histogramas inicialmente, y luego marcar los puntos
medios de cada intervalo de clase, los cuales al unirse forman una curva.
2. Habrá tantas curvas como categorías tenga la variable discontinua.
3. Lo originan tablas uni o bidimensionales.
Ejemplo: A continuación presentamos los resultados de un estudio relacionado
con las edades maternas y el sexo de los recién nacidos.
Tabla 4. Distribución de recién nacidos según edad materna y sexo. HGO “E.
Hernández”, julio, 1999.
Sexo
Edad materna Masculino Femenino
No. % No. %
15 – 19 25 12.8 20 11.4
20 – 24 34 17.4 36 20.6
25 – 29 31 15.9 19 10.8
30 – 34 29 14.9 51 29.1
35 – 39 76 38.9 49 28.0
Total 195 100.0 175 100.0
Fuente: Registro de nacimientos. HGO “E. Hernández”, 1999.
Gráfico 6. Distribución de recién nacidos según edad materna y sexo. HGO “E.
Hernández, julio, 1999.
%
45
40
35
30
25 Masc.
20 Fem.
15
10
5
0
15 20 25 30 35 Edad
Fuente: tabla 4
43
Mortalidad
Años Neonatal Fetal*
No. Tasa No. Tasa
1990 861 4.6 1897 10.1
1991 811 4.6 1708 9.7
1992 720 4.6 1532 9.6
1993 601 4.0 1506 9.8
1994 598 4.0 1442 9.7
1995 586 3.9 1424 9.6
1996 456 3.2 1304 9.2
1997 461 3.0 1462 9.5
1998 435 2.8 1519 10.0
Tasa por 1 000 NV y defunciones fetales de 1 000 gramos y más
*: 1 000 gramos y más
Tasa 12
10
8 Neon.
6 Fetal
0 1990
1991
1992
1993
1994
1995
1996
1997
1998
Años
Fuente: tabla 5
Número de
Escala Tipo de gráfico
variables
Barras simples
1
Cualitativa Pastel o circular
cuantitativa discreta Barras múltiples
2
Barras compuestas
Histograma
1
Cuantitativa Polígono de frecuencias
continua
2* Polígono de frecuencias
* una variable es cuantitativa continua y la otra puede ser cualitativa o
cuantitativa discreta
RN con OO 300
P × 100 = × 100 = × 100 = 75.0%
Total de RN 400
Los resultados anteriores significan que tres de cada cuatro recién nacidos tienen
los ojos oscuros; o que 75 de cada 100 recién nacidos tiene los ojos oscuros.
¿No le resultan familiares estas nuevas medidas, o sea, la proporción y el
porcentaje? Ya debe estarse preguntando la diferencia que existe entre éstas y la
distribución de frecuencias relativas estudiada. Nada más claro: no es que sean
parecidas, son exactamente las mismas, pero restringidas a variables cualitativas.
Observe que el porcentaje le permite analizar el aporte, el peso específico o la
importancia relativa de cada categoría respecto al total.
1.3.3 Tasas
Siempre que se necesite medir el riesgo de que acontezca cierto fenómeno en una
población determinada, se dispone de un indicador valioso y único: la tasa.
Una tasa es una relación por cociente que expresa el riesgo de que ocurra cierto
evento en una población y período determinados. Está compuesta por tres
elementos, a saber:
numerador
Tasa = ×k
denominador
47
También hay que notar que las poblaciones están sometidas a constantes
cambios en lo que a su número atañe, determinados por los nacimientos y
defunciones y por los movimientos migratorios (emigración e inmigración), que
provocan que no sea la misma a lo largo de todo el año. De ahí que, por convenio,
se tome la población existente a mediados del período4 o población media para el
cálculo de las tasas.
Por otra parte, se debe tener especial cuidado al calcular tasas para poblaciones
pequeñas, como las que usualmente manejan los Consultorios, pues suelen
volverse inestables, ya que cualquier evento “mueve“ mucho la tasa, y a veces no
guarda relación el resultado obtenido con la magnitud del evento acontecido.
Las tasas que más importancia revisten para nuestro desempeño en el campo de
la Salud Pública son las relacionadas con la natalidad, mortalidad y morbilidad,
entre otras, las que serán estudiadas en detalle en el tema siguiente, tanto su
fórmula de cálculo como la interpretación.
Es conveniente insistir en que las medidas de resumen vistas anteriormente,
(razón - índice, proporción - porcentaje) sobre todo el porcentaje, no son medidas
de riesgo, el riesgo lo mide la tasa.
Con el cálculo de la proporción o el porcentaje lo que estamos midiendo es la
importancia relativa, lo que aporta, el peso que tiene cada categoría de la escala
de la variable con relación al total. Esta medida tiene un uso muy difundido y es
de gran utilidad, tiene la ventaja de poder comparar poblaciones con totales
diferentes porque todo se lleva a una base común que es 100.
Sin embargo, en ocasiones se le da un uso al porcentaje que desborda sus
posibilidades de análisis, y se cometen graves errores al interpretar los resultados
de un estudio.
Veamos un ejemplo.
Defunciones perinatales según edad gestacional de la madre. Ciudad de la
Habana. 2003.
Edad Gestacional Defunciones
(Semanas) No. %
20-27 31 6.2
28-32 108 21.2
33-36 124 25.6
37-41 197 39.7
42 y más 36 7.3
Total 496 100.0
4
Corrientemente se toma la población del 30 de junio.
49
Defunciones Nacimientos
Edad gestacional
No. % No. tasa x 1000
20–27 31 6.2 81 382.7
28–32 108 21.2 817 132.2
33–36 124 25.0 1912 64.8
37–41 197 39.7 29713 6.6
42 y más 36 7.3 2848 12.6
Total 496 100.0 35371 14.0
Observe como los valores más altos de las tasas, los mayores riesgos, se
encuentran en los menores tiempos de gestación, y a medida que las semanas de
gestación aumentan las tasas van disminuyendo para alcanzar su valor más bajo
de las 37 a las 41 semanas, y finalmente ascender ligeramente en los partos post-
término con 42 semanas y más.
Por otra parte, pudiera referirse a la edad por las letras ed, o algo por el estilo. Lo
que debe quedar claro, es a qué se refiere con la simbología utilizada, pues X
puede significar edad en un estudio, pero sexo en otro, por citar un ejemplo.
Ahora bien, llegamos a otro punto que necesita ser definido. Para referirse a las
edades de los cinco individuos, y suponiendo que las representó por la letra X,
pudieran escribirse entre otras tantas formas:
X(Ana) = 24 X(Rosa) = 27 X(Teresa) = 23
X(Juan) = 26 X(Pedro) = 25
X1 + X2 + X3 + X4 + X5 = 650
En el caso que nos ocupa, resulta fácil y rápida esta forma de escritura, pero si
fuesen, digamos, ¡200! valores…
En esta situación, se utiliza la letra griega sigma mayúscula Σ, que representa el
símbolo de sumatoria, el cual antecede a la variable en cuestión y se acompaña
n
de dos anotaciones: una encima y otra debajo, como lo siguiente: ∑ X i . Esto se
i =1
lee como “la suma de las Xs desde i hasta n”, o sea, las Xs cuyos subíndices van
desde los valores especificados en i, o sea desde 1 hasta n.
5
Retomando el ejemplo anterior, hubieses escrito ∑ X i . Si quisieras sumar
i =1
4
solamente los tres valores del centro, entonces escribirías: ∑ X i .
i= 2
5
De la misma forma, ∑ X i Yi significa X1 Y1 + X2 Y2 + X3 Y3 + X4 Y4 + X5 Y5 =
i =1
(24·130) + (26·120) + (27·140) + (25·150) + (23·110) = 16 300.
Al mismo tiempo, recordamos que elevar al cuadrado un número es multiplicarlo
por sí mismo, y se representa por el supraíndice 2, o sea, 132 = 169 (porque 13·13
5
= 169). Entonces, ∑ X i2 es la representación matemática de lo siguiente —
i =1
utilizando los datos del ejemplo—: X12 + X 22 + X 32 + X 24 + X 52 = 242 + 262 + 272 +
252 + 232 = 576 + 676 + 729 + 625 + 529 = 3125.
La operación inversa de elevar al cuadrado es extraer la raíz cuadrada, que se
representa por el símbolo de radical , quedando bajo la barra horizontal a lo que
se le extrae la raíz cuadrada. De ahí que 4 = ±2, porque 2·2 = 4, pero –2 · –2 = 4
también, por lo que debe especificarse en buena lid el símbolo ±. Para algunos
datos del ejemplo anterior: 24 = ±4.89; 26 = ±5.09; 27 = ±5.19.
Por último, seguramente recordará que el valor absoluto o modular de un número
es él mismo sin el signo asociado, esto es, se toma la magnitud positiva del
número. Se representa por dos barras verticales que enmarcan al número
deseado, v.g. 3 = 3, y − 3 = 3.
1.4.1 Medidas de tendencia central: Media, Mediana y Moda.
Seguramente, lo primero que estará preguntándose es: « ¿Por qué de tendencia
central?». Bueno, es que ellas están constituidas por un número alrededor del
cual se agrupan las observaciones de la serie de datos y que ocupa el centro
aritmético o geométrico de ella, aunque eso no significa que el número deba estar
52
Este resultado indica que, en promedio, los adolescentes miden 150 centímetros.
Sencillamente, no hemos hecho otra cosa que decir: «más o menos, los
muchachos miden 150 centímetros».
Entre las propiedades de la media tenemos las siguientes:
1. Es fácilmente comprensible por la mayoría de las personas (o, al menos, es
fácil de explicar su significado);
2. Siempre existe, y puede calcularse para cualquier grupo de datos numéricos;
3. Es única, o sea, un grupo de datos sólo tiene una media;
4. Toma en cuenta a todos los valores de la serie de forma individual, esto es,
recorre la serie completa.
53
Esta última resulta ser sumamente importante, pues la media calculada representa
a todos los valores de la serie, siendo precisamente lo que se quería lograr. Ahora
bien, no siempre esto resulta beneficioso, como se verá en el próximo ejrmplo:
imagínese que se deseaba saber la edad promedio de las personas reunidas en
un salón de cierto Círculo Infantil, para lo cual se escogió al azar uno de los que
poseía dicho centro. En el momento de la medición, se encontraban presentes en
el salón escogido siete bebés y la educadora que los cuidaba, siendo sus edades
las siguientes (m: meses, a: años):
18m 10m 12m 16m 20m 12m 14m 34a
Edad media: 510 meses/8 = 63.75 meses = 5.3 años
Ahora tenemos que, en promedio, las personas allí reunidas tenían 64 meses de
edad (¡Bueno, 5 años es algo más fácil de entender!) ¿Crees que sea cierto ese
dato? Claro que no, está bastante lejos de la realidad, mas no está mal hecho el
cálculo. Matemáticamente es impecable, pero la lógica dice que algo falló.
El motivo por el que apareció un resultado tan dispar es la presencia de un dato
discordante en el conjunto: la edad de la educadora. Cuando en una serie de
datos encuentras algún dato que se aparta de los demás de forma llamativa,
entonces puedes nombrarlo dato(s) aberrante(s). Si calculásemos la media con las
edades de los pequeños solamente, entonces hubiese sido de 15 meses.
En resumen, si los datos son relativamente homogéneos, la media aritmética es
una buena medida de resumen; pero si existen valores muy alejados de la
mayoría (datos aberrantes), entonces se distorsiona mucho y deja de reflejar la
realidad existente, por lo que debe emplearse otro tipo de medida de tendencia
central, la mediana.
Nota: la fórmula analizada anteriormente solo puede emplearse cuando los datos
son simples5, si los datos ya están agrupados en una tabla de distribución de
frecuencias es necesario emplear otra fórmula de cálculo que es un poco más
compleja por lo que decidimos no abordarla, ya que generalmente en la
investigación es el propio investigador quien agrupa los datos. De todas formas
esto puedes consultarlo en la bibliografía que se encuentra referida al final del
tema.
1.4.1.2 La Mediana
La mediana es otra de las medidas de tendencia central. Al igual que la media,
puede ser utilizada para describir el “centro” de un grupo de datos. No tiene un
símbolo específico que la denote; nosotros usaremos Me o mediana en lo
adelante.
La mediana es la observación que divide a una serie ordenada de datos en dos
partes iguales, o sea, es la observación que ocupa la posición central de una
serie ordenada.
5
O sea, datos no agrupados en tabalas ni distribuciones de frecuencias.
54
De lo antedicho se deduce que lo primero que tienes que hacer para calcular la
mediana es ordenar la serie, ya sea en orden creciente o decreciente. Luego,
buscarás cuál de los valores es la mediana, lo cual dependerá del número total de
observaciones o datos que tengas.
Si tienes un número n impar de observaciones, la del centro es la medida
buscada, como lo es 32 en esta serie: 41, 40, 36, 32, 26, 21, 20. Fíjate que a
ambos lados de la mediana hay la misma cantidad de números.
En este caso, por simple observación llegaste al resultado, pero puedes valerte de
n+1
calcular para saber la posición de la mediana, comenzando a contar por
2
cualquiera de los dos extremos de la serie. En el ejemplo anterior el resultado es
(7+1)/2 = 4, y el cuarto puesto lo ocupa el 32, no importa por cuál extremo
comienzas a contar.
La contrapartida ocurre cuando el total de datos es un número par; entonces la
mediana es la media aritmética de los valores del centro de la serie, como sucede
en el ejemplo: 20, 24, 33, 39, 45, 51, 75, 80. Los valores del centro son 39 y 45, su
media es 42, y es este el valor de la mediana de esa serie.
No debe causar extrañeza tal proceder, pues si aplicásemos la fórmula de la
posición, entonces la mediana ocuparía el lugar (8+1)/2 = 4.5, esto es, la mitad
entre los números 4 y 5 de la serie. Ocupando los valores 39 y 45 los lugares 4º y
5º respectivamente, entonces 42 es el centro entre ellos. ¿De acuerdo?
Se puede presentar la situación de que tengamos una serie con varios valores
iguales, como 50, 54, 56, 56, 56, 56, 60, 62. Aquí la mediana es 56, claro está.
Recuerde que ella es el valor central del grupo, y sería un atentado abierto a la
lógica cuestionarse cuál de los 56 es la mediana.
También puede calcularse la mediana para datos agrupados, de manera similar a
la media, lo que puede consultarse en la literatura básica y complementaria al final
del tema.
La mediana posee las propiedades siguientes:
1. Su cálculo es sencillo;
2. Siempre existe, y puede calcularse a cualquier conjunto de datos numéricos;
3. Es única;
4. No se afecta fácilmente por valores extremos.
La cuarta propiedad hace que se prefiera esta medida sobre la media en
situaciones en que existan valores aberrantes. Ahora bien, en la mayoría de los
casos —lógicamente, salvo los citados— se prefiere la media como medida de
tendencia central.
Para ilustrar lo planteado en la cuarta propiedad, volvamos al ejemplo de las
edades de los niños del Círculo Infantil y su educadora. Si calculamos la mediana
de esos datos, ésta sería:
55
6
No tiene que acudir obligatoriamente a un paquete estadístico especializado: por
ejemplo, Microsoft® Excel realiza cálculos como el que nos ocupa.
56
Por desgracia, realizar este cálculo te sería tan provechoso como no hacer
ninguno, pues el resultado final siempre es cero7, debido a razones matemáticas.
Por ejemplo, considera la siguiente serie: 2, 3, 4, 5, 6. Su media es 4, y si
calculásemos lo planteado:
(2 − 4) + (3 − 4) + ( 4 − 4) + (5 − 4) + (6 − 4) ( −2) + ( −1) + 0 + 1 + 2 0
= = =0
5 5 5
La solución a este inconveniente es hallar la diferencia modular de las
desviaciones, de esa manera sólo se tomará en cuenta la magnitud de dichas
desviaciones, esto es, hallar el módulo de las diferencias. De esta forma, se estará
calculando la desviación media (DM) o desviación promedio, cuya fórmula para
datos simples es:
n
∑ Xi − X
i =1
DM =
n
donde:
- Xi son las observaciones de la serie (i = 1,…, n);
- X : media aritmética de la serie;
- n: total de observaciones.
Ilustremos lo antedicho calculando la desviación media de las siguientes
mediciones del peso (en libras) que corresponden a cinco estudiantes de un área
de salud.
150.5, 180.8, 145.3, 127.9, 130.5
Ante todo, calcule la media:
150.5 + 180.8 + 145.3 + 127.9 + 130.5
X= = 147 libras
5
7
Estriba en que la media de las desviaciones es justamente la media misma.
Como escapa a los propósitos de este curso entrar en formalismos matemáticos,
si estás interesado puedes acudir a la literatura especializada para indagar al
respecto.
59
∑ (X i − X )
n 2
S 2 = i =1
n
donde:
- Xi son las observaciones de la serie (i = 1,…, n);
- X : media aritmética de la serie;
- n: total de observaciones.
Esta medida logra describir adecuadamente la dispersión del conjunto de datos,
pero tiene un inconveniente: su resultado se expresa en las unidades de medida
de la variable elevadas al cuadrado, algo harto engorroso y difícil de entender en
la mayoría de las situaciones prácticas, y por demás disonante en relación con la
medida de tendencia central utilizada. Sería algo así como años cuadrados, o
pesos cuadrados.
A fin de eliminar este aparente escollo, se puede hallar la raíz cuadrada positiva
del número obtenido, con lo que tendremos de vuelta las unidades originales,
obteniendo así una medida denominada desviación típica o estándar8, que es la
medida de variación más ampliamente utilizada en el mundo de las estadísticas.
Su símbolo es S (por ser la raíz cuadrada de la varianza), aunque se utiliza
8
Aunque en muchos textos se utiliza standard, preferimos utilizar la traducción al
castellano del término.
60
Con el resultado obtenido puede decirse que, en promedio, los datos se desvían
de la media en casi 19 libras.
En gran parte de las situaciones del mundo biomédico, y basándose en elementos
de la Estadística Inferencial9, se pueden utilizar la desviación estándar y la media
para construir intervalos en los que se encuentran la mayor parte de los datos. Por
ejemplo, en el intervalo cuyo extremo inferior sea X – SD y el superior sea X +
SD, o sea, [ X – SD; X + SD], se encuentra cerca del 68% del total de las
observaciones. Si construimos el intervalo con el duplo de la SD: [ X – 2·SD; X +
2·SD], entonces ahí estará cerca del 95% de los datos; y utilizando el triplo de la
SD, el intervalo contendrá entonces a más del 99% (99.73%) de las
observaciones.
Si los datos están agrupados, el cálculo de la varianza se realiza de manera
diferente pero no lo abordaremos, esto puedes consultarlo en la literatura básica al
final del tema.
Si la serie posee valores aberrantes, usted se ve obligado a utilizar la mediana,
por lo que ahora debe sustituir la media por la mediana en la fórmula para calcular
la varianza y la desviación típica.
9
Nos referimos a la normalidad de las poblaciones. Este es un tema que va más
allá de los objetivos del presente curso.
61
Observa que, por tener la desviación estándar y la media las mismas unidades de
medida, quedan canceladas dichas unidades, de ahí que el coeficiente de
variación no tenga unidades propias10, lo que facilita la comparación.
En el ejemplo siguiente, si se comparan las desviaciones estándar de los dos
grupos, pudiera creerse que ambos tienen igual dispersión, lo cual es un error
pues no se pueden comparar Kg. con cm:
Grupo 1: peso medio = 60 Kg.; SD = 4 Kg.
Grupo 2: talla media = 170 cm.; SD = 4 cm.
Sin embargo, al calcular la medida recién conocida, entonces: CV peso = 6.6% y
el CV talla = 2.3 %. Con lo que vemos algo bien diferente, pues en realidad el
grupo 1 tiene casi tres veces más dispersión en su peso que el grupo 2 respecto a
la talla.
Hay algo importante que usted debe saber, cuando se trata de una sola unidad de
medida, es decir, comparar la dispersión de dos grupos de estudio respecto a la
misma variable medida en la misma unidad de medida, se puede comparar
directamente la desviación típica (varianza) o la desviación media de ambos
grupos estudiados, en este caso es un error comparar los coeficientes de
variación, ya que el CV depende de los valores de las observaciones en sí
mismas, es decir, si comparo dos grupos de pacientes respecto a la talla en cm
puede suceder lo siguiente:
Grupo 1: talla promedio = 60 cm; SD = 4 cm
Grupo 2: talla promedio = 170 cm; SD = 4 cm
En este ejemplo ambos grupos tienen el mismo grado de dispersión respecto a la
talla, ya que poseen igual desviación estándar, pero habrán notado que las medias
son bien diferentes, el grupo 1 a juzgar por su talla promedio son lactantes,
10
Con otras palabras, el coeficiente de variación es adimensional.
62
Gráfico 1
Blenorragia.Cuba,1970-2000
450
400
Tasas por 100 000 hab.
350
300
250
200
150
100
50 valor aberrante
0
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
años
2. Sustitución por la media aritmética general de la serie. Este método puede ser
la mejor manera de estimar un dato siempre y cuando la serie no tenga
grandes fluctuaciones.
Aún cuando existen numerosas posibilidades para la sustitución de los datos
gracias a los paquetes computacionales, a veces la mejor forma de reemplazar un
dato aberrante es utilizando el valor sugerido por un experto, aún cuando puede
decidirse también no utilizarlo en absoluto.
Gráfico 2
40
35
Tasa por 100 000 hab.
30
25 vacunación
20
15
10
5
0
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
años
Ahora bien, existen situaciones a las cuales están asociados los datos aberrantes
y que no deben pasarse por alto, por ejemplo, un conjunto de valores anormales
puede significar que se está produciendo un cambio en los niveles de la serie
debido a modificaciones en la magnitud real del evento o a errores sostenidos en
el mecanismo de observación o medición, en ambos casos ese requiere de una
investigación complementaria antes de continuar el análisis. En el gráfico 2 se
observa la modificación del nivel de la serie producida en la serie de Meningitis
Bacteriana a partir del inicio de la vacunación contra la meningitis meningocóccica
tipo B.
Periodicidad de la serie.
La periodicidad de la serie no es más que el intervalo regular de tiempo al final del
cual obtenemos una medición resultante del estado de la variable. La decisión de
cual es la que mejor conviene a nuestro estudio, está en dependencia de los
objetivos que se persigan, pues si se desea conocer el comportamiento histórico
de un fenómeno, entonces lo más razonable es utilizar series con una periodicidad
anual, en cambio si se quiere hacer la vigilancia de determinada enfermedad
transmisible resulta más apropiado el empleo de series semanales.
68
El gráfico de la serie
Hemos dejado este asunto para el final, pero no porque sea el menos importante,
pues el estudio de cualquier evento en el tiempo tiene que comenzar
necesariamente por la exploración de su representación gráfica. La observación
de ésta permite apreciar los detalles más relevantes de la serie así como detectar
los valores anormales.
El gráfico por excelencia para una serie de tiempo es el llamado Gráfico Aritmético
Simple (GAS), donde en el eje de las abscisas se inscriben los momentos de
tiempo considerados y en el eje de las ordenadas los valores de la variable
obtenidos para cada uno de los intervalos. Generalmente se utilizan las escalas
aritméticas para ambos ejes aunque pueden emplearse escalas semilogarítmicas.
20
16
Tasa x 100 000 hab.
12
0 a 14
4 15 a 49
50 y mas
Total
0
Los gráficos con escalas semilogarítmicas son muy útiles para representar la
variación relativa del fenómeno estudiado, lo cual suele ser de mayor interés para
el epidemiólogo que la propia variación absoluta. Generalmente se utilizan para
representar series de datos que tienen magnitudes diferentes. Si con esta escala
el evento representado aparece como una línea recta esto permite suponer que
existe una evolución constante (crecimiento o decrecimiento) del indicador
empleado y la pendiente de esa recta pone de manifiesto la magnitud de esa
evolución.
69
100
Tasa x 100 000
10
0 a 14
15 a 49
50 y mas
Total
1
1988 1989 1990 1991 1992 1993 1994
Años
Cuando se analizan dos series de datos y ambas aparecen como rectas paralelas
puede concluirse que los eventos representados tienen una variación similar. La
escala semilogarítmica posee además la cualidad de hacer evidente las
verdaderas variaciones, aunque éstas sean ligeras.
1.5.2 - Los componentes de la serie.
Una vez que se ha concluido que la serie en estudio tiene las cualidades
necesarias para poder ser analizada como tal corresponde proceder al análisis. El
enfoque clásico del estudio de series parte de considerar la existencia de un
proceso que gobierna el comportamiento de la variable en cuestión, el cual
determina los valores observados en cada momento de tiempo. La idea que
subyace bajo este enfoque determinista es una extrapolación de los modelos
matemáticos que describen los fenómenos físicos y los cuales permiten calcular el
valor de cualquier cantidad dependiente del tiempo con exactitud.
Desgraciadamente, casi ningún fenómeno de la vida en general y mucho menos
de Salud puede ser abordado de esta forma, pues factores desconocidos pueden
producir variaciones insospechadas, aún para los propios fenómenos físicos. La
magnitud y tipo de los cambios sociales, biológicos, físicos o químicos que ocurren
son tan infinitos como el propio tiempo. No obstante, se acostumbra a buscar una
expresión analítica que sea función de éste para explicar el comportamiento de la
variable, en otras palabras el modelo que gobierna la serie es una función del
tiempo.
70
Esta función está compuesta, según el enfoque clásico, por cuatro elementos o
componentes de la serie y se considera que todo cambio que se opera en ella es
resultado de la influencia de todos o de alguno de estos componentes, que son:
tendencia, estacionalidad, ciclo y aleatoriedad; los cuales describiremos a
continuación:
• Tendencia (T). También conocida como la tendencia secular, no es más que el
movimiento suave, regular y casi siempre lento, el cual tiende a mantenerse
por períodos largos de tiempo, por lo que generalmente se estudia en varias
décadas. La tendencia de una serie es la orientación general que parecen
seguir sus valores o el cambio de su valor medio o nivel en el tiempo. Los
cambios seculares o históricos son de gran importancia para los epidemiólogos
pues permiten apreciar cual ha sido el comportamiento del evento en períodos
anteriores, sin embargo, numerosos acontecimientos pueden influenciar las
tendencias de las enfermedades a lo largo del tiempo (costumbres higiénicas
de la población, nuevos métodos terapéuticos, medidas preventivas como las
vacunas), los cuales no deben olvidarse al observar la tendencia para permitir
la correcta valoración de la misma. En Gráfico 5 se aprecia la tendencia
decreciente de la mortalidad en el sexo masculino para el grupo de 1-4 años en
Cuba.
Gráfico 5.
85
80
75
70
65
60
86 87 88 89 90 91 92 93 94 95 96
Gráfico 6.
400000
350000
300000
Atenciones Médicas
250000
200000
150000
100000
50000
0
15
22
29
36
43
50
57
64
71
78
85
92
99
106
113
120
127
1
8
meses
140000
120000
100000
80000
60000
40000
20000
0
1964
1966
1968
1970
1972
1974
1976
1978
1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
Gráfico 7
Gráfico 8
100.00
90.00
80.00
70.00
60.00
50.00
40.00
30.00
20.00
10.00
0.00
1
11
21
31
41
51
61
71
81
91
101
111
121
131
141
151
1.5.3- Métodos para el tratamiento de series.
Existen numerosos métodos para trabajar con las series temporales y la utilización
de uno u otro está en dependencia de los objetivos propuestos y de las
características de las mismas. No se recomienda hacer más complejo de lo
necesario este proceso pues si lo que se pretende demostrar puede lograrse
mediante un método simple, éste resultará mejor que uno más complejo, sobre
todo, si no se poseen los recursos tecnológicos que generalmente son necesarios
para el empleo de métodos más complicados.
A continuación explicaremos algunas de las formas más simples para estudiar la
tendencia y la estacionalidad, la clasificación utilizada para ello ha sido tomada del
excelente trabajo del doctor Arnaldo Tejeiro ″La Serie Cronológica″5.
Métodos para estudiar la tendencia.
Métodos Matemáticos.
1. Diferencias Absolutas.
2. Cambio Relativo.
3. Diferencias Absolutas o Cambios Relativos de valores extremos de la serie.
4. Números Indices.
5. Promedio de Cambio.
Métodos Gráficos.
1. Línea a mano alzada.
2. Método el Ciclo Medio.
3. Semipromedios.
74
4. Promedios Móviles.
5. Medianas Móviles.
Métodos para estudiar la estacionalidad.
Curvas de expectativa.
1. Curva con la Mediana.
2. Curva con el Promedio.
3. Curvas con Medianas o Promedios Móviles.
4. Mediana y Valor Último.
5. Promedio Tricentral.
Límites de variación habitual o Canales Endémicos.
1. Canal del Máximo -Maximorum y Mínimo - Minimorum.
2. Canal con las cifras inframáximas y supramínimas.
3. Canal del Promedio de la serie más - menos dos Desviaciones Estándar.
4. Canal con la Mediana y Primer y Tercer Cuartiles.
Método de la diferencia absoluta:
En este método lo que se pretende es demostrar la existencia de tendencia a
través del incremento o disminución de la diferencia absoluta entre los valores
extremos de la serie. Para que sea útil es necesario que la serie progrese de
manera bastante estable, ya que en series que presenten grandes variaciones
este valor carece de interés. Supongamos por ejemplo, que tenemos la serie de
mortalidad por enfermedades del corazón de Cuba desde 1970 hasta 1999. La
tasa bruta de mortalidad del año 1970 fue de 148.3 defunciones por 100 000
habitantes y la de 1999 de 192.6, la diferencia entre ambas es de 44.3, de manera
que podemos plantear que se ha producido un incremento entre los años
extremos del período y ello habla a favor de la existencia de una tendencia al
ascenso en este evento.
Método del cambio relativo:
La utilización de medidas relativas es muy atractiva por la facilidad de la
comprensión de las mismas. Este método consiste por lo tanto, en la presentación
del cambio relativo ocurrido entre los valores extremos de la serie. Continuando
con el ejemplo anterior de la mortalidad por enfermedades del corazón,
tendríamos que después de obtener la diferencia entre las tasas de 1999 y 1970,
esta diferencia se divide a su vez por el valor de la tasa del año 1970 y se
multiplica por 100, obteniéndose entonces que en la serie se ha producido un
incremento del 29.8 %.
Los métodos de la diferencia absoluta o del cambio relativo entre grupos de años
extremos de la serie son similares a los dos anteriormente descritos, pero en ellos
se utiliza en vez de los dos valores extremos, un grupo de valores cuyo tamaño
está en dependencia de los deseos del investigador y del número de años
disponibles. Es necesario sin embargo, estar atentos a las características de la
serie, pues si se trata de una serie con grandes fluctuaciones no se podrán
75
obtener resultados coherentes con ninguno de los métodos que emplean los
valores extremos; además como en todos los análisis de series temporales se
debe recordar siempre que los factores que han dado origen a la misma son
múltiples y que cualquier variación de estos puede modificar la misma. No
obstante, si la serie es muy variable se recomienda emplear el método que se
describe a continuación.
Método del número índice.
El número índice ha sido empleado con frecuencia como un indicador bastante
aproximado para estudiar la tendencia de eventos cuyo comportamiento es muy
fluctuante. Para confeccionarlo se escoge el valor de algún año y éste se
considera entonces como el cien por ciento obteniéndose a continuación el
porcentaje de éste que representa cada año de la serie. Este método tiene la
ventaja de que permite apreciar la evolución del evento a lo largo del tiempo. Sin
embargo tiene una gran desventaja y ella está dada por la decisión de cual es el
año que debe ser considerado como el índice. Supongamos que se escoge un año
que tiene un valor muy alto los demás años estarán por debajo del mismo o
viceversa, no obstante esto no resulta tan problemático si se hace la interpretación
adecuada. A continuación mostramos cómo se comportaron los números índices
de la serie de mortalidad por enfermedades del corazón de Cuba entre los años
1970-1999 tomando como año índice a 1970.
76
NÚMERO
AÑO TASA INDICE %
1970 148.3 1 100.00
1971 141.3 0.95 95.28
1972 135.9 0.91 91.63
1973 147.2 0.99 99.12
1974 156.3 1.02 102.75
1975 148.9 1.00 100.40
1976 158.9 1.07 107.12
1977 162.8 1.09 109.77
1978 168.9 1.13 113.89
1979 164.7 1.11 111.50
1980 166.7 1.12 112.30
1981 176.1 1.18 118.70
1982 162.8 1.09 109.77
1983 171.8 1.15 115.84
1984 176.4 1.18 118.94
1985 189.9 1.28 128.05
1986 184.5 1.24 124.40
1987 185.5 1.25 125.08
1988 191.8 1.35 135.73
1989 190.2 1.29 129.33
1990 201.3 1.35 135.73
1991 192.5 1.28 128.25
1992 195 1.31 131.49
1993 199.2 1.34 134.32
1994 201.9 1.35 135.74
1995 201.3 1.35 135.73
1996 206.3 1.39 139.10
1997 197.1 1.32 132.90
1998 193 1.30 130.14
1999 192.6 1.29 129.87
200
Tasas por 100 000 hab.
180
160
140
120
100
1970
1972
1974
1976
1978
1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
Como la serie tiene una extensión de 30 años, se calculó un promedio para cada
mitad, es decir que se obtuvo la media para los años 1970-1984 ( 159.13) y para
el período 1985-1999 (194.80). Cada promedio se inscribió en el punto medio
correspondiente en el eje de las abscisas.: el año 1977 para la primera mitad de la
serie y el año 1992 para la segunda. Si se hubiera representado una serie con un
número de años impar, por ejemplo con 29 años, entonces se hubiera dividido en
dos mitades de 14 años y el año central es decir el número 15 de la serie, se
hubiera incluido en el cálculo de los dos semipromedios.
Método de los promedios móviles:
Este es otro de los métodos gráficos recomendados para el análisis de tendencia,
pero en realidad lo que permite es disminuir las fluctuaciones bruscas de la serie y
obtener un suavizamiento general de la misma, por lo que se recomienda cuando
estamos en presencia de series con muchas variaciones en su comportamiento a
lo largo del tiempo. El método consiste en obtener el promedio para segmentos
78
Gráfico 10
40
35
30
Tasa por 100 000
25
20
15
10
5
0
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
Condiloma promedio movil
E F M A M J J A S O N D
1992 1692 1626 1887 2105 1919 1746 1959 1637 1866 1936 1503 1304
1993 838 928 1290 1021 891 1594 830 807 1289 944 727 991
1994 649 951 1509 1365 1206 1565 880 1105 1754 1493 1270 917
1995 815 1037 1540 1139 1443 1133 867 1362 1672 1406 1838 886
1996 946 919 1014 1123 1753 1911 1918 1803 2575 2998 1868 1977
1997 1926 1984 2276 2998 2271 1904 1748 1606 1520 1831 1218 1210
1998 914 1184 1586 1188 1237 1670 1045 1079 1538 1341 1268 1284
E F M A M J J A S O N D
1926 1984 2276 2998 2271 1911 1959 1803 2575 2998 1868 1977
Inframáxima 1692 1626 1887 2105 1919 1904 1918 1637 1866 1936 1838 1304
946 1184 1586 1365 1753 1746 1748 1606 1754 1831 1503 1284
Mediana 914 1037 1540 1188 1443 1670 1045 1362 1672 1493 1270 1210
838 951 1509 1139 1237 1594 880 1105 1538 1406 1268 991
Supramínima 815 928 1290 1123 1206 1565 867 1079 1520 1341 1218 917
649 919 1014 1021 891 1133 830 807 1289 944 727 886
82
Gráfico 11
gEste canal
Hepatitis . Canal Endémico. permite inscribir
los nuevos
6000
valores del
EPIDEMIA evento en el
5000
período que se
está vigilando;
4000 ALERTA observar en que
zona se
3000
encuentran y
SEGURIDAD actuar en
2000
consecuencia.
Observe que los
1000
valores que se
EXITO
encuentran por
0
1 2 3 4 5 6 7 8 9 10 11 12
encima de la
mediana, ya
representan un
motivo de alerta o constituyen francamente una epidemia. Este método tiene la
ventaja de no considerar los valores de años epidémicos pues no toma los
máximos, por eso se prefiere al canal del máximo maximorum y mínimo
minimorum, al cual se le ha señalado que pierde sensibilidad para la detección
de epidemias al tomar en cuenta para su confección a los valores máximos.
Los métodos anteriormente enumerados son bastante buenos en general si lo que
se desea es describir el comportamiento de un evento de salud. Sin embargo, con
frecuencia el estudio de series lo que persigue es poder predecir un valor futuro de
la variable y para este caso, esos métodos resultan inoperantes. Existen otro
grupo de métodos indicados para establecer predicciones que no serán abordados
aquí.
Bibliografía:
1. Horsford Saing R, Bayarre Vea H. Métodos y Técnicas aplicados a la
Investigación en Atención Primaria de Salud. Parte I. La Habana: Finlay; 2000.
2. Bayarre Vea H, Oliva Pérez M, Horsford Saing R, Ranero Aparicio V, Coutin
Marie G, Díaz Llanes G et al. Libro de Texto de Metodología de la Investigación.
Maestrías para profesionales de la Atención Primaria de Salud. La Habana,
2004.
3. Astraín Rodríguez ME. Estadística Descriptiva. La Habana: ENSAP; 2001.
4. Coutin Marie G. Las Series Temporales. MINSAP. La Habana, 2001.
83
Introducción
Hecho vital. Es todo hecho relacionado con el comienzo y fin de la vida del
individuo y con los cambios de su estado civil que pueden ocurrir durante su
existencia. Los más importantes son los nacimientos y las defunciones.
No hay dirección científica de la salud sin una sólida y amplia base informativa.
Las estadísticas de salud se tornan cada vez más amplias y complejas en la
medida que más amplia y compleja sea la actividad en salud.
Tiene como ventaja adicional que es mucho mas económico que la entrevista,
pues puede ser aplicado a grandes grupos de población de una sola vez, con solo
reunirlos en un local para que una persona encargada lo realice, e incluso puede
ser enviado por correo, en este último caso el número de no respuesta puede ser
muy elevado. Tiene como desventaja que no puede combinarse con la
observación.
Los errores más frecuentes que se producen en los censos pueden agruparse en
dos categorías: errores de cobertura y errores de contenido.
- Mixto. Cuando se aplican en un mismo censo los dos métodos. Los datos de la
persona enumerada por lugar de presencia se envían posteriormente al lugar
donde declaró como residencia habitual para su compatibilización.
Los registros civiles constituyen la fuente de las estadísticas vitales, son los mas
útiles para el sector salud, y su historia data desde épocas remotas. En un
principio la iglesia estuvo a cargo de los mismos( registros parroquiales), pasando
el estado, a partir del siglo XIX, al asumir su responsabilidad, aunque todavía
existen países en los cuales continua siendo la Iglesia la encargada de muchos de
ellos.
Los hechos o sucesos vitales pueden ser anotados en los registros de dos formas
distintas.
2.2 La población
Desde el punto de vista demográfico la población es el conjunto de personas que
se agrupan bajo un cierto ámbito geográfico.
88
La distribución por edad puede hacerse por edades simple aunque es más
frecuente su estudio por grupos quinquenales o decenales.
Dentro del análisis por edad tenemos un indicador muy importante que mide la
carga que tienen las poblaciones de personas no productivas, económicamente
dependientes, la razón de dependencia.
Está razón no es más que la relación entre las personas con dependencia
económica por su edad y la población económicamente activa.
poblacióndependiente
RD = x 100
poblacióneconomicamenteactiva
Donde:
pob.masculinaporgruposquinquenalesdeedad
Razón de masculinidad =
Pob. femeninaporgruposquinquenalesdeedad
En el eje vertical, (y), están los grupos quinquenales de edad hasta 85 y más y en
el eje horizontal, las abcisas aparecen los efectivos de población en porcentajes.
Como todos los grupos de edad tienen la misma amplitud, cinco, los rectángulos
tienen el mismo ancho y sólo varía la longitud en dependencia de los efectivos de
población de cada grupo.
Tipos de pirámide
La constrictiva y la casi estacionaria por el contrario son típicas de países ricos con
muy bajos niveles de natalidad y mortalidad. En la casi estacionaria los bajos
niveles de fecundidad ya llegan a producir un crecimiento negativo.
90
Crecimiento de la población.
Puede ser de dos tipos según las variables demográficas que intervengan:
Tasas de crecimiento:
Donde:
1 11229688 − 11122308
r = ( ) x 100
3 11122308
2 nt − no
r= x100
t nt + no
2 11229688 − 10603200
r= ( ) x 100
10 11229688 + 10603200
r = 0.2(0.029) x 100
ln 2
t=
ln(1 + r )
Donde:
Ln 2 = 0.69315
r = crecimiento geométrico
Con el ejemplo de Cuba:
0.69315
t=
ln(1 + 0.006)
0.69315
t= = 115.9
0.00598
r = TBN - TBM
TBN
r
r
TBM
Años
2.3 La fecundidad
Evolución histórica:
Este descenso se hace muy marcado a principio del siglo XX y abarca a todo el
planeta, durante la década del 60 la reducción no fue importante, en la década de
los 70 se expanden los programas de planificación familiar en la mayoría de los
países, estos programas logran una mayor consolidación en los años 80 donde se
observa un mayor descenso de los niveles de fecundidad.
95
Sin embargo, existen grandes diferencias entre regiones y países. En los países
nórdicos y Europa los niveles tan bajos constituyen un problema para esas
poblaciones, lo que ha motivado que los gobiernos tracen políticas de
incentivación de la natalidad. Sin embargo en otras regiones del mundo como
África los niveles se mantienen elevados.
a- Fisiológicos
1- Fecundabilidad, que es la probabilidad de que una mujer casada o unida
sea concebida en el transcurso de un ciclo menstrual.
2- Probabilidad que una concepción finalice en un nacido vivo
3- Esterilidad
4- Intervalo de recuperación ovulatoria luego del parto. .
b- Factores de comportamiento.
1- Lactancia materna
2- Frecuencia de las relaciones sexuales
3- Métodos de prevención de nacimientos
96
Fuentes de información
Existen otras fuentes que se utilizan con fines específicos dirigidos casi siempre
por intereses investigativos, algunas de estas son:
Medición de la fecundidad
1- Tasa bruta de Natalidad
Es el menos refinado de los indicadores de la fecundidad, como puede apreciarse
por su expresión de cálculo, se trata de una tasa bruta, lo que limita las
comparaciones al estar afectada por la estructura de población por edad. Además
de incluir en el denominador personas que no participan en el evento que se está
midiendo (niños y ancianos).
N
TBN = x 1000 habitantes
P
Donde:
N = total de nacidos vivos
P = población estimada a mitad de período
Tiene como ventaja que es de fácil cálculo. Sus valores oscilan entre 11 y 50
nacimientos x 1000 habitantes, por debajo de 20 se consideran niveles bajos de
fecundidad.
Veamos la tasa de Cuba para el año 2000
143528
TBN = = 12.8 x 1000
11187673
En el año 2000 se produjeron en Cuba 12.8 nacimientos por cada 1000
habitantes.
97
N
TGF = x 1000 mujeres de 15 a 49 años
P15− 49
Sus valores oscilan entre 30 y más de 100 nacimientos por 1000 mujeres en edad
fértil ( 15 a 49 años). Valores por debajo de 60 se consideran bajos.
Cuba en el año 2000 tenía una tasa de 47.3 nacimientos por 1000 mujeres en
edad fértil.
0.18
0.16
0.14
0.12 1975
0.1 1985
1996
0.08
0.06
0.04
0.02
0
15 20 25 30 35 40 45
Edad
- Que durante su periodo fértil tuviera sus hijos de acuerdo a las tasas de
fecundidad por edad observadas en un momento dado
15-19 52.3
20-24 98.4
25-29 88.5
30-34 52.5
35-39 20.1
40-44 3.0
45-49 0.1
Total 47.3
Expresa el número promedio de hijas por mujer y cumple los mismos supuestos
que la tasa global de fecundidad y los cálculos son los mismos, solo que el
resultado final se multiplica por la proporción de nacimientos femeninos que
ocurren en la población.
En la población tiende a producirse 105 nacimientos masculinos por cada 100
femeninos, como vimos en el capitulo de población, de donde la proporción de
nacimientos femeninos seria:
100
K= = 0.4878
205
TBR = TGF X K
Es el número promedio de hijas que tendría una mujer pero teniendo en cuenta los
riesgos de muerte.
Para su cálculo hay que tener de una tabla de mortalidad para la población
femenina, la función de probabilidad de supervivencia para cada grupo de edad
2.4 La mortalidad
Las estadísticas de mortalidad tienen el objetivo de conocer el número de
defunciones habidas en determinada población durante un período determinado
de tiempo y su distribución de acuerdo a diferentes características de la población
dónde ocurren.
Defunción es la cesación permanente de las funciones vitales con posterioridad al
nacimiento. Es un hacho vital único en la vida de un individuo, lo que facilita su
registro y análisis.
Evolución histórica
Desde el siglo XVIII, la mortalidad ha venido experimentando un descenso
mantenido de sus niveles, independiente de que su comportamiento no sea igual
en todos los países.
Entre los factores más generales e importantes que se invocan como
responsables de esta reducción tenemos:
101
En sentido general podemos decir que los datos de mortalidad son fundamentales
para la planificación, ejecución y avaluación de los programas de salud a todos los
niveles, local, regional e internacional.
- Evaluación
Sirve para evaluar:
• Cobertura y calidad delos servicios, como por ejemplo la mortalidad
materna, la mortalidad intra hospitalaria, la mortalidad por infecciones
nosocomiales.
• Programas, conociendo la tendencia después de la implantación
• Acciones específicas, como el tratamiento de enfermedades graves a
través da la letalidad.
• Tecnologías, por ejemplo, conociendo la supervivencia por diferentes
tipo de tratamientos
- En el análisis de la situación de salud
Fuentes de datos
Una de las ventajas que tienen las estadísticas de mortalidad es precisamente
la disponibilidad de fuentes, para la obtención de la información.
Los intentos de listar, ordenar y clasificar las enfermedades, para que estas
sean comparables dentro de diferentes regiones de un país y entre países,
datan de mediados del siglo XIX con los primeros intentos hechos por William
Farr. A finales de este propio siglo, Bertillón propone una lista, una clasificación
que fue revisada y adaptada oficialmente para todos los países en el 1900
A partir de la 6ta versión (en 1948 se creó por parte de la recién fundada OMS,
un Comité de Control y Revisión de la CIE, que es un órgano de trabajo
permanente) la clasificación se vuelve más amplia y ya se incluyen las
enfermedades. Actualmente ya está vigente la X revisión.
Errores
Los errores que con más frecuencia se cometen en los registros es por falta de
cobertura (que el sistema llegue a todos lo lugares que debe llegar y cubra a
toda la población que debe cubrir) e integridad (que se registre todo lo que se
debe registrar).
Estos errores conducen a otros como:
- subregistros
- sobreregistros
- mala calidad en el llenado de los datos que recoge el certificado de
defunción
- errores de flujo y terminación
Diferenciales de Mortalidad
En las causas externas influyen las condiciones de vida, el estilo de vida y múltiple
factores de índole socioeconómica.
Dentro de las causas externas la edad y el sexo son los principales factores
104
Sexo. Existe una sobremortalidad masculina para casi todas las edades. Esta
diferencia se hace muy evidente en la esperanza de vida al nacer por sexo, donde
la mujer es más longeva que el hombre, diferencia que se hace más marcada en
los países de mayor desarrollo.
En los países pobres esta diferencia es menor y se piensa que sea, en parte, por
el desgaste biológico de las mujeres debido a la alta paridad y también porque las
malas condiciones de vida la afectan mucho mas por sus roles de género.
Indicadores tradicionales
totaldedefunciones
TBM = x 1000 hab.
totaldelapoblación
105
Este mismo hecho produce un efecto paradójico, en los países más ricos la
tasa tiene valores más altos, porque la población es más vieja, cuando sus
riesgos de muerte son en realidad más bajos que la de los países pobres.
2. Tasa de mortalidad por edad. Permite evaluar las variaciones de los riesgos de
muertes en las distintas edades. Es de fácil cálculo y generalmente la
información de fácil obtención. Permite la comparación sin estandarizar porque
se trata de tasas específicas. Sin embargo cuando no se analiza por grandes
grupos de edad puede ser complejo el manejo de tantos indicadores.
defuncionesde lg rupodeedadX
TME x = x 1000 hab
poblacionde lg rupodeedadX
defuencionesporedadysexo
TMES = x 1000 hab.
poblacióndeesegrupodeedadysexo
defuncionesporsexoycausaX
TMSC = x 10, 000 o 100 000 hab.4.
poblacióndeesesexo
106
totaldedefuncionesdeunacaracterística *
Mortalidad proporcional = x 100 def.
totaldedefunciones
• Sexo, edad, causa
defuncionesde50añosymás
ISW = x 100 defunciones
totaldedefunciones
Indicadores especiales:
107
Bajo este rubro agrupamos un conjunto de indicadores que tiene casi todos
en común que el denominador en el total de nacidos vivos, como una
aproximación a las reales poblaciones expuestas al riesgo que se está
midiendo, al no estar siempre disponible esa información.
defuncionesmenoresdeunaño
TMI = x 1000 nacidos vivos
totaldenacidosvivos
Como el riego de muerte y las causas que lo originan son diferentes dentro
del primer año de vida, se divide este periodo en tres momentos que son
conocidos como los componentes de la mortalidad infantil, y para cada
uno de ello se calcula una tasa, que como todas tienen como denominador
el menor de un año son aditivas, o sea la suma de la tasa de los tres
componentes nos da el valor de la mortalidad infantil.
defuncionesmenoresde7días
TMNP = x 1000 nacidos vivos
totaldenacidosvivos
En este período de la vida predominan las causas de muerte de tipo
endógeno, que son difícilmente evitables como las malformaciones
congénitas, hipoxia, membrana hialina y otras.
defuncionesde7a 27días
TMNT = x 1000 nacidos vivos
totaldenacidosvivos
defuncionesdemásde27días
TMP = x 1000 nacidos vivos
tortaldenacidosvivos
1039
TMI = = 7.2 x 1000 nacidos vivos
143528
445
TMNP = = 3.1 x 1000 nacidos vivos
143528
207
TMNT = = 1.4 x 1000 nacidos vivos
143528
387
TMP = = 2.7 x 1000 nacidos vivos
143528
3.1+1.4+2.7 = 7.2
defuncionesfetalestardías + defuncionesneonatalesprecoces
TMPN= x1000 nv
nacidosvivos + defuncionesfetalestardías
Este indicador permite evaluar tanto la calidad de la atención obstétrica
prenatal como durante el parto así como las condiciones de salud y
nutrición de la madre, aspectos genéticos y la atención neonatológica.
defoncionesmenoresde5años
TMM5 = x 1000 nacidos vivos
totaldenacidosvivos
111
defuncionesporunacausa
Tasa de letalidad = x 100
totaldeenfermosporesacausa
Entre las funciones (indicadores) que brinda la tabla, una de las más
importantes es la esperanza de vida a una edad exacta X. Este indicador
expresa cuantos años en promedio se espera que viva una persona que
esta sometida a los riesgos (tasas)) con los que se calculó la tabla.
Para los países desarrollados el valor supera los 70 años, Japón sobrepasa
los 80 años y los más pobres apenas superan los 50 años.
Como hemos mencionado varias veces, las tasas brutas, crudas, totales o
generales, en las que en el denominador se encuentra la población total, no
pueden compararse sin tener en cuenta que, puede esta comparación estar
sesgada, por la diferente estructura de población entre los territorios a comparar o
un mismo territorio en diferentes periodos de tiempo.
Es por eso que los países desarrollados que presentan una población más
envejecida tienen tasas de mortalidad general mayores que los países pobres con
estructuras de población más jóvenes. Así las tasa de mortalidad general de
Japón es mayor que la de Haití
Por eso lo primero es definir una población tipo o estándar, que puede ser la de un
tercer país o región, la de una población ficticia o hipotética que se puede crear
sumando la de los territorios a comparar, o la de una de las regiones en estudio, que
es la alternativa que vamos a utilizar en el ejemplo.
Mortalidad evitable
Es conocido que los indicadores de morbilidad, reflejan de una manera más fiel la
situación de salud de una población. Sin embargo, el hecho de que ellos no puedan
ser obtenidos con la misma facilidad y sobre todo con la confiabilidad que ofrecen los
datos sobre mortalidad - ya que en la mayoría de los países los registros de
mortalidad son desde hace muchos años de carácter obligatorio, y tienen una alta
cobertura e integridad - hace que aún en la actualidad, se utilicen con más
frecuencia que los datos de morbilidad. 1
Mortalidad prematura
De esta manera puede afirmarse, que a la prevención de una entidad que ocasiona
muchas pérdidas dentro de contingentes poblacionales jóvenes y socialmente
activos, debe atribuírsele una mayor prioridad que a otras causas de defunción que
ocasionan cifras similares de muerte entre personas de edad avanzada. Así, la
importancia relativa de las causas de muerte se modifica notablemente, cuando se
analiza de acuerdo con el número de años de vida potencialmente perdidos antes de
una edad dada (mortalidad prematura), mortalidad que, además, es considerada
potencialmente evitable o reducible.
El concepto de años de vida potenciales perdidos fue introducido por primera vez por
Dempsey en 1947, con el fin de comparar la mortalidad por tuberculosis con las
debidas a enfermedades del corazón y cáncer. Para cada defunción ella calculó, los
años de vida que quedaban hasta llegar a la esperanza de vida prevaleciente.
Existen diferentes posiciones para establecer la duración del tiempo perdido debido
a una muerte prematura. De ahí que existan diferentes alternativas de cálculo para
obtener el número de años de vida perdidos, pasaremos a analizar a continuación la
forma más sencilla y difundida de cálculo
X =l
∑ dx (L − x )
X = 0 ó1
i i
donde:
i grupos de edad
dxi defunciones a la edad media del intervalo o grupo de edad i
xi edad media del grupo de edad i
L potencial límite de vida ó edad límite
En los países más desarrollados del mundo, la esperanza de vida la nacer, supera a
los 70 años, mientras que en las regiones más pobres y atrasadas, no llega a los 60
años. Quizá es por ello, que el valor intermedio de 65 años, se considera el más
utilizado para calcular los AVPP y es el propuesto por el CDC de Atlanta.
Aunque se puede ser flexible en la selección de la edad límite, lo que si hay que
tener presente es que no pueden establecerse comparaciones al variar esta edad,
pues varía el valor del indicador.
El primer paso es calcular la edad media de los grupos de edad, xi, para ello
encontramos la marca de clase de cada intervalo o grupo mediante la semi suma de
los límites de clase:
L. inf + L. sup/ 2
Para el grupo de 1-4 sería:
1+4/2= 5/2 = 2.5
A esa marca de clase se le agrega 0.5 que sería la mitad de 1 año, el tiempo
transcurrido hasta cumplir la próxima edad exacta de 5 años que es límite inferior
del siguiente intervalo de clase.
2.5 + 0.5 = 3
De esa forma asumimos que las defunciones de cada grupo de edad tenían al
morir la edad media de cada intervalo de clase. Las 83 defunciones ocurridas en el
grupo de 1 a 4 años para nuestros fines tenían al morir 3 años. Así se procede con
todos los grupos de edad (columna 3).
El siguiente paso es calcular cuantos años ha dejado de vivir una persona que al
fallecer tenga la edad media de cada grupo etáreo. Esos años dependerán de que
edad se utilice como límite arbitrario, nosotros ya dijimos que vamos a trabajar con
65 años.
Ejemplo:
65-0.5= 64.5
65- 3= 62
El último paso es calcular el número de años dejado de vivir por todas las
defunciones ocurridas por grupo de edad. Para el grupo de los menores de 1año
una defunción a esta edad ha perdido 64.5 años, pero en el caso de los accidente
para el país el al año 1999 se produjeron 38. Para conocer cuantos años se
dejaron de vivir por las 38 defunciones reportadas se multiplican por 64.5 años
que es lo que dejo de vivir una. Los resultados se muestran en la última columna
de la tabla. En total se dejaron de vivir por accidentes para Cuba en ese año
78829.5 años
En la década del 70 y parte de los 80, la tendencia era, la exclusión del menor de un
año, para lo que se esgrimían los siguientes argumentos:
Primero, que las causas de defunción en el menor de un año, son causas muy
específicas para este período de la vida, y responden a causas muy diferentes de las
defunciones a otras edades. Además, en regiones de baja mortalidad infantil habría
una sobrecarga en AVPP por enfermedades ya muy poco evitables, como las
anomalías congénitas y afecciones originadas en el período perinatal.
Sin embargo, todo parece indicar que en países con niveles muy bajos de mortalidad
infantil, como es el caso de Cuba, el hecho de incluir o no el menor de un año en el
cálculo de los AVPP, prácticamente no cambia los resultados.
120
A partir del número de años de vida potenciales perdidos calculados por cualquiera
de los procedimientos ya señalados, se impone, para poder realizar el análisis de la
mortalidad prematura el cálculo de algunas medidas de resumen o indicadores, de la
misma manera que se realiza en el análisis de la mortalidad.
A manera de ejemplo:
Porcentaje de años de vida perdidos según estándar (AVPES) por causas. Cuba
1999
AVPES
Causa No. %
AVPES AVPES
Más de la mitad de los años de vida perdidos para Cuba en 1999, fueron debidos a
enfermedades del corazón y tumores malignos.
121
Dentro de las cinco causas de defunción, los tumores malignos, los accidentes y las
enfermedades del corazón son las causas que más pérdidas biosociales aportan,
precisamente por su alta frecuencia en el adulto joven.
A partir del número de años perdidos se puede calcular una tasa, dividiendo este
número por el número de habitantes y multiplicándolo por 1000, 10000 ó 100000,
siendo más común el uso por mil habitantes.
Se puede calcular, al igual que en la mortalidad, tasas generales, por causas, sexos
y grupos de edad.
Tasas Tipificadas.
Al igual que las tasas de mortalidad, las tasas de muerte prematura pueden ser
estandarizadas, puesto que también son influenciadas por la estructura de edad de
122
Para poder comparar la mortalidad prematura de los tres estratos y evitar el sesgo
que puede introducir la diferencia en la estructura de población, se tipificaron las
tasas por el método directo.
Al igual que la REM, las defunciones esperadas, serian las defunciones que se
esperarían que ocurrieran en una determinada población, si estuviese sometida a los
niveles de mortalidad, a los riesgos de morir de la población en estudio.
Veamos un ejemplo:
Esta nueva agrupación de causa de muerte fue desarrollada por Taucher en el año
1978, en el Centro Latinoamericano de Demografía (CELADE). Los criterios de
evitabilidad se definieron de acuerdo con el conocimiento científico y los progresos
médicos alcanzados en ese momento.
Los criterios de evitabilidad de las causas de muerte pueden variar de acuerdo con el
momento histórico en que se trabaja, con la disponibilidad de tecnologías o recursos,
y con la experiencia de un determinado país o región.
Así, en el año 1988 Ríos y Tejeiro modifican la propuesta realizada por Taucher,
como parte de un trabajo sobre Perfiles de Salud y Evolución de la Mortalidad en
Cuba.
Tumores malignos, excepto el cáncer de piel, mama, cuello del útero y próstata,
esclerosis múltiple, otras enfermedades del sistema nervioso y de los órganos de
los sentidos, enfermedades cardiovasculares, enfermedades de las arterias,
arteriolas y vasos capilares, influenza y anomalías congénitas.
Para agrupar las causas de las defunciones bajo este criterio, se parte de una
primera división de las muertes en evitables y no evitables y la formación de cuatro
grupos con las muertes evitables, según las diferentes medidas que se pueden
tomar para evitarlas.
Los criterios de prevención y educación sanitaria son aplicables a todos los grupos,
pues aún en las enfermedades denominadas inevitables o difícilmente evitables, el
control de factores de riesgo, el cambio de hábitos nocivos para la salud y otras
126
Para los menores de 28 días se proponen ocho grupos, cinco de ellos para las
muertes evitables:
Otras causas
Como parte de un estudio realizado en la Facultad de Salud Pública, sobre
mortalidad infantil, se revisó y sometió a consideración del Grupo Nacional de
Pediatría y del Departamento Materno Infantil del Ministerio de Salud Pública, la lista
propuesta por Argentina a la cual se le realizaron algunas modificaciones para los
menores de 28 días para unos pocos rublos incluidos en los grupos: Reducibles por
tratamiento precoz y tratamiento oportuno, Otras reducibles y no evitables. La lista
detallada aparece en el Anexo 3.
2.5 La morbilidad
Existen diversas definiciones de morbilidad. Una, a nuestro juicio, de las mas
completas es la que considera la morbilidad como el conjunto de enfermedades,
traumatismos y sus secuelas, incapacidades y otras alteraciones de la salud
diagnosticadas o detectadas en la población durante un intervalo de tiempo
determinado.
En la planificación:
En la ejecución:
En la investigación:
En la docencia:
Fuentes de Información
Para obtener información sobre morbilidad rara vez resulta suficiente el uso de
una sola fuente de información, lo más usual es la consulta de mas de una de las
existentes. Por ejemplo las salidas del sistema de información de defunciones y
defunciones perinatales que informan sobre las causas de muerte, si bien aportan
conocimiento sobre morbilidad, es sobre la morbilidad más severa, la que termina
generalmente con un desenlace fatal. Algo similar ocurre cuando se utiliza como
fuente de información las salidas del sistema de egresos hospitalarios ya que se
accede a la morbilidad que requiere hospitalización, también por lo general mas
severa. Al consultar la fuente información que constituyen las salidas del sistema
de enfermedades de declaración obligatoria, conocemos también parcialmente la
131
Morbilidad general:
Mortalidad General
Diagnósticos de egresos hospitalarios
Diagnóstico de consultas ambulatorias
Exámenes masivos a la población
Enfermedades Transmisibles
Enfermedades Dispensarizadas
Otras sujetas a registros especiales (cáncer, tuberculosis)
Registros de enfermedades sujetas a pesquisaje.
Grupos de Edad:
Medición de la Morbilidad.
La medición de la morbilidad se realiza utilizando los indicadores de uso mas
frecuente en la actividad de las estadísticas continuas:
Números absolutos
Proporciones y porcentajes
Razones
Tasas
• Humanos.
• Medios de producción.
• Bienes Producidos.
• Equipos.
• Unidades de salud.
• Locales de consultas.
• Camas para ingresos.
• Sillones estomatológicos.
• Instituciones y locales para la formación de personal calificado de salud.
• Medios de transporte.
• Otros.
Para el análisis del costo beneficio de los servicios prestados con los recursos
existentes.
Números absolutos
Razones
Proporciones y porcentajes
Tasas
Ejemplo:
• Número de médicos.
• Médicos por habitantes.
• Camas por médicos.
Este grupo de indicadores tiene como propósito expresar el uso que de los
recursos se hace.
Ejemplos:
134
Dotación normal de camas: Son las camas que dispone el hospital en un periodo
de tiempo.
Cama real: Es aquella cama que se encuentra realmente instalada y dispuesta las
24 horas del día para recibir una persona, este ocupada o no. Se excluyen las
camas de Cuerpo de Guardia, trabajo de parto, cuartos de emergencia o cuidados
especiales, observación, reconocimiento, banco de sangre, investigaciones
radiológicas o endoscopias, intervenciones menores, recién nacidos normales y
las camas del personal que reside en el hospital.
Egreso: Paciente que habiendo ocupado una cama real del hospital la abandona
ya sea vivo o fallecido.
135
Día Cama: Es la disponibilidad de una cama real por 24 horas del día.
Existe más de una fórmula para el cálculo de cada uno de estos indicadores según
si se trata de unidades o servicios de corta o larga estadía. A continuación
aparecen las más utilizadas.
Días pacientes PE X IR
IO = IO =
Días cama Promedio de camas reales x días del período
Introducción
Si su único propósito como investigador, es describir los resultados de un
experimento concreto, los métodos analizados en el curso anterior, sobre
Estadística Descriptiva, pueden considerarse suficientes. No obstante, si lo que
pretende es utilizar la información obtenida para extraer conclusiones generales,
sobre la población de la cual fue seleccionada la muestra estudiada, entonces
estos métodos constituyen sólo el principio del análisis, y debe recurrir a métodos
de inferencia estadística, los cuales implican el uso inteligente de la teoría de la
probabilidad.
Comenzaremos este tema interpretando la noción de probabilidad y la
terminología subyacente a esta área de las matemáticas, ya que la probabilidad
constituye por sí misma un concepto básico que refleja su relación con la faceta
del mundo exterior que pretende estudiar: los fenómenos aleatorios, los cuales
obedecen unas ciertas reglas de comportamiento. De alguna manera, el concepto
de probabilidad, se relaciona o nos recuerda las propiedades de la frecuencia
relativa.
Nos centraremos posteriormente, en el eslabón que une la teoría de la
probabilidad y la estadística aplicada: la noción de variable aleatoria, mostrando
de esta manera, como puede emplearse la teoría de la probabilidad para sacar
conclusiones precisas acerca de una población sobre la base de una muestra
extraída de ella, y que muchos de los estudios estadísticos son de hecho, estudios
de las propiedades de una o más variables aleatorias.
Tal como hemos citado anteriormente, en las aplicaciones prácticas es importante
poder describir los rasgos principales de una distribución, es decir, caracterizar los
resultados del experimento aleatorio mediante unos parámetros. Llegamos así al
estudio de las características asociadas a una variable aleatoria introduciendo los
conceptos de valor esperado y varianza, relacionándolos con los conceptos de
media y varianza de una variable estadística.
El cálculo de probabilidades nos suministra las reglas para el estudio de los
experimentos aleatorios o de azar, constituyendo la base para la estadística
inductiva o inferencial.
No pretendemos atiborrarlo de fórmulas de cálculo, tampoco pasarnos todo el
tema realizando ejercicios sobre urnas con bolas rojas y blancas, nuestro interés
140
m
P(A) =
N
¿Por qué a priori?, Ya que no necesita ser realizado el experimento para conocer
la probabilidad de ocurrencia de los resultados posibles.
Observe que los sucesos elementales son sucesos aleatorios compuestos por un
sólo elemento, es decir, solo un resultado posible. Por supuesto los sucesos
aleatorios son más generales que los elementales, ya que son conjuntos que
pueden contener no a uno sólo, sino a una infinidad de sucesos elementales, e
incluso no contener ninguno.
Dos o más sucesos son llamados mutuamente excluyentes, si la ocurrencia de
cualquiera de ellos excluye la ocurrencia del(os) otro(s), es decir, no pueden
ocurrir simultáneamente. Así tenemos que los sucesos elementales son
mutuamente excluyentes, mientras que los sucesos aleatorios pueden en
ocasiones no serlo, lo que significa que algunos de sus elementos coinciden.
Ilustremos estos conceptos con un ejemplo simple.
Ejemplo 1
Si realizamos el experimento aleatorio de lanzar un dado al aire, tenemos los
siguientes resultados posibles: E = {1, 2, 3, 4, 5, 6}
El conjunto E es el espacio muestral de este experimento y cada uno de sus
elementos son sucesos elementales. Ahora, las preguntas ¿el resultado será un
número par?, ¿Un múltiplo de tres? o ¿un número mayor que dos?, definen,
respectivamente, los siguientes subconjuntos (sucesos aleatorios) del espacio
muestral E: A = {2, 4, 6} B = {3, 6} C = {3, 4, 5, 6}
Observe que todos los elementos de E son mutuamente excluyentes, pues si sale
el 1 no puede simultáneamente salir otro valor, mientras que los sucesos
aleatorios mencionados no son mutuamente excluyentes, si por ejemplo sale el
número 6, habrán ocurrido los tres sucesos simultáneamente: A, B y C. Esto no es
así siempre, por ejemplo, un suceso D es definido por la pregunta ¿el resultado
será un múltiplo de 5?, tendrá los siguientes elementos: D = {5}
Como verá, A y D son mutuamente excluyentes, al igual que B y D, no sucediendo
así con C y D.
A continuación veremos como se realiza el cálculo de probabilidades en este
ejemplo, según la definición clásica.
En este caso N = 6 (las 6 caras del dado), y si el dado está perfectamente
balanceado, es decir, no está trucado, la probabilidad de ocurrencia de cada uno
1
de los resultados posibles será la misma para todos e igual a:
6
Esta es la probabilidad de ocurrencia de los sucesos elementales, veamos qué
sucede con los sucesos aleatorios. Pues muy simple, la probabilidad de
ocurrencia de cada uno de ellos está determinada por las probabilidades
individuales de sus elementos:
1 1 1 3 1
P(A) = + + = =
6 6 6 6 2
143
2 1 4 2 1
P(B) = = P(C) = = P(D) =
6 3 6 3 6
C = {1, 2} D = {1, 2, 3, 4, 6}
de cara, es decir, tiende a 0.5 (fíese que esta moneda está perfectamente
balanceada).
Una variable aleatoria (v.a) es toda función que atribuye un único número real a
cada suceso elemental del espacio muestral de un experimento aleatorio.
Esto puede aplicarse tanto si el resultado del experimento es una cantidad que
varía como si se trata de un resultado categórico.
Por lo tanto, una variable aleatoria será definida como una cantidad variable que
expresa el resultado de un experimento aleatorio.
Dicho de otro modo, se define una variable aleatoria haciendo corresponder a
cada uno de los sucesos aleatorios, un número real cualquiera, de modo que esta
transformación nos permita definir diferentes operaciones aritméticas con sus
elementos.
ESTAS VARIABLES SE DENOTAN CON LAS ÚLTIMAS LETRAS DEL ALFABETO, EN
MAYÚSCULAS (X, Y, Z).
Ejemplo 3
Si el experimento consiste en observar el sexo de un recién nacido, es posible que
nos interese determinar el número de varones que se obtienen de un total de 3
nacimientos.
El espacio muestral de este experimento estará formado por todas las formas
posibles en que pueden ocurrir 3 nacimientos en cuanto a sexo. Le explico mejor,
cada uno de los 3 nacimientos puede ser de 2 formas: hembra (H) o varón (V), por
lo tanto si queremos saber de cuántas formas pueden ocurrir los 3 nacimientos
tendríamos 8 posibilidades, 2 del primero, multiplicado por 2 del segundo,
multiplicado a su vez por 2 del tercer nacimiento: 2x2x2= 811.
Veamos claramente; los resultados pueden ser:
E = {VVV, HHH, VHH, VVH, HVV, HHV, HVH, VHV}
Como puede ver, resulta bastante complejo trabajar con este espacio muestral tal
como es, imagínese si aumentamos el número de nacimientos, sería el caos. Por
lo tanto será mucho más conveniente que el suceso “hembra" sea representado
por el 0 y el suceso “varón” por el 1, de esta forma se define una variable aleatoria
X como el número de varones, de la siguiente forma:
X = {0, 1, 2, 3}
Así pues hagamos corresponder el espacio muestral anterior con los valores de X:
0⇒ HHH
1⇒ VHH, HVH
2⇒ VVH, VHV y HVV
3⇒ VVV
MÁS ADELANTE RETOMAREMOS ESTE EJEMPLO.
11
Esto es de teoría combinatoria, que no creo necesario abundar mucho, si lo desea
puede consultar la bibliografía citada al final del tema.
148
Variable aleatoria discreta: Es aquella que sólo puede tomar un número finito o
numerable de valores. Por ejemplo, el sexo de un recién nacido.
Número de Frecuencia
P(X=x)
personas absoluta
1 1 0.02
2 4 0.08
3 6 0.12
4 5 0.10
5 9 0.18
6 10 0.20
7 7 0.14
8 4 0.08
9 2 0.04
10 2 0.04
50 1.00
Para que se comprenda mejor, considere los datos presentados en la tabla 1.3.3 y
la figura 1.3.3
Ejemplo 5
La talla de un recién nacido acostumbra a tener valores entre 47 y 53 cm., pero
no todas estas tallas son igualmente probables, como bien se sabe, lo habitual son
tallas próximas a los 50 cm. Lo cual se puede observar tanto en la distribución de
frecuencias de la tabla 1.3.3 como en el histograma de la figura 1.3.3, alrededor
del 60% de los niños se sitúan entre 49 y 51 cm de talla.
Tabla 1.3.3 – Distribución de frecuencias de la talla de 100 recién nacidos.
Talla Frecuencia Frecuencia Frecuencia
(cm) absoluta relativa acumulada
46 1 0.01 0.01
47 6 0.06 0.07
48 10 0.10 0.17
49 18 0.18 0.35
50 25 0.25 0.60
51 23 0.23 0.83
52 10 0.10 0.93
53 7 0.07 1.00
Total 100 1.00
153
X ~ B (n, p)
X ~B (3, ½)
A su vez X = {0, 1, 2, 3} y su valor esperado y varianza serán:
E(X) = 3∗½ = 3/2 = 1.5 V(X) = 3/2∗1/2= ¾=0.75
Esto es absurdo, pues es imposible que nazca un varón y medio, pero se debe
tener en cuenta que esta es una operación matemática con un número
fraccionario (probabilidad), por lo que un resultado como éste no es nada raro,
entonces utilice el sentido común y realice la aproximación correspondiente.
Este ejemplo es poco ilustrativo dado el pequeño número de repeticiones,
aumentemos los nacimientos a 100, ahora el valor esperado será
aproximadamente de 50 varones por cada 100 nacimientos.
También pueden calcularse las probabilidades de que ocurran k nacimientos
varones, P(X=k), lo cual nos puede servir en la práctica, para planificar algún
servicio en particular que se relacione con el sexo.
Estos cálculos se realizan mediante una fórmula matemática no muy compleja,
pero escapa del alcance de este texto. Por otro lado, existen valores de
probabilidad tabulados para diferentes valores de n y p, que podrá encontrar en la
bibliografía citada al final del tema, con explicaciones sencillas de cómo usarlas.
De esta forma:
Una variable que se distribuye Poisson se define como el número de veces que
ocurre un evento en un intervalo de tiempo o en un espacio dado. Se denota como:
X ∼ P (λ)
normal. Además, la ley normal tiene gran interés en estadística inferencial, pues
sirve como modelo para describir la distribución muestral de las medias, como
veremos en los temas siguientes. También, muchos de los estadígrafos
empleados en los contrastes de hipótesis, que trataremos en temas posteriores,
siguen esta distribución, a la vez que muchos de los tests estadísticos que
veremos, dan por supuesto que los datos provienen de una distribución normal.
La distribución normal está definida como la función de distribución de
probabilidad de una variable X, cuya representación gráfica se muestra en la figura
1.6.1, y se denota por:
X ∼ N (µ, σ2 )
Donde:
µ es la media aritmética o valor esperado
σ2 es la varianza
estándar o típica, que se caracteriza por tener media cero y varianza uno, figura
1.6.4. Ésta se denota por:
X ∼ N (0, 1)
Los valores de probabilidad para esta distribución se encuentran tabulados, y a
partir de ella se pueden obtener los valores correspondientes a cualquier otra
distribución normal, mediante la estandarización. La tabla A del Apéndice, es una
muestra de estas tablas.
( )
X ~ N µ, σ 2 ⇒ Z =
X −µ
σ
~ N (0, 1)
14
Si utiliza otra tabla puede ser diferente, esto depende del área que esté
tabulada, si la izquierda o la derecha. A la vez que domina una, entiende
cualquiera.
164
Por ahora, baste que conozca que existen tablas con los valores de los percentiles
de esta distribución, para diferentes magnitudes de n. La tabla C del Apéndice es
un ejemplo de éstas. Como puede ver están representados los valores de algunos
percentiles15 de χ2 para diferentes grados de libertad. Por ejemplo, el percentil 95
de la χ2 con 12 gl = 21.0
La distribución t de Student.
Este modelo teórico, al igual que la Ji cuadrado, se deriva del modelo normal, pero
es un proceso algo complejo. Se denota por la letra t minúscula, y su forma
gráfica se representa en la figura 1.7.2.
15
Los más frecuentemente usados para pruebas de hipótesis.
169
Bibliografía
1. Armitage P, Berry G. Statistical Methods in Medical Research. 3rd ed.
Oxford: Blackwell Scientific Publications, 1994
2. Altman DG. Practical statistics for medical research. London: Chapman
and Hall. 1992
3. Daniel WW. Bioestadística. Base para el análisis de las ciencias de la
salud. 3ra edición. México. D. F: Limusa; 1997
4. Norman GR, Streiner DL. Bioestadística. España: Hartcourt Brace; 1998
5. Spiegel MR. Teoría y problemas de Estadística. La Habana: Pueblo y
educación; 1977
6. Doménech Massons, JM. Métodos estadísticos en ciencias de la salud.
Unidad didáctica 3. Barcelona: Signo; 1995
7. Swinscow, TVD. Statistics at square one. 9th edition. BMJ publishing
group; 1997
8. Dawson-Saunders B, Trapp R G. Bioestadística. 2da ed. El manual
moderno. México; 1999.
9. Mtnez Canalejo H. Principios Básicos de la Teoría de Probabilidades.
Ed. Pueblo y Educación. La Habana; 1989
10. Armitage P, Berry G. Estadística para la Investigación Biomédica.
Doyma, Barcelona, 1992.
11. Hamilton LC. Modern Data Analysis. Brooks/Cole Publishing Company,
Pacific Grove, 1990.
12. Martín Andrés A, Luna Del Castillo JD. Bioestadística para las Ciencias
de la Salud. Norma, Granada, 1994.
13. Marascuilo LA, Serlin RC. Statistical Methods for the Social and
Behavioral Sciences. W.H. Freeman and Company, Nueva York, 1988.
14. Versión electrónica del manual de la Universidad de Málaga.
Bioestadística: métodos y aplicaciones. Málaga; 1998.
170
El investigador solo estudia una de las posibles muestras que pueden obtenerse
de la población objeto de estudio. Y en cada una de éstas, la variable de interés
puede presentar diferentes valores simplemente por azar. Las técnicas
estadísticas se basan en el hecho de que esta variabilidad propia del muestreo,
sigue unas leyes conocidas, por lo que puede ser cuantificada.
Dentro de este contexto, será necesario asumir un estimador como una variable
aleatoria con una determinada distribución, que se expresa en función de la
muestra estudiada, con el objetivo de aproximar el valor de un parámetro
poblacional desconocido; y que será la pieza clave en las dos amplias categorías
de la inferencia estadística: la estimación y el contraste o prueba de hipótesis.
En este punto cabe señalar que todos los procedimientos de estadística inferencial
se basan en el supuesto de muestreo simple aleatorio, sin importar que se haya
empleado otro método de selección, lo que se considera por algunos como una
deficiencia de esta rama de la estadística, y en estos momentos se encuentra en
proceso de discusión y análisis por los grandes estadísticos. Dejemos que ellos se
ocupen de ese problema y sigamos nosotros con nuestro tema.
Pues bien, dado que se trata de muestras elegidas al azar, lo más frecuente es
que los valores promedio observados (proporción p y media x ) sean valores
cercanos a los verdaderos parámetros de la población (proporción π y media µ).
No obstante, el error aleatorio propio del muestreo produce algunas muestras con
valores de p y x alejadas de π y µ respectivamente.
Note que a los valores muestrales de la variable se les denota por letras romanas
mientras que a los parámetros poblacionales con letras griegas, esto evita
confusiones y favorece la comprensión de los conceptos que se definirán más
adelante.
Término
Muestra Población
estadístico
Media x µ (mu)
Proporción p π (pi)
Desviación
s σ (sigma)
estándar
Diferencia D δ (delta)
Esperamos que sirva de guía y no haya confusión a lo largo del tema, a partir de
ahora emplearemos esta nomenclatura.
173
µ, σ )
2
x∼ N (
n
E (x) = µ
2. Su varianza es igual a:
σ2
Var ( x ) =
n
3. El error estándar de la media muestral viene dado por:
σ2 σ
EE x = =
n n
4. Su representación gráfica se muestra a continuación en la figura 4.1.1.
Es importante señalar que la media muestral sigue una distribución normal cuando
la distribución de la variable en la población sigue una ley normal, y cuando el
tamaño de muestra n es grande aunque la distribución de la variable en la
población no siga una ley normal. Esto se debe al teorema central del límite, que
explica las leyes de los errores causales, según la cual, cuando el error asociado a
un determinado fenómeno es el resultado de muchos errores independientes, se
observa que la distribución de ese error es parecida a la ley normal. Esta ley fue
descubierta por De Moivre.
Al llegar a este punto surge una pregunta lógica. ¿Cuán grande debe ser la
muestra para que el teorema central del límite sea aplicable? Una regla empírica
establece que, en la mayoría de las situaciones prácticas, una muestra de tamaño
30 es suficiente.
Esta distribución sigue una ley Binomial con las siguientes características:
π(1 − π )
EEp =
n
( x1 − x 2 ) y ( p1 - p2 ) respectivamente.
Ahora bien, estas diferencias bajo el supuesto de muestreo sucesivo del mismo
tamaño16, de cada población, se comportarán como variables aleatorias que
siguen una distribución de probabilidades conocida.
En el caso de las medias, sigue una distribución normal con media igual a la
diferencia entre ellas a escala poblacional (µ1 - µ2) y varianza igual a la suma de
las varianzas de cada media:
⎛ ⎞
( x1 − x 2 ) ∼ N⎜⎜ (µ1 − µ 2 ), ⎛⎜⎜ σn1 + σn 2 ⎞⎟⎟ ⎟⎟
2 2
⎝ ⎝ 1 2 ⎠⎠
⎛ ⎛ π (1− π ) π (1− π ) ⎞ ⎞
(p1 – p2) ∼N ⎜⎜(π1 − π2 ),⎜⎜ 1 1 + 2 2 ⎟⎟⎟⎟
⎜ n1 n2 ⎟
⎝ ⎝ ⎠⎠
Entre las características deseables para esta nueva variable aleatoria (que
usaremos para estimar el parámetro desconocido) tenemos las siguientes:
Veremos que es posible calcular dos tipos de estimaciones para cada uno de
estos parámetros: una estimación puntual y una estimación por intervalos.
Ahora bien, es muy importante considerar aquí algo que vimos en el tema anterior,
y es la diferencia que existe entre población objeto y población muestreada. La
población objeto es la que realmente se desea estudiar, mientras que la
muestreada es de la que se extrajo la muestra, no siempre ambas coinciden,
desafortunadamente. Los procedimientos de inferencia estadística permiten inferir
respecto a la población muestreada (siempre y cuando se hayan empleado
técnicas de muestreo correctas). Por lo que esto debe ser tenido muy en cuenta a
la hora de hacer las estimaciones.
En ambos casos la estimación puntual es del 60% (punto medio del intervalo), sin
embargo en la población A la estimación es mucho más precisa que en la B donde
la proporción de fumadores es un valor del amplio rango que va desde un 23.5%
hasta un 96 %. Si nos hubiéramos referido solamente a la estimación puntual
podíamos haber pensado que en ambas poblaciones la prevalencia de fumar es
similar. El IC nos ofrece además de la estimación puntual, información acerca de
la precisión con que hicimos nuestra estimación.
Evidentemente esta técnica no tiene por qué dar siempre un resultado correcto. A
la probabilidad de que hayamos acertado al decir que el parámetro estaba
contenido en dicho intervalo se la denomina nivel de confianza.
σ
EE x =
n
Y que el error de muestreo e se define, en este caso, como:
180
σ
e = Zα 2
n
De aquí que el IC para µ esté dado por:
σ
x ±e ⇒ x ± Zα 2
n
Donde Zα/2 es el valor de la distribución normal estándar que se corresponde con
un área a su izquierda igual a α/2, es decir, el valor de Z para el que se cumple que:
-Z α/2 = Z 1 - α/2
Por ejemplo, para un valor de α igual a 0.05 (5%), α/2 = 0.025, significa que el área
bajo la curva normal a la izquierda de Zα/2 y a la derecha de Z1-α/2 es igual a 0.025.
Si buscas en la tabla A del Apéndice podrás ver que a este valor de probabilidad
le corresponde un valor de Z = -1.96 y 1.96 respectivamente, es decir los
percentiles 2.5 y 97.5 de la distribución normal estándar. Veamos el gráfico de la
figura 2.3.2.
17
Los percentiles son aquellos valores de la variable que dividen a una serie
ordenada de datos(en este caso la distribución) en 100 partes iguales, existiendo
entonces 99 percentiles.
181
De forma similar puedes calcular los percentiles para otros valores de alfa, te
adelanto que para α = 0.01, el valor correspondiente de Z es 2.58 (percentil 99.5).
x-µ
Z=
σ/ n
utilizado para estandarizar la distribución de las medias muestrales, sigue una
distribución normal, incluso en el caso de que no se conozca la varianza
poblacional σ2, siempre que el tamaño muestral sea grande, en estos casos se
sustituye el valor de σ2 por el de la varianza muestral s2.
s
x ± e ⇒ x ± t (1 - α / 2)
n
Como se ve, la diferencia radica en el uso de s sustituyendo a σ, y en lugar del
percentil 1- α / 2 de la normal estándar usamos el mismo percentil pero de la
distribución t de Student con n-1 grados de libertad. Veamos un ejemplo.
182
Ejemplo 4.3.1
x =∑
xi 9.58
= = 0.958
n 10
∑ (Xi − x )
2
2
s = = 0.02131
n
Por lo tanto el error estándar de la media es:
s 0.146
EE x = = = 0.0462
n 10
Calculemos el error de muestreo, con una confiabilidad del 95%, teniendo en
cuenta que se trata de una muestra pequeña y no conocemos la varianza
poblacional:
0.1045
* 100 = 10.91%
0.958
183
Se obtuvo esta precisión relativamente buena con tan pequeño tamaño muestral,
porque la variabilidad de las observaciones es pequeña. Veamos otro ejemplo.
Ejemplo 4.3.2
σ 45
EE x = = = 1.3416
n 25
El IC al 95 % para µ será:
2.63
∗ 100 = 11.95 ≈ 12 %
22
σ 12 σ 22
( X1 − X2) ± Z 1-α/2 +
n1 n2
s12 s 22
( X1 − X 2) ± t 1-α/2 + caso en que se suponen varianzas diferentes.
n1 n2
s 2p s 2p
( X1 − X 2) ± t 1-α/2 + caso que se suponen varianzas iguales
n1 n2
s 2p =
(n1 − 1)s12 + (n2 − 1)s 22
n1 + n 2 − 2
Ejemplo 4.3.4
12
p=
= 0.096
125
Calculemos ahora un IC al 95% para la proporción poblacional de afecciones
pulmonares.
0.096(1 − 0.096)
p ± e = 0.096 ± 1.96 ∗ = 0.096 ± 0.0516
125
(0.0444 ; 0.1476)
0.0516
* 100 = 53.75 %
0.096
Como puede ver la amplitud del intervalo parece pequeña, sin embargo el error
relativo es mayor que el 50 % de la estimación.
p1 (1 − p1 ) p 2 (1 − p 2 )
(p1 – p2) ± Z 1−α / 2 +
n1 n2
Por ejemplo, en un estudio sobre prevalencia de hábitos tóxicos se obtuvo que las
proporciones (P1 y P2) de fumadores de dos áreas de salud son: 0.23 y 0.15
respectivamente, para una diferencia de 0.08. A continuación construiremos un IC
187
al 95% para dicha diferencia, si sabemos que los tamaños de muestra (n1 y n2)
fueron de 350 y 475 sujetos, respectivamente.
Entonces podemos concluir, con una confiabilidad del 95%, que la diferencia entre
las proporciones de fumadores de dichas áreas se encuentra en el intervalo
calculado.
Una hipótesis, se define simplemente como una proposición acerca de una o más
poblaciones. En general las hipótesis se refieren a los parámetros de las
poblaciones para las cuales se hace la proposición. Por medio de las pruebas de
hipótesis se determina si tales proposiciones son compatibles o no con los datos
disponibles.
19
Modificado de Daniel 1997
20
Se refiere al tipo de variables.
189
Aunque la teoría para las condiciones 1 y 2 se basa en que la población sigue una
distribución normal, en la práctica es común aplicar este proceder aún cuando la
población sólo está distribuida aproximadamente normal. Esto es satisfactorio
siempre que la desviación de la normalidad sea moderada.
22
Suele decirse que la población se distribuye normal, pero en realidad nos
referimos a la distribución de la variable en la población. Así aparece en todos los
textos.
193
Ho: µ = µ0
H1: µ ≠ µ0
Estadígrafo de prueba:
x − µ0
Z=
σ
n
P(Zo ≤ Z α / 2) = α / 2
P(Zo ≥ Z 1-α / 2) = α / 2
Recuerda que Z α / 2 = - Z 1- α / 2
|Zo| > Z 1- α / 2
194
Así pues, se rechaza la hipótesis nula, cuando uno de los estadísticos Z o x toma
un valor en la zona sombreada de sus gráficas respectivas.
195
Figura 2.4.3 - Regiones de aceptación y rechazo para el test unilateral contrario al anterior.
Ho: µ = µ0
H1: µ ≠ µ0
196
Si H0 es cierta implica:
x − µ0
To = ∼ t n - 1 gl
s
n
P(To ≤ t n - 1, α / 2) = α / 2
P(To ≥ t n - 1, 1 - α / 2) = α / 2
t n - 1, α / 2 = -t n - 1,1 - α / 2
P(t n - 1, α/2 ≤ To ≤ t n - 1, 1 - α / 2) = 1 - α
o sea
C = (To < - t n - 1, α / 2 ó To > t n - 1, 1 - α / 2 )
De forma similar al caso anterior, para dar una forma homogénea a todos los
contrastes de hipótesis es costumbre denominar al valor del estadístico del
contraste calculado sobre la muestra como valor observado y a los extremos de la
región crítica, como valores teóricos, en este caso Tt. Definiendo entonces:
Tt = t n – 1 , 1 - α / 2
Figura 2.4.4 - Región crítica para el contraste bilateral de una media con varianza
desconocida.
197
Si realizamos el contraste
Ho: µ = µ0
H1: µ < µ0
Tt = t n - 1, α
Figura 2.4.5 - Región crítica para uno de los contrastes unilaterales de una media con varianza
desconocida.
Figura 2.4.6 - Región crítica para el contraste unilateral de una media contrario al anterior.
Varianza desconocida.
198
x = 170cm y s = 10cm
Solución:
Ho: µ = 174 cm
H1: µ ≠ 174 cm
170 − 174 − 4
To = = = −2 ∼ t 24 gl
10 2
25
23
Revisa la tabla B del Apéndice.
199
Figura 2.4.7 – Región de rechazo de la hipótesis nula: µ = 174, del ejemplo 2.4.1
Ejemplo 4.4.2
Solución:
24
Revisar la tabla B del Apéndice.
200
To = -2 < Tt = -1.71
Por ello hemos de rechazar la hipótesis nula y por tanto, aceptar la alternativa
(véase la figura 2.4.8).
Podemos observar en el gráfico, que el valor To está en la región crítica, por tanto
existe una evidencia significativa en contra de H0, y a favor de H1.
Observaciones
Es necesario que aclaremos algunos aspectos antes de concluir, los cuales serán
válidos para el resto de la sección.
p < α ⇒ se rechazará Ho
Este valor lo puede obtener de las tablas de las distribuciones teóricas del
estadígrafo, pero los programas estadísticos de computación suelen darlo con
exactitud.
4. Elección del test25: Como estudiamos, se pueden probar las mismas hipótesis
empleando diferentes estadígrafos: prueba Z y prueba t, la escogencia de uno
25
El término test es un anglicismo comúnmente empleado en la literatura
consultada, por lo que decidimos utilizarlo en este contexto.
202
Hemos tratado de ser explícitos y a la vez de no complicar mucho las cosas para
facilitar la comprensión del contenido, aún así se puede notar que no es un tema
sencillo. Lo explicado hasta el momento se puede aplicar a otras pruebas de
hipótesis que veremos a continuación.
1. Muestras pareadas
2. Muestras independientes
1- Muestras pareadas.
Se dice que dos muestras están pareadas si la probabilidad de que la variable en
estudio tome un valor en el iésimo sujeto de la muestra 2, depende del valor del
iésimo sujeto de la muestra 1. Te aclaro, el objetivo de seleccionar muestras
pareadas es eliminar al máximo las fuentes de variación por medio de la formación
de parejas similares con respecto a tantas variables como sea posible, pero nunca
respecto a la variable de estudio. Así se pueden formar muestras pareadas de
diferentes formas, por ejemplo, todos los estudios donde se compara
observaciones de una variable en dos o más momentos diferentes sobre los
mismos individuos, cada medición constituye una muestra y el interés está en la
diferencia antes – después. También, en los estudios de casos y testigos suelen
formarse parejas del mismo sexo o grupos de edades, etc.
En estos casos, en lugar de llevarse a cabo el análisis con las observaciones
individuales, se puede utilizar como variable de interés la diferencia entre los pares
individuales de observaciones. Las hipótesis se enuncian generalmente de la
siguiente forma:
Ho: µ1= µ2 ⇒ µ1 - µ2 = 0
H1: µ1 ≠ µ2
26
El cumplimiento de los supuestos puede verificarse mediante la realización de
pruebas estadísticas, o sencillamente darlos por sentado.
203
Estadígrafo de prueba:
d − µd
t=
sd
n
Puntaje de
Diferencia
Pte. ansiedad
M P d=M-P
1 19 22 -3
2 11 18 -7
3 14 17 -3
4 17 19 -2
5 23 22 1
6 11 12 -1
7 15 14 1
8 19 11 8
9 11 19 -8
10 8 7 1
27
Este es un ejemplo didáctico, en la práctica puede ser abordado por una prueba
no paramétrica
204
d=
∑ di =
− 13
= −1.3 S2 =
∑ (d i − d ) 2 =
186.1
= 20.68
n 10 n −1 9
d − µ 0 − 1. 3 − 0 − 1. 3
To = = = = −0.9
s 4.55 1.439
n 10
Por lo tanto no se puede rechazar Ho, podemos concluir que no existen evidencias
que hagan pensar que el medicamento sea efectivo para disminuir la ansiedad a
pesar de que las diferencias parecen favorecer al medicamento.
Observaciones:
2- Muestras independientes
x1 − x 2
Z= se distribuye normal estándar
σ 12 σ 22
+
n1 n2
x1 − x 2 ( n1 − 1)s12 + ( n2 − 1)s 22
a) T= donde s2 =
⎛ 1 1 ⎞ ( n1 − 1) + ( n2 − 1)
s 2 ⎜⎜ + ⎟⎟
⎝ n1 n2 ⎠
x1 − x 2
b) d=
s12 2
+ s2
n1 n2
En cada caso la regla de decisión puede enunciarse a partir de la tabla 2.4.1, solo
tiene que adecuarlo a la distribución específica de cada estadígrafo.
Ho: π1 = π2 ⇒ π1 - π2 = 0
H1: π1 ≠ π2
p1 − p 2 a1 + a 2
Z= donde p =
⎛ 1 1 ⎞ n1 + n2
pq⎜⎜ + ⎟⎟
⎝ n1 n2 ⎠
207
Está de más que decir que este estadígrafo se distribuye normal estándar.
Muestra
Número de pares
1 2
A A A
A No A B
No A A C
No A No A d
Muestra 2
Muestra 1 Total
A No A
A a b a+b
No A c d c+d
Total a+c b+d N
a+b a+c
p1 = p2 =
n n
208
Ho: π1 = π2 ⇒ π1 - π2 =0
H1: π1 ≠ π2
b − 1 / 2(b + c )
Z=
1/ 2 b + c
(| b − c | −1) 2
χ2= se distribuye χ2 con 1 grado de libertad.
b+c
Observaciones:
Bibliografía:
1. Bayarre Vea H, Oliva Pérez M. Métodos y Técnicas aplicados a la
Investigación en Atención Primaria de Salud. Parte II. La Habana: Finlay;
2001.
2. Bayarre Vea H, Oliva Pérez M, Horsford Saing R, Ranero Aparicio V, Coutin
Marie G, Díaz Llanes G et al. Libro de Texto de Metodología de la
Investigación. Maestrías para profesionales de la Atención Primaria de Salud.
La Habana, 2004.
210
Apéndice
Tabla A – Áreas de la distribución normal estándar.
Z Área Z Área
0.0 0.5000 2.0 0.02275
0.1 0.4602 2.1 0.01786
0.2 0.4207 2.2 0.01390
0.3 0.3821 2.3 0.01072
0.4 0.3446 2.4 0.00820
0.5 0.3085 2.5 0.00621
0.6 0.2743 2.6 0.00466
0.7 0.2420 2.7 0.00347
0.8 0.2119 2.8 0.00256
0.9 0.1841 2.9 0.00187
1.0 0.1587 3.0 0.00135
1.1 0.1657 3.1 0.00097
1.2 0.1151 3.2 0.00069
1.3 0.0968 3.3 0.00048
1.4 0.0808 3.4 0.00034
1.5 0.0668 3.5 0.00023
1.6 0.0548 3.6 0.00016
1.7 0.0446 3.7 0.00011
1.8 0.0359 3.8 0.00007
1.9 0.0287 3.9 0.00005
2.0 0.02275 4.0 0.00003
211
Por ejemplo, para realizar las seis comparaciones con la prueba t por separado, si
usamos un nivel de significación α = 0.05 para cada una de ellas, la probabilidad
de no rechazar la hipótesis nula sería 0.95 en cada caso. Al ser las pruebas
independientes entre sí, la probabilidad de no rechazar la hipótesis de no
diferencia en los seis casos, por Regla de Multiplicación para las Probabilidades,
se hallaría: (0.95) 6 = 0.7351. La probabilidad de rechazar al menos una hipótesis
de no diferencia sería entonces, 1 – 0.7351= 0.2649 lo que quiere decir que
cometeríamos error de tipo I en el 26% de los casos que procediéramos de este
modo.
213
Generalidades
Sí las medias varían mucho entre grupos, es decir, más de lo que los sujetos
pueden diferir al interior de los grupos, será más factible que exista diferencia real
entre ellos.
El término unilateral se refiere a que solo se investiga un factor. Este último consta
a su vez de k niveles, comúnmente llamados tratamientos. La respuesta
observada, valor de la variable aleatoria, (en el ejemplo es el valor del peso
corporal) corresponde a una población y estas poblaciones son los niveles ó
tratamientos que deseamos comparar.
En la práctica este tipo de análisis se utiliza para probar la hipótesis nula que
indica que tres ó más tratamientos son igualmente efectivos. Entonces el
experimento requiere que se asignen los individuos a los tratamientos de un modo
totalmente aleatorio. Por esta razón se le llama este diseño completamente
aleatorizado. Útil cuando las unidades que reciben tratamiento son homogéneas,
de manera que la única diferencia que se presente se deba al efecto de
tratamientos diferentes.
214
Desde luego, antes de comenzar los cálculos del ANOVA debe comprobar el
cumplimiento de los supuestos. Más adelante haremos referencia dicha
comprobación.
En la práctica es difícil encontrar todas las suposiciones satisfechas, siendo a
veces necesario hacer transformaciones a los datos, lo que debe tener en cuenta
sobretodo al informar los resultados. De todas formas, existe un procedimiento no
paramétrico alternativa del ANOVA que se puede utilizar cuando se no se cumplen
los supuestos paramétricos.
Grupos ó tratamientos
1 2 3 .......... K
x11 x12 x13 .......... x1k
x21 x22 x23 .......... x2k
x31 x32 x33 .......... x3k
Observaciones . . . .......... .
. . . .......... .
. . . ........... .
xn1 xn2 xn3 .......... xn4
Total T.1 T.2 T.3 .......... T.k T..
_ _ _ _ _
Media x .1 x.2 x .3 .......... x.k x ..
Siendo:
nj
T. j = ∑ x i j →Suma de las observaciones en el grupo j ó total por
i =1
columna j ó total de observaciones bajo el j-ésimo tratamiento
_ T. j
x. j = → Media del grupo ó tratamiento j ó media por columna j.
nj
k k nj
T. . = ∑ T. j = ∑ ∑ x i j → Gran Total
j =1 j =1i =1
k
N = ∑nj →Número total de observaciones
j =1
_ T. .
x .. = →Promedio total o gran media
N
216
Esta variación entre grupos que representa la cantidad por la cual la media del
grupo difiere de la gran media se conoce como efecto de tratamiento.
Como:
µj - µ = Tj ó efecto del tratamiento j y
xij - µj = eij ó error
(xij - µ) = Tj + eij
Hablamos de un modelo de efecto fijo cuando se observan todos los niveles del
factor sobre los que se desea inferir. Mientras que un modelo de efectos
aleatorios es aquel en el que existe una población de niveles del factor y solo se
observan resultados en algunos niveles seleccionados aleatoriamente,
pretendiéndose extender las conclusiones a todos los niveles.
Donde:
Hasta ahora hemos comentado que es un modelo de ANOVA de una vía con
efecto fijo, pero que intenta probar este:
Podemos probar la hipótesis nula de que todas las medias del tratamiento ó la
población completa son iguales contra la alternativa de que al menos un par
difieren.
Hipótesis:
Ho: µ 1 = µ 2 = µ 3 =.......µk
H1: al menos un par difieren
Si por el contrario, la Ho es falsa, esto puede deberse a dos razones, una, a que
alguna de las poblaciones tiene una media diferente del resto siendo las otras
iguales entre sí, ó porque todas son diferentes.
El método que indica cuál de estas hipótesis no debe ser rechazada, se basa en
las estimaciones de la varianza, siendo un paso central para estas, la suma de
cuadrados.
Suma de Cuadrados.
Para obtener esta suma, lo primero es llegar a la Suma total de Cuadrados (SC
total)
k nj _
SCtotal = ∑ ∑ ( xi j − x. . ) 2
j =1 i =1
nj
∑ indica que debes sumar las desviaciones al cuadrado para cada grupo de
i =1
k
tratamiento, una vez obtenidos estos totales para cada grupo, calcula ∑ , es
j =1
decir suma los k totales obtenidos.
k nj T 2 ..
SCtotal = ∑ ∑ xi j −
2
j =1 i =1 N
La SC total puede descomponerse en dos componentes a través de
procedimientos matemáticos, estos componentes son:
2
k T. j 2
SCentre = ∑ − T ..
j =1 nj N
k nj _
SCdentro = ∑ ∑ ( xi j − x. j ) 2 (Fórmula 6)
j =1 i =1
k nj k (T . j ) 2
SCdentro = ∑ ∑ xi j − ∑
2
j =1 i =1 j =1 nj
221
Una vez obtenida las sumas de cuadrados, podemos estimar la varianza real (σ2)
para cada componente.
Estimación de la varianza.
Cuando los supuestos para el ANOVA son satisfechos y las medias de las
poblaciones son iguales, tanto la suma de cuadrados entre grupos, como la suma
de cuadrados dentro de los grupos dan estimaciones insesgadas de la varianza
común σ2. Esta se obtiene al dividir cada una de estas sumas por sus respectivos
grados de libertad y se conoce como cuadrado medio.
k − −
n ∑ ( x . j − x..) 2
j =1
CMentre =
k −1
Para muestras de tamaños desiguales (Fórmula 10):
k − −
∑ n j ( x . j − x..)
2
j =1
CMentre =
k −1
k nj −
∑ ∑ ( xi j − x . j )
2
j =1i =1
CMdentro = k
∑ (n j − 1)
j =1
k k
∑ ( n j − 1) = ∑ n j − k = N − k
j =1 j =1
Relación de Varianzas.
CMentre
R.V . =
CMdentro
Como todo cociente, cuando denominador y numerador son iguales, la razón es
igual a 1, o sea ambas estimaciones son aproximadamente iguales, la R.V. será
casi igual a 1 y apoyará la hipótesis de igualdad de las medias poblacionales. Pero
si el CM entre es mayor que el CM dentro, la R.V. será mucho mayor que 1 y
hablará a favor de la hipótesis de diferencia entre las medias de los grupos.
223
Distribución F.
Por propiedad:
Sí: U ∼ χ2 (n gl)
V ∼ χ2 (m gl)
Entonces:
U
n ∼ F(n,m g.l)
V
m
Esta distribución F está relacionada con la distribución del estadígrafo:
Sx2
σ x2
, muy utilizado para resolver problemas de la estadística,
Sy2
σ y2
fundamentalmente el problema del análisis de la igualdad de varianzas de dos
poblaciones normales, mediante una dócima de hipótesis:
Sean X y Y dos variables aleatorias con distribución normal, con media y varianza
µx, µy, σ2x, σ2y, y suponiendo que se han obtenido dos muestras aleatorias e
independientes de tamaño nx y ny representadas de la forma:
Podemos obtener los estadígrafos (nx-1)Sx2 /σx2 y (ny-1)Sy2 /σy2 que tienen
distribuciones χ2 con (nx-1) y (ny-1) grados de libertad y además son
independientes.
(n x − 1) S x 2
(n x − 1) σ x 2
(n y − 1) S y 2
(n y − 1) σ y 2
Sx2 σ x2
Es decir tiene distribución F con grados de libertad (nx-1) y (ny-1)
Sy2 σ y2
Para llegar a una decisión es necesario comparar la R.V. con el valor crítico de F.
Este se obtiene a partir de la tabla A1 según sea el nivel de significación elegido y
los g.l del numerador y denominador.
Regla de decisión:
Si el resultado del cociente CM entre / CM dentro es mayor que el valor crítico para F
(1-α) k-1, N-k g.l, entonces se rechaza la hipótesis nula de que las varianzas
muestrales son estimadores de una varianza común. Ello implica rechazar la
hipótesis original acerca de la igualdad de las medias poblacionales. ¿Por qué?
1
Percentiles de la Distribución F de Fisher Snedecor.
225
Un valor grande de R.V. indica que el CM entre es mucho mayor que el CM dentro
y como el primero se basa en la dispersión de las medias muestrales respecto a la
gran media, esta dispersión será mayor, cuanto mayor sea la diferencia entre los
tamaños de las medias de las muestras. De esta forma podemos concluir que
existen evidencias suficientes para plantear que no todas las medias
poblacionales son iguales para el nivel de confiabilidad escogido.
k nj −
∑ ∑ ( xi j − x . j )
2
j =1i =1
Dentro de 2 SCdentro
k nj k T. j N-k
grupos
= ∑ ∑ xi j
2
−∑ N −k
j =1i =1 j =1 nj
k nj _
∑ ∑ ( xi j − x . . )
2
j =1i =1
Total 2
k nj T ..
2
− N-1
= ∑ ∑ xi j
j =1i =1 N
Ejemplo de Análisis de Varianza para el modelo de una vía con efectos fijos.
xij=µ +Tj+eij
Siendo:
Para T1 y T3 i = 1,2,3,4,5,6.
Para T2 i = 1,2,3,4,
j= 1,2,3
Hipótesis a docimar:
Utilicemos un α=0.05.
2
k T. j (68) 2 (25) 2 (82) 2
∑ = + + = 2016.4
j =1 nj 6 5 6
2
T .. (175) 2
= = 1801.5
N 17
SC entre =214.9
k nj
∑ ∑ xi j = 2295
2
j =1i =1
SC total =493.5
Una vez calculados la SC entre y la SC total, podemos aligerar los cálculos y por
diferencia calcular la SC dentro.
Despejando:
SC dentro = SC total – SC entre = 278.6
F0.95,2,14 = 3.74
R.V.=5.39
Como 5.39 > 3.74 Se rechaza la hipótesis nula.
Concluimos:
Existen suficientes evidencias para plantear que la media de reducción del peso
corporal difiere entre los tres tipos de tratamiento, o que los tres tratamientos no
son igualmente efectivos en la reducción del peso corporal con una confiabilidad
del 95%.
Observando las medias calculadas para cada tratamiento (Tto I = 11.3; Tto II = 5;
Tto III = 13.7) vemos que las diferencias más grandes están entre el segundo y
tercer tratamiento, seguido de la diferencia entre el primero y el segundo.
Pero para decidir realmente qué grupos producen la diferencia debemos realizar lo
que se conoce como Comparaciones de Medias A Priori y A Posteriori.
Comparaciones de Medias.
Sin embargo realizar todas las comparaciones posibles utilizando un nivel α para
cada test individual, produce como explicamos en los inicios de este tema, una
probabilidad de cometer error tipo I que resultará mayor que el nivel α
seleccionado.
Comparaciones a priori.
El interés radica en probar no todas las combinaciones posibles, sino aquellas que
previamente planeamos.
Prueba T de Bonferroni.
Hipótesis:
Ho: µi = µj
H1: µi ≠ µj
Siendo i ≠ j
− −
x . i − x . j ± t (1 − α 2m ; n − k ) (
1 1
+ )CMresidual
ni nj
Siendo:
α: nivel de significación prefijado
CM residual: CM dentro obtenido en la prueba de ANOVA
M: # de parejas a comparar
ni y nj representan el total de observaciones de los grupos i y j respectivamente.
230
Recuerde que las parejas que desea comparar deben ser seleccionadas antes de
obtener el ANOVA.
Comparaciones a Posteriori.
Las comparaciones a posteriori ó Post Hoc son aquellas que se realizan después
de inspeccionar los resultados de la prueba de ANOVA.
Existen diversas pruebas, entre ellas las pruebas de Tukey, Scheffé, Newman,
Keuls, etcétera. En este tema haremos referencia a las dos primeras.
Procedimiento:
CMresidual
DVS = qα , k , N −k
n
Siendo:
k: número de grupos
Esta fórmula sólo puede emplearse cuando las muestras tienen el mismo tamaño.
Para el caso de tamaños muestrales diferentes, se sustituye n por nj, siendo este
el número más pequeño de los tamaños de muestra asociados con las muestras
cuyas medias van a ser comparadas.
Fórmula 15:
CMresidual
DVS = qα , k , N −k
n j*
Regla de Decisión:
Prueba de Scheffé.
Los coeficientes que se otorgan a las medias se basan en las siguientes reglas:
− La suma de todos los coeficientes debe ser igual a cero.
− La suma de los coeficientes para una media ó combinación de medias debe
igualar la suma de coeficientes para la otra media ó combinación de medias,
pero con signo opuesto.
− El coeficiente de cualquier media no probada debe ser cero.
Ho: µ1+µ2-
(µ3+µ4)=0 1 1 -1 -1
H1: µ1+µ2-(µ3+µ4)≠0
Ho: 1/2µ3+1/2µ4 - µ2
=0
0 -1 1/2 1/2
H1: 1/2µ3+1/2µ4 - µ2
≠0
De forma general la hipótesis a probar con esta prueba puede simbolizarse como:
k
Ho: ∑aj µj = 0
j =1
233
Siendo:
aj: valor del coeficiente para la media del grupo j
µj: Media del grupo j
k _
( ∑ a j x j )2
j =1
k aj2
∑
j =1 nj
(k − 1)CMdentro
k
Este Estadígrafo se distribuye F(1-α) (k-1) ( ∑ n j − k ) g.l.
j =1
Regla de Decisión:
k
Sí el valor observado es mayor que el valor crítico para F(1-α) (k-1) ( ∑ n j − k ) g.l.
j =1
se rechaza la hipótesis nula.
Como en este caso se quieren comparar más niveles que los que se observan, el
modelo sufre un cambio y es denominado Modelo de Análisis de Varianza
Unidireccional con Efecto Aleatorio.
A diferencia del modelo con efecto fijo, las Tj ya no son constantes, sino variables
que dependen del nivel observado, nivel que ha sido seleccionado aleatoriamente
de un gran número de niveles. Ahora denotaremos a estas como αj, quedando el
modelo:
Donde:
αj: Suponemos son variables aleatorias con distribución normal e independiente
de los eij
αj ∼ N (0,σα2) para cualquier j=1,2,3,...k, e independientes
eij ∼ N (0,σ 2) para cualquier j=1,2,3,...k, i=1,2,,,,nj, e independientes
Ho: σα2 =0
H1: σα2 ≠0
Resumiendo:
La gran diferencia entre ambos modelos se centra en las hipótesis y en las
conclusiones finales, además de que el modelo aleatorio tiene la ventaja que se
pueden hacer generalizaciones.
Hipótesis:
Ho: σα2 =0
H1: σα2 ≠0
T1 T2 T3 T4
T.j 336,7 324.8 324.3 335.1
Nj 10 10 10 10
_
x. j 33.67 32.48 32.43 33.51
_
T.. =1320.9 N =40 x . . =33.02
2 2
k T. j T ..
∑ = 43632.44 = 43619.42
j =1 nj N
236
k nj 2
∑ ∑ x i j = 43847.73
j =1i =1
Con estos datos ya podemos obtener las sumas de cuadrados y completar la tabla
de Anova:
Conclusiones:
No hay suficientes evidencias para plantear que existen diferencias entre los
técnicos del hospital en la determinación de la sustancia z en sangre, con una
confiabilidad del 95%.
Dos importantes pruebas para ello son el test de Cochran y el Test de Bartlett.
Test de Cochran.
Esta prueba requiere que la variable objeto de estudio sea cuantitativa continua,
las poblaciones sean normales, las muestras y observaciones deben ser
aleatorias e independientes, además de que las muestras sean de igual tamaño.
Hipótesis:
Ho: σ12 = σ22 =.....σk2 j =1,2,3,....k
H1: la σj2 máxima es mayor que las demás.
2
S j máx ima
Co = k
∑ S j2
j =1
Siendo:
Regla de Decisión:
La tabla D del apéndice muestra los percentiles del Test de Cochran para C
(0.99,v,k)
Observación:
− Este test posee existencia propia, es decir su deducción es independiente de
todo tipo de consideraciones referidas al análisis de varianza.
238
Test de Bartlett.
Este test resulta un tanto más complejo en su cálculo que el anterior, aún así es el
más utilizado.
Requiere para su uso que la variable de estudio sea cuantitativa continua, las
poblaciones sean normales y las muestras y observaciones aleatorias e
independientes con tamaños muestrales n1, n2, .... nk ≥ 5
Hipótesis:
Ho: σ12 = σ22 =.....σk2 j=1,2,3,....k
H1: No todas las σj2 son iguales.
q
χ2 =
C
Siendo:
k
q = ( N − k ) ln S p 2 − ∑ ( n j − 1) ln S j 2 (Fórmula 19)
j =1
Donde:
k
∑ (n j − 1) S j 2
j =1
S p2 = (Fórmula 20)
N −k
1 ⎛ k −1 −1 ⎞
C =1+ ⎜ ∑ (n j − 1) − ( N − k ) ⎟ (Fórmula 21)
3(k − 1) ⎝ j =1 ⎠
Regla de Decisión:
Sí χ2 observado > χ2 (1-α, k-1) se rechaza la Hipótesis nula.
Observación:
− Cuando en la fórmula de ”q” se utilizan logaritmos de base 10, entonces el
estadígrafo será:
q
χ 2 = 2.3026
C
− Este test, al igual que el Cochran posee existencia propia.
− Esta prueba tiene el inconveniente de ser muy sensible a la normalidad, por lo
que no debe utilizarse cuando existen dudas al respecto. Sin embargo si se
está seguro del cumplimiento de dicho supuesto y se rechaza la hipótesis nula,
será mejor no emplear el ANOVA porque las varianzas serán muy diferentes.
− El nivel de significación que se emplee en esta prueba no tiene que ser el que
se utilice en el ANOVA, emplear un α pequeño (0.01 ó 0.001) permitirá si se
rechaza la Ho, obtener una fuerte evidencia de heterocelasticidad de grado
considerable.
− Pese a que dejamos la comprobación de supuestos para el final, en la práctica
primero se comprueban los supuestos, si es necesario se hacen las
transformaciones y posteriormente se realiza el ANOVA. Sin embargo es
importante que conozcas que existe una prueba denominada Kruskall Wallis,
alternativa del ANOVA, que permite comparar 3 ó más muestras sin requerir de
supuestos. Esta prueba forma parte de un conjunto denominado Técnicas No
Paramétricas, algunas de ellas, sus usos, ventajas y desventajas respecto a
las paramétricas las conocerás con profundidad en el tema 3 de este curso.
Así, podemos utilizar el Análisis de Varianza para comparar la respuesta a los tres
tratamientos, pero en lugar de usar un modelo unidireccional, podemos generalizar
y emplear lo que se conoce como ANOVA de dos vías ó diseño en bloques
completos aleatorizados. Este tipo de diseño se caracteriza por la formación de
bloques conformados por observaciones (llamadas unidades experimentales) que
son numéricamente iguales al número de tratamientos en estudio.
En este ejemplo, esos bloques pueden ser grupos de edad seleccionados por los
investigadores, se eligen tres pacientes de cada grupo de edad, porque tres son
los tipos de antibióticos a comparar y luego se le asignan al azar a cada paciente
de cada bloque, uno de los tres tipos de antibióticos, de forma que cada bloque
reciba los tres tratamientos.
De esta forma. este diseño incorpora al modelo además del efecto del tratamiento
y del residual, el efecto de los bloques y un efecto de interacción entre los grupos
y los bloques, que no siempre se presenta, pero es el primero que se debe probar.
Resumen
En este tema se estudió que:
Bibliografía:
Introducción
Ambas técnicas deben su origen al científico inglés Sir Francis Galton (1822-
1911). Él aclaró los conceptos de regresión en los informes de sus investigaciones
sobre la herencia, primero en los guisantes y posteriormente, en la estatura
humana. Describió una tendencia del hijo adulto, que tiene padres bajos o altos,
de regresar hacia la estatura promedio de la población general.
Se dice que dos variables están correlacionadas cuando los cambios de una de
ellas se acompañan de cambios en la otra variable en una misma unidad de
observación.
Para estudiar esta relación lo primero que se debe hacer (y que sin duda es de
mucho provecho) es graficar a través de un diagrama de dispersión tal relación.
Este grafico es llamado así porque lo que hace es mostrar la dispersión de los
pares de valores (xi,yi) .
a) Que aparezca una tendencia clara y definida, es decir, que la correlación entre las
variables resulte evidente. Este es un caso muy poco frecuente.
x
b) Que la correlación entre las variables no aparezca tan clara; si bien los datos,
aunque presentan una serie de fluctuaciones, manifiestan una tendencia
definida. Esta situación se presenta frecuentemente en la práctica.
x
245
x
En los casos a y b procede entonces calcular las medidas de correlación que
conoceremos a continuación. En el caso c no procede puesto que no existe
evidencia alguna de que la relación entre ambas variables pueda explicarse
mediante una línea recta.
Para medir la correlación lineal entre dos variables pueden utilizarse diferentes
medidas:
S xy = n ∑
i =1
( xi − x)( y − y )
i
Donde:
Sxy: Covarianza
x : es la media de las x
y : es la media de las y
Ejemplo:
x y Xy
0 0 0
1 1 1
2 4 8
3 5 9
Luego:
__
x =1
__
y = 53
s xy
=
1
[(0 − 5 / 3) + (1 − 5 / 3) + (8 − 5 / 3)] = 4 / 3
3
ρ=
s xy
σx.σy
donde:
Sxy: es la covarianza entre x e y
σx: desviación típica de x
σy: desviación típica de y
ρ sirve para medir la fuerza de la relación entre dos v.a , o sea, el grado en que
ambas están relacionadas linealmente, siendo las dos variables cuantitativas.
Propiedades:
− Acotado entre -1 y 1 (− 1 ≤ ρ ≥ 1)
− Los valores extremos señalan que existe dependencia lineal perfecta entre
ambas variables X e Y (-1 negativa perfecta y 1 positiva perfecta).
Esta medida parte del supuesto de que X e Y son v.a y que la distribución de
valores (x,y) es una distribución normal bidimensional o bivariada.
⎛ ⎞⎛ ⎞
n _ _
∑ ⎜ xi −
i =1 ⎝
x ⎟⎠⎜⎜ y i − y ⎟⎟
r= ⎝ ⎠
2
⎞ ⎛ ⎞
2
⎛
n _ _ n
∑⎜ xi − x ⎟ ∑⎜ yi − y ⎟
⎝
i =1
⎠ ⎝ ⎠ i =1
n
⎛ n ⎞⎛ n ⎞
∑x
i =1
i y i ⎜ ∑ x i ⎟⎜ ∑ y i ⎟ n
−
⎝ i =1 ⎠⎝ i =1 ⎠
r=
⎡n 2
⎤⎡ n 2 2
⎤
⎛ n
⎞ ⎛
⎢∑ x − ⎜ ∑ x ⎟ n ⎥ ⎢∑ y − ⎜ ∑ y ⎟ n ⎥
2
n
⎞
⎢ i =1 i ⎝ i =1 i ⎠ ⎥ ⎢ i =1 i ⎝ i =1 i ⎠ ⎥
⎣ ⎦⎣ ⎦
En la práctica esta última fórmula es de más fácil aplicación que la fórmula (4)
porque sólo requiere de la formulación de una tabla como la siguiente, donde
cómodamente se obtienen las sumas requeridas para el cálculo de r.
n n n n n
∑x
i=1
i ∑x
i=1
2
i ∑y
i=1
i ∑y
i=1
2
i ∑x y
i=1
i i
como medida descriptiva cuando Y es una v.a pero X es una variable de valores
fijos.
La siguiente tabla muestra las lecturas sistólicas obtenidas por ambos métodos:
13 180 168
Diagrama de dispersión
220
200
180
160
140
120
Y
y obtenemos:
r = 0.9546
Por tanto, hay una correlación de 0.95 entre los dos métodos de medir la presión
arterial sistólica.
Interpretación de r:
Por otra parte, puede darse el caso que a alguien se le ocurra analizar estadísticas
de Cuba en los últimos 10 años y encuentre una correlación fuerte entre el ritmo
anual de divorcio y el consumo de aspirina. ¿Cabe pensar en una relación entre
estas variables? Esto solo puede deberse a una coincidencia casual y se le
denomina correlación espuria.
Ah, y qué sucede con el signo, no importa que tenga un valor del
coeficiente de -0.95 ó uno de 0.95, la relación está entre fuerte y perfecta,
porque el signo solo nos dice la dirección de la relación. En este caso un
signo negativo indica que una variable aumenta a medida que la otra
disminuye o viceversa, y uno positivo que una variable aumenta conforme
la otra también lo haga ó disminuye si la otra también lo hace. Lo que si no
es posible obtener es un valor del coeficiente menor que –1 ó mayor que
1
Rose y col.,1974
253
+1. Si obtienes un resultado así, debes revisar los cálculos, porque alguno
está errado.
Existen una serie de situaciones en las cuales el uso del coeficiente de correlación
de Pearson no refleja adecuadamente la asociación entre dos variables2.
− Relación entre una parte y el todo; cambio relacionado con el valor inicial.
Supongamos que tenemos el peso de un grupo de sujetos en dos momentos,
antes de iniciar (P0) una dieta hipocalórica y al mes de comenzada (P1). Se
desea comprobar si la dieta es más efectiva en los sujetos que inicialmente
tenían mayor peso. Si se determina la relación entre el peso inicial P0 con la
variación de peso P0 - P1, siempre se encontrará una correlación alta porque la
variación del peso es una parte del peso inicial.
2
Modificado de Doménech Massons,1995.
3
La concordancia para variables categóricas se valora con el índice de kappa
254
Recuerdas de geometría elemental, que la ecuación para una línea recta está
dada por la siguiente ecuación:
Y = a + bX
255
Donde a indica el valor de Y para X=0, o sea, el punto en que la línea cruza el eje
de las Y, y b es la pendiente de la línea, o sea, el incremento de Y por cada
unidad que se incrementa X.
y=β0 + β1X
y = β0 + β1X + E (12)
donde:
5. Linealidad: Las medias de las poblaciones Y/X están situadas sobre una
línea recta, o sea, que los valores medios de Y que correspondan a varios
valores de X caigan sobre una línea recta.
µY/X = β0 + βX
mínima (pues se lograría que la suma de los errores de estimación para las
puntuaciones que se conocen sea mínima).
Aplicaciones del M. M. C.
Supongamos que poseemos n conjuntos de observaciones (X1,Y1),.. (Xn,Yn).
Entonces para la ecuación (12) podemos escribir:
y = β 0 + βXi + E
yn En
~
y2 E2 y=b0+bx
y3 E3
y1 E1
x1 x2 x3 xn x
258
Como se puede apreciar S no tiene máximo por lo que b0, b serán aquellos
valores que sustituidos en (13) hacen mínimos el valor de S.4
No pretendemos atiborrarle de fórmulas matemáticas complicadas, por lo que
mostramos a continuación las fórmulas de los estimados b y b0 de la muestra:
(fórmula 14)
n
∑X Y -
i =1
i
⎡ ( ∑ X i )( ∑Y i ) ⎤
i ⎢⎣ n ⎥
⎦
b= n
∑X 2 ( ∑X i )
2
i - n
i =1
Otra expresión que nos permite llegar a obtener b es la siguiente (fórmula 15)
∑( X
i =1
i - X )( Y i -Y )
b= n
∑( X
i =1
i - X )2
siendo:
x1 + ...+ xn ∑ xi y1 + ...+ y n ∑ y i
X= = Y= =
n n n n
4
El procedimiento para estimar β0 y β se basa en el cálculo diferencial. Se definen
derivadas parciales de las ecuaciones anteriores respecto a β0 y β, las dos
ecuaciones resultantes se igualan a cero para localizar los valores mínimos, estas
dos ecuaciones con dos desconocidos, β0 y β , se resuelven simultáneamente
para obtener las fórmulas para β0 y β .
259
b0 = Y - b X
∑ y i - b ∑ xi
b0 =
n
$
Y = Y + b(x - X ) (17)
RESUMEN
n
∑X Y - i
⎡ ( ∑ X i )( ∑Y i ) ⎤
i ⎢
⎣ n ⎥
⎦
SP xy
b= i=1
n
= (14)
∑ (∑X ) 2 SC x
X i2- n i
i=1
donde:
n
( ∑ xi )( ∑ y i )
SP xy = ∑( x - X )( y - Y )= ∑( x x )-
i=1
i i i i
n
n
( ∑ xi )2
SC x = ∑( x - X ) = ∑ x -
i=1
i
2 2
i
n
∑Y i -b ∑ X i
b0 =
n
0.5 10 2.25 18
0.75 8 2.50 17
1.00 12 2.75 20
1.25 12 3.00 18
1.50 14 3.25 20
1.75 12 3.50 21
2.00 16
442.25 - ⎡⎢ (26)(198) ⎤
⎥ 46.5
⎣ 13 ⎦
b= 676
= = 4.088
63.375 - 13
11.375
^
y Y = bo + bX
25
20
15
10
0
0 1 2 3 4
261
Una vez que se ha obtenido la ecuación de regresión, debe evaluarse para determinar
si describe adecuadamente la relación entre las dos variables (adecuado ajuste del
modelo a los datos) y si puede usarse de manera efectiva con fines de predicción y
estimación.
y
25-
∩
∩
(yi- Y ) Y =7.05+4.09x
20-
∩ _ _
(Y -Y ) (yi- Y )
_
Y
15-
10-
5-
Observe en el gráfico anterior varias llaves que señalan un punto. ¿qué significan?
_ _
simplemente sí mide la distancia vertical de un punto a la recta Y , o sea (yi- Y )
obtenemos la desviación total ó variación total de la variable Y. A su vez, podemos
262
descomponer esta desviación total en dos partes, una en la parte explicada ó prevista
∩ _
por la regresión, también llamada desviación explicada ( Y - Y ), y en otra no explicada ó
∩
residual (yi- Y ), es decir la parte que no se predice a partir de x.
Podemos obtener una medida del ajuste del modelo a los datos mediante un
cociente entre la variación explicada por la regresión y la variación total. Medida
conocida como coeficiente de determinación y que se simboliza como R2. Su
fórmula es la siguiente:
∑ (Yˆ - Y )2 SC DR
R2 = ∑ ( y i - Y )2
= SC T
siendo:
SCT: Suma de cuadrados total
SCDR: Suma de cuadrados debida a la regresión
2 2
n ⎛ ∩ −⎞ n ⎛ ∩
⎞
2
⎛ ⎞
∑ ⎜ yi −Y ⎟ = ∑ ⎜ yi −Y ⎟ + ∑ ⎜ yi − yi ⎟ − 2∑ ⎛⎜ yi − Y ⎞⎟⎛⎜ y i − yi ⎞⎟
n _ n ∩ _ ∩
i =1 ⎝ ⎠ i =1 ⎝ i =1 ⎝ ⎠⎝ ⎠
⎠ i =1 ⎝ ⎠
( ∑ y i )2
SC T = ∑( y i - Y ) = ∑ y i -
2 2
n
⎡ 2 ( ∑ xi )2 ⎤
SC DR = ∑(yˆ - Y )2
= b ⎢∑ xi -
2
⎥
⎣⎢ n ⎥⎦
SC AR = SC T - SC DR
→ E(Y) =
β0+βX
1. α: nivel de significación.
2. Hipótesis:
H0: β=0
H1: β=,/0
b_N( β , SCσ )
2
donde:
SC X = ∑( xi - X ) ⇒ representa la suma de cuadrados de X
2
SC XY = ∑( xi - X )( y i - Y ) ⇒ (suma de productos de X e Y)
265
Luego:
b-β
σ
_N(0,1) bajo H0
SC X
3. Estadígrafo de prueba:
b
Z= σ
_N(0,1)
SC X
b
t= sb
_ t [1- α
2
;n - 2g.l. ]
SC X
2 ∑ ( y i -Yˆ i ) 2
y donde S b = n - 2 que recibe el nombre de cuadrado medio
alrededor de la regresión o inexplicable por la regresión.
1. α: Nivel de significación.
2. Hipótesis:
H0: β=0
H1: β=,/0
∑( y i - Y )2 = ∑( y i - Yˆ i )+ ∑( Yˆ i - Y )
266
∑( y i - Yˆ i )2 : diferencia
que se produce alrededor de la regresión y se debe al azar.
∑( Yˆ i - Y ) : diferencia que se produce debido a la regresión y depende de X.
2
3. Estadígrafo de prueba:
CM DR
F= CM AR
_ F [1-α ;(1,n - 2 gl)]
Siendo:
CM DR: Cuadrado medio debido a la regresión.
CM AR: Cuadrado medio alrededor de la regresión.
CUADRADO F
FUENTE SUMA DE CUADRADO g.l
MEDIO CALCULADO
Debida a ⎛∩ _⎞
2
CM DR =
SC R
CM DR
1 F=
SC DR = ∑ ⎜ Yi −Y ⎟
1
regresión
⎝ ⎠ CM AR
2
∩
⎛ ⎞
Alrededor de SC AR = ∑ ⎜ yi −Yi ⎟ n-2 CM AR =
SC E
la regresión ⎝ ⎠ n-2
TOTA n-1
SC T = ∑( y i - Y )
2
L
Como puede ver los grados de libertad varían, ¿de donde salieron?
Así la SCT tiene n-1 g.l porque está formada por las n observaciones
independientes y por el valor de i estadístico, la media total y calculado con las
_
mismas n observaciones.
La SCDR tienen 2-1 grados de libertad, porque está formada por n observaciones
yi independientes que solo tienen 2 g.l porque están sobre una recta de regresión
267
y una recta queda definida por dos puntos, pero además interviene el valor de un
estadístico, la media total y , que está sobre la recta.
_
Por último la SCAR tiene n-2 g.l porque está formada por n valores yi
∩
independientes y por un conjunto de valores Yi = bo + b X i que tienen 2 g.l y han
sido obtenidos ajustando una recta, o sea calculando los dos coeficientes b y b0 de
las mismas n observaciones.
5. Observaciones:
α: Nivel de significación.
β10: Número conocido.
• Hipótesis:
dos colas una cola
H0: β=β10 H0: β ≤ β10 H0: β ≥ β10
• Estadígrafo de prueba
b - β 10
t= S 2B
_ t [1-α ;(n - 2 g.l.)]
donde:
b - β 10
t=
CM AR
SC X
268
2
2
S Y/X 2 ∑( yi -Yˆ )2
S b = ∑( - X )2 y S Y/X = n-2
xi
t obs > t [1-α ;(n- 2)] o t obs < - t [1-α ;(n- 2)]
Una vez determinado que es poco probable, sobre los datos muestrales, que β=0,
se puede desear realizar una estimación para intervalos de β.
1 - b ± Z ⎡⎢1- α2 ⎤⎥ σ
⎣ ⎦ SC X
E(Y) = β0 + βX
Recordar: Ŷ = b0 + bX
( X k - X )2
b0 + bX ± Z ⎡⎢⎣1- α2 ⎤⎥⎦ r 2 1oversmn + SC X
⎡ ⎛ _
⎞
2
⎤
⎢ ⎜ xi − x ⎟ ⎥
∩
Yi ± t ( n − 2) S YX 2 ⎢1 + ⎝ ⎠ ⎥
⎢n SC X ⎥
⎢ ⎥
⎢⎣ ⎥⎦
⎡ ⎛ _ ⎤
⎞
2
⎢ ⎜ xi − x ⎟ ⎥
∩
Yi ± t ( n − 2) S YX 2 ⎢1 + 1 + ⎝ ⎠⎥
⎢ n SC X ⎥
⎢ ⎥
⎣⎢ ⎦⎥
En este último como puede ver se agrega una unidad al término error estándar, lo
que hace que el intervalo sea mayor. Esto se debe a que para un valor dado de X,
habrá mayor variación en las calificaciones de personas que en la de grupos de
sujetos. Por otra parte, el tamaño del error estándar depende de qué tan próximo
_
este X de X , por lo que mientras más pequeña esa distancia, mejor será la
predicción, pero para valores de X muy alejados, la predicción de Y tendrá una
variabilidad considerable.
Observaciones:
Para aplicar cualquiera de estas dos técnicas, debe tener en los siguientes
aspectos:
Regresión Múltiple.
Aunque existen muchas situaciones en que se puede predecir una variable con
bastante exactitud, en la práctica médica nos encontramos muchas veces más de
una variable que pueden ser predictivas para una determinada Y.
271
El modelo de regresión lineal simple puede ser extendido a dos, tres, hasta n
variables independientes, quedando el modelo de regresión lineal múltiple de la
siguiente manera:
Y = b0 + b1 X 1 + b2 X 2 ⋅ ⋅ ⋅ ⋅ + bn X n
Por otra parte, puede que tenga un efecto las cajetillas fumadas en el embarazo
sobre el peso del recién nacido, pero ¿se puede atribuir ese efecto a al azar?
Para contestar a esta pregunta se realizan al igual que en la regresión simple,
pruebas de significación estadística para los coeficientes de regresión. Pueden
realizarse pruebas para determinar si el conjunto de variables son significativas, y
para cada variable por separado, utilizando los estadígrafos Fisher y t student
respectivamente
Generalidades.
Comencemos este epígrafe presentando la definición de Prueba No Paramétrica.
En realidad ninguno de estos términos describe con exactitud todas las pruebas
consideradas dentro de esta categoría, por lo que preferimos el de Métodos No
Paramétricos, término utilizado con mayor frecuencia.
Note que “”no paramétricos”” se aplica al método estadístico usado para el análisis
de los datos y no propiamente a los datos.
De esta forma puede obtenerse una muestra pareada cuando los mismos
individuos son estudiados más de una vez, en diferentes circunstancias ó cuando
se tienen grupos de individuos diferentes, pero cada individuo de un grupo tiene su
pareja en el otro grupo, es decir tienen una serie de características similares,
excepto la que está en estudio.
Comenzaremos con dos pruebas que a pesar de tener cada una sus
especificidades, son estudiadas juntas en la mayoría de los libros e incluso como
una única prueba.
Son utilizadas en el análisis tradicional de tablas de contingencia, es por ello que
iniciaremos el epígrafe refiriéndonos a estas últimas.
275
Si bien estas pruebas tienen muchos aspectos comunes difieren en: el tipo de
muestreo que generó la tabla de contingencia, el número de muestras, las
hipótesis que se someten a prueba y, obviamente, las conclusiones a que se
arriban con ellas.
Con relación a los métodos de muestreo que generan las Tablas de Contingencia
(TC), Fleiss ha señalado que: existen, esencialmente tres métodos de muestreo
que producen tablas de contingencia.
*Método III. En esencia es muy parecido a la primera variante del Método II, solo
que la asignación de los individuos a los grupos es aleatoria, tal como ocurre en
los ensayos clínicos controlados.
276
nƒ.
6
Es válido aclarar que si bien puede utilizarse la prueba para cualquier tipo de
variable, ella es preferiblemente para variable cualitativas nominales, en tanto
277
# de muestras 1
Tipo de muestras –
Tipo de variables Preferiblemente
nominal1
Hipótesis:
Estadígrafo de Prueba:
La construcción del estadígrafo de prueba reposa en el principio de la
comparación entre las frecuencias observadas en cada celda de la tabla de
contingencia a partir de un estudio concreto y las esperadas, es decir, las
frecuencias que deberían ocurrir en cada celda, si no existiera asociación entre las
variables en estudio; de la forma en que aparecen en la siguiente expresión
(fórmula 1):
ƒ c (n − eij )
2
χ = ∑∑
2 ij
i =1 j =1 eij
Donde:
nij: frecuencia observada en la celda i, j
eij: frecuencia esperada en la celda i, j
ni. n. j
siendo eij = , es decir el producto de los totales marginales de las celdas i, j
n..
divididos por el gran total.
El estadígrafo χ de Pearson sigue una distribución χ con (ƒ–1) (c–1) grados
2 2
Prueba de Homogeneidad.
# de muestras 2 o más, en
general ƒ
Tipo de muestras Independientes
Tipo de variables Preferiblemente
nominal.
Hipótesis:
H0: no difiere la distribución de las variables estudiadas en las "ƒ" poblaciones
subyacentes de las cuales se obtuvieron las muestras.
H1: difiere la distribución de las variables estudiadas en las "ƒ" poblaciones
subyacentes de las cuales se obtuvieron las muestras.
Estadígrafo de Prueba:
Ejemplo:
– Un grupo de investigadores desea probar la hipótesis siguiente: "La
aparición de la enfermedad de Alzheimer está asociada al sexo"; para
ello diseñan un estudio analítico de prevalencia en una muestra de 779
adultos mayores de Ciudad de La Habana durante 1999. Los resultados
se exponen en la tabla siguiente:
279
Uso:
# de muestras: 1 Prueba de
tipo de variable: cualitativa nominal dicotómica. Independencia
Hipótesis:
H0: Existe poblacionalmente independencia entre el sexo y la enfermedad de
Alzheimer.
H1: No existe poblacionalmente independencia entre el sexo y la enfermedad de
Alzheimer.
Estadígrafo de prueba:
ƒ c (n − eij )
2
χ = ∑∑
2 ij
i =1 j =1 eij
Para obtener el EP necesitas calcular los eij. La siguiente tabla presenta estos
valores.
Enfermedad de Alzheimer
Sexo
Presente Ausente
Masculino 15.1 278.9
Femenino 24.9 460.0
Sustituyendo en fórmula 1:
χ =
2 (7 − 15.1)
2
+
(287 − 278.9 )
2
+
(33 − 24.9 )
2
+
(452 − 460)
2
Regla de decisión:
7.35>3.84 ⇒ rechazo H0
280
Conclusión:
Hay evidencias suficientes para plantear asociación entre el sexo y la enfermedad
de Alzheimer al 95% de confiabilidad.
n (n n − n n )
2
χ = .. 11 22 12 21
2
χ2 = ≈ 7.35
294 x 485 x 40 x739
Como puede ver los resultados son idénticos a los obtenidos con la fórmula 1.
corrección, por el hecho de utilizar una distribución continua (Ji Cuadrado) para
representar la distribución muestral de variable(s) discreta(s), han surgido
opiniones a favor y en contra sobre este proceder, las cuales han trascendido
hasta nuestros días.
281
2
⎛ 1 ⎞
n.. ⎜ n11n22 − n12 n21 − n.. ⎟
χ2 = ⎝
2 ⎠
n1. n2. n.1n.2
ƒ
χ 2 = ∑∑
c (n ij − eij − 0.5 )
2
30
i =1 j =1 eij
2
⎛ 779 ⎞
779⎜ 7 x 452 − 287 x33 − ⎟
χ =
2 ⎝ 2 ⎠
≈ 6.47
294 x 485 x 40 x739
7
El efecto sobrecorrector de la corrección por continuidad de Yates en este
estadígrafo ha propiciado que el mismo se encuentre en desuso.
282
Bibliografía: