Sei sulla pagina 1di 207

Universidad de las Regiones

Autónomas de la Costa Caribe


Nicaragüense.
Uraccan las Minas.

BIOESTADÍSTICA

Carrera:
Ingeniería En Zootecnia

Modalidad:
Regular.

Documento Recopilado Y Adecuado Por:


Oscar Flores Pérez.

Autorizado por:
Secretaria académica, las minas.

Actualizado
Siuna, 2007.
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Presentación
Comenzar a entender la Estadística requiere un cambio de mentalidad, no difícil,
pero sí fundamental. Has de pasar de una mentalidad determinista a una
mentalidad probabilista. Normalmente, tendrás la idea (bastante natural, por
cierto), de que existe una relación de causa a efecto entre las cosas. Si tiras al
suelo agua (causa), el suelo se moja (efecto). Esto es algo determinista; si lo
haces un millón de veces, observarás una y otra vez el mismo resultado. No se
trata de algo probable, que unas veces ocurre y otras no.

La Estadística, en cambio, se basa precisamente en lo contrario; analiza cosas


que unas veces ocurren y otras no, es decir, fenómenos que implican cierta
incertidumbre, cierta probabilidad. En principio, parece que tales hechos deben ser
raros o, al menos, que en la vida cotidiana no te los vas a encontrar. Pero resulta
que la incertidumbre es algo tan común que casi pasa inadvertida. Por ejemplo, si
coges una regla y mandas a medir la longitud de una mesa a 10 amigos,
probablemente se obtengan varias medidas diferentes. ¿Cómo es posible, si se
trata de la misma mesa y de la misma regla? Simplemente las diferencias entre
personas en la forma de coger la regla, en cómo consideran el ajuste entre el
borde de la mesa y la escala de la regla, en su tendencia a redondear si la medida
de la mesa no se ajusta exactamente a una marca en la regla, etc., introducen
variación. Esto se conoce por error de medida.

Pero hay otras fuentes de variación que no dependen de la meticulosidad de una


medida ni de lo sofisticado del aparato utilizado. Imagínate que no se trata de
medir una mesa sino de determinar el peso de una especie cualquiera de ave,
recogida durante una sesión de anillamiento. Probablemente, si tus 10 amigos
realizan ese ejercicio se obtendran 10 pesos diferentes. A las diferencias entre
personas, en este caso, hay que añadir que, probablemente, cada uno ha
capturado y pesado individuos diferentes, que difieren en edad, sexo y condición
física, por no hablar de la constitución genética, etc. La variación es algo
omnipresente en la naturaleza, y esa es la fuente de incertidumbre, o sea, de
probabilidades. Uno puede tratar de describir esa variación con palabras (muchos,
pocos, grandes, pequeños, azules, amarillos,...). En algunos casos, eso es
suficiente. Pero no cuando uno pretende acercarse a los detalles de un fenómeno
natural. La Estadística permite describir esa variación en forma de números, lo
cual resulta mucho más conveniente.

Por tanto, el primer paso a dar para comprender la utilidad de la Estadística es


admitir que existe variación en la naturaleza e incertidumbre en cualquier conjunto
de observaciones; en resumen, adquirir una mentalidad probabilista. No es
casualidad que en Estadística se use el término "variable". Las tres aplicaciones
de la Estadística que se discuten en este documento tienen como objetivo, en el
fondo, tratar con esa variación.

2
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Bioestadística

PRESENTACIÓN.

El presente documento esta dirigido a estudiantes universitarios y profesionales de


las ciencias pecuarias y biológicas para que sirva de consulta acerca de la
metodología estadística aplicada a las ciencias biológicas.

Este documento requiere de una destreza razonable en álgebra para comprender


los conceptos y métodos que fundamentan los cálculos. Asimismo se debe hacer
énfasis en el aprendizaje basado en la comprensión intuitiva de los principios, y no
en la comprensión de conceptos matemáticos complejos.

En estos días de comunicación masiva y almacenamiento de información que se


han hecho posibles gracias a los adelantos técnicos, la habilidad para entender y
usar adecuadamente la información ha adquirido importancia creciente en todos
los campos de las ciencias.

No solo es importante saber usar apropiadamente la información disponible,


también es esencial saber como recopilar la información adecuada para tomar
decisiones si no se cuenta con tal información.

A pesar de la extensa gama de campos de aplicación y la diversidad de problemas


que se tratan, es posible analizar la naturaleza fundamental de los métodos
estadísticos. La estadística en su forma más sencilla, como se aplica a problemas
no sofisticados, trata con datos obtenidos al tomar muestras de alguna fuente y
con el uso que ha de darse a tal información para sacar ciertas conclusiones
acerca de dicha fuente.

Los métodos estadísticos se aplican generalmente a diverso campos, tales como


la agricultura, negocio, educación, ingeniería, gobierno, medicina, etc.; debe
existir, por tanto, una parte central de la teoría y métodos que sea aplicable a
todos esos campos.

Los objetivos de este documento son:

⇒ Enseñar al estudiante a organizar y procesar datos (estadística descriptiva),


⇒ Enseñarle como tomar decisiones a partir de un gran volumen de datos al
examinar solo una pequeña parte de ellos (Estadística inferencial).

Nota: el estudiante debe ser capaz de inferir los modelos ejemplificados en este documento
a ejercicios prácticos de su carrera o de su profesión. La inferencia de los modelos es lo
más importante y no copiarlos al pie de letras.

3
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

I. INTRODUCCIÓN A LA BIOESTADÍSTICA.
Objetivos de la unidad.

1. Conocer la importancia de la Estadística y su campo de aplicación.


2. Valorar desde el punto de vista histórico el surgimiento y la importancia de
la estadística.
3. Definir los conceptos básicos de Estadística.
4. Diferenciar los distintos tipos de variables según su naturaleza.
5. Comprender las técnicas de muestreos.
6. Establecer los criterios y normas mínimas que deben verificarse para
construir y presentar adecuadamente los gráficos en el ámbito de la
Estadística descriptiva.

¿Para qué sirve la estadística?

La Ciencia se ocupa en general de fenómenos observables

1. ¿Resumir y describir la información? Estadística descriptiva

Te permite organizar, resumir y describir la información recogida de modo que sea


fácilmente comprensible para tí y para los demás, mediante el uso de:

a) medidas de tendencia central: Media, Mediana, Moda,


b) medidas de dispersión: Desviación Típica, Rango, Coeficiente de Variación,
c) tablas,
d) representación gráfica.

2. ¿Comparar valores medios entre grupos de datos? Contraste de hipótesis

Te permite decidir si la variación entre grupos de datos es sistemática (debida a un


fenómeno biológico) o meramente “ruido” debido a la variación natural existente en
todo grupo de organismos, como se comentó al hablar de la mentalidad
probabilista. Esto se logra mediante el uso de test estadísticos. La elección del test
adecuado depende de:

a) el tipo de variables,
b) el número de muestras o tratamientos que se desea comparar,
c) el cumplimiento de los requisitos necesarios para cada test (tests
paramétricos y tests no paramétricos).

3. ¿Descubrir si hay relación entre dos variables? Medidas de asociación

Te permite descubrir la existencia, dirección y fuerza de la relación entre dos


variables, mediante:

4
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

a) correlación,
b) regresión,
c) tablas de contingencia.

Reconozco que ahora mismo todo esto parece misterioso, pero si sigues leyendo
verás que tiene bastante sentido. Aquí simplemente he introducido el tipo de
preguntas que la Estadística ayuda a resolver. El resto del documento trata con
más detalle cada una de estas tres utilidades e intenta dejar claro por qué son
interesantes e incluso necesarias cuando tienes que analizar tus datos. Pero antes
es conveniente dar una serie de definiciones. Voy a ello.

La Ciencia se desarrolla observando hechos, formulando leyes que los explican y


realizando experimentos para validar o rechazar dichas leyes.

Los modelos que crea la ciencia son de tipo determinista o aleatorio


(estocástico)

La Estadística se utiliza como tecnología al servicio de las ciencias donde la


variabilidad y la incertidumbre forman parte de su naturaleza

“La Bioestadística [...] enseña y ayuda a investigar en todas las áreas de las
Ciencias de la Vida donde la variabilidad no es la excepción sino la regla”
Carrasco de la Peña (1982)

1.1 Conceptos básicos.

Definición.

La Estadística es la Ciencia de la

Descriptiva: Sistematización, recolección, ordenación y presentación


de los datos referentes a un fenómeno que presenta variabilidad o
incertidumbre para su estudio metódico, con objeto de

Probabilidad: deducir las leyes que rigen esos fenómenos,

Inferencial: y poder de esa forma hacer previsiones sobre los mismos,


tomar decisiones u obtener conclusiones.

Resumiendo lo anterior se puede decir que la Estadística es la disciplina que


se ocupa de 1) recolección, organización y procesamiento de datos, y 2) la
obtención de inferencias a partir de un volumen de datos cuando se observa solo
una parte.

5
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Bioestadística. Cuando los datos que se analizan proceden de las ciencias


biológicas se prefiere el termino bioestadística para distinguir las herramientas y
conceptos de la estadística general.

1.2 Pasos en un estudio estadístico

Plantear hipótesis sobre una población.

Los fumadores tienen “más bajas” laborales que los no fumadores


¿En qué sentido? ¿Mayor número? ¿Tiempo medio?

Decidir qué datos recoger (diseño de experimentos)

Qué individuos pertenecerán al estudio (muestras)


Fumadores y no fumadores en edad laboral.

Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen


enfermedades crónicas?
No tenéis que
tenerlo aun
Qué datos recoger de los mismos (variables)

Número de bajas.
Tiempo de duración de cada baja.
¿Sexo? ¿Sector laboral? ¿Otros factores?

Recoger los datos (muestreo)

¿Estratificado? ¿Sistemáticamente?

Describir (resumir) los datos obtenidos

Tiempo medio de baja en fumadores y no fumadores (estadísticos)


% de bajas por fumadores y sexo (frecuencias), gráficos,...

Realizar una inferencia sobre la población

Los fumadores están de baja al menos 10 días/año más de media que los no
fumadores.

Cuantificar la confianza en la inferencia

…Nivel de confianza del 95%


…Significación del contraste: p =2%

6
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Unidad de estudio. Es cada elemento que va a ser estudiado. Lo más normal es


que se trate de individuos, pero no tiene por qué ser así. Si se estudian, por
ejemplo, las longitudes de los picos de las gaviotas, las unidades de estudio son
partes de un individuo. El estudio también puede centrarse en bandos, colonias,
nidadas, etc, que son grupos de individuos. También se denomina unidad de
muestreo.

Población y muestra

Población es el conjunto sobre el que estamos interesados en obtener


conclusiones (hacer inferencia). Es decir, conjunto de individuos o cosas que
tienen unas características comunes y a los que va referida toda investigación
estadística. Así que en Estadística puede hablarse de una "población de picos de
gaviota" o una "población de bandos" sin estar loco.

Normalmente es demasiado grande para poder abarcarlo.

Ejemplo, si se tiene interés en conocer el peso de los niños inscritos en el


sistema de educación primaria de la escuela Rafaela Herrera, la población
esta formada por todos esos pesos.

Los terneros de repastos de la finca las Azucenas, Siuna.

Las poblaciones pueden ser finitas o infinitas.

Si una población de valores consiste en un número fijo de esos valores, se dice


que la población es finita. Por ejemplo, el número de alumnos de un centro de
enseñanza, o grupo de clase.

Si, por otra parte, una población consiste de una sucesión infinita de valores,
entonces es una población infinita. Por ejemplo, si se realizase un estudio sobre
los productos que hay en el mercado. Hay tantos y de tantas calidades que esa
población podría considerarse infinita.

Muestra es un subconjunto suyo al que tenemos acceso y sobre el que realmente


hacemos las observaciones (mediciones), es decir, es una parte de la población

Debería ser “representativo”. Esta formado por miembros “seleccionados” de la


población (individuos, unidades experimentales).

Ejemplo.
Al suponer que una población de los pesos de todos los terneros menores
de un año de un sistema semi estabulado de la Hacienda La Esperanza y
se escoge para el análisis solo cierto número de los pesos, entonces, se
tiene prácticamente una parte de la población (de pesos), es decir, se tiene
una muestra

7
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Las vacas de razas Holstin del Municipio de Siuna.

Existen muchas clases de muestras que pueden escogerse de entre una


población y lo abordaremos mas adelante.

El objetivo final de la estadística no es otro que el de encontrar formas simples


mediante las cuales se pueda hacer descripciones o informaciones cuantitativas o
cuantitativas sobre una serie de datos. Pero por lo general, los datos se obtienen
solo de un grupo de población al que se denomina muestra y a partir de la cual se
generalizan los resultados.

¿Por qué se estudia generalmente solo una parte de la población y no toda la


población?

Razones: costo económico, tiempo, carácter destructivo (algunos casos), la


confiabilidad, accesibilidad (vida marina), validez, entre otras.

¿Qué grado de confianza podremos otorgar a estas deducciones?


La muestra debe ser representativa de la población.

La confianza dependerá del grado de precisión con que se haya construido la


muestra de que los métodos utilizados sean los adecuados y de que se hayan
aplicados correctamente.

Parámetro: Es una cantidad numérica calculada sobre una población

• La producción media en litros de leche de vaca de un país

La idea es resumir toda la información que hay en la Población en unos pocos


números (parámetros).

Estadístico: Es una cantidad numérica calculada sobre una muestra

⇒ La producción media en litros de las vacas Holstin de la Hacienda El


vaquero.

Somos una muestra (¿representativa?) de la población.

Si un estadístico se usa para aproximar un parámetro también se le suele llamar


estimador.

Normalmente nos interesa conocer un parámetro, pero por la dificultad que


conlleva estudiar a *TODA* la población, calculamos un estimador sobre una
muestra y “confiamos” en que sean próximos. Más adelante veremos como elegir
muestras para que el error sea “confiablemente” pequeño.

8
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Elementos: individuos o cosas que integran la población

Caracteres: rasgos, propiedades o cualidades que poseen los elementos de la


población sobre la que realizamos el estudio. Ej.: peso, altura, edad, color del
pelaje, raza...

Reales: número de cuarterones, animales, personas...


Abstractos: votos, temperatura, intervalos de tiempo.
Naturales: personas.
Artificiales: parcelas de tierra, número de potreros, regiones...

Variable es cualquier característica que ha sido medida, registrada o cuantificada


durante el estudio realizado, para cada una de las unidades de estudio incluidas
en la muestra.

Ejemplos: temperatura, sexo de las animales, especie, hábitat utilizado, número


de huevos.

Dato. Es cada uno de los registros o valores individuales que toma la variable
que se ha medido. Puede recibir otros nombres (caso, observación, medida).

Ejemplos: 5 ºC (temperatura), macho (sexo de las aves), Hirundo rustica (especie),


bosque (hábitat), 3 (número de huevos).

Variables

Si una variable es una característica observable que varía entre los diferentes
individuos de una población. La información que disponemos de cada individuo es
resumida en variables.

Ejemplo de variable son la presión sanguínea diastólica, frecuencia


cardiaca, peso de marranos, peso de erales.

Variable: Género
Modalidades:
H = macho
M = hembra

En los individuos de la población nicaragüense, de uno a otro es variable:

El grupo sanguíneo
{A, B, AB, O} Å Var. Cualitativa

Su nivel de felicidad “declarado”.


{Deprimido, Ni fu ni fa, Muy Feliz} Å Var. Ordinal

9
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

El número de cabezas de ganado.


{0,1, 2, 3,...} Å Var. Numérica discreta

Producción en litros de leche.


{1’6, 2; 1’74;...} Å Var. Numérica contínua

Tipos de variables.

Variable cuantitativa o Numéricas, son aquella que pueden medirse en forma


usual. Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas
con ellos)

Variable aleatoria discreta. Se caracteriza por interrupciones o


separaciones en la escala de valores que puede tomar. Estas separaciones
indican la ausencia de valores entre los distintos valores específicos que la
variable puede asumir, es decir toma valores enteros.

Número de terneros, Número de partos de una vaca, “Numero de “Cabezas


de bovino”

P. e. numero de cabezas de ganado, perdida o caída de dientes en niños


en la escuela primaria, etc.

Número de becerros (puede ser 1, 2, 3,.., etc., pero por ejemplo, nunca
podrá ser 3.45).

Variable aleatoria contínua una variable aleatoria continua puede tomar


cualquier valor dentro de un intervalo especificado de valores es decir, Si entre
dos valores, son posibles infinitos valores intermedios.

Las V. a. Continuas pueden tomar cualquier valor dentro de un intervalo. Por


ejemplo, el peso; puede ser 32 Kg., 32.625, 60, 40, 48.876 Kg.

Altura, Presión intraocular, Dosis de proteína suministrado en el


concentrado, edad

Ejemplo. Estatura, peso, etc. Sin importar cuan cerca estén los pesos de
dos animales, teóricamente siempre es posible encontrar otro animal cuyo
peso se encuentre entre las dos pesos de referencia.

P. e. mediciones de alzada de la cruz de terneros machos, peso de


marranos, número de cabezas de ganado, etc.

Variable cualitativa. Cualquier variable no expresable en forma de números, pero


que puede expresarse de un modo cualitativo en forma de categorías, aunque sin
establecer ninguna relación de orden entre ellas.

10
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Ejemplos: sexo, hábitat, color, diagnóstico medico, grupo étnico, etc.

Cualitativos o Atributos: Miden una cualidad y se representan por palabras.

Ej.: color de pelaje, sexo, razas, nacionalidad.... A cada uno de los posibles
valores de un atributo se le denomina modalidad.

Ej.: en el atributo color de ojos: negro, marrón, azul y verde, son las
distintas modalidades.

Nominales: Si sus valores no se pueden ordenar.


Sexo, Grupo Sanguíneo, Raza, Nacionalidad, vaquilla (Sí/No), el color del pelo,
origen de la raza, etc.

Ordinales: Aquella que no puede ser expresada en forma de números, pero que
puede ser ordenada o clasificada según su magnitud.

Ejemplos: escalas de abundancia, probabilidades de cría, mejoría a un


tratamiento, Grado de satisfacción, Intensidad del dolor, selección de especies, el
nivel de pisoteo en el suelo, etc.

Variable aleatoria. Se refiere a valores (observaciones o mediciones) que se


originan de factores aleatorios.

Es buena idea codificar las variables como números para poder procesarlas con
facilidad en un ordenador.

Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué
significan los códigos numéricos.

Sexo (Cualitativas: Códigos arbitrarios)


1 = Macho
2 = Hembra

Raza (Cualitativas: Códigos arbitrarios)


1 = Criolla
2 = Holstin,...
Felicidad Ordinal: Respetar un orden al codificar.
1 = Muy feliz
2 = Bastante feliz
3 = No demasiado feliz

Se pueden asignar códigos a respuestas especiales como


0 = No sabe
99 = No contesta...

11
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos


(‘missing data’)

Aunque se codifiquen como números, debemos recordar siempre el verdadero tipo


de las variables y su significado cuando vayamos a usar programas de cálculo
estadístico.

No todo está permitido con cualquier tipo de variable.

Los posibles valores de una variable suelen denominarse modalidades.

Las modalidades pueden agruparse en clases (intervalos)

Partos: Ninguno, de 2 a 3, más de 3 partos.


Hijos: Menos de 3 terneros, 3 o más.

Las modalidades/clases deben forman un sistema exhaustivo y excluyente.

Exhaustivo: No podemos olvidar ningún posible valor de la variable

Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)?


Bien: ¿Cuál es su grupo sanguíneo?

Excluyente: Nadie puede presentar dos valores simultáneos de la variable

Estudio sobre el ocio.

Mal: De los siguientes, qué le gusta: (deporte, cine)


Bien: Le gusta el deporte: (Sí, No)
Bien: Le gusta el cine: (Sí, No)
Mal: Cuántas vacas paridas tiene: (Ninguna, Menos de 5, Más de 2)

Ejercicios.

1. Describa dos poblaciones finitas y dos infinitas.


2. Definir dos poblaciones con sus respectivas muestras.
3. Describa dos variables continuas y dos variables discretas.
4. Describa dos variables ordinales y dos nominales.
5. Clasifique las Variables siguientes, o como v. contínua, o discreta, o atributo
u ordinal: 5 variables (longitud del pico, número de sondeos, número de
presas, sexo, nivel de marea).

Cómo redondear decimales.

Para redondear esos decimales de más que aparecen al usar la calculadora o el


ordenador, sólo hay que seguir unas reglas muy sencillas:

12
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

(1) si el último número después de la última cifra a considerar es igual o mayor


que 6, se suma 1 a la última cifra; por ejemplo 6,32654 se redondea a dos cifras
decimales como 6,33;

(2) si el último número después de la última cifra a considerar es menor que 5, se


deja la última cifra como está; por ejemplo 6,32654 se redondea a una cifra
decimal como 6,3;

(3) si el último número después de la última cifra a considerar es igual a 5, se


redondea la última cifra al número par más próximo; por ejemplo, 6,32654 se
redondea a tres cifras decimales como 6,326.

1.3 Muestreo.

En términos generales existen dos tipos de muestreo probabilístico y no


probabilístico. En este documento base abordaremos con mayor énfasis el
muestreo probabilístico, debido a que existen procedimientos estadísticos seguros
que permiten inferir a partir de la muestra extraída de la población de interés.

Definición.

Una muestra probabilística es una muestra extraída de una población de tal forma
que cada elemento tiene una probabilidad conocida de estar incluido en la
muestra.

Definición.

Una muestra de tamaño n, extraída de una población de tamaño N, se llama


muestra aleatoria simple, si cada muestra posible de tamaño n tiene la misma
probabilidad de ser seleccionada.

Por ejemplo, hemos mencionado que las poblaciones están formadas por
individuos, pero sería mejor denominarlas unidades de muestreo o unidades de
estudio: por ejemplo. Personas, células, familias, hospitales, países…

La población ideal que se pretende estudiar se denomina población objetivo.

⇒ No es fácil estudiarla por completo. Aproximamos mediante muestras que


den idealmente la misma probabilidad a cada individuo de ser elegido.
⇒ Tampoco es fácil elegir muestras de la población objetivo:
Si estudiamos las vacas paridas, excluimos a los que no lo están.
Si elegimos animales a orillas de vías de acceso, olvidamos los que están en las
vías de acceso...

13
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

El grupo que en realidad podemos estudiar (v.g. las vacas paridas) se denomina
población de estudio.

1.4 Técnicas de muestreo

Cuando elegimos individuo de una población de estudio para formar muestras


podemos encontrarnos en las siguientes situaciones:

™ Muestreos probabilistas.
• Conocemos la probabilidad de que un individuo sea elegido para la
muestra.
• Interesantes para usar estadística matemática con ellos.

™ Muestreos no probabilistas.

Muestreo no probabilísticos.

⇒ Dirigido o intencional. Consiste en seleccionar las unidades maestrales


según el juicio de los investigadores, dado que las unidades gozan de
representatividad.

⇒ Deliberado o convencional. Consiste en tomar una muestra por su


cómoda accesibilidad.

⇒ Por cuotas. Es una técnica corriente en las encuesta de opinión publica. El


investigador selecciona de acuerdo a si criterio un número determinado de
individuos u objetos (cuota) de cada uno de los sectores de la población.
P.e entrevistar a 25 señoras del mercado, 30 obreros, 20 estudiantes, etc.

⇒ Bola de nieve. Este es el nombre con que se describe la técnica de


recoger información en cascada. Se entrevista a algunos informantes
claves que a su vez sugieren a otros y así sucesivamente.

En las muestras no probabilísticas:


• No se conoce la probabilidad.
• Son muestreos que seguramente esconden sesgos.
• En principio no se pueden extrapolar los resultados a la población.

A pesar de ello una buena parte de los estudios que se publican usan esta técnica.
¡Buff!

En adelante vamos a tratar exclusivamente con muestreos con la menor


posibilidad de sesgo (probabilistas): aleatorio simple, sistemático, estratificado y
por grupos.

14
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

1.5 Fuentes de sesgo (parcialidad).

Las poblaciones objetivo y de estudio pueden diferir en cuanto a las variables que
estudiamos.

⇒ El nivel económico en la población de estudio es mayor que en la


objetivo,...
⇒ Los animales que se eligen a orillas de la vía pueden ser de mayor peso
(mayor frecuencia de adultos, p. e.)…

En este caso, diremos que las muestras que se elijan estarán sesgadas. Al tipo de
sesgo debido a diferencias sistemáticas entre población objetivo y población de
estudio se denomina sesgo de selección.

Hay otras fuentes de error/sesgo.

⇒ No respuesta a encuestas embarazosas.

Consumo de drogas, violencia doméstica, prácticas poco éticas,…

⇒ Mentir en las preguntas “delicadas”.

Para evitar este tipo de sesgo se utilizan la técnica de respuesta aleatorizada.

1.6 Técnicas de respuesta aleatorizada

Reducen la motivación para mentir (o no responder) a las encuestas. ¿Si digo la


verdad, se me verá el plumero…?

¿Cómo se hace?

Pídele que lance una moneda antes de responder y…


Si sale cara que diga la “opción comprometida” (no tiene por qué
avergonzarse, la culpa es de la moneda)

Si sale cruz que diga la verdad (no tiene por qué avergonzarse, el
encuestador no sabe si ha salido cara o cruz)

Aunque no podamos saber cuál es la verdad en cada individuo, podemos


hacernos una idea porcentual sobre la población, viendo en cuánto se alejan las
respuestas del 50%.

15
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

1.6.1 Muestreo aleatorio simple (m.a.s.)

Consideremos una población finita, de la que deseamos extraer una muestra.


Cuando el proceso de extracción es tal que garantiza a cada uno de los elementos
de la población la misma oportunidad de ser incluidos en dicha muestra,
denominamos al proceso de selección muestreo aleatorio.

El muestreo aleatorio se puede plantear bajo dos puntos de vista:

⇒ Sin reposición de los elementos;


⇒ Con reposición.

Muestreo aleatorio sin reposición

Consideremos una población E formada por N elementos. Si observamos un


elemento particular, e ∈ E, en un muestreo aleatorio sin reposición se da la
siguiente circunstancia:

⇒ La probabilidad de que e sea elegido en primer lugar es 1/N;


⇒ Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de
N−1/N, la probabilidad de que sea elegido en el segundo intento es de
1/N−1,
⇒ en el (i + 1) – ésimo intento, la población consta de N − i elementos, con lo
cual si e no ha sido seleccionado previamente, la probabilidad de que lo sea
en este momento es de 1/N−i .

Muestreo aleatorio con reposición

Sobre una población E de tamaño N podemos realizar extracciones de n


elementos, pero de modo que cada vez el elemento extraído es repuesto al total
de la población. De esta forma un elemento puede ser extraído varias veces.

El muestreo aleatorio con reposición es también denominado muestreo aleatorio


simple, y se caracteriza porque cada elemento de la población tiene la misma
probabilidad de ser elegido, y las observaciones se realizan con reemplazamiento.
De este modo, cada observación es realizada sobre la misma población (que no
disminuye con las extracciones sucesivas).

Se eligen individuos de la población de estudio, de manera que todos tienen la


misma probabilidad de aparecer, hasta alcanzar el tamaño muestral deseado.

Se puede realizar partiendo de listas de individuos de la población, y eligiendo


individuos aleatoriamente con un ordenador.

Normalmente tiene un coste bastante alto su aplicación.

16
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

En general, las técnicas de inferencia estadística suponen que la muestra ha sido


elegida usando m.a.s., aunque en realidad se use alguna de las que veremos a
continuación.

Fórmula para estimar el tamaño de la muestra para un muestreo aleatorio


simple.
Z 2 pqN
n=
Ne 2 + Z 2 pq

Donde Z = es el valor de la tabla de distribución normal según el nivel de


significancia elegido, p = q = 0.05 (probabilidad de éxito y fracaso respetivamente
y corresponde la máxima varianza), e = limite del error de muestro y N = tamaño
de la población o marco muestral.

n
fh = = ksh
N

fh = Factor que define la proporción muestral por cada estrato

1.6.2 Muestreo sistemático

Se tiene una lista de los individuos de la población de estudio. Si queremos una


muestra de un tamaño dado, elegimos individuos igualmente espaciados de la
lista, donde el primero ha sido elegido al azar.

Cuando los elementos de la población están ordenados en fichas o en una lista,


una manera de muestrear consiste en

Sea k = N/n;

⇒ Elegir aleatoriamente un número m, entre 1 y k;


⇒ Tomar como muestra los elementos de la lista:

{em, em+k, em+2k, . . . , em+(n−1)k}

Esto es lo que se denomina muestreo sistemático. Cuando el criterio de


ordenación de los elementos en la lista es tal que los elementos mas parecidos
tienden a estar más cercanos, el muestreo sistemático suele ser más preciso que
el aleatorio simple, ya que recorre la población de un modo más uniforme. Por otro
lado, es a menudo más fácil no cometer errores con un muestreo sistemático que
con este último.

El método tal como se ha definido anteriormente es sesgado si N/n no es entero,


ya que los últimos elementos de la lista nunca pueden ser escogidos. Un modo de

17
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

evitar este problema consiste en considerar la lista como si fuese circular (el
elemento N + 1 coincide con el primero) y:

⇒ Sea k el entero más cercano a N/n;


⇒ Se selecciona un número al azar m, entre 1 y N;
⇒ Se toma como muestra los elementos de la lista que consisten en ir
saltando de k elementos en k, a partir de m, teniendo en cuenta que la lista
es circular.

Se puede comprobar que con este método todos los elementos de la lista tienen la
misma probabilidad de selección.

CUIDADO: Si en la lista existen periodicidades, obtendremos una muestra


sesgada, es decir este muestreo es adecuado siempre y cuando en los elementos
de la población no exista una periodicidad que coincida con la ordenación de la
muestra.
Un caso real 1: Se eligió una de cada cinco casas para un estudio de salud
pública en una ciudad donde las casas se distribuyen en manzanas de
cinco casas. Salieron con mucha frecuencia las de las esquinas, que
reciben más sol, están mejor ventiladas,…

Caso 2. Suponga una población de la que se desea tomar una muestra del
5% por lo que tendremos que tomar a un animal de cada 20 para ello es
suficiente con seleccionar solo un anima entre los 20 primeros. Si al elegirlo
sale.

p. e. el correspondiente al numero 7, entonces la muestra la compondremos


con todos los sujetos a quienes los corresponda los siguientes: 7, 27, 47,
67, 87, 107, etc.

(7, 7+20, 7+20+20, 7+20+20+20, etc.)

1.6.3 Muestreo estratificado

Un muestreo aleatorio estratificado es aquel en el que se divide la población de N


individuos, en k sub poblaciones o estratos, atendiendo a criterios que puedan ser
importantes en el estudio, de tamaños respectivos N1, . . . , Nk,

N = N1 + N2 + · · · + Nk

y realizando en cada una de estas sub poblaciones muestreos aleatorios simples


de tamaño ni i = 1, . . . , k.

A continuación nos planteamos el problema de cuantos elementos de muestra se


han de elegir de cada uno de los estratos. Para ello tenemos fundamentalmente
dos técnicas: la asignación proporcional y la asignación óptima.

18
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Asignación proporcional

Sea n el número de individuos de la población total que forman parte de alguna


muestra:

n = n1 + n2 + · · · + nk

Cuando la asignación es proporcional el tamaño de la muestra de cada estrato es


proporcional al tamaño del estrato correspondiente con respecto a la población
total:

ni = n ·Ni/N

Asignación óptima

Cuando se realiza un muestreo estratificado, los tamaños muestrales en cada uno


de los estratos, ni, los elige quien hace el muestreo, y para ello puede basarse en
alguno de los siguientes criterios:

⇒ Elegir los ni de tal modo que se minimice la varianza del estimador, para un
coste especificado, o bien,
⇒ habiendo fijado la varianza que podemos admitir para el estimador,
minimizar el coste en la obtención de las muestras.

Así en un estrato dado, se tiende a tomar una muestra más grande cuando:

El estrato es más grande;


El estrato posee mayor variabilidad interna (varianza);
El muestreo es más barato en ese estrato.

En ocasiones puede ser conveniente e incluso necesario subdividir una población


heterogénea en subgrupos homogéneos y escoger dentro de cada subgrupo un
determinado número de casos elegidos al azar mediante un muestreo simple o
sistemático.

Se aplica cuando sabemos que hay ciertos factores (variables, sub poblaciones o
estratos) que pueden influir en el estudio y queremos asegurarnos de tener cierta
cantidad mínima de individuos de cada tipo:

Machos y Hembras,
Recién nacidos, jóvenes y adultos…

Se realiza entonces una m.a.s. de los individuos de cada uno de los estratos.

Al extrapolar los resultados a la población hay que tener en cuenta el tamaño


relativo del estrato con respecto al total de la población.

19
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

El método es adecuado cuando los grupos a estudiar están en realidad


verdaderamente estratificados.

Supongamos que tenemos una población de N unidades dividida en L estratos.


Sea Nh el numero de unidades de a población en el estrato h; y sea µh la media
L
de estrato y σ h su varianza. Entonces, N = ∑ N h . Se toma una muestra aleatoria
2

j =1

de tamaño nh en el estrato h-ésimo. Esto dará una muestra estrato – aleatoria de


L
tamaño n = ∑ nh para la población entera. Una estimación ponderada de la media
j =1

de población µ basada en esta estratificación es

L
Nh
X =∑ xh
h =1 N

Donde xh es la media de la muestra del estrato h, esta estimación es insesgada y


tiene la varianza dada por
2
⎛ N ⎞ ⎛σ h ⎞
L 2
V s ( X ) = ∑ ⎜ h ⎟ ⎜⎜ ⎟⎟
h =1 ⎝ N ⎠ ⎝ n h ⎠

⎛ ⎞
⎜ ⎟
N hσ
Estratificación optima. nh = n⎜ h ⎟
⎜ L ⎟


∑ (N
h =1
h σ h )⎟

Fórmula para estimar el tamaño de la muestra en un muestreo estratificado.

Donde, Ni = número de elementos por estrato, n = muestra total y D = B2/4 y B es


el límite del error de muestreo.

N =total de elementos que componen el marco muestral, nivel de confiabilidad =


95%, p = q = 0.5 y luego, n = tamaño de la muestra.

20
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

1.6.4 Muestreo por grupos o conglomerados

Si intentamos hacer un estudio sobre los habitantes de una ciudad, el muestreo


aleatorio simple puede resultar muy costoso, ya que estudiar una muestra de
tamaño n implica enviar a los encuestadores a n puntos distintos de la misma, de
modo que en cada uno de ellos sólo se realiza una entrevista.

En esta situación es más económico realizar el denominado muestreo por


conglomerados, que consiste en elegir aleatoriamente ciertos barrios dentro de la
ciudad, para después elegir calles y edificios. Una vez elegido el edificio, se
entrevista a todos los vecinos.

Se denomina conglomerados a la agrupación de varios elementos de la población


con arreglo o alguna condición o característica.

Podemos utilizar luego cada uno de estos conglomerados como una unidad
muestra. Para componer una muestra por conglomerados se selección
aleatoriamente cierto número de conglomerados y se investiga después a todos
los elementos que los componen.

Es condición previa que en cada conglomerado existan elementos de la población


de todas las clases (heterogéneo) y que los conglomerados sean entre si los mas
parecidos posibles (homogéneos).

Se aplica cuando es difícil tener una lista de todos los individuos que forman parte
de la población de estudio, pero sin embargo sabemos que se encuentran
agrupados naturalmente en grupos.

Se realiza eligiendo varios de esos grupos al azar, y ya elegidos algunos podemos


estudiar a todos los individuos de los grupos elegidos o bien seguir aplicando
dentro de ellos más muestreos por grupos, por estratos, aleatorios simples,…

Supongamos que se divide una población de M unidades en N conglomerados de


Mo unidades cada una. Sea X la variable estudiada en esta población y µ y σ su
media y desviación estándar. Además, denótese con Xij el valor observado de X
para el j – ésimo elemento de i – ésimo conglomerado.

Si se toma una muestra aleatoria de n conglomerados dentro de la población de N


conglomeraos se obtiene una estimación de µ dada la media global de todos los
elementos obtenidos que es
n Mo

∑ ∑
i =1 j =1
X ij
X =
nMo

21
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Por ejemplo. Para conocer la opinión de los médicos del sistema nacional
de salud, podemos elegir a varias municipios de Nicaragua, dentro de ellas
varias comarcas, y dentro de ellas varios centros de salud, y…

Al igual que en el muestreo estratificado, al extrapolar los resultados a la población


hay que tener en cuenta el tamaño relativo de unos grupos con respecto a otros.

Por ejemplo. Municipios con diferente población pueden tener


probabilidades diferentes de ser elegidas, comarcas, hospitales grandes
frente a pequeños,…

Nota: para mayor ampliación sobre este apartado, recomiendo leer más sobre
“Teorías de muestreo”

Escalas de Medición de Caracteres.

Objetivo: Obtener para cada posible observación de la variable o atributo un


número o palabra que la identifique.

Formas de Obtener nuestro Objetivo:

- Midiendo
- Mediante un sistema de evaluación
- Mediante la asignación de un rango a cada elemento

Tipos de Escala:

Escala Nominal: Escala en la cual la información sobre un determinado carácter


se puede clasificar en categorías no numéricas mutuamente excluyentes, entre las
cuales no se puede establecer ninguna relación de orden. Por ejemplo: las
profesiones laborales, la ideología política, el estado civil, el sexo, raza, etc.

Escala Ordinal: Escala en la cual la información sobre un determinado carácter se


puede clasificar en categorías no numéricas mutuamente excluyentes, entre las
cuales sí que se puede establecer alguna relación de orden. Por ejemplo: los
niveles de estudios (primarios, medios, superiores y otros). Terneros, erales,
novillos, etc.

Escala de Intervalos: Escala en que se establece de antemano algún tipo de


unidad de medida, pudiéndose cuantificar numéricamente la distancia existente
entre dos observaciones cualesquiera. Es una escala cuantitativa. Por ejemplo: los
volúmenes de ventas, producción de carne, los beneficios, etc.

Escala de Proporción: Es la razón de una parte respecto al todo. Escala de


intervalo en la que se ha fijado un punto de origen que marque un cero absoluto.
Por ejemplo: en una manada de 50 animales bovinos hay 17 machos, la

22
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

proporción es 17/50 o lo que es lo mismo el 34%, lo mismo puede suceder con las
variables; la edad, el número de unidades físicas de un stock, etc.

Formas de Observar la Población: Censos y Encuestas

Observación directa o indirecta

Observación directa: Implica observar el fenómeno y las condiciones que le


acompañan, unidad por unidad. Por ejemplo: el mandador que revisa a su hato y
cuenta los machos y hembras.

Observación indirecta: Cuando de unos datos estadísticos ya conocidos sobre


cierto hecho o fenómeno, deducimos datos relativos estadísticos relativos a otros.
Por ejemplo: deducir el número de zapatos que fabrica una empresa a partir del
número de clavos que utiliza para las suelas.

Observación continua, periódica o circunstancial

Ejemplo de observación continua: las compras, ventas y operaciones que se


registran a medida que se van produciendo, de un modo permanente. Ej. De
observación periódica: el inventario anual que realizan los comerciantes,
ganaderos. Ej. De observación circunstancial: la obtención de censos de
comercios.

Observación exhaustiva o parcial

Observación exhaustiva: Consiste en observar a todos y cada uno de los


elementos de la población que se pretende estudiar. Si estudiamos de forma
exhaustiva a la población decimos que estamos realizando un CENSO.

Observación parcial: Consiste en observar un subconjunto de la población que


se está analizando. 

Ejercicios.
1. Una agencia desea obtener una muestra de 200 adultos de cierta zona
residencial de la ciudad de Siuna. Se propone cumplir su objetivo extrayendo
una muestra aleatoria de 200 casas de familia de los que aparecen en una lista
de todas las casas del sector urbano y selecciona luego al azar un adulto de
cada casa. ¿Por qué se lograrán o no muestras aleatorias con este
procedimiento?

Respuesta:

23
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

2. De un ejemplo de una población en la que ud. considere que resultaría mas


económico o mas eficaz aplicar un muestreo estratificado en lugar de uno
aleatorio.

Respuesta: variada.

3. Se quiere tener una muestra de huevos a efecto de determinar su calidad. El


embarque consiste en 100 cajas con 36 docenas de huevos cada una. La
muestra se consigue mediante elección al azar de 10 cajas y la ulterior
elección aleatoria de 2 huevos de cada caja de muestra.

¿De que tipo de muestra se trata?

4. Suponga que se examinaron los 36 huevos de las cajas de la muestra. ¿La


varianza de muestreo seria en este caso igual a cero? Fundamente su
respuesta, sea afirmativa o negativa.

Respuesta:
5. Sugiera una forma para tomar una muestra aleatoria de 100 estudiantes de la
universidad Uraccan las minas.

Respuesta:

6. Sugiera un plan para muestreo aleatorio, para obtener muestras de:

¾ Árboles de un bosque.
¾ Niños en una comunidad de menos de 5 años de edad y que hayan tenido
sarampión. En cada caso indica alguna variable a estudiar.

Respuesta: ¿?

7. El número de palabra de un libro se determina seleccionando una muestra de


páginas y contando el número de palabras en esas paginas.

a. ¿Cuál es la variable aleatoria?


b. ¿Cual es la población?

Respuesta:

¿Cómo usaría ud números al azar par tomar muestras de maíz, en un campo de


maíz, si este campo es un cuadrado cuyo lado mide 1000 m y si cada muestra se
toma eligiendo un punto al azar en el cuadrado y recogiendo el maíz que se
encuentre dentro de un circulo de 5 m de diámetro cuyo centro se hala en el punto
tomado al azar?

Respuesta. ¿?

24
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

II. Organización de datos y medidas descriptivas.


Objetivos de la unidad.

1. Calcular e interpretar estadísticos descriptivos.


2. Conocer la utilidad de los estadísticos descriptivos.
3. Conocer la importancia del análisis de correlación y regresión.
4. Distinguir los elementos principales de correlación y regresión.
5. Aplicar el análisis de correlación a problemas prácticos.
6. Aplicar el análisis de regresión a problemas reales.

2.1 Distribución de frecuencias.

Cuadros. En general un cuadro se compone de líneas y columnas y sus partes


esenciales son:

⇒ Títulos en los que se destaca el objeto del cuadro (que, como, donde y
cuando); si es necesario se agregan notas con explicaciones.
⇒ Columna principal, es aquella en que se anotan las categorías.
⇒ Encabezado de columnas, en el que se explica el objeto de cada una de
ellas.
⇒ Cuerpo, es la parte que contiene la información.
⇒ Notas al pie, tienen por objeto aclarar ciertas operaciones o relaciones que
se utilizan en el cuadro; también se indica en ellas la fuente de información.

No es fácil la elaboración de un cuadro: debe planearse cuidadosamente su


tamaño, las columnas y la distribución de la información por orden de importancia
que, por lo general no es alfabéticamente. Es necesario ser cuidadoso en la
elección de las columnas y sus encabezamientos; ya que en ellos se pondrán las
relaciones que se desean destacar.

Otro aspecto importante es la elección de las unidades de medidas de las


magnitudes; en notas en el encabezamiento debe indicarse si se trabaja con
cientos, miles o millones.

Una distribución de frecuencias proporciona mayor visualización de conjunto que


un arreglo de datos, pero pierde la posibilidad de mantener el Batlle de la
información original. Por esta razón, si se tiene la posibilidad de mantener los
datos en “bruto” para el calculo de estadísticos de resumen, estos deben usarse y
no una distribución de frecuencias, la cual da solo aproximaciones de esos
estadísticos.

25
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Las clases a usarse en una distribución de frecuencia deben reunir las


características mencionadas para aquellas en una clasificación de un atributo, a
saber, estas deber ser mutuamente excluyentes y exhaustivas.

Las tablas de frecuencias y las representaciones gráficas son dos maneras


equivalentes de presentar la información. Las dos exponen ordenadamente la
información recogida en una muestra.

Tablas de frecuencia

Exponen la información recogida en la muestra, de forma que no se pierda nada


de información (o poca).

Frecuencias absolutas: Contabilizan el número de individuos de cada


modalidad

Frecuencias relativas (porcentajes): Ídem, pero dividido por el total

Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y


numéricas

Muy útiles para calcular cuantiles.

La distribución de frecuencia es la representación estructurada, en forma de


tabla, de toda la información que se ha recogido sobre la variable que se estudia.

variable Frecuencias absolutas Frecuencias relativas


(valor) simple acumulada simple acumulada
X1 n1 n1 f1 = n1 / n f1
X2 n2 n1 + n2 f2 = n2 / n f1 + f2
... ... ... ... ...
Xn-1 nn-1 n1 + n2 +...+ nn-1 fn-1 = nn-1 / n f1 + f2 +...+fn-1
Xn nn Σn fn = nn / n Σf

Siendo X los distintos valores que puede tomar la variable.


Siendo n el número de veces que se repite cada valor.
Siendo f el porcentaje que la repetición de cada valor supone sobre el total

Veamos el ejemplo siguiente:

Medimos la altura de los niños de una clase y obtenemos los siguientes resultados
(cm.):

26
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Cuadro 1. Altura en metros de 30 estudiantes de una clase.

alumno estatura alumno estatura alumno estatura


1 1,25 11 1,23 21 1,21
2 1,28 12 1,26 22 1,29
3 1,27 13 1,30 23 1,26
4 1,21 14 1,21 24 1,22
5 1,22 15 1,28 25 1,28
6 1,29 16 1,30 26 1,27
7 1,30 17 1,22 27 1,26
8 1,24 18 1,25 28 1,23
9 1,27 19 1,20 29 1,22
10 1,29 20 1,28 30 1,21

Si presentamos esta información estructurada obtendríamos la siguiente tabla de


frecuencia:

Cuadro 2. Estatura en metro de 30 estudiantes de una clase.

variable Frecuencias absolutas Frecuencias relativas


(valor) simple acumulada simple acumulada
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%

Si los valores que toma la variable son muy diversos y cada uno de ellos se repite
muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra
manera obtendríamos una tabla de frecuencia muy extensa que aportaría muy
poco valor a efectos de síntesis.

En el siguiente ejemplo detallaremos los aspectos más relevantes.

Ejemplo.

Los diámetros a la altura del pecho (DAP) de 38 robles observados en las


cercanías del volcán Poas, fueron registrados al cm. más próximo y según, la
parcela donde se encontraba:

27
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Cuadro 3. Diámetros (cm.) de 38 robles muestreados en el Volcán Poas.

Parcela 1 Parcela 2 Parcela 3 Parcela 4


90 66 106 84
105 83 104 82
97 97 59 95
78 70 47 95
100 69 44 80
75 75 51 109
89 58 59 72
74 75 81 71
68 212 62 91
93 84

I. Arreglo estadístico de todas las observaciones.

44 47 51 58 59 59 62 66 68 69 70 71 72 74 75 75 75 78 80 81 82 83 84 84 89 90
91 93 95 95 97 97 100 104 105 106 109 212

De estos se puede apreciar lo siguiente:

a) El valor menor = 44 cm. y el mayor = 212 cm.

b) Hay concentraciones de datos en los 70`s y 80`s cm.

c) El valor que mas se repite es 75 cm., por lo que la moda = 75 cm.

d) n = 38 observaciones, por lo tanto es por lo que la mediana estará entre el


n/2 = 38/2 = 19 –ésimo y el (n/2)+1 = 19+1 = 20 –ésimo termino (promedio
de ambos), o sea, 80 y 81, por lo tanto, Md = (80+81)2 = 80.5 cm.

e) El percentil 25 (P25) que es igual al primer cuartel (Q1), viene definido por el
P(n+1)/100 – ésimo elemento, o sea, por el 25*39 /100 = 9.8 = 10 – ésimo
elemento del arreglo estadístico, cual es 69 cm., interpretándose que cerca
del 25% de los datos son menores de 69 y cerca del 75% mayores. El
tercer cuartel, Q3 = 29.25 = 30-ésimo, 95 cm. Entonces, el recorrido
intercuartil (Q3-Q1) es de 95-69 = 26 cm. Esto da una idea sobre la
dispersión del 50% de las observaciones centrales. El recorrido intercuartil
se puede comparar con el ámbito o recorrido del conjunto de datos, cual es
212-44 = 168 cm. Esta diferencia en la dispersión (26 cm. para valores
centrales versus 168 cm. para todo el conjunto) indica una posible
presencia de valores extremos

f) la media aritmética es igual a 82.9 cm. y la desviación estándar es igual a


27.3 cm.

28
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

g) El ultimo valor reporta una magnitud fuera de lo común en este conjunto de


datos (casi 5 desviaciones del promedio) por lo que se reviso la parcela 2 y
se encontró que fue un error, siendo lo correcto 112 cm.

h) Haciendo la corrección, ni la moda ni la mediana no cambian, sin embargo,


el promedio corregido es igual a 80.3 cm. y la desviación estándar de 17.6
cm.

i) La moda es menor que la mediana. La Md es aproximadamente igual al


promedio, por lo tanto, el conjunto de datos presenta una ligera asimetría
positiva hacia la derecha (Mo < X ≈ Md) de la curva normal

j) una medición practica de la asimetría viene dada por:

3(µ − Mn )
Sk = (Q3 – Md) – (Md – Q1) ó as =
s
Q3 – Q1
La distribución es:

Simétrica si Sk = 0
Asimétrica positiva si Sk > 0
Asimétrica negativa si Sk < 0

En el ejemplo Sk = 0.115, indicando así que el conjunto de datos es ligeramente


hacia la derecha. Esta medición de asimetría no es sensible a los valores
extremos, lo que podría constituirse en ventaja o desventaja según como se
analice. Si se sustituye la utilización de los cuarteles primero y tercero en la
ecuación para Sk por los valores extremos (mínimo y máximo respectivamente) se
tendría entonces una medida de asimetría total.

II. Construcción de una distribución de frecuencia de todas las observaciones.

a. Amplitud o ámbito general (AG) = al valor máximo (V máx.) – valor


mínimo (V min.).
V máx. = 112 cm. y V min. = 44 cm. Como los datos están redondeados
al centímetro más próximo, entonces 112 puede ser cualquier
observación entre 111.5 y 112.5. Así también, 44 puede ser cualquier
observación entre 43.5 y 44.5 cm. Por lo tanto la amplitud general (AG)
= 112.5 -43.5 = 69 cm. o bien, 112-44 = 69.

b. Con respecto al intervalo de clase (IC), se desean que estos sean


iguales a 5 cm. (seleccionado subjetivamente), por lo tanto, se
obtendrán aproximadamente 14 clases (numero de clases (NC) =
AG/IC = 69/5 = 13.8 clases).

29
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

c. NC = 14, IC = 5 y Vmin = 43.5. La distribución de frecuencias viene


dada por:

Cuadro 4. Resumen del proceso de tabulación de frecuencias.

Clases (cm.) fi fr Fi Fr
43.5 - 48.5 // 2 0.05 2 0.05
48.5 – 53.5 / 1 0.03 3 0.08
53.5 – 58.5 / 1 0.03 4 0.11
58.5 – 63.5 /// 3 0.08 7 0.18
63.5 – 68.5 // 2 0.05 9 0.24
68.5 – 73.5 //// 4 0.11 13 0.34
73.5 – 78.5 ///// 5 0.13 18 0.47
78.5 – 83.5 //// 4 0.11 22 0.59
83.5 – 88.5 // 2 0.05 24 0.63
88.5 – 93.5 //// 4 0.11 28 0.74
93.5 – 98.5 //// 4 0.11 32 0.84
98.5 – 103.5 / 1 0.03 33 0.87
103.5 – 108.5 /// 3 0.08 36 0.95
108.5 – 113.5 // 2 0.05 38 1.00

d. Se observa como efectivamente la distribución de los datos esta un


poco inclinada hacia los valore mayores (los se vio en el punto h del
anterior apartado).

e. No se observan valores fuera de lo razonable en la distribución

f. La aproximación de la moda viene dada por:


d1
Mo = Li + *I
d1 + d 2

Donde Li = limite inferior de la clase con mayor frecuencia (fm (.))

d1= fm(.) – fm-1(.)


d2= fm(.) – fm+1(.)
I = intervalo de clase
m = clase modal

En el ejemplo, la clase de mayor frecuencia esta en la clase 73.5 –


78.5, por lo tanto, d1 = 5 -4 = 1 y d2 = 5-4 = 1, por lo tanto la moda
es aproximadamente igual a: Mo = 73.5 + ½(5) = 76 cm.

g. La aproximación de la mediana viene dada por:

n/2 = 38/2 = 19 – ésimo termino, lo que dice que la mediana se


encuentra en la clase 78.5 – 83.5, entonces,

30
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Md = Li + (n1/n2)*I, o sea, Md = 78.5 + ¼(5) = 79.8 cm.

h. La aproximación del P25 = Q1 viene dada por el (p)(n)/100 termino,


En el ejemplo, por el 25*38/100 = 9.5 ≈ 10 – ésimo termino, indicando
que el P25 se encuentra en la clase 68.5 – 73.5. Como

Pp = Li + (n1/n2)*I, entonces P25 = 68.5 + ¼*5 = 69.75 cm.

El P75 = Q3 esta definido por el 75*38/100 = 28.5 ≈ 29 –ésimo


observación, o sea, que se ubica en la clase 93.5 – 98.5, entonces P75
= 93.5 + ¼*5 = 94.75 cm. Por lo tanto el recorrido intercuartil es
aproximadamente 94.75 – 69.75 = 25 cm.

La aproximación del promedio viene dad por: k

∑ fiM i
= 80.6 cm., donde fi y Mi son la frecuencia y el X =
i =1

punto medio de la i - ésima clase, n


respectivamente.

La aproximaron del promedio con datos agrupados asume que el punto


medio (Mi) de una clase dada e el promedio de los datos comprendidos
en esta. Si el tamaño del conjunto de observaciones (n) es pequeño, el
supuesto anterior raramente se cumple. Si n es grande es supuesto es
prácticamente valido.

2.2 Estadísticos de posición

„Se define el cuantil de orden como un valor de la variable por debajo del cual se
encuentra una frecuencia acumulada α

„Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

Percentil de orden k = cuantil de orden k/100


La mediana es el percentil 50
El percentil de orden 15 deja por debajo al 15% de las observaciones. Por
encima queda el 85%

Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares.

Primer cuartil = Percentil 25 = Cuantil 0,25


Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
Tercer cuartil = Percentil 75 = cuantil 0,75

31
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Ejemplo

Se tomó una muestra de 50 calificaciones de una población de resultados de un


examen de Bioestadística. Estos puntajes son los siguientes en el orden en que
fueron reunidos. Obtener el primer cuartil Q1, el segundo cuartil Q2 y el tercer
cuartil Q3.

75, 97, 71, 63, 84, 27, 108, 91, 122, 82, 96, 58, 94, 43, 116, 123, 91, 120,
94, 43, 74, 73, 68, 54, 50, 49, 81, 128, 103, 76, 120, 94, 79, 80, 82, 71, 88,
88, 47, 43, 71, 106, 86, 108, 84, 93, 77, 107, 44, 125.

Fórmula: kn/4, donde n tamaño de la muestra y k es el cuartil a buscar.

Respuestas.

• Q1 = 1*50/4 = 12.5 = 13; Q1 = 71


• Q2 = 2*50/4 = 25; Q2 = (82 + 84)/2 = 83
• Q3 = 3*50/4 = 37.5 = 38; Q3 = 97.

Encuentre D1, D4, D7, D9.

Fórmula: kn/10, donde n tamaño de la muestra y k es el decil a buscar.

Respuestas.

• D1 = 1*50/10 = 5; D1 = (47+49)/2 = 48.


• D4 = 4*50/10 = 20; D4 = (77 + 79)/2 = 78.
• D7 = 7*50/10 = 35; D7 = (94 + 94) /2 = 94.
• D9 = 9*50/10 = 45; D9 = (120 + 120) /2 = 120

32
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Encuentre P1, P10, P35, P99

Formula: kn/100, donde n tamaño de la muestra y k es el percentil a buscar.

P1 = 1*50/100 = 0.5 = 1; P1 = 27.


P10 = 10*50/100 = 5; P10 = (47+49) /2 = 48.
P35 = 35*50/100 = 17.5 = 18; P35 = 75.
P99 = 99*50/100 = 49.5 = 50; P99 = 128.

2.3 Representaciones graficas.

Principales diagramas según el tipo de variables.

Tipo de variables diagramas


v. cualitativo barras, sectores, pictogramas
v. discreta diferencial (barras)
Integral (escaleras)
v. continua diferencial (histogramas, polígono de frecuencias
Integral (diagramas acumulados).

Diagrama de barras.

Se utiliza para representar frecuencias en variables discretas, ordinales o


atributos. Se diferencia de un histograma en que las barras están separadas entre
sí, para indicar el carácter discreto de las variables.

Aunque no hay normas estrictas para la elaboración de gráficos de barras, las


siguientes recomendaciones son útiles para orientar nuestro trabajo.

⇒ Cuidemos que el grafico quede balanceado, evitando que las barras


resulten muy anchos o excesivamente altas.
⇒ Dejemos siempre un espacio entre barras, que no sea inferior a la mitad del
ancho de ellas.
⇒ Dibujemos a buen criterio, líneas de fondo en la grafica, pues ellos facilitan
la lectura de valores.
⇒ No recargar las barras, al tratar de expresar muchos productos en cada una
de ellas.
⇒ Si el grafico tiene muchas barras es preferible reemplazar por un diagrama
lineal.
⇒ Confíe en su buena apreciación visual y buen sentido.

33
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Diagrama de barras.
40%
Asigna a cada posible valor de una 35%
variable discreta su probabilidad.
30%
Recuerda los conceptos de frecuencia 25%
relativa y diagrama de barras.
20%

Ejemplo 15%
Número de caras al lanzar 3 10%
monedas.
5%
Alturas proporcionales a las frecuencias 0%
(absolutas o relativas). 0 1 2 3

Nota. Se deja un hueco entre barras para


indicar los valores que no son posibles

Ejercicio.

Elabore un grafico de barras en el que figuren los seis países americanos de


mayor área: argentina, 2 776 889km2; Brasil, 8 511 965km2; Canadá, 9 976
137km2; Perú, 1 285 215km2; estados unidos, 9 363 498km2; México, 1 958
201km2.

Tendencia de la especie Carapa guianensis en el período 2000 a 2004.

Relacion número de árboles y volumen del Carapa


guianensis

30000
Total árboles y

25000
volumen

20000
15000 Total Arboles
10000
5000 Volumen
0 Aprovechado
M3
1 2 3 4 5
Añios

34
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Tendencia del aprovechamiento del Pinus caribaea

20000

Numero de arboles
15000

10000 Pinus
caribaea
5000

0
1 2 3 4 5
Años

Grafico de líneas. Aprovechamiento del Pinus caribea en el periodo 2000 a 2004.

Diagramas integrales

Se realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la


variable, la cantidad (frecuencia) de individuos que poseen un valor inferior o igual
al mismo. No los construiremos en clase. Se pasan de los diferenciales a los
integrales por integración y a la inversa por derivación

Histogramas para variables continuas.

Se utiliza para representar frecuencias en variables continuas. Las barras están


pegadas unas a otras, para indicar el carácter continuo de la variable.

El área que hay bajo el histograma entre dos puntos cualesquiera indica la
cantidad (porcentaje o frecuencia) de individuos en
el intervalo. Estadísticos

Número de años de escolarización


Observa cómo están de dispersos los individuos N Válidos 1508
que ocupan la “parte central”. Perdidos 0
Media 12,90
Mediana 12,00
Moda 12
Percentiles 10 9,00
20 11,00
25 12,00
30 12,00
40 12,00
50 12,00
60 13,00
70 14,00
75 15,00
80 16,00
90 16,00

35
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Estadísticos

Número de años de escolarización


N Válidos 1508
Perdidos 0
Número de años de escolarización Media 12,90
Porcentaje Mediana 12,00
Frecuencia Porcentaje acumulado Moda 12
3 5 ,3 ,3 Percentiles 10 9,00
4 5 ,3 ,7 20 11,00
5 6 ,4 1,1 25 12,00
6 12 ,8 1,9 30 12,00
7 25 1,7 3,5 40 12,00
8 68 4,5 8,0 50 12,00
9 56 3,7 11,7 60 13,00
10 73 4,8 16,6 70 14,00
11 85 5,6 22,2 ≥20%? 75 15,00
12 461 30,6 52,8 80 16,00
13 130 8,6 61,4 90 16,00
14 175 11,6 73,0
15 73 4,8 77,9
16 194 12,9 90,7 ≥ 90%?
17 43 2,9 93,6
18 45 3,0 96,6
19 22 1,5 98,0
20 30 2,0 100,0
Total 1508 100,0

Gráficos con barras de error.- Se utilizan para representar valores medios,


indicados por medio de puntos o de barras, a los que se añade un segmento o un
semisegmento que indica una medida de dispersión Fig. B. Se aplican a variables
mensurables y a veces a las ordinales, nunca a atributos.

Diagramas de puntos, o de dispersión.- A diferencia de los tipos anteriores, no


representan frecuencias o valores medios en el eje vertical. En su lugar,
representan dos variables, mensurables u ordinales, una en el eje horizontal y la
otra en el eje vertical.

Recuerda que las representaciones gráficas:


- no añaden nada a los datos que ya no estuviese allí; su función es simplemente
mostrarlos de modo más claro,
- son una necesidad, no un lujo; no emplees más gráficos de los necesarios,
- deben resaltar los patrones de interés sin comprometer la integridad de los datos,
- deben carecer de "chatarra gráfica" como colores, sombreados, líneas y volumen
innecesarios.

Nunca:
- repitas la misma información en un gráfico y una tabla, o con dos
representaciones gráficas distintas,
- utilices gráficos de "torta" ni gráficos de barras apiladas (Fig. 4 D); ¡más que
ayudar a ver los patrones, los oscurecen!

36
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

_________________________________

Fig.1. Varios tipos de representaciones gráficas: A) diagrama de barras, B) gráfico


con barras de error, C) gráfico de "tarta", D) diagrama de barras apiladas.
_________________________
_________________
______________________
______________________
___________

37
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

2.4 Centralización

Añaden unos cuantos casos particulares a las medidas de posición. En este caso
son medidas que buscan posiciones (valores) con respecto a los cuales los datos
muestran tendencia a agruparse.

Media (‘mean’) Es la media aritmética (promedio) de los valores de una variable.


Suma de los valores dividido por el tamaño muestral.

Formula de la media aritmética para datos sin agrupar.


n
x + x + x + ... + xn
X= 1 2 3
= ∑x i

n X = i =1
n

Media de 2, 2, 3, 7 es (2+2+3+7)/4=3,5

Conveniente cuando los datos se concentran simétricamente con respecto


a ese valor. Muy sensible a valores extremos.
Centro de gravedad de los datos

Datos organizados en tabla


k
Si está en intervalos usar
∑ x i f i

Media x = i=1

n
Donde,

xi = las marcas de clase del i – ésimo intervalo de clase y


fi = es la frecuencia del i – ésimo intervalo de clase. Si no ignorar la columna de
intervalos.

Ejemplo.
En tablas de datos sin agrupar En tablas de datos agrupados
x marca f
x f de
clase
3 1 2a4 3 2
6 8 En este caso se 4 a 6 5 9
9 15 usa el punto 6a8 7 10
12 4 medio o marca 8 a 10 9 1
total 28 de clase total 22
media = 3x1 + 6x8 + 9x15 + 12x4 media = 3x2 + 5x9 + 7x10 + 9x1 = 5.90
28 22
= 8.35

38
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Media geométrica: se eleva cada valor al número de veces que se ha repetido.


Se multiplican todo estos resultados y al producto final se le calcula la raíz "n"
(siendo "n" el total de datos de la muestra).

Según el tipo de datos que se analice será más apropiado utilizar la media
aritmética o la media geométrica.

La media geométrica se suele utilizar en series de datos como tipos de interés


anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicativo
sobre el de los años anteriores. En todo caso, la media aritmética es la medida de
posición central más utilizada.

Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la


serie, por lo que no se pierde ninguna información.

Sin embargo, presenta el problema de que su valor (tanto en el caso de la media


aritmética como geométrica) se puede ver muy influido por valores extremos, que
se aparten en exceso del resto de la serie. Estos valores anómalos podrían
condicionar en gran medida el valor de la media, perdiendo ésta representatividad.

Mediana (‘median’) Es un valor que divide a las observaciones en dos grupos con
el mismo número de individuos (percentil 50). Si el número de datos es par, se
elige la media de los dos datos centrales. Si el número de valores (n) es impar, la
mediana es el valor medio siempre y cuando todos las variables sean arregladas
en magnitudes de mayor a menor.

Para datos no agrupados.


n +1
Ejemplos. Mn =
2
Mediana de 1, 2, 4, 5,6, 6, 8 es 5
Mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2=5,5
Es conveniente cuando los datos son asimétricos. No es sensible a valores
extremos.

Mediana de 1, 2, 4, 5, 6, 6,800 es 5. ¡La media es 117,7!


n
− fa
La mediana para datos agrupados. Mn = Li + 2 *h
f

Li = limite inferior real del intervalo que contiene a la mediana.


n = tamaño de la muestra

39
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

fa = frecuencia acumulada del intervalo de clase inmediatamente anterior a


la clase mediana
f = frecuencia de la clase mediana
h = amplitud del intervalo de clase

Ejemplo.

Se determina la clase que contiene la observación de orden (n+1)/2 que


corresponde a la clase mediana
(48+1)/2 = 24.5 (la mediana está entre los valores de las observaciones 24º y
25º)

La mediana se calcula de acuerdo a la fórmula

Donde:
li: límite inferior de la clase mediana (en este caso li = 14)
Fa: frecuencia acumulada de la clase anterior a la clase mediana (16)
f: frecuencia absoluta de la clase mediana (15)
h: amplitud o extensión del intervalo de clase (6)

MEDIANA Es útil sobretodo cuando:

Datos ordinales o numéricos


La distribución de la variable es asimétrica y hay pocas observaciones

Moda (‘mode’) Es el/los valor/es donde la distribución de frecuencia alcanza un


máximo, es decir es el valor o valores que ocurren con mayor frecuencia.

Cuando los datos están sin agrupar:


La moda se determina por la simple inspección de la lista ordenada
x 10 10 11 12 12 12 12 16

La moda es 12

40
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Para datos agrupados.


d1
Mo = Li + *I
d1 + d 2

Donde Li = limite inferior de la clase con mayor frecuencia (fm (.))


d1= fm(.) – fm-1(.)
d2= fm(.) – fm+1(.)
I = intervalo de clase
m = clase modal

d1: 21 - 17 = 4 x f
d2: 21 - 12 = 9
0a5 1
Mo = 15 + 4 x 5 = 16.54
4+9 5a10 13

10a15 17

15a20 21

20a25 12

25a30 7

Algunas fórmulas

Cuantil de orden α
i es el menor intervalo que tiene frecuencia acumulada superior a α ·n
α=0,5 es mediana

Para una variable discreta se define el percentil de orden K, como la observación


PKK que deja por debajo de si el k % de la población

En el caso de una variable continua, el intervalo donde se halla Pk existe Li-1 – Li,
se calcula buscando el que deja debajo de si al k % de las observaciones. Dentro
de él, Pk se obtiene según la relación:
k
n⋅ − N i −1
Pk = L i −1 + 100 *I
ni
Donde

41
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

li-1 = limite inferior de la clase que contiene el percentil P


n = tamaño de la muestra
I = ancho de clase

Cuadro 5. Medidas de la alzada de cruz en pulgadas de 250 erales.

clases Marca de frecuencia Frec. acumulada


clase
62 – 63 62.5 3 3
64 – 65 64.5 20 23
66 -67 66.5 38 61
68 – 69 68.5 62 123
70 -71 70.5 63 186
72 – 73 72.5 50 236
74 – 75 74.5 12 248
76 – 77 76.5 2 250

Por su naturaleza el percentil puede estar situado en cualquier lugar de la


distribución, por lo que puede considerársele como una medida de tendencia
central

P70 = 69.5 + (175-123) * (71.5 -69.5) =71.15


63

El resultado indica que el 70 % de los erales miden menos que 71.15 pulgadas.

k
En general, la localización de k – ésimo percentil Pk esta dado por Pk = n
100

Cuando se pretende calcular los cuartiles de datos no agrupados, se usan las


siguientes formulas:

n +1
Q1 = - ésima observación ordenada
4

2(n + 1) n + 1
Q2 = = ésima observación ordenada
4 2

3(n + 1)
Q3 = - ésima observación ordenada.
4

42
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Cuadro 6. Ejemplo con variables continuas.

Peso M. Clase frec Fr. acum.

40 – 50 45 5 5
50 – 60 55 10 15
60 – 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 – 130 115 3 58

2.5 Variabilidad o dispersión

Los estudiantes de Bioestadística reciben diferentes calificaciones en la


asignatura (variabilidad). ¿A qué puede deberse?

Diferencias individuales en el conocimiento de la materia.

¿Podría haber otras razones (fuentes de variabilidad)?

Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de
conocimiento. ¿Las notas serían las mismas en todos? Seguramente No.

Dormir poco el día del examen, el becerro estaba envenenado...


Diferencias individuales en la habilidad para hacer un examen.

43
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

El examen no es una medida perfecta del conocimiento.


Variabilidad por error de medida.

En alguna pregunta difícil, se duda entre varias opciones, y al azar se elige


la mala.
Variabilidad por azar, aleatoriedad.

Medidas de dispersión

Miden el grado de dispersión (variabilidad) de los datos, independientemente de


su causa.

Amplitud o Rango (‘range’): La diferencia entre las observaciones extremas.

2, 1, 4, 3, 8, 4. El rango es 8-1=7
Es muy sensible a los valores extremos.

Rango intercuartílico (‘interquartile range’): Es la distancia entre el primer y tercer


cuartil.
Rango intercuartílico = P75 - P25

Parecida al rango, pero eliminando las observaciones más extremas inferiores y


superiores. No es tan sensible a valores extremos.

Varianza S2 (‘Variance’): Mide el promedio de las desviaciones (al


cuadrado) de las observaciones con respecto a la media. Es decir, mide la
distancia existente entre los valores de la serie y la media. Se calcula como
sumatoria de las diferencias al cuadrado entre cada valor y la media,
multiplicadas por el número de veces que se ha repetido cada valor. El
sumatoria obtenido se divide por el tamaño de la muestra.

n n n

∑ ( x1 − x ) 2 n ∑ xi 2 − ( ∑ xi ) 2
S2 = i =1
= i =1 i =1
n −1 n ( n − 1)

Es sensible a valores extremos (alejados de la media).


Sus unidades son el cuadrado de las de la variable.

La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario,
mientras mayor sea la varianza, más dispersos están

44
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Cuando los valores de un conjunto de observaciones se encuentran ubicados


cerca de su media la dispersión es menor que cuando están esparcidos.

Si habéis oído hablar en física de porqué un patinador gira a diferente velocidad


cuando tiene los brazos recogidos (menor dispersión), puede que os suene el
‘coeficiente de inercia’

Desviación típica (‘standard deviation’) Es la raíz cuadrada de la varianza

Para datos sin agrupar.


n

∑ ( xi − µ ) 2
S = i =1

n −1
Tiene las misma dimensionalidad (unidades) que la variable.

Cierta distribución que veremos más adelante (normal o gaussiana) quedará


completamente determinada por la media y la desviación típica.

A una distancia de una desviación típica de la media tendremos 68%


observaciones.

A una distancia de dos desviación típica de la media tendremos 95%


observaciones.

Centrado en la media y a una desviación típica de distancia tenemos más de la


mitad de las observaciones (izq.)

A dos desviaciones típicas las tenemos a casi todas (dcha.)

45
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Para datos agrupados.


s2 =
k
(
n∑i=1 Mi2 fi − ∑i=1 Mifi
k
) 2

n(n −1)

k
fi ( Mi − x ) 2
Donde, S= ∑ i =1 n −1
k = numero de clases
fi = frecuencia de la clase i - ésima
Mi = punto medio de la clase i – ésima
x = promedio aproximado de de la distribución de frecuencias
n = total de observaciones.

El numerador en ambos ecuaciones recibe el nombre de suma de cuadrados y el


denominador recibe el nombre de grados de libertad.

2.5.1 Coeficiente de variación

Sirve para comparar distribuciones numéricas medidas en escalas o medidas


diferentes.
σ
CV =
Es la razón entre la desviación típica y la media. µ También se la
denomina variabilidad relativa.

Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media”

Es frecuente mostrarla en porcentajes

Ejemplo.
Si la media es 80 y la desviación típica 20 entonces CV =20/80=0,25=25%
(variabilidad relativa)

Es una cantidad adimensional. Interesante para comparar la variabilidad de


diferentes variables.

Si el peso tiene CV = 30% y la altura tiene CV = 10%, los individuos


presentan más dispersión en peso que en altura.

No debe usarse cuando la variable presenta valores negativos o donde el valor 0


sea una cantidad fijada arbitrariamente.

Por ejemplo 0 ºC ≠ 0 ºF

46
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Muestra 1 Muestra 2
Edad 25 años 11 años
Peso 154 libras 80 libras
Desv. estándar 10 libras 10 libras

Una compasión de las desviaciones estándares puede conducir a la conclusión de


que las dos muestras tienen igual variabilidad. Sin embargo, si se calculan los
coeficientes de variabilidad, se obtiene para los 25 años de edad.

CV = 10/145(100) = 6.9

Para los 11 años de edad CV = 10/80(100) = 12.5

El interés del coeficiente de variación es que al ser un porcentaje permite


comparar el nivel de dispersión de dos muestras. Esto no ocurre con la desviación
típica, ya que viene expresada en las mismas unidas que los datos de la serie.

Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la


alzada de la cruz de los marranos de una unidad de producción y otra serie con el
peso de dichos marranos, no se puede utilizar las desviaciones típicas (una viene
expresada en cm. y la otra en Kg.). En cambio, sus coeficientes de variación son
ambos porcentajes, por lo que sí se pueden comparar.

Ejercicio.

Hallar la media del conjunto de mediciones 2, 9, 11, 5, 6.

Halle la media para datos agrupados.

clase Limites de clase frecuencia


1 30 – 39 3
2 40 – 49 5
3 50 – 59 7
4 60 – 69 11
5 70 – 79 15
6 80 – 89 7
7 90 - 99 2

Halle la mediana para los siguientes conjuntos de datos.

a) 9, 2, 7, 11, 14.
b) 3, 5, 8, 3, 7, 2.
c) 2, 3, 6,7, 8, 6, 7.
d) 5, 4, 8, 3, 7, 2, 9, 6.

Encuentre la moda para el conjunto de datos del ejercicio 3:

47
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Encuentre la variación y la desviación estándar para los datos del ejercicio 3.

La siguiente tabla de distribución de edades de casos de una cierta enfermedad


informados durante un año en un estado.

Edad número de casos


05 - 14 5
15 – 24 10
25 – 34 20
35 – 44 22
45 – 54 13
55 – 64 5
Total 75

Calcule la media, mediana. Varianza y desviación estándar.

2.6 Relaciones entre variables y regresión

El término regresión fue introducido por Galton* en su libro “Natural inheritance”


(1889) refiriéndose a la “ley de la regresión universal”:

“Cada peculiaridad en una especie animal, humana o vegetal es compartida por


sus descendientes, pero en media, en un grado menor.”

Regresión a la media

Su trabajo se centraba en la descripción de los rasgos físicos de los


descendientes (una variable) a partir de los de sus padres (otra variable).

Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos
familiares observando una relación del tipo:

Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

Conclusión: Los padres muy altos tienen tendencia a tener hijos que heredan parte
de esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo
mismo puede decirse de los padres muy bajos.

Hoy en día el sentido de regresión es el de predicción de una medida basándonos


en el conocimiento de otra.

* Francis Galton
• Primo de Darwin
• Estadístico y aventurero

48
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

• Fundador (con otros) de la estadística moderna para explicar las teorías de


Darwin.

2.6.1 Coeficiente de correlación.

El parámetro (ρ), se conoce como coeficiente de correlación de la población y


mide la intensidad de la relación lineal entre x e y.

El coeficiente de correlación de la población puede tomar valores cualesquiera


entre -1 y +1. Si ρ = 1, existe una correlación lineal directa perfecta entre las dos
variables, mientras que si ρ = -1indica una correlación lineal inversa perfecta. Si ρ
= 0, las dos variables no están correlacionadas.

El coeficiente de correlación de la muestra r, describe la relación entre las


observaciones de la muestra en dos variables de la misma forma que ρ describe la
relación en la población.

En este apartado vamos a tratar diferentes formas de describir la relación entre


dos variables cuando estas son numéricas.

Estudiar si hay relación entre la altura y el peso.

Haremos mención de pasada a otros casos:

Alguna de las variables es ordinal.

Estudiar la relación entre el sobrepeso y el dolor de espalda (ordinal)

Hay más de dos variables relacionadas. Altura Peso


¿Conocer el peso de una persona (o animal o en cm. en Kg.
vegetal) conociendo su altura y contorno de cintura? 162 61
154 60
El estudio conjunto de dos variables cualitativas lo 180 78
aplazamos hasta que veamos contrastes de hipótesis
158 62
(X2).
171 66
¿Hay relación entre fumar y padecer enfermedad de 169 60
pulmón? 166 54
176 84
Estudio conjunto de dos variables 163 68
... ...
A la derecha tenemos una posible manera de recoger
los datos obtenidos observando dos variables en varios individuos de una
muestra.

En cada fila tenemos los datos de un individuo

49
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Cada columna representa los valores que toma una variable sobre los
mismos.

Los individuos no se muestran en ningún orden particular.

Dichas observaciones pueden ser representadas en un diagrama de dispersión


(‘scatterplot’). En ellos, cada individuo es un punto cuyas coordenadas son los
valores de las variables.

Nuestro objetivo será intentar reconocer a partir del mismo si hay relación entre las
variables, de qué tipo, y si es posible predecir el valor de una de ellas en función
de la otra.

2.6.2 Diagrama de dispersión o nube de puntos.

Tenemos las alturas y los pesos de 30 individuos.

100
90
80 Pesa 76 kg.

70 Mide 187 cm.

60
Pesa 50 kg.
50
40 Mide 161 cm.

30
140 150 160 170 180 190 200

Figura 1. Diagrama de dispersión.

50
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

2.6.3 Relación entre las variables

Tenemos las alturas y los pesos de 30 individuos representados en un diagrama


de dispersión.
100
lt u ra
l aa
90 on
ac
80 en t
o aum
es
70
e lp
60 q ue
ec e
50
P ar

40
30
140 150 160 170 180 190 200

Figura 2. Relación entre variables.

2.6.4 Predicción de una variable en función de la otra.

Aparentemente el peso aumenta 10 Kg. por cada 10 cm. de altura…. o sea, el


peso aumenta en una unidad por cada unidad de altura.

100
90
80
70
10 kg.
60
50
40 10 cm.

30
140 150 160 170 180 190 200

Figura 3. Predicción de una variable en función de la otra.

51
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

2.6.5 Como reconocer la relación directa e inversa.

33

28 Incorrelación
23

18

13

3
14 15 16 17 18 19 20

Figura 4. Relación directa e inversa.

En la figura de arriba se observa que para valores de X por encima de la media


tenemos valores de Y por encima y por debajo en proporciones similares.
Incorrelación.

100
90 Fuerte relación
80 directa.
70
60
50
40
30
140 150 160 170 180 190 200

Figura 5. Peso de las relaciones.

Para la figura de arriba se observa que para los valores de X mayores que la
media le corresponden valores de Y mayores también o para los valores de X
menores que la media le corresponden valores de Y menores también. Esto se
llama relación directa o creciente entre X e Y.

52
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

80
70 Cierta relación
60 inversa
50
40
30
20
10
0
140 150 160 170 180 190 200

Figura 6. Tipo de relación.

En la figura se observa que para los valores de X mayores que la media le


corresponden valores de Y menores. Esto es relación inversa o decreciente.

La covarianza.

La covarianza SXY , es una medida que nos hablará de la variabilidad conjunta de


dos variables numéricas (cuantitativas). Se define como:

⇒ Si hay mayoría de puntos en el tercer y primer cuadrante, ocurrirá que SXY


≥ 0, lo que se puede interpretar como que la variable Y tiende a aumentar
cuando lo hace X;

⇒ Si la mayoría de puntos están repartidos entre el segundo y cuarto


cuadrante entonces SXY ≤ 0, es decir, las observaciones Y tienen
tendencia a disminuir cuando las de X aumentan;

⇒ Si los puntos se reparten con igual intensidad alrededor de (x, y), entonces
se tendría que SXY = 0.

Covarianza de dos variables X e Y.

La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos
variables es directa o inversa.
1
Directa: Sxy >0 S xy = ∑ ( xi − x )( yi − y )
n i
Inversa: Sxy <0
Incorreladas: Sxy =0

El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente


o no, pero no nos dice nada sobre el grado de relación entre las variables.

53
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

2.6.6 Coeficiente de correlación lineal de Pearson

El coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los


puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas
horizontales y verticales). Tiene el mismo signo que Sxy por tanto de su signo
obtenemos el que la posible relación sea directa o inversa. Además, r es útil para
determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo
de relaciones (cuadrática, logarítmica,...)
S xy
r =
S xS y
Fórmula para calcular r.

n ∑ xy − ((∑ x )(∑ y ))
r=
n ∑ x 2 − (∑ x ) * n ∑ y 2 − (∑ y )
2 2

n−2
Prueba estadística, t = r distribución de t – student con n-2 grados de
1− r2
libertad.

2.6.7 Propiedades de r

⇒ Es adimensional
⇒ Sólo toma valores en [-1,1]
⇒ Las variables son incorrelacionadas Ù r = 0
⇒ Relación lineal perfecta entre dos variables Ù r =+1 o r =-1
Excluimos los casos de puntos alineados horizontal o verticalmente.
⇒ Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.
Siempre que no existan observaciones anómalas.
p q
Relación
inversa Relación
perfecta directa
Variables
casi
incorreladas
perfecta

-1 0 +1
T 3 E t dí ti

54
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Entrenando el ojo: correlaciones positivas


330 130
120
280 110
230 100
90
180 80
70
130 60
80 50
r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

110 100
100 90
90 80
80
70
70
60
60
50 50

40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200

55
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Ejercicio.

Cuadro 8. Relación entre el peso y la concentración de glucosa en personas


aparentemente.

peso (x) glucosa (y) xy x2 y2


64 108 6912 4096 11664
75,3 109 8207,7 5670,09 11881
73 104 7592 5329 10816
82,1 102 8374,2 6740,41 10404
76,2 105 8001 5806,44 11025
95,7 121 11579,7 9158,49 14641
59,4 79 4692,6 3528,36 6241
93,4 107 9993,8 8723,56 11449
619,1 835 65353 49052,35 88121

n∑ xy − ((∑ x )(∑ y ))
r=
n∑ x 2 − (∑ x ) * n∑ y 2 − (∑ y )
2 2

r = ___ 8*65353-619.1*835_________
√ (8*49052.35)-(619.1)2*√8*88121-(835)2

R = 0.69865

56
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Preguntas frecuentes

¿Si r = 0 eso quiere decir que no las


variables son independientes?

En la práctica, casi siempre sí, pero no


tiene por qué ser cierto en todos los
casos.

Lo contrario si es cierto: Hay dependencia


Las dos variables entre las variables
Independencia implica incorrelación. Son aunque la
independientes covarianza sea
nula
Me ha salido r = 1’2 ¿la relación es “súper lineal”?

¿Súper qué? Eso es un error de cálculo. Siempre debe tomar un valor entre -1 y
+1.

¿A partir de qué valores se considera que hay “buena relación lineal”?

Es difícil dar un valor concreto (mirad los gráficos anteriores). Para este curso
digamos que si |r|>0,7 hay buena relación lineal y que si |r|>0,4 hay cierta relación
(por decir algo... la cosa es un poco más complicada: observaciones anómalas,...)

2.6.8 Otros coeficientes de correlación

Cuando las variables en vez de ser numéricas son ordinales, es posible


preguntarse sobre si hay algún tipo de correlación entre ellas.

Disponemos para estos casos de dos estadísticos, aunque no los usaremos en


clase:
ρ (‘ro’) de Spearman
τ (‘tau’) de Kendall

No tenéis que estudiar nada sobre ellos en este curso. Recordad sólo que son
estadísticos análogos a r y que los encontrareis en publicaciones donde las
variables no puedan considerarse numéricas.

57
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Resuelva el siguiente ejercicio.

Cuadro 9. Relación de la especie Swietenia macrophylla, las minas y


Prinzapolka.

Año Total Árboles Volumen aprov. m3


2000 603 2467,42
2001 1864 4556,895
2002 1022 7195,922
2003 1257 3233,657
2004 227 549,975

Halle el coeficiente de correlación.

R = 0.5831

2.7 Regresión lineal.

Calculo e interpretación del intercepto y pendiente de la recta de regresión

Al analizar los datos en las disciplinas que conforman las ciencias biológicas con
frecuencias es conveniente obtener algún conocimiento acerca de la relación entre
las dos variables. Por ejemplo, estatura y peso, intensidad de un estimulo y tiempo
de reacción, ingreso familiar y gastos médicos.

La naturaleza e intensidad de relaciones entre variables como las antes escritas


son examinadas por medio de los análisis de la regresión y correlación, que son
dos técnicas estadísticas que, aunque están relacionadas, sirven para propósitos
diferentes.

El análisis de regresión es útil para averiguar la forma probable de las relaciones


entre las variables, es decir, sirve para predecir una medida en función de otra
medida (o varias).

Y = Variable dependiente
Predicha
Explicada

X = Variable independiente
Predictora
Explicativa

¿Es posible descubrir una relación?


Y = f(X) + error

58
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

f es una función de un tipo determinado


El error es aleatorio, pequeño, y no depende de X
El ejemplo del estudio de la altura en grupos familiares es del tipo que
desarrollaremos en el resto del tema.

Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)

Si el padre mide 200cm ¿cuánto mide el hijo?


Se espera (predice) 85 + 0,5x200=185 cm.
Alto, pero no tanto como el padre. Regresa a la media.

Si el padre mide 120cm ¿cuánto mide el hijo?


Se espera (predice) 85 + 0,5x120=145 cm.
Bajo, pero no tanto como el padre. Regresa a la media.

Es decir, nos interesaremos por modelos de regresión lineal simple.

2.7.1 Modelo de regresión lineal simple

En el modelo de regresión lineal simple, dado dos variables

Y (dependiente)
X (independiente, explicativa)

Buscamos encontrar una función de X muy simple (lineal) que nos permita
aproximar Y mediante

Ŷ = b0 + b1X ó a+bx

a = b0 (ordenada en el origen, constante). Es el punto donde la recta


cruza el eje vertical.
b = b1 (pendiente de la recta). Cantidad con la cual “y” cambia por
cada unidad de cambio en “x”.

Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la
cantidad

e = Y-Ŷ se le denomina residuo o error residual.

En el ejemplo de Pearson y las alturas, él encontró:

Ŷ = b0 + b1X

b0=85 cm. (No interpretar como altura de un hijo cuyo padre mide 0 cm.
¡Extrapolación salvaje!

59
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

b1=0,5 (En media el hijo gana 0,5 cm. por cada cm. del padre.)

La relación entre las variables no es exacta. Es natural preguntarse entonces:

⇒ Cuál es la mejor recta que sirve para predecir los valores de Y en función
de los de X
⇒ Qué error cometemos con dicha aproximación (residual).

180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
1 00
1 10
1 20
1 30
1 40
1 50
1 60
1 70
1 80
1 90
2 00
2 10
2 20
Figura 7. Modelo lineal.

El modelo lineal de regresión se construye utilizando la técnica de estimación


mínimo cuadrática:

Buscar b0, b1 de tal manera que se minimice la cantidad


Σi ei2

Se comprueba que para lograr dicho resultado basta con elegir:

SY
b1 = r b0 = y − b1 x
SX

Se obtiene además unas ventajas “de regalo”

El error residual medio es nulo


La varianza del error residual es mínima para dicha estimación.

Traducido: En término medio no nos equivocamos. Cualquier otra


estimación que no cometa error en término medio, si es de tipo lineal,
será peor por presentar mayor variabilidad con respecto al error
medio (que es cero).

60
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Que el error medio de las predicciones sea nulo no quiere decir que las
predicciones sean buenas.

Cometió un error de -30 en su última predicción


Para trazar una recta con base en la ecuación Ŷ = b0 + b1X. Se necesitan
los valores numéricos de las constantes b0 y b1

Ecuaciones normales para un conjunto de datos.


n ∑ xy − (∑ x )(∑ y )
∑ y = nb + b ∑ x ⎫⎪
0 1 b1 =
n ∑ x 2 − (∑ x )
2

∑ xy = b ∑ ∑ ⎪⎭
0 x + b x1
2
Ó

b0 =
∑ y − b1 ∑ x
n
Hay que encontrar un medio de expresar la bondad del ajuste (bondad de la
predicción)

No importa. Con los dos últimos clientes me equivoqué en +10 y +20. En


término medio el error es cero.

2.7.2 ¿Cómo medir la bondad de una regresión?

Imaginemos un diagrama de dispersión, y vamos a tratar de comprender en primer


lugar que es el error residual, su relación con la varianza de Y, y de ahí, cómo
medir la bondad de un ajuste.

61
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

2.7.3 Interpretación de la variabilidad en Y

En primer lugar olvidemos que existe la Y


variable X. Veamos cuál es la variabilidad
en el eje Y.

La franja sombreada indica la zona donde


varían los valores de Y.

Proyección sobre el eje Y = olvidar X

2.7.4 Interpretación del residuo


p
Fijémonos ahora en los errores de predicción
(líneas verticales). Los proyectamos sobre el eje Y. Y

Se observa que los errores de predicción,


residuos, están menos dispersos que la
variable Y original.

Cuanto menos dispersos sean los residuos,


mejor será la bondad del ajuste.

62
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

2.7.5 Bondad de un ajuste

Resumiendo: Y

• La dispersión del error residual será una fracción


de la dispersión original de Y

•Cuanto menor sea la dispersión del error residual


mejor será el ajuste de regresión.

Eso hace que definamos como medida de


bondad de un ajuste de regresión,
o coeficiente de determinación a:

S e2
R = 1− 2
2

SY
S e2 < SY2
Bioestadística U Málaga Tema 3: Estadística bivariante 28
La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente
de determinación R2
⎡ (∑ x)
2


r 2 = b2 ⎢
∑ x 2

n ⎥ = SCR

⎢ (∑ y)
2
⎥ SCT
⎢⎣ ∑ y −
2
n ⎥⎦

El coeficiente de determinación (r2) de la muestra mide la proximidad del ajuste de


la ecuación de regresión de la muestra a los valores observados de y.

R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]


Para el alumno astuto: ¿por qué?

Cuando un ajuste es bueno, R2 será cercano a uno. ¿Por qué?

Cuando un ajuste es malo R2 será cercano a cero. ¿Por qué?

A R2 también se le denomina porcentaje de variabilidad explicado por el modelo de


regresión.
¿Por qué? Difícil.

R2 puede ser pesado de calcular en modelos de regresión general, pero en el


modelo lineal simple, la expresión es de lo más sencilla: R2 = r2
¿Es coherente lo dicho entonces sobre los valores de R2?

63
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Tabla ANOVA de regresión lineal simple.

Fuente de Grados de Suma de Promedio Razón de Valor


variación libertad cuadrados cuadrados(CM) variación crítico de F
Regresión 1 SCR SCR/1 CMR/CME
Residuos n-2 SCE SCE/n-2
Total n-1 SCT

Ejemplo.

Cuadro 10. Nivel de aprovechamiento de la especie Carapa guianensis en el


distrito II, (las minas y Prinzapolka).

Total Volumen Vol. Prom.


Año Posición Nombre Científico Árboles Aprov. e M3 m3/Árbol
2000 2 Carapa guianensis 2607 9946,7 3,82
2001 1 Carapa guianensis 4424 16881,594 3,82
2002 1 Carapa guianensis 6590 26761,358 4,06
2003 1 Carapa guianensis 4380 12760,039 2,91
2004 2 Carapa guianensis 5242 14194,879 271

Estadísticas de la regresión

Coeficiente de determinación R^2 0,011465708


R^2 ajustado -0,318045722
Error típico 7416,4026
Observaciones 5

ANÁLISIS DE VARIANZA.

Fuentes de Grados de Suma de Promedio Valor crítico


variación libertad cuadrados cuadrados F de F
Regresión 1 1913890,13 1913890,13 0,035 0,864
Residuos 3 165009082,6 55003027,5
Total 4 166922972,7

La suma total de cuadrados (SCT) es una medida de la dispersión de los valores


observados de “y” en torno a la su media “Ÿ”, es decir, ese termino es una medida
de la variación total en los valores observados de y.

64
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

La suma de cuadrados explicadas mide la cantidad de la variabilidad total en los


valores observados de y que se toma en cuenta mediante la relación lineal entre
los valores observados de y e x. esta es la suma de cuadrados debido a la
regresión lineal (SCR)

La suma de cuadrado inexplicada es una medida de dispersión de los valores


observados de y en torno a la recta de regresión, conocida también como suma de
error de cuadrados (SCE). Es la cantidad que se minimiza cuando se obtiene la
recta de mínimos cuadrados.
SCT = SCR + SCE

SCT = ∑ ( y − Υ ) = ∑ y −
2 (∑ y )
2 i
2

i i
n


SCR = b ⎜ ∑ x 2 −
2
(∑ x ) 2


⎜ n ⎟
⎝ ⎠

Otros modelos de regresión.

„ Se pueden considerar otros ¿recta o parábola?


tipos de modelos, en función del
aspecto que presente el
diagrama de dispersión
(regresión no lineal)

„ Incluso se puede considerar el 140 150 160 170 180 190 200
que una variable dependa de
varias (regresión múltiple). ¿recta o cúbica?

140 150 160 170 180 190 200

65
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

2.7.6 Modelos de análisis de regresión.

Una variable Más de 2 variables


explicativa Modelos de regresión explicativas

Simple Múltiple

Lineal No lineal Lineal No lineal

66
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

III. Probabilidades.
Objetivos de la unidad.

1. Suministrar las reglas para el estudio de los experimentos aleatorios o de


azar, constituyendo la base para la estadística inductiva o inferencial.
2. Desatacar la importancia de las probabilidades.
3. Interpretar la teoría elemental de las probabilidades.
4. Aplicar los conceptos de esperanza matemática a problemas reales.

¿Cuál es la probabilidad de aprobar Bioestadística?

¿Cuál es la probabilidad de no encontrarme un atasco en la calle cuando voy a


clase?

Todos los días nos hacemos preguntas sobre probabilidad e incluso los que
hayáis visto poco de la materia en cursos anteriores, tenéis una idea intuitiva lo
suficientemente correcta para lo que necesitamos de ella en este curso.

En este tema vamos a:

Recordar qué entendemos por probabilidad.


Recordar algunas reglas de cálculo.
Ver cómo aparecen las probabilidades en CC. Salud.
Aplicarlo a algunos conceptos nuevos de interés en CC. Salud.
Pruebas diagnósticas.

3.1 Nociones de probabilidad.

Hay dos maneras principales de entender la probabilidad:

Frecuentista (objetiva): Probabilidad de un suceso es la frecuencia


relativa (%) de veces que ocurriría el suceso al realizar un experimento
repetidas veces.

Subjetiva (Bayesiana): Grado de certeza que se posee sobre un suceso.


Es personal.

En ambos tipos de definiciones aparece el concepto de suceso. Vamos a recordar


qué son y algunas operaciones que se pueden realizar con sucesos.

67
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Sucesos.

„ Cuando se realiza un experimento aleatorio E espacio muestral

diversos resultados son posibles. El conjunto de


todos los resultados posibles se llama espacio
muestral (E).

„ Se llama suceso a un subconjunto de dichos


resultados. E espacio muestral

„ Se llama suceso contrario (complementario) de un A


suceso A, A’, al formado por los elementos que no A’
están en A

„ Se llama suceso unión de A y B, AUB, al formado por los resultados


experimentales que están en A o en B (incluyendo los que están en ambos.

„ Se llama suceso intersección de A y B, A∩B o simplemente AB, al formado


por los resultados experimentales que están simultáneamente en A y B
simultáneamente en A y B
E espacio muestral E espacio muestral E espacio muestral
UNIÓN INTERSEC.
A A A

B B B
Bioestadística U Málaga

3.2 Definición de probabilidad y prob. Condicionada

Se llama probabilidad a cualquier función, P, que asigna a cada suceso A un valor


numérico P(A), verificando las siguientes reglas (axiomas)

0≤P(A) ≤1 E espacio muestral


E espacio muestral
P (E)=1 100% A

P (AUB)=P(A)+P (B) si AB = Ø B
Ø es el conjunto vacío.

68
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Se llama probabilidad de A condicionada a B, o probabilidad de A sabiendo que


pasa B:
Se a a p obab dad de co d c o ada a , o p oba
sabiendo que pasa B: E espacio muestral

” de
P ( AB )

l
P( A | B) =

to a
A

año
uno
pec
P( B)

otro
B

“tam

res
Bioestadística. U. Málaga. Tem

Cualquier problema de probabilidad puede resolverse en teoría mediante


aplicación de los axiomas. Sin embargo, es más cómodo conocer algunas reglas
de cálculo:

P (A’) = 1 – P (A)

P (AUB) = P (A) + P (B) – P (AB)

P (AB) = P (A) P (B|A) = P (B) P (A|B)

Probabilidad de que pasen A y B es la probabilidad de A y que también


pase B sabiendo que pasó A.

Dos sucesos son independientes si la el que ocurra uno no añade información


sobre el otro. En lenguaje probabilístico:

A independiente B Ù P (A|B) = P (A)

Dicho de otra forma:


A independiente B Ù P (AB) = P (A) P (B)

EJEMPLO: En una muestra de 1000 individuos elegidos al azar, entre una


población de enfermos de osteoporosis 760 eran mujeres.

¿Qué porcentaje de mujeres hay en la muestra?

760/1000=0,76=76%

Si elegimos a un individuo de la población, qué probabilidad hay de que sea


mujer:
La noción. Frecuentista de probabilidad nos permite aproximarlo a P
(Mujer)=0’76

¿Cuál es la probabilidad de que elegido un individuo de la población sea


hombre?:
P (Hombre)=P (Mujer’)=1-0,76=0,24

69
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Se sabe de otros estudios que entre los individuos con osteoporosis, aprox. la
cuarta parte de las mujeres fuman y la tercera parte de los hombres. Elegimos a
un individuo al azar de la población de enfermos.

¿Qué probabilidad hay de que sea mujer fumadora?


P (Mujer ∩ Fumar) = P (Mujer) P (Fumar | mujer) = 0,76 x ¼ = 0,19

¿Qué probabilidad hay de que sea un hombre fumador?


P (Hombre ∩ Fumar) = P (Hombre) P (Fumar | hombre) = 0,24 x 1/3 =
0,08

3.3 Sistema exhaustivo y excluyente de sucesos.

A1 A2
Son una colección de sucesos

A1, A2, A3, A4…

Tales que la unión de todos ellos forman


el espacio muestral, y sus interseccione
son disjuntas.

A3 A4

Divide y vencerás.

Todo suceso B, puede ser descompuesto en


A1 A2 componentes de dicho sistema.

B = (B∩A1) U (B∩A2) U (B∩A3) U (B∩A4)

B Nos permite descomponer el problema B en sub


Problemas más simples. Creedme. Funciona.

A3 A4

3.4 Teorema de la probabilidad total.

70
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

A1 A2
Si conocemos la probabilidad de B en cada
uno de los componentes de un sistema
exhaustivo y excluyente de sucesos,
entonces…

B … podemos calcular la probabilidad de B.

A3 A4

P(B) = P(B∩A1) + P(B∩A2 ) + P( B∩A3 ) + ( B∩A4 )

=P(B|A1) P(A1) + P(B|A2) P(A2) + …

Ejemplo: En esta aula el 70% de los alumnos son mujeres. De ellas el 10% son
fumadoras. De los varones, son fumadores el 20%.

¿Qué porcentaje de fumadores hay en total?

P (F) = P (F∩H) + P (F∩M) = P (F|H) P (H) + P (F|M) P (M) = 0,2 x 0,3 + 0,1 x 0,7
= 0,13 =13%

Teorema Probabilidad Total.

Hombres y mujeres forman un Sistema Exhaustivo y Excluyentes de sucesos

Se elige a un individuo al azar y resulta fumador. ¿Cuál es la probabilidad de que


sea un hombre?

P (H|F) = P (F ∩ H)/P (F) = P (F|H) P (H) / P (F) Teorema de Bayes

= 0.2 x 0,3 / 0,13 = 0,46 = 46%

71
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Expresión del problema en forma del árbol.

Fuma P(F) = 0,7 x 0,1 + 0,3x0,2


0,1

0,7 Mujer
0,9
P(H | F) = 0,3x0,2/P(F)
No fuma
Estudiante
•Los caminos a través de nodos
0,2 representan intersecciones.
0,3 Fuma
Hombre •Las bifurcaciones representan
uniones disjuntas.
0,8
No fuma •Podéis resolver los problemas
usando la técnica de vuestra
preferencia.

3.5 Teorema de Bayes.

Si conocemos la probabilidad de B en cada uno de los componentes de un


sistema exhaustivo y excluyente de sucesos,
A1 A2
entonces…

… si ocurre B, podemos calcular la probabilidad (a


posterior) de ocurrencia de cada A. B

Donde P (B) se puede calcular usando el teorema de la A3 A4


probabilidad total:

de cada Ai.

P(B Ai)
P(Ai | B) =
P(B)

P(B)=P(B∩A1) + P(B∩A2 ) + P( B∩A3 ) + ( B∩A4 )

=P(B|A1) P(A1) + P(B|A2) P(A2) + …

72
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

3.6 Pruebas diagnosticas.

Una prueba diagnóstica sirve para ayudar a mejorar una estimación de la


probabilidad de que un individuo presente una enfermedad.

En principio tenemos una idea subjetiva de P (Enfermo). Nos ayudamos de…


Incidencia,
Porcentaje de nuevos casos de la enfermedad en la población.
Prevalencia,…
Porcentaje de la población que presenta una enfermedad.

Por otra parte, para confirmar, usamos una prueba diagnóstica. La misma ha sido
evaluada con anterioridad sobre dos grupos de individuos: sanos y enfermos. Así
de modo frecuentista se ha estimado:

Sensibilidad (verdaderos +) = Tasa de acierto sobre enfermos.


Especificidad (verdaderos -) = Tasa de acierto sobre sanos.

A partir de lo anterior y usando el teorema de Bayes, podemos calcular las


probabilidades a posteriori (en función de los resultados del test): Índices
predictivos.

P (Enfermo | Test +) = Índice predictivo positivo


P (Sano | Test -) = Índice predictivo negativo

Pruebas diagnosticas: aplicación T. Bayes.

Sensibilidad, T+
verdaderos +
P. a priori de enfermedad:
incid., preval., intuición,… Enfermo

Falsos - T-
Individuo
Falsos +
T+
Sano

Especificidad, T-
Verdaderos -

73
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Ejemplo: Pruebas diagnóstica y T. Bayes

La diabetes afecta al 20% de los individuos que acuden a una consulta. La


presencia de glucosuria se usa como indicador de diabetes. Su sensibilidad es de
0,3 y la especificidad de 0,99. Calcular los índices predictivos

0,3 P ( Enf Ι T +)
P ( Enf | T + ) =
T+ P( Enf Ι T +) + P ( SanoΙ T +)
0,2 Enfermo
0,2 ⋅ 0,3
T- = = 0,88
Individuo 0,7 0,2 ⋅ 0,3 + 0,8 ⋅ 0,01
0,01
0,8 T+ P( SanoΙ T −)
Sano P ( Sano | T −) =
P( SanoΙ T −) + P( Enf Ι T −)
0,99 T- 0,8 ⋅ 0,99
= = 0,85
0,8 ⋅ 0,99 + 0,2 ⋅ 0,7

-¿Qué probabilidad tengo


Observaciones de estar enfermo?

En el ejemplo anterior, al llegar un - En principio un 20%. Le


individuo a la consulta tenemos una idea haremos unas pruebas.
a priori sobre la probabilidad de que
tenga una enfermedad.

A continuación se le pasa una prueba


diagnóstica que nos aportará nueva
información: Presenta glucosuria o no.

En función del resultado tenemos una


nueva idea (a posteriori) sobre la
- Presenta glucosuria. La
probabilidad de que esté enfermo. probabilidad ahora es del
… Nuestra opinión a priori ha sido 88%.
modificada por el resultado de un
experimento.
… Relaciónalo con el método científico.

74
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Ejercicio.

En una población, la probabilidad de que un individuo, elegido aleatoriamente


haya sido expuesto a un alergeno y tenga una reacción frente al mismo es de
0.60. La probabilidad de que un individuo expuesto al alergeno experimente una
reacción es de 0.80. Si un individuo es elegido aleatoriamente de esta población,
¿Cuál es la probabilidad de que haya estado expuesto al alergeno?

El valor esperado y la varianza de esta variable son:

E[X] = np
Var [X] = npq

Ejemplo de uso de la distribución binomial

Un médico aplica un test a 10 alumnos de un colegio para detectar una


enfermedad cuya incidencia sobre una población de niños es del 10%.

La sensibilidad del test es del 80% y la especificidad del 75 %. ¿Cual es la


probabilidad de que exactamente a cuatro personas le de un resultado positivo? Si
en la muestra hay cuatro personas a las que el test le da positivo, ¿cuál es la
probabilidad de que entre estas, exactamente dos estén sanas? Calcular la
probabilidad de que el test suministre un resultado incorrecto para dos personas.
Calcular la probabilidad de que el resultado sea correcto para más de 7 personas.

Solución:

Los datos de que disponemos son:

P[E] = 0, 1 prevalencia de la enfermedad en la población


Probabilidad a priori de estar enfermo

P[T+|E] = 0, 8 sensibilidad (verdaderos positivos)

P[T−|E] = 0, 75 especificidad (verdaderos negativos)

donde E, T+, y T− tienen el sentido que es obvio. Si queremos saber a cuantas


personas el test le dará un resultado positivo, tendremos que calcular P[T+], para
lo que podemos usar el teorema de la probabilidad total (estar enfermo y no
estarlo forman una colección exhaustiva y excluyente de sucesos):

= 0, 8 × 0, 1 + 0, 25 × 0, 9 = 0, 305

75
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Sea X1 la v.a. que contabiliza el número de resultados positivos. Es claro que


llamando p1 = P[T+], se tiene que X sigue una distribución binomial

Por ello la probabilidad de que a cuatro personas le de el resultado del test


positivo es:

Si queremos calcular a cuantas personas les dará el test un resultado positivo


aunque en realidad estén sanas, hemos de calcular previamente P[E|T+], o sea, el
índice predictivo de falsos positivos:

Es importante observar este resultado. Antes de hacer los cálculos no era


previsible que si a una persona el test le da positivo, en realidad tiene una
probabilidad aproximadamente del 74% de estar sana. Sea X2 la variable aleatoria
que contabiliza al número de personas al que el test le da positivo, pero que están
sanas en realidad. Entonces

Por ´ultimo vamos a calcular la probabilidad p3 de que el test de un


resultado err´oneo, que es:

= 0, 25 × 0, 9 + 0, 2 × 0, 1 = 0, 245

76
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

La variable aleatoria que contabiliza el n´umero de resultados err´oneos del


test es

Como la probabilidad de que el test sea correcto para m´as de siete personas,
es la de que sea incorrecto para menos de 3, se tiene

= 0, 5407

77
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Ejercicios de Probabilidades.
Preg. 1. Cuál de los siguientes es uno de los axiomas de probabilidad:

a,PROB[A]< 1 para todo A.


b,PROB[A]> 0 para todo A.
c,PROB[E]= 1 cuando E es el suceso seguro.
d,PROB[ no A] = 1-PROB[A] para todo A.
e,PROB[A unionB] = PROB[A] - PROB[B] - PROB[ A interseccion B] para
todos A y B.

Preg. 2. Para conocer los índices predictivos en un test diagnóstico para una
enfermedad que tiene un 1% de afectados en la población, será necesario
conocer:

a,Sensibilidad y verdaderos positivos


b,Prevalencia.
c,Verdaderos positivos y especificidad.
d,Especificidad y verdaderos negativos
e,Falsos positivos y verdaderos positivos.

Preg. 3. Si la probabilidad de tener la enfermedad A es del 5%, la de tener la


enfermedad B es del 10% y la de tener al menos una de las dos es del 13%, ¿cúal
es la probabilidad de tener las dos?

a,Cero
b,1%
c,2%
d,5%
e,8%

Preg. 4. Cierto tests diagnóstico acierta sobre el 100% de los individuos enfermos
y el 50% de los sanos. Cierta persona pasa el test con resultado negativo.
Entonces:

a,Esta sana.
b,Esta enferma.
c,Existe una probabilidad del 50% de que esté sana.
d,Existe una probabilidad del 75% de que esté sana.
e,Existe una probabilidad del 75% de que esté enferma.

Preg. 5. ¿Cómo se calcula la sensibilidad de un test diagnóstico?

a,Contabilizando el número de tests positivos en una muestra aleatoria de


individuos.

78
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

b,Contabilizando el número de tests negativos en una muestra aleatoria de


individuos.
c,Contabilizando el número de tests positivos en una muestra aleatoria de
enfermos.
d,Contabilizando el número de tests negativos en una muestra aleatoria de
sanos.
e,Ninguna de las anteriores es cierta.

Preg. 6. Cierto test diagnóstico acierta sobre el 100% de los individuos sanos y el
0% de los individuos enfermos. Elegida una persona al azar:

a,Hay una probabilidad del 50% de que esté enferma.


b,Hay una probabilidad del 0% de que esté enferma.
c,Hay una probabilidad del 100% de que esté enferma.
d,El test será negativo.
e,Ninguna de las anteriores es cierta.

Preg. 7. De una población de 500 pacientes, al 50% hombres y mujeres, 300


tienen alteración de la nutrición, de los cuales 50 son mujeres. La probabilidad de
que un paciente escogido al azar sea mujer con denutrición es:

a,0.10
b,0.15
c,0.20
d,0.25
e,0.30

Preg. 8. En una población, hay tantos hombres como mujeres, el 20% son
varones y fumadores y el 20% de las mujeres fuman. Entonces:

a,Fuman tantos hombres como mujeres.


b,Por cada mujer fumadora hay dos hombres fumadores.
c,Por cada hombre fumador hay dos mujeres fumadoras.
d,Hay un 40% de fumadores en la población.
e,Nada de lo anterior es cierto.

Preg. 9. Dado un sistema exhaustivo y excluyente de sucesos, señale la


afirmación correcta:

a,Ningún suceso elemental pertenece a dos sucesos de dicho sistema.


b,Todo suceso elemental pertenece a algún suceso del sistema.
c,Todos los sucesos elementales son independientes entre si.
d,Todos los sucesos elementales tienen la misma probabilidad de ocurrir.
e,Sólo (a) y (b) son ciertas.

79
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Preg. 10. Si dos sucesos son incompatibles, entonces:


a,Siempre que sucede el uno, sucede el otro.
b,Siempre que uno de ellos no se verifica, se verifica el otro.
c,No pueden ocurrir simultáneamente.
d,Dándose uno de ellos, puede darse el otro.
e,Nada de lo anterior es cierto.

Preg. 11. Para estudiar la efectividad de un test diagnóstico ante una enfermedad
se toma un grupo de 200 personas enfermas y 200 que no la padecen, y se
observan los resultados. ¿Qué podemos estimar directamente de ellos?

a,La sensibilidad y especificidad del test.


b,La incidencia de la enfermedad en la población.
c,El índice predictivo de verdaderos positivos.
d,Son correctas (a) y (c).
e,Todo lo anterior.

Preg. 12. El porcentaje de individuos fumadores o con bronquitis se puede


interpretar como una probabilidad:

a,De un suceso intersección


b,Condicionada.
c,De un suceso unión.
d,A posteriori.
e,De un suceso complementario.

Preg. 13. El porcentaje de individuos con bronquitis entre los fumadores se puede
interpretar como una probabilidad:

a,De un suceso intersección


b,Condicionada.
c,De un suceso unión.
d,A posteriori.
e,De un suceso complementario.

Preg. 14. El porcentaje de individuos con bronquitis que además son fumadores
se puede interpretar como una probabilidad:

a,De un suceso intersección


b,Condicionada.
c,De un suceso unión.
d,A posteriori.
e,De un suceso complementario.

80
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Preg. 15. El 12% de los individuos de una población padece osteoporosis. EL 25%
de ellos lo sabe. ¿Qué tasa de individuos tiene osteoporosis y lo desconoce?

a,3%
b,6%
c,9%
d,12%
e,25%

Preg. 16. La osteoporosis afecta 4 veces más a mujeres que a hombres. El 8% de


las mujeres padece osteoporosis en una población donde hay tantos hombres
como mujeres. ¿Cuál es la prevalencia de la osteoporosis en la población?

a,2%
b,5%
c,8%
d,10%
e,12%

Preg. 17. Elija la afirmación correcta relativa a pruebas diagnósticas:

a,La sensibilidad se obtiene usando la noción subjetiva de probabilidad.


b,El índice predictivo positivo se obtiene directamente de la noción
frecuentista de probabilidad.
c,La tasa de verdaderos positivos se obtiene directamente de la noción
frecuentista de probabilidad.
d,La prevalencia de la enfermedad se obtiene a partir del teorema de
Bayes.
e,nada de lo anterior es cierto.

Preg. 18. El 2% de la población padece diabetes. Si de ellos, el 30% no está


diagnósticado, esta cantidad puede entenderse como una probabilidad...

a,De un suceso intersección


b,Condicionada.
c,De un suceso unión.
d,A posteriori.
e,De un suceso complementario.

Preg. 19. En una población, el 5% son enfermos diagnosticados de una


enfermedad, la cual padece el 10% de la población. La probabilidad de estar
diagnósticado para un individuo enfermo es:

a,2%
b,5%
c,15%
d,50%

81
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

e,No puede calcularse con esos datos.

Preg. 20. Una prueba diagnóstica de cierta enfermedad, tiene una tasa de
aciertos del 90% tanto sobre enfermos como sanos. La incidencia de la
enfermedad en la población es del 50%. Si se pasa el test a una persona y sale
positivo, la probabilidad de que realmente esté enferma es:

a,45%
b,50%
c,75%
d,90%
e,100%

Preg. 21. Si dos sucesos son independientes:

a,No pueden ocurrir a la vez.


b,Siempe ocurre uno o otro, pero no ambos a la vez.
c,Siempre ocurre al menos uno de los dos.
d,Si pasa uno, el otro no puede ocurrir.
e,Todo lo anterior es falso.

Preg. 22. Una enfermedad tiene una incidencia del 50% en la población. Un test
para detectarla posee una tasa de verdaderos positivos del 80%, y de falsos
positivos del 20%. Si un individuo resulta ser positivo, la probabilidad de que esté
enfermo es:

a,20%
b,40%
c,50%
d,60%
e,80%

Preg. 23. Si dos sucesos A y B son incompatibles (excluyentes):

a,La intersección es el conjunto vacío.


b,La probabilidad de la intersección es cero.
c,La probabilidad de la unión es la suma de las probabilidades.
d,Todo lo anterior es cierto.
e,Sólo dos de las anteriores son ciertas.

Preg. 24. Se define la sensibilidad de un test como:

a,La probabilidad de que si el test da positivo el sujeto esté enfermo.


b,La probabilidad de que si el sujeto está enfermo el test de positivo.
c,La probabilidad de que si el test da negativo el sujeto esté sano.
d,La probabilidad de que si el sujeto está sano el test de negativo.
e,Ninguna de las anteriores.

82
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Preg. 25. En una población el 30% son hombres de los cuales son deportistas el
20%, frente al 25% de las mujeres. Escogida una persona al azar es deportista. La
probabilidad de que sea mujer es (aproximadamente):

a,0,235
b,0,60
c,0,74
d,0,25
e,No puede calcularse con esos datos.

83
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

IV. Principales leyes de distribución de variables


aleatorias.
Objetivos de la unidad.

1. Destacar la importancia de la curva normal


2. Conocer la importancia de la aplicación de la distribución t de student.
3. Conocer la relación existente entre las frecuencias observadas y teóricas a
través de la prueba ji-cuadrada.
4. Conocer la importancia del análisis de varianza.
5. Distinguir las particularidades de los experimentos de factor único.
6. Aplicar los métodos abreviados para calcular variaciones.
7. Conocer las propiedades para distribución F.
8. Distinguir las características del experimento de dos factores.

Hay v.a. que aparece con frecuencia en las Ciencias de la Salud.


Experimentos dicotómicos.
Bernoulli

Contar éxitos en experimentos dicotómicos repetidos:


Binomial
Poisson (sucesos raros)

Y en otras muchas ocasiones…


Distribución normal (gaussiana, campana,…)

El resto del tema está dedicado a estudiar estas distribuciones especiales.

4.1 Distribución de Bernoulli.

Tenemos un experimento de Bernoulli si al realizar un experimento sólo son


posibles dos resultados:

X =1 (éxito, con probabilidad p)


X =0 (fracaso, con probabilidad q =1-p)

Lanzar una moneda y que salga cara.


P =1/2
Elegir una persona de la población y que esté enfermo.
P =1/1000 = prevalencia de la enfermedad
Aplicar un tratamiento a un enfermo y que éste se cure.
P =95%, probabilidad de que el individuo se cure

Como se aprecia, en experimentos donde el resultado es dicotómico, la variable


queda perfectamente determinada conociendo el parámetro p

84
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Ejemplo 1.

Se ha observado estudiando 2000 accidentes de tráfico con impacto frontal y


cuyos conductores no tenían cinturón de seguridad, que 300 individuos quedaron
con secuelas. Describa el experimento usando conceptos de variable aleatoria.

Solución.
La noción frecuentista de probabilidad nos permite aproximar la
probabilidad de tener secuelas mediante 300/2000=0,15=15%

X =“tener secuelas tras accidente sin cinturón” es variable de Bernoulli


X =1 tiene probabilidad p ≈ 0,15
X =0 tiene probabilidad q ≈ 0,85
Ejemplo 2.

Se ha observado estudiando 2000 accidentes de tráfico con impacto frontal y


cuyos conductores sí tenían cinturón de seguridad, que 10 individuos quedaron
con secuelas. Describa el experimento usando conceptos de variable aleatoria.

Solución.
La noción frecuentista de probabilidad nos permite aproximar la
probabilidad de quedar con secuelas por 10/2000=0,005=0,5%

X =“tener secuelas tras accidente usando cinturón” es variable de


Bernoulli
X =1 tiene probabilidad p ≈ 0,005
X =0 tiene probabilidad q ≈ 0,995

Observaciones.

En los dos ejemplos anteriores hemos visto cómo enunciar los resultados de un
experimento en forma de estimación de parámetros en distribuciones de Bernoulli.
Sin cinturón: p ≈ 15%
Con cinturón: p ≈ 0,5%

En realidad no sabemos en este punto si ambas cantidades son muy diferentes o


aproximadamente iguales, pues en otros estudios sobre accidentes, las
cantidades de individuos con secuelas hubieran sido con seguridad diferentes.

Para decidir si entre ambas cantidades existen diferencias estadísticamente


significativas necesitamos introducir conceptos de estadística inferencial
(extrapolar resultados de una muestra a toda la población).

Es muy pronto para resolver esta cuestión ahora. Esperemos a las pruebas de X2.

85
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

4.2 Distribución binomial.

La distribución binomial tiene dos parámetros n y p. son parámetros en el sentido


de que son suficiente para especificar una distribución binomial.

La media y la varianza son µ = np y σ2 = np (1-p), respectivamente.

La distribución binomial es aplicable, en situaciones donde el muestreo se realiza


a partir de una población infinita o a partir de una poblaron finita con restitución.

La conveniencia del uso de esta distribución depende de que tan drástico es el


efecto de esas condicionas en las circunstancia de p de un ensayo a otro.
Normalmente se considera que cuando n es pequeña en relación con N, el modelo
binomial es adecuado.

Cuando una muestra aleatoria de tamaño n se toma de una población binomial, la


probabilidad π de que x individuos estén en una categoría (por lo tanto,
probabilidad 1-π de que lo n-x individuos restantes estén en la otra categoría, es
igual a
P( X = x) = Cxnπ x (1 − π )
n− x
Donde.

π = probabilidad de pertenecer a una categoría.


1-π = probabilidad de no pertenecer a esa categoría.

Cuando se obtiene la muestra, se podrá clasificar los n elementos en dos


categorías, los que poseen el atributo de interés y los que no.

Ejercicio.
1. Suponga que se sabe que el 80% de cierta población es inmune a alguna
enfermedad. Si se escoge una muestra aleatoria de 10 elementos de entre
esta población. ¿Cuál es la probabilidad de que dicha muestra contenga
exactamente cuatro personas inmunes?

R//. f (4) = 0.2001

2. Suponga que se conoce que en cierta población el 10% de la misma es


daltoniana. Si se extrae una muestra aleatoria de 25 gente de entre la
población, use la tabla A del apéndice II del libro de bioestadística para calcular
la probabilidad de que:

a. Cinco o menos sean daltonianos.


b. Seis o más daltonianos
c. Entre seis y nueve inclusive.

86
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

4.3 Función de probabilidad

Problemas de cálculo si n es grande y/o p cercano a 0 ó 1.

Media: µ =n p
Varianza: σ2 = n *p* q

Si se repite un número fijo de veces, n, un experimento de Bernoulli con parámetro


p, el número de éxitos sigue una distribución binomial de parámetros (n, p).

Lanzar una moneda 10 veces y contar las caras.


Bin(n =10, p =1/2)

Lanzar una moneda 100 veces y contar las caras.


Bin(n =100, p =1/2)
Difícil hacer cálculos con esas cantidades. El modelo
normal será más adecuado.

El número de personas que enfermará (en una población de


500.000 personas) de una enfermedad que desarrolla una de
cada 2000 personas.

Bin(n =500.000, p =1/2000)


Difícil hacer cálculos con esas cantidades. El
modelo de Poisson será más adecuado.
Parecidos razonables.

Aún no conocéis la distribución normal, ni de Poisson. De cualquier forma ahí


tenéis la comparación entre valores de p no muy extremos y una normal de misma
media y desviación típica, para tamaños de n grandes (n>30).

Cuando p es muy pequeño es mejor usar la aproximación del modelo de Poisson.

4.4 Distribución de Poisson

También se denomina de sucesos raros.

Se obtiene como aproximación de una distribución binomial con la misma media,


para ‘n grande’ (n>30) y ‘p pequeño’ (p<0,1).

Queda caracterizada por un único parámetro µ (que es a su vez su media y


varianza.), es decir la media la varianza son iguales.
µk
Función de probabilidad: P[ X = k ] = e − µ , k = 0 ,1, 2 ,...
k!

87
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Ejemplo 1.

El número de individuos que será atendido un día cualquiera en el servicio de


urgencias del hospital clínico universitario.

En Nicaragua hay 5000.000 habitantes (n grande)


La probabilidad de que cualquier persona tenga un accidente es
pequeña, pero no nula. Supongamos que es 1/10.000. Bin (n
=5000.000, p =1/10.000) ≈ Poisson (µ=np=500)

Sospechamos que diferentes hospitales pueden tener servicios de


traumatología de diferente “calidad” (algunos presentan pocos, pero creemos
que aún demasiados, enfermos con secuelas tras la intervención). Es difícil
compararlos pues cada hospital atiende poblaciones de tamaños diferentes
(ciudades, pueblos,…)

Tenemos en cada hospital n, nº de pacientes atendidos o nº individuos


de la población que cubre el hospital.

Tenemos p pequeño calculado como frecuencia relativa de secuelas con


respecto al total de pacientes que trata el hospital, o el tamaño de la
población,…

Se puede modelar mediante Poisson (µ=np)

La distribución de Poisson se emplea cuando se cuentan los eventos o


cantidades, distribuidas al azar en tiempo o espacio.

Si x es el numero de ocurrencia de algún evento aleatorio en un intervalo de


espacio o tiempo (o algún volumen de materia) la probabilidad de que x ocurra es
dada por −λ x
e λ
f ( x) =
x!
λ es el parámetro de la distribución y es el número promedio de ocurrencia del
evento aleatorio dentro del intervalo (o volumen).
“e” es la constante 2.7183.

Ejercicios.

El administrador de un hospital analiza los casos diarios de urgencia durante un


periodo de varios años y concluyó que se distribuyen de acuerdo a la distribución
de Poisson. Los registros del hospital revelan que los casos de urgencia
promedian tres días durante ese periodo. Si el administrador tiene razón respecto
a la distribución de Poisson, calcule la probabilidad de que:

88
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

a. Ocurren exactamente dos casos de urgencia en un día dado.


b. No ocurre un solo caso de emergencia en un día particular.
c. Ocurren tres o cuatro casos de emergencia en un día en particular.

Solución.
a) λ = 3 y x es la variable aleatoria que denota el numero de casos diarios de
urgencia.
e −3 32 0.050 * 9
P(x = 2) = f(x) = = = 0.225.
2! 2 *1
b) no ocurra un solo caso de urgencia en un día particular.

e −3 30 0.050 *1
f(x) = = = 0.05.
0! 1
c) ocurran tres o cuatro casos de urgencia en un día en particular.
Puesto que los dos eventos son mutuamente excluyentes se usa la regla de
adición.

e −3 33 e −3 34
f (3) + f (4) = + = 0.225 + 0.16875 = 0.39
3! 4!

Respuesta:

a. P(x =2) = 0.225


b. f(0) = 0.05
c. f(3) + f(4) = 0.225+0.16875 = 0.39

La distribución de Poisson es útil para solucionar problemas cuando n es grande,


pero, “p” es tan pequeña.

Es útil en problemas de colas.

4.5 Distribución normal o de Gauss

Aparece de manera natural:

Errores de medida.
Distancia de frenado.
Altura, peso, propensión al crimen…
Distribuciones binomiales con n grande (n>30) y ‘p ni pequeño’ (np>5)
‘ni grande’ (nq>5).

Está caracterizada por dos parámetros: La media, µ, y la desviación típica, σ.

89
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
2
Su función de densidad es: −1⎛ χ −µ ⎞
1 ⎜
2⎝ σ ⎠

N (µ, σ): Interpretación geométrica


f (x) ? = e
σ 2π
Podéis interpretar la media como un factor de traslación.

Y la desviación típica como un factor de escala, grado de dispersión,…

N (µ, σ): Interpretación probabilista

Entre la media y una desviación típica tenemos siempre la misma probabilidad:


aprox. 68%

Entre la media y dos desviaciones típicas aprox. 95%

Algunas características.

La función de densidad es simétrica, mesocúrtica y unimodal.


Media, mediana y moda coinciden.

Los puntos de inflexión de la función de densidad están a distancia σ de µ.

Si tomamos intervalos centrados en µ, y cuyos extremos están…

a distancia σ, Î tenemos probabilidad 68%


a distancia 2 σ, Î tenemos probabilidad 95%
a distancia 2’5 σ Î tenemos probabilidad 99%

No es posible calcular la probabilidad de un intervalo simplemente usando la


primitiva de la función de densidad, ya que no tiene primitiva expresable en
términos de funciones ‘comunes’.

Todas las distribuciones normales N (µ, σ), pueden ponerse mediante una
traslación µ, y un cambio de escala σ, como N (0,1). Esta distribución especial se
llama normal tipificada.

Justifica la técnica de tipificación, cuando intentamos comparar individuos


diferentes obtenidos de sendas poblaciones normales.

90
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

4.6 Tipificación

Dada una variable de media µ y desviación típica σ, se denomina


valor tipificado, z, de una observación x, a la distancia (con signo) Z = χ − µ
con respecto a la media, medido en desviaciones típicas, es decir σ
En el caso de variable X normal, la interpretación es clara: Asigna a todo valor de
N (µ, σ), un valor de N (0,1) que deja exactamente la misma probabilidad por
debajo.

Nos permite así comparar entre dos valores de dos distribuciones normales
diferentes, para saber cuál de los dos es más extremo.

La distribución normal tipificada tiene la ventaja, como ya hemos indicado, de


que las probabilidades para cada valor de la curva se encuentran recogidas en
una tabla.

X 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5723
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7090 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7813 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8416 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169
2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574
2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899
2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643

91
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736
2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807
2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861

¿Cómo se lee esta tabla?

La columna de la izquierda indica el valor cuya probabilidad acumulada queremos


conocer. La primera fila nos indica el segundo decimal del valor que estamos
consultando.

Ejemplo: queremos conocer la probabilidad acumulada en el valor 2,75.Entonces


buscamos en la columna de la izquierda el valor 2,7 y en la primera fila el valor
0,05. La casilla en la que se interceptan es su probabilidad acumulada (0,99702,
es decir 99.7%).

Atención: La tabla nos da la probabilidad acumulada, es decir, la que va desde el


inicio de la curva por la izquierda hasta dicho valor. No nos da la probabilidad
concreta en ese punto. En una distribución continua en el que la variable puede
tomar infinitos valores, la probabilidad en un punto concreto es prácticamente
despreciable.

Ejemplo: Imaginemos que una variable continua puede tomar valores entre 0 y 5.
La probabilidad de que tome exactamente el valor 2 es despreciable, ya que
podría tomar infinitos valores: por ejemplo: 1,99, 1,994, 1,9967, 1,9998, 1999791,
etc.

Veamos otros ejemplos:

Probabilidad acumulada en el valor 0,67: la respuesta es 0,7486


Probabilidad acumulada en el valor 1,35: la respuesta es 0,9115
Probabilidad acumulada en el valor 2,19: la respuesta es 0,98574

Ejemplo 1.

Se quiere dar una beca a uno de dos estudiantes de sistemas educativos


diferentes. Se asignará al que tenga mejor expediente académico.

El estudiante A tiene una calificación de 8 en un sistema donde la


calificación de los alumnos se comporta como N (6,1).
El estudiante B tiene una calificación de 80 en un sistema donde la
calificación de los alumnos se comporta como N (70,10).

92
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Solución

No podemos comparar directamente 8 puntos de A frente a los 80 de B,


pero como ambas poblaciones se comportan de modo normal, podemos
tipificar y observar las puntuaciones sobre una distribución de referencia
N (0,1)

xA − µ A 8−6
zA = = =2
σA 1
x − µ B 80 − 70
zB = B = =1
σB 10

Como ZA>ZB, podemos decir que el porcentaje de compañeros del


mismo sistema de estudios que ha superado en calificación el
estudiante A es mayor que el que ha superado B. Podríamos pensar en
principio que A es mejor candidato para la beca.

¿Por qué es importante la distribución normal?

Las propiedades que tiene la distribución normal son interesantes, pero todavía no
hemos hablado de por qué es una distribución especialmente importante.

La razón es que aunque una v.a. no posea distribución normal, ciertos


estadísticos/estimadores calculados sobre muestras elegidas al azar sí que
poseen una distribución normal.

Es decir, tengan la distribución que tengan nuestros datos, los ‘objetos’ que
resumen la información de una muestra, posiblemente tengan distribución normal
(o asociada).

Ejercicio

1. La vida media de los habitantes de un país es de 68 años, con una varianza


de 25. Se hace un estudio en una pequeña ciudad de 10.000 habitantes:
a) ¿Cuántas personas superarán previsiblemente los 75 años?
b) ¿Cuántos vivirán menos de 60 años?

Respuesta.

a) Personas que vivirán (previsiblemente) más de 75 años


Luego, el 8,08% de la población (808 habitantes) vivirán más de 75 años.

93
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

b) Personas que vivirán (previsiblemente) menos de 60 años


Luego, el 5,48% de la población (548 habitantes) no llegarán probablemente a
esta edad.

El consumo medio anual de cerveza de los habitantes de un país es de 59 litros,


con una varianza de 36. Se supone que se distribuye según una distribución
normal.

2. Un líder comunitario le informa al posible desarrollador de un centro


comercial que el ingreso promedio por hogar en la zona es de $ 45000.
Suponga, que puede asumirse que, para el tipo de la zona que se trata, el
ingreso por hogar tiene una distribución aproximadamente normal y que
puede aceptarse que la desviación estándar es igual a $2000, con base en
un estudio anterior. A partir de una muestra aleatoria de n = 15 hogares, se
determina que el ingreso domestico medio es de $44500. Pruebe la Ho de
que µ = $45000 con un nivel de significancia de 5%.

Respuesta:

Z = -1.93. Dado que la SC = -1.93 se halla en la región de aceptación de Ho, el


argumento del representante de la comunidad no puede rechazarse al nivel
significancia de 5%.

Distribución exponencial.

−x
β
e
f ( x) = , x > 0 El parámetro β es la media de la distribución.
β

La distribución exponencial se ha comprobado que representa la distribución de


variables aleatorias como el lapso de tiempo de permanencia de un cliente en una
tienda, el tiempo que dura una maquina antes de volver a descomponerse, la
duración de la firma de negocios y la demanda de un producto a varios niveles de
precios.

Ejemplo.

Suponga que un fabricante de bulbo de televisión ha descubierto por medio de la


experiencia que un bulbo estándar dura un periodo de dos años. Si garantiza sus
bulbos por un año, ¿Qué proporción de sus clientes necesitaran algún ajuste
porque sus bulbos hallan fallado antes del termino de un año?

Si x denota la duración de un bulbo en años, y si tiene una distribución


exponencial, entonces la distribución de probabilidad de x esta dada por

f (x) = ½ e-x/2

94
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

El problema por tanto, es calcular P (x≤1). Esto esta dada por el área bajo la
grafica de f(x) desde x = 0 hasta x =1.

Tales áreas se obtienen fácilmente por medio del cálculo y para la grafica de f(x)
cuya ecuación es dada por:

f (x) = 1 - e-x/2

Aquí A(x) = denota el área bajo f(x) desde 0 hasta x.

P(x ≤1) = A (1) = 1 - e-1/2 = 0.39

Ejercicio.

Fotografías tomadas desde un helicóptero mostraron que en promedio había 80


autos circulando en el carril de alta velocidad sobre un tramo de una milla de una
vía rápida urbana. En meses recientes habían ocurrida ciertos número de
accidentes en ese tramo atribuidos al manejo a corta distancia del auto delantero.
Si para plena seguridad, debería ser de cuando menos 30 pies, la distancia entre
coches en ese tramo y sobre ese carril, ¿Qué porcentaje de los coches corren a
una distancia demasiada corta del delantero?

Repuesta:

Alrededor del 37 % de los conductores viaja demasiada cerca del auto de


adelante.

4.7 Teorema central del límite.

Dada una v.a. cualquiera, si extraemos muestras de tamaño n, y calculamos los


promedios muestrales, entonces:

Dichos promedios tienen distribución aproximadamente normal;

La media de los promedios muestrales es la misma que la de la variable


original.

La desviación típica de los promedios disminuye en un factor “raíz de n”


(error estándar).

Las aproximaciones anteriores se hacen exactas cuando n tiende a infinito.

Este teorema justifica la importancia de la distribución normal.

95
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Sea lo que sea lo que midamos, cuando se promedie sobre una muestra
grande (n>30) nos va a aparecer de manera natural la distribución
normal.

4.7.1 Distribuciones asociadas a la normal.

Cuando queramos hacer inferencia estadística hemos visto que la distribución


normal aparece de forma casi inevitable.

Dependiendo del problema, podemos encontrar otras (asociadas):

X2 (chi cuadrado)
t- student
F-Snedecor

Estas distribuciones resultan directamente de operar con distribuciones normales.


Típicamente aparecen como distribuciones de ciertos estadísticos.

Veamos algunas propiedades que tienen (superficialmente). Para más detalles


consultad el manual.

Sobre todo nos interesa saber qué valores de dichas distribuciones son “atípicos”.

Significación, p-valores,…

4.7.2 Chi cuadrado.

Tiene un sólo parámetro denominado grados de libertad.

96
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

La función de densidad es asimétrica positiva. Sólo tienen densidad los valores


positivos.

La función de densidad se hace más simétrica incluso casi gausiana cuando


aumenta el número de grados de libertad.

Normalmente consideraremos anómalos aquellos valores de la variable de la “cola


de la derecha”.

97
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

4.7.3 T de student

Tiene un parámetro denominado grados de libertad.


Cuando aumentan los
grados de libertad, más se
acerca a N (0,1).

Es simétrica con respecto


al cero.

Se consideran valores
anómalos los que se
alejan de cero (positivos o
negativos).

La prueba de t Student, es un método de análisis estadístico, que compara las


medias de dos categorías dentro de una variable dependiente, o las medias de
dos grupos diferentes. Es una prueba paramétrica, o sea que solo sirve para
comparar variables numéricas de distribución normal. En caso de tener que
analizar variables numéricas de distribución anormal, se debe utilizar otro tipo de
pruebas no paramétricas, como la prueba U de Mann – Whitney.

La prueba t Student, arroja el valor del estadístico t. Según sea el valor de t,


corresponderá un valor de significación estadística determinado.

t = [(x - µ)/s] * √ (N – 1) ó t = [(X - µ)/ŝ] * √N

En definitiva la prueba de t Student contrasta la HP Nula de que la media de la


variable numérica “y”, no tiene diferencias para cada grupo de la variable
categórica “x”.

La prueba t para muestras independientes se utiliza para comparar la media de


dos grupos o dos categorías dentro de una misma variable dependiente.

Por ejemplo,

Supongamos la comparación de la edad en 566 pacientes con Hipertensión


esencial y 214 con Hipertensión secundaria. Los resultados arrojan que los
pacientes del grupo de hipertensión esencial presentan una edad media de 55 12
años, mientras que los hipertensos secundarios 26 8 años. El valor de la prueba t
se establece mediante el estadístico t que en este caso es de 38,9
correspondiendo a una p < 0.0001. Esto implica que la diferencia de edad entre
ambos grupos de hipertensos no es aleatoria, o sea que la hipertensión

98
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

secundaria se observa en grupos etarios más jóvenes. (Se rechaza la HP Nula HP


alterna)

Por ejemplo, para una prueba t con nivel alfa 0'05 unidireccional y 4 grados de
libertad la t crítica es 2.132.

Para obtener en esta tabla los valores de t crítica para contrastes bidireccionales
dividir el nivel alfa bidireccional por 2 y seleccionar la columna que corresponda a
ese cociente. Por ejemplo, para una prueba t con nivel alfa 0'05 bidireccional y 18
grados de libertad la t crítica es 2.101 (obtenido en la fila gl =18 y en la columna
encabezada por 0.025)

Valores críticos para la distribución Student's t alfa = área a la derecha de t (df,


alfa)
T~ t(d.f) P(T > t(df, alfa))
grados alfa
de
libertad 0.1000 0.0500 0.0250 0.0100 0.0050 0.0010 0.0005
1 3.078 6.314 12.706 31.821 63.656 318.289 636.578
2 1.886 2.920 4.303 6.965 9.925 22.328 31.600
3 1.638 2.353 3.182 4.541 5.841 10.214 12.924
4 1.533 2.132 2.776 3.747 4.604 7.173 8.610
5 1.476 2.015 2.571 3.365 4.032 5.894 6.869
6 1.440 1.943 2.447 3.143 3.707 5.208 5.959
7 1.415 1.895 2.365 2.998 3.499 4.785 5.408
8 1.397 1.860 2.306 2.896 3.355 4.501 5.041
9 1.383 1.833 2.262 2.821 3.250 4.297 4.781
10 1.372 1.812 2.228 2.764 3.169 4.144 4.587
11 1.363 1.796 2.201 2.718 3.106 4.025 4.437
12 1.356 1.782 2.179 2.681 3.055 3.930 4.318
13 1.350 1.771 2.160 2.650 3.012 3.852 4.221
14 1.345 1.761 2.145 2.624 2.977 3.787 4.140
15 1.341 1.753 2.131 2.602 2.947 3.733 4.073
16 1.337 1.746 2.120 2.583 2.921 3.686 4.015
17 1.333 1.740 2.110 2.567 2.898 3.646 3.965
18 1.330 1.734 2.101 2.552 2.878 3.610 3.922
19 1.328 1.729 2.093 2.539 2.861 3.579 3.883
20 1.325 1.725 2.086 2.528 2.845 3.552 3.850
21 1.323 1.721 2.080 2.518 2.831 3.527 3.819

99
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

22 1.321 1.717 2.074 2.508 2.819 3.505 3.792


23 1.319 1.714 2.069 2.500 2.807 3.485 3.768
24 1.318 1.711 2.064 2.492 2.797 3.467 3.745
25 1.316 1.708 2.060 2.485 2.787 3.450 3.725
26 1.315 1.706 2.056 2.479 2.779 3.435 3.707
27 1.314 1.703 2.052 2.473 2.771 3.421 3.689
28 1.313 1.701 2.048 2.467 2.763 3.408 3.674
29 1.311 1.699 2.045 2.462 2.756 3.396 3.660
30 1.310 1.697 2.042 2.457 2.750 3.385 3.646
31 1.309 1.696 2.040 2.453 2.744 3.375 3.633
32 1.309 1.694 2.037 2.449 2.738 3.365 3.622
33 1.308 1.692 2.035 2.445 2.733 3.356 3.611
34 1.307 1.691 2.032 2.441 2.728 3.348 3.601
35 1.306 1.690 2.030 2.438 2.724 3.340 3.591
36 1.306 1.688 2.028 2.434 2.719 3.333 3.582
37 1.305 1.687 2.026 2.431 2.715 3.326 3.574
38 1.304 1.686 2.024 2.429 2.712 3.319 3.566
39 1.304 1.685 2.023 2.426 2.708 3.313 3.558
40 1.303 1.684 2.021 2.423 2.704 3.307 3.551
60 1.296 1.671 2.000 2.390 2.660 3.232 3.460
120 1.289 1.658 1.980 2.358 2.617 3.160 3.373
Inf. 1.282 1.645 1.960 2.327 2.576 3.091 3.291

Ejemplo de Interpolación.

22 − 23 1.321 − x
= = x = 1.319
22 − 24 1.321 − 1.318

4.7.4 F de Snedecor

Tiene dos parámetros denominados grados de libertad.

100
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Sólo toma valores positivos.


Es asimétrica.

Normalmente se consideran
valores anómalos los de la
cola de la derecha

V. Estimación confidencial.
Objetivos de la unidad.

1. Calcular los intervalos de confianza en la distribución normal.


2. Estimar intervalos para la media (caso general) y para dos
poblaciones.
3. Realizar estimación del tamaño muestral.
4. Calcular los intervalos de confianza en la distribución t student.
5. Estimar los intervalos de confianza para la distribución ji-cuadrada.

Un estimador es una cantidad numérica calculada sobre una muestra y que


esperamos que sea una buena aproximación de cierta cantidad con el mismo
significado en la población (parámetro).

En realidad ya en algún momento hemos trabajado con estimadores cada vez que
hacemos una práctica con muestras extraídas de una población y suponemos que
las medias, etc.… eran próximas de las de la población.

Para la media de una población:


“El mejor” es la media de la muestra.

Para la frecuencia relativa de una modalidad de una variable:


“El mejor” es la frecuencia relativa en la muestra.

Habría que precisar que se entiende por “el mejor estimador” pero eso nos haría
extendernos demasiado. Ver libro bioestadistica.

¿Es útil conocer la distribución de un estimador?

Es la clave para hacer inferencia. Ilustrémoslo con un ejemplo que ya tratamos en


el tema anterior (teorema del límite central).

101
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Si de una variable conocemos µ y σ, sabemos que para muestras “grandes”, la


media muestral es: σ
EE =
n
„ aproximadamente normal,

„ con la misma media y,

„ desviación típica mucho menor (error estándar)

Es decir si por ejemplo µ=60 y σ=5, y obtenemos muestras de tamaño n =100,

„La desv. típica de la media muestral (error estándar) es EE = 5/√(100)=0,5


„como la media muestral es aproximadamente normal, el 95% de los
estudios con muestras ofrecerían estimaciones entre 60±1

Dicho de otra manera, al hacer un estudio tenemos una confianza del 95% de que
la verdadera media esté a una distancia de ±1.

En el ejemplo anterior la situación no era muy realista, pues como de todas


maneras no conozco σ desconoceré el intervalo exacto para µ.

Sin embargo también hay estimadores para σ y puedo usarlo como aproximación.

Para tener una idea intuitiva, analicemos el siguiente ejemplo. Nos servirá como
introducción a la estimación puntual y por intervalos de confianza.

Ejemplo: Una muestra de n =100 individuos de una población tiene media


de peso 60 Kg. y desviación 5kg.

Dichas cantidades pueden considerarse como aproximaciones (estimaciones


puntuales)
60 kg estima a µ
5 kg estima a σ

5/√(n)= 0,5 estima el error estándar (típico) EE

Estas son las llamadas estimaciones puntuales: un número concreto calculado


sobre una muestra es aproximación de un parámetro.

Una estimación por intervalo de confianza es una que ofrece un intervalo como
respuesta. Además podemos asignarle una probabilidad aproximada que mida
nuestra confianza en la respuesta:

Hay una confianza del 68% de que µ esté en 60±0,5


Hay una confianza del 95% de que µ esté en 60±1.

Ojo: He hecho un poco de trampa. ¿La ves?

102
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

5.1 Estimación puntual y por intervalos

Se denomina estimación puntual de un parámetro al ofrecido por el estimador


sobre una muestra.

Se denomina estimación confidencial o intervalo de confianza para un nivel de


confianza 1-α dado, a un intervalo que ha sido construido de tal manera que con
frecuencia 1-α realmente contiene al parámetro.

⇒ Obsérvese que la probabilidad de error (no contener al parámetro) es α.


En el siguiente tema se llamará probabilidad de error de tipo I o nivel de
significación.
„Valores típicos: α=0,10 ; 0,05 ; 0,01

⇒ En general el tamaño del intervalo disminuye con el tamaño muestral y


aumenta con 1-α.
⇒ En todo intervalo de confianza hay una noticia buena y otra mala:
„La buena: hemos usado una técnica que en % alto de casos acierta.

„La mala: no sabemos si ha acertado en nuestro caso.

Intervalo de confianza Es la probabilidad de que el criterio de evaluación


seleccionado (por ejemplo, t ha-1) caerá dentro de cierto rango por encima y por
debajo de la media. Se calcula con la fórmula

La formula para estimar intervalos de confianza es: X ± Z (1−α ) *σ X


2
Es decir,

Estimador +/- coeficiente de confiabilidad * error estándar.

¿Cómo se interpreta esto?

Al repetir el muestreo aproximadamente el ¿?% de los intervalos construidos


mediante la formula antes descrita incluyen la media de la población. Esta
interpretación se basa en la probabilidad de ocurrencia de diferentes valores de X
(media).

La formula puede ser cambiada según la distribución de los datos observados, si


no cumple con distribución normal, puede usarse otro estadístico de prueba como
por ejemplo la distribución t-student.

s
X ± t (1− α ) *
2 n

103
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Intervalos de confianza.

X +/- tc (ŝ /√N-1)

La prueba t para muestras dependientes se utiliza para comparar las medias de


un mismo grupo en diferentes etapas, como por ejemplo pre y post tratamiento.
Supongamos el grupo de 566 Hipertensos sometidos a tratamiento durante un
mes. Los valores de tensión arterial media (TAM) pre tratamiento fueron de 125 15
mm (Hg), que descendieron a 88 10 mm (Hg.) postratamiento. Comparando
ambas medias observamos un valor de t de 78,9 correspondiendo a una p <
0.0001. Esto implica que el descenso de la TAM con el tratamiento no se produjo
al azar.

Prueba U de Mann – Whitney

La U de Mann – Whitney es una prueba no paramétrica para grupos


independientes, que mide las diferencias entre medias, asignando rangos a cada
grupo. La suma de rangos para los 2 grupos puede compararse por la obtención
de la cifra estadística U)

La prueba de Suma de Rangos de Wilcoxon es semejante a la prueba U, pero


se utiliza para muestras de grupos dependientes o apareados.

Por ejemplo, para una prueba t con nivel alfa 0'05 unidireccional y 4 grados de
libertad la t crítica es 2.132.

Para obtener en esta tabla los valores de t crítica para contrastes bidireccionales
dividir el nivel alfa bidireccional por 2 y seleccionar la columna que corresponda a
ese cociente. Por ejemplo, para una prueba t con nivel alfa 0'05 bidireccional y 18
grados de libertad la t crítica es 2.101 (obtenido en la fila gl =18 y en la columna
encabezada por 0.025)

Ejemplo.

Un investigador esta interesado en obtener una estimación del nivel promedio de


alguna enzima en cierta población de seres humanos. El investigador toma una
muestra de 10 individuos, determina el nivel de la enzima en cada una de ellos y
calcula la media muestral = 22. Además se sabe que la variable de interés
sigue una distribución aproximadamente normal con una varianza de 45. Estime el
valor de µ.

Solución.

Un intervalo de confianza de aproximadamente el 95% para µ esta dado por:

X ± Z (1 − α ) * σ X
2

104
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

22+/- 1.96√ (45/10)


22+/- 1.96*2.12
17.84, 26.16
Ejemplo.

Para los mismos datos de los 38 robles descritos anteriormente, un intervalo de


confianza para el promedio de un 95% viene dado por.
X ± t (α , n − 1 ) * S X = 80.3+/- 5.81; es decir, (74.4, 86.1)
2

En otras palabras, se tiene un 95% de confianza de que el intervalo (74.4 cm, 86.1
cm.) contenga al DAP promedio real (poblacional) de los robles de esa zona.

Ejercicios

Resolver los ejercicios de la página 182 y 187 del libro de Bioestadística.

1) En un experimento diseñado para estimar el número promedio de


latidos del corazón por minuto para cierta población, se encontró que el
número promedio de latidos por minuto para 49 personas era de 90. Si
resulta lógico suponer que esos 49 pacientes constituyen una muestra
aleatoria y que la población sigue una distribución normal, con una
desviación estándar de 10, calcular.

a) El intervalo de confianza (IC) del 90 % para µ


b) El intervalo de confianza (IC) del 95 % para µ
c) El intervalo de confianza (IC) del 99 % para µ

Respuesta:
b) 88,92
c) 87,93
d) 86,94

2) En un estudio acerca de la duración de hospitalización dirigido por


varios hospitales en cooperación, se extrajo una muestra aleatoria de
64 individuos con úlcera péptica de la lista de todos los pacientes con
esa enfermedad internados alguna vez en los hospitales participantes.
Se determino para cada uno de ellos el tiempo de hospitalización. Se

105
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

encontró que la duración media de hospitalización fue de 8.25 días. Si


se sabe que la desviación estándar de la población es de 3 días,
calcular:

a) El intervalo de confianza (IC) del 90 % para µ


b) El intervalo de confianza (IC) del 95 % para µ
c) El intervalo de confianza (IC) del 99 % para µ

Respuesta.
a) 7.63,8.87
b) 7.51,8.99
c) 7.28,9.22

3) A nueve pacientes que sufren la misma incapacidad física, y por lo


tanto son comparables, se les pidió que llevaran a cabo cierta tarea
como parte de un experimento. El tiempo promedio necesario para
realizar la tarea fue de 7 minutos con una desviación estándar de 2
minutos. Suponiendo que la distribución de los datos es normal,
construir intervalos de confianza del 90, 95 y 99 % para el tiempo
medio real para que este tipo de paciente realice la tarea.
Respuesta.
a) 5.76,8.24
b) 5.46,8.54
c) 4.76,9.24

4) Una muestra de 25 niños de 10 años de edad proporciono un peso


medio y una desviación estándar de 73 y 10 libras respectivamente. Si
la población sigue una distribución normal, encontrar los intervalos de
confianza del 90, 95 y 99 % para la media de la población.

Respuesta.
a) 69.58,76.42
b) 68.87,77.13
c) 67.41,78.59

5) Una muestra aleatoria simple de 16 individuos aparentemente


normales proporcionan los siguientes niveles de arsénico expulsado
en la orina (miligramos por día)

sujeto valor sujeto valor


1 0.007 9 0.012

106
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

2 0.030 10 0.006
3 0.025 11 0.010
4 0.008 12 0.032
5 0.030 13 0.006
6 0.038 14 0.009
7 0.007 15 0.014
8 0.005 16 0.011

Construir un intervalo de confianza de 95 % para la media de la población.

Respuesta.

0.00964, 0.02160

Ejercicios de Aplicación.

Descriptivos para Número de hijos

Estadístico Error típ.


Al final del tema dejamos sin
Media 1,90 ,045 interpretar parte de los
Intervalo de Límite resultados que obtenidos
1,81
confianza para la inferior con el programa estadístico
media al 95% Límite SPSS.
superior 1,99
¿Sabrías interpretar lo que
Media recortada al 5%
1,75 falta por sombrear?

Mediana 2,00 ¿Puedes dar un intervalo de


Varianza 3,114 confianza para la media al
Desv. típ. 1,765 68% de confianza?
Mínimo 0
Máximo 8 Observa la asimetría.
Rango 8 ¿Crees probable que la
Amplitud intercuartil asimetría en la población
3,00
pueda ser cero ya que la
Asimetría 1,034 ,063
obtenida en la muestra es
Curtosis 1,060 ,126
aprox. 1?

Muestreo.

Preg. 1. Se realiza una auditoría de historias clínicas tomando una primera


historia al azar y después sucesivamente, la que ocupa la vigésima posición
detrás de la anterior. Este procedimiento de muestreo se denomina:

107
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

a, Por conglomerados.
b, Sistemático.
c, Correlativo.
d, Consecutivo.
e, Equidistante.

Preg. 2. Se realiza un estudio con objeto de determinar el tiempo de


supervivencia en pacientes con cáncer. Para ello de los dos hospitales existentes
en una ciudad, se selecciona aleatoriamente uno de ellos, y se elige una muestra
aleatoria de pacientes, atendiendo al tipo de cáncer: El muestreo realizado es:

a, Sistemático.
b, Aleatorio.
c, Por conglomerados.
d, Estratificado.
e, Por conglomerados y estratificado.

Preg. 3. La edad de los individuos de una población sigue una distribución normal.
Se extrae aleatoriamente una muestra de 300 pacientes cuya media es de 50
años, y la desviación típica es 10 años. Entonces:

a, Aproximadamente el 95% de los pacientes tienen edades entre 30 y 70 años.


b, Existe una probabilidad del 95% de que la verdadera media de la población esté
entre 30 y 70 años.
c, Aproximadamente el 95% de los pacientes tienen edades entre 40 y 60 años.
d, Existe una probabilidad del 95% de que la verdadera media de la población esté
entre 40 y 60 años.
e, Existe una probabilidad del 95% de que la verdadera media de la población esté
entre 45 y 55 años.

Preg. 4. Se desea estimar confidencialmente el número medio de veces que


asiste a un servicio de salud los individuos de una población. Para ello se toman
muestras aleatorias entre los individuos que asisten regularmente a los mismos.
Esta técnica de muestreo es:

a, Un muestreo aleatorio simple.


b, muestreo aleatorio estratificado.
c, Un muestreo aleatorio por conglomerados.
d, Incorrecta.
e, Ninguna de las anteriores.

Preg. 5. En un intervalo de confianza para una media, buscamos disminuir el


margen de error. Cuál de las siguientes posibilidades nos permite realizarlo:

a,Aumentar el tamaño muestral y la confianza.


b,Aumentar el tamaño muestral y disminuir la confianza.
c,Aumentar la confianza.

108
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

d,Disminuir la varianza muestral.


e,Aumentar la varianza muestral.

Preg. 6. Deseamos conocer la opinión de los ciudadanos de Siuna sobre el


sistema de salud pública. Para ello elegimos una muestra aleatoria de entre los
abonados a telefónica. Entonces:

a,La población de estudio es la de los ciudadanos de Siuna.


b,La población de estudio es la de los abonados a telefónica.
c,La población objetivo es la de los abonados a telefónica.
d,El conjunto de abonados a telefónica son la muestra.
e,Nada de lo anterior es cierto.

Preg. 7. Se quiere hacer un estudio sobre el tabaquismo en el municipio de


Siuna. Queremos asegurarnos tener cierto número de individuos de las
comunidades lejanas, comunidades a orillas de carreteras todo tiempo y del área
urbana, pues creemos que en cada una de esas zonas la incidencia es diferente.
Haremos un muestreo:

a,Aleatorio simple.
b,Estratificado.
c,Sistemático.
d,Por grupos.
e,No probabilístico.

Preg. 8. Una estimación confidencial para un nivel de confianza fijado, da por


respuesta:

a,Una aproximación de la media.


b,Una aproximación de una proporción.
c,Una probabilidad.
d,Un intervalo.
e,Un nivel de significación.

Preg. 9. Cuando la población objetivo y de estudio en un muestreo difieren


mucho, entonces:

a,Debe usarse el método de respuestas aleatorizadas.


b,Pueden existir sesgos.
c,No pueden selec cionarse unidades de muestreo.
d,Se debe usar un muestreo no probabilístico.
e,Nada de lo anterior es correcto.

Preg. 10. El perímetro torácico en un grupo de militares presenta distribución


gaussiana con 95 cm de media y 5 cm de desviación típica. Elegimos a una
muestra de 100 individuos y calculamos la media de la misma. Elija la afirmación
correcta:

109
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

a,La media de la muestra valdrá 95cm.


b,La media de la muestra será un valor comprendido entre 90 y 100 cm con
confianza del 68%.
c,La media de la muestra será un valor comprendido entre 95 y 100 cm con
confianza del 95%.
d,La media de la muestra será un valor comprendido entre 94 y 96 cm con
confianza del 95%.
e,Todo lo anterior es falso.

Preg. 11. Elija la afirmación correcta sobre teoría de muestreo:

a, La población de estudio es aquella de la que finalmente extraeremos una


muestra aleatoria.
b, El sesgo de selección es la diferencia existente entre la población de estudio y
la muestra.
c, Cuando se pueda, se prefieren los muestreos no probabilísticos.
d, El muestreo aleatorio simple es normalmente el más económico en la práctica.
e, El mejor tipo de muestreo es el sistemático.

Preg. 12. El consumo diario de Calorías se distribuye en una población de forma


normal, con media 2500 y desviación típica 100. Si elijo una muestra de tamaño
100, entre qué valores espero encontrar el resultado (con una probabilidad del
95% de acertar):

a, Entre 2400 y 2600.


b, Entre 2300 y 2700.
c, Entre 2490 y 2510.
d, Entre 2480 y 2520.
e, Entre 2498 y 2502.

Preg. 13. Un intervalo de confianza será más amplio cuando:

a,La varianza sea mayor


b,El nivel de confianza sea mayor.
c,El tamaño de muestra sea mayor.
d,Todas las anteriores son correctas
e,Sólo dos de las anteriores son ciertas.

110
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

VI. Contrastes de hipótesis.


Objetivos de la unidad.

1. Conocer los conceptos y planteamientos generales de las hipótesis.


2. Comprender los errores tipo I y tipo II.
3. Contrastar hipótesis para os parámetros mas usuales: media y varianza,
para una o dos poblaciones.
4. Interpretar las pruebas de hipótesis y sus contrastes.
5. Usar las pruebas de hipótesis como una herramienta base en las tomas de
decisiones.

Hipótesis.
Es una suposición acerca de una o más poblaciones. En general las
hipótesis se refieren a los parámetros de la población para los cuales se
hace la proposición. En términos sencillos podemos definir hipótesis como
una creencia sobre la población, principalmente sus parámetros:

• Media
• Varianza
• Proporción/Tasa

OJO: Si queremos contrastarla, debe establecerse antes del análisis.

Pasos a seguir en el contraste de hipótesis. Para mas detalles, no te quedara más


remedio que continuar leyendo este documento.

El primer paso a tomar al comenzar una investigación es pensar en la pregunta


que a uno le interesa. Esta pregunta debe estar basada en la teoría existente o
algunas observaciones previas. El siguiente paso es plantear la hipótesis nula. La
hipótesis nula (H0) es la hipótesis de “ningún efecto” y generalmente es formulada
con el propósito expreso de desecharla, es decir que el rechazarla es justo lo que
uno está tratando de hacer. Si es rechazada la hipótesis nula, la hipótesis
alternativa es apoyada.

¡Creo que el porcentaje de enfermos será el 5%!

111
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Ejemplo: Parcelas de exclusión de herbívoros o predación de semillas, basadas


en teorías de equilibrio del mantenimiento de la diversidad en bosques tropicales.
Una pregunta posible es ¿Promueven la diversidad vegetal los herbívoros o
predadores de semillas?

De acuerdo a las posibilidades logísticas del lugar se deciden qué parámetros


pueden ser medidos y por lo tanto cuáles Ho son posibles, por ejemplo:

1) H0 = No hay diferencia estadística entre el promedio del número de especies


por parcela (del mismo tamaño) entre zonas con herbívoros o sin herbívoros.

2) H0 = No hay diferencia estadística entre el número de parcelas con especies


dominantes (entendiéndose por especies dominantes las que tienen mayor o igual

112
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

número de tallos que el número de tallos/ número total de especies) entre zonas
con o sin herbívoros.

Después de este paso pensamos en los métodos, las medidas que uno va a
tomar, el diseño del estudio y el análisis estadístico. Es importante definir cada
medida, en el caso anterior ¿qué vamos a llamar una especie dominante? ¿Que
plantas vamos a medir, todas aquellas mayores a 10cm de diámetro ó 20m de
altura? El definir medidas puede ser muy fácil cuando se trata de medidas exactas
como altura y peso, o más complicado, especialmente, cuando se trata de
observaciones de comportamiento animal. Es importante recordar que el
investigador/a siempre tiene una idea previa sobre el resultado que desea obtener.
En realidad esto es casi inevitable porque estas ideas provienen usualmente de
las observaciones o las hipótesis existentes que han formado la visión del
investigador/a. Sin embargo, debemos intentar mantener la objetividad y para esto
las definiciones son fundamentales.

Identificación de hipótesis.

Hipótesis nula Ho
La que contrastamos
Los datos pueden refutarla
No debería ser rechazada sin una buena razón.

Hip. Alternativa H1
Niega a H0
Los datos pueden mostrar evidencia a favor
No debería ser aceptada sin una gran evidencia a favor.

⎧H0 : p=50% =, ≤, ≥
⎨ p≠50% ≠ , <, >
⎩H1 :
Por ejemplo: Un experimento realizado en el laboratorio sobre la preferencia de
un predador hacia presas crípticas o no-crípticas. El investigador le presenta a
cada predador un par de presas a la vez, una críptica y otra no. Luego espera para
detectar cuál prefiere. ¿Cómo se determina la preferencia? Si sólo se nota un
ligero cambio de dirección en el desplazamiento por parte del predador, es muy
probable que aquellos pequeños cambios direccionales hacia la presa críptica
sean ignorados mientras que aquellos hacia la presa no-críptica sean anotados.
Esto crearía un sesgo hacia la detección/preferencia de especies no-crípticas y
por lo tanto podría ocasionar el rechazo de la hipótesis nula falsamente. El nivel de
significancia (o "alfa") nos indica la probabilidad de equivocarnos al rechazar la H0
en favor de HA, o sea de cometer el error de Tipo I.

113
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

¿Quién es Ho?

Problema: ¿La osteoporosis está relacionada con el género?

Solución:
p=50%
Traducir a lenguaje estadístico:
Establecer su opuesto:
p≠50%
Seleccionar la hipótesis nula p=50%

Razonamiento básico.

Si supongo que Ho es cierta…

¿qué hace un
científico cuando su
teoría no coincide
con sus
predicciones?

µ = 40
X = 20

….el resultado del experimento seria improbable. Sin embargo


ocurrió.

¡Rechazo que Ho sea cierta!

¿Si una teoría hace


predicciones con
éxito, queda
probado que es
cierta?

µ = 40
X = 38

…el resultado del experimento es coherente.

114
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

No hay evidencia contra Ho.


No se rechaza Ho.
El experimento no es concluyente.
El contraste no es significativo.

Región crítica y nivel de significación

Región crítica

Valores ‘improbables’ si...


Es conocida antes de realizar el experimento: resultados experimentales que
refutarían H0

Nivel de significación: α

Número pequeño: 1%, 5%.


Fijado de antemano por el investigador
Es la probabilidad de rechazar H0 cuando es cierta

α=5%

Reg. Crit. Reg. Crit.

No rechazo H0
Η0: µ=40

Contrastes: unilateral y bilateral.

La posición de la región crítica depende de la hipótesis alternativa.

115
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Bilateral H1: µ≠40

Unilateral Unilateral

H1: µ<40 H1: µ>40

Significación de p.

• Es la probabilidad que tendría una región crítica que comenzase


exactamente en el valor del estadístico obtenido de la muestra.
• Es la probabilidad de tener una muestra que discrepe aún más que la
nuestra de H0.
• Es la probabilidad de que por puro azar obtengamos una muestra “más
extraña” que la obtenida.

p es conocido después de realizar el experimento aleatorio

El contraste es no significativo cuando p>α

P α
X = 43
No se rechaza
H0: µ=40

P α

Sobre α

Es número pequeño, preelegido al diseñar el experimento


Conocido a sabemos todo sobre la región crítica.

Sobre p
Es conocido tras realizar el experimento
Conocido p sabemos todo sobre el resultado del experimento

116
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Sobre el criterio de rechazo


Contraste significativo = p menor que α

Tipos de error al contrastar hipótesis.

realidad
Ho cierta Ho falsa
No Correcto Error de tipo II
rechazo El tratamiento no tiene El tratamiento si tiene efecto, pero no
Ho efecto lo percibimos
Probabilidad β
Rechazo Error tipo I Correcto
Ho El tratamiento no tiene El tratamiento tiene efecto y el
Acepto efecto, pero se decide experimento lo confirma.
Ha que si.
Probabilidad α

A. Alfa o la Probabilidad de Cometer ERROR TIPO I.

Se comete error de Tipo I cuando se rechaza la hipótesis nula falsamente o sea


cuando la hipótesis nula es verdadera. En el caso de impactos sería afirmar la
existencia de un impacto cuando realmente no lo hay. La probabilidad alfa es lo
que llamamos significancia, elegida arbitrariamente casi siempre a un nivel de P =
0.05 o 0.01.

Error tipo I (α): Se rechaza la Hipótesis nula cuando era cierta (has
condenado a un inocente)

B. Beta o la Probabilidad de Cometer ERROR TIPO II

Se comete error de Tipo II cuando se acepta una hipótesis nula que es falsa. En el
caso de impactos sería la incapacidad de encontrar un impacto cuando realmente
hay.
Error tipo II (β): Aceptar la Hipótesis Nula cuando es falsa (has dejado libre
a un culpable)

H. nula: No existen diferencias (No culpable)


H. Alternativa: Existen diferencias (Culpable)

Los errores tipo I son independientes del número de muestras, sin embargo,
errores tipo II son menos probables a medida que N (el tamaño de la muestra) es
mayor. En diferentes clases de pruebas estadísticas, la potencia de la prueba (o la
probabilidad de rechazar H0 cuando de hecho es falsa) es mayor a medida que N
(tamaño de muestra) es mayor, por el hecho de que beta disminuye.

117
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Disminuir la probabilidad de cometer el error tipo I para una n dada, implica


aumentar la probabilidad de cometer el error tipo II.

Como evitarlos: Aumentar el tamaño de la muestra.

Conclusiones.

Las hipótesis no se plantean después de observar los datos.

En ciencia, las hipótesis nula y alternativa no tienen el mismo papel:

H0: Hipótesis científicamente más simple.


H1: El peso de la prueba recae en ella.

¾ α debe ser pequeño


¾ Rechazar una hipótesis consiste en observar si p<α
¾ Rechazar una hipótesis no prueba que sea falsa. Podemos cometer error
de tipo I
¾ No rechazar una hipótesis no prueba que sea cierta. Podemos cometer
error de tipo II
¾ Si decidimos rechazar una hipótesis debemos mostrar la probabilidad de
equivocarnos.

Ejemplo.

Un error tipo I puede llevarnos a concluir que el agua que esta siendo vertida de
una planta industrial tiene una temperatura media que excede los 150 °F cuando
en realidad la temperatura media no es mayor que los 150 °F.

Un error tipo II es concluir que la temperatura media del agua que esta siendo
vertida es 150 °F o menos cuando en la realidad la temperatura media excede los
150 °F.

Análisis.

Cometer un error tipo II puede ser muy serio. Causamos daño al ecosistema del
río. Estos daños generalmente toman gran tiempo repararlos si se piensa reparar
el daño practico.

Un error tipo I significa que tenemos que requerir de una planta que tome la acción
correctiva cuando no es necesario hacerlo. Consecuencias financieras en lo
natural.

118
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

6.1 Hipótesis.

Los investigadores se interesan en dos tipos de hipótesis: de investigación y


estadísticas.
La hipótesis de investigación es la de conjetura o suposición que motiva la
investigación

Las hipótesis de investigación conducen directamente a la hipótesis estadística.


Estas se establecen de tal forma que pueden ser evaluadas por medio de técnicas
estadísticas adecuadas.

Las pruebas de hipótesis se presentan como un procedimiento de prueba.

Datos. Comprende la naturaleza de los datos.


Suposiciones. Parámetros respecto a la normalidad de la distribución.

Hipótesis.
Hipótesis que debe probarse (Ho)
Hipótesis alternativa.

Nota. Al especificar una hipótesis nula y una hipótesis alternativa debe cuidar que
se cumpla lo siguiente.
Excluyente
Con base real

H. nula: No existen diferencias (No culpable)


H. Alternativa: Existen diferencias (Culpable

Estadística de prueba.
Estadística relevante – parámetro supuesto
Error estándar de la estadística relevante.

Distribución de la estadística de prueba.

Regla de decisión.

Una vez calculada la prueba estadística se dicta la sentencia, es decir, se rechaza


o no se rechaza la H. Nula. La H. Nula es falsa pero no puede rechazarse.

La regla de decisión se señala que se debe rechazar la Ho si el valor de la


estadística de prueba que se calcula a partir de la muestra es uno de los valores
de la región de rechazo.

La decisión en cuanto a que valores van hacia la región de rechazo y cuales a la


región de aceptación se toma con base en el nivel de significancia deseado (α)

119
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Contraste de Hipótesis: Elección de la prueba apropiada

Supongamos que quieres comparar dos grupos de datos, por ejemplo el valor
medio de la longitud del pico en machos y hembras de X especie. En este caso los
datos son independientes, pues los grupos de datos a comparar se han obtenido
por el muestreo de individuos distintos. De modo indicativo, el procedimiento a
seguir es el siguiente.

1. Para cada grupo por separado, comprueba si los datos siguen una distribución
normal, por medio de un test de Kolmogorov-Smirnov.

2. Comprueba la igualdad de variancias entre ambos grupos, por medio de un test


de Bartlett.

3. Si se cumplen los requisitos de normalidad e igualdad de variancias, puedes


comparar las medias mediante uno de estos dos tests:

(a) un test de la t,

(b) un análisis de variancia o ANOVA, de idéntico resultado pero más


potente.

4. Si los datos son normales, pero las variancias son heterogéneas,

(a) utiliza una transformación de los datos (logarítmica, raíz cuadrada o


inversa), comprueba si las variancias se vuelven homogéneas y en caso
afirmativo utiliza un ANOVA,

(b) utiliza el test de la t aproximado de Welch, que no asume igualdad de


variancias,

(c) utiliza un test de la U de Mann-Whitney, que no es paramétrico.

5. Si los datos no son normales, pero las variancias son homogéneas,

(a) utiliza una transformación de los datos (logarítmica, raíz cuadrada o


inversa), comprueba que si datos se vuelven normales y en caso afirmativo
utiliza un ANOVA. El ANOVA es robusto ante la falta de normalidad, pero si
los datos no son normales conviene usar otro test,

(b) utiliza un test de la U de Mann-Whitney, que no es paramétrico.

6. Si los datos no son normales ni las variancias son homogéneas,


(a) intenta una transformación de los datos, como ya se ha dicho en los
puntos previos,
(b) utiliza un test de la U de Mann-Whitney, que no es paramétrico.

120
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Si los datos no son independientes, es decir, los grupos a comparar


provienen del muestreo de los mismos individuos (p. ej. el tamaño de
puesta entre dos puestas sucesivas de una misma hembra), se procede del
siguiente modo.

1. Si los datos son normales y las variancias homogéneas, puedes utilizar un


ANOVA de medidas repetidas.

2. Si la diferencia entre cada par de valores sigue una distribución normal, puedes
utilizar un test de la t de medidas repetidas. Este test requiere comprobar menos
requisitos que el anterior.

3. Si no se cumplen los requisitos paramétricos, usa un test de Wilcoxon de


rangos con signo.

Hay otros tests no paramétricos para comparar dos grupos de datos no


independientes, pero son menos potentes.

Cuando se trata de comparar más dos grupos de datos, como el crecimiento de


pollos a tres tasas de ceba diferentes, la cantidad de posibilidades de análisis
aumenta. Aquí trataré sólo las más simples, para datos independientes y una
clasificación sencilla de los grupos (es decir, los grupos se constituyen en base a
un sólo factor; en el ejemplo, la tasa de ceba). En los restantes casos, y como con
el uso de la Estadística en general, es necesario consultar los libros más
especializados. El procedimiento indicativo a seguir es el siguiente.

1. Para cada grupo por separado, comprueba si los datos siguen una distribución
normal, por medio de un test de Kolmogorov-Smirnov.

2. Comprueba la igualdad de variancias entre grupos, por medio de un test de


Bartlett.

3. Si se cumplen los requisitos de normalidad e igualdad de variancias compara


las medias mediante un ANOVA (el test de la t no es aplicable a más de dos
grupos).
(a) Si las diferencias entre grupos son significativas, utiliza un test a
posteriori (hay muchos) para descubrir qué grupo o grupos son los responsables
de dichas diferencias.

4. Si los datos son normales, pero las variancias son heterogéneas,


(a) utiliza una transformación de los datos (logarítmica, raíz cuadrada o
inversa), comprueba si las variancias se vuelven homogéneas y en caso
afirmativo utiliza un ANOVA,
(b) transforma los datos en forma de rangos y realiza el ANOVA sobre los
mismos.

121
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

5. Si los datos no son normales, pero las variancias son homogéneas,

(a) utiliza una transformación de los datos (logarítmica, raíz cuadrada o


inversa), comprueba si los datos son normales y en caso afirmativo utiliza
un ANOVA. El ANOVA es robusto ante la falta de normalidad, pero si los
datos no son normales conviene usar otro test,
(b) utiliza un test de Kruskal-Wallis, que no es paramétrico. Este test
requiere igualdad de variancias, por lo que no es aplicable al caso (4) ni al
(6) (aunque al parecer es bastante robusto ante la heterogeneidad de
variancias).
(i) Si las diferencias entre grupos son significativas, utiliza un test a
posteriori de Dunn-Sidák para descubrir qué grupo o grupos son los
responsables de dichas diferencias.

6. Si los datos no son normales ni las variancias son homogéneas,


(a) intenta una transformación de los datos, como ya se ha dicho en los
puntos previos,
(b) transforma los datos en forma de rangos y realiza el ANOVA sobre los
mismos.

Tipo de test
Variables continuas, discretas, rangos o atributos.
Número de muestras a comparar

Ejemplo.

Utilizando los datos del ejemplo en la unidad 2, se quiere saber si el diámetro a la


altura de pecho (DAP) promedio de un roble en las cercanías del Volcán Poas es
de 50 cm.
Parcela 1 Parcela 2 Parcela 3 Parcela 4
90 66 106 84
105 83 104 82
97 97 59 95
78 70 47 95
100 69 44 80
75 75 51 109
89 58 59 72
74 75 81 71
68 212 62 91
93 84

Si se asume que la distribución de DAP`s sigue la forma de una campana, pocos


DAP`s pequeños y DAP`s grandes, concentrándose la mayoría en el medio,
entonces se puede utilizar la prueba t para probar la conjetura hecha
anteriormente.

122
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Primero se establecen las hipótesis:


Ho: µ = 50 cm.
Ha: µ ≠50 cm.

Ahora se selecciona el estadístico de prueba. Como se asume normalidad y los


datos provienen de un muestreo al azar, se selecciona la prueba t – student.
X −µ
t `=
Sx
t´ = 80.3-50 = 10.61
17.6/√38
t `(α
2
, n −1 ) = t(0.025 ,37 ) = 2.026.

Por ultimo se toma una decisión según la evidencia suministrada. Debido a que la
t calculada, t` es 10.61 y que la t tabular, t, tiene una valor de 2.03, se debe
rechazar Ho. En otras palabras existe suficiente evidencia para rechazar la
conjetura de que el DAP promedio es de 50 cm. El nivel de significancia de esta
prueba es menor a 0.001 (p<0.001), ya que el valor t calculado es menor que el
valor tabular, para 37 grados de libertad, correspondiente a la probabilidad de
0.001. Se dice por lo tanto, que la prueba es altamente significativa.

6.2 Pruebas Paramétricas y No Paramétricas

Supuestos sobre los datos:

1 Los datos corresponden a una variable


2 Variable sigue distribución normal continua
3 Varianza de los subgrupos son similares
4 Los datos son independientes

Si se cumple: Test paramétrico (mas potente)


Si no se cumple: Test no paramétrico

6.2.1 Como escoger entre una prueba paramétrica y no paramétrica

1 Si el tamaño de la muestra es ‹ 10, no paramétrica.

2 Comprueba
a) Normalidad → Test Kolmogorov - Smirmov
b) Homogeneidad → Prueba F de similitud de varianzas

3 Si se cumple, usa prueba paramétrica

123
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Comparando promedios

Diferencias observadas entre 2 promedios, ¿es significativo o un error de


muestreo? Muestras proceden:

• Ho: De poblaciones con promedios idénticos, y las diferencias son error de


muestreo
• Ha: De poblaciones con promedios distintos, y las diferencias no se deben
a un error de muestreo.

6.2.2 Pruebas Paramétricas

Prueba de t para datos no pareados


Prueba de t para datos pareados

• Observaciones reales
• Comparan medias
• Datos deben tomarse en escalas de intervalos
• Medias y varianzas similares

6.2.3 Pruebas No Paramétricas

Prueba de U de Mann Whitney para datos no pareados


Prueba de Wilcoxon para datos pareados

• Rangos
• Comparan medianas

Para esta prueba (Mann – Whitney), así como para otros métodos no
parametritos, las mediciones originales no son utilizadas, si no que se utilizan los
rangos de las mediciones. Los datos pueden ser ranqueados tanto del mayor al
menor como del menor al mayor.

El estadístico que se calcula se U y se obtiene de la expresión:

n1 (n1 +1)
U = n1 * n2 + − R1
2
Donde n1 y n2 son los números de las observaciones en las muestras 1 y 2
respectivamente y R1 es la suma de los rangos de las observaciones en la
muestra 1.

124
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Ejemplo. Los datos se refieren a las longitudes de ala (mm) de seis machos y ocho
hembras del pájaro Carbonero común Parus major. Se han ordenado por
conveniencia de menor a mayor.

Machos R Hembras R
73 5 71 1
74.3 8.5 71.5 2
75 10 72 3
75.3 12 72.4 4
75.5 13 73.5 6.5
75.8 10 73.5 6.5
74.3 8.5
75.2 11
n1= 6 R1 = 62.5 n2 = 8 R2 = 42.5

Ho: las longitudes de las alas son iguales en machos y hembras.


Ha: las longitudes de las alas son diferentes en machos y hembras.

Formula de trabajo:
n1 (n1 + 1)
U = n1 * n2 + − R1
2

Donde Ú = n1n2 – U y sustituyendo:

6(6 + 1)
U = 6 *8 + − 62 .5 = 6.5
2
Ú = 6*8 – 6.5 = 41.5.

U tab. (Sigarroa) = 40
U tab. (Fowler y Cohen) = 8

Por ejemplo, en ese caso concreto se selecciona el menor de los dos valores de U
y se compara con el valor tabular:

Uc = 6.5
U tab. (Fowler y Cohen) = 8

Conclusión: Como el valor calculado es menor que el tabular se rechaza Ho.

125
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Ejercicio.

Prueba de t para datos no pareados. Para comparar el promedio de dos muestras


pequeñas.

Hembra y macho.
1 2 3 4 5.5 5.5 7 8 9 10 11 12 13.5 13.5 15 16
153, 155, 157, 159, 160, 160, 161, 162, 163, 164, 165, 167, 170, 170, 172, 173,

17 18 19 20 21 22
174, 176, 178, 179, 180, 185.

Prueba para comparar promedios.

U de Mann – Whitney para datos no pareados.

n 2 (n 2 + 1)
U 1 = n1 * n 2 + − R2
2
n (n + 1)
U 2 = n1 * n 2 + 1 1 − R1
2

U 1 + U 2 = n1 * n 2

Seleccione el menor valor. Si U< valor critico, se rechaza la hipótesis nula Ho.

R1 = H = 75
R2 = M = 178

U1 = 11 * 11 + 11(11+1)1/2 – 178 = 121 + 66 – 178 = 9


U2 = 11 * 11 + 11(11+1)1/2 – 75 = 121 + 66 - 75 = 122.

M & 185 – 165 = 20

Valor de la prueba de U de Mann – Whitney es 30.

Como en los tests de hipótesis, el uso de la correlación y la regresión depende del


cumplimiento de una serie de requisitos, cuyas violaciones tienen consecuencias
diversas. Al ser un aspecto más complejo del estudio de la asociación entre
variables, se tratará aquí de modo muy preliminar y sin dar todas las explicaciones
necesarias, que serían demasiado largas y técnicas. No obstante, debe ser
mencionado para no dar una falsa impresión de que los tests pueden usarse en
cualquier circunstancia. Al contrario, además del tipo de variables y de datos, el
ajuste a los requisitos es una parte fundamental en la elección del test adecuado.

126
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Los requisitos necesarios para poder realizar un análisis de regresión paramétrico


son: a) las medidas son independientes, b) la relación entre las variables es linear,
no curvilinea, c) los valores de la variable independiente son fijados por el
observador, d) la variable independiente se mide sin error y e) la variación en la
variable dependiente es similar en todo el rango de valores de la variable
independiente.

Los requisitos (a) y (c) se cumplirán si la toma de datos en el campo ha sido


planificada de modo correcto. Las condiciones (b) y (e) pueden contrastarse
examinando los residuos de la regresión, es decir, la diferencia entre los valores
observados de la variable dependiente y los predichos de acuerdo con la recta de
regresión. Si la condición (b) no se cumple, es posible transformar los datos para
hacer que la relación se convierta en linear. Si las condiciones (c), (d) y (e) no se
cumplen, puede utilizarse un modelo II de regresión. Violaciones del resto de los
supuestos hacen imposible el análisis. Existe un método no paramétrico de
regresión, el método robusto de Kendall de ajuste de rectas, pero no es muy
utilizado.

Los requisitos necesarios para poder realizar un análisis de correlación


paramétrico son: a) la relación entre las variables es linear, y b) ambas variables
siguen una distribución normal. La normalidad de las variables se comprueba
mediante un test de Kolmogorov-Smirnov, como se explicó para los tests de
hipótesis. Puede recurrirse a la transformación de las variables, si se viola el
supuesto (a). En el resto de los casos, lo mejor es recurrir a un test no
paramétrico.

El método de correlación no paramétrico más habitual es el coeficiente de


correlación de Spearman (rs). Este método simplemente evalúa si los valores de
la variable dependiente aumentan o disminuyen con cambios en la variable
independiente. Puede usarse como sustituto del análisis de regresión paramétrica,
pero no proporciona ninguna ecuación para predecir los valores de la variable
dependiente. Puede usarse no sólo para variables mensurables sino también para
variables ordinales.

La correlación de Kendall es también un método no paramétrico de correlación.


Puede utilizarse para examinar la asociación entre dos variables, mensurables u
ordinales. Pero, a diferencia de la correlación de Spearman, permite el examen no
paramétrico de la correlación entre más de dos variables.

A continuación se resumen los pasos a seguir para el estudio de la asociación


entre variables.

1. Asegúrate de que lo que te interesa es la asociación entre variables y no un test


de hipótesis.

127
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

2. Si las variables son mensurables, ordinales o una combinación de estos tipos:


(a) decide si te interesa la asociación (correlación) o la relación funcional
(regresión),
(b) comprueba los supuestos necesarios (independencia, normalidad: test
de Kolmogorov-Smirnov, linealidad de la relación y variación homogénea de
la variable Y en todos los valores de la variable X: examen de los residuos),
(c) decide el test a utilizar en función del número de variables y del
cumplimiento de los supuestos.

Supuestos.

Parámetros Correlación Regresión


Dos variables Dos variables
Se cumplen Coeficiente de correlación Coeficiente de determinación
de Pearson
No se cumplen Coeficiente de correlación Regresión modelo II.
de Spearman Método robusto de Kendall de
Correlación de Kendall ajuste de rectas.
Utiliza correlación no paramétricas
Mas de dos variables Mas de dos variables
Se cumplen Correlación múltiple o Regresión múltiple.
parcial.
No se cumplen Correlación parcial de No existe ningún test
Kendall.

3. Si las variables son atributos o una combinación de atributos y variables


ordinales:

(a) No deben existir casillas vacías (si existen, agrupa niveles hasta evitarlo,
o emplea un test exacto de Fisher para tablas 2 x 2),

(b) no deben existir frecuencias esperadas menores que 5 en más del 20%
de las casillas,

(c) si tienes dos variables y es una tabla 2 X 2,

(i) tienes al menos 25 datos: utiliza un test X2 o, preferentemente, un test


de la G,
♦ entre 25 y 200 datos, emplea la corrección para continuidad,
◊ más de 200 datos, no es necesaria la corrección para continuidad,

(ii) tienes menos de 25 datos: utiliza un test exacto de Fisher,

(b) tienes dos variables y es una tabla 2 X m o n X m: test χ2 o,


preferentemente, test de la G,

128
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

(c) utiliza modelos loglineares para el caso de más de dos variables.

6.3 Prueba F de Similitud de Varianzas

Sirve para determinar si nuestras muestras tienen varianzas similares.

Ho = S21 / S22 = F = 1

F= Varianza Mayor (muestra 1)


Varianza Menor (muestra 2)

Grados de libertad (g. l.) = (n1-1) y (n2-1

6.4 ¿Son nuestros datos normales?

En muchas situaciones en la investigación biológica o ciencias naturales, interesa


no solo hacer referencia sobreµ, sino también conocer la distribución completa de
la población para una característica especifica. Tal vez, la distribución que más se
utiliza en los supuestos de la prueba estadística es la distribución normal, por lo
que es conveniente tener alguna forma de confrontar este supuesto una vez que
se obtiene las observaciones por medio de la muestra. No hay que confundir que
se trata de la distribución de una característica determinada y no de la distribución
normal del promedio, la cual es garantizada por el teorema del límite central.

Si el histograma no parece alejarse mucho de la forma de una campana, se puede


efectuar una prueba por medio del conteo de las frecuencias correspondientes a
intervalos simétricos con respecto al promedio, para verificar las colas de la
distribución observada. Se sabe que intervalos formados por µ+/-σ, µ+/-2σ, µ+/-3σ
en una distribución normal contienen el 68.3, 95.4 y el 99.7 de las observaciones
respectivas, por lo tanto, la proporción de observaciones que quedan fuera de
esos intervalos son en forma aproximada 1/3, 1/20, 1/300, respectivamente. Como
no se conoce µ y σ, se usa X y s para contar las frecuencias respectivas a los
intervalos X +/- ks donde k = 1, 2, 3, y luego dividirlas entre n para obtener la
proporción de frecuencias que caen dentro y fuera del intervalo respectivo. Si se
llama a la proporción de observaciones que quedaron fuera del intervalo como p` y
lo comparamos con la proporción esperada (1/3, 1/20, 1/300), sea p, se podría
utilizar la siguiente formula para cuantificar la discrepancia.
lp `− pl
p (1 − p )
n

129
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Si la cantidad anterior es mayor que 3, indicaría un alojamiento de normalidad en


las colas de la distribución (es precisamente en las colas donde se determina el
grado de significancia en los procesos de inferencia).

Ejemplo.

Realizando el cálculo respectivo, se tiene que X +/- 2s proporciona el intervalo


(45.3, 115.8), lo cual deja por fuera a solo una observación de las 38 realizadas, o
sea p`= 1/38, mientras que lo esperado, según una distribución normal es de p =
1/20. Así entonces, se puede calcular,

lp`− pl l1 / 38 − 1 / 20l
= = 0.00084 lo cual es obviamente menor que 3, por lo
p (1 − p ) 1 / 20(19 / 20)
n 38

tanto, no existen desviaciones serias de supuestos de normalidad.

Si alrededor del 70% de las observaciones están dentro del intervalo


X±S
X = Media
S = Desviación típica

6.5 Análisis de Frecuencias

• Prueba del Chi cuadrado (homogeneidad, aleatoriedad, asociación,


independencia y bondad de ajuste).
• Comparamos las frecuencias observadas con las esperadas en función de
la Hipótesis Nula.

χ 2
=
(O i − E j )
2

E j

g.l.= n -1 n = No. de frecuencias

Ejemplo:

El caso mas sencillo es el de X2 para dos categorías, que es el siguiente, p.e. un


genetista obtiene una progenie de 100 F2, a partir de un cruzamiento en el cual se
plantea como hipótesis una proporción fenotípica de 3:1. Se obtienen 84 plantas
de flores amarillas y 16 verdes, a pesar de lo que establece la hipótesis, que es de
75 amarillas y 25 verdes.

130
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Nos podríamos formular la siguiente pregunta ¿se desvían significativamente las


frecuencias observadas (84 Y 16) de las esperadas (75 y 25)?

El procedimiento estadístico para atacar este problema involucra primeramente el


planteamiento de la hipótesis que se quiere probar. La hipótesis en este caso es
que la población que ha sido muestreada tiene una proporción de 3:1 de plantas
amarillas y plantas verdes. Estadísticamente esto se refiere como Hipótesis Nula
(Ho), porque plantea la no diferencia. Se concluye entonces que si Ho es falsa,
luego Ha es cierta, es decir que tiene una proporción diferente de 3:1.
k
(O − E )2
La expresión para el cálculo es la siguiente: χ =2

i =1 E
Donde

E: es la frecuencia esperada de los conteos de i – esima clase.


O: frecuencia observada de los conteos de la i – esima clase.

El procedimiento mas cómodo consiste en la tabulación de los datos de la manera


siguiente:

Fenotipos Frecuencias Frecuencias (O − E )2


E
o clases observadas (O) esperadas (E)
Amarilla 84 75 (84-75)²/75
verdes 16 25 (16-25)²/25

Χ2 = 1.08 + 3.24 = 4.32

Χ2 tab para α = 0.05 y un grado de libertad = 3.84.

Entonces Χ2 calc > Χ2 tab, por lo tanto, se rechaza la Ho. Esto quiere decir, que
los datos observados son estadísticamente diferentes de la proporción esperada.

Los grados de libertad están dados por el número de categorías de frecuencias


menos uno, en este caso que tenemos dos categorías de frecuencias seria 2 – 1
=1.

Corrección para continuidad.

Los valores de Χ2 obtenidos pertenecen a una distribución discreta o discontinua


en los que pueden tomar solo algunos valores, sin embargo la distribución teórica
Χ2 es una distribución continua, es decir que para un valor dado de g.l., p. e. g.l. =
2, es posible cualquier valor de Χ2 por lo que los resultados de los análisis de Χ2
son solo aproximaciones a la distribución teórica y nuestras conclusiones no
estrictamente son reales para un nivel de significancia establecido.

131
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Esta situación se presenta enfatizada en el caso de que exista 1(un) g. l., y para
ella se recomienda la corrección de Yates para continuidad, en que se resta 0.5
unidades al valor absoluto de O – E, es decir:
k (O − E − 0 .5 )
2

χ c =
2

i =1 E

Donde χ2c representa el valor χ2 calculado con la corrección para continuidad. De


esta forma, retomando el ejemplo anterior donde existe un g.l.

k (84 − 75 − 0 .5 ) + (16 − 25
2
− 0 .5 )
2

χ c=
2

i =1 75 25

χ2c = 0.963 + 2.890 = 3.853.

Aunque en este caso se llega a la misma conclusión que sin la aplicación de la


corrección, este no siempre es el caso. Sin el uso de corrección para continuidad
el χ2c se incrementa y puede causar el rechazo de Ho, lo cual no ocurre con el uso
de corrección.

Dicho de otra forma, al no aplicar la corrección y por ende, aplicar la continuidad


en estos casos puede provocar que se cometa el error tipo I, es decir, aceptar la
hipótesis Ha (hipótesis alternativa) siendo Ho cierta.

Ejercicio.

Se piensa que cierto rasgo humano es heredado de acuerdo a la razón de 1:2:1


para homocigoto dominante, heterocigoto y homocigoto decisivo. El examen de
una muestra aleatoria simple de 200 individuos proporciono la siguiente
distribución del rasgo: dominante, 43, heterocigoto, 125, y recesivo, 32. Se desea
saber si lo datos proporcionan suficiente evidencia para cancelar dudas sobre la
distribución del rasgo.

Respuesta.

El rasgo no se distribuye de acuerdo a la razón 1:2:1. Dado que 13.71> 10.597, el


valor p para la prueba es p<0.005.

Tablas de contingencia.

Las tablas de contingencia se utilizan para medir la asociación entre dos


atributos. Cumplen un papel análogo a las otras medidas de asociación entre
variables (correlación y regresión) pero también sirven como contraste de
hipótesis, dado que en las variables medidas como atributos ambos tipos de
análisis no se diferencian claramente.

132
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

El nombre de "tablas" deriva del tipo de representación que suele hacerse para el
análisis. Se construye una tabla con tantas filas como niveles tiene una de las
variables y tantas columnas como niveles toma la otra variable.

En el ejemplo de la Fig. 7 cada variable tiene sólo dos niveles, pero eso no es
obligatorio; se habla de tablas 2 X 2 si cada variable tiene dos niveles, de tablas 2
X 4 si una tiene dos niveles y la otra cuatro o, en general, de tablas n X m. En
cada casilla de la tabla se escribe la frecuencia observada de individuos dentro de
cada combinación de niveles.

El análisis consiste en averiguar si el reparto de los individuos en las diferentes


casillas sigue algún patrón o es simplemente debido al azar (Fig. 7 A y B). Habrá
una asociación entre variables si determinadas combinaciones de las mismas
aparecen con una frecuencia estadísticamente mayor que otras. Se obtiene un
valor de significación para la asociación por medio de un test Chi cuadrado (χ2) o
un test de la G. También es posible calcular la "fuerza" de la misma, mediante el
coeficiente de Cramér (C) o el coeficiente Phi de asociación (rφ) (sólo en
tablas 2 X 2). Estos coeficientes varían entre 0 (ninguna asociación) y 1
(asociación perfecta).

Como en la correlación y la regresión, es posible examinar la asociación entre más


de dos variables simultáneamente, mediante el uso de tablas multidimensionales y
el uso de modelos loglineares.

Fig. 7. Ejemplo de asociación entre dos atributos para los que se han medido 20
valores: A) asociación perfecta (todos los a son 2 y todos los b son 1), B)
asociación inexistente (los a son 1 ó 2 con idéntica frecuencia, y lo mismo sucede
con los b).

Coeficiente de contingencia.

Supóngase que se seleccionan n artículos y se clasifican según a dos criterios


diferentes. La tabla a cuadro resultante tendrá r filas y c columnas, y la celda
correspondiente a la i – ésima fila y j – ésima columna tendrá Oij observaciones.

La prueba de hipótesis (independencia entre las variables) es bastante sencilla y


es básicamente una comparación de los valores observados con aquellas que se
esperarían teóricamente, si en realidad, las variables fueran independientes.

133
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Si χ2 →0 indica que las variables son estadísticamente independientes.


Si χ2 →∞ indica que las variables no son estrictamente.

Hay dos supuestos que se utilizan en esta prueba:


⇒ La muestra se seleccionó, por medio de un método aleatorio de una
población infinita o sumamente grande multinomial divariada.
⇒ La muestra es razonablemente grande.

Una población es multinomial si cada elemento de la población es asignada a uno


(y solo uno) de dos o mas clases de atributos o categorías.
Si la tabla tiene r filas y c columnas, entonces tendrá k = r *c celdas. Si se denota
T.j como el total de la columna j – ésima y T.i como el total de la fila i –ésima,
entonces el valor esperado en la celda ij, bajo el supuesto de independencia, será
Eij = Ti.T.j/T.., donde T.. es el gran total.
r c
(Oij − Eij )2
χ 2
= ∑ ∑
i =1 j =1 Eij

Si las variables son estadísticamente independientes, provienen de una población


multinomial, la muestra es grande, ningún valor esperado es mayor que 1, la
mayoría (mas del 20 % de los valores esperados) son al menos 5, entonces el
estadístico Chi cuadrado tiene una distribución teórica Chi cuadrado con (r-1) (c-1)
grados de libertad.

Para un nivel de significancia dado, si χ2 ≤χ2 (1-α); (r-1) (c-1) no se rechaza el supuesto
de independencia, de lo contrario, se rechaza.
χ2
C=
N + χ2

El estadístico C no alcanza el valor 1, aun cuando la asociación sea perfecta


(cuando no hay asociación entre las variables, el valor χ2 es cero). El valor máximo
posible varía según el número de filas y columnas, así entonces, dos valores de C
no son directamente comparables al menor que sean calculadas a partir de tablas
del mismo tamaño.

Considerando el inconveniente señalado con la prueba Chi cuadrado, un


estadístico alternativo para medir asociación en una tabla de contingencia de 2 x 2
podría se el coeficiente de Crámer o phi φ. Existen varias modalidades del mismo,
pero aquí se señalara solo aquel que reúne la propiedad de su variar entre -1 y +1,
o sea φ2, este no solo señala el grado de la asociación, sino también su dirección.

O 11 O 22 − O 12 O 21
φ2 =
T.1T.2 T1 .T 2 .

134
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Si φ2 = 1, esto significa que todos los valores en la tabla de contingencia esta en


las celdas superior izquierda e inferior (i.e., O12 =O21).

Un método alternativo general, la razón de máxima verosimilitud (G), podría


utilizarse en aquellas situaciones cuando los supuestos para Chi cuadrado no se
cumplieran, especialmente aquellas que se refieren a las frecuencias mínimas
esperadas. El estadístico G se distribuye aproximadamente como la distribución
Chi cuadrado con (r-1) (c-1) grados de libertad.
⎡ ⎤
G = 2⎢∑ ∑O LnO − ∑Ti. − ∑T LnT + nLnn⎥
ij ij .j .j
⎣i j i j ⎦
El estadístico puede utilizarse para realizar la prueba de hipótesis sobre
independencia entre las variables.

Ejemplo:

Se recolectó para determinar si existía o no asociación entre la presencia de una


enfermedad en una planta y la presencia de un cierto vector (insecto). Los
resultados finales son:

Presencia de la
enfermedad
Insecto presente ausente total
Presente 6 4 10
Ausente 1 3 4
total 7 7 14

φ2 = ((6) (3)-(4) (1) / √ (7) (7) (10) (4) =0.32

G = 2(6Ln 6 + 4Ln 4 + 1 Ln 1 + 3 Ln 3 – 10 Ln 10 – 4 Ln 4 - 7 Ln 7 – 7 Ln 7 + 14
Ln 14) = 1.44

χ2 (0.05; 1) = 3.841 > 1.44.

No existe evidencia para rechazar la hipótesis de independencia, o sea, no hay


evidencia estadística para asumir que existe relación entre la presencia de la
enfermedad y la presencia de insecto. La relación muestral entre las dos variables
tiene una intensidad de φ2 = 0.32.

135
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

6.6 Análisis de varianza.

El análisis de varianza es utilizado para probar la hipótesis Ho: µ2=µ2= µ3… = µk,
donde k es el numero de grupos experimentales, o muestras.

El análisis de varianza se basa en la partición de la suma de cuadrados y grados


de libertad asociados a la variable respuesta.

Usaremos un ejemplo para explicar este método.

Se quiere determinar los efectos de cinco técnicas de preparación de sitio sobre el


crecimiento juvenil de plántulas de Jacaranda copaia (gallinazo) cuando se planta
en monocultivo. Establecen 25 parcelas y cada técnica de preparación es aplicada
a 5 parcelas seleccionadas al azar. Las parcelas se plantan a mano y el final del
tercer año se mide la altura de todos los arbolitos y se calcula el promedio de
altura para cada parcela. Cada experimento se realiza bajo las mismas
condiciones. En este caso, solo se probara el efecto de un factor la técnica de
preparación de sitio sobre la variable repuesta, altura del arbolito. En este caso el
camino apropiado es un análisis de un solo factor.

La asignación de las técnicas de preparación de sitio a cada parcela es totalmente


al azar, obedeciendo a lo que se conoce con el nombre de diseño experimental
completamente aleatorizado.

Para ejecutar esta prueba se asume que σ21= σ22 = σ23 =……= σ2k (propiedad de
homocedasticidad) y que todas las k muestras provienen de poblaciones
normales.

El supuesto de homocedasticidad se puede probar con la prueba de Bartlett. Sin


embargo, esta prueba es muy sensible a la no normalidad por lo que no vale la
pena usarlo en el andeva. Además el andeva es suficientemente robusto para
operar bien aun en situaciones que presentan heterogeneidad de varianzas,
siempre y cuando todos los n`s sean iguales o casi iguales. Si los n`s son muy
diferentes, la probabilidad del error tipo I se alejara marcadamente de α, a un
grado dependiente de la magnitud de la heterogeneidad.

El andeva es también robusto con respecto al supuesto de normalidad de las


poblaciones subyacentes, pero su validez si es afectada por una desviación
considerable de este supuesto de normalidad (en caso de asimetría y/o curtosis).

Alguna notación.

Para probar hipótesis Ho: µ2=µ2= µ3… = µk, cada observación será representada
por Xij donde i se refiere a la observación realizada en el j-ésimo grupo o
tratamiento.

136
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

El promedio del grupo j-ésimo se llamara Xj y el promedio general de todas las


observaciones X. además, nj = tamaño de la muestra en el grupo j , k
n = ∑ nj
suma que se realiza sobre los k grupos. j =1

El supuesto de homocedasticidad (homogeneidad de varianzas entre grupos) lleva


el cálculo de una varianza común para todo el experimento que será el estimador

∑ ∑( )
nj
de σ2. En el caso de k k 2 muestras la suma de
cuadrados dentro de grupos X ij − X j viene dada por
j =1 i =1

∑ (n − 1) grados de libertad asociados.


k
y tiene j
j =1

A la suma de cuadrados dentro de grupos se le llama suma de cuadrados debidos


al error (SCE) y a los grados de libertad dentro de grupos, se les llama grados de
libertad del error (gle). El mejor estimador de varianza σ2, varianza común para los
k grupos, se obtiene al dividir la SCE entre los grados de libertad gle y se le llama
el cuadrado medio del error (CME).

La magnitud de la variación entre los k grupos también es importante para la


prueba de hipótesis. La suma de cuadrados entre grupos (SCG), se obtiene como
sigue:
2

∑n (X − X)
k

j j
j =1

Que tiene k -1 grados de libertad.

También se considera la variabilidad presente entre todas las n observaciones, o


sea, la suma d cuadrados total (SCT) viene dada por:

∑ ∑(X − X)
k nj
2
Y tiene n-1 grados de libertad.
ij
j =1 i =1

Se puede señalar que el modelo general implícito en el andeva es aquel que


divide cada desviación de una observación con respecto al promedio general en
dos partes:

Una desviación de esa observación con respecto al promedio del grupo a la cual
pertenece, y la desviación del promedio del grupo con respecto al promedio
general.

137
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

SCT = SCG + SCE


Gltotal = glentre grupos + glerror

Fórmulas más sencillas para aplicar con calculadoras son:

(∑ ∑ X )
k nj
SCT = ∑ ∑Xij − C
2
2
C =
ij
, Donde y se le llama factor de
j =1 i =1 n
corrección.
2
⎛ nj

⎜⎜ ∑ X ij
⎟⎟
⎝ ⎠
k


i =1
SCG = − C
j =1 n j
2
⎛ nj ⎞
nj
⎜⎜ ∑ X ij ⎟⎟
⎝ i =1 ⎠
k k
SCE = ∑ ∑X 2
ij −∑
j =1 i =1 j =1 nj
Ejemplo 1.
Los datos siguientes se refieren a los pesos finales de corderos alimentados
durante 90 días con una ración que contenía 14 % de proteínas. Los tratamientos
fueron definidos de la siguiente manera:

Tratamiento cordero
1 castrado
2. entero
3. implantados con Sinovex S.
4. implantados con Stil Bestrol

Cuadro de concentración de datos.


I II III IV Yi.
T1 47 52 51 150
T2 50 54 56 160
T3 57 53 54 57 221
T4 62 65 74 50 251
Y.. 782

Origen de Suma de Grados Prom. De Valor crítico


variaciones cuadrados libertad cuadrados F Probabilidad para F
Entre
grupos 313,547619 3 104,515873 3,072 0,07757187 3,70826569
Dentro de
los grupos 340,166667 10 34,0166667
Total 653,714286 13

138
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Ejemplo 2.

Los datos siguientes se refieren a producciones parciales de forraje de maíz en


verde, tomadas como muestras ante la imposibilidad de medir la producción total
de cada unidad experimental. Los tratamientos consisten en cantidades diferentes
de estiércol incorporado al suelo como mejorador.

Dosis I II III IV Yi,,


(ton/ha)
0 24 19 18 23
23 21 19 22
21 24 22 20
Yij. 68 64 59 65 256
4 25 31 28 34
28 24 32 33
30 32 36 29
Yij. 83 87 96 96 362
6 56 62 61 62
65 60 60 60
58 59 64 61
Yij. 179 181 185 183 728
2 24 21 23 19
19 22 18 21
23 24 22 23
Yij. 66 67 63 63 259
Y,,, 1605

SCtrat. = 1/12(2562+3622+7282+2592) – 16052/48 = 12469.895


SCEE = 1/3 (682+642+…+632) – 16052/48 – 12469.895 = 67.916
SC total = 242+232+…+232 – 16052/48 = 12765.812
SCEM = 12765.812 – (12469.895 + 67.916) = 228.

Origen de las Suma de Grados Prom. De


variaciones cuadrados libertad cuadrados F Ft 0.05 Ft 0.01
tratam 12469.895 3 4156.63 735.68** 3.49 5.95
Error experim. 67.916 12 5.65 0.792 NS 2.07 2.80
Error de
muestreo 228 32 7.125
Total 12765.812 47

Con base en lo anterior, y debido a que Fc de tratamientos es mayor que Ft,


podemos decir que rechazamos la hipótesis de igualdad de tratamientos, pero

139
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

será necesario aplicar otro tipo de pruebas a fin de establecer conclusiones


especificas acerca de este trabajo en particular.

Por otra parte el ANDEVA solo indica una diferencia entre tratamientos, pero no
especifica entre cual.

Ejercicios.

Realice los procedimientos necesarios para obtener los datos del ANDEVA.

Con el fin de probar cuatro niveles diferentes de pollinaza, como fuente proteica en
raciones para novillos, se llevo a cabo un estudio, en el cual, debido al peso inicial
de los novillos, fue necesario efectuar un control (bloques).

Niveles de Peso I Peso Peso Peso IV Yi.


pollinaza II III
0 18.5 20.2 21.4 22.9 83.0
10 17.9 18.4 19.9 21.8 78.0
20 15.1 16.2 17.0 18.4 66.7
30 9.8 11.4 12.6 13.2 47.0
Y.j. 61.3 66.2 70.9 76.3 Y.. 274.7

Respuestas:

Origen de las Suma de Grados Prom. De


variaciones cuadrados libertad cuadrados F Ft 0.05 Ft 0.01
Tratamiento 191.467 3 63.822 454.07** 3.86 6.99
Bloques 30.902 3 10.3 73.28**
Error
experimental 1.265 9 0.1405
Total 223.634 15

Ejercicio.

En un experimento se probaron tres dietas diferentes (A, B, C) para medir su


efecto en la producción de leche. Las dietas se aplicaron a tres vacas en tres
periodos de lactancia diferentes. Los resultados son los siguientes:

vacas
1 2 3 Hk
periodo I A: 608 B: 885 C: 940 2433
II B: 715 C: 1087 A: 766 2568
III C: 884 A: 711 B: 832 2427
Cj 2207 2683 2538 7428 Y…
Solución.

140
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Hipótesis. Ejercicios.

Preg. 1. El nivel de significación de un test de hipótesis:

a,Suele ser pequeño y lo fija el investigador o un convenio generalmente


aceptado.
b,Da la probabilidad de declarar significativo el resultado de un test, cuando
esto es falso.
c,Al disminuir hace aumentar la probabilidad del error de tipo II.
d,Todo lo anterior es cierto.
e,Todo lo anterior es falso.

Preg. 2. Un estudio sobre la efectividad de un fármaco llega a la conclusión de


que éste es mejor que el placebo con p<0,05 ¿Cuál es la interpretación correcta
de este resultado?

a,Con toda seguridad, el tratamiento es mejor que el placebo.


b,La probabilidad de que el nuevo tratamiento sea mejor que el placebo es
superior al 95%.
c,El tratamiento es un 95% más efectivo que el placebo.
d,La probabilidad de que el placebo sea mejor que el nuevo fármaco es
menor de 5%.
e,Si el tratamiento no fuese efectivo, existe menos del 5% de probabilidad
de observar unas muestras tan contrarias a dicha hipótesis como las
obtenidas.

Preg. 3. En un contraste de hipótesis la cantidad p es:

a,Un número pequeño.


b,Fijada antes de realizar el contraste.
c,La probabilidad de rechazar la hipótesis nula.
d,La probabilidad de error al rechazar la hipótesis alternativa.
e,Conocida al extraer la muestra y calcular el estadístico experimental.

Preg. 4. En todo contraste de hipótesis:

a,Se acepta la hipótesis de mayor probabilidad.


b,Se rechaza la hipótesis de menor probabilidad.
c,La hipótesis nula se elige según el principio de simplicidad científica.
d,Todo lo anterior es cierto.
e,Es necesario contrastar la normalidad de los datos.

Preg. 5. Un contraste de hipótesis se considera significativo si:

a,Una muestra aleatoria es coherente con la hipótesis nula.


b,Una muestra aleatoria no es coherente con la hipótesis nula.
c,La hipótesis alternativa es más probable que la nula.

141
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

d,Todo lo anterior es cierto.


e,Son ciertas (b) y (c).

Preg. 6. Un contraste de hipótesis se considera no significativo si:

a,Una muestra aleatoria es coherente con la hipótesis nula.


b,Una muestra aleatoria no es coherente con la hipótesis nula.
c,La hipótesis nula es más probable que la alternativa.
d,Todo lo anterior es cierto.
e,Son ciertas(a) y (c).

Preg. 7. Se realiza un estudio para saber si dos tratamientos de quimioterapia


presentan diferencias en cuanto a la supervivencia de los pacientes. No se
encontró diferencia estadísticamente significativa. ¿Cuál de las siguientes razones
podrían ser causantes del resultado?

a,Los tratamientos ofrecen tiempos de supervivencia muy diferentes.


b,El nivel de significación es demasiado alto.
c,Las muestras son demasiado numerosas.
d,Las muestras son demasiado pequeñas.
e,Nada de lo anterior.

Preg. 8. De las siguientes, cuál se corresponde con un error de tipo II:

a,Aceptar que un tratamiento ineficaz produce efectos útiles.


b,Rechazar que un tratamiento ineficaz produce efectos útiles.
c,Aceptar que un tratamiento eficaz produce efectos útiles.
d,Rechazar que un tratamiento eficaz produce efectos útiles.
e,Nada de lo anterior es cierto.

Preg. 9. Se realiza un experimento donde nos basaremos en un contraste de


hipótesis para tomar una decisión con un nivel de significación del 1%. De las
siguientes cuál no es un resultado posible de un contraste de hipótesis:

a,El experimento no es concluyente.


b,El experimento permite obtener conclusiones.
c,Se rechaza la hipótesis nula.
d,Se rechaza la hipótesis alternativa.
e,Se acepta la hipótesis alternativa.

Preg. 10. En un contraste de hipótesis, típicamente, la región crítica:

a,Tiene probabilidad pequeña, si la hipótesis nula fuese cierta.


b,Esta situada en la zona de mayor probabilidad, si la hipótesis nula fuese
cierta.
c,Tiene probabilidad grande, si la hipótesis nula fuese cierta.
d,Tiene probabilidad pequeña, si la hipótesis alternativa fuese cierta.

142
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

e,Nada de lo anterior.

Preg. 11. Elija la afirmación falsa:

a,El nivel de significación es normalmente un valor pequeño.


b,La significación de un contraste es conocida tras analizar los datos.
c,El nivel de significación de un contraste debe ser fijado antes de analizar
los datos.
d,Un contraste debe ser declarado significativo antes de recoger los datos.
e,Un contraste es declarado significativo si se obtiene una muestra que
discrepa mucho de la hipótesis nula.

Preg. 12. Señale la respuesta falsa en lo que concierne a los contrastes de


hipótesis:

a,La hipótesis nula puede ser rechazada.


b,La hipótesis alternativa puede ser aceptada.
c,Si no se rechaza la hipótesis nula, los resultados no son concluyentes.
d,La hipótesis nula es aquella para la que buscamos evidencia a favor.
e,La hipótesis alternativa se opone a la nula.

Preg. 13. El error de tipo I consiste en:

a,rechazar H0 cuando es falsa.


b,rechazar H0 cuando es cierta.
c,No rechazar H0 cuando es falsa.
d,No rechazar H0 cuando es cierta.
e,La probabilidad de rechazar H0 cuando es falsa.

143
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

VII. Estadísticas vitales.


Objetivos de la unidad.

1. Reconocer los elementos básicos de los estadísticos vitales.


2. Conocer los elementos principales de los estadísticos de la población.
3. Estimar los elementos básicos de tasa y razones de mortalidad, fertilidad y
morbilidad.
4. Realizar estimaciones de estadísticos vitales con casos reales de la zona.
5. Interpretar adecuadamente los estadísticos vitales.

Aquí se presentan algunas tasas y razones más útiles y ampliamente utilizadas.


Sin embargo, antes de proceder es necesario distinguir entre los términos tasa y
razón.

Tasa. Aun cuando hay excepciones, este término se utiliza por lo general para
referirse a aquellos cálculos que implican la probabilidad de ocurrencia de algún
evento.

⎛ a ⎞ Donde,
⎜ ⎟k
⎝a+b⎠

a= la frecuencia con la cual se ha presentado un evento durante algún


periodo especificado.

a+b= el numero de personas expuestas al riesgos del evento


durante el mismo periodo.

K= algún numero como 10, 100, 1000, 10000 o 100000.

El numerador de una tasa es una parte componente del denominador. El propósito


del multiplicado, k, llamado base, es evitar resultados que comprendan números
muy pequeño que puedan surgir en el cálculo de la tasa y facilitar la comprensión
de estas últimas. El valor elegido para k dependo de la magnitud del numerador y
del denominador.
⎛c⎞
Razón. Una razón es una fracción de la forma ⎜⎝ d ⎟⎠k donde k es alguna base,
como ya se ha definido, y tanto c como d se refieren a la frecuencia de
ocurrencia de algún evento o articulo. En el caso de una razón, el contrario de la
tasa, el numerador no es una parte del componente del denominador. Por
ejemplo, puede hablarse de la razón de personas camas en el hospital de cierta
área geográfica. Los valores de k que se utilizan con mayor frecuencia en las
razones son 1 y 100.

144
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

7.1 Tasas y razones de mortalidad.

Las tasas y razones que se estudian en esta sección se refieren a la ocurrencia de


muerte. Las tasas de mortalidad expresan la frecuencia relativa de ocurrencia de
muerte en algún intervalo específico en una población particular. El denominador
de una tasa de mortalidad se conoce como población en riesgo. El numerador
representa solo aquellas muertes que ocurrieron en la población, especificada por
el denominador.

Tasa bruta de mortalidad anual. La tasa bruta de mortalidad anual se define


como.

Numero total de muertes durante un año (1 de enero a 31 de diciembre). * k


Población total al 1 de julio.

Donde por lo general, se elige, 1000 como valor de k. esta es la tasa que se utiliza
con mayor frecuencia para estimar la salud global de una comunidad. Compara las
tasa brutas de mortalidad de dos comunidades es riesgoso, a menos que se sepa
que3 las comunidades son comparables con respecto a muchas características
distintas de las condiciones de salud, que afectan a la tasa de mortalidad. Las
variables que entran en juego comprenden la edad, grupo racial, sexo y condición
socio económica. Cuando dos poblaciones deben compararse con base en la tasa
de mortalidad, deben hacerse ajuste para conciliar las diferencias entre las
poblaciones con respecto a esas variables. Deben tenerse las mismas
precauciones el comparar las tasas de mortalidad anual para la misma comunidad
en dos años distintos.

Tasas especificas de mortalidad anual. En general, es más importante e


ilustrativo observar las tasas de mortalidad de subgrupos pequeños y bien
definidos de la población total.

Numero de muertes en un subgrupo especifico durante un año *k


Población total en el subgrupo especifico a julio 1.

Donde por lo general, k es igual a 1000. Los subgrupos para los que pueden
calcularse las tasas específicas de mortalidad comprenden aquellos grupos que
pueden distinguirse con base en el sexo, grupo racial y edad. Pueden calcularse
simultáneamente las tasas específicas para dos o más característica. P. e. puede
calcularse la tasa de mortalidad para los varones de raza blanca, obteniendo así
una tasa especifica de raza – sexo. Pueden calcularse también las tasas
especificas de mortalidad por causas especificas incluyendo en el numerador solo
aquellas muertes debidas a una causa particular. Por ejemplo, cáncer,
padecimientos cardiacos o accidentes. Debido a la pequeño fracción que resulta,
la base k, para una tasa de causa especifica es por lo general de 100000 o
1000000.

145
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Tasa de mortalidad ajustadas o estandarizadas. Ya se indico que la utilidad de


a tasa bruta de mortalidad se restringe por el hecho de que no refleja la
composición de la población con respecto a ciertas características por las cuales
es afectada.

Ejemplo.

La tasa bruta para Georgia en 1970 fue de 9.1 muertes por cada 1000 habitantes.
Obtener la tasa de mortalidad ajustada por edades para Georgia mediante el uso
de la población estándar en el censo de 1970 para los Estados Unidos. En otras
palabras se desea una tasa de mortalidad que pudiera haberse esperado en
Georgia, si la composición por edades de la población de Georgia hubiera sido la
misma que la de los estados unidos.

Solución.

Los datos necesarios para los cálculos se muestran en la tabla siguiente.

El procedimiento para calcular una tasa de mortalidad ajustada por edades


comprende los siguientes pasos:

1. la población de iteres se lista (columna 2) de acuerdo con el grupo de


edades (columna 1).

2. las muertes en la población se listan (columnas 3) se las edades.


3. se calculan las tasas de mortalidad por edades (columna 4) para cada
grupo, dividiendo la columna 3 entre la columna 2 y multiplicando por
100000.
4. la población estándar se lista (columna 5) por grupo de edades.

5. se calcula el numero esperado de muertes en la población estándar para


cada grupo (columna 6), multiplicando la columna 4 por la columna 5 y
dividiendo entre 100000. los valores de la columna 6 son las muertes que
se esperarían en la población estándar si las personas de esta poblaciones
hubieran expuestos al mismo riesgo de muerte experimentado por la
población que se esta ajustando.

6. se suman lo valores de la columna 6 para obtener el numero total de


muertes esperados en la población estándar.

146
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Cuadro 12. Calculo de la tasa de mortalidad ajustada por edades para el


estado de Georgia, 1970, mediante el método directo.

1 2 3 4 5 6
Tasa de Numero de
mortalidad Población muertes
según la estándar basada esperadas en la
edad (por en la población población
Edad (años) Población Muertes 100000) de EEUU, 1970 estándar.
0 -4 424600 2483 584,8 84416 494
05 a 14 955000 449 47 200508 94
15-24 863000 1369 158,6 174406 277
25-34 608100 1360 223,6 122569 274
35-44 518400 2296 442,9 113614 503
45-54 486400 4632 952,3 114265 1088
55-64 384400 7792 2027,1 91480 1854
65-74 235900 9363 3669,1 61195 2429
75 y mas 132900 12042 9060,9 37547 3402
Total 4608700 41786 1000000 10415

7. la tasa de mortalidad ajustada por edades se calcula de la misma manera


que una tasa bruta de mortalidad. Es decir la tasa bruta de mortalidad
ajustada por edades es igual a.

Número total de muertes esperadas * 1000


Población estándar total.

En el ejemplo, se tiene una tasa de mortalidad ajustada por edades es igual a

10415*1000 = 10.4
1000000

Se observa entonces que la tasa bruta de mortalidad se ha incrementado de una


9.1 por 1000 a un 10.4 por 1000 ajustando la población de Georgia en 197 a la
distribución de edades de la población estándar. Este incremento en la tasa de
mortalidad, después del ajuste, refleja el hecho de que, en 1970, la población de
Georgia era un poco mas joven que la población de los estados unidos en general.
Por ejemplo, solo el 8% de la población de Georgia tenía 65 años de edad o más,
mientras que el 10% de la población de los estados unidos estaba ese grupo de
edades.

Tasa de mortalidad materna. Esta se define como

Muertes por causas puerperales durante un año *k


Total de nacimientos vivos durante el año.

147
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Donde k toma el valor de 1000 o 100000. El denominador preferido para la tasa es


el número de mujeres embarazadas durante el año. Sin embargo, es imposible
determinar este denominador.

Una muerte debida a una causa puerperal es aquella que puede atribuirse a
alguna fase del parto. Debido a la disminución de la tasa de mortalidad materna
en los estado unidos, resulta, mas conveniente utilizar k = 100000. Sin embargo,
en algunos países, k = 1000 conduce a una tasa mas conveniente.

Entre los aspectos que limitan la tasa de mortalidad materna se incluyen las
siguientes:

a) las muertes fetales no se incluyen en el denominador. Esto conduce a una


tasa inflada, ya que una madre puede morir de causa puerperal sin producir
un nacimiento vivo.
b) La muerte de la madre solo puede contarse una vez, aunque puede haber
ocurrido un nacimiento de gemelos o un nacimiento múltiple mayor. Estos
casos hacen que el denominador sea demasiado grande, y en
consecuencia, se tiene una tasa demasiado pequeña.
c) Algunos nacimientos vivos no se registraron, lo cual conduce a un
denominador demasiado pequeño y hace que la tasa sea demasiado
grande.
d) La muerte de la madre puede ocurrir en un año posterior al cual ocurrió el
nacimiento. Aunque hay excepciones, en la mayoría de los casos la
transferencia de muertes maternas se balanceara en un determinado año.

a. Tasa de mortalidad infantil.

Número de muertes de niños menores de 1 año durante un año * k


Número total de nacimientos vivos durante 1 año.

Donde k se toma generalmente como 1000. El uso y la interpretación de esta tasa


tiene que hacerse a la luz de sus limitaciones, que son semejantes a las que
caracterizan a la tasa de mortalidad materna. Muchos de los infantiles que mueren
durante un año dado nacieron el año anterior. De la misma forma, muchos niños
nacido vivos en un año dado morirán el siguiente año. En poblaciones con una
natalidad estable, esto no constituye un problema serio. Sin embargo, en periodos
de cambios rápidos deben hacerse algunos ajustes. Una manera de hacer ajustes
es asignar las muertes infantiles al año civil en el que nacieron los niños antes de
calcular la tasa.

Tasa de mortalidad neonatal. En un esfuerzo por comprender mejor la


naturaleza de las muertes infantiles, suelen calcularse tasas de mortalidad para
niños menores de un año.

148
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Número de muertes de niños de 28 días de edad durante un año* k


Número total de nacimientos de niños vivos durante el año.

Donde k = 1000

b. Tasa de mortalidad fetal.

Número total de muertes fetales durante un año k


Número total de alumbramiento durante el año.

Donde k, toma por lo general, el valor de 1000. La muerte fetal se define como un
producto de la concepción que no muestra signo de vida al concluir el nacimiento.
Existen varios problemas asociados con el uso e interpretación de esta tasa. Hay
variaciones entre las diferentes regiones que informan con respecto a la duración
de la gestación. Algunas regiones que dan a conocer todas las muertes fetales sin
importar la duración de la gestación, en tanto, que otras tienen un periodo de
gestación mínimo que debe alcanzarse antes de que se requiera hacer el informe.
Otra objeción a la tasa de mortalidad fetal es que no toma en cuenta el grado al
cual una comunidad pretende reproducirse. La razón que se considera a
continuación se propuesto para superar las objeciones

c. Razón de mortalidad fetal.

Número total de muertes fetales durante un año *k


Número total de nacimientos de niños vivos durante el año

Donde k se toma como 100 o 1000.

Algunos expertos sugieren que en el denominador se incluyan tanto el número de


muertes fetales como los nacimientos de niños vivos en un intento por incluir toda
preñez en el cálculo de la razón. Una objeción a esta sugerencia se apoya e lo
incompleto de los datos acerca de las muertes fetales.

d. Tasa de mortalidad perinatal.

Debido a que las muertes fetales que ocurren al final del embarazo y las muertes
neonatales con frecuencia tienen las mismas causas fundamentales, se ha
sugerido que se combinen ambas para obtener lo que se conoce como tasa de
mortalidad perinatal.

(Número de muertes fetales de 28 semanas o más)


+ (Número de muertes infantiles de menos de 1 semana)
(Número de muertes fetales de 28 semanas o más)
+ Número de nacimientos de niños vivos)

149
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Donde k = 1000.

e. Razón de causa de defunción.

Numero de muertes debida a una enfermedad especifica durante un año *k


Numero total de muertes debidas a todas las causas durante un año.

Donde k = 100. Este índice se utiliza para estimar la importancia relativa de una
causa determinada de defunción. Debe utilizarse con precaución al comparar una
comunidad con otra. Una razón de causa de defunción mayor en una comunidad
que en otra puede deberse a que la primera comunidad tiene una baja mortalidad
debida a otras causas.

Razón de mortalidad proporcional. Se ha sugerido este índice como una


medida única para compara las condicione sanitarias globales de diferentes
comunidades.

Número de muertes de personas de 50 años de edad y mayores * k


Número total de muertes.

Donde k = 100. La clase especificada es por lo general, un grupo de edades, por


ejemplo, 50 años y mas, o bien una categoría de causas de muerte, como
accidentes.

f. Medidas de fertilidad.

Fertilidad se refiere al acto real de dar a luz, contrario a la capacidad de concebir,


fenómeno para el cual se utiliza el término fecundidad. Conocer la tasa de
alumbramientos en una comunidad es importante para quienes se dedican a la
salud publica, ya que de esa forma pueden planificar los servicios e instalaciones
par las madres, bebes y niños.

Tasa bruta de natalidad. Es la medida de fertilidad que se utiliza más


ampliamente.

Número total de nacimiento de niños vivos durante un año * k


Población total a julio 1.

Donde k = 1000.

150
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

7.7.1 Tasa general de fertilidad.

Número de nacimiento de niños vivos durante un año * k


Número total de mujeres en edad fértil.

Donde k = 1000 y, por lo general, la edad fértil se define como las edades entre 15
y 44 años, o bien, de 15 a 49. La característica de interés de esa tasa, cuando se
compara con a tasa bruta de natalidad, es el hecho de que el denominador es una
aproximación de número de personas que, en realidad, están expuestas al riesgo
de dar a luz a un niño.

Tasa de fertilidad, especifica por edades. Dado que la tasa de alumbramientos


no es uniforme en toda la edad fértil, resulta conveniente una tasa que permita el
análisis de las tasa de fertilidad para intervalos de edad materna mas cortos.

Número de nacimientos en mujeres de una edad dad durante un año *k


Número total de mujeres de la edad específica

Donde k = 1000. La tasa especificas por edades. Pueden calcularse para una solo
edad o para cualquier intervalo de edades. Las que se calculan con más
frecuencia son las tasas para grupos de edades de cinco años. Pueden calcularse
también las tasas específicas de fertilidad para otros subgrupos de la población,
como los definidos por grupo racial, nivel socio económico y diversas
características demográficas.

151
Tabla 13. Procedimientos para calcular seis medidas básicas de fertilidad.

1 2 3 4 5 6 7
Edad Numero de Numero de Tasa de natalidad Población Nacimientos Tasa
de la mujeres en nacimientos para especifica por edades estándar en base esperados acumulada
mujer la población las mujeres de para cada 1000 mujeres la población de de
a
(años) edad especifica a EEUU, 1970 c fertilidad.
15 a 19 220 100 21 790 99.0 193 762 19 182 495.0
20 a 24 209 500 37 051 176.9 173 583 30 707 1379.5
25 a 29 170 100 22 135 130.1 140 764 18 313 2030.0
30 a 34 139 100 9 246 66.5 119 804 7 967 2362.5
35 a 39 135 400 3 739 27.6 116 925 3 227 2500.5
40 a 49 261 700 1 044 4.0 255 162 1 021 2540.5
1 135 900 95 005 1 000 000 80 417

Calculo de las seis tasas básicas:

1) tasa bruta de nacimientos = total de nacimientos entre la población total.= (95584/4608700)*1000 = 21


2) Tasa general de fertilidad = (95584/1135900)*1000 = 84.1
3) Tasa de mortalidad a edad especifica = entrada en la columna 3 entre las entradas de la columna 2
multiplicadas por 1000 para cada grupo. El resultado aparece en la columna 4.
4) Tasa total de fertilidad = la suma de cada tasa de edad especifica por edades multiplicada por el ancho del
intervalo de la edad = (99.0)(5) + (176.9)(5) + (130.1)(5) +(66.5)(5) +(27.6)(5) +(4.0)(10) = 2540.5
5) Tasa de fertilidad acumulada = tasa de natalidad especifica por edades multiplicada por el ancho del
intervalo de edades acumuladas por edades ver la columna 7.
6) Tasa general estandarizada de fertilidad = (80 417/1000000)(1000) = 80.4
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Tasa de fertilidad total. Si se suman las tasas específicas de fertilidad por


edades par todas las edades, y se multiplican por el intervalo en el cual se
agruparon estas ultimas, el resultado se conoce como fertilidad total. El valor
resultante es una estimación del número de niños que tendría un grupo de 1000
mujeres, si durante sus años fértiles, se reprodujera según las tasas
representadas por las tasas de edades específicas de fertilidad de la que se
calcula la tasa total de fertilidad.

Tasa acumulada de fertilidad. Se calcula de la misma forma que la tasa total de


fertilidad, excepto que el proceso de sumar puede terminarse al final de cualquier
grupo de edades deseado.

Tasa estandarizada de fertilidad. El procedimiento es idéntico al que se analizo


en el anteriormente en el ejemplo de tasa de mortalidad ajustada o estandarizada.

Medidas de morbilidad. Estudio de una comunidad con respecto a la enfermedad.


Como regla general los datos para el estudio de la morbilidad de una comunidad
no son tan completos ni se encuentran con tanta facilidad como los que se refieren
a la natalidad y mortalidad, debido a los incompletos de los informes y a las
diferencias entre los estados e relación con las leyes que requiere el informe de
las enfermedades.

7.7.2 Tasa de incidencia.

Número total de nuevos casos de una enfermedad especifica durante un año *k


Población total a julio 1

Donde el valor de k depende de la magnitud del numerador utiliza una base de


1000 cuando resulta conveniente, pero puede utilizarse 100 para las
enfermedades más comunes, y 10000 o 100000 para aquellas que son menos
comunes o más raras. Esta tasa que mide el grado con el cual ocurren nuevos
casos en la comunidad, es útil para determinar la necesidad de medidas
preventivas. Es una medida muy importante tanto para las enfermedades crónicas
como para agudas.

7.7.3 Tasa de prevalencia.

Número total de casos, nuevos o viejos, que existen en un instante *k


Población total en ese instante.

Donde el valor de k se elige mediante los mismos criterios que para la tasa de
incidencia. Esta tasa es esencialmente útil en el estudio de las enfermedades
crónicas, pero puede calcularse también para las enfermedades agudas.

153
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Razón de muertes – casos. Es útil para determinar que tanto éxito esta teniendo
un programa de tratamiento para cierta enfermedad.

Número total de muertes debidas a una enfermedad *k


Número total de casos debidos a la enfermedad.

Donde k = 100. El periodo abarcado es arbitrario, depende de la naturaleza de la


enfermedad y puede abarcar varios años para una enfermedad endémica. Es
importante observar que esta razón puede interpretarse como la probabilidad de
morir al contraer la enfermedad en cuestión y, como tal, revela la gravedad de la
enfermedad.

7.7.4 Razón de inmadurez.

Número de nacimientos de niños vivos


Con un peso inferior a los 2500 gramos durante un año *k
Número total de nacimientos de niños vivos durante un año

Donde k = 100.

Tasa de ataque secundario. Esta mide la ocurrencia de una enfermedad


contagiosa entre personas susceptibles que se han expuesto a un caso primario,
Numero de casos adicionales entre personas expuestas

A un caso primario dentro del periodo máximo de incubación. *k


Número total de personas susceptibles.

Donde k = 100. Esta tasa se utiliza para estimar la propagación de la infección y


se aplica por lo general a grupos cerrados como casa habitación o salones de
clase, donde puede suponerse razonablemente que, de hecho, todos los
miembros estuvieron expuestos.

Ejercicios.

Resolver los ejercicios de la Pág. 770, 771, 774 y 775 del libro de Bioestadística.
Wayne W. Daniel.

1. Se obtuvieron los siguientes datos anuales de cierta región geográfica. A


partir de esos datos, calcular las siguientes tasa y razones: a) tasa bruta de
mortalidad, b) tasas especificas de mortalidad por grupos raciales para
blancos y no blancos, c) tasa de mortalidad materna, d) tasa de mortalidad
infantil, e) tasa de mortalidad neonatal, f) razón de mortalidad fetal y g)
razones de causa de defunción por neoplasmas malignos y enfermedad
isquémica del corazón.

154
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Número
Total blancos No blancos
Población estimada al 1º. De julio 597500 361700 235800
Total de nacimientos vivos. 12437 6400 6037
Nacimientos inmaduros 1243 440 803
Muertes fetales: 592 365 227
Total 355 269 86
Con menos de 20 semanas de gestación. 103 42 61
De 20 a 27 semanas de gestación. 123 49 74
Muertes. 11 5 6
Total en todas las edades. 11 3636 2583
Menos de un año. 267 97 170
Menos de 28 días. 210 79 131
Muertes por inmadurez 16 12 4
Muertes de madres. 2 - 2
Causas de muertes.
Neoplasmas malignos 948 626 322
Corazón isquémico 1697 1138 559

Respuestas.

2. La siguiente tabla muestra las muertes y la población estimada por edades


en el estado de Georgia en 1971. Utilizar estos datos para calcular la tasa
de mortalidad ajustada por edades para Georgia, en 1971. Utilizar la misma
población estándar que se utiliza en el ejemplo del cuadro 12.

Edad (años) Población estimada Muertes


0a4 423700 2311
5 a 14 947900 480
15 a 24 891300 1390
25 a 34 623700 1307
35 a 44 520000 2137
45 a 54 494200 4640
55 a 64 388600 7429
65 a 74 243000 9389
75 y mas 136000 12411
Total 4668400 41494a
a
excluidas 42 muertes de edad desconocida.

155
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

3. Los datos de la tabla pertenecen al estado de Georgia, para el año de 1971.

Edad de la mujer Numero de Numero de nacimientos


(años) mujeres en la en mujeres según la edad
población especifica.
15 a 19 225 200 21 834
20 a 24 217 600 35 997
25 a 29 173 400 21 670
30 a 34 143 300 8 935
35 a 39 134 100 3 464
40 a 49 267 800 625 a
a
Puede incluir algunos nacimientos en mujeres de mas de 49 años de edad.

A partir de los datos anteriores, calcular las siguientes tasas:

a) tasas de fertilidad especificas por edades para cada grupo de edades.


b) Tasa total de fertilidad.
c) Tasa acumulada de fertilidad para cada grupo de edades.
d) Tasa general estandarizada de fertilidad por edades.

Respuestas.

Utilice la población estándar de la tabla 13.

4. Hubo un total de 95 546 nacimientos de niños vivos en Georgia en 1971. la


población total estimada a julio 1º de 1971 fue de 4 668 400 y el numero de
mujeres entre las edades de 15 a 49 años fue de 1 161 400. utilizar estos
datos para calcular:

a) La tasa bruta de natalidad.


b) La tasa general de natalidad.

Recomendación final.

¡Si la estadística no se practica y se estudia se termina olvidando!

156
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

VIII. Bibliografía consultada

1. Douglas C. Montgomery y George C. Runger, 2001. Probabilidad y


estadistica aplicadas a la ingenieria. Edit. McGraw – Hill. Mexico.
2. Douglas C. Montgomery, 2001. Probabilidad y estadistica para ingenieria.
3ª. Edic. edit. McGraw – Hill. Mexico.
3. Gutiérrez Espeleta, Edgar. 2000. métodos estadísticos para las ciencias
biológicas. 1ª. Ed.; Heredia C.R.: EUNA. 175 p.; 21cm
4. Lilian Painter, Damián Rumiz, Daniel Guinart Robert Wallace, Betty Flores,
Wendy Townsend. 1999. TECNICAS DE INVESTIGACION PARA EL
MANEJO DE FAUNA SILVESTRE. Bolivia
5. Lincoyan Portus G. 1999. curso practico de estadistica. 2ª. Ed. Edt. McGraw
– Hill. Mexico.
6. Mario f. Triola, 2000. Estadística Elemental. 7ª. Ed. Edit. Pearson
Educación. México.
7. Mijail, Antonio. 20002. Herramientas y manejo para el diseño y manejo de
los recursos naturales y biodiversidad. Uraccan las minas.
8. Pérez Antonio. Introducción a la medición de la biodiversidad.
9. Peter E. Hildebrand y Elena P. Bastidas. 2002. Análisis de adaptabilidad:
Pasos a seguir para el análisis e interpretacion de datos de investigacion y
extension a nivel de finca. 30 p.
10. Salkind J., 1999. Métodos de investigación. Edit. PRINTICE HALL, México.
11. Wayne W. Daniel. 2001. Bioestadística. Base para el análisis de las
ciencias de la salud. 8ª. Reimpresión de la 3ª. Edición. México. 878 p.
12. www.aulafacil.com
13. www.uma.es

157
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

INDICE GENERAL

I. INTRODUCCIÓN A LA BIOESTADÍSTICA. ..................................................... 4


1.1 Conceptos básicos. ................................................................................... 5
1.2 Pasos en un estudio estadístico ............................................................... 6
1.3 Muestreo. ................................................................................................ 13
1.4 Técnicas de muestreo ............................................................................. 14
1.5 Fuentes de sesgo (parcialidad). .............................................................. 15
1.6 Técnicas de respuesta aleatorizada........................................................ 15
1.6.1 Muestreo aleatorio simple (m.a.s.) ................................................... 16
1.6.2 Muestreo sistemático ....................................................................... 17
1.6.3 Muestreo estratificado ...................................................................... 18
1.6.4 Muestreo por grupos o conglomerados ........................................... 21
II. Organización de datos y medidas descriptivas. ............................................. 25
2.1 Distribución de frecuencias. .................................................................... 25
2.2 Estadísticos de posición.......................................................................... 31
2.3 Representaciones graficas. ..................................................................... 33
2.4 Centralización ......................................................................................... 38
2.5 Variabilidad o dispersión ......................................................................... 43
2.5.1 Coeficiente de variación ................................................................... 46
2.6 Relaciones entre variables y regresión ................................................... 48
2.6.1 Coeficiente de correlación. .............................................................. 49
2.6.2 Diagrama de dispersión o nube de puntos. ..................................... 50
2.6.3 Relación entre las variables ............................................................. 51
2.6.4 Predicción de una variable en función de la otra. ............................ 51
2.6.5 Como reconocer la relación directa e inversa. ................................. 52
2.6.6 Coeficiente de correlación lineal de Pearson ................................... 54
2.6.7 Propiedades de r.............................................................................. 54
2.6.8 Otros coeficientes de correlación ..................................................... 57
2.7 Regresión lineal. ..................................................................................... 58
2.7.1 Modelo de regresión lineal simple.................................................... 59
2.7.2 ¿Cómo medir la bondad de una regresión? ..................................... 61
2.7.3 Interpretación de la variabilidad en Y ............................................... 62
2.7.4 Interpretación del residuo ................................................................ 62
2.7.5 Bondad de un ajuste ........................................................................ 63
2.7.6 Modelos de análisis de regresión..................................................... 66
III. Probabilidades. ........................................................................................... 67
3.1 Nociones de probabilidad........................................................................ 67
3.2 Definición de probabilidad y prob. Condicionada .................................... 68
3.3 Sistema exhaustivo y excluyente de sucesos. ........................................ 70
3.4 Teorema de la probabilidad total. ............................................................ 70
3.5 Teorema de Bayes. ................................................................................. 72
3.6 Pruebas diagnosticas. ............................................................................. 73
IV. Principales leyes de distribución de variables aleatorias. ........................... 84
4.1 Distribución de Bernoulli. ........................................................................ 84

158
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

4.2 Distribución binomial. .............................................................................. 86


4.3 Función de probabilidad .......................................................................... 87
4.4 Distribución de Poisson........................................................................... 87
4.5 Distribución normal o de Gauss .............................................................. 89
4.6 Tipificación .............................................................................................. 91
4.7 Teorema central del límite. ...................................................................... 95
4.7.1 Distribuciones asociadas a la normal. .............................................. 96
4.7.2 Chi cuadrado.................................................................................... 96
4.7.3 T de student ..................................................................................... 98
4.7.4 F de Snedecor ............................................................................... 100
V. Estimación confidencial. ............................................................................... 101
5.1 Estimación puntual y por intervalos....................................................... 103
Prueba U de Mann – Whitney ............................................................................. 104
VI. Contrastes de hipótesis. ........................................................................... 111
6.1 Hipótesis. .............................................................................................. 119
6.2 Pruebas Paramétricas y No Paramétricas ............................................ 123
6.2.1 Como escoger entre una prueba paramétrica y no paramétrica .... 123
6.2.2 Pruebas Paramétricas ................................................................... 124
6.2.3 Pruebas No Paramétricas .............................................................. 124
6.3 Prueba F de Similitud de Varianzas ...................................................... 129
6.4 ¿Son nuestros datos normales? ........................................................... 129
6.5 Análisis de Frecuencias ........................................................................ 130
6.6 Análisis de varianza. ............................................................................. 136
VII. Estadísticas vitales. .................................................................................. 144
7.1 Tasas y razones de mortalidad. ............................................................ 145
a. Tasa de mortalidad infantil........................................................................ 148
b. Tasa de mortalidad fetal. .......................................................................... 149
c. Razón de mortalidad fetal. ........................................................................ 149
d. Tasa de mortalidad perinatal. ................................................................... 149
e. Razón de causa de defunción. ................................................................. 150
f. Medidas de fertilidad................................................................................. 150
7.7.1 Tasa general de fertilidad. ............................................................. 151
7.7.2 Tasa de incidencia. ........................................................................ 153
7.7.3 Tasa de prevalencia. ...................................................................... 153
7.7.4 Razón de inmadurez. ..................................................................... 154
VIII. Bibliografía consultada ............................................................................. 157

159
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

ANEXOS

Percentiles de la distribución ji-cuadrada.


0.005 0.025 0.05 0.9 0.95 0.975 0.99 0.995
0.995 0.975 0.95 0.1 0.05 0.025 0.01 0.005
1 0.00004 0.00098 0.00393 2.70554 3.84146 5.02389 6.63490 7.87944
2 0.01003 0.05064 0.10259 4.60517 5.99146 7.37776 9.21034 10.59663
3 0.07172 0.21580 0.35185 6.25139 7.81473 9.34840 11.34487 12.83816
4 0.20699 0.48442 0.71072 7.77944 9.48773 11.14329 13.27670 14.86026
5 0.41174 0.83121 1.14548 9.23636 11.07050 12.83250 15.08627 16.74960
6 0.67573 1.23734 1.63538 10.64464 12.59159 14.44938 16.81189 18.54758
7 0.98926 1.68987 2.16735 12.01704 14.06714 16.01276 18.47531 20.27774
8 1.34441 2.17973 2.73264 13.36157 15.50731 17.53455 20.09024 21.95495
9 1.73493 2.70039 3.32511 14.68366 16.91898 19.02277 21.66599 23.58935
10 2.15586 3.24697 3.94030 15.98718 18.30704 20.48318 23.20925 25.18818
11 2.60322 3.81575 4.57481 17.27501 19.67514 21.92005 24.72497 26.75685
12 3.07382 4.40379 5.22603 18.54935 21.02607 23.33666 26.21697 28.29952
13 3.56503 5.00875 5.89186 19.81193 22.36203 24.73560 27.68825 29.81947
14 4.07467 5.62873 6.57063 21.06414 23.68479 26.11895 29.14124 31.31935
15 4.60092 6.26214 7.26094 22.30713 24.99579 27.48839 30.57791 32.80132
16 5.14221 6.90766 7.96165 23.54183 26.29623 28.84535 31.99993 34.26719
17 5.69722 7.56419 8.67176 24.76904 27.58711 30.19101 33.40866 35.71847
18 6.26480 8.23075 9.39046 25.98942 28.86930 31.52638 34.80531 37.15645
19 6.84397 8.90652 10.11701 27.20357 30.14353 32.85233 36.19087 38.58226
20 7.43384 9.59078 10.85081 28.41198 31.41043 34.16961 37.56623 39.99685
21 8.03365 10.28290 11.59131 29.61509 32.67057 35.47888 38.93217 41.40106
22 8.64272 10.98232 12.33801 30.81328 33.92444 36.78071 40.28936 42.79565
23 9.26042 11.68855 13.09051 32.00690 35.17246 38.07563 41.63840 44.18128
24 9.88623 12.40115 13.84843 33.19624 36.41503 39.36408 42.97982 45.55851
25 10.51965 13.11972 14.61141 34.38159 37.65248 40.64647 44.31410 46.92789
26 11.16024 13.84391 15.37916 35.56317 38.88514 41.92317 45.64168 48.28988
27 11.80759 14.57338 16.15140 36.74122 40.11327 43.19451 46.96294 49.64492
28 12.46134 15.30786 16.92788 37.91592 41.33714 44.46079 48.27824 50.99338
29 13.12115 16.04707 17.70837 39.08747 42.55697 45.72229 49.58788 52.33562
30 13.78672 16.79077 18.49266 40.25602 43.77297 46.97924 50.89218 53.67196
31 14.45777 17.53874 19.28057 41.42174 44.98534 48.23189 52.19139 55.00270
32 15.13403 18.29076 20.07191 42.58475 46.19426 49.48044 53.48577 56.32811
33 15.81527 19.04666 20.86653 43.74518 47.39988 50.72508 54.77554 57.64845
34 16.50127 19.80625 21.66428 44.90316 48.60237 51.96600 56.06091 58.96393
35 17.19182 20.56938 22.46502 46.05879 49.80185 53.20335 57.34207 60.27477
36 17.88673 21.33588 23.26861 47.21217 50.99846 54.43729 58.61921 61.58118
37 18.58581 22.10563 24.07494 48.36341 52.19232 55.66797 59.89250 62.88334
38 19.28891 22.87848 24.88390 49.51258 53.38354 56.89552 61.16209 64.18141
39 19.99587 23.65432 25.69539 50.65977 54.57223 58.12006 62.42812 65.47557
40 20.70654 24.43304 26.50930 51.80506 55.75848 59.34171 63.69074 66.76596
41 21.42078 25.21452 27.32555 52.94851 56.94239 60.56057 64.95007 68.05273
42 22.13846 25.99866 28.14405 54.09020 58.12404 61.77676 66.20624 69.33600

160
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

43 22.85947 26.78537 28.96472 55.23019 59.30351 62.99036 67.45935 70.61590


44 23.58369 27.57457 29.78748 56.36854 60.48089 64.20146 68.70951 71.89255
45 24.31101 28.36615 30.61226 57.50530 61.65623 65.41016 69.95683 73.16606
46 25.04133 29.16005 31.43900 58.64054 62.82962 66.61653 71.20140 74.43654
47 25.77456 29.95620 32.26762 59.77429 64.00111 67.82065 72.4433 75.7041
48 26.51059 30.75451 33.09808 60.90661 65.17077 69.02259 73.6826 76.9688
49 27.24935 31.55492 33.93031 62.03754 66.33865 70.22241 74.9195 78.2307
50 27.99075 32.35736 34.76425 63.16712 67.50481 71.42020 76.1539 79.4900
100 67.32756 74.22193 77.92947 118.49800 124.34211 129.56120 135.8067 140.1695
150 109.14225 117.98452 122.69178 172.58121 179.58063 185.80045 193.2077 198.3602
200 152.241 162.728 168.279 226.021 233.994 241.058 249.445 255.264
250 196.161 208.098 214.392 279.050 287.882 295.689 304.940 311.346
500 422.303 439.936 449.147 540.930 553.127 563.852 576.493 585.207
750 653.997 676.003 687.452 800.043 814.822 827.785 843.029 853.514
1000 888.564 914.257 927.594 1057.724 1074.679 1089.531 1106.969 1118.948

Tabla construida por: Flores, O. 2006.

161
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Valores críticos de la distribución χ2

0.05 0.01
1 3.841459149 6.63489671
2 5.991464547 9.21034037
3 7.814727764 11.3448667
4 9.487729037 13.2767041
5 11.07049775 15.0862725
6 12.59158724 16.8118938
7 14.06714043 18.4753069
8 15.50731306 20.090235
9 16.91897762 21.6659943
10 18.30703805 23.2092512
11 19.67513757 24.7249703
12 21.02606982 26.2169673
13 22.3620325 27.6882496
14 23.68479131 29.1412377
15 24.99579013 30.5779142
16 26.29622761 31.9999269
17 27.58711164 33.4086636
18 28.86929943 34.8053057
19 30.14352721 36.1908691
20 31.41043286 37.5662348
21 32.67057337 38.9321727
22 33.92443852 40.2893604
23 35.17246163 41.6383981
24 36.4150285 42.9798201
25 37.65248413 44.3141049
26 38.88513865 45.6416827
27 40.11327205 46.9629421
28 41.33713813 48.2782358
29 42.55696777 49.5878845
30 43.77297178 50.8921814
40 55.75847932 63.6907397
50 67.50480652 76.1538912
60 79.08194439 88.3794189
70 90.53122518 100.425184
80 101.8794741 112.328793
90 113.1452703 124.116319
100 124.3421137 135.806723

162
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Resumen de las utilidades de los principales estadísticas o pruebas


estadísticas.

Coeficiente de correlación y naturaleza de las variables.

coeficiente Variable 1 Variable 2


Pearson (r) continua Continua
Kendall (τ) Ordinal Ordinal
Biserial (r bis) dicotomizada continua
Biserial puntual (r pbis) Dicotomica Continua
Tetracórica Dicotomizada Dicotomizada
Coeficiente fi (ϕ) Dicotómica Dicotómica
Coeficiente eta (η) Continua continua

Tablas de Contingencia y Medidas de Asociación

1) La prueba de Phi, (X2 Ho: X e Y son independientes)


(Para Variables Cualitativas-Dicotómicas).

2) La prueba delCoeficiente de Contingencia, y la V de Cramer,(X2)


(Para Variables Cualitativas en Escala Nominal).

3) La prueba de Gamma,(similar a “R”; Ho: R = 0),


(Para Variables Cualitativas en Escala Ordinal).

4) La prueba de Tau-c de Kendall,(similar a “R”; Ho: R = 0),


(Para Variables Cualitativas en Escala Ordinal).

5) La prueba del coeficiente Eta,(similar a “R”; Ho: R = 0),


(Para Variables Cuantitativas en Escala de Intervalo o Razón).

6) Los Coeficientes de Correlación de Pearson y Spearman,


(Para Variables Cuantitativas en Escala de Intervalo o Razón).

Ho: R = 0, significa ausencia de correlación entre las variables, lo cual es un


indicador de que las variables son independientes entre si

163
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

CUESTIONARIO DE AUTO EVALUACIÓN

DISEÑO DE ESTUDIOS

1. Existen diversos tipos de ensayos clínicos en función del tipo de


conclusiones a qué deseen llegar: estudios confirmatorios y exploratorios. Sin
embargo hay una característica común en todos ellos:

a) Criterios de inclusión de pacientes muy suaves


b) Especifican los objetivos a priori
c) Son estudios totalmente controlados
d) Incluyen pocas variables
e) Pretenden demostrar equivalencia entre 2 o más tratamientos

2. Normalmente, sólo una de las variables respuesta del estudio recibe el


nombre de variable respuesta principal. ¿Cuál es la característica que la distingue
del resto de variables respuesta?

a) Es una variable explicativa categórica


b) Es un factor de riesgo conocido
c) Las posibles evidencias clínicas se basan en su análisis
d) Es una variable continua
e) Es una de las variables relacionadas con el objetivo general del estudio

3. La variable respuesta también recibe el nombre de variable dependiente. En


un estudio donde se desea medir el efecto de oír música clásica en la
productividad de los trabajadores, la variable dependiente es:

a) El número de trabajadores
b) Oir música clásica / No oir música clásica
c) La productividad
d) El volumen de la música
e) No hay variable dependiente porque es un estudio sin control del sesgo

4. ¿Qué es el sesgo de una muestra?

a) Datos falsificados a consecuencia de malas conductas


b) Errores sistemáticos que influyen en la representatividad de la muestra.
c) Un sinónimo de variabilidad
d) Una característica intrínseca de la población de estudio
e) Ninguna de las anteriores

164
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

5. Qué es un ensayo controlado?

a) Un estudio donde se miden controladamente las variables respuesta


b) Un estudio prospectivo
c) Un estudio retrospectivo
d) Un estudio donde se compara un grupo experimental con un grupo de
referencia
e) Un estudio en que los animales son asignados de forma aleatoria a los
posibles grupos de la variable explicativa principal.

6. En el diseño de un estudio experimental controlado es posible llevar a cabo


actuaciones para evitar posibles sesgos en los resultados. Las dos medidas
principales de precaución son:

a) Enmascaramiento de tratamientos y asignación aleatoria de los animales a los


grupos
b) Enmascaramiento de tratamientos y estandarización de variables
c) Enmascaramiento de tratamientos y eliminación del análisis de los animales que
incumplen el protocolo
d) Validación de los datos y eliminación del análisis de los animales que
incumplen el protocolo
e) Validación de los datos y estandarización de las variables

7. La relación entre la variable respuesta y la variable explicativa principal


(grupos de tratamiento) puede ser causal o predictiva. ¿En qué situación podemos
decir que la relación entre variables explicativas y respuesta es de causalidad?

a) En todos los estudios exploratorios


b) Cuando la relación es predictiva
c) Cuando el estudio es enmascarado y las variables han sido estandarizadas
d) Cuando los p-valores de los coeficientes del modelo son significativos e)
Cuando la muestra ha sido aleatorizada y los grupos son balanceados en función
de los factores de riesgo

8. Qué tipo de estudios ofrecen mayor validez en los resultados obtenidos?

a) Los estudios observacionales


b) Los estudios caso-control
c) Los estudios de cohortes
d) Los ensayos controlados con asignación aleatoria
e) Los ensayos exploratorios

165
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

9. El cálculo de tamaño de muestra permite determinar...:

a) el número de variables a recoger


b) el número de tablas de resultados
c) el número máximo de unidades experimentales
d) el número óptimo de unidades experimentales
e) el número mínimo de unidades experimentales

10. Qué diferencias hay entre las poblaciones de análisis PP y ITT?

a) los animales que incumplen el protocolo no forman parte de la población ITT


b) la población de animales PP es más amplia que la población ITT
c) la población de animales PP conduce a la evaluación del objetivo en la práctica
real.
d) la población de análisis ITT permite evaluar el objetivo desde un punto de vista
teórico
e) ninguna de las anteriores es cierta

ESTADÍSTICA BÁSICA

1. Una vez la base de datos ha sido validada y cerrada, se procede con el


resumen descriptivo de los datos. El objetivo principal del resumen descriptivo es...

a) medir efectos y obtener indicios de posibles relaciones entre variables


b) detectar inconsistencias entre variables
c) obtener conclusiones sobre la relación entre variables
d) obtener algunas representaciones gráficas de la relación entre variables
e) validar la base de datos

2. Antes de proceder con el análisis estadístico de los datos, es necesario


comprobar la existencia o no de asociación entre las variables explicativas del
estudio (homogeneidad basal). Su importancia reside en el hecho que la
asociación entre variables...

a) incrementa la significación de algunos resultados estadísticos


b) posibilita predicciones de la respuesta con mayor fiabilidad
c) garantiza la homogeneidad basal entre tratamientos
d) influye en el valor interpretativo del modelo estadístico
e) reduce el número de variables en el modelo

166
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

3. ¿Qué índices descriptivos son adecuados para variables cualitativas?

a) Media y Desviación típica


b) Gráfico de Dispersión
c) Frecuencias relativas y absolutas
d) Frecuencias brutas
e) Número total de casos

4. Un intervalo de confianza del 95% bilateral para una media será...

a) idéntico al intervalo del 95% unilateral


b) el doble que un intervalo del 95% unilateral
c) la mitad que un intervalo del 95% unilateral
d) más estrecho que un intervalo del 99% bilateral
e) más estrecho que un intervalo del 90% bilateral

5. ¿Qué índices o pruebas son más adecuados para medir el grado de


asociación entre dos variables cualitativas?

a) Correlación de Spearman y correlación de Pearson


b) Prueba T-Student y correlación de Pearson
c) Prueba Chi-Cuadrado
d) Prueba T-Student y prueba Chi-Cuadrado
e) Prueba T-Student y prueba U de Mann-Whitney

6. ¿Qué índices o pruebas son más adecuados para medir el grado de


asociación entre una variable cuantitativa y otra variable cualitativa?

a) Correlación de Spearman y correlación de Pearson


b) Prueba T-Student y correlación de Pearson
c) Prueba Chi-Cuadrado
d) Prueba T-Student y prueba Chi-Cuadrado
e) Prueba T-Student y prueba U de Mann-Whitney

7. ¿Qué índices o pruebas son más adecuados para medir el grado de


asociación entre dos variables cuantitativas?

a) Correlación de Spearman y correlación de Pearson


b) Prueba T-Student y correlación de Pearson
c) Prueba Chi-Cuadrado
d) Prueba T-Student y prueba Chi-Cuadrado
e) Prueba T-Student y prueba U de Mann-Whitney

167
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

8. La probabilidad de rechazar la hipótesis nula cuando efectivamente es falsa


se llama:

a) Alfa
b) Beta
c) Potencia
d) Casualidad
e) Probabilidad nula

9. En una prueba de hipótesis, si no se rechaza la hipótesis nula, ¿qué tipo de


error puede haberse cometido?

a) Error de tipo I
b) Error de tipo II
c) Error de tipo III
d) Error probabilística
e) No es un error ya que el objetivo de la prueba es aceptar la hipótesis nula

10. Cuando el p-valor de una prueba estadística es inferior al nivel de significación


fijado por el investigador...:

a) se rechaza la hipótesis nula


b) se rechaza la hipótesis alternativa
c) se rechaza que la muestra sea representativa
d) se rechaza el error de tipo I
e) se acepta la hipótesis nula

Respuestas

DISEÑO DE ESTUDIOS

1) b 2) c 3) c 4) b 5) d 6) a 7) e 8) d 9) d 10) e

ESTADÍSTICA BÁSICA

1) a 2) d 3) c 4) d 5) c 6) e 7) a 8) c 9) b 10) a

CONCLUSIÓN:

Si el número de aciertos de los dos tests es:

• Entre 0 y 5 aciertos: Tienes un nivel de Estadística muy bajo.


• Entre 5 y 10 aciertos: El curso que te interesa realizar es el de Estadística
Básica.
• Más de 10 aciertos: Puede que el curso que te interese realizar es el de
Modelización Estadística Básica (SPSS avanzado).

168
Ejercicios y problemas adicionales.

Preg. 1. En una muestra de pacientes, el número de varones dividido entre el total


de pacientes es:

a Una frecuencia relativa.


b Una frecuencia absoluta.
c Una variable cuantitativa.
d Una variable cualitativa.
e Un valor de la variable.

Preg. 2. Cuál de las siguientes medidas define mejor la tendencia central de los
datos: 5 , 4, 42, 4, 6

a La mediana.
b La media.
c El sesgo
d El rango.
e La proporción.

Preg. 3. Señale cuál de las siguientes afirmaciones es falsa:

a La aparición o no de bacterias en un cultivo es una variable dicotómica


b La estatura de un individuo es una variable cuantitativa discreta.
c El lugar que ocupa una persona entre sus hermanos (de menor a mayor
edad) es una variable ordinal.
d El estado civil es una variable cualitativa.
e La glucemia es continua.

Preg. 4. ¿Cuál de las siguientes características no se corresponde con el


concepto de mediana?

a Es el centro de gravedad de la distribución.


b No se ve afectada por los valores extremos.
c Deja por debajo el mismo número de datos que por encima.
d Es el segundo cuartil.
e Todo lo anterior se corresponde con la mediana.

Preg. 5. Los diagramas de sectores son muy útiles para comparar:

a Dos variables cualitativas en una población.


b Dos variables cuantitativas en una población.
c Una variable cualitativa en dos poblaciones.
d Una variable cuantitativa en dos poblaciones.
e Una variable cuantitativa con otra cualitativa.
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Preg. 6. Sobre el tipo de estadísticos utilizados para resumir o describir los datos,
indique la afirmación incorrecta:

a Para variables discretas puede ser suficiente reseñar la proporción de


sujetos que se incluyen en cada categoría.
b En variables continuas se usan medidas de tendencia central.
c Las medidas de tendencia central pueden dar idea de la magnitud de los
datos.
d Las medidas de dispersión ayudan a interpretar entre qué márgenes se
mueven los datos.
e En variables cualitativas podemos utilizar proporciones y medidas de
tendencia central.

Preg. 7. En el caso de una variable ordinal, el número n de datos válidos es:

a La suma de las frecuencias absolutas.


b La frecuencia absoluta acumulada de la categoría más frecuente.
c La suma de las frecuencias relativas.
d La frecuencia relativa acumulada en la última categoría.
e La (a) y la (d) son ciertas.

Preg. 8. Al representar la distribución de frecuencias de una variable usamos un


histograma de frecuencias relativas. Supongamos que uno de los intervalos en los
que se agrupa la variable es 3 veces más grande que el resto. En cuanto al área
que dicho intervalo ocupa del histograma:

a Debe ser igual a la frecuencia relativa del intervalo.


b Debe ser 3 veces mayor que la frecuencia relativa del intervalo.
c Debe ser 3 veces menor que la frecuencia relativa del intervalo.
d Coincide con la amplitud del intervalo.
e Debe ser similar a la del resto de intervalos.

Preg. 9. La estadística en Ciencias de la Salud se utiliza para obtener información


sobre situaciones de carácter:

a Determinista.
b Sistemático.
c Exhaustivo.
d Aleatorio.
e Excluyente.

Preg. 10. Elija la afirmación que pueda considerarse admisible al leer un estudio
estadístico:

a Se estudió a una muestra en vez de a la población, para mayor precisión.


b Se estudió a la población para obtener información sobre la muestra.

170
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

c Se estudió a una muestra representativa de la población.


d Se estudiaron todas las variables de la población.
e Se observó a un individuo de cada variable.

Preg. 11. Elija la afirmación correcta:

a Los valores de cualquier variable deben ser agrupados en intervalos.


b Las variables deben ofrecer valores que no se repitan en los diferentes
individuos.
c Las modalidades de una variable deben poder ser observadas en todos los
individuos.
d Los individuos pueden poseer diferentes modalidades de la misma variable.
e Todo lo anterior es falso.

Preg. 12. En cuanto a la presentación ordenada del estudio de una variable


aislada:

a Lo más informativo es mostrar las medidas de tendencia central.


b Lo más informativo es mostrar las medidas de dispersión.
c Se deben presentar todos los valores observados de la variable, uno a uno,
de menor a mayor.
d Las representaciones gráficas dan más información que las tablas de
frecuencia.
e A veces no tiene sentido usar frecuencias acumuladas.

Preg. 13. En las representaciones gráficas de variables cualitativas, la regla


fundamental a tener en cuenta es:

a Las alturas en cada modalidad son proporcionales al valor de la variable.


b Las áreas para cada modalidad son proporcionales al valor de la variable.
c Las áreas para cada modalidad son proporcionales a las frecuencias
acumuladas.
d Las áreas para cada modalidad son proporcionales a las frecuencias
absolutas o relativas.
e Las alturas para cada modalidad son proporcionales a las frecuencias
acumuladas.

Preg. 14. Entre las representaciones gráficas para variables cualitativas tenemos:

a Histogramas.
b Diagramas integrales.
c Diagramas diferenciales.
d Diagramas de cajas y bigotes.
e Nada de lo anterior.

171
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Preg. 15. Elija la opción correcta.

a Un parámetro es algo calculado sobre cada individuo.


b Un parámetro es calculado sobre la muestra.
c Una variable se calcula sobre los parámetros de una población.
d Un estadístico se calcula sobre la población.
e Nada de lo anterior es correcto.

Preg. 16. Disponemos de la distribución de edades de los individuos de una


población. El número de ellos que no es mayor de edad, es:

a Una frecuencia relativa.


b Una frecuencia absoluta.
c Una frecuencia acumulada.
d Una variable numérica.
e Una variable cualitativa.

Preg. 17. De los siguientes conceptos indique el que no tenga sentido:

a Diagrama de barras para la variable "Grupo sanguíneo"


b Pictograma para la variable "Altura"
c Diagrama integral para la variable "Nivel de colesterol"
d Diagrama de sectores para la variable "Sexo"
e Histograma para la variable "Peso"

Preg. 18. Se llama parámetro a:

a Una función de valor numérico definida sobre las características medibles


de una población.
b Una función definida sobre los valores numéricos de una muestra.
c Cualquier variable observable de una población
d Las variables numéricas de la muestra
e Cualquier función sobre las variables observadas

Preg. 19. Si queremos representar gráficamente los porcentajes de una variable


cuantitativa continua debemos usar:

a Pictogramas
b Diagrama de barras
c Diagrama diferencial acumulado
d Histograma
e No existe gráfica posible

172
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Preg. 20. Las modalidades de una variable:

a Han de ser exhaustivas y excluyentes.


b Son las diferentes situaciones posibles de un carácter.
c Si la variable es cualitativa, son de tipo nominal.
d Todas las anteriores son correctas.
e Ninguna de las anteriores es correcta.

Soluciones:

Estadísticos.

Preg. 1. Para comparar la variabilidad relativa de la tensión arterial diastólica y el


nivel de colesterol en sangre de una serie de individuos, utilizamos

a Las desviaciones típicas.


b Los rangos.
c Los coeficientes de variación.
d La diferencia de las medias.
e La diferencia de las varianzas.

Preg. 2. La media aritmética de una variable cuantitativa:

a Es siempre un valor de la variable.


b No tiene sentido calcularla para variables discretas.
c Es el valor más representativo de una modalidad.
d Si la variable es discreta, puede no ser única.
e Existe siempre.

Preg. 3. Las siguientes medidas son todas de centralización, excepto:


a La media.
b La moda.
c La mediana.
d Rango intercuartílico.
e El percentil 50.

Preg. 4. Al analizar una serie estadística de datos, ¿puede ocurrir que la


desviación sea mayor que la media?

a Teóricamente no es posible, pero puede ocurrir por los errores de


redondeo.
b Siempre ha de ser la media mayor que la desviación típica.
c A lo sumo puede ser igual a la media.
d La desviación típica a de ser como máximo igual a la media para que la
suma de cuadrados no sea negativa.
e En general no hay relación entre la varianza y la media.

173
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Preg. 5. En un estudio descriptivo se obtiene una que el peso tiene una media de
60 kg y una desviación típica de 20 kg., mientras que la media de las edades es
15 años, con una desviación típica de 5 años. Entonces:

a Hay más dispersión en pesos que en edades.


b Hay más dispersión en edades que en pesos.
c Peso y edad están dispersos de modo equivalente.
d No tiene sentido compararlos al no coincidir las unidades de medida.
e Para comparar ambas dispersiones debemos usar la covarianza.

Preg. 6. Señale cual de las siguientes afirmaciones es verdadera:

a La media, la mediana y el rango orientan sobre la tendencia central de los


datos.
b La desviación típica me orienta sobre la "validez" de la media.
c El rango me orienta sobre la simetría de la distribución.
d Las marcas de clase de una variable cualitativa se calculan como los puntos
medios de los intervalos.
e La media, mediana y moda resumen todo tipo de información de los datos.

Preg. 7. En una población, el peso tiene media 60kg y desviación típica 6Kg. La
altura tiene de media 170cm y desviación 6cm. Cierto individuo tiene un peso de
70 Kg y altura 180cm.

a La altura tiene un valor más extremo que el peso.


b El peso es menos extremo que la altura.
c Peso y altura son valores igualmente extremos.
d El peso es más extremo que la altura.
e La altura es menos extrema que el peso.

Preg. 8. Señale cuál de las siguientes afirmaciones es falsa:

a La media aritmética es siempre el centro de gravedad de la distribución.


b En una distribución continua simétrica, media y mediana coinciden.
c La media aritmética cambia cuando cambia algún dato.
d La mediana no siempre cambia cuando lo hace algún dato.
e En las distribuciones continuas simétricas todas las medidas de
centralización coinciden.

Preg. 9. El coeficiente de variación:

a Permite comparar la dispersión de dos poblaciones.


b Es menor que la media.
c Es menor que la desviación típica.
d No depende de la media ni la desviación típica.

174
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

e Depende de la escala que se use al medir la variable.

Preg. 10. Entre las siguientes afirmaciones, indica cual es incorrecta:

a Un estimador de la varianza es el cociente del sumatorio de la diferencia


entre cada observación y la media, elevado al cuadrado, y el número de
observaciones.
b La mediana es el centro de gravedad de los datos.
c n coeficiente de variación próximo a cero puede indicar una muestra
homogénea.
d El cociente entre la desviación típica y la media es una medida relativa de
variabilidad.
e El coeficiente de variación se mide en porcentaje.

Preg. 11. Se pide a unos enfermos que valoren su grado de mejoría tras un
tratamiento en una escala de 1 a 5. De la siguiente colección de posibilidades,
cuál cree que resume mejor los mismos:

a Media, Mediana y Moda.


b Percentil 25, Percentil 50, Percentil 75.
c Media y desviación típica.
d Mediana y desviación típica.
e Mínimo y máximo.

Preg. 12. Al aplicar un tratamiento a un paciente, puede que este empeore, no le


haga efecto, o mejore. Si dicho tratamiento se aplica a una población de 100
pacientes, ¿qué medidas cree que resumen mejor los datos?

a Media, mediana, moda, desviación típica y asimetría.


b Mediana y coeficiente de variación.
c Media y coeficiente de variación.
d Percentil 25, percentil 50 y percentil 75.
e Ninguna de las anteriores.

Preg. 13. En cierta población se observa la distribución de los grupos sanguíneos.


Si queremos resumir la información obtenida podemos utilizar:

a Moda.
b Mediana.
c Frecuencias acumuladas absolutas.
d Frecuencias relativas.
e Nada de lo anterior.

Preg. 14. De las siguientes medidas, cuáles podria utilizar para argumentar en
favor o en contra de la asimetría de la variable edad:

175
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

a Percentil 25 y percentil 75.


b Media y Percentil 60.
c Media y mediana
d Media y desviación típica.
e Ninguna de las anteriores.

Preg. 15. La pregunta: ¿qué nivel de colesterol sólo es superado por el 5% de los
individuos?, tiene por respuesta:

a El percentil 95.
b El percentil 5.
c Los percentiles 2,5 y 97,5
d 95%.
e Nada de lo anterior.

Preg. 16. Qué peso no llega a alcanzar el 40% de los individuos de una
población:

a El 40%.
b El 60%.
c El percentil 60.
d El percentil 40.
e Los percentiles 20 y 60.

Preg. 17. Una distribución presenta asimetría negativa siempre que:

a Hay más valores negativos que positivos.


b Hay menos valores negativos que positivos.
c No es simétrica.
d La media es menor que la varianza.
e Nada de lo anterior es cierto.

Preg. 18. La calificación de selectividad que sólo es superada por el 12% de los
estudiantes se denomina:

a Percentil 12.
b Cuantil 0,88
c Cuantil 0,12
d Decil 88
e Nada de lo anterior es correcto.

176
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Preg. 19. En una población, el 70% de las alturas consideradas "más normales"
se encuentran:

a Por encima del percentil 70.


b Por debajo del cuantil 0,30
c Entre el percentil 30 y el 70
d Entre el percentil 15 y el 85.
e Entre la media y la mediana.

Preg. 20. Las medidas de centralización, en cuanto a la información que ofrecen


sobre una variable numérica, preferimos (por orden, de peor a mejor):

a media, mediana, moda


b moda, media, mediana
c media, moda, mediana.
d No se puede en general recomendar una como mejor que las otras.
e Todo lo anterior es falso.

Preg. 21. Si una muestra posee valores anómalos, de las siguientes cuál usarías
como medida de dispersión:

a Varianza.
b Desviación típica.
c Rango intercuartílico.
d Rango.
e Máximo y coeficiente de variación.

Preg. 22. Si queremos saber cómo de disperso está una variable con respecto a
la magnitud de los valores de la misma, usaremos:

a Varianza.
b Desviación típica.
c Rango intercuartílico.
d Rango.
e Coeficiente de variación.

Preg. 23. Si el coeficiente de asimetría en una población presenta el valor 0,99


entonces:

a La distribución presenta una cola a la derecha.


b La distribución presenta una cola a la izquierda.
c La distribución es más apuntada que la normal.
d La distribución es menos apuntada que la normal.
e La distribución es prácticamente simétrica.

177
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Preg. 24. Si la media del peso en una población es 60 kg. y la mediana 65kg.,
entonces afirmamos que la distribución del peso en la población es:

a Platicúrtica.
b Mesocúrtica.
c Leptocúrtica.
d Asimétrica.
e Unimodal.

Preg. 25. Si el coeficiente de asimetría en una población presenta el valor -5,22


entonces:

a La distribución presenta una cola a la derecha.


b La distribución presenta una cola a la izquierda.
c La distribución es más apuntada que la normal.
d La distribución es menos apuntada que la normal.
e Ese valor de asimetría es imposible.

Preg. 26. Medimos el número de glóbulos rojos y el de blancos en cada individuo


de una población. Se observa determinada variabilidad en esas cantidades.
Queremos saber de qué tipo de célula se presenta mayor variabilidad

a Compararemos las desviaciones típicas.


b Compararemos los rangos.
c Estudiaremos la covarianza.
d Estudiaremos el coeficiente de correlación lineal de Pearson.
e Compararemos los coeficientes de variación.

Preg. 27. En una muestra de 1000 mujeres se estudia su número de hijos. Si


quiero tener el máximo de información sobre la variable del estudio, preferimos:

a Media, Mediana y Moda.


b Percentil 25, Percentil 50, Percentil 75.
c Media y desviación típica.
d Media, mediana, cuartiles, asimetría, curtosis y desviación típica.
e Distribución de frecuencias

Preg. 28. Una variable continua presenta una fuerte asimetría positiva. De entre
las siguientes posibilidades, cuál es preferible para resumir la información que hay
en la muestra.

a La mediana.
b La media y la desviación típica.
c Los cuartiles.
d El mínimo y el máximo.
e El diagrama de cajas de Tukey.

178
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Preg. 29. El 3% de los individuos tiene una altura superior a 190cm. El 5% mide
menos de 150cm. Conocemos:

a El percentil 3
b El cuantil 0,06
c El percentil 95
d El percentil 97
e Nada de lo anterior.

Preg. 30. En un grupo de niños se tiene una altura media de 150cm con
desviación típica de 10cm. La edad media es 12 años, con desviación típica de 3
años. ¿Dónde se presenta mayor dispersión?

a En edades.
b En alturas.
c Las dispersiones son similares.
d No se puede decir con esos datos qué variable está más dispersa.
e Nada de lo anterior.

Preg. 31. De los siguientes representaciones gráficas, cual muestra directamente


las observaciones extremas:

a Diagrama de excesos
b Barras.
c El diagrama de observaciones atípicas.
d Pictograma
e Cajas de Tukey.

Preg. 32. El peso presenta una distribución con gran asimetría positiva en un
grupo de individuos obesos. ¿Qué valor divide a los mismos en dos grupos con la
misma cantidad de individuos?

a La moda
b El percentil 25.
c El percentil 75
d La media.
e Ninguno de los anteriores.

Preg. 33. Respecto a las medidas de centralización:

a La media no debe usarse en distribuciones muy asimétricas.


b La moda puede no ser única.
c En distribuciones simétricas media, mediana y moda coinciden.
d Las tres anteriores son correctas.
e Sólo la a) y la b) son correctas

179
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Preg. 34. Para medir la variabilidad de una variable utilizamos:

a El coeficiente de variación
b La desviación típica
c El coeficiente de determinación.
d Todas las anteriores.
e Sólo la a) y la b).

Preg. 35. Si queremos comparar la variabilidad de dos variables diferentes


utilizaremos:

a Las desviaciones típicas.


b Las puntuaciones típicas.
c Los coeficientes de variación.
d Las varianzas.
e Ninguna de las anteriores.

Preg. 36. El coeficiente de variación se caracteriza por ser:

a Adimensional.
b No es invariante ante cambios de origen.
c Es una medida de variabilidad relativa.
d Todo lo anterior es cierto.
e Sólo dos de las anteriores son correctas.

Soluciones:

Regresiones.

Preg. 1. Si al calcular el coeficiente de correlación de dos variables X e Y, se


tiene r=-0.20 ocurre que

a La pendiente de la recta de regresión es pequeña.


b La pendiente de la recta de regresión es grande.
c X e Y están poco relacionadas, aunque cuando X decrece, Y tiene
tendencia a crecer.
d El modelo lineal de regresión explica el 20% de la varianza de una variable
cualquiera en función de la otra.
e El modelo lineal de regresión explica el 80% de la varianza de una variable
cualquiera en función de la otra.

180
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Preg. 2. Si el cociente entre la varianza residual y la explicada por la regresión en


un ajuste lineal es grande:

a El ajuste es bueno.
b El ajuste es malo.
c No puede usarse dicha información como medida de bondad de un ajuste.
d El coeficiente de correlación lineal tiende a -1.
e El coeficiente de correlación lineal es próximo a 1.

Preg. 3. La covarianza de dos variables:

a Es la raíz cuadrada del coeficiente de correlación.


b Es la media de las varianzas.
c Es una medida de la variabilidad común.
d Es siempre positiva.
e Todas las anteriores afirmaciones son ciertas.

Preg. 4. Se utiliza un modelo lineal de regresión para estimar el tiempo de


supervivencia de un enfermo terminal a partir de un conteo de linfocitos. Se
obtiene una varianza explicada por el modelo de 40.000, y una varianza residual
de 2.000. ¿Qué se puede deducir directamente de estos datos?

a A mayor número de linfocitos, probablemente será mayor el tiempo de


supervivencia.
b A mayor número de linfocitos, con toda seguridad será mayor el tiempo se
supervivencia.
c Hay una buena relación lineal entre ambas variables.
d El ajuste lineal es malo porque la varianza residual es muy alta.
e Las repuestas (a) y (c) son correctas.

Preg. 5. La recta de regresión de Y sobre X se muestra como un buen modelo


para explicar la relación entre dos variables numéricas. Entonces:

a Y se puede calcular exactamente como una función matemática de X.


b Y es independiente de X.
c La covarianza de X e Y no es nula.
d La media de X coincide con la media de Y.
e Sólo dos de las afirmaciones anteriores son correctas.

Preg. 6. En una población se obtiene con una bondad de ajuste de 0,9 que la
relación entre nivel de glucemia (Y) y nivel de colesterol (X) es de Y=20 + X/4.
Entonces:

a Todos los individuos con un valor de colesterol 100, presentan glucemia 45.

181
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

b Existe tendencia a que a mayor nivel de glucemia, mayor nivel de


colesterol.
c Hay mas individuos con colesterol alto que con glucemia baja.
d Las observaciones se muestran como una nube de puntos creciente.
e Sólo dos de las afirmaciones anteriores son correctas.

Preg. 7. En el modelo de regresión lineal de Y sobre X, se obtiene una varianza


residual de 10 y una varianza explicada por el modelo lineal de regresión de 90.
además se observa que la nube de puntos tiene forma decreciente. Entonces:

a La varianza de Y es 100.
b r=0,9
c r=-0,9
d La covarianza es de 1/9.
e Sólo dos de las afirmaciones anteriores son ciertas.

Preg. 8. Dos variables numéricas son incorreladas. Entonces:

a r=0
b El modelo lineal de regresión sólo propone un valor como predicción de Y.
c La nube de puntos no presenta aspecto creciente.
d La varianza residual en el modelo de regresión de Y sobre X es igual a la
varianza de Y.
e Todo lo anterior es cierto.

Preg. 9. Si al realizar un análisis de regresión la covarianza coincide con el


producto de las desviaciones típicas de las variables, puedo asegurar que:

a La ordenada en el origen de la recta no es cero


b La recta pasa por las medias de las variables
c Existe una correlación lineal perfecta entre las variables.
d Todas las anteriores son ciertas.
e Son correctas (b) y (c).

Preg. 10. Tenemos dos variables numéricas X e Y medidas sobre la misma


población, y disponemos de media y desviación típica de cada una de ellas.
Cuanto mayor es el coeficiente de determinación en una regresión lineal:

a Mayor es la covarianza.
b Mayor es r.
c Menor es la varianza residual.
d Mayor es la relación lineal entre las dos variables
e Sólo dos de las afirmaciones anteriores son correctas.

182
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Preg. 11. De las siguientes parejas de variables, en cuáles crees que puede ser
útil un análisis de regresión lineal:

a La presión sanguínea y el grupo sanguíneo.


b El nivel de colesterol y la concentración de bilirrubina.
c El grupos sanguíneo y el factor Rh.
d El género y la edad.
e Poseer ideología racista y el factor RH.

Preg. 12. Si el coeficiente de correlación lineal de Pearson entre dos variables es


-0,8 podemos decir:

a La covarianza es negativa.
b La relación entre las variables es directa.
c Hay poca relación lineal entre las variables.
d Hay un error de cálculo.
e El 80% de las predicciones son correctas.

Preg. 13. En un estudio de regresión lineal, donde el peso se estudie


conjuntamente con otras variables, en qué casos lo usarías como variable
dependiente:

a Al estudiarlo con la altura.


b Al estudiarlo con el nivel del colesterol.
c Al estudiarlo con la presión sanguínea.
d Al estudiarlo con el grupo sanguíneo.
e Nada de lo anterior.

Preg. 14. En una población formada por unidades familiares, la altura media del
padre en la familia se comporta como una distribución normal de media 170cm
con desviación típica 5 cm. La altura del primer hijo varón es otra variable con
distribución similar. Con estos datos podemos afirmar:

a No hay relación entre ambas variables.


b Hay relación inversa entre las variables.
c No debemos intentar predecir la altura del hijo de un padre que mide
140cm.
d Hay relación directa entre las variables.
e Nada de lo anterior.

Preg. 15. Si el coeficiente de correlación lineal de Pearson entre dos variables es


-0,1 podemos decir:

a La covarianza es pequeña.
b Hay fuerte relación inversa entre las variables.
c Hay poca relación lineal entre las variables.

183
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

d Hay un error de cálculo.


e El 10% de las predicciones son correctas.

Preg. 16. Se observa que al disminuir el consumo de comida rápida, disminuye el


nivel de colesterol en sangre. Se usa un modelo de regresión entre ambas que
ofrece una bondad de ajuste del 36%. Entonces:

a El 36% de las predicciones del modelo son correctas.


b r= +0.60
c r= +0.36
d r= -0.60
e r= -0.36

Preg. 17. Un modelo de regresión lineal para calcular la glucemia (sangre) a partir
de la de la orina (glucosuria) es "glucemia = 20+ 0.5 glucosuria". Si dos personas
se diferencian en 10 unidades de glucosuria, cual es la mejor estimación que
puede hacer para la diferencia en glucemia:

a 5
b 10
c 15
d 20
e 25

Preg. 18. Qué afirmación sobre la covarianza es falsa:

a La covarianza es una medida de la variabilidad conjunta de dos variables


numéricas.
b Si la covarianza es positiva implica una relación creciente entre las
variables.
c A partir de ella se obtiene el coeficiente de correlación lineal de Pearson.
d Posee dimensiones.
e Si es 0 podemos afirmar que no existe relación posible entre las variables.

Preg. 19. La pendiente de una recta de una función de regresión lineal Y = b0 + b1


X

a Representa el incremento de Y por cada unidad de incremento de X.


b Tiene el mismo signo que la covarianza.
c Es el valor de la variable Y cuando X=0.
d Todas las anteriores son correctas.
e Sólo la a) y la b) son correctas.

184
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Preg. 20. Señala cual de las siguientes afirmaciones sobre el coeficiente de


determinación es falsa:

a Es el porcentaje de variabilidad de una variable explicado por la variabilidad


de la otra.
b Coincide con el valor del coeficiente de correlación r2
c Cuanto mayor sea la varianza residual en comparación con la varianza total
de la variable dependiente, el coeficiente estará más cercano a 0.
d Cuanto mayor sea la varianza residual en comparación con la varianza total
de la variable dependiente, el coeficiente estará más cercano a 1.
e Se utiliza para medir la bondad del ajuste.

Soluciones:

Problemas

Ejercicio 1. Recientes estudios sobre el ejercicio de la Medicina en centros en los


que no actúan estudiantes, indican que la duración media de la visita por paciente
es de 22 minutos. Se cree que en centros donde con un elevado número de
estudiantes en prácticas esta cifra es menor. Se obtuvieron los siguientes datos
sobre las visitas de 20 pacientes aleatoriamente seleccionados:

Duración en minutos de la visita


21'6 13'4 20'4 16'4 23'5 26'8 24'8 19'3
23'4 9'4 16'8 21'9 24'9 15'6 20'1 16'2
18'7 18'1 19'1 18'9

1. ¿Constituyen estos datos una muestra aleatoria?

2. ¿Podemos concluir en base a estos datos que la población de la cual fue


extraída esta muestra sigue una distribución Normal?

185
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Ejercicio 2. Se realiza un estudio para determinar los efectos de poner fin a un


bloqueo renal en pacientes cuya función renal está deteriorada a causa de una
metástasis maligna avanzada de causa no urológica. Se mide la tensión arterial de
cada paciente antes y después de la operación. Se obtienen los siguientes
resultados:

Tensión arterial
Antes 150 132 130 116 107 100 101 96 90 78
Después 90 102 80 82 90 94 84 93 89 8?????

¿Se puede concluir que la intervención quirúrgica tiende a disminuir la tensión


arterial?

Ejercicio 3. Se ensayaron dos tratamientos antirreumáticos administrados al azar,


sobre dos grupos de 10 pacientes, con referencia a una escala convencional (a
mayor puntuación, mayor eficacia), valorada después del tratamiento. Los
resultados fueron:
Nivel de eficacia del tratamiento
Tratamiento primero 12 15 21 17 38 42 10 23 35 28
Tratamiento segundo 21 18 25 14 52 65 40 43 35 42

Decidir si existe diferencia entre los tratamientos.

186
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Ejercicio 4. Puesto que el hígado es el principal lugar para el metabolismo de los


fármacos, se espera que los pacientes con enfermedades de hígado tengan
dificultades en la eliminación de fármacos. Uno de tales fármacos es la
fenilbutazona. Se realiza un estudio de la respuesta del sistema a este fármaco.
Se estudian tres grupos: controles normales, pacientes con cirrosis hepática,
pacientes con hepatitis activa crónica. A cada individuo se les suministra
oralmente 19 mg de fenilbutazona/Kg. de peso. Basándose en los análisis de
sangre se determina para cada uno el tiempo de máxima concentración en plasma
(en horas). Se obtienen estos datos:
Normal Cirrósis Hepatítis
4 22,6 16,6
30,6 14,4 12,1
26,8 26,3 7,2
37,9 13,8 6,6
13,7 17,4 12,5
49 15'1
6,7
20

¿Se puede concluir que las tres poblaciones difieren respecto del tiempo de
máxima concentración en plasma de fenilbutazona?

Ejercicio 5. El administrador de un laboratorio está considerando la compra de un


aparato para analizar muestras de sangre. En el mercado hay 5 de tales aparatos.
Se le pide a cada uno de los 7 técnicos médicos que después de probar los
aparatos, les asignen un rango de acuerdo con el orden de preferencia, dándole el
rango 1 al preferido. Se obtienen los siguientes datos:

Analizador de sangre
Técnico I II III IV V
1 1 3 4 2 5
2 4 5 1 2 3
3 4 1 3 5 2
4 1 3 2 5 4
5 1 2 3 4 5
6 5 1 3 2 4

187
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

7 5 1 4 3 2
Utilizar el contraste adecuado para determinar si los técnicos perciben diferencias
entre los aparatos.

Ejercicio 6. Los efectos de tres drogas con respecto al tiempo de reacción a cierto
estímulo fueron estudiados en 4 grupos de animales experimentales. El grupo IV
sirvió de grupo control, mientras que a los grupos I, II y III les fueron aplicadas las
drogas A, B y C respectivamente, con anterioridad a la aplicación del estímulo:

A B C Control
17 8 3 2
20 7 5 5
40 9 2 4
31 8 9 3
35

¿Puede afirmarse que los tres grupos difieren en cuanto al tiempo de reacción?

Ejercicio 7. La tabla siguiente muestra los niveles de residuo pesticida (PPB) en


muestras de sangre de 4 grupos de personas. Usar el test de Kruskal-Wallis para
contrastar a un nivel de confianza de 0'05, la hipótesis nula de que no existe
diferencia en los niveles de PPB en los cuatro grupos considerados.

Niveles de PPB
Grupo I 10 37 12 31 11 9 23
Grupo II 4 35 32 19 33 18 8
Grupo III 15 5 10 12 6 6 15
Grupo IV 7 11 1 08 2 5 3

Ejercicio 8. La cantidad de aminoácidos libres fue determinada para 4 especies de


ratas sobre 1 muestra de tamaño 6 para cada especie. Comprobar si el contenido
de aminoácidos libres es el mismo para las 4 especies.
Especies de ratas
I II III IV
431'1 477'1 385'5 366'8
440'2 479'0 387'9 369'9

188
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

443'2 481'3 389'6 371'4


445'5 487'8 391'4 373'2
448'6 489'6 399'1 377'2
451'2 403'6 379'4 381'3

Ejercicio 9. Los siguientes datos nos dan el peso de comida (en Kg.) consumidos
por adulto y día en diferentes momentos en un año. Usar un contraste no
paramétrico para comprobar si el consumo de comida es el mismo en los 4 meses
considerados.
Febrero Mayo Agosto Noviembre
4,7 4,7 4,8 4,9
4,9 4,4 4,7 5,2
5,0 4,3 4,6 5,4
4,8 4,4 4,4 5,1
4,7 4,1 4,7 5,6

Ejercicio 10. Se hizo un estudio neurofisiológico sobre la conducción motora tibial


posterior en dos grupos de pacientes embarazadas con las siguientes
determinaciones:
Conducción motora tibial posterior
Primer grupo 51 40 41 53 48 50 45 58 45 44
Segundo grupo 58 43 40 45 41 42 44 52 56 48

Comprobar la igualdad o no de ambas muestras.

Ejercicio 11. En un experimento diseñado para estimar los efectos de la inhalación


prolongada de óxido de cadmio, 15 animales de laboratorio sirvieron de sujetos
para el experimento, mientras que 10 animales similares sirvieron de controles. La
variable de interés fue el nivel de hemoglobina después del experimento. Se
desea saber si puede concluirse que la inhalación prolongada de óxido de cadmio
disminuye el nivel de hemoglobina según los siguientes datos que presentamos:

Nivel de hemoglobina
Expuestos 14'4 14'2 13'8 16'5 14'1 16'6 15'9 15'6 14'1 15'3
15'7 16'7 13'7 15'3 14'0
No expuestos 17'4 16'2 17'1 17'5 15'0 16'0 16'9 15'0 16'3 16'8

189
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Ejercicio 12. A 11 ratas tratadas crónicamente con alcohol se les midió la presión
sanguínea sistólica antes y después de 30 minutos de administrarles a todas ellas
una cantidad fija de etanol, obteniéndose los datos siguientes:

Presión sanguínea sistólica


Antes 126 120 124 122 130 129 114 116 119 112 118
Después 119 116 117 122 127 122 110 120 112 110 111

¿Hay un descenso significativo de la presión sanguínea sistólica tras la ingestión


de etanol?

Ejercicio 13. Un test de personalidad, tiene dos formas de determinar su


valoración suponiendo inicialmente que ambos métodos miden igualmente la
extroversión. Para ello se estudia en 12 personas obteniéndose los siguientes
resultados:
Medida de la extraversión
Forma A 12 18 21 10 15 27 31 6 15 13 8 10
Forma B 10 17 20 5 21 24 29 7 11 13 8 11

¿Hay diferencia entre los dos métodos?

Test general.

Pregunta 1. Cuál de los siguientes es uno de los axiomas de probabilidad:

Opción a: PROB[A]< 1 para todo A.


Opción b: PROB[A]> 0 para todo A.
Opción c: PROB[E]= 1 cuando E es el suceso seguro.
Opción d: PROB[ no A] = 1-PROB[A] para todo A.
Opción e: PROB[A unionB] = PROB[A] - PROB[B] - PROB[ A interseccion
B] para todos A y B.

Pregunta 2. La función de densidad de una variable aleatoria continua:

Opción a: Siempre es no negativa.


Opción b: Es la derivada de la función de distribución.
Opción c: El área encerrada por ella y el eje X vale uno.
Opción d: Todo lo anterior es cierto.
Opción e: Sólo (a) y (c) son correctas.

190
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Pregunta 3. Una variable de Poisson se caracteriza por:

Opción a: Contabiliza el que se repita cierto número de veces un suceso


elemental, cuando un experimento se realiza un número elevado de veces.
Opción b: Es muy pequeña la probabilidad de un suceso elemental.
Opción c: Los sucesos elementales son independientes entre sí en cada
experimento.
Opción d: Se debe verificar todo lo anterior simultáneamente.
Opción e: Contabiliza en qué momento ocurre por primera vez un suceso
elemental.

Pregunta 4. Se realiza una auditoría de historias clínicas tomando una primera


historia al azar y después sucesivamente, la que ocupa la vigésima posición
detrás de la anterior. Este procedimiento de muestreo se denomina:

Opción a: Por conglomerados.


Opción b: Sistemático.
Opción c: Correlativo.
Opción d: Consecutivo.
Opción e: Equidistante.

Pregunta 5. Se realiza un estudio con objeto de determinar el tiempo de


supervivencia en pacientes con cáncer. Para ello de los dos hospitales existentes
en una ciudad, se selecciona aleatoriamente uno de ellos, y se elige una muestra
aleatoria de pacientes, atendiendo al tipo de cáncer: El muestreo realizado es:

Opción a: Sistemático.
Opción b: Aleatorio.
Opción c: Por conglomerados.
Opción d: Estratificado.
Opción e: Por conglomerados y estratificado.

Pregunta 6. Para conocer los índices predictivos en un test diagnóstico para una
enfermedad que tiene un 1% de afectados en la población, será necesario
conocer:

Opción a: Sensibilidad y verdaderos positivos


Opción b: Prevalencia.
Opción c: Verdaderos positivos y especificidad.
Opción d: Especificidad y verdaderos negativos
Opción e: Falsos positivos y verdaderos positivos.

191
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Pregunta 7. Si la probabilidad de tener la enfermedad A es del 5%, la de tener la


enfermedad B es del 10% y la de tener al menos una de las dos es del 13%,
¿cúal es la probabilidad de tener las dos?

Opción a: Cero
Opción b: 1%
Opción c: 2%
Opción d: 5%
Opción e: 8%

Pregunta 8. Qúe propiedad o propiedades caracterizan a una distribución normal


tipificada frente a una distribución normal cualquiera:

Opción a: El área bajo su función de densidad es igual a 1.


Opción b: Su media es 1 y su desviación típica es 0.
Opción c: Su rango de valores oscila entre 0 y 3.
Opción d: Su media es 0 y su desviación típica es 1.
Opción e: Son ciertas (c) y (d)

Pregunta 9. Cierto tests diagnóstico acierta sobre el 100% de los individuos


enfermos y el 50% de los sanos. Cierta persona pasa el test con resultado
negativo. Entonces:

Opción a: Esta sana.


Opción b: Esta enferma.
Opción c: Existe una probabilidad del 50% de que esté sana.
Opción d: Existe una probabilidad del 75% de que esté sana.
Opción e: Existe una probabilidad del 75% de que esté enferma.

Pregunta 10. ¿Cómo se calcula la sensibilidad de un test diagnóstico?

Opción a: Contabilizando el número de tests positivos en una muestra


aleatoria de individuos.
Opción b: Contabilizando el número de tests negativos en una muestra
aleatoria de individuos.
Opción c: Contabilizando el número de tests positivos en una muestra
aleatoria de enfermos.
Opción d: Contabilizando el número de tests negativos en una muestra
aleatoria de sanos.
Opción e: Ninguna de las anteriores es cierta.

192
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Pregunta 11. Cierto test diagnóstico acierta sobre el 100% de los individuos sanos
y el 0% de los individuos enfermos. Elegida una persona al azar:

Opción a: Hay una probabilidad del 50% de que esté enferma.


Opción b: Hay una probabilidad del 0% de que esté enferma.
Opción c: Hay una probabilidad del 100% de que esté enferma.
Opción d: El test será negativo.
Opción e: Ninguna de las anteriores es cierta.

Pregunta 12. Queremos calcular PROB[X<3] en una variable de Poisson. Esto es:

Opción a: F(3)
Opción b: F(2)
Opción c: 1-F(3)
Opción d: 1-F(2)
Opción e: Ninguna de las anteriores.

Pregunta 13. De las siguientes situaciones, señale cuál es posible:

Opción a: Una distribución de Poisson de media -2.


Opción b: Una distribución gaussiana con la media igual a la varianza.
Opción c: Una distribución normal de varianza nula.
Opción d: Una distribución Ji-cuadrado simétrica.
Opción e: Una distribución de Bernoulli con media 2.

Pregunta 14. El nivel de significación de un test de hipótesis:

Opción a: Suele ser pequeño y lo fija el investigador o un convenio


generalmente aceptado.
Opción b: Da la probabilidad de declarar significativo el resultado de un
test, cuando esto es falso.
Opción c: Al disminuir hace aumentar la probabilidad del error de tipo II.
Opción d: Todo lo anterior es cierto.
Opción e: Todo lo anterior es falso.

Pregunta 15. La edad de los individuos de una población sigue una distribución
normal. Se extrae aleatoriamente una muestra de 300 pacientes cuya media es
de 50 años, y la desviación típica es 10 años. Entonces:

Opción a: Aproximadamente el 95% de los pacientes tienen edades entre


30 y 70 años.
Opción b: Existe una probabilidad del 95% de que la verdadera media de la
población esté entre 30 y 70 años.
Opción c: Aproximadamente el 95% de los pacientes tienen edades entre
40 y 60 años.

193
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Opción d: Existe una probabilidad del 95% de que la verdadera media de la


pobllación esté entre 40 y 60 años.
Opción e: Existe una probabilidad del 95% de que la verdadera media de la
pobllación esté entre 45 y 55 años.

Pregunta 16. Un estudio sobre la efectividad de un fármaco llega a la conclusión


de que éste es mejor que el placebo con p<0,05 ¿Cuál es la interpretación
correcta de este resultado?

Opción a: Con toda seguridad, el tratamiento es mejor que el placebo.


Opción b: La probabilidad de que el nuevo tratamiento sea mejor que el
placebo es superior al 95%.
Opción c: El tratamiento es un 95% más efectivo que el placebo.
Opción d: La probabilidad de que el placebo sea mejor que el nuevo
fármaco es menor de 5%.
Opción e: Si el tratamiento no fuese efectivo, existe menos del 5% de
probabilidad de observar unas muestras tan contrarias a dicha hipótesis
como las obtenidas.

Pregunta 17. En un contraste de hipótesis la cantidad p es:

Opción a: Un número pequeño.


Opción b: Fijada antes de realizar el contraste.
Opción c: La probabilidad de rechazar la hipótesis nula.
Opción d: La probabilidad de error al rechazar la hipótesis alternativa.
Opción e: Conocida al extraer la muestra y calcular el estadístico
experimental.

Pregunta 18. En todo contraste de hipótesis:

Opción a: Se acepta la hipótesis de mayor probabilidad.


Opción b: Se rechaza la hipótesis de menor probabilidad.
Opción c: La hipótesis nula se elige según el principio de simplicidad
científica.
Opción d: Todo lo anterior es cierto.
Opción e: Es necesario contrastar la normalidad de los datos.

Pregunta 19. Un contraste de hipótesis se considera significativo si:

Opción a: Una muestra aleatoria es coherente con la hipótesis nula.


Opción b: Una muestra aleatoria no es coherente con la hipótesis nula.
Opción c: La hipótesis alternativa es más probable que la nula.
Opción d: Todo lo anterior es cierto.
Opción e: Son ciertas (b) y (c).

194
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Pregunta 20. Se desea estimar confidencialmente el número medio de veces que


asiste a un servicio de salud los individuos de una población. Para ello se toman
muestras aleatorias entre los individuos que asisten regularmente a los mismos.
Esta técnica de muestreo es:

Opción a: Un muestreo aleatorio simple.


Opción b: Un muestreo aleatorio estratificado.
Opción c: Un muestreo aleatorio por conglomerados.
Opción d: Incorrecta.
Opción e: Ninguna de las anteriores.

Pregunta 21. Un contraste de hipótesis se considera no significativo si:

Opción a: Una muestra aleatoria es coherente con la hipótesis nula.


Opción b: Una muestra aleatoria no es coherente con la hipótesis nula.
Opción c: La hipótesis nula es más probable que la alternativa.
Opción d: Todo lo anterior es cierto.
Opción e: Son ciertas (a) y (c).

Pregunta 22. En un grupo de 50 pacientes se ha obtenido un valor de glucemia


medio de 90mg/dL, con una desviación típica de 15. Suponiendo la normalidad de
los datos, ¿cuál será la mejor estimación del número de pacientes que tienen un
nivel de glucemia entre 90 y 105

Opción a: 15.
Opción b: 17
Opción c: 20
Opción d: 25
Opción e: 34

Pregunta 23. De una población de 500 pacientes, al 50% hombres y mujeres, 300
tienen alteración de la nutrición, de los cuales 50 son mujeres. La probabilidad de
que un paciente escogido al azar sea mujer con desnutrición es:

Opción a: 0.10
Opción b: 0.15
Opción c: 0.20
Opción d: 0.25
Opción e: 0.30

Pregunta 24. En una población, hay tantos hombres como mujeres, el 20% son
varones y fumadores y el 20% de las mujeres fuman. Entonces:

Opción a: Fuman tantos hombres como mujeres.


Opción b: Por cada mujer fumadora hay dos hombres fumadores.
Opción c: Por cada hombre fumador hay dos mujeres fumadoras.

195
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Opción d: Hay un 40% de fumadores en la población.


Opción e: Nada de lo anterior es cierto.

Pregunta 25. Dado un sistema exhaustivo y excluyente de sucesos, señale la


afirmación correcta:

Opción a: Ningún suceso elemental pertenece a dos sucesos de dicho


sistema.
Opción b: Todo suceso elemental pertenece a algún suceso del sistema.
Opción c: Todos los sucesos elementales son independientes entre si.
Opción d: Todos los sucesos elementales tienen la misma probabilidad de
ocurrir.
Opción e: Sólo (a) y (b) son ciertas.

Pregunta 26. En un intervalo de confianza para una media, buscamos disminuir el


margen de error. Cuál de las siguientes posibilidades nos permite realizarlo:

Opción a: Aumentar el tamaño muestral y la confianza.


Opción b: Aumentar el tamaño muestral y disminuir la confianza.
Opción c: Aumentar la confianza.
Opción d: Disminuir la varianza muestral.
Opción e: Aumentar la varianza muestral.

Pregunta 27. Se realiza un estudio para saber si dos tratamientos de


quimioterapia presentan diferencias en cuanto a la supervivencia de los pacientes.
No se encontró diferencia estadísticamente significativa. ¿Cuál de las siguientes
razones podrían ser causantes del resultado?

Opción a: Los tratamientos ofrecen tiempos de supervivencia muy


diferentes.
Opción b: El nivel de significación es demasiado alto.
Opción c: Las muestras son demasiado numerosas.
Opción d: Las muestras son demasiado pequeñas.
Opción e: Nada de lo anterior.

Pregunta 28. Si dos sucesos son incompatibles, entonces:

Opción a: Siempre que sucede el uno, sucede el otro.


Opción b: Siempre que uno de ellos no se verifica, se verifica el otro.
Opción c: No pueden ocurrir simultáneamente.
Opción d: Dándose uno de ellos, puede darse el otro.
Opción e: Nada de lo anterior es cierto.

196
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Pregunta 29. Una variable aleatoria es una aplicación de:

Opción a: el conjunto de sucesos elementales en el intervalo [0,1].


Opción b: el conjunto de sucesos en el intervalo [0,1].
Opción c: Los intervalos de la recta real en el conjunto de los sucesos
elementales.
Opción d: El conjunto de los sucesos elementales en la recta real.
Opción e: Es una variable real en la que influye el azar.

Pregunta 30. De las siguientes, cuál se corresponde con un error de tipo II:

Opción a: Aceptar que un tratamiento ineficaz produce efectos útiles.


Opción b: Rechazar que un tratamiento ineficaz produce efectos útiles.
Opción c: Aceptar que un tratamiento eficaz produce efectos útiles.
Opción d: Rechazar que un tratamiento eficaz produce efectos útiles.
Opción e: Nada de lo anterior es cierto.

Pregunta 31. Para estudiar la efectividad de un test diagnóstico ante una


enfermedad se toma un grupo de 200 personas enfermas y 200 que no la
padecen, y se observan los resultados. ¿Qué podemos estimar directamente de
ellos?

Opción a: La sensibilidad y especificidad del test.


Opción b: La incidencia de la enfermedad en la población.
Opción c: El índice predictivo de verdaderos positivos.
Opción d: Son correctas (a) y (c).
Opción e: Todo lo anterior.

Pregunta 32. El porcentaje de individuos fumadores o con bronquitis se puede


interpretar como una probabilidad:

Opción a: De un suceso intersección


Opción b: Condicionada.
Opción c: De un suceso unión.
Opción d: A posteriori.
Opción e: De un suceso complementario.

Pregunta 33. El porcentaje de individuos con bronquitis entre los fumadores se


puede interpretar como una probabilidad:

Opción a: De un suceso intersección


Opción b: Condicionada.
Opción c: De un suceso unión.
Opción d: A posteriori.
Opción e: De un suceso complementario.

197
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Pregunta 34. El porcentaje de individuos con bronquitis que además son


fumadores se puede interpretar como una probabilidad:

Opción a: De un suceso intersección


Opción b: Condicionada.
Opción c: De un suceso unión.
Opción d: A posteriori.
Opción e: De un suceso complementario.

Pregunta 35. El 12% de los individuos de una población padece osteoporosis. EL


25% de ellos lo sabe. ¿Qué tasa de individuos tiene osteoporosis y lo desconoce?

Opción a: 3%
Opción b: 6%
Opción c: 9%
Opción d: 12%
Opción e: 25%

Pregunta 36. La osteoporosis afecta 4 veces más a mujeres que a hombres. El 8%


de las mujeres padece osteoporosis en una población donde hay tantos hombres
como mujeres. ¿Cuál es la prevalencia de la osteoporosis en la población?

Opción a: 2%
Opción b: 5%
Opción c: 8%
Opción d: 10%
Opción e: 2%

Pregunta 37. Elija la afirmación correcta relativa a pruebas diagnósticas:

Opción a: La sensibilidad se obtiene usando la noción subjetiva de


probabilidad.
Opción b: El índice predictivo positivo se obtiene directamente de la noción
frecuentista de probabilidad.
Opción c: La tasa de verdaderos positivos se obtiene directamente de la
noción frecuentista de probabilidad.
Opción d: La prevalencia de la enfermedad se obtiene a partir del teorema
de Bayes.
Opción e: nada de lo anterior es cierto.

198
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Pregunta 38. De los siguientes, qué me puede servir directamente para saber si
una observación de una variable aleatoria es anómala:

Opción a: El valor de la función de densidad.


Opción b: El valor de la función de distribución.
Opción c: El valor esperado de la variable.
Opción d: El valor de la varianza.
Opción e: Nada de lo anterior.

Pregunta 39. Se realiza el mismo experimento dicotómico aleatorio 5 veces,


siendo la probabilidad de éxito en cada uno de ellos de 0,3. La variable aleatoria
número de éxitos se describe mejor como:

Opción a: Bernoulli.
Opción b: Binomial.
Opción c: Poisson.
Opción d: Normal.
Opción e: Cualquiera de las anteriores valdría.

Pregunta 40. El nivel medio de glucemia en una población tiene un


comportamiento gausiano co n media 150mg/dl, y un coeficiente de variación del
10%. Entre qué valores se situa el 95% de los individuos de la población.

Opción a: Entre 140 y 160.


Opción b: Entre 130 y 170.
Opción c: Entre 120 y 180.
Opción d: Entre 110 y 190.
Opción e: Entre 100 y 200.

Pregunta 41. Deseamos conocer la opinión de los ciudadanos de Málaga sobre el


sistema de salud pública. Para ello elegimos una muestra aleatoria de entre los
abonados a telefónica. Entonces:

Opción a: La población de estudio es la de los ciudadanos de Siuna.


Opción b: La población de estudio es la de los abonados a telefónica.
Opción c: La población objetivo es la de los abonados a telefónica.
Opción d: El conjunto de abonados a telefónica son la muestra.
Opción e: Nada de lo anterior es cierto.

199
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Pregunta 42. Se quiere hacer un estudio sobre el tabaquismo en el Municipio de


Siuna. Queremos asegurarnos tener cierto número de individuos de la zona litoral,
la capital y del interior, pues creemos que en cada una de esas zonas la incidencia
es diferente. Haremos un muestreo:

Opción a: Aleatorio simple.


Opción b: Estratificado.
Opción c: Sistemático.
Opción d: Por grupos.
Opción e: No probabilístico.

Pregunta 43. Una estimación confidencial para un nivel de confianza fijado, da por
respuesta:

Opción a: Una aproximación de la media.


Opción b: Una aproximación de una proporción.
Opción c: Una probabilidad.
Opción d: Un intervalo.
Opción e: Un nivel de significación.

Pregunta 44. Se realiza un experimento donde nos basaremos en un contraste de


hipótesis para tomar una decisión con un nivel de significación del 1%. De las
siguientes cuál no es un resultado posible de un contraste de hipótesis:

Opción a: El experimento no es concluyente.


Opción b: El experimento permite obtener conclusiones.
Opción c: Se rechaza la hipótesis nula.
Opción d: Se rechaza la hipótesis alternativa.
Opción e: Se acepta la hipótesis alternativa.

Pregunta 45. En un contraste de hipótesis, típicamente, la región crítica:

Opción a: Tiene probabilidad pequeña, si la hipótesis nula fuese cierta.


Opción b: Esta situada en la zona de mayor probabilidad, si la hipótesis
nula fuese cierta.
Opción c: Tiene probabilidad grande, si la hipótesis nula fuese cierta.
Opción d: Tiene probabilidad pequeña, si la hipótesis alternativa fuese
cierta.
Opción e: Nada de lo anterior.

200
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Pregunta 46. Elija la afirmación falsa:

Opción a: El nivel de significación es normalmente un valor pequeño.


Opción b: La significación de un contraste es conocida tras analizar los
datos.
Opción c: El nivel de significación de un contraste debe ser fijado antes de
analizar los datos.
Opción d: Un contraste debe ser declarado significativo antes de recoger
los datos.
Opción e: Un contraste es declarado significativo si se obtiene una muestra
que discrepa mucho de la hipótesis nula.

Pregunta 47. Si la variable aleatoria X=tener secuelas en un acccidente de moto


con casco tiene una probabilidad p=0,15. La V.A. Y=tener secuelas en un
accidente de moto sin casco es una V.A.

Opción a: Bernoulli con p=0,85.


Opción b: Binomial
Opción c: Bernoulli
Opción d: Poisson
Opción e: Ninguna es correcta

Pregunta 48. Cuando la población objetivo y de estudio en un muestreo difieren


mucho, entonces:

Opción a: Debe usarse el método de respuestas aleatorizadas.


Opción b: Pueden existir sesgos.
Opción c: No pueden selec cionarse unidades de muestreo.
Opción d: Se debe usar un muestreo no probabilístico.
Opción e: Nada de lo anterior es correcto.

Pregunta 49. Dos de cada 100 individuos reaccionan mal ante determinado
tratamiento. Si decidimos aplicarlo sobre 1000 personas. Nos preguntamos
cuántos de dichos individuos podrán reaccionar mal en esa muestra tan
numerosa. Podríamos describirlo usando:

Opción a: Un modelo Binomial.


Opción b: Un modelo de Poisson.
Opción c: Un modelo normal.
Opción d: Todos los anteriores.
Opción e: Ninguno de los anteriores.

201
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Pregunta 50. El perímetro torácico en un grupo de militares presenta distribución


gaussiana con 95 cm de media y 5 cm de desviación típica. Elegimos a una
muestra de 100 indivíduos y calculamos la media de la misma. Elija la afirmación
correcta:

Opción a: La media de la muestra valdrá 95cm.


Opción b: La media de la muestra será un valor comprendido entre 90 y
100 cm con confianza del 68%.
Opción c: La media de la muestra será un valor comprendido entre 95 y
100 cm con confianza del 95%.
Opción d: La media de la muestra será un valor comprendido entre 94 y 96
cm con confianza del 95%.
Opción e: Todo lo anterior es falso.

Pregunta 51. El 2% de la población padece diabetes. Si de ellos, el 30% no está


diagnósticado, esta cantidad puede entenderse como una probabilidad...

Opción a: De un suceso intersección


Opción b: Condicionada.
Opción c: De un suceso unión.
Opción d: A posteriori.
Opción e: De un suceso complementario.

Pregunta 52. En una población, el 5% son enfermos diagnosticados de una


enfermedad, la cual padece el 10% de la población. La probabilidad de estar
diagnósticado para un individuo enfermo es:

Opción a: 2%
Opción b: 5%
Opción c: 15%
Opción d: 50%
Opción e: No puede calcularse con esos datos.

Pregunta 53. La creatinina se distribuye normalmente, de forma que el 95% de los


individuos presenta unos niveles comprendidos entre 10 y 18.

Opción a: La varianza es 8
Opción b: La desviación típica es 8.
Opción c: La varianza es 4.
Opción d: La desviación típica es 4.
Opción e: Todo lo anterior es falso.

Pregunta 54. Una prueba diagnóstica de cierta enfermedad, tiene una tasa de
aciertos del 90% tanto sobre enfermos como sanos. La incidencia de la
enfermedad en la población es del 50%. Si se pasa el test a una persona y sale
positivo, la probabilidad de que realmente esté enferma es:

202
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Opción a: 45%
Opción b: 50%
Opción c: 75%
Opción d: 90%
Opción e: 100%

Pregunta 55. La concentración de calcio se comporta en los mamíferos como una


distribución normal de media 10 y desviación típica 2. ¿Con qué frecuencia se
encuentran mamíferos con una concentración superior a 14?

Opción a: 95%
Opción b: 68%
Opción c: 50%
Opción d: 5%
Opción e: 2,5%

Pregunta 56. Si dos sucesos son independientes:

Opción a: No pueden ocurrir a la vez.


Opción b: Siempe ocurre uno o otro, pero no ambos a la vez.
Opción c: Siempre ocurre al menos uno de los dos.
Opción d: Si pasa uno, el otro no puede ocurrir.
Opción e: Todo lo anterior es falso.

Pregunta 57. Elija la afirmación correcta sobre teoría de muestreo:

Opción a: La población de estudio es aquella de la que finalmente


extraeremos una muestra aleatoria.
Opción b: El sesgo de selección es la diferencia existente entre la
población de estudio y la muestra.
Opción c: Cuando se pueda, se prefieren los muestreos no probabilísticos.
Opción d: El muestreo aleatorio simple es normalmente el más económico
en la práctica.
Opción e: El mejor tipo de muestreo es el sistemático.

Pregunta 58. Se desea estimar la media de una población. Para ello se elije una
muestra de cierto tamaño. Si elegimos posteriormente una muestra de tamaño 9
veces mayor:

Opción a: El error típico se reducirá a la tercera parte.


Opción b: El error típico disminuirá en tres unidades.
Opción c: El error típico se triplicará.
Opción d: El error típico disminuirá a la novena parte.
Opción e: El error típico será 81 veces menor.

203
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Pregunta 59. El IMC se distribuye en una población de forma normal. El 95%


central de los individuos tiene un IMC comprendido entre 20 y 24. Entonces:

Opción a: La media es 22.


Opción b: La desviación típica es 1.
Opción c: La curtosis es cero.
Opción d: Todas las anteriores son correctas.
Opción e: Sólo dos de las anteriores son correctas.

Pregunta 60. Una enfermedad tiene una incidencia del 50% en la población. Un
test para detectarla posee una tasa de verdaderos positivos del 80%, y de falsos
positivos del 20%. Si un individuo resulta ser positivo, la probabilidad de que esté
enfermo es:

Opción a: 20%
Opción b: 40%
Opción c: 50%
Opción d: 60%
Opción e: 80%

Pregunta 61. El consumo diario de Calorías se distribuye en una población de


forma normal, con media 2500 y desviación típica 100. Si elijo una muestra de
tamaño 100, entre qué valores espero encontrar el resultado (con una probabilidad
del 95% de acertar):

Opción a: Entre 2400 y 2600.


Opción b: Entre 2300 y 2700.
Opción c: Entre 2490 y 2510.
Opción d: Entre 2480 y 2520.
Opción e: Entre 2498 y 2502.

Pregunta 62. Si dos sucesos A y B son incompatibles (excluyentes):

Opción a: La intersección es el conjunto vacío.


Opción b: La probabilidad de la intersección es cero.
Opción c: La probabilidad de la unión es la suma de las probabilidades.
Opción d: Todo lo anterior es cierto.
Opción e: Sólo dos de las anteriores son ciertas.

Pregunta 63. Se define la sensibilidad de un test como:

Opción a: La probabilidad de que si el test da positivo el sujeto esté


enfermo.
Opción b: La probabilidad de que si el sujeto está enfermo el test de
positivo.

204
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Opción c: La probabilidad de que si el test da negativo el sujeto esté sano.


Opción d: La probabilidad de que si el sujeto está sano el test de negativo.
Opción e: Ninguna de las anteriores.

Pregunta 64. En una población el 30% son hombres de los cuales son deportistas
el 20%, frente al 25% de las mujeres. Escogida una persona al azar es deportista.
La probabilidad de que sea mujer es (aproximadamente):

Opción a: 0,235
Opción b: 0,60
Opción c: 0,74
Opción d: 0,25
Opción e: No puede calcularse con esos datos.

Pregunta 65. Determinado efecto secundario se presenta en un tratamiento con


una probabilidad del 30%. Escogidos diez sujetos al azar la probabilidad de que lo
presenten 4 es:

Opción a: 0,088
Opción b: 0,2001
Opción c: 0,802
Opción d: 0,020
Opción e: No puede calcularse con esos datos.

Pregunta 66. Un intervalo de confianza será más amplio cuando:

Opción a: La varianza sea mayor


Opción b: El nivel de confianza sea mayor.
Opción c: El tamaño de muestra sea mayor.
Opción d: Todas las anteriores son correctas
Opción e: Sólo dos de las anteriores son ciertas.

Pregunta 67. Señale la respuesta falsa en lo que concierne a los contrastes de


hipótesis:

Opción a: La hipótesis nula puede ser rechazada.


Opción b: La hipótesis alternativa puede ser aceptada.
Opción c: Si no se rechaza la hipótesis nula, los resultados no son
concluyentes.
Opción d: La hipótesis nula es aquella para la que buscamos evidencia a
favor.
Opción e: La hipótesis alternativa se opone a la nula.

205
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

Pregunta 68. El error de tipo I consiste en:

Opción a: rechazar H_0 cuando es falsa.


Opción b: rechazar H_0 cuando es cierta.
Opción c: No rechazar H_0 cuando es falsa.
Opción d: No rechazar H_0 cuando es cierta.
Opción e: La probabilidad de rechazar H_0 cuando es falsa.

8. Una agencia desea obtener una muestra de 200 adultos de cierta zona
residencial de la ciudad de Siuna. Se propone cumplir su objetivo extrayendo
una muestra aleatoria de 200 casas de familia de los que aparecen en una lista
de todas las casas del sector urbano y selecciona luego al azar un adulto de
cada casa. ¿Por qué se lograrán o no muestras aleatorias con este
procedimiento?

Respuesta:

9. De un ejemplo de una población en la que ud. considere que resultaría mas


económico o mas eficaz aplicar un muestreo estratificado en lugar de uno
aleatorio.

Respuesta: variada.

10. Se quiere tener una muestra de huevos a efecto de determinar su calidad. El


embarque consiste en 100 cajas con 36 docenas de huevos cada una. La
muestra se consigue mediante elección al azar de 10 cajas y la ulterior
elección aleatoria de 2 huevos de cada caja de muestra.

¿De que tipo de muestra se trata?

11. Suponga que se examinaron los 36 huevos de las cajas de la muestra. ¿La
varianza de muestreo seria en este caso igual a cero? Fundamente su
respuesta, sea afirmativa o negativa.

Respuesta:

12. Sugiera una forma para tomar una muestra aleatoria de 100 estudiantes de la
universidad Uraccan las minas.

Respuesta:

206
Elaborado por: Ing. Óscar Flores Pérez Bioestadística

13. Sugiera un plan para muestreo aleatorio, para obtener muestras de:

¾ Árboles de un bosque.
¾ Niños en una comunidad de menos de 5 años de edad y que hayan tenido
sarampión. En cada caso indica alguna variable a estudiar.

Respuesta: ¿?

14. El número de palabra de un libro se determina seleccionando una muestra de


páginas y contando el número de palabras en esas paginas.

c. ¿Cuál es la variable aleatoria?


d. ¿Cual es la población?

Respuesta:

¿Cómo usaría ud números al azar par tomar muestras de maíz, en un campo de


maíz, si este campo es un cuadrado cuyo lado mide 1000 m y si cada muestra se
toma eligiendo un punto al azar en el cuadrado y recogiendo el maíz que se
encuentre dentro de un circulo de 5 m de diámetro cuyo centro se hala en el punto
tomado al azar?

Respuesta. ¿?

207

Potrebbero piacerti anche