Tutorial Bio - Estadistica

Material de apoyo unidad 2
Bioestadística
Herramientas de análisis de datos

Introducción
Cuando se hace investigación en el área de la salud, se utiliza lo que se denomina,

protocolos de investigación o investigación epidemiológica, como te habrás dado cuenta en
la unidad uno, es una investigación más flexible, y no tan estricta como el método científico,
aunque tiene la misma validez.
En una Investigación Epidemiológica se tiene dos aspectos a investigar, una investigación

es de tipo observacional que incluye un análisis descriptivo, el cual involucra las técnicas
estadísticas descriptiva, que estudiaste en tu primer curso de estadística básica. En este
análisis organizas datos y calculas las medidas de tendencia central y de dispersión, y
realizas tus conjeturas respecto al comportamiento del problema estudiado.
Mientras que, para una investigación de tipo experimental, se emplean las técnicas
estadísticas de la estadística inferencial, la cuales se dividen en técnicas paramétricas y no
paramétricas.
Elaboro Mtro. Omar G. Ortega Olivares

2.0 Distribución de probabilidad
Uno de los conceptos más importantes de la teoría de la probabilidad es el de variable

aleatoria que, intuitivamente, puede definirse como cualquier característica medible que
toma diferentes valores con probabilidades de ser determinadas.
¿Qué es la probabilidad?
Es la razón entre la cantidad de casos favorables (éxitos) para la ocurrencia de un evento A,

entre los casos posibles.
¿Qué es una distribución de probabilidad?
Toda variable aleatoria tiene o posee una distribución de probabilidad que describe su
comportamiento, la distribución de probabilidad permite determinar las probabilidades
correspondientes con subintervalos de valores.
Observe la siguiente figura.
Es el histograma de las probabilidades de lanzar dos dados y sumar sus puntos
Esto es lo que llamaríamos a una distribución de probabilidad para la suma de dos dados.
Observe su simetría es idéntica tanto para la izquierda como a la derecha de la barra central
con el valor de 7 como centro, si trazamos una línea que toque el punto máximo de cada
barra se obtiene lo siguiente figura.
Esta figura recibe el nombre de campana de Gauss, y puede cambiar si se varia la media
aritmética y la varianza o su desviación estándar.

Gauss observo lo siguiente cuando se recolectan datos de cualquier tipo, y estos se
ordenan, descubrió el siguiente patrón, los datos se agrupan siempre en forma de campana,
observe la figura.
Es el juego de las canicas que son lanzadas desde la parte de arriba se agrupan formando una campana.
Matemáticamente esta distribución obedece a lo que se conoce como él.
2.1 TEOREMA DEL LIMITE CENTRAL
Este teorema estipula que, si tomamos muchas muestras de tamaño “n”, de una población,
que siga una distribución, con una media y varianza finitas, entonces:
1. La distribución de las medias tiende a aproximarse a una distribución normal. Es

decir, cuántos más sea el número de muestras mejor será la aproximación a una
distribución normal, donde la media de las distribuciones será igual a la media de la
población µ.
σ
2. La desviación estándar de una distribución de las medias se aproximará a
√n
(desviación estándar de la población entre la raíz del número de muestras.
Antes de explicar el Teorema con un ejemplo es importante comprender estas definiciones.
DEFINICIONES
¿Qué es un parámetro?
Es una medida numérica, tomada de la población, es un número fijo Generalmente no lo

conocemos

Por ejemplo, media poblacional � (mu), desviación estándar poblacional � (sigma), la
probabilidad P(X), se emplean letras mayúsculas y letras griegas
¿Qué es un estadístico?
Es una medida numérica tomada de la muestra, por ejemplo, la media muestral ^x , s, p

se emplean letras minúsculas o testadas.
¿Qué es la Inferencia estadística?
Es el proceso de sacar conclusiones de la población basados en la información de una

muestra.
¿Qué es una estimación?
Es una regla o formula aplicada a una muestra para determinar el valor de un parámetro
poblacional.
Tipos de estimación
La estimación puntual consiste en utilizar una formula o regla para calcular el parámetro
poblacional con los valores de la muestra. es decir, un estadístico muestral (media
aritmética, varianza, etc.) que se emplea para calcular parámetros (media poblacional,
varianza poblacional, etc.)
La estimación por intervalos consiste en calcular un rango de valores en los que se espera,
con cierto valor de nivel de confianza que se encuentre contenido en el intervalo el
parámetro poblacional.
¿Pregunta cuantas muestras se pueden obtener de una población?
Respuesta. Una “n” cantidad de muestras.

Bajo este criterio el comportamiento de las muestras aleatorias obtenidas de una población,
son impredecibles por naturaleza propia, es decir, no se espera que dos muestras aleatorias
del mismo tamaño y tomadas de la misma población tenga la misma media muestral o que
sean completamente parecidas o iguales; por ello, se quiere estudiar la distribución de todos
los valores posibles de un estadístico.
Ejemplo para explicar el teorema del límite central.
Supongamos que tenemos una población de N = 5 niños y que nuestras muestras son de
tamaño n = 2. Es claro que para un problema de este tamaño simplemente tomamos las
alturas de los cinco niños, las sumamos, dividimos por cinco y se acabó.
Pero el objeto de este análisis es sólo el de entender algunos aspectos importantes del
problema original a través de este ejemplo. La siguiente tabla muestra las alturas de los
cinco niños:
La media de la población de las alturas es.
1.20+1.18+1.32+1.23+1.285
μ= =1.242
5
Y su desviación estándar de la población es:
( 1.2-1.242
σ=
√ ¿2 +(1.18-1.242)2 +(1.32−1.242)2 +(1.23−1.242)2 +(1.285−1.242)2 ¿=0.05154
5
Ahora cuantas muestras se pueden formar con esa población de 5 niños tomando dos a la
vez sin repetición.
Usando la fórmula de combinaciones tenemos:
{52}= 2 !( 5!−2
5!
!)
=
5 x 4 x 3 x 2 x 1 5 x 4 x 3 x 2 x 1 120
2 x 1(3 !)
= =
2 x 1(3 x 2 x 1) 2(6)
=10 muestras posibles1.
La siguiente tabla se aprecian las muestras formadas.
1 Se lee como numero factorial, en el ejemplo 5!, se lee como cinco Factorial y es la multiplicación sucesiva del cinco hasta el 1, 5x4x3x2x1= 120

muestra niño valores
1 1, 2 1.2 y 1.18
2 1,3 1.2 y 1.32
3 1,4 1.2 y 1.23
4 1,5 1.2 y 1.28
5 2,3 1.18 y 1.32
6 2,4 1.18 y 1.23
7 2,5 1.18 y 1.28
8 3,4 1.32 y 1.23
9 3,5 1.32 y 1.28
10 4,5 1.23 y 1.28
Lógicamente, para cada una de estas muestras tenemos una media ^x diferente.
1.2+1.18
Para la muestra uno compuesta de {1,2}, su media es ^x = =1.19 00
2
1.2+1.32
Para la muestra dos compuesta de {1,3}, su media es ^x = =1.26 00
2
1.32+1.28
Para la muestra nueve compuesta de {3,5} su media es ^x = =1.300
2
1.23+ 1.28
Para la muestra diez compuesta de {4,5} su media es ^x = =1.2550
2
La siguiente tabla muestra todos los cálculos de las medias muestrales:
muestra niño valores medias

^x
1 1, 2 1.2 y 1.18 1.1900
2 1,3 1.2 y 1.32 1.2600
3 1,4 1.2 y 1.23 1.2150
4 1,5 1.2 y 1.28 1.2400
5 2,3 1.18 y 1.32 1.2500
6 2,4 1.18 y 1.23 1.2050
7 2,5 1.18 y 1.28 1.2300
8 3,4 1.32 y 1.23 1.2750
9 3,5 1.32 y 1.28 1.3000
10 4,5 1.23 y 1.28 1.2550
Total 12.4200
Si sumamos todas las medias muestrales obtenemos el valor de 12.4200
Ahora el total de muestras es n=10, calculemos la media de la distribución muestral.
μx =
∑ ^x = 12.42 =1.242
∑ n 10
Observe hasta aquí se cumple el primer punto del teorema del límite central.

1. La distribución de las medias tiende a aproximarse a una distribución normal. Es
decir, cuántos más sea el número de muestras mejor será la aproximación a una
distribución normal, donde la media de las distribuciones será igual a la media de la
población µ.
Ahora calculemos el error estándar de la distribución de medias, el cual mide nuestro grado
de incertidumbre respecto a la capacidad de la media muestral para estimar la media
poblacional.
Para la distribución de media el error muestra bien dado por muestra medias medias
2
^x ^x 2
^x 1 1.1900 1.4116
x^ 2 1.2600 1.5876
3 1.2150 1.4762
∑¿ 4 1.2400 1.5376
¿ 5 1.2500 1.5625
¿2 6 1.2050 1.4520
∑ ¿−¿ 7
8
1.2300
1.2750
1..5129
1.6256
n¿ 9 1.3000 1.6900
¿ 10 1.2550 1.5750
σ x=√¿ Total 12.4200 15.4356
sustituyendo
12.4200
¿
¿
¿2
¿
10 ( 15.4356 )−¿
¿
σ x=√¿
En resumen, nos dice que, la media de la distribución muestral siempre coincide con la
media de la población y que el error estándar de la media es siempre menor que la
desviación estándar de la población.
0.03156 < 0.05154
Por último, calculemos el error muestral empleando la desviación estándar poblacional
σ x=
σ
√ n√∗
N −n 0.05154
N −1
=
√ 2
∗
√
5−2 0.05154
5−1
=
√ 2
3
√
∗ =0.03156
4
Observe los valores coinciden, cumpliéndose así la segunda parte.
σ
2. La desviación estándar de una distribución de las medias se aproximará a
√n
(desviación estándar de la población entre la raíz del número de muestras).

De igual manera que se analizó el teorema del límite central empleando la distribución
muestral de medias, se puede probar el teorema del límite central empleando, el estadístico
proporción.
x
p=
n
En donde "x" es el número de éxitos u observaciones de interés y "n" el tamaño de la

muestra en lugar del estadístico media.
En conclusión
La importancia del teorema del límite central es que nos permite, emplear valores de las
muestras, para hacer inferencias, para conocer los valores o parámetros de la población, sin
conocer la forma de la distribución de frecuencias.
Referencias
UDEM IIE 5.3 El teorema de limite centra https://www.youtube.com/watch?v=wDMZRN__TjE
2.2 La distribución normal
Dentro del campo de la salud los fenómenos que se estudian se distribuyen

normalmente, lo que significa que si uno toma al azar un número suficientemente
grande de casos y construye un polígono de frecuencias 2 con alguna variable
continua, por ejemplo, peso, talla, presión arterial o temperatura, se obtendrá una
curva de características particulares, llamada distribución normal. Es la base del
análisis estadístico, ya que en ella se sustenta casi toda la inferencia estadística.
La gráfica de la distribución normal tiene la forma de una campana, por este motivo también
es conocida como la campana de Gauss.
Sus características son las siguientes:
a) Es una distribución simétrica alrededor de las

medidas de tendencia central (La Media)
b) La Media (µ) es un parámetro de posición, es decir

se desplaza sobre el eje de las “x”
2 Polígono de frecuencias es un grafico http://poligonosyojivas.blogspot.com/2012/10/poligono-de-

frecuencia.html

c) La desviación Estándar (σ) es un parámetro de
variabilidad, es decir se dispersa o contrae sobre
el eje de las “y”
d) El Área bajo la curva es igual a 1, En el gráfico, el

área sombreada corresponde a la probabilidad de
encontrar un valor de la variable que sea igual o
inferior a un valor dado. Esa probabilidad es la
que aprenderemos a determinar usando una
tabla estandarizada.
e) La Probabilidad de la variable “x” se encuentra

entre 0 y 1, por lo tanto, no existen valores de
0.5
área negativos bajo la curva.
f) La Mitad de la curva vale 0.5.
g) El porcentaje de valores en algunos intervalos es:
Para una media más menos una

desviación estándar se tiene una
probabilidad de 68%. (µ ± 1σ = 68%)
Para una media más menos dos

desviaciones estándar se tiene una
Para una media más menos dos

desviaciones estándar se tiene una
2.3 Uso de la distribución Normal
La tabla de la distribución normal presenta los valores de probabilidad para una variable
estándar Z, con media igual a 0 y varianza igual a 1.
Para usar la distribución normal, siempre debemos estandarizar o tipificar.
Dada una variable de media μ y desviación típica σ, se denomina valor tipificado z, de una
observación x, a la distancia (con signo) con respecto a la media, medido en desviaciones
típicas, observe la figura

Dos distribuciones una con poca dispersión izquierda y otra con mayor dispersión derecha, mediante el proceso de
estandarización o tipificación se convierte en distribución normal para su análisis.
La expresión que estandariza la variable es:
x−μ
Z=
σ
Siendo x el valor de interés; μ la media de nuestra variable y σ su desviación estándar.

Recordemos que μ y σ corresponden a parámetros, o sea valores en el universo o
población, que generalmente no conocemos, por lo que debemos calcular Z usando los
datos de nuestra muestra.
En general, el valor de Z se interpreta como el número de desviaciones estándar que están

comprendidas entre el promedio y un cierto valor de variable x. En otras palabras, se puede
decir que es la diferencia entre un valor de la variable y el promedio, expresada esta
diferencia en cantidad de desviaciones estándar.
Ejemplo.
Supongamos un conjunto de personas con edad promedio 25 años y desviación estándar

3,86. Nuestro valor de interés (x) es 30 años. El valor de Z correspondiente será:
30−25
Z= =1.29
3.86
Este valor de Z nos dice que la edad de 30 años está a 1,29 desviaciones estándar sobre el
promedio.
Ahora bien, la tabla de la distribución normal, entrega valores de probabilidad para los
distintos valores de Z.
2.4 Uso de la tabla de distribución normal.
¿Ejemplo calcularemos la probabilidad de encontrar un valor de Z menor o igual a 1,96?
Características
En la primera columna de la tabla aparece el entero y primer decimal del valor de Z, vemos
que los valores van desde -3,4 a 3,3. (Véase Tabla en la página siguiente).

En la primera fila (arriba), aparece el segundo decimal del valor de Z y, como es lógico, hay
10 números (0,00 a 0,09).
Para encontrar el valor de Z = 1,96 buscaremos 1,9 en la primera columna de la tabla y 0,06
en la primera fila de la tabla. Trazaremos líneas, perpendiculares desde esos valores y
llegaremos a un número en el cuerpo de la tabla (véase la tabla más abajo, que tiene
marcadas las dos perpendiculares de las que hablamos. El número que encontramos y que
está destacado es: 0,9750.
Por lo tanto, la probabilidad asociada a Z=1,96 es 0,9750, es decir, la probabilidad de

encontrar un valor de Z menor o igual a 1,96 es 0,9750, o 97.5%
En nuestro ejemplo anterior, con la edad 30 años, vemos que el valor Z = 1,29 tiene una
probabilidad asociada de 0,9014. Entonces, la probabilidad P(x<30) de encontrar una
persona con edad de 30 años o menos, en este grupo humano, es 0,9014 o 90.14%.
La grafica siguiente representa el 90.14%
15 20 17.5 25 25.5 30 35

La Tabla Entrega la probabilidad de izquierda a derecha de la campana de gauss

Ejemplo
Suponga que la longitud de las fresas de un huerto está distribuida normalmente con una µ=
3.2 cm y una σ = 1.8 cm ¿Cuál es la probabilidad de que una fresa de esta población,
seleccionada al azar, tenga las medidas siguientes? a) Mas de 4.5 cm, b) Mayor a 1.78 cm,
c) Entre 2.9 y 3.6 cm
Solución
a) Mas de 4.5 cm.
Primer paso tipificar con µ= 3.2 cm y una σ = 1.8 cm.
Calculando
x−μ 4.5−3.2 1.3
Z= , Z= = =0.7222
σ 1.8 1.8
Se busca este valor de 0.72 en tabla y da 0.7823
Segundo paso dibujar y analizar
Los valores mayores a 4.5 están representados por el área sombreada. Por lo tanto, el valor
encontrado de Z = 0.72, es el área no sombreada con valor en tabla de 0.7642 o 76.42 %,
por lo tanto, hay que restar 1 para determinar el área sombreada.3
Probabilidad de que la fresa sea mayor a 4.5 cm, P (x > 4.5) está dada por
P (Z > 0.72) = 1 – 0.7611 = 0.2358.
La probabilidad de encontrar fresas mayores a 4.5 es de 23.58%
a) Mayor a 1.78 cm,
Calculando
x−μ 1.78−3.2 −1.42

Z= , Z= = =−0.7888
σ 1.8 1.8
se busca este valor de -0.79 en tabla y da 0.2147
3 Recuerda que toda el área bajo la curva vale 1, sacamos complementos restando.

Segundo paso dibujar y analizar.
Los valores mayores a 1.78 cm están representados por el área sombreada. Por lo tanto, el
valor encontrado de z = -0.79, es el área no sombreada con valor de tabla de 0.2147 o
21.47%, por lo tanto, hay que restar 1 para determinar el área sombreada.
Probabilidad de que la fresa sea mayor a 1.78 cm, P (x > 1.78) está dada por
P (Z > 0.72) = 1 – 0.2147 = 0.7853 o 78.53%.
La probabilidad de encontrar fresas mayores a 1.78 es de 78.53%
c) Entre 2.9 y 3.6 cm
Primer paso tipificar con µ= 3.2 cm y una σ = 1.8 cm
x−μ 2.9−3.2 −0.3

Z= , Z= = =−0.16666
σ 1.8 1.8
x−μ 3.6−3.2 0.4

Z= , Z= = =0.2222
σ 1.8 1.8
Redondeando cifras a -1.7 y 0.22
Se busca este valor de -0.17 en tabla y da 0.4325.
se busca este valor de 0.22 en tabla y da 0.5870
Segundo paso dibujar y analizar.
Los valores entre 2.9 y 3.6 cm están representados por el área sombreada.
Por lo tanto, el valor encontrado de z = -0.17, es el área no sombreada “1”, con valor en
tabla de 0.4325 o 43.25%. y.

Para el valor de z = 0.22 corresponde a las áreas no sombreada “1”, y el área sombreada
con un valor en tabla de 0.5870.
Por lo tanto, hay que restar el área mayor, (no sombreada “1”, y sombreada), menos el área
menor (no sombreada “1”), para encontrar el área sombreada.
Probabilidad de que la fresa este entre 2.9 y 3.6 cm, es P (2.9 < x < 3.6) está dada por
P (-0.17 < Z < 0.22) = 0.5870 - 0.4325 = 0.1545 o 15.45%
La probabilidad de encontrar fresas entre a 2.9 y 3.6 es de 15.45%
Ejemplo 2
Las longitudes de las sardinas que recibe una enlatadora tiene una media de 11.5 cm y una
desviación estándar de 1.3 cm.
Si la distribución de estas longitudes se puede calcular de forma aproximadamente a la

normal, ¿Qué porcentaje de estas sardinas mide?
a) Menos de 10 cm de longitud, b) De 10.5 a 12.5 cm de longitud, c) Por arriba de esa

longitud esta el 10% de las sardinas más grandes ¿cuánto miden las sardinas?
Solución.
a) Menos de 10 cm.
Calculando
x−μ 10−11.5 −1.5

Z= , Z= = =−1.1538
σ 1.3 1.3
Redondeando 1.15
Se busca este valor de -1.15 en tabla y da 0.1250
10
Los valores menores a 10 cm están representados por el área sombreada.
Por lo tanto, el valor encontrado de z = -1.15, es el área sombreada con valor en tabla de
0.1250 o 12.50%, por lo tanto.

La Probabilidad de que una sardina sea menor a 10 cm, P (x < 10) está dada por
P (Z < -1.15) = 0.1250 = 12.50%.
b) entre 10.5 a 12.5 cm
Calculando
x−μ 10.5−11.5 −1
Z= , Z= = =−0.7692
σ 1.3 1.3
x−μ 12.5−11.5 1
Z= , Z= = =0.7692
σ 1.3 1.3
Redondeamos a dos cifras -0.77 y 0.77
Se busca este valor de -0.77 en tabla da 0.2206 y
El valor de 0.77 en tabla da 0.7793
10.5 12.5
Los valores entre 10.5 y 12.5 cm están representados por el área sombreada.
Por lo tanto, el valor encontrado de Z = -0.77, es el área no sombreada “1”, con valor en
tabla de 0.2206 o 22.06%. y.
Para el valor de Z = 0.77 corresponde a las áreas no sombreada “1”, y el área sombreada
con un valor en tabla de 0.7793.
Por lo tanto, hay que restar el área mayor (no sombreada “1”, y sombreada), menos el área
menor (no sombreada “1”), para encontrar el área sombreada.
Probabilidad de que la sardina este entre 10.5 y 12.5 cm, es P (10.5 < x < 12.5) está dada
por
P (-0.2206 < Z < 0.7793) = 0.7793 - 0.2206 = 0.5587 o 55.87%
c) Las sardinas de mayor longitud representan el 10% ¿cuánto miden las sardinas?
Cuando en un problema nos dan la probabilidad, se emplea la tabla de distribución norma a
la inversa.
Para resolver el problema nos auxiliamos del gráfico siguiente.

10%
11.5 ?
El enunciado dice que 10% de las sardinas son las mas grandes que corresponden al
extremo superior derecho de la campana de Gauss.
Por lo tanto 100% - 10% = 90% que es el área no sombreada y corresponde al valor de Z
buscado, Z = 90%, solo se divide entre 100 y nos da Z= 0.90
Buscando en tabla el valor más cercano a 0.9000
Se aprecia que esta entre 1.28 y 1.29, para no alterar mucho el resultado empleamos el
valor mas cercano a 0.90 que corresponde al valor de 0.8997 y que esta dado por el Valor
de Z= 1.28.
Sustituyendo en la formula valores de µ=11.5, σ= 1.3 y Z=1.28
x−μ x−11.5
Z= , 1.28=
σ 1.3
Despejando x
x=zσ + μ ,
x=( 1.25∗1.3 )+ 11.5
x=1.664+11.5
x=13.2 cm

2.5 Pruebas de Hipótesis
La inferencia estadística toma como base la muestra, con la finalidad de poder conocer
cómo se comporta la población.
Con la inferencia estadística se pretende conocer el comportamiento de los parámetros

(población), tomando valores de los estimadores o estadísticos (muestra) para tomar una
decisión
Véase la figura
Es decir, otra forma de hacer inferencia es haciendo una afirmación acerca del valor que el
parámetro de la población bajo estudio, esta afirmación, puede estar basada en alguna
creencia o experiencia pasada que será contrastada con la evidencia que nosotros
obtengamos a través de la información contenida en la muestra.
A este procedimiento lo llamamos “Prueba de Hipótesis”
Este proceso consiste en determinar la validez de una aseveración hecha sobre la población
basándose en evidencia muestral.
Definición de Hipótesis
Una hipótesis se define como una afirmación transitoria que debe ser sometida a prueba.
Definición de hipótesis estadística.
Es una afirmación sobre la población, por lo tanto, se expresa en términos de los parámetros
poblacionales.
Las pruebas de hipótesis comprenden 5 pasos o etapas principales:4
Paso 1.- Planear la hipótesis nula y la hipótesis alternativa.
La hipótesis nula se denota por (Ho) es el valor hipotético del parámetro que se compara con
el resultado muestral, es la que se somete a prueba y sobre ella se hace la decisión, para
los propósitos de la prueba se asume como verdadera, después del análisis, será rechaza, ó
no será rechaza.
4 Dependiendo de la literatura algunos autores emplea este procedimiento en 6 pasos

Por lo que, los términos, no rechazar y rechazar sólo deben utilizarse cuando nos referimos
a la hipótesis, nula.
Que sucede cuando rechazamos Ho.
Rechazar Ho significa que los datos muestrales brindan suficiente evidencia como para
pensar que lo planteado por la hipótesis nula, es estadísticamente irrealizable a un nivel de
significancia dado.
Cuando no rechazamos Ho significa que los datos muestrales no brindan suficiente

evidencia como para pensar que lo planteado por la hipótesis nula sea improbable a un nivel
de significancia dado.
La Hipótesis Alternativa se denota por (H1) o (Ha), es lo opuesto a la hipótesis nula;

representa el cambio en la población que el investigador espera sea verdadero.
Ejemplo 3
En una fábrica de jugos el contenido de las latas, que se producen es de 330ml. Al momento
de despachar el producto, el fabricante debe garantizar, que ese es el contenido, que lleva
cada lata.
Como se plantea la hipótesis nula y alternativa
Obviamente la media, µ = 330 ml, y es la cantidad de jugo que debe tener toda la
producción.
Por ello se establece la siguiente hipótesis
Ho: µ = 330, se plantea sobre la población, y es la que se espera sea verdadera o no

rechazo, todas las latas de jugo contienen 330 ml
H1: µ ≠ 330, es lo contrario de Ho, no todas las latas de jugo tienen 330 ml
Ejemplo 4
Se realiza un estudio sobre cierta conserva, y se promedia que tiene una duración de 6
meses, de vida útil o más, mientras que una muestra, estudiada demostró que lo máximo
son 6 meses de duración de su vida útil.
Ho: µ ≥ 6, se estima que la conserva de la población tiene una vida útil de 6 meses o mas
H1: µ < 6 la vida útil de la conserva en menor a 6 meses.
Dependiendo del problema se pueden presentar 2 tipos de prueba:
Pruebas bilaterales. - En ellos se propone un

valor puntual (la Media), para el parámetro bajo
estudio, de forma que se rechazará bien porque la
evidencia muestral, el valor analizado es mayor o
menor al propuesto.
Ho: µA = µB
H1: µA ≠ µB

Pruebas unilaterales: En ellos se propone que el
valor del parámetro se encuentre por debajo del
propuesto, o en otros casos, por encima de ese
valor, pero no en ambos.
Ho: µA ≤ µB
H1: µA > µB
Ho: µA ≥ µB
H1: µA < µB
Paso 2.- Especificar el nivel de significancia o riesgo, que se va a utilizar, el nivel de

significancia es un valor de probabilidad que permite al investigador tomar una decisión
sobre la hipótesis estadística Ho, se expresa con la letra griega α (Alpha).
Esta probabilidad indica que tan grande, o que tan baja debe ser la diferencia entre lo
planteado por la hipótesis nula, para que esta sea rechazada o sea correcta.
El nivel de confianza para pruebas unilaterales se realiza por lo general, al 95%, por lo tanto,
el nivel de significancia o nivel de riesgo será 5%.
No Rechazo
El nivel de confianza para pruebas bilaterales se realiza con 90% el nivel de confianza o
nivel de riesgo será 10%.
No Rechazo
Rechazo Rechazo
α =0.10
Para las pruebas de hipótesis en bioestadística siempre se empleará 5% por lo que la

prueba bilateral tendrá valores de 0.025 por la izquierda y 0.025 por la derecha.

Tipos de error
Si al realizar la prueba de hipótesis, se concluye, que la Hipótesis nula H o se rechaza, sin

embargo, el resultado no es correcto, y se debió haber aceptado, se comete un error de tipo
I.
Si al realizar la prueba de hipótesis, se concluye, que la Hipótesis nula H o se acepta: sin

embargo, el resultado no es correcto, y se debió haber rechazado se comete un error de tipo
II
Hipótesis El investigador
Nula Acepta Ho Rechaza Ho
Ho es Verdadera Decisión Correcta Error tipo I
Ho es falsa Error tipo II Decisión correcta
Introducción a Prueba de Hipótesis visto el 25/04/2019 disponible en sitio web

https://www.youtube.com/watch?v=92DptJ2CvvU
Paso 3. Elegir el estadístico de prueba en base de los datos muestrales.
Para poder saber si la hipótesis Nula es falsa o verdadera se necesita, obtener un valor que
nos permita evaluar la respuesta, este valor es denominado estadístico de prueba.
Para realizar esta etapa, debemos utilizar el instrumento apropiado, debiendo considerar la
distribución muestral apropiada bajo las siguientes condiciones:
Para diferenciar que prueba utilizar es necesario conocer la desviación estándar de la

población, así como el tamaño de la muestra.
Se empleará la distribución normal, cuando:
La muestra n es mayor a 30 (n>30), individuos o datos, y se conozca la desviación estándar

“σ”, con la siguiente formula.

X́−μ
Z=
σ
√n
Se empleará la distribución t de Student, cuando:
La muestra n es menor a 30 (n<30) individuos o datos, y se conozca la desviación estándar

“s” con la siguiente formula.
D́−μ D
t=
SD , GL=n1−1 Grados de libertad
√n
y si se trabaja con proporciones emplearemos la distribución normal para proporciones con
la siguiente formula:
Ṕ−p
Z=
√Ṕ∗p
n
Paso 4. Calcular el valor estadístico para poder tomar una decisión, denominado
punto crítico.
Este paso solo hay que ubicar en la campana de gauss, el valor de la significancia,
consultando la tabla de la distribución, elegida en el paso 2.
Ejemplo 5
Calcular el punto crítico, con una significancia α = 5%, unilateral lado izquierdo emplea la
distribución normal.
Punto
Solución critico
Dibujando se tiene
Si se emplea la tabla de distribución normal el valor

será z = 0.05 = -1.64
α = 0.05
-1.64
Ejemplo 6
Calcular el punto crítico, con una significancia α = 5%, unilateral lado derecho, emplea la
distribución normal.
Dibujando se tiene
Punto
Observe que el punto crítico se ubica en el extremo critico
derecho por lo que hay que emplear un
complemento, antes de usar la tabla de distribución
normal, si el valor de la significancia es 5%
α = 0.05
Z será 1 - 0.05 = 0.95, buscando este valor en tabla 1.64
z = 0.95 = 1.64
Ejemplo 7

Calcular el punto crítico, con una significancia α = 5%, bilateral emplea la distribución normal
Dibujando se tiene
Observe que el punto crítico se ubica en

ambos extremos por lo que hay que
Punto Punto
determinar el valor de α en cada extremo
critico critico
dividiendo entre 2:
5
α = =2.5 .
2
Por lo tanto
α = 0.025 α = 0.025
-1.96 1.96
α 1=2.5 = 0.025
α 2=2.5 = 0.025
Z1 será Z = 0.025 buscando este valor en tabla α 1 = -1.96
Z2 será Z = 1 - 0.025 = 0.975 buscando este valor en tabla α 1 = 1.96
Paso 5. Toma de decisión, se concluye si se rechaza la Hipótesis Nula, o se acepta la

Hipótesis Nula
Por ultimo comparamos el valor de Z del paso 3, en la campana de gauss, ubicando en que
lugar caes y tomamos una decisión de acuerdo si caen el la zona de rechazo o zona de no
rechazo del
Ejemplo 8
Una empresa que produce granos precocidos afirma que el promedio de precocción se da a
los 180 segundos, con una desviación estándar de medio minuto, el departamento de
control de calidad tomo una muestra de 50 bolsas de granos estableciendo que el nivel de
precocción obtenido se da a los 165 segundo, con un nivel de significancia de 5%, ¿es
correcta la afirmación dicha por el departamento de calidad de que la precocción es menor a
180 segundo
Solución
Datos x́=165 , σ = 30 segundos, n = 50, α = 0.05
Paso 1 estableciendo la hipótesis nula y alternativa
Ho: µ ≤ 180, H1: µ > 180,
Paso 2, Nivel de significancia o riesgo.
α = 0.05 prueba unilateral derecha

Como la muestra es mayor a 30 se empleará la distribución normal
X́−μ ´
165−180 −15
Z= Z= ,Z= , z=−3.5355
σ , 30 4.2426
√n √ 50
punto crítico.
Con α = 0.05, cota derecha significa que buscaremos en la tabla Z = 1- 0.05 = 0.95 que da el
valor de 1.64.
Dibujando
Zona de no
rechazo
Zona de
rechazo
-3.5355 1.64
El valor de Z = -3.5355, cae en la zona de no rechazo.

Hipótesis Nula.
Se concluye con aceptar la Hipótesis Nula el tiempo de precocción es menor a 180

segundos.
Ejemplo 9
Un informe acerca de la alimentación excesiva afirma que los habitantes de un poblado

tienen un sobrepeso aproximado de 10 kg en promedio. Para probar esta afirmación se
examinó a 40 individuos elegidos aleatoriamente, y se encontró que el sobrepeso es de 12.4
kg con una desviación estándar de 2.7 kg con un nivel de significancia de 0.05 existe la
posibilidad de dudar de la validez del valor de 10 kg.
Solución
Datos x́=12.4 , σ = 2.7 kg, n = 40, α = 0.05
Ho: µ = 10, H1: µ ≠ 10,
α = 0.05 prueba bilateral
Como la muestra es mayor a 30 se empleará la distribución normal

X́−μ ´
12.4−10 2.4
Z= Z= , Z= , z=5.6218
σ , 2.7 0.4269
√n √ 40
punto crítico.
Con α = 0.05 cota bilateral significa que buscaremos 2 valores para Z = 0.05/2 = 0.025, en la
tabla Z1=0.025 y Z2 = 1 - 0.025 = 0975, buscando estos valores en la Tabla Z se tiene.
Z0.025 = -1.96 y Z0.975 = 1.96
El valor de Z = 5.6218, cae en la zona de rechazo.
Dibujando
Zona de no
Zona de Zona de
rechazo
rechazo rechazo
-1.96 5.6218
1.96

Hipótesis Nula
Se concluye con rechazar la Hipótesis Nula el sobrepeso de la población es diferente a

10kg.
2.6 DISTRIBUCION t DE STUDENT (teoría de pequeñas muestras)
En Probabilidad y estadística, la Distribución t, o distribución t de Student es una distribución

de probabilidad, que surge del problema de estimar la media de una población normalmente
distribuida cuando el tamaño de la muestra es pequeño.
Se utiliza cuando nos encontramos con la dificultad de no conocer la desviación típica

poblacional y la muestra es menor a 30 elementos.
El Concepto grados de libertad, surge del estudio de la varianza muestral.

n
∑ ( x i− x́ )2
S 2= i=1
n−1
Los grados de libertad es igual al número de mediciones -1. GL = (n-1), la cual resulta del
hecho de que si s2, está basada en n cantidades de datos “x” menos la media x́ ,
x 1−x́ , x 2−x́ , x 3−x́ …… x n−x́ , estas sumaran cero, así que especificar los
valores de cualquier n-1 de las cantidades determina el valor restante.

Propiedades de las distribuciones t
1. Cada curva t tiene forma de campana con centro en 0.

2. Cada curva t, está más dispersa que la curva normal estándar.
3. A medida que k aumenta, la dispersión de la curva t correspondiente disminuye.
4. A medida que k→∞, la secuencia de curvas t se aproxima a la curva normal estándar
α= probabilidad
2.7 Uso de la tabla de distribución t de Student t n=grados delibertad
La tabla t de Student, se compone del siguiente arreglo en la parte superior izquierda existe
un recuadro con una diagonal, el símbolo α representa la probabilidad que se desea busca
restas van desde 25%= 0.25 a hasta 0.05% = 0.0005, existe muchas variedades de la tabla t
pero todas se emplean de la misma forma, solo varia la probabilidad buscada.
Así mismo el símbolo “r” representa los grados de libertad buscado también se representa
por GL.
Ejemplo 10
0.05
Calcular el valor de t7 la expresión indica que se tiene una probabilidad α de 0.05 y 7
grados de libertad,

Empleando la primera tabla se ubica el valor de probabilidad 0.05 y 7 grados de libertad el
valor buscado es 1.895
Lo importante es ubicar correctamente la

probabilidad
Aquí no se aplica el criterio de izquierda a derecha como en la distribución normal cuando

sea cota izquierda simplemente se le añade el signo de menos.
Ejemplo 11
Se aplica una prueba de fertilizante a 25 plantas de tomate, las cuales producen en

promedio 62 gramos de tomate con una desviación estándar de 58 gramos, se sabe que el
valor correcto de la prueba del fertilizante debe dar de 60 gr. ¿existe suficiente evidencia
para comprobar que no es necesario emplear el fertilizante en las plantas.
Considere un nivel de significancia de 0.05
Solución
Datos x́=62 , σ = 58 gr, n = 25, α = 0.05, µ = 60
Las plantas no requieren de fertilizante Ho: µ ≤ 60,

Las plantas requieren de fertilizante H1: µ > 60,
α = 0.05 prueba unilateral derecha
Como la muestra es menor de a 30 se empleará la distribución t de Studen n = 25
X́−μ 62−60 2
t= t= ,t = , t =0.1724
σ , 58 11.6
√n √25
punto crítico.
Con α = 0.05 cota unilateral derecha, y con grado de libertad Gl = n-1 = 25 -1 = 24 buscando
estos valores en la Tabla t se tiene.

0.05
t 24 =1.711
Dibujando
Punto critico
Zona de no
rechazo Zona de
rechazo
0 0.1724

Hipótesis Nula
Se concluye con no rechazar la Hipótesis Nula, las plantas no requieren de fertilizante para
producir más de 60 gr de tomate
Referencias
Ángel D. (2017). Bioestadística. México D.F.: UNAM.
Luis C. (2013). Manual Práctico de estadística para las ciencias de la salud. México:
Trillas.
03 Distribución Normal N(0,1) fecha de consulta 27/04/2018 disponible en
https://www.youtube.com/watch?v=97EI9mS0WS8
04 Cómo usar la tabla de distribución normal fecha de consulta 27/04/2018 disponible en

https://www.youtube.com/watch?v=59I-6L5QMfc
05 Ejercicios con la tabla de distribución normal fecha de consulta 27/04/2018 disponible en

https://www.youtube.com/watch?v=JuLu2PDt3dc

06 tipificar la variable fecha de consulta 27/04/2018 disponible en
https://www.youtube.com/watch?v=c6e-PlmXpyg
07 intervalo de confianza fecha de consulta 27/04/2018 disponible en

https://www.youtube.com/watch?v=2wugQGs1GNY
08 Inferencia estadística fecha de consulta 27/04/2018 disponible en

https://www.youtube.com/watch?v=nbJU4iS-LEg
09 intervalo de confianza para la media poblacional fecha de consulta 27/04/2018 disponible

en https://www.youtube.com/watch?v=VQJpcYPfEI4
Estadística Aplicada a la Investigación en Salud fecha de consulta 27/04/2018 disponible en

http://paginas.facmed.unam.mx/deptos/sp/wp-content/uploads/2013/12/Quevedo-F.-
Distribucion-normal.-Medwave-2011-May-1105.pdf
Prueba de Hipótesis para la media fecha de consulta 27/04/2018 disponible en

https://www.youtube.com/watch?v=AJcy4eZMwWM
T de Student (Teoría) fecha de consulta 27/04/2018 disponible en

https://www.youtube.com/watch?v=Q-PFnVaLVmo
T de Student (Ejercicio) fecha de consulta 27/04/2018 disponible en

https://www.youtube.com/watch?v=vNnakZ5oJTc

Tutorial Bio - Estadistica

Caricato da

Informazioni sul documento

Descrizione originale:

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Tutorial Bio - Estadistica

Caricato da

Copyright:

Formati disponibili

Material de apoyo unidad 2

Herramientas de análisis de datos

Cuando se hace investigación en el área de la salud, se utiliza lo que se denomina,

En una Investigación Epidemiológica se tiene dos aspectos a investigar, una investigación

Elaboro Mtro. Omar G. Ortega Olivares

Uno de los conceptos más importantes de la teoría de la probabilidad es el de variable

Es la razón entre la cantidad de casos favorables (éxitos) para la ocurrencia de un evento A,

¿Qué es una distribución de probabilidad?

Observe la siguiente figura.

Es el histograma de las probabilidades de lanzar dos dados y sumar sus puntos

Elaboro Mtro. Omar G. Ortega Olivares

Matemáticamente esta distribución obedece a lo que se conoce como él.

2.1 TEOREMA DEL LIMITE CENTRAL

1. La distribución de las medias tiende a aproximarse a una distribución normal. Es

Antes de explicar el Teorema con un ejemplo es importante comprender estas definiciones.

Es una medida numérica, tomada de la población, es un número fijo Generalmente no lo

Elaboro Mtro. Omar G. Ortega Olivares

Es una medida numérica tomada de la muestra, por ejemplo, la media muestral ^x , s, p

¿Qué es la Inferencia estadística?

Es el proceso de sacar conclusiones de la población basados en la información de una

¿Qué es una estimación?

¿Pregunta cuantas muestras se pueden obtener de una población?

Respuesta. Una “n” cantidad de muestras.

Elaboro Mtro. Omar G. Ortega Olivares

Ejemplo para explicar el teorema del límite central.

La media de la población de las alturas es.

Y su desviación estándar de la población es:

Usando la fórmula de combinaciones tenemos:

La siguiente tabla se aprecian las muestras formadas.

Elaboro Mtro. Omar G. Ortega Olivares

La siguiente tabla muestra todos los cálculos de las medias muestrales:

muestra niño valores medias

Si sumamos todas las medias muestrales obtenemos el valor de 12.4200

Ahora el total de muestras es n=10, calculemos la media de la distribución muestral.

Elaboro Mtro. Omar G. Ortega Olivares

0.03156 < 0.05154

Por último, calculemos el error muestral empleando la desviación estándar poblacional

Observe los valores coinciden, cumpliéndose así la segunda parte.

Elaboro Mtro. Omar G. Ortega Olivares

En donde "x" es el número de éxitos u observaciones de interés y "n" el tamaño de la

UDEM IIE 5.3 El teorema de limite centra https://www.youtube.com/watch?v=wDMZRN__TjE

2.2 La distribución normal

Dentro del campo de la salud los fenómenos que se estudian se distribuyen

Sus características son las siguientes:

a) Es una distribución simétrica alrededor de las

b) La Media (µ) es un parámetro de posición, es decir

2 Polígono de frecuencias es un grafico http://poligonosyojivas.blogspot.com/2012/10/poligono-de-

Elaboro Mtro. Omar G. Ortega Olivares

d) El Área bajo la curva es igual a 1, En el gráfico, el

e) La Probabilidad de la variable “x” se encuentra

f) La Mitad de la curva vale 0.5.

g) El porcentaje de valores en algunos intervalos es:

Para una media más menos una

Para una media más menos dos

Para una media más menos dos

2.3 Uso de la distribución Normal

Para usar la distribución normal, siempre debemos estandarizar o tipificar.

Elaboro Mtro. Omar G. Ortega Olivares

La expresión que estandariza la variable es:

Siendo x el valor de interés; μ la media de nuestra variable y σ su desviación estándar.

En general, el valor de Z se interpreta como el número de desviaciones estándar que están

Supongamos un conjunto de personas con edad promedio 25 años y desviación estándar