Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
BIOESTADÍSTICA
Carrera:
Ingeniería En Zootecnia
Modalidad:
Regular.
Autorizado por:
Secretaria académica, las minas.
Actualizado
Siuna, 2007.
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Presentación
Comenzar a entender la Estadística requiere un cambio de mentalidad, no difícil,
pero sí fundamental. Has de pasar de una mentalidad determinista a una
mentalidad probabilista. Normalmente, tendrás la idea (bastante natural, por
cierto), de que existe una relación de causa a efecto entre las cosas. Si tiras al
suelo agua (causa), el suelo se moja (efecto). Esto es algo determinista; si lo
haces un millón de veces, observarás una y otra vez el mismo resultado. No se
trata de algo probable, que unas veces ocurre y otras no.
2
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Bioestadística
PRESENTACIÓN.
Nota: el estudiante debe ser capaz de inferir los modelos ejemplificados en este documento
a ejercicios prácticos de su carrera o de su profesión. La inferencia de los modelos es lo
más importante y no copiarlos al pie de letras.
3
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
I. INTRODUCCIÓN A LA BIOESTADÍSTICA.
Objetivos de la unidad.
a) el tipo de variables,
b) el número de muestras o tratamientos que se desea comparar,
c) el cumplimiento de los requisitos necesarios para cada test (tests
paramétricos y tests no paramétricos).
4
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
a) correlación,
b) regresión,
c) tablas de contingencia.
Reconozco que ahora mismo todo esto parece misterioso, pero si sigues leyendo
verás que tiene bastante sentido. Aquí simplemente he introducido el tipo de
preguntas que la Estadística ayuda a resolver. El resto del documento trata con
más detalle cada una de estas tres utilidades e intenta dejar claro por qué son
interesantes e incluso necesarias cuando tienes que analizar tus datos. Pero antes
es conveniente dar una serie de definiciones. Voy a ello.
“La Bioestadística [...] enseña y ayuda a investigar en todas las áreas de las
Ciencias de la Vida donde la variabilidad no es la excepción sino la regla”
Carrasco de la Peña (1982)
Definición.
La Estadística es la Ciencia de la
5
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Número de bajas.
Tiempo de duración de cada baja.
¿Sexo? ¿Sector laboral? ¿Otros factores?
¿Estratificado? ¿Sistemáticamente?
Los fumadores están de baja al menos 10 días/año más de media que los no
fumadores.
6
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Población y muestra
Si, por otra parte, una población consiste de una sucesión infinita de valores,
entonces es una población infinita. Por ejemplo, si se realizase un estudio sobre
los productos que hay en el mercado. Hay tantos y de tantas calidades que esa
población podría considerarse infinita.
Ejemplo.
Al suponer que una población de los pesos de todos los terneros menores
de un año de un sistema semi estabulado de la Hacienda La Esperanza y
se escoge para el análisis solo cierto número de los pesos, entonces, se
tiene prácticamente una parte de la población (de pesos), es decir, se tiene
una muestra
7
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
8
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Dato. Es cada uno de los registros o valores individuales que toma la variable
que se ha medido. Puede recibir otros nombres (caso, observación, medida).
Variables
Si una variable es una característica observable que varía entre los diferentes
individuos de una población. La información que disponemos de cada individuo es
resumida en variables.
Variable: Género
Modalidades:
H = macho
M = hembra
El grupo sanguíneo
{A, B, AB, O} Å Var. Cualitativa
9
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Tipos de variables.
Número de becerros (puede ser 1, 2, 3,.., etc., pero por ejemplo, nunca
podrá ser 3.45).
Ejemplo. Estatura, peso, etc. Sin importar cuan cerca estén los pesos de
dos animales, teóricamente siempre es posible encontrar otro animal cuyo
peso se encuentre entre las dos pesos de referencia.
10
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ej.: color de pelaje, sexo, razas, nacionalidad.... A cada uno de los posibles
valores de un atributo se le denomina modalidad.
Ej.: en el atributo color de ojos: negro, marrón, azul y verde, son las
distintas modalidades.
Ordinales: Aquella que no puede ser expresada en forma de números, pero que
puede ser ordenada o clasificada según su magnitud.
Es buena idea codificar las variables como números para poder procesarlas con
facilidad en un ordenador.
Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué
significan los códigos numéricos.
11
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejercicios.
12
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
1.3 Muestreo.
Definición.
Una muestra probabilística es una muestra extraída de una población de tal forma
que cada elemento tiene una probabilidad conocida de estar incluido en la
muestra.
Definición.
Por ejemplo, hemos mencionado que las poblaciones están formadas por
individuos, pero sería mejor denominarlas unidades de muestreo o unidades de
estudio: por ejemplo. Personas, células, familias, hospitales, países…
13
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
El grupo que en realidad podemos estudiar (v.g. las vacas paridas) se denomina
población de estudio.
Muestreos probabilistas.
• Conocemos la probabilidad de que un individuo sea elegido para la
muestra.
• Interesantes para usar estadística matemática con ellos.
Muestreos no probabilistas.
Muestreo no probabilísticos.
A pesar de ello una buena parte de los estudios que se publican usan esta técnica.
¡Buff!
14
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Las poblaciones objetivo y de estudio pueden diferir en cuanto a las variables que
estudiamos.
En este caso, diremos que las muestras que se elijan estarán sesgadas. Al tipo de
sesgo debido a diferencias sistemáticas entre población objetivo y población de
estudio se denomina sesgo de selección.
¿Cómo se hace?
Si sale cruz que diga la verdad (no tiene por qué avergonzarse, el
encuestador no sabe si ha salido cara o cruz)
15
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
16
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
n
fh = = ksh
N
Sea k = N/n;
17
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
evitar este problema consiste en considerar la lista como si fuese circular (el
elemento N + 1 coincide con el primero) y:
Se puede comprobar que con este método todos los elementos de la lista tienen la
misma probabilidad de selección.
Caso 2. Suponga una población de la que se desea tomar una muestra del
5% por lo que tendremos que tomar a un animal de cada 20 para ello es
suficiente con seleccionar solo un anima entre los 20 primeros. Si al elegirlo
sale.
N = N1 + N2 + · · · + Nk
18
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Asignación proporcional
n = n1 + n2 + · · · + nk
ni = n ·Ni/N
Asignación óptima
⇒ Elegir los ni de tal modo que se minimice la varianza del estimador, para un
coste especificado, o bien,
⇒ habiendo fijado la varianza que podemos admitir para el estimador,
minimizar el coste en la obtención de las muestras.
Así en un estrato dado, se tiende a tomar una muestra más grande cuando:
Se aplica cuando sabemos que hay ciertos factores (variables, sub poblaciones o
estratos) que pueden influir en el estudio y queremos asegurarnos de tener cierta
cantidad mínima de individuos de cada tipo:
Machos y Hembras,
Recién nacidos, jóvenes y adultos…
Se realiza entonces una m.a.s. de los individuos de cada uno de los estratos.
19
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
j =1
L
Nh
X =∑ xh
h =1 N
⎛ ⎞
⎜ ⎟
N hσ
Estratificación optima. nh = n⎜ h ⎟
⎜ L ⎟
⎜
⎝
∑ (N
h =1
h σ h )⎟
⎠
20
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Podemos utilizar luego cada uno de estos conglomerados como una unidad
muestra. Para componer una muestra por conglomerados se selección
aleatoriamente cierto número de conglomerados y se investiga después a todos
los elementos que los componen.
Se aplica cuando es difícil tener una lista de todos los individuos que forman parte
de la población de estudio, pero sin embargo sabemos que se encuentran
agrupados naturalmente en grupos.
∑ ∑
i =1 j =1
X ij
X =
nMo
21
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Por ejemplo. Para conocer la opinión de los médicos del sistema nacional
de salud, podemos elegir a varias municipios de Nicaragua, dentro de ellas
varias comarcas, y dentro de ellas varios centros de salud, y…
Nota: para mayor ampliación sobre este apartado, recomiendo leer más sobre
“Teorías de muestreo”
- Midiendo
- Mediante un sistema de evaluación
- Mediante la asignación de un rango a cada elemento
Tipos de Escala:
22
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
proporción es 17/50 o lo que es lo mismo el 34%, lo mismo puede suceder con las
variables; la edad, el número de unidades físicas de un stock, etc.
Ejercicios.
1. Una agencia desea obtener una muestra de 200 adultos de cierta zona
residencial de la ciudad de Siuna. Se propone cumplir su objetivo extrayendo
una muestra aleatoria de 200 casas de familia de los que aparecen en una lista
de todas las casas del sector urbano y selecciona luego al azar un adulto de
cada casa. ¿Por qué se lograrán o no muestras aleatorias con este
procedimiento?
Respuesta:
23
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Respuesta: variada.
Respuesta:
5. Sugiera una forma para tomar una muestra aleatoria de 100 estudiantes de la
universidad Uraccan las minas.
Respuesta:
¾ Árboles de un bosque.
¾ Niños en una comunidad de menos de 5 años de edad y que hayan tenido
sarampión. En cada caso indica alguna variable a estudiar.
Respuesta: ¿?
Respuesta:
Respuesta. ¿?
24
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
⇒ Títulos en los que se destaca el objeto del cuadro (que, como, donde y
cuando); si es necesario se agregan notas con explicaciones.
⇒ Columna principal, es aquella en que se anotan las categorías.
⇒ Encabezado de columnas, en el que se explica el objeto de cada una de
ellas.
⇒ Cuerpo, es la parte que contiene la información.
⇒ Notas al pie, tienen por objeto aclarar ciertas operaciones o relaciones que
se utilizan en el cuadro; también se indica en ellas la fuente de información.
25
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Tablas de frecuencia
Medimos la altura de los niños de una clase y obtenemos los siguientes resultados
(cm.):
26
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Si los valores que toma la variable son muy diversos y cada uno de ellos se repite
muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra
manera obtendríamos una tabla de frecuencia muy extensa que aportaría muy
poco valor a efectos de síntesis.
Ejemplo.
27
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
44 47 51 58 59 59 62 66 68 69 70 71 72 74 75 75 75 78 80 81 82 83 84 84 89 90
91 93 95 95 97 97 100 104 105 106 109 212
e) El percentil 25 (P25) que es igual al primer cuartel (Q1), viene definido por el
P(n+1)/100 – ésimo elemento, o sea, por el 25*39 /100 = 9.8 = 10 – ésimo
elemento del arreglo estadístico, cual es 69 cm., interpretándose que cerca
del 25% de los datos son menores de 69 y cerca del 75% mayores. El
tercer cuartel, Q3 = 29.25 = 30-ésimo, 95 cm. Entonces, el recorrido
intercuartil (Q3-Q1) es de 95-69 = 26 cm. Esto da una idea sobre la
dispersión del 50% de las observaciones centrales. El recorrido intercuartil
se puede comparar con el ámbito o recorrido del conjunto de datos, cual es
212-44 = 168 cm. Esta diferencia en la dispersión (26 cm. para valores
centrales versus 168 cm. para todo el conjunto) indica una posible
presencia de valores extremos
28
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
3(µ − Mn )
Sk = (Q3 – Md) – (Md – Q1) ó as =
s
Q3 – Q1
La distribución es:
Simétrica si Sk = 0
Asimétrica positiva si Sk > 0
Asimétrica negativa si Sk < 0
29
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Clases (cm.) fi fr Fi Fr
43.5 - 48.5 // 2 0.05 2 0.05
48.5 – 53.5 / 1 0.03 3 0.08
53.5 – 58.5 / 1 0.03 4 0.11
58.5 – 63.5 /// 3 0.08 7 0.18
63.5 – 68.5 // 2 0.05 9 0.24
68.5 – 73.5 //// 4 0.11 13 0.34
73.5 – 78.5 ///// 5 0.13 18 0.47
78.5 – 83.5 //// 4 0.11 22 0.59
83.5 – 88.5 // 2 0.05 24 0.63
88.5 – 93.5 //// 4 0.11 28 0.74
93.5 – 98.5 //// 4 0.11 32 0.84
98.5 – 103.5 / 1 0.03 33 0.87
103.5 – 108.5 /// 3 0.08 36 0.95
108.5 – 113.5 // 2 0.05 38 1.00
30
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
∑ fiM i
= 80.6 cm., donde fi y Mi son la frecuencia y el X =
i =1
Se define el cuantil de orden como un valor de la variable por debajo del cual se
encuentra una frecuencia acumulada α
31
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejemplo
75, 97, 71, 63, 84, 27, 108, 91, 122, 82, 96, 58, 94, 43, 116, 123, 91, 120,
94, 43, 74, 73, 68, 54, 50, 49, 81, 128, 103, 76, 120, 94, 79, 80, 82, 71, 88,
88, 47, 43, 71, 106, 86, 108, 84, 93, 77, 107, 44, 125.
Respuestas.
Respuestas.
32
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Diagrama de barras.
33
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Diagrama de barras.
40%
Asigna a cada posible valor de una 35%
variable discreta su probabilidad.
30%
Recuerda los conceptos de frecuencia 25%
relativa y diagrama de barras.
20%
Ejemplo 15%
Número de caras al lanzar 3 10%
monedas.
5%
Alturas proporcionales a las frecuencias 0%
(absolutas o relativas). 0 1 2 3
Ejercicio.
30000
Total árboles y
25000
volumen
20000
15000 Total Arboles
10000
5000 Volumen
0 Aprovechado
M3
1 2 3 4 5
Añios
34
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
20000
Numero de arboles
15000
10000 Pinus
caribaea
5000
0
1 2 3 4 5
Años
Diagramas integrales
El área que hay bajo el histograma entre dos puntos cualesquiera indica la
cantidad (porcentaje o frecuencia) de individuos en
el intervalo. Estadísticos
35
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Estadísticos
Nunca:
- repitas la misma información en un gráfico y una tabla, o con dos
representaciones gráficas distintas,
- utilices gráficos de "torta" ni gráficos de barras apiladas (Fig. 4 D); ¡más que
ayudar a ver los patrones, los oscurecen!
36
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
_________________________________
37
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
2.4 Centralización
Añaden unos cuantos casos particulares a las medidas de posición. En este caso
son medidas que buscan posiciones (valores) con respecto a los cuales los datos
muestran tendencia a agruparse.
n X = i =1
n
Media de 2, 2, 3, 7 es (2+2+3+7)/4=3,5
Media x = i=1
n
Donde,
Ejemplo.
En tablas de datos sin agrupar En tablas de datos agrupados
x marca f
x f de
clase
3 1 2a4 3 2
6 8 En este caso se 4 a 6 5 9
9 15 usa el punto 6a8 7 10
12 4 medio o marca 8 a 10 9 1
total 28 de clase total 22
media = 3x1 + 6x8 + 9x15 + 12x4 media = 3x2 + 5x9 + 7x10 + 9x1 = 5.90
28 22
= 8.35
38
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Según el tipo de datos que se analice será más apropiado utilizar la media
aritmética o la media geométrica.
Mediana (‘median’) Es un valor que divide a las observaciones en dos grupos con
el mismo número de individuos (percentil 50). Si el número de datos es par, se
elige la media de los dos datos centrales. Si el número de valores (n) es impar, la
mediana es el valor medio siempre y cuando todos las variables sean arregladas
en magnitudes de mayor a menor.
39
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejemplo.
Donde:
li: límite inferior de la clase mediana (en este caso li = 14)
Fa: frecuencia acumulada de la clase anterior a la clase mediana (16)
f: frecuencia absoluta de la clase mediana (15)
h: amplitud o extensión del intervalo de clase (6)
La moda es 12
40
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
d1: 21 - 17 = 4 x f
d2: 21 - 12 = 9
0a5 1
Mo = 15 + 4 x 5 = 16.54
4+9 5a10 13
10a15 17
15a20 21
20a25 12
25a30 7
Algunas fórmulas
Cuantil de orden α
i es el menor intervalo que tiene frecuencia acumulada superior a α ·n
α=0,5 es mediana
En el caso de una variable continua, el intervalo donde se halla Pk existe Li-1 – Li,
se calcula buscando el que deja debajo de si al k % de las observaciones. Dentro
de él, Pk se obtiene según la relación:
k
n⋅ − N i −1
Pk = L i −1 + 100 *I
ni
Donde
41
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
El resultado indica que el 70 % de los erales miden menos que 71.15 pulgadas.
k
En general, la localización de k – ésimo percentil Pk esta dado por Pk = n
100
n +1
Q1 = - ésima observación ordenada
4
2(n + 1) n + 1
Q2 = = ésima observación ordenada
4 2
3(n + 1)
Q3 = - ésima observación ordenada.
4
42
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
40 – 50 45 5 5
50 – 60 55 10 15
60 – 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 – 130 115 3 58
Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de
conocimiento. ¿Las notas serían las mismas en todos? Seguramente No.
43
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Medidas de dispersión
2, 1, 4, 3, 8, 4. El rango es 8-1=7
Es muy sensible a los valores extremos.
n n n
∑ ( x1 − x ) 2 n ∑ xi 2 − ( ∑ xi ) 2
S2 = i =1
= i =1 i =1
n −1 n ( n − 1)
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario,
mientras mayor sea la varianza, más dispersos están
44
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
∑ ( xi − µ ) 2
S = i =1
n −1
Tiene las misma dimensionalidad (unidades) que la variable.
45
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
n(n −1)
k
fi ( Mi − x ) 2
Donde, S= ∑ i =1 n −1
k = numero de clases
fi = frecuencia de la clase i - ésima
Mi = punto medio de la clase i – ésima
x = promedio aproximado de de la distribución de frecuencias
n = total de observaciones.
Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media”
Ejemplo.
Si la media es 80 y la desviación típica 20 entonces CV =20/80=0,25=25%
(variabilidad relativa)
Por ejemplo 0 ºC ≠ 0 ºF
46
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Muestra 1 Muestra 2
Edad 25 años 11 años
Peso 154 libras 80 libras
Desv. estándar 10 libras 10 libras
CV = 10/145(100) = 6.9
Ejercicio.
a) 9, 2, 7, 11, 14.
b) 3, 5, 8, 3, 7, 2.
c) 2, 3, 6,7, 8, 6, 7.
d) 5, 4, 8, 3, 7, 2, 9, 6.
47
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Regresión a la media
Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos
familiares observando una relación del tipo:
Conclusión: Los padres muy altos tienen tendencia a tener hijos que heredan parte
de esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo
mismo puede decirse de los padres muy bajos.
* Francis Galton
• Primo de Darwin
• Estadístico y aventurero
48
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
49
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Cada columna representa los valores que toma una variable sobre los
mismos.
Nuestro objetivo será intentar reconocer a partir del mismo si hay relación entre las
variables, de qué tipo, y si es posible predecir el valor de una de ellas en función
de la otra.
100
90
80 Pesa 76 kg.
60
Pesa 50 kg.
50
40 Mide 161 cm.
30
140 150 160 170 180 190 200
50
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
40
30
140 150 160 170 180 190 200
100
90
80
70
10 kg.
60
50
40 10 cm.
30
140 150 160 170 180 190 200
51
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
33
28 Incorrelación
23
18
13
3
14 15 16 17 18 19 20
100
90 Fuerte relación
80 directa.
70
60
50
40
30
140 150 160 170 180 190 200
Para la figura de arriba se observa que para los valores de X mayores que la
media le corresponden valores de Y mayores también o para los valores de X
menores que la media le corresponden valores de Y menores también. Esto se
llama relación directa o creciente entre X e Y.
52
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
80
70 Cierta relación
60 inversa
50
40
30
20
10
0
140 150 160 170 180 190 200
La covarianza.
⇒ Si los puntos se reparten con igual intensidad alrededor de (x, y), entonces
se tendría que SXY = 0.
La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos
variables es directa o inversa.
1
Directa: Sxy >0 S xy = ∑ ( xi − x )( yi − y )
n i
Inversa: Sxy <0
Incorreladas: Sxy =0
53
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
n ∑ xy − ((∑ x )(∑ y ))
r=
n ∑ x 2 − (∑ x ) * n ∑ y 2 − (∑ y )
2 2
n−2
Prueba estadística, t = r distribución de t – student con n-2 grados de
1− r2
libertad.
2.6.7 Propiedades de r
⇒ Es adimensional
⇒ Sólo toma valores en [-1,1]
⇒ Las variables son incorrelacionadas Ù r = 0
⇒ Relación lineal perfecta entre dos variables Ù r =+1 o r =-1
Excluimos los casos de puntos alineados horizontal o verticalmente.
⇒ Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.
Siempre que no existan observaciones anómalas.
p q
Relación
inversa Relación
perfecta directa
Variables
casi
incorreladas
perfecta
-1 0 +1
T 3 E t dí ti
54
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
110 100
100 90
90 80
80
70
70
60
60
50 50
40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200
55
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Ejercicio.
n∑ xy − ((∑ x )(∑ y ))
r=
n∑ x 2 − (∑ x ) * n∑ y 2 − (∑ y )
2 2
r = ___ 8*65353-619.1*835_________
√ (8*49052.35)-(619.1)2*√8*88121-(835)2
R = 0.69865
56
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Preguntas frecuentes
¿Súper qué? Eso es un error de cálculo. Siempre debe tomar un valor entre -1 y
+1.
Es difícil dar un valor concreto (mirad los gráficos anteriores). Para este curso
digamos que si |r|>0,7 hay buena relación lineal y que si |r|>0,4 hay cierta relación
(por decir algo... la cosa es un poco más complicada: observaciones anómalas,...)
No tenéis que estudiar nada sobre ellos en este curso. Recordad sólo que son
estadísticos análogos a r y que los encontrareis en publicaciones donde las
variables no puedan considerarse numéricas.
57
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
R = 0.5831
Al analizar los datos en las disciplinas que conforman las ciencias biológicas con
frecuencias es conveniente obtener algún conocimiento acerca de la relación entre
las dos variables. Por ejemplo, estatura y peso, intensidad de un estimulo y tiempo
de reacción, ingreso familiar y gastos médicos.
Y = Variable dependiente
Predicha
Explicada
X = Variable independiente
Predictora
Explicativa
58
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Y (dependiente)
X (independiente, explicativa)
Buscamos encontrar una función de X muy simple (lineal) que nos permita
aproximar Y mediante
Ŷ = b0 + b1X ó a+bx
Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la
cantidad
Ŷ = b0 + b1X
b0=85 cm. (No interpretar como altura de un hijo cuyo padre mide 0 cm.
¡Extrapolación salvaje!
59
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
b1=0,5 (En media el hijo gana 0,5 cm. por cada cm. del padre.)
⇒ Cuál es la mejor recta que sirve para predecir los valores de Y en función
de los de X
⇒ Qué error cometemos con dicha aproximación (residual).
180
150 b1=0,5
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
1 00
1 10
1 20
1 30
1 40
1 50
1 60
1 70
1 80
1 90
2 00
2 10
2 20
Figura 7. Modelo lineal.
SY
b1 = r b0 = y − b1 x
SX
60
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Que el error medio de las predicciones sea nulo no quiere decir que las
predicciones sean buenas.
b0 =
∑ y − b1 ∑ x
n
Hay que encontrar un medio de expresar la bondad del ajuste (bondad de la
predicción)
61
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
62
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Resumiendo: Y
S e2
R = 1− 2
2
SY
S e2 < SY2
Bioestadística U Málaga Tema 3: Estadística bivariante 28
La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente
de determinación R2
⎡ (∑ x)
2
⎤
⎢
r 2 = b2 ⎢
∑ x 2
−
n ⎥ = SCR
⎥
⎢ (∑ y)
2
⎥ SCT
⎢⎣ ∑ y −
2
n ⎥⎦
63
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejemplo.
Estadísticas de la regresión
ANÁLISIS DE VARIANZA.
64
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
SCT = ∑ ( y − Υ ) = ∑ y −
2 (∑ y )
2 i
2
i i
n
⎛
SCR = b ⎜ ∑ x 2 −
2
(∑ x ) 2
⎞
⎟
⎜ n ⎟
⎝ ⎠
Incluso se puede considerar el 140 150 160 170 180 190 200
que una variable dependa de
varias (regresión múltiple). ¿recta o cúbica?
65
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Simple Múltiple
66
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
III. Probabilidades.
Objetivos de la unidad.
Todos los días nos hacemos preguntas sobre probabilidad e incluso los que
hayáis visto poco de la materia en cursos anteriores, tenéis una idea intuitiva lo
suficientemente correcta para lo que necesitamos de ella en este curso.
67
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Sucesos.
B B B
Bioestadística U Málaga
P (AUB)=P(A)+P (B) si AB = Ø B
Ø es el conjunto vacío.
68
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
” de
P ( AB )
l
P( A | B) =
to a
A
año
uno
pec
P( B)
otro
B
“tam
res
Bioestadística. U. Málaga. Tem
P (A’) = 1 – P (A)
760/1000=0,76=76%
69
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Se sabe de otros estudios que entre los individuos con osteoporosis, aprox. la
cuarta parte de las mujeres fuman y la tercera parte de los hombres. Elegimos a
un individuo al azar de la población de enfermos.
A1 A2
Son una colección de sucesos
A3 A4
Divide y vencerás.
A3 A4
70
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
A1 A2
Si conocemos la probabilidad de B en cada
uno de los componentes de un sistema
exhaustivo y excluyente de sucesos,
entonces…
A3 A4
Ejemplo: En esta aula el 70% de los alumnos son mujeres. De ellas el 10% son
fumadoras. De los varones, son fumadores el 20%.
P (F) = P (F∩H) + P (F∩M) = P (F|H) P (H) + P (F|M) P (M) = 0,2 x 0,3 + 0,1 x 0,7
= 0,13 =13%
71
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
0,7 Mujer
0,9
P(H | F) = 0,3x0,2/P(F)
No fuma
Estudiante
•Los caminos a través de nodos
0,2 representan intersecciones.
0,3 Fuma
Hombre •Las bifurcaciones representan
uniones disjuntas.
0,8
No fuma •Podéis resolver los problemas
usando la técnica de vuestra
preferencia.
de cada Ai.
P(B Ai)
P(Ai | B) =
P(B)
72
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Por otra parte, para confirmar, usamos una prueba diagnóstica. La misma ha sido
evaluada con anterioridad sobre dos grupos de individuos: sanos y enfermos. Así
de modo frecuentista se ha estimado:
Sensibilidad, T+
verdaderos +
P. a priori de enfermedad:
incid., preval., intuición,… Enfermo
Falsos - T-
Individuo
Falsos +
T+
Sano
Especificidad, T-
Verdaderos -
73
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
0,3 P ( Enf Ι T +)
P ( Enf | T + ) =
T+ P( Enf Ι T +) + P ( SanoΙ T +)
0,2 Enfermo
0,2 ⋅ 0,3
T- = = 0,88
Individuo 0,7 0,2 ⋅ 0,3 + 0,8 ⋅ 0,01
0,01
0,8 T+ P( SanoΙ T −)
Sano P ( Sano | T −) =
P( SanoΙ T −) + P( Enf Ι T −)
0,99 T- 0,8 ⋅ 0,99
= = 0,85
0,8 ⋅ 0,99 + 0,2 ⋅ 0,7
74
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejercicio.
E[X] = np
Var [X] = npq
Solución:
= 0, 8 × 0, 1 + 0, 25 × 0, 9 = 0, 305
75
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
= 0, 25 × 0, 9 + 0, 2 × 0, 1 = 0, 245
76
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Como la probabilidad de que el test sea correcto para m´as de siete personas,
es la de que sea incorrecto para menos de 3, se tiene
= 0, 5407
77
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejercicios de Probabilidades.
Preg. 1. Cuál de los siguientes es uno de los axiomas de probabilidad:
Preg. 2. Para conocer los índices predictivos en un test diagnóstico para una
enfermedad que tiene un 1% de afectados en la población, será necesario
conocer:
a,Cero
b,1%
c,2%
d,5%
e,8%
Preg. 4. Cierto tests diagnóstico acierta sobre el 100% de los individuos enfermos
y el 50% de los sanos. Cierta persona pasa el test con resultado negativo.
Entonces:
a,Esta sana.
b,Esta enferma.
c,Existe una probabilidad del 50% de que esté sana.
d,Existe una probabilidad del 75% de que esté sana.
e,Existe una probabilidad del 75% de que esté enferma.
78
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Preg. 6. Cierto test diagnóstico acierta sobre el 100% de los individuos sanos y el
0% de los individuos enfermos. Elegida una persona al azar:
a,0.10
b,0.15
c,0.20
d,0.25
e,0.30
Preg. 8. En una población, hay tantos hombres como mujeres, el 20% son
varones y fumadores y el 20% de las mujeres fuman. Entonces:
79
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Preg. 11. Para estudiar la efectividad de un test diagnóstico ante una enfermedad
se toma un grupo de 200 personas enfermas y 200 que no la padecen, y se
observan los resultados. ¿Qué podemos estimar directamente de ellos?
Preg. 13. El porcentaje de individuos con bronquitis entre los fumadores se puede
interpretar como una probabilidad:
Preg. 14. El porcentaje de individuos con bronquitis que además son fumadores
se puede interpretar como una probabilidad:
80
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Preg. 15. El 12% de los individuos de una población padece osteoporosis. EL 25%
de ellos lo sabe. ¿Qué tasa de individuos tiene osteoporosis y lo desconoce?
a,3%
b,6%
c,9%
d,12%
e,25%
a,2%
b,5%
c,8%
d,10%
e,12%
a,2%
b,5%
c,15%
d,50%
81
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Preg. 20. Una prueba diagnóstica de cierta enfermedad, tiene una tasa de
aciertos del 90% tanto sobre enfermos como sanos. La incidencia de la
enfermedad en la población es del 50%. Si se pasa el test a una persona y sale
positivo, la probabilidad de que realmente esté enferma es:
a,45%
b,50%
c,75%
d,90%
e,100%
Preg. 22. Una enfermedad tiene una incidencia del 50% en la población. Un test
para detectarla posee una tasa de verdaderos positivos del 80%, y de falsos
positivos del 20%. Si un individuo resulta ser positivo, la probabilidad de que esté
enfermo es:
a,20%
b,40%
c,50%
d,60%
e,80%
82
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Preg. 25. En una población el 30% son hombres de los cuales son deportistas el
20%, frente al 25% de las mujeres. Escogida una persona al azar es deportista. La
probabilidad de que sea mujer es (aproximadamente):
a,0,235
b,0,60
c,0,74
d,0,25
e,No puede calcularse con esos datos.
83
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
84
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejemplo 1.
Solución.
La noción frecuentista de probabilidad nos permite aproximar la
probabilidad de tener secuelas mediante 300/2000=0,15=15%
Solución.
La noción frecuentista de probabilidad nos permite aproximar la
probabilidad de quedar con secuelas por 10/2000=0,005=0,5%
Observaciones.
En los dos ejemplos anteriores hemos visto cómo enunciar los resultados de un
experimento en forma de estimación de parámetros en distribuciones de Bernoulli.
Sin cinturón: p ≈ 15%
Con cinturón: p ≈ 0,5%
Es muy pronto para resolver esta cuestión ahora. Esperemos a las pruebas de X2.
85
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejercicio.
1. Suponga que se sabe que el 80% de cierta población es inmune a alguna
enfermedad. Si se escoge una muestra aleatoria de 10 elementos de entre
esta población. ¿Cuál es la probabilidad de que dicha muestra contenga
exactamente cuatro personas inmunes?
86
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Media: µ =n p
Varianza: σ2 = n *p* q
87
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejemplo 1.
Ejercicios.
88
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Solución.
a) λ = 3 y x es la variable aleatoria que denota el numero de casos diarios de
urgencia.
e −3 32 0.050 * 9
P(x = 2) = f(x) = = = 0.225.
2! 2 *1
b) no ocurra un solo caso de urgencia en un día particular.
e −3 30 0.050 *1
f(x) = = = 0.05.
0! 1
c) ocurran tres o cuatro casos de urgencia en un día en particular.
Puesto que los dos eventos son mutuamente excluyentes se usa la regla de
adición.
e −3 33 e −3 34
f (3) + f (4) = + = 0.225 + 0.16875 = 0.39
3! 4!
Respuesta:
Errores de medida.
Distancia de frenado.
Altura, peso, propensión al crimen…
Distribuciones binomiales con n grande (n>30) y ‘p ni pequeño’ (np>5)
‘ni grande’ (nq>5).
89
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
2
Su función de densidad es: −1⎛ χ −µ ⎞
1 ⎜
2⎝ σ ⎠
⎟
Algunas características.
Todas las distribuciones normales N (µ, σ), pueden ponerse mediante una
traslación µ, y un cambio de escala σ, como N (0,1). Esta distribución especial se
llama normal tipificada.
90
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
4.6 Tipificación
Nos permite así comparar entre dos valores de dos distribuciones normales
diferentes, para saber cuál de los dos es más extremo.
X 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5723
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7090 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7813 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8416 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169
2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574
2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899
2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643
91
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736
2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807
2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861
Ejemplo: Imaginemos que una variable continua puede tomar valores entre 0 y 5.
La probabilidad de que tome exactamente el valor 2 es despreciable, ya que
podría tomar infinitos valores: por ejemplo: 1,99, 1,994, 1,9967, 1,9998, 1999791,
etc.
Ejemplo 1.
92
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Solución
xA − µ A 8−6
zA = = =2
σA 1
x − µ B 80 − 70
zB = B = =1
σB 10
Las propiedades que tiene la distribución normal son interesantes, pero todavía no
hemos hablado de por qué es una distribución especialmente importante.
Es decir, tengan la distribución que tengan nuestros datos, los ‘objetos’ que
resumen la información de una muestra, posiblemente tengan distribución normal
(o asociada).
Ejercicio
Respuesta.
93
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Respuesta:
Distribución exponencial.
−x
β
e
f ( x) = , x > 0 El parámetro β es la media de la distribución.
β
Ejemplo.
f (x) = ½ e-x/2
94
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
El problema por tanto, es calcular P (x≤1). Esto esta dada por el área bajo la
grafica de f(x) desde x = 0 hasta x =1.
Tales áreas se obtienen fácilmente por medio del cálculo y para la grafica de f(x)
cuya ecuación es dada por:
f (x) = 1 - e-x/2
Ejercicio.
Repuesta:
95
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Sea lo que sea lo que midamos, cuando se promedie sobre una muestra
grande (n>30) nos va a aparecer de manera natural la distribución
normal.
X2 (chi cuadrado)
t- student
F-Snedecor
Sobre todo nos interesa saber qué valores de dichas distribuciones son “atípicos”.
Significación, p-valores,…
96
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
97
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
4.7.3 T de student
Se consideran valores
anómalos los que se
alejan de cero (positivos o
negativos).
Por ejemplo,
98
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Por ejemplo, para una prueba t con nivel alfa 0'05 unidireccional y 4 grados de
libertad la t crítica es 2.132.
Para obtener en esta tabla los valores de t crítica para contrastes bidireccionales
dividir el nivel alfa bidireccional por 2 y seleccionar la columna que corresponda a
ese cociente. Por ejemplo, para una prueba t con nivel alfa 0'05 bidireccional y 18
grados de libertad la t crítica es 2.101 (obtenido en la fila gl =18 y en la columna
encabezada por 0.025)
99
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejemplo de Interpolación.
22 − 23 1.321 − x
= = x = 1.319
22 − 24 1.321 − 1.318
4.7.4 F de Snedecor
100
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Normalmente se consideran
valores anómalos los de la
cola de la derecha
V. Estimación confidencial.
Objetivos de la unidad.
En realidad ya en algún momento hemos trabajado con estimadores cada vez que
hacemos una práctica con muestras extraídas de una población y suponemos que
las medias, etc.… eran próximas de las de la población.
Habría que precisar que se entiende por “el mejor estimador” pero eso nos haría
extendernos demasiado. Ver libro bioestadistica.
101
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Dicho de otra manera, al hacer un estudio tenemos una confianza del 95% de que
la verdadera media esté a una distancia de ±1.
Sin embargo también hay estimadores para σ y puedo usarlo como aproximación.
Para tener una idea intuitiva, analicemos el siguiente ejemplo. Nos servirá como
introducción a la estimación puntual y por intervalos de confianza.
Una estimación por intervalo de confianza es una que ofrece un intervalo como
respuesta. Además podemos asignarle una probabilidad aproximada que mida
nuestra confianza en la respuesta:
102
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
s
X ± t (1− α ) *
2 n
103
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Intervalos de confianza.
X +/- tc (ŝ /√N-1)
Por ejemplo, para una prueba t con nivel alfa 0'05 unidireccional y 4 grados de
libertad la t crítica es 2.132.
Para obtener en esta tabla los valores de t crítica para contrastes bidireccionales
dividir el nivel alfa bidireccional por 2 y seleccionar la columna que corresponda a
ese cociente. Por ejemplo, para una prueba t con nivel alfa 0'05 bidireccional y 18
grados de libertad la t crítica es 2.101 (obtenido en la fila gl =18 y en la columna
encabezada por 0.025)
Ejemplo.
Solución.
X ± Z (1 − α ) * σ X
2
104
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
En otras palabras, se tiene un 95% de confianza de que el intervalo (74.4 cm, 86.1
cm.) contenga al DAP promedio real (poblacional) de los robles de esa zona.
Ejercicios
Respuesta:
b) 88,92
c) 87,93
d) 86,94
105
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Respuesta.
a) 7.63,8.87
b) 7.51,8.99
c) 7.28,9.22
Respuesta.
a) 69.58,76.42
b) 68.87,77.13
c) 67.41,78.59
106
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
2 0.030 10 0.006
3 0.025 11 0.010
4 0.008 12 0.032
5 0.030 13 0.006
6 0.038 14 0.009
7 0.007 15 0.014
8 0.005 16 0.011
Respuesta.
0.00964, 0.02160
Ejercicios de Aplicación.
Muestreo.
107
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
a, Por conglomerados.
b, Sistemático.
c, Correlativo.
d, Consecutivo.
e, Equidistante.
a, Sistemático.
b, Aleatorio.
c, Por conglomerados.
d, Estratificado.
e, Por conglomerados y estratificado.
Preg. 3. La edad de los individuos de una población sigue una distribución normal.
Se extrae aleatoriamente una muestra de 300 pacientes cuya media es de 50
años, y la desviación típica es 10 años. Entonces:
108
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
a,Aleatorio simple.
b,Estratificado.
c,Sistemático.
d,Por grupos.
e,No probabilístico.
109
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
110
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Hipótesis.
Es una suposición acerca de una o más poblaciones. En general las
hipótesis se refieren a los parámetros de la población para los cuales se
hace la proposición. En términos sencillos podemos definir hipótesis como
una creencia sobre la población, principalmente sus parámetros:
• Media
• Varianza
• Proporción/Tasa
111
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
112
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
número de tallos que el número de tallos/ número total de especies) entre zonas
con o sin herbívoros.
Después de este paso pensamos en los métodos, las medidas que uno va a
tomar, el diseño del estudio y el análisis estadístico. Es importante definir cada
medida, en el caso anterior ¿qué vamos a llamar una especie dominante? ¿Que
plantas vamos a medir, todas aquellas mayores a 10cm de diámetro ó 20m de
altura? El definir medidas puede ser muy fácil cuando se trata de medidas exactas
como altura y peso, o más complicado, especialmente, cuando se trata de
observaciones de comportamiento animal. Es importante recordar que el
investigador/a siempre tiene una idea previa sobre el resultado que desea obtener.
En realidad esto es casi inevitable porque estas ideas provienen usualmente de
las observaciones o las hipótesis existentes que han formado la visión del
investigador/a. Sin embargo, debemos intentar mantener la objetividad y para esto
las definiciones son fundamentales.
Identificación de hipótesis.
Hipótesis nula Ho
La que contrastamos
Los datos pueden refutarla
No debería ser rechazada sin una buena razón.
Hip. Alternativa H1
Niega a H0
Los datos pueden mostrar evidencia a favor
No debería ser aceptada sin una gran evidencia a favor.
⎧H0 : p=50% =, ≤, ≥
⎨ p≠50% ≠ , <, >
⎩H1 :
Por ejemplo: Un experimento realizado en el laboratorio sobre la preferencia de
un predador hacia presas crípticas o no-crípticas. El investigador le presenta a
cada predador un par de presas a la vez, una críptica y otra no. Luego espera para
detectar cuál prefiere. ¿Cómo se determina la preferencia? Si sólo se nota un
ligero cambio de dirección en el desplazamiento por parte del predador, es muy
probable que aquellos pequeños cambios direccionales hacia la presa críptica
sean ignorados mientras que aquellos hacia la presa no-críptica sean anotados.
Esto crearía un sesgo hacia la detección/preferencia de especies no-crípticas y
por lo tanto podría ocasionar el rechazo de la hipótesis nula falsamente. El nivel de
significancia (o "alfa") nos indica la probabilidad de equivocarnos al rechazar la H0
en favor de HA, o sea de cometer el error de Tipo I.
113
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
¿Quién es Ho?
Solución:
p=50%
Traducir a lenguaje estadístico:
Establecer su opuesto:
p≠50%
Seleccionar la hipótesis nula p=50%
Razonamiento básico.
¿qué hace un
científico cuando su
teoría no coincide
con sus
predicciones?
µ = 40
X = 20
µ = 40
X = 38
114
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Región crítica
Nivel de significación: α
α=5%
No rechazo H0
Η0: µ=40
115
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Unilateral Unilateral
Significación de p.
P α
X = 43
No se rechaza
H0: µ=40
P α
Sobre α
Sobre p
Es conocido tras realizar el experimento
Conocido p sabemos todo sobre el resultado del experimento
116
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
realidad
Ho cierta Ho falsa
No Correcto Error de tipo II
rechazo El tratamiento no tiene El tratamiento si tiene efecto, pero no
Ho efecto lo percibimos
Probabilidad β
Rechazo Error tipo I Correcto
Ho El tratamiento no tiene El tratamiento tiene efecto y el
Acepto efecto, pero se decide experimento lo confirma.
Ha que si.
Probabilidad α
Error tipo I (α): Se rechaza la Hipótesis nula cuando era cierta (has
condenado a un inocente)
Se comete error de Tipo II cuando se acepta una hipótesis nula que es falsa. En el
caso de impactos sería la incapacidad de encontrar un impacto cuando realmente
hay.
Error tipo II (β): Aceptar la Hipótesis Nula cuando es falsa (has dejado libre
a un culpable)
Los errores tipo I son independientes del número de muestras, sin embargo,
errores tipo II son menos probables a medida que N (el tamaño de la muestra) es
mayor. En diferentes clases de pruebas estadísticas, la potencia de la prueba (o la
probabilidad de rechazar H0 cuando de hecho es falsa) es mayor a medida que N
(tamaño de muestra) es mayor, por el hecho de que beta disminuye.
117
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Conclusiones.
Ejemplo.
Un error tipo I puede llevarnos a concluir que el agua que esta siendo vertida de
una planta industrial tiene una temperatura media que excede los 150 °F cuando
en realidad la temperatura media no es mayor que los 150 °F.
Un error tipo II es concluir que la temperatura media del agua que esta siendo
vertida es 150 °F o menos cuando en la realidad la temperatura media excede los
150 °F.
Análisis.
Cometer un error tipo II puede ser muy serio. Causamos daño al ecosistema del
río. Estos daños generalmente toman gran tiempo repararlos si se piensa reparar
el daño practico.
Un error tipo I significa que tenemos que requerir de una planta que tome la acción
correctiva cuando no es necesario hacerlo. Consecuencias financieras en lo
natural.
118
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
6.1 Hipótesis.
Hipótesis.
Hipótesis que debe probarse (Ho)
Hipótesis alternativa.
Nota. Al especificar una hipótesis nula y una hipótesis alternativa debe cuidar que
se cumpla lo siguiente.
Excluyente
Con base real
Estadística de prueba.
Estadística relevante – parámetro supuesto
Error estándar de la estadística relevante.
Regla de decisión.
119
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Supongamos que quieres comparar dos grupos de datos, por ejemplo el valor
medio de la longitud del pico en machos y hembras de X especie. En este caso los
datos son independientes, pues los grupos de datos a comparar se han obtenido
por el muestreo de individuos distintos. De modo indicativo, el procedimiento a
seguir es el siguiente.
1. Para cada grupo por separado, comprueba si los datos siguen una distribución
normal, por medio de un test de Kolmogorov-Smirnov.
(a) un test de la t,
120
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
2. Si la diferencia entre cada par de valores sigue una distribución normal, puedes
utilizar un test de la t de medidas repetidas. Este test requiere comprobar menos
requisitos que el anterior.
1. Para cada grupo por separado, comprueba si los datos siguen una distribución
normal, por medio de un test de Kolmogorov-Smirnov.
121
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Tipo de test
Variables continuas, discretas, rangos o atributos.
Número de muestras a comparar
Ejemplo.
122
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Por ultimo se toma una decisión según la evidencia suministrada. Debido a que la
t calculada, t` es 10.61 y que la t tabular, t, tiene una valor de 2.03, se debe
rechazar Ho. En otras palabras existe suficiente evidencia para rechazar la
conjetura de que el DAP promedio es de 50 cm. El nivel de significancia de esta
prueba es menor a 0.001 (p<0.001), ya que el valor t calculado es menor que el
valor tabular, para 37 grados de libertad, correspondiente a la probabilidad de
0.001. Se dice por lo tanto, que la prueba es altamente significativa.
2 Comprueba
a) Normalidad → Test Kolmogorov - Smirmov
b) Homogeneidad → Prueba F de similitud de varianzas
123
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Comparando promedios
• Observaciones reales
• Comparan medias
• Datos deben tomarse en escalas de intervalos
• Medias y varianzas similares
• Rangos
• Comparan medianas
Para esta prueba (Mann – Whitney), así como para otros métodos no
parametritos, las mediciones originales no son utilizadas, si no que se utilizan los
rangos de las mediciones. Los datos pueden ser ranqueados tanto del mayor al
menor como del menor al mayor.
n1 (n1 +1)
U = n1 * n2 + − R1
2
Donde n1 y n2 son los números de las observaciones en las muestras 1 y 2
respectivamente y R1 es la suma de los rangos de las observaciones en la
muestra 1.
124
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejemplo. Los datos se refieren a las longitudes de ala (mm) de seis machos y ocho
hembras del pájaro Carbonero común Parus major. Se han ordenado por
conveniencia de menor a mayor.
Machos R Hembras R
73 5 71 1
74.3 8.5 71.5 2
75 10 72 3
75.3 12 72.4 4
75.5 13 73.5 6.5
75.8 10 73.5 6.5
74.3 8.5
75.2 11
n1= 6 R1 = 62.5 n2 = 8 R2 = 42.5
Formula de trabajo:
n1 (n1 + 1)
U = n1 * n2 + − R1
2
6(6 + 1)
U = 6 *8 + − 62 .5 = 6.5
2
Ú = 6*8 – 6.5 = 41.5.
U tab. (Sigarroa) = 40
U tab. (Fowler y Cohen) = 8
Por ejemplo, en ese caso concreto se selecciona el menor de los dos valores de U
y se compara con el valor tabular:
Uc = 6.5
U tab. (Fowler y Cohen) = 8
125
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejercicio.
Hembra y macho.
1 2 3 4 5.5 5.5 7 8 9 10 11 12 13.5 13.5 15 16
153, 155, 157, 159, 160, 160, 161, 162, 163, 164, 165, 167, 170, 170, 172, 173,
17 18 19 20 21 22
174, 176, 178, 179, 180, 185.
n 2 (n 2 + 1)
U 1 = n1 * n 2 + − R2
2
n (n + 1)
U 2 = n1 * n 2 + 1 1 − R1
2
U 1 + U 2 = n1 * n 2
Seleccione el menor valor. Si U< valor critico, se rechaza la hipótesis nula Ho.
R1 = H = 75
R2 = M = 178
126
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
127
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Supuestos.
(a) No deben existir casillas vacías (si existen, agrupa niveles hasta evitarlo,
o emplea un test exacto de Fisher para tablas 2 x 2),
(b) no deben existir frecuencias esperadas menores que 5 en más del 20%
de las casillas,
128
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ho = S21 / S22 = F = 1
129
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejemplo.
lp`− pl l1 / 38 − 1 / 20l
= = 0.00084 lo cual es obviamente menor que 3, por lo
p (1 − p ) 1 / 20(19 / 20)
n 38
χ 2
=
(O i − E j )
2
E j
Ejemplo:
130
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Entonces Χ2 calc > Χ2 tab, por lo tanto, se rechaza la Ho. Esto quiere decir, que
los datos observados son estadísticamente diferentes de la proporción esperada.
131
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Esta situación se presenta enfatizada en el caso de que exista 1(un) g. l., y para
ella se recomienda la corrección de Yates para continuidad, en que se resta 0.5
unidades al valor absoluto de O – E, es decir:
k (O − E − 0 .5 )
2
χ c =
2
∑
i =1 E
k (84 − 75 − 0 .5 ) + (16 − 25
2
− 0 .5 )
2
χ c=
2
∑
i =1 75 25
Ejercicio.
Respuesta.
Tablas de contingencia.
132
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
El nombre de "tablas" deriva del tipo de representación que suele hacerse para el
análisis. Se construye una tabla con tantas filas como niveles tiene una de las
variables y tantas columnas como niveles toma la otra variable.
En el ejemplo de la Fig. 7 cada variable tiene sólo dos niveles, pero eso no es
obligatorio; se habla de tablas 2 X 2 si cada variable tiene dos niveles, de tablas 2
X 4 si una tiene dos niveles y la otra cuatro o, en general, de tablas n X m. En
cada casilla de la tabla se escribe la frecuencia observada de individuos dentro de
cada combinación de niveles.
Fig. 7. Ejemplo de asociación entre dos atributos para los que se han medido 20
valores: A) asociación perfecta (todos los a son 2 y todos los b son 1), B)
asociación inexistente (los a son 1 ó 2 con idéntica frecuencia, y lo mismo sucede
con los b).
Coeficiente de contingencia.
133
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Para un nivel de significancia dado, si χ2 ≤χ2 (1-α); (r-1) (c-1) no se rechaza el supuesto
de independencia, de lo contrario, se rechaza.
χ2
C=
N + χ2
O 11 O 22 − O 12 O 21
φ2 =
T.1T.2 T1 .T 2 .
134
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejemplo:
Presencia de la
enfermedad
Insecto presente ausente total
Presente 6 4 10
Ausente 1 3 4
total 7 7 14
G = 2(6Ln 6 + 4Ln 4 + 1 Ln 1 + 3 Ln 3 – 10 Ln 10 – 4 Ln 4 - 7 Ln 7 – 7 Ln 7 + 14
Ln 14) = 1.44
135
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
El análisis de varianza es utilizado para probar la hipótesis Ho: µ2=µ2= µ3… = µk,
donde k es el numero de grupos experimentales, o muestras.
Para ejecutar esta prueba se asume que σ21= σ22 = σ23 =……= σ2k (propiedad de
homocedasticidad) y que todas las k muestras provienen de poblaciones
normales.
Alguna notación.
Para probar hipótesis Ho: µ2=µ2= µ3… = µk, cada observación será representada
por Xij donde i se refiere a la observación realizada en el j-ésimo grupo o
tratamiento.
136
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
∑ ∑( )
nj
de σ2. En el caso de k k 2 muestras la suma de
cuadrados dentro de grupos X ij − X j viene dada por
j =1 i =1
∑n (X − X)
k
j j
j =1
∑ ∑(X − X)
k nj
2
Y tiene n-1 grados de libertad.
ij
j =1 i =1
Una desviación de esa observación con respecto al promedio del grupo a la cual
pertenece, y la desviación del promedio del grupo con respecto al promedio
general.
137
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
(∑ ∑ X )
k nj
SCT = ∑ ∑Xij − C
2
2
C =
ij
, Donde y se le llama factor de
j =1 i =1 n
corrección.
2
⎛ nj
⎞
⎜⎜ ∑ X ij
⎟⎟
⎝ ⎠
k
∑
i =1
SCG = − C
j =1 n j
2
⎛ nj ⎞
nj
⎜⎜ ∑ X ij ⎟⎟
⎝ i =1 ⎠
k k
SCE = ∑ ∑X 2
ij −∑
j =1 i =1 j =1 nj
Ejemplo 1.
Los datos siguientes se refieren a los pesos finales de corderos alimentados
durante 90 días con una ración que contenía 14 % de proteínas. Los tratamientos
fueron definidos de la siguiente manera:
Tratamiento cordero
1 castrado
2. entero
3. implantados con Sinovex S.
4. implantados con Stil Bestrol
138
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejemplo 2.
139
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Por otra parte el ANDEVA solo indica una diferencia entre tratamientos, pero no
especifica entre cual.
Ejercicios.
Realice los procedimientos necesarios para obtener los datos del ANDEVA.
Con el fin de probar cuatro niveles diferentes de pollinaza, como fuente proteica en
raciones para novillos, se llevo a cabo un estudio, en el cual, debido al peso inicial
de los novillos, fue necesario efectuar un control (bloques).
Respuestas:
Ejercicio.
vacas
1 2 3 Hk
periodo I A: 608 B: 885 C: 940 2433
II B: 715 C: 1087 A: 766 2568
III C: 884 A: 711 B: 832 2427
Cj 2207 2683 2538 7428 Y…
Solución.
140
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Hipótesis. Ejercicios.
141
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
142
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
e,Nada de lo anterior.
143
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Tasa. Aun cuando hay excepciones, este término se utiliza por lo general para
referirse a aquellos cálculos que implican la probabilidad de ocurrencia de algún
evento.
⎛ a ⎞ Donde,
⎜ ⎟k
⎝a+b⎠
144
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Donde por lo general, se elige, 1000 como valor de k. esta es la tasa que se utiliza
con mayor frecuencia para estimar la salud global de una comunidad. Compara las
tasa brutas de mortalidad de dos comunidades es riesgoso, a menos que se sepa
que3 las comunidades son comparables con respecto a muchas características
distintas de las condiciones de salud, que afectan a la tasa de mortalidad. Las
variables que entran en juego comprenden la edad, grupo racial, sexo y condición
socio económica. Cuando dos poblaciones deben compararse con base en la tasa
de mortalidad, deben hacerse ajuste para conciliar las diferencias entre las
poblaciones con respecto a esas variables. Deben tenerse las mismas
precauciones el comparar las tasas de mortalidad anual para la misma comunidad
en dos años distintos.
Donde por lo general, k es igual a 1000. Los subgrupos para los que pueden
calcularse las tasas específicas de mortalidad comprenden aquellos grupos que
pueden distinguirse con base en el sexo, grupo racial y edad. Pueden calcularse
simultáneamente las tasas específicas para dos o más característica. P. e. puede
calcularse la tasa de mortalidad para los varones de raza blanca, obteniendo así
una tasa especifica de raza – sexo. Pueden calcularse también las tasas
especificas de mortalidad por causas especificas incluyendo en el numerador solo
aquellas muertes debidas a una causa particular. Por ejemplo, cáncer,
padecimientos cardiacos o accidentes. Debido a la pequeño fracción que resulta,
la base k, para una tasa de causa especifica es por lo general de 100000 o
1000000.
145
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejemplo.
La tasa bruta para Georgia en 1970 fue de 9.1 muertes por cada 1000 habitantes.
Obtener la tasa de mortalidad ajustada por edades para Georgia mediante el uso
de la población estándar en el censo de 1970 para los Estados Unidos. En otras
palabras se desea una tasa de mortalidad que pudiera haberse esperado en
Georgia, si la composición por edades de la población de Georgia hubiera sido la
misma que la de los estados unidos.
Solución.
146
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
1 2 3 4 5 6
Tasa de Numero de
mortalidad Población muertes
según la estándar basada esperadas en la
edad (por en la población población
Edad (años) Población Muertes 100000) de EEUU, 1970 estándar.
0 -4 424600 2483 584,8 84416 494
05 a 14 955000 449 47 200508 94
15-24 863000 1369 158,6 174406 277
25-34 608100 1360 223,6 122569 274
35-44 518400 2296 442,9 113614 503
45-54 486400 4632 952,3 114265 1088
55-64 384400 7792 2027,1 91480 1854
65-74 235900 9363 3669,1 61195 2429
75 y mas 132900 12042 9060,9 37547 3402
Total 4608700 41786 1000000 10415
10415*1000 = 10.4
1000000
147
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Una muerte debida a una causa puerperal es aquella que puede atribuirse a
alguna fase del parto. Debido a la disminución de la tasa de mortalidad materna
en los estado unidos, resulta, mas conveniente utilizar k = 100000. Sin embargo,
en algunos países, k = 1000 conduce a una tasa mas conveniente.
Entre los aspectos que limitan la tasa de mortalidad materna se incluyen las
siguientes:
148
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Donde k = 1000
Donde k, toma por lo general, el valor de 1000. La muerte fetal se define como un
producto de la concepción que no muestra signo de vida al concluir el nacimiento.
Existen varios problemas asociados con el uso e interpretación de esta tasa. Hay
variaciones entre las diferentes regiones que informan con respecto a la duración
de la gestación. Algunas regiones que dan a conocer todas las muertes fetales sin
importar la duración de la gestación, en tanto, que otras tienen un periodo de
gestación mínimo que debe alcanzarse antes de que se requiera hacer el informe.
Otra objeción a la tasa de mortalidad fetal es que no toma en cuenta el grado al
cual una comunidad pretende reproducirse. La razón que se considera a
continuación se propuesto para superar las objeciones
Debido a que las muertes fetales que ocurren al final del embarazo y las muertes
neonatales con frecuencia tienen las mismas causas fundamentales, se ha
sugerido que se combinen ambas para obtener lo que se conoce como tasa de
mortalidad perinatal.
149
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Donde k = 1000.
Donde k = 100. Este índice se utiliza para estimar la importancia relativa de una
causa determinada de defunción. Debe utilizarse con precaución al comparar una
comunidad con otra. Una razón de causa de defunción mayor en una comunidad
que en otra puede deberse a que la primera comunidad tiene una baja mortalidad
debida a otras causas.
f. Medidas de fertilidad.
Donde k = 1000.
150
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Donde k = 1000 y, por lo general, la edad fértil se define como las edades entre 15
y 44 años, o bien, de 15 a 49. La característica de interés de esa tasa, cuando se
compara con a tasa bruta de natalidad, es el hecho de que el denominador es una
aproximación de número de personas que, en realidad, están expuestas al riesgo
de dar a luz a un niño.
Donde k = 1000. La tasa especificas por edades. Pueden calcularse para una solo
edad o para cualquier intervalo de edades. Las que se calculan con más
frecuencia son las tasas para grupos de edades de cinco años. Pueden calcularse
también las tasas específicas de fertilidad para otros subgrupos de la población,
como los definidos por grupo racial, nivel socio económico y diversas
características demográficas.
151
Tabla 13. Procedimientos para calcular seis medidas básicas de fertilidad.
1 2 3 4 5 6 7
Edad Numero de Numero de Tasa de natalidad Población Nacimientos Tasa
de la mujeres en nacimientos para especifica por edades estándar en base esperados acumulada
mujer la población las mujeres de para cada 1000 mujeres la población de de
a
(años) edad especifica a EEUU, 1970 c fertilidad.
15 a 19 220 100 21 790 99.0 193 762 19 182 495.0
20 a 24 209 500 37 051 176.9 173 583 30 707 1379.5
25 a 29 170 100 22 135 130.1 140 764 18 313 2030.0
30 a 34 139 100 9 246 66.5 119 804 7 967 2362.5
35 a 39 135 400 3 739 27.6 116 925 3 227 2500.5
40 a 49 261 700 1 044 4.0 255 162 1 021 2540.5
1 135 900 95 005 1 000 000 80 417
Donde el valor de k se elige mediante los mismos criterios que para la tasa de
incidencia. Esta tasa es esencialmente útil en el estudio de las enfermedades
crónicas, pero puede calcularse también para las enfermedades agudas.
153
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Razón de muertes – casos. Es útil para determinar que tanto éxito esta teniendo
un programa de tratamiento para cierta enfermedad.
Donde k = 100.
Ejercicios.
Resolver los ejercicios de la Pág. 770, 771, 774 y 775 del libro de Bioestadística.
Wayne W. Daniel.
154
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Número
Total blancos No blancos
Población estimada al 1º. De julio 597500 361700 235800
Total de nacimientos vivos. 12437 6400 6037
Nacimientos inmaduros 1243 440 803
Muertes fetales: 592 365 227
Total 355 269 86
Con menos de 20 semanas de gestación. 103 42 61
De 20 a 27 semanas de gestación. 123 49 74
Muertes. 11 5 6
Total en todas las edades. 11 3636 2583
Menos de un año. 267 97 170
Menos de 28 días. 210 79 131
Muertes por inmadurez 16 12 4
Muertes de madres. 2 - 2
Causas de muertes.
Neoplasmas malignos 948 626 322
Corazón isquémico 1697 1138 559
Respuestas.
155
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Respuestas.
Recomendación final.
156
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
157
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
INDICE GENERAL
158
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
159
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
ANEXOS
160
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
161
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
0.05 0.01
1 3.841459149 6.63489671
2 5.991464547 9.21034037
3 7.814727764 11.3448667
4 9.487729037 13.2767041
5 11.07049775 15.0862725
6 12.59158724 16.8118938
7 14.06714043 18.4753069
8 15.50731306 20.090235
9 16.91897762 21.6659943
10 18.30703805 23.2092512
11 19.67513757 24.7249703
12 21.02606982 26.2169673
13 22.3620325 27.6882496
14 23.68479131 29.1412377
15 24.99579013 30.5779142
16 26.29622761 31.9999269
17 27.58711164 33.4086636
18 28.86929943 34.8053057
19 30.14352721 36.1908691
20 31.41043286 37.5662348
21 32.67057337 38.9321727
22 33.92443852 40.2893604
23 35.17246163 41.6383981
24 36.4150285 42.9798201
25 37.65248413 44.3141049
26 38.88513865 45.6416827
27 40.11327205 46.9629421
28 41.33713813 48.2782358
29 42.55696777 49.5878845
30 43.77297178 50.8921814
40 55.75847932 63.6907397
50 67.50480652 76.1538912
60 79.08194439 88.3794189
70 90.53122518 100.425184
80 101.8794741 112.328793
90 113.1452703 124.116319
100 124.3421137 135.806723
162
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
163
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
DISEÑO DE ESTUDIOS
a) El número de trabajadores
b) Oir música clásica / No oir música clásica
c) La productividad
d) El volumen de la música
e) No hay variable dependiente porque es un estudio sin control del sesgo
164
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
165
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
ESTADÍSTICA BÁSICA
166
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
167
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
a) Alfa
b) Beta
c) Potencia
d) Casualidad
e) Probabilidad nula
a) Error de tipo I
b) Error de tipo II
c) Error de tipo III
d) Error probabilística
e) No es un error ya que el objetivo de la prueba es aceptar la hipótesis nula
Respuestas
DISEÑO DE ESTUDIOS
1) b 2) c 3) c 4) b 5) d 6) a 7) e 8) d 9) d 10) e
ESTADÍSTICA BÁSICA
1) a 2) d 3) c 4) d 5) c 6) e 7) a 8) c 9) b 10) a
CONCLUSIÓN:
168
Ejercicios y problemas adicionales.
Preg. 2. Cuál de las siguientes medidas define mejor la tendencia central de los
datos: 5 , 4, 42, 4, 6
a La mediana.
b La media.
c El sesgo
d El rango.
e La proporción.
Preg. 6. Sobre el tipo de estadísticos utilizados para resumir o describir los datos,
indique la afirmación incorrecta:
a Determinista.
b Sistemático.
c Exhaustivo.
d Aleatorio.
e Excluyente.
Preg. 10. Elija la afirmación que pueda considerarse admisible al leer un estudio
estadístico:
170
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Preg. 14. Entre las representaciones gráficas para variables cualitativas tenemos:
a Histogramas.
b Diagramas integrales.
c Diagramas diferenciales.
d Diagramas de cajas y bigotes.
e Nada de lo anterior.
171
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
a Pictogramas
b Diagrama de barras
c Diagrama diferencial acumulado
d Histograma
e No existe gráfica posible
172
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Soluciones:
Estadísticos.
173
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Preg. 5. En un estudio descriptivo se obtiene una que el peso tiene una media de
60 kg y una desviación típica de 20 kg., mientras que la media de las edades es
15 años, con una desviación típica de 5 años. Entonces:
Preg. 7. En una población, el peso tiene media 60kg y desviación típica 6Kg. La
altura tiene de media 170cm y desviación 6cm. Cierto individuo tiene un peso de
70 Kg y altura 180cm.
174
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Preg. 11. Se pide a unos enfermos que valoren su grado de mejoría tras un
tratamiento en una escala de 1 a 5. De la siguiente colección de posibilidades,
cuál cree que resume mejor los mismos:
a Moda.
b Mediana.
c Frecuencias acumuladas absolutas.
d Frecuencias relativas.
e Nada de lo anterior.
Preg. 14. De las siguientes medidas, cuáles podria utilizar para argumentar en
favor o en contra de la asimetría de la variable edad:
175
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Preg. 15. La pregunta: ¿qué nivel de colesterol sólo es superado por el 5% de los
individuos?, tiene por respuesta:
a El percentil 95.
b El percentil 5.
c Los percentiles 2,5 y 97,5
d 95%.
e Nada de lo anterior.
Preg. 16. Qué peso no llega a alcanzar el 40% de los individuos de una
población:
a El 40%.
b El 60%.
c El percentil 60.
d El percentil 40.
e Los percentiles 20 y 60.
Preg. 18. La calificación de selectividad que sólo es superada por el 12% de los
estudiantes se denomina:
a Percentil 12.
b Cuantil 0,88
c Cuantil 0,12
d Decil 88
e Nada de lo anterior es correcto.
176
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Preg. 19. En una población, el 70% de las alturas consideradas "más normales"
se encuentran:
Preg. 21. Si una muestra posee valores anómalos, de las siguientes cuál usarías
como medida de dispersión:
a Varianza.
b Desviación típica.
c Rango intercuartílico.
d Rango.
e Máximo y coeficiente de variación.
Preg. 22. Si queremos saber cómo de disperso está una variable con respecto a
la magnitud de los valores de la misma, usaremos:
a Varianza.
b Desviación típica.
c Rango intercuartílico.
d Rango.
e Coeficiente de variación.
177
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Preg. 24. Si la media del peso en una población es 60 kg. y la mediana 65kg.,
entonces afirmamos que la distribución del peso en la población es:
a Platicúrtica.
b Mesocúrtica.
c Leptocúrtica.
d Asimétrica.
e Unimodal.
Preg. 28. Una variable continua presenta una fuerte asimetría positiva. De entre
las siguientes posibilidades, cuál es preferible para resumir la información que hay
en la muestra.
a La mediana.
b La media y la desviación típica.
c Los cuartiles.
d El mínimo y el máximo.
e El diagrama de cajas de Tukey.
178
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Preg. 29. El 3% de los individuos tiene una altura superior a 190cm. El 5% mide
menos de 150cm. Conocemos:
a El percentil 3
b El cuantil 0,06
c El percentil 95
d El percentil 97
e Nada de lo anterior.
Preg. 30. En un grupo de niños se tiene una altura media de 150cm con
desviación típica de 10cm. La edad media es 12 años, con desviación típica de 3
años. ¿Dónde se presenta mayor dispersión?
a En edades.
b En alturas.
c Las dispersiones son similares.
d No se puede decir con esos datos qué variable está más dispersa.
e Nada de lo anterior.
a Diagrama de excesos
b Barras.
c El diagrama de observaciones atípicas.
d Pictograma
e Cajas de Tukey.
Preg. 32. El peso presenta una distribución con gran asimetría positiva en un
grupo de individuos obesos. ¿Qué valor divide a los mismos en dos grupos con la
misma cantidad de individuos?
a La moda
b El percentil 25.
c El percentil 75
d La media.
e Ninguno de los anteriores.
179
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
a El coeficiente de variación
b La desviación típica
c El coeficiente de determinación.
d Todas las anteriores.
e Sólo la a) y la b).
a Adimensional.
b No es invariante ante cambios de origen.
c Es una medida de variabilidad relativa.
d Todo lo anterior es cierto.
e Sólo dos de las anteriores son correctas.
Soluciones:
Regresiones.
180
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
a El ajuste es bueno.
b El ajuste es malo.
c No puede usarse dicha información como medida de bondad de un ajuste.
d El coeficiente de correlación lineal tiende a -1.
e El coeficiente de correlación lineal es próximo a 1.
Preg. 6. En una población se obtiene con una bondad de ajuste de 0,9 que la
relación entre nivel de glucemia (Y) y nivel de colesterol (X) es de Y=20 + X/4.
Entonces:
a Todos los individuos con un valor de colesterol 100, presentan glucemia 45.
181
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
a La varianza de Y es 100.
b r=0,9
c r=-0,9
d La covarianza es de 1/9.
e Sólo dos de las afirmaciones anteriores son ciertas.
a r=0
b El modelo lineal de regresión sólo propone un valor como predicción de Y.
c La nube de puntos no presenta aspecto creciente.
d La varianza residual en el modelo de regresión de Y sobre X es igual a la
varianza de Y.
e Todo lo anterior es cierto.
a Mayor es la covarianza.
b Mayor es r.
c Menor es la varianza residual.
d Mayor es la relación lineal entre las dos variables
e Sólo dos de las afirmaciones anteriores son correctas.
182
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Preg. 11. De las siguientes parejas de variables, en cuáles crees que puede ser
útil un análisis de regresión lineal:
a La covarianza es negativa.
b La relación entre las variables es directa.
c Hay poca relación lineal entre las variables.
d Hay un error de cálculo.
e El 80% de las predicciones son correctas.
Preg. 14. En una población formada por unidades familiares, la altura media del
padre en la familia se comporta como una distribución normal de media 170cm
con desviación típica 5 cm. La altura del primer hijo varón es otra variable con
distribución similar. Con estos datos podemos afirmar:
a La covarianza es pequeña.
b Hay fuerte relación inversa entre las variables.
c Hay poca relación lineal entre las variables.
183
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Preg. 17. Un modelo de regresión lineal para calcular la glucemia (sangre) a partir
de la de la orina (glucosuria) es "glucemia = 20+ 0.5 glucosuria". Si dos personas
se diferencian en 10 unidades de glucosuria, cual es la mejor estimación que
puede hacer para la diferencia en glucemia:
a 5
b 10
c 15
d 20
e 25
184
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Soluciones:
Problemas
185
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Tensión arterial
Antes 150 132 130 116 107 100 101 96 90 78
Después 90 102 80 82 90 94 84 93 89 8?????
186
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
¿Se puede concluir que las tres poblaciones difieren respecto del tiempo de
máxima concentración en plasma de fenilbutazona?
Analizador de sangre
Técnico I II III IV V
1 1 3 4 2 5
2 4 5 1 2 3
3 4 1 3 5 2
4 1 3 2 5 4
5 1 2 3 4 5
6 5 1 3 2 4
187
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
7 5 1 4 3 2
Utilizar el contraste adecuado para determinar si los técnicos perciben diferencias
entre los aparatos.
Ejercicio 6. Los efectos de tres drogas con respecto al tiempo de reacción a cierto
estímulo fueron estudiados en 4 grupos de animales experimentales. El grupo IV
sirvió de grupo control, mientras que a los grupos I, II y III les fueron aplicadas las
drogas A, B y C respectivamente, con anterioridad a la aplicación del estímulo:
A B C Control
17 8 3 2
20 7 5 5
40 9 2 4
31 8 9 3
35
¿Puede afirmarse que los tres grupos difieren en cuanto al tiempo de reacción?
Niveles de PPB
Grupo I 10 37 12 31 11 9 23
Grupo II 4 35 32 19 33 18 8
Grupo III 15 5 10 12 6 6 15
Grupo IV 7 11 1 08 2 5 3
188
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejercicio 9. Los siguientes datos nos dan el peso de comida (en Kg.) consumidos
por adulto y día en diferentes momentos en un año. Usar un contraste no
paramétrico para comprobar si el consumo de comida es el mismo en los 4 meses
considerados.
Febrero Mayo Agosto Noviembre
4,7 4,7 4,8 4,9
4,9 4,4 4,7 5,2
5,0 4,3 4,6 5,4
4,8 4,4 4,4 5,1
4,7 4,1 4,7 5,6
Nivel de hemoglobina
Expuestos 14'4 14'2 13'8 16'5 14'1 16'6 15'9 15'6 14'1 15'3
15'7 16'7 13'7 15'3 14'0
No expuestos 17'4 16'2 17'1 17'5 15'0 16'0 16'9 15'0 16'3 16'8
189
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Ejercicio 12. A 11 ratas tratadas crónicamente con alcohol se les midió la presión
sanguínea sistólica antes y después de 30 minutos de administrarles a todas ellas
una cantidad fija de etanol, obteniéndose los datos siguientes:
Test general.
190
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Opción a: Sistemático.
Opción b: Aleatorio.
Opción c: Por conglomerados.
Opción d: Estratificado.
Opción e: Por conglomerados y estratificado.
Pregunta 6. Para conocer los índices predictivos en un test diagnóstico para una
enfermedad que tiene un 1% de afectados en la población, será necesario
conocer:
191
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Opción a: Cero
Opción b: 1%
Opción c: 2%
Opción d: 5%
Opción e: 8%
192
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Pregunta 11. Cierto test diagnóstico acierta sobre el 100% de los individuos sanos
y el 0% de los individuos enfermos. Elegida una persona al azar:
Pregunta 12. Queremos calcular PROB[X<3] en una variable de Poisson. Esto es:
Opción a: F(3)
Opción b: F(2)
Opción c: 1-F(3)
Opción d: 1-F(2)
Opción e: Ninguna de las anteriores.
Pregunta 15. La edad de los individuos de una población sigue una distribución
normal. Se extrae aleatoriamente una muestra de 300 pacientes cuya media es
de 50 años, y la desviación típica es 10 años. Entonces:
193
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
194
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Opción a: 15.
Opción b: 17
Opción c: 20
Opción d: 25
Opción e: 34
Pregunta 23. De una población de 500 pacientes, al 50% hombres y mujeres, 300
tienen alteración de la nutrición, de los cuales 50 son mujeres. La probabilidad de
que un paciente escogido al azar sea mujer con desnutrición es:
Opción a: 0.10
Opción b: 0.15
Opción c: 0.20
Opción d: 0.25
Opción e: 0.30
Pregunta 24. En una población, hay tantos hombres como mujeres, el 20% son
varones y fumadores y el 20% de las mujeres fuman. Entonces:
195
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
196
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Pregunta 30. De las siguientes, cuál se corresponde con un error de tipo II:
197
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Opción a: 3%
Opción b: 6%
Opción c: 9%
Opción d: 12%
Opción e: 25%
Opción a: 2%
Opción b: 5%
Opción c: 8%
Opción d: 10%
Opción e: 2%
198
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Pregunta 38. De los siguientes, qué me puede servir directamente para saber si
una observación de una variable aleatoria es anómala:
Opción a: Bernoulli.
Opción b: Binomial.
Opción c: Poisson.
Opción d: Normal.
Opción e: Cualquiera de las anteriores valdría.
199
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Pregunta 43. Una estimación confidencial para un nivel de confianza fijado, da por
respuesta:
200
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Pregunta 49. Dos de cada 100 individuos reaccionan mal ante determinado
tratamiento. Si decidimos aplicarlo sobre 1000 personas. Nos preguntamos
cuántos de dichos individuos podrán reaccionar mal en esa muestra tan
numerosa. Podríamos describirlo usando:
201
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Opción a: 2%
Opción b: 5%
Opción c: 15%
Opción d: 50%
Opción e: No puede calcularse con esos datos.
Opción a: La varianza es 8
Opción b: La desviación típica es 8.
Opción c: La varianza es 4.
Opción d: La desviación típica es 4.
Opción e: Todo lo anterior es falso.
Pregunta 54. Una prueba diagnóstica de cierta enfermedad, tiene una tasa de
aciertos del 90% tanto sobre enfermos como sanos. La incidencia de la
enfermedad en la población es del 50%. Si se pasa el test a una persona y sale
positivo, la probabilidad de que realmente esté enferma es:
202
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Opción a: 45%
Opción b: 50%
Opción c: 75%
Opción d: 90%
Opción e: 100%
Opción a: 95%
Opción b: 68%
Opción c: 50%
Opción d: 5%
Opción e: 2,5%
Pregunta 58. Se desea estimar la media de una población. Para ello se elije una
muestra de cierto tamaño. Si elegimos posteriormente una muestra de tamaño 9
veces mayor:
203
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Pregunta 60. Una enfermedad tiene una incidencia del 50% en la población. Un
test para detectarla posee una tasa de verdaderos positivos del 80%, y de falsos
positivos del 20%. Si un individuo resulta ser positivo, la probabilidad de que esté
enfermo es:
Opción a: 20%
Opción b: 40%
Opción c: 50%
Opción d: 60%
Opción e: 80%
204
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
Pregunta 64. En una población el 30% son hombres de los cuales son deportistas
el 20%, frente al 25% de las mujeres. Escogida una persona al azar es deportista.
La probabilidad de que sea mujer es (aproximadamente):
Opción a: 0,235
Opción b: 0,60
Opción c: 0,74
Opción d: 0,25
Opción e: No puede calcularse con esos datos.
Opción a: 0,088
Opción b: 0,2001
Opción c: 0,802
Opción d: 0,020
Opción e: No puede calcularse con esos datos.
205
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
8. Una agencia desea obtener una muestra de 200 adultos de cierta zona
residencial de la ciudad de Siuna. Se propone cumplir su objetivo extrayendo
una muestra aleatoria de 200 casas de familia de los que aparecen en una lista
de todas las casas del sector urbano y selecciona luego al azar un adulto de
cada casa. ¿Por qué se lograrán o no muestras aleatorias con este
procedimiento?
Respuesta:
Respuesta: variada.
11. Suponga que se examinaron los 36 huevos de las cajas de la muestra. ¿La
varianza de muestreo seria en este caso igual a cero? Fundamente su
respuesta, sea afirmativa o negativa.
Respuesta:
12. Sugiera una forma para tomar una muestra aleatoria de 100 estudiantes de la
universidad Uraccan las minas.
Respuesta:
206
Elaborado por: Ing. Óscar Flores Pérez Bioestadística
13. Sugiera un plan para muestreo aleatorio, para obtener muestras de:
¾ Árboles de un bosque.
¾ Niños en una comunidad de menos de 5 años de edad y que hayan tenido
sarampión. En cada caso indica alguna variable a estudiar.
Respuesta: ¿?
Respuesta:
Respuesta. ¿?
207