Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Introduccin
Si se obtiene una serie de datos, mirar los datos
individualmente nos puede dar una idea, pero es mejor usar indicadores que nos resuman la informacin. Estos se conocen como estadgrafos, medidas de resumen, o tambin medidas descriptivas. Tres tipos:
Medidas de tendencia central Medidas de dispersin Medidas de posicin
Si la serie tiene un nmero par de sujetos Mediana = El promedio de los dos valores centrales
distribucin tiene dos modas, se denomina bimodal. Si la distribucin es simtrica, las tres medidas caern en el mismo punto.
Ejercicio 2
Un grupo de 10 nios nacieron con los siguientes pesos:
3100 3800 3300 3600 3400 2300 2800 3100 3500 3000
Medidas de dispersin
Varianza de la muestra. Medida de cunto un grupo de nmeros se dispersan. Desviacin estndar de la muestra Raz cuadrada de la varianza de la muestra
Varianza de la muestra
Desviacin estndar
Mide la dispersin de los valores de una poblacin o
muestra en relacin a la media de la misma. El 68% de los valores estarn comprendidos entre +/- 1 DE. El 95% de los valores estarn comprendidos entre +/- 2 DE.
Ejemplo
Valores Promedio Diferencia entre valores y promedio Cuadrados de las diferencias
2,300 2,800 3,000 3,100 3,100 3,300 3,400 3,500 3,600 3,800
3,190 3,190 3,190 3,190 3,190 3,190 3,190 3,190 3,190 3,190
-890 -390 -190 -90 -90 110 210 310 410 610
Suma de los cuadrados
Dividida entre n-1 (9) VARIANZA Raz cuadrada de la varianza DESVIACIN ESTNDAR
792,100 152,100 36,100 8,100 8,100 12,100 44,100 96,100 168,100 372,100 1,689,000 187,667 433
Ejercicio 2
Un grupo de 10 adultos tienen los siguientes pesos:
80 78 84 75 59 57 91 74 72 77
muestra.
Resultados
Valores Promedio Diferencia entre valores y promedio Cuadrados de las diferencias
57 59 72 74 75 77 78 80 84 91
74.7 74.7 74.7 74.7 74.7 74.7 74.7 74.7 74.7 74.7
-17.7 -15.7 -2.7 -0.7 0.3 2.3 3.3 5.3 9.3 16.3
Suma de los cuadrados
313.29 246.49 7.29 0.49 0.09 5.29 10.89 28.09 86.49 265.69
Coeficiente de variacin
Si bien la varianza y DE nos da informacin sobre una muestra o
poblacin, no es tan til si queremos comparar dos variables diferentes, o dos poblaciones con variables diferentes, puesto que dependen de la magnitud. Si comparamos la DE del peso (en gramos) de una muestra de hormigas y otra de elefantes, aparentemente la varianza de las hormigas es mnima. Si comparamos la DE o varianza de la talla de una muestra de mujeres y de varones, la varianza de varones ser mayor simplemente porque su media es mayor. Para corregir esto, usamos el coeficiente de variacin.
Desviacin estndar entre la media por cien.
Percentiles
Para interpretar el resultado obtenido por un sujeto en una
estudio, y usted estudia 26 horas a la semana. Est bien? Si sabe que de 100 encuestados, el 65% estudian menos horas, puede tener una mejor idea. Si el 65% tienen valores menores, usted est en el percentil 65.
Definicin
El percentil P es el menor valor que es mayor o igual al P% de los
Percentil: frmula
Para obtener el valor del P percentil, debo
primero obtener el valor del lugar o puesto (R, por rank), para una muestra de N sujetos. R = (P / 100) x (N + 1)
Por ejemplo, si quiero obtener el percentil 25 de una
R 1
X 3
2
3 4 5
5
7 8 9
muestra de 8 sujetos R = (25 / 100) x (8 + 1) = 0.25 x 9 = 2.25 Si R es un entero, entonces el lugar es el valor obtenido. Si no, interpolamos un valor. Si R no es un entero, definimos la parte entera como ER = 2, y la parte fraccionaria como FR = 0.25 Buscamos los valores con los lugares ER y ER+1, 5 y 7. Valor interpolado = FR x (XER+1 XER) + XER 0.25 x (7-5) + 5 = 0.25 x 2 + 5 = 5.5 El percentil 25 es igual a 5.5
6
7 8
11
13 15
R 1 2 3 4 5 6 7
4 4 5 5 5 5 6
Para el percentil 25
R = P/100 x N+1 = 0.25 x 21 = 5.25 ER = 5, FR = 0.25 Valor P25 = FR x (XER+1 XER) + XER Valor P25 = 0.25 x (5 5) + 5 = 0.25 x 0 + 5 = 5
6
6 7 7 7 8 8 9 9 9 9 10 10
8
9 10 11 12 13 14 15 16 17 18 19 20
Para el percentil 90
R = P/100 x N+1 = 0.9 x 21 = 18.9 ER = 18, FR = 0.9 Valor P90 = FR x (XER+1 XER) + XER Valor P90 = 0.9 x (10 9) + 9 = 0.9 x 1 + 9 = 9.9
Percentil: Ejercicio
La tabla anexa tiene los puntajes finales,
R 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
sin redondeo, obtenidos por un grupo de estudiantes en un curso. Determine el valor del percentil 33 y percentil 67.
P33 = 15.440 P67 = 16.625
N 14.125 14.125 14.375 14.500 14.625 14.750 15.125 15.125 15.250 15.250 15.375 15.375 15.375 15.375 15.500 15.625 15.625 15.750 15.750 15.875 16.000 16.250
R 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43
N 16.250 16.250 16.375 16.375 16.500 16.625 16.625 16.625 16.750 16.875 16.875 17.000 17.125 17.250 17.250 17.375 17.375 17.625 18.000 18.000 18.000
Usos de percentil
Percentil
Peso y talla segn edad.
Quintiles
Pobreza
Cuartiles
Primer cuartil = 25% Segundo cuartil = 50% Tercer cuartil = 75%
debida al azar. Determinando si la probabilidad que un resultado se mantenga es superior a un determinado nivel.
pero que son diferentes por otra variable (un grupo fuma y el otro no, un grupo recibe una droga X y el otro no), siempre sern diferentes, pero no sabemos si por el azar o por el factor.
La prueba estadstica determina la probabilidad que la diferencia sea
debida al azar.
Si la probabilidad que la diferencia sea debida al azar es muy baja (igual
o menor de 5%), usualmente consideraremos que no se debi al azar, sino al factor que diferencia a los dos grupos.
Universo Muestra A Recibe tratamiento Resultado del indicador para A Muestra B Recibe placebo Resultado del indicador para B
Es la diferencia estadsticamente significativa? Cul es la probabilidad que la diferencia sea debida al azar? p > 0.05 (5%) Acepto la hiptesis nula La diferencia se debe al azar Ambos grupos son iguales p < 0.05 (5%) Rechazo la hiptesis nula La diferencia no se debe al azar Los grupos son diferentes
proporcin) de la muestra el 95% de las veces. Si decimos que el nivel de colesterol de los adolescentes es de 125 + 15 mg/dL (esto es, el IC95% es de 110 a 140 mg/dL), significa que si obtenemos cien muestras del mismo universo (de adolescentes), en 95 de ellas el promedio caer dentro de ese rango. Significa tambin que la probabilidad de obtener un valor por fuera del rango es de 5%. Las relaciones entre variables se prueban mediante proporciones (odds ratio, riesgo relativo). Como son proporciones, se puede determinar un IC95% para las mismas. Si el valor se mantiene dentro del rango de inters (sin cruzar el 1), significa que existe un 5% de probabilidad (o menos) que exista dicha asociacin.
Un ejemplo: RR
Los factores de riesgo se pueden determinar mediante la comparacin de las incidencias de los dos grupos (expuesto y no expuesto), que se conoce como riesgo relativo (RR).
Exposicin a tabaco y cncer: la incidencia en el grupo expuesto (fumadores) es de 200 por 100,000, y la incidencia en el grupo no expuesto (no fumadores) es de 10 por 100,000, por tanto el RR es igual a 200/10 = 20.
Significa que las personas que fuman tienen 20 veces ms probabilidad de tener cncer de pulmn que aquellas que no fuman.
Pero ese fue el valor de la muestra de pacientes. Qu pasa si tomo otra muestra de fumadores y no fumadores y me sale otro valor? Dentro de qu valores puede caer el RR si tomo otras muestras?
Si el RR = 20 + 5, significa que la probabilidad de obtener una muestra con un valor por fuera de 15-25 es de 5%.
En RR y OR el valor no debe cruzar la unidad, puesto que la interpretacin de estos valores cambia en funcin de si son mayores o menores que la unidad.
Tipos de variables
Variable: Caracterstica de un sujeto que puede ser medida Si algo existe, se puede medir Cualitativas: calidad, caracterstica o modalidad que posee
el sujeto.
Lugar de nacimiento, tipo de familia, etc.
Dicotmica: slo dos opciones.
Cuantitativas: cunto de cierto atributo posee el sujeto. Peso, talla, hemoglobina, ingreso familiar, etc. Discreta: el valor de la variable slo puede ser un entero. Continua: pueden tener cualquier valor entre enteros.
Escalas de medicin
Nominal: categoras sin orden particular. Estado civil. Ordinal: categoras con un orden mayor que o menor
Actividad fsica
Tasa global de fecundidad (hijos por mujer) Inteligencia Nivel de dolor
Tablas
Tablas o cuadros (sinnimos).
Datos primarios (bases de datos): ms precisa pero
puede ser difcil extraer conclusiones si es muy extensa. Datos secundarios: ya procesados, usualmente para poder resumir la informacin.
N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Talla 156 150 153 187 160 167 147 178 189 148 173 178 145 155 151 162 174 158 186 157 164 160 156 151 171
Edad 90 70 76 23 60 21 56 30 66 42 36 93 19 66 83 91 72 47 51 74 76 18 56 82 59
Hto 42 45 31 30 44 30 30 31 37 32 31 41 38 42 45 38 42 31 33 36 37 38 44 44 41
Dato Promedio Desv. Est Peso 83.04 16.72 Talla 163.04 13.13 Edad 58.28 23.57 Hto 37.32 5.46
Dato secundario
Dato primario
Base de datos
Base de datos
Permite explorar los datos
Las variables cualitativas se pueden presentar por
nmeros, de acuerdo a una clasificacin previa (usualmente se incluye en el cuestionario). Los ttulos de columnas no deben tener espacios Cada columna (vertical) representa una variable. Cada fila (horizontal) representa un sujeto. Ningn formato. Pueden exportarse entre programas.
Elaboracin de datos
Revisin, orden y resumen de datos antes de la
interpretacin y anlisis.
Cul es la calidad de los datos recolectados?
Errores de llenado, omisiones. Grfico de tallo y hojas. Box plot (grfico de caja).
Los datos agrupados se presentan grficamente para tener una idea de su distribucin.
Total (filas)
* Notas explicativas Fuente:
Ejemplo
frecuencia (proporcin, porcentaje). Presente frecuencias acumuladas si es pertinente (variables ordinales o cuantitativas ordenadas). Represente las variables cuantitativas por el promedio. Puede presentar el intervalo de confianza al 95% (se abrevia IC95%) tanto para proporciones como promedios. Use tablas de contingencia para presentar la relacin entre pares (o grupos) de variables.
Factores de riesgo Pruebas diagnsticas
Tabla 1. Proporcin de nios con DNT crnica segn patrn NCHS, 2011 Casos Casos con Distrito evaluados DNT El Talln 12 4 Las Lomas 30 9 La Unin 41 12 Tambogrande 49 13 Catacaos 43 11 Castilla 65 12 Piura 123 18 Total 363 79
%
33% 30% 29% 27% 26% 18% 15% 22%
Tabla 2. Casos de BPN segn edad de la madre Edad de la madre 15-19 aos 20-24 aos 25-29 aos 30-34 aos 35-39 aos 40-44 aos Total
Fuente: Hechos vitales 2010
N 9 16 17 14 9 6 71
PA
mmHg
IC95%
mmHg
Tabla 4. Resultados del seguimiento (tabla de contingencia) Tipo de control Adecuado Inadecuado Total Tipo de tratamiento Slo IECA IECA + dieta 58 12 15 49 73 61 Total 70 64 134
Tabla 5. Resultados de pruebas diagnsticas Dx segn ecografa Positivo Negativo Total Dx segn mamografa Positivo Negativo 58 12 15 49 73 61
Total
70 64 134