Sei sulla pagina 1di 7

Diplomado en Bioestadstica. ESP. UCV.

2014 ORGANIZACIN DE DATOS Es necesario ordenar convenientemente los datos recopilados en formas adecuadas para su comprensin y para aplicarles los cmputos del caso tal que se logre establecer el comportamiento y posterior contextualizacin de las variables. Es prudente recalcar sobre la necesidad cerciorarse sobre la calidad de los datos, algo que se inicia en la fase de recopilacin, con la revisin acuciosa del llenado de respuestas y que durante la fase de organizacin opera identificando la presencia de incongruencias mayores en cuanto se detecten cifras obvia o innegablemente absurdas en relacin a la naturaleza de la variable. Las mediciones detectan variaciones tan pequeas como la tecnologa del instrumento lo permita (sensibilidad), as los registros de mediciones son cifras puntuales aproximadas de la realidad. Datos Un dato es un valor que adquiere la variable (valor del atributo observado en la variable) en su momento de medicin, y se registra segn un proceso de recopilacin de datos. As, los datos tiene registros nominales cuando se requiere identificar el atributo y no establecerle propiedad aditiva al guarismo empleado, por tanto el registro del valor de la variable (simbolizado con las ltimas letras del alfabeto, comnmente con la x) no aplica como operador activo de cmputo matemtico; los registros ordinales o de rango establecen posiciones, sin determinar distancia entre diferentes posiciones; y los registros propiamente numricos (cardinales) establecen posicin y distancia, tienen propiedad aditiva, admiten toda operacin de cmputo, poseen unidad de medida y sus guarismos operan en el campo de los nmeros reales (fraccionarios o enteros). Los datos de campo son denominados datos crudos y deben ser ordenados como series o matrices numricas acordes con el modelo estadstico en aplicacin. Para simplificar el manejo de los datos se realiza un conteo de los datos que pertenezcan a un mismo valor de variable, se ha extendido y aceptado el uso de la letra efe minscula f (frecuencia absoluta de casos) para expresar la cantidad de veces que se repite el valor especfico observado. La organizacin de datos se realiza tomando en cuenta el volumen de valores de la variable y la cantidad de casos (tamao muestral) recopilados, tal que las series correspondiente sean manejables. As, los datos se estructuran en matrices o series numricas, segn tres formatos: 1. Datos no agrupados DNA, en que la matriz se ordena en forma horizontal o filas, de menor a mayor sin eliminar registros de datos. 2. Datos no agrupados con frecuencia DNAf, en la cual la matriz se dispone en arreglos verticales, columnas, con valores (x) que de ser numricos tendrn secuencia creciente de arriba hacia abajo y columna(s) de frecuencias absolutas (f) que contabilizan las repeticiones de cada valor. En DNAf se evidencia cada valor y su frecuencia sin mostrar uno a uno los registros, revelando por simple inspeccin ciertos indicadores del comportamiento de la variable. 3. Datos agrupados DA, esta presentacin simplifica la extensin de los valores de la variable al agrupar la data en clases, grupos o categoras dentro de los cuales los valores de clase se consideran y se tratan estadsticamente como iguales. Una clase se identifica inequvocamente con lmites, uno inferior Li y otro

Profesor Lus Vsquez

Diplomado en Bioestadstica. ESP. UCV. 2014 superior Ls. Si algn lmite no est expreso, lo cual ocurre en las clases de los extremos, entonces se dice que son datos de clase abierta. Es necesario puntualizar que el uso recurrente de la organizacin de datos en bioestadstica, permite pautar sobre la seleccin del tipo arreglo a elegir, al respecto la siguiente gua emprica (no es una regla) orienta la decisin: Tipo de arreglo x Cantidad de valores f Cantidad de repeticiones DNA Alrededor de 20 (Pocos) Alrededor de 20 (Pocas) DNAf A lo sumo 20 (Pocos) Ms de 20 DA Sobre 20 (Muchos) Ms de 20 (Muchas) Finalmente se acota que algunos atributos pueden ser observados de diferentes formas segn sea lo requerido por el diseo de la investigacin y por tanto registrados en condiciones y escalas diferentes. Es necesario puntualizar que al observar los atributos en escalas no correspondientes a la naturaleza de la variable se debe ser muy cuidadoso sobre la equivalencia entre lo medido y la real interpretacin de las cifras. DNA 1. Ejemplo: Dadas las edades x=4,6,3,2,2,3,7,9,10,11,1,1,3,8,3 en aos, la organizacin en DNA ser X (aos)= 1,1,2,2,3,3,3,3,4,6,7,8,9,10,11 Se percibe que, mediante una lectura inmediata y simple, es posible describir el conjunto de datos en trminos de X mx. (valor mximo de la variable): 11 X mn. (valor mnimo de la variable): 1 I t (Rango total de la variable o Intervalo total): X mx - X mn.= 11-1 = 10 n (tamao muestral): 15 DNAf Ejemplos: 2. Caso de datos identificados mediante trminos textuales que describen la cualidad especfica del atributo x Matiz de color f en productos Blanco 12 Verde 9 Azul 13 3. Caso de datos identificados con trminos numerales que diferencian cada valor x f Cdigo identificacin de producto 103004 12 103004 9 103006 13

Profesor Lus Vsquez

Diplomado en Bioestadstica. ESP. UCV. 2014 Se reitera que en este caso los nmeros-cdigos de la columna x solo identifican el producto, mientras en la columna f los nmeros son cantidades (frecuencias) de cada producto identificado. 4. Caso de datos registrados en escala de intensidad con descripcin textual x Gusto A, Me gusta mucho B, Me gusta poco C, No me gusta f 12 22 5

5. Caso de registro en escala ordinal proveniente de una variable cuantitativa, como la edad, pero que registrada por rangos x (edad) Poca edad Edad Intermedia Mayor edad f 21 39 16

Esta misma data pudo ser presentada con nmeros en condicin ordinal, as: x nivel de edad 1 2 3 f 21 39 16

6. Caso de datos medidos en escalas cardinales, por ejemplo la edad: X aos f O 1 1 2 2 2 3 4 4 1 6 2 7 2 8 3 9 1 12 2 En este arreglo tambin se puede realizar una lectura inmediata y simple, para describir el conjunto de datos en trminos de X mx. (valor mximo de la variable): 12 X mn. (valor mnimo de la variable): 0 I t (Rango total de la variable o Intervalo total): X mx - X mn.= 12-0 = 12

Profesor Lus Vsquez

Diplomado en Bioestadstica. ESP. UCV. 2014 f (tamao muestral): 20 f mx (mxima frecuencia absoluta en la variable): 4 f mx (mnima frecuencia absoluta en la variable):1 X f mx (valores con mxima frecuencia absoluta): 3 X f mx (valores con mnima frecuencia absoluta): 0, 4, 9 7. Caso de variables ordinales, como el dolor, medido en una escala cardinal (de intervalo) que emplea un registro en nmeros para los niveles de dolor: f 0 (ausente) 2 1 (presente, muy tolerable) 12 2 (tolerable) 5 3 (intolerable) 3 4 (muy intolerable, crtico) 1 Este manejo del dato le induce densidad numrica y distancia entre valores, lo cual es posible si la variable observada es ordinal de intensidad. Se debe tener cuidado de incluir en los mtodos de la investigacin el cmo se logra esta nueva condicin cardinal de la medicin incluyendo una explicacin sobre la equivalencia entre lo percibido y el algoritmo empleado (en este ejemplo puntos de dolor) con una definicin cuidadosa: nivel en puntos Condicin del dolor percibido 0 Ausente 1 Presente, muy tolerable 2 Tolerable 3 Intolerable 4 Muy intolerable, crtico En estos casos los resultados deben ser interpretados rescatando el sentido original de la variable. As por ejemplo, si despus de realizar las operaciones estadsticas con los nmeros nivel de dolor surge un resultado de 1,8 puntos, su interpretacin se corresponde con la idea que el paciente percibe un nivel de dolor que est ms all de lo muy tolerable y se acerca a tolerable. Decir que el paciente tiene 1,8 puntos de dolor fcilmente pierde sentido, en especial si no se conoce la escala de conversin. Otra situacin es la conversin de datos en escala cardinal a datos en escala ordinal. Siguiendo el ejemplo 6, para definir la variable edad de grupos etarios (cuya naturaleza es cuantitativa continua) segn el inters de una investigacin en especfico, la equivalencia sera: Aos Equivalente Menos de 1 Lactante 1a2 Maternal 3a5 Pre-escolar 6 a 12 Escolar Y el arreglo de los datos sera: x

Profesor Lus Vsquez

Diplomado en Bioestadstica. ESP. UCV. 2014 Condicin f Lactante 1 Maternal 4 Pre-escolar 5 Escolar 10

DA En este tipo de arreglo un aspecto importante es la extensin de cada clase, denominado intervalo de clase y cuya expresin es ic Ls Li , pues se generan dos situaciones: 1.Intervalos constantes, donde las frecuencias absolutas son contabilizadas con igual densidad numrica en cualquier clase pues los rangos tienen la misma amplitud. Habr una relacin inversa entre la extensin de los intervalos y el nmero de clases y el clculo del nmero de clases C se hace con la ecuacin de Sturget: C X max X min 1 o mediante la ecuacin de radicacin: C n , se
3,84 log n

aplica en bioestadstica, bsicamente, en demografa y manejo de recursos financieros. 2.Intervalos no constantes, se aplican regularmente en bioestadstica y son una diferencia notoria propia del manejo de datos del mbito salud respecto de los manejados en la estadstica general, dada la naturaleza de las variables relacionadas con el hecho humanos de la vida, cuyo comportamiento en el tiempo vara en forma no simtrica. Por ello las frecuencias absolutas se contabilizan con densidades numricas diferentes ya que las categoras o clases en qu se agrupan los datos tienen amplitudes diferentes. Este tipo de arreglo debe tener en cuenta que los casos ubicados dentro de una misma categora se les consideran como iguales, por lo tanto en la definicin de cada categora se deben tener presente: a. Consideraciones temticas que establecen los especialistas sobre reas como fisiologa, morfologa, bioqumica, toxicologa. b. La densidad numrica mnima por categora, para evitar al mximo trabajar series con rangos atpicos o series numricas que no operan con un solo modelo matemtico. c. Congruencia entre los datos de cada clase para ser consecuente con el modelo estadstico a aplicar. d. Congruencia funcional entre los elementos incluidos en cada clase creada para la serie. El manejo matemtico sencillo de estos datos se logra determinando un punto que represente la distribucin de datos dentro de cada clase tal que dicho punto funcione como el donde se ubica el total de los casos que contiene la clase. Para lo cual, dependiendo de las condiciones de la medicin, ese punto ser la media ponderada, la mediana y, muy frecuentemente, el punto medio
Xm Ls Li (marca de clase). El punto medio es representativo si la distribucin 2

Profesor Lus Vsquez

Diplomado en Bioestadstica. ESP. UCV. 2014 de los datos dentro de cada clase cumple con alguna de las siguientes condiciones: a. Es uniforme. b. Es montona, solo valores iguales. c. Tienen diferencias pequeas y se pueden considerar similares d. Tienen variaciones no tan pequeas pero se distribuyen con poca asimetra. e. Tienen variaciones balanceadas respecto de xm f. El promedio de las frecuencias en el intervalo coinciden con x m Si bien xm simplifica el trabajo matemtico y grfico, la realidad es que sus supuestos rara vez son estrictamente ciertos por lo cual se permite trabajar con algn error de clculo (sistemtico) en los indicadores estadsticos donde se manejen DA. Para graficar este tipo de matriz representando la evolucin temporaria de la variable es necesario hacer una conversin de frecuencias absolutas por frecuencias equivalentes tal que f eq
f iC

, a objeto de unificar las diferentes densidades.

Lmites de las clases El manejo adecuado de DA implica precisin en la definicin de los lmites que permiten diferenciar una clase de otra. Seguidamente se detallan aspectos relacionados con la continuidad numrica obligante para graficar y hacer cmputos (lmites en el campo de los nmeros reales LR-), aspecto que no es forzoso durante la fase de la recoleccin y presentacin de datos (lmites operativos o aparentes LA-). En campo se registran los datos en LA los cuales tienen una discontinuidad entre el lmite superior de una clase y el inferior de la siguiente. 8. Ejemplo X (aos) O-2 3-5 6-8 9-12 Donde la ubicacin de datos con registros entre tal discontinuidad se define mediante una definicin pre acordada, as un dato cuya edad cronolgica sea 2 aos y 364 das se corresponde con la primera calse. Pero como ya se dijo, al aplicar ecuaciones o graficar se debe establecer continuidad, lo que se hace con los lmites reales, estos lmites muestran de primera vista un solapamiento entre los valores de los lmites. Rigurosamente, los LR se deberan denotar as: Clase Primera (x1) Segunda (x2) Lmites reales a x1<b b x2<c

Profesor Lus Vsquez

Diplomado en Bioestadstica. ESP. UCV. 2014 Se denota que los valores x1 (primera clase) incluyen datos con registros que van desde el lmite inferior a pero no llegan a ser iguales al lmite superior b, quien es el lmite inferior de la clasex2. Lo habitual es simplificar la notacin, as: Lmites reales x1 a -b x2 b-c Segn la cual todo dato igual o mayor que a pero estrictamente menor que b pertenecer a la clase x1 y as sucesivamente. Para convertir los lmites aparentes en reales, cuando se trata de edades, se deja igual la cifra del lmite inferior y se suma una unidad a la cifra del lmite superior. As, los lmites reales del ejemplo 8 son: X (aos) f O-3 5 3-6 5 6-9 3 9-13 3 Cuando se manejan variables diferentes a la edad, mediciones cuyas lecturas dependen de consolas digitales o electro-mecnicas, los lmites reales se establecen disminuyendo a cada lmite inferior aparente la mitad la sensibilidad del instrumento e incrementndolo en el lmite superior aparente: Ejemplos: 9. Dadas las siguientes mediciones hechas en consolas electromecnicas de aguja (donde la sensibilidad es la menor divisin del tablero, 1 kilogramo): la conversin es: Lmites aparentes Lmites reales (lectura dial, Kg) 31 a 40 30.5 a 40.5 41 a 50 40.5 a 50.5 51 a 60 50.5 a 60.5 10. Si en la lectura del caso anterior se hubiese hecho con un dispositivo de pantalla digital (la cantidad a variar en los lmites es la mitad de la ltima cifra mostrada) que muestra hasta gramos se tendra: Lmites aparentes Lmites reales (lectura en g) en gramos 3001 a 4000 3000,5 a 4000,5 4001 a 5000 4000,5 a 5000,5 5001 a 6000 5000,5 a 6000,5 Como se percibe, la magnitud de la sensibilidad es la mnima expresin posible del registro instrumental y ello se refleja como una diferencia entre el lmite superior de una clase y el inferior de la siguiente. Clase

Profesor Lus Vsquez

Potrebbero piacerti anche