Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
TIPOS DE DATOS
Además de clasificar los datos como propios o ajenos, también podemos clasificarlos según el
contexto o la característica que representan.
Según el contexto: Podemos hablar de datos reales, realistas, simulados o desnudos. Las
diferencias se describen a continuación:
Reales: Datos recolectados o generados con el objetivo de dar respuestas a una o a varias
preguntas. Por ejemplo: ¿la proporción de personas de Argentina que tienen estudios
universitarios completos es actualmente significativamente superior a la proporción de hace dos
décadas? En este caso, tanto la pregunta a responder como las decisiones a tomar para obtener
datos confiables, exigen debatir sobre la forma más adecuada para recolectar los datos, qué tipo
de variables serán útiles para responder a la pregunta, cómo se medirán u observarán esas
variables, etc.
Realistas: Datos hipotéticos con un contexto que ilustra alguna cuestión práctica específica. Por
ejemplo: en un estudio hecho en un consultorio médico, se extrajo una muestra de sangre a 24
pacientes con el objetivo de determinar su grupo sanguíneo y se obtuvieron los siguientes
resultados: A B A A A AB 0 A A A 0 B 0 A B 0 B 0 A B B A A 0 ¿Cuál es el grupo sanguíneo más
común en estos pacientes?
Simulados: Datos que se generan a través de simulaciones con material concreto o a partir de
simuladores informáticos. Por ejemplo, resultados obtenidos al lanzar realmente 30 veces un dado
o datos obtenidos a partir del generador aleatorio de Excel o Geogebra.
Desnudos: Números sin ningún contexto, y por lo tanto, sin ningún interés estadístico. Por
ejemplo: considerando los siguientes datos: 5 – 7 – 9 – 9 – 12 – 12 - 12 – 15. Realiza un gráfico de
bastones para resumirlos. En este caso no se pueden plantear preguntas o problematizar porque
no hay un contexto.
Según la característica que miden o representan: Esta clasificación se basa en el tipo de atributo
que se pretende medir en cada individuo. Por ejemplo, no implica el mismo tipo de medición el
querer estimar la longitud media de cintura de un grupo de alumnos que estimar el nivel
promedio de felicidad de esos mismos alumnos. En el primer caso, estamos ante una medición
física que la realizaremos valiéndonos de algún instrumento de medida como por ejemplo, un
centímetro o un metro y, por supuesto, el dato obtenido de cada alumno será la longitud de su
cintura, expresada en centímetros o en metros. Ante esta situación, solo debemos tener presente
que, para que tenga mayor validez la estimación, todas las medidas deberíamos tomarlas con el
mismo instrumento de tal manera de reducir el error de medición que puede producirse si
utilizáramos dos centímetros de distinto material o graduados de distinta manera. En el segundo
caso, la medición de la felicidad, es un proceso mucho más complejo dado que es un constructo
1
intangible y, por lo tanto, estará completamente relacionado a un marco teórico que nos dará
indicios de cómo “medir” dicha cualidad. En situaciones como ésta, antes de realizar la medición,
debemos interiorizarnos de las definiciones y características que se dan sobre dicho constructo y
cuáles serán las dimensiones que lo caracterizan, para poder realizar la medición. En una instancia
posterior, una vez definido el constructo, se deberá decidir sobre el instrumento que nos permitirá
recolectar los datos que nos brinden información sobre él (encuesta, entrevista, test, etc.). Es así
que, entonces, podemos diferenciar entre:
i. Los datos cualitativos: serán aquellos que expresen alguna cualidad o jerarquía que no
podrá ser traducida a números. Por ejemplo, la intención de voto de un ciudadano
respecto de un candidato político o el nivel educativo máximo alcanzado por cada
persona.
ii. Los datos cuantitativos: pueden sub-clasificarse en discretos o continuos, según si
provienen de un conteo (por ejemplo: el número de hijos por familia) o de una
medición respectivamente (por ejemplo: la longitud de la cintura de cada alumno o el
nivel de felicidad de cada persona). Podemos agregar que, los datos son los valores
que adoptan las variables en cada caso particular (es decir, es el resultado de la
medición realizada sobre un individuo, una unidad experimental o elemental, por
ejemplo, la longitud de la cintura, en cm, de cada alumno), y que las variables no son
más que aquella característica que estudiamos en cada uno de los individuos o
unidades bajo estudio (por ejemplo, la longitud de la cintura, en cm, de cada uno de
los alumnos del curso X). El dato es constante para un individuo pero la variable
cambia de un individuo a otro.
CONCEPTO DE ESTADÍSTICA
Podemos entonces decir que entendemos por estadística a la “técnica o método que se utiliza
para recopilar, organizar, presentar, analizar e interpretar información numérica, con la finalidad
de extraer conclusiones útiles que sirvan para tomar decisiones lógicas. Esto a partir de todo el
conjunto o del conocimiento de una parte del mismo”. (BUSCAR ESTADISTICA DESCRIPTIVA E
INFERENCIAL)
2
Individuo o unidad estadística: es el menor objeto sujeto a observación.
Recopilación de Datos: Consiste en la captación de los datos estadísticos. Puede ser interna o
externa. Es interna cuando se realiza dentro del ente que la va a utilizar. Por ejemplo los datos de
las ventas de un establecimiento se recogen internamente, son de la propia empresa o
establecimiento. Es externa cuando los datos provienen de afuera del ente, ya sea porque las
tomamos de alguna publicación o porque se captan directamente mediante una encuesta o censo.
Permanente: Continua: por medio de registros diarios. Periódica: por ejemplo los censos de
población que se realizan cada diez años, o la encuesta permanente de hogares que se realiza cada
tres meses.
No permanente: está referida a estudios especiales, que pueden utilizar las encuestas o los censos
para la obtención de los datos.
2. Aplicar ese instrumento de medición (obtener las observaciones y mediciones de las variables
que son de interés para nuestro estudio)
ENCUESTAS: Con este dispositivo se pretende obtener información estandarizada sobre las
variables que son objeto de la investigación. Características de las preguntas que conforman una
encuesta: a) No ejerce influencia en el sentido de la respuesta. b) No incita a una respuesta
inexacta
Las respuestas o categoría que acompañan las preguntas deben ser: exhaustivas y excluyentes.
ENTREVISTAS: Este dispositivo propone recavar información a través de la interacción directa con
los protagonistas.
3
c) El cuestionario es relativamente abierto, no fijo y estandarizado.
e) Permite con mayor facilidad indagar sobre la construcción de sentido dada a los hechos que se
quieren analizar.
Organización y resumen de datos: Esta etapa comprende dos operaciones importantes que deben
llevarse a cabo una vez finalizada la recopilación. La primera es la corrección de los datos, que
resulta sumamente importante, particularmente en los casos de encuestas. Consiste en la
eliminación de las inconsistencias internas de algunos datos o el completamiento de otros.
Durante la organización también se realiza la clasificación de los datos, que consiste en establecer
cuáles son los aspectos relevantes que vamos a tener en cuenta para la tabulación y presentación.
Pueden tener en cuenta aspectos temporales, (fechas, períodos), aspectos cuantitativos, (ingresos,
edad, etc.), aspectos cualitativos, (nivel de instrucción, nacionalidad, religión, etc.).
FORMAS DE TRABAJO CON LOS DATOS: Un conjunto de datos puede ser trabajado en:
A) Forma bruta: o sea en el orden aleatorio en que se han recolectado. Pero cuando el número de
observaciones es muy grande se hace difícil trabajar de ésta manera.
B) Arreglo ordenado: pone los datos brutos en orden, de la observación menor a la mayor. Esto
facilita la evaluación por parte del investigador. Esta forma de trabajar es también aconsejable
cuando los datos no son demasiado numerosos.
C) En exhibiciones de “tallo y hojas” o “tronco y ramas”: Esta es una técnica sencilla de gran
utilidad para explorar y describir una gran masa de datos, que fue desarrollada por Tukey.
Se comienza colocando en una columna todos los números que conforman los datos eliminando la
última cifra (unidades), y se ordenan de menor a mayor. A la derecha de cada uno de estos
números se escribe la última cifra (unidad) de cada dato, que comienza con el número escrito
anteriormente. Posteriormente, se ordenan también de menor a mayor los números de cada fila.
Cabe aclarar que en la columna cada número aparece una sola vez en tanto que en las filas
pueden repetirse de acuerdo a las cantidades que conforman los datos. Por ejemplo el valor 19 se
coloca en la fila del 1 agregando el 9; el 22 en la fila del 2 agregando el 2; etc. De ésta manera se
ha obtenido una distribución de frecuencias, donde la frecuencia ahora está representada por una
fila de números en lugar de un rectángulo.
D) En tablas de distribución de frecuencias: éstas asocian cada valor de la variable, con la cantidad
de veces que se observa dicho valor. (VER MÁS ADELANTE)
Presentación de Datos: ya sea para uso propio o para el ajeno, los datos deben presentarse en
forma adecuada. Pueden utilizarse tres formas: textual, tabular, semi-tabular y gráfica. Estas
4
formas de presentación no son excluyentes entre sí, pudiendo en una misma presentación,
emplear más de una de ellas.
PARTE II DE LA UNIDAD I
Las variables se clasifican en dos grandes grupos: las categóricas o cualitativas y las numéricas o
cuantitativas. Las variables categóricas o cualitativas son aquellas que están definidas por las
clases o categorías que las componen.
Variables numéricas o cuantitativas: Como su nombre lo indica, las variables numéricas son
aquellas que se expresan por medio de un número.
Estas variables se clasifican en: Discretas o discontinuas: que se obtienen por conteo y solo toman
valores numéricos fijos, sin posibles valores intermedios y continuas: que surgen de mediciones
efectuadas sobre cada unidad experimental, y pueden tomar infinitos valores entre dos valores
dados, por lo menos en teoría. Por ejemplo entre las dos medidas de longitud 1,5 y 1,6 cm podrían
medirse infinitas longitudes, siempre que se estuviese dispuesto a hacerlo y si se dispone de un
método suficientemente preciso para obtener tales medidas.
ESCALA O NIVEL DE MEDICIÓN: Las escalas o nivel de medición se diferencian por propiedades de
orden y de distancia. Se las puede clasificar en: nominal, ordinal, intervalar y de razón.
Escala nominal: es aquella en la que no se hace ningún supuesto respecto de las relaciones que
existen entre las categorías de la variable. Por ejemplo el sexo de una persona, es una variable
medida en escala nominal, porque no tiene un orden preestablecido (de mayor o menor) entre sus
categorías: varón, mujer ni tampoco distancia (cuánto “mayor” es una categoría de la variable con
respecto a otra).
Escala ordinal: es aquella que surge de ordenar todas las categorías de la variable, de acuerdo a
algún criterio. Por ejemplo, clasificar las personas de acuerdo al puesto que ocupan en su lugar de
trabajo, como: peón, encargado, administrador, etc. El nivel socioeconómico puede ordenarse
como alto, medio, bajo.
Las escalas intervalar y de razón se usan con las variables cuantitativas discretas o continuas.
Escala intervalar: a las características que se les atribuye valores que permiten comparar el orden
y la variación numérica (distancia entre los valores de la variable). Entonces cuando se dice que un
5
objeto es mayor que otro, se puede especificar cuantas unidades de diferencia hay entre ambos o
por cuantas unidades, un objeto es mayor que el otro. Por ejemplo, con la medición es posible
decir no sólo que Antonio es más alto que Pedro, sino también se puede decir que Antonio es 10
cm más alto que Pedro. Una característica de la escala intervalar es que el punto de origen o punto
cero en la escala de medición es un punto de acuerdo o punto convencional. Otras variables que
se pueden medir con escala intervalar son: temperatura, inteligencia, tiempo, etc. En todos estos
casos es posible hacer comparaciones de distancia entre mediciones pero no entre sus magnitudes
proporcionales. El punto cero o de origen, es convencional.
Escala de razón: es aquella que presenta todas las propiedades de orden y distancia de una escala
intervalar adicionando el punto “0” o punto de origen que es natural o real. Por ejemplo medidas
de distancia, ingreso familiar, medidas de superficie, etc. En ésta escala de razón, al igual que en
una escala intervalar, las unidades de medida son equidistantes unas de otras con la única
diferencia que, en las escalas de razón, existe un punto cero correctamente definido por lo tanto
se pueden efectuar comparaciones proporcionales.
Se puede definir a una distribución de frecuencias como el cuadro o tabla que presenta en forma
ordenada a los distintos valores de una variable y sus correspondientes frecuencias. El método
estadístico recolecta información y la organiza en forma de Tablas de Frecuencias, y su utilidad
consiste en ordenar los datos para poder calcular y analizar las distintas características de la
variable con mayor facilidad.
A) Para variable discreta: se construye una tabla simple. Si una variable continua es tratada como
discreta, también podrá presentarse en éste tipo de tabla.
B) Para variable continua: se construye una tabla con intervalos de clase. Este tipo de tabla
también puede utilizarse para variable discreta con amplio recorrido.
Frecuencia (f): es el número de veces que se repite un suceso. Cuando los valores de la variable
son pocos, se puede trabajar en forma puntual, mientras que si las observaciones son muchas, es
conveniente hallar su frecuencia absoluta.
Frecuencia absoluta (fi): (de un determinado valor xi) es la cantidad de veces que se repite cada
valor de la variable. La suma de las frecuencias absolutas debe ser igual a la población en estudio.
fi n
6
fri 1
Frecuencia absoluta acumulada Fi: es la suma parcial y progresiva de las frecuencias absolutas,
puede ser calculada en forma ascendente o descendente. En el primer caso, se coloca en la
primera fila la primera frecuencia absoluta, en la fila siguiente se anota el valor de dicha frecuencia
más la siguiente, y así sucesivamente. Cuando se hace en orden creciente de los valores
representa la cantidad de individuos que cumplen con la condición igual o menor que un valor de
la variable determinado. Si estamos trabajando con intervalos de clase, se cumple la condición
menor o igual al límite superior de un determinado intervalo. Cuando se hace en orden
decreciente representa la situación contraria.
Frecuencia relativa acumulada (Fri): es la suma parcial y progresiva de las frecuencias relativas.
Frecuencia relativa porcentual (fri%): es similar a la frecuencia relativa pero expresada en
porcentajes. La suma de las frecuencias relativas porcentuales es 100.
fri% 100
Frecuencia relativa porcentual acumulada (Fri%): es la suma parcial y progresiva de las frecuencias
relativas porcentuales.
7
paralelos al eje de abscisas. Cada segmento se extiende entre dos valores consecutivos de la
variable, siendo las respectivas ordenadas las frecuencias acumuladas correspondientes al valor de
la variable que es abscisa del punto inicial del segmento.
TIPOS DE GRÁFICOS:
Lineales: Se utilizan generalmente para representar la variación de una variable a través del
tiempo (años, meses, horas, etc.). Sobre el eje horizontal figuran los períodos de tiempo.
Tabla de distribución de frecuencias por intervalos de clase (variable continua o variable discreta
de gran recorrido)
Cuando los valores de la variable son muchos, o la variable es continua se hace necesario agrupar
los datos en intervalos de clases. De acuerdo con la amplitud o rango de la variable y al tipo de
variable de estudio, se determinará la cantidad de intervalos conveniente. Esta selección está
relacionada con cada caso en particular. Sin embargo en general es preferible que los intervalos no
sean menos de 5, para conservar la información detallada del suceso, ni más de 15 para que dicha
información no esté muy dispersa. Además es considerada como mínimo contar con 16 datos para
ser distribuidos en intervalos de clase. Para el caso de variables continuas será necesario fijar
intervalos de clase para llegar a un resumen efectivo de la información original que se presenta en
una tabla de frecuencias para datos agrupados Los intervalos de clase o simplemente clases son
cada una de las subdivisiones o intervalos en que se ha dividido el dominio o campo de
variabilidad de una variable.
8
OBTENCIÓN DE LA FÓRMULA PARA DETERMINAR EL NÚMERO DE INTERVALOS: k 1 3,3log (n)
103 153 079 146 150 149 150 070 128 129 116 087 093 132 110 068 069 086 103 085
100 109 123 114 083 106 118 093 106 106 126 132 102 093 097 106 113 111 095 069
111 141 126 114 114 099 063 079 119 128 131 137 099 067 087 103 087 116 063 085
078 078 105 109 095 087 084 097 106 109 140 113 069 089 089 101 118 106 136 073
086 106 108 105 113 101 081 098 113 069 107 098 069 064 068 078 075 106 096 086
9
CONCEPTOS GENERALES EJEMPLO DE APLICACIÓN
Para ello en principio habrá que observar el VMAX 153
mayor y el menor valor que toma la variable VMIN 63
en estudio y obtener el rango o amplitud. R 153 63 90
R VMAX VMIN
10
HISTOGRAMAS
Un histograma representa, en el eje horizontal, los valores de una variable numérica divididos en
intervalos de clase. En forma similar a los gráficos de barras, tiene una barra sobre cada intervalo
cuya altura indica la cantidad (frecuencia) o proporción (frecuencia relativa) de datos. No se deja
espacio entre las barras ó rectángulos.
Existen dos gráficos, llamados histograma, para representar la distribución de éste tipo de
variable:
En el eje horizontal se pondrán los distintos intervalos de clase y en el eje vertical las
correspondientes frecuencias (absolutas o absolutas acumuladas). Cuando, se estudian variables
continuas, las frecuencias se representan mediante áreas o superficies, pues la escala en la que
están medidas las mismas permiten tomar valores en cualquier punto del eje horizontal del
gráfico. El mismo nos permite, entre otras cosas, la identificación de valores típicos y atípicos de
una distribución.
Llamamos valor atípico al que se diferencia sustancialmente de los demás. Otro gráfico útil es el
polígono de frecuencias, que para el caso del gráfico de frecuencias absolutas, la frecuencia del
intervalo se representa por una ordenada en el punto medio del mismo. Para que quede cerrada
la figura, ya que la superficie dentro del polígono de frecuencias es igual a la del histograma para
la misma distribución, se coloca un punto medio inmediato anterior y otro inmediato posterior de
lo que sería un intervalo anterior y posterior ficticio con frecuencia cero.
11