Sei sulla pagina 1di 11

ESTADÍSTICA Y PROBABILIDAD: UNIDAD I PARTE I

TIPOS DE DATOS

Además de clasificar los datos como propios o ajenos, también podemos clasificarlos según el
contexto o la característica que representan.

Según el contexto: Podemos hablar de datos reales, realistas, simulados o desnudos. Las
diferencias se describen a continuación:

 Reales: Datos recolectados o generados con el objetivo de dar respuestas a una o a varias
preguntas. Por ejemplo: ¿la proporción de personas de Argentina que tienen estudios
universitarios completos es actualmente significativamente superior a la proporción de hace dos
décadas? En este caso, tanto la pregunta a responder como las decisiones a tomar para obtener
datos confiables, exigen debatir sobre la forma más adecuada para recolectar los datos, qué tipo
de variables serán útiles para responder a la pregunta, cómo se medirán u observarán esas
variables, etc.

 Realistas: Datos hipotéticos con un contexto que ilustra alguna cuestión práctica específica. Por
ejemplo: en un estudio hecho en un consultorio médico, se extrajo una muestra de sangre a 24
pacientes con el objetivo de determinar su grupo sanguíneo y se obtuvieron los siguientes
resultados: A B A A A AB 0 A A A 0 B 0 A B 0 B 0 A B B A A 0 ¿Cuál es el grupo sanguíneo más
común en estos pacientes?

 Simulados: Datos que se generan a través de simulaciones con material concreto o a partir de
simuladores informáticos. Por ejemplo, resultados obtenidos al lanzar realmente 30 veces un dado
o datos obtenidos a partir del generador aleatorio de Excel o Geogebra.

Desnudos: Números sin ningún contexto, y por lo tanto, sin ningún interés estadístico. Por
ejemplo: considerando los siguientes datos: 5 – 7 – 9 – 9 – 12 – 12 - 12 – 15. Realiza un gráfico de
bastones para resumirlos. En este caso no se pueden plantear preguntas o problematizar porque
no hay un contexto.

Según la característica que miden o representan: Esta clasificación se basa en el tipo de atributo
que se pretende medir en cada individuo. Por ejemplo, no implica el mismo tipo de medición el
querer estimar la longitud media de cintura de un grupo de alumnos que estimar el nivel
promedio de felicidad de esos mismos alumnos. En el primer caso, estamos ante una medición
física que la realizaremos valiéndonos de algún instrumento de medida como por ejemplo, un
centímetro o un metro y, por supuesto, el dato obtenido de cada alumno será la longitud de su
cintura, expresada en centímetros o en metros. Ante esta situación, solo debemos tener presente
que, para que tenga mayor validez la estimación, todas las medidas deberíamos tomarlas con el
mismo instrumento de tal manera de reducir el error de medición que puede producirse si
utilizáramos dos centímetros de distinto material o graduados de distinta manera. En el segundo
caso, la medición de la felicidad, es un proceso mucho más complejo dado que es un constructo

1
intangible y, por lo tanto, estará completamente relacionado a un marco teórico que nos dará
indicios de cómo “medir” dicha cualidad. En situaciones como ésta, antes de realizar la medición,
debemos interiorizarnos de las definiciones y características que se dan sobre dicho constructo y
cuáles serán las dimensiones que lo caracterizan, para poder realizar la medición. En una instancia
posterior, una vez definido el constructo, se deberá decidir sobre el instrumento que nos permitirá
recolectar los datos que nos brinden información sobre él (encuesta, entrevista, test, etc.). Es así
que, entonces, podemos diferenciar entre:

i. Los datos cualitativos: serán aquellos que expresen alguna cualidad o jerarquía que no
podrá ser traducida a números. Por ejemplo, la intención de voto de un ciudadano
respecto de un candidato político o el nivel educativo máximo alcanzado por cada
persona.
ii. Los datos cuantitativos: pueden sub-clasificarse en discretos o continuos, según si
provienen de un conteo (por ejemplo: el número de hijos por familia) o de una
medición respectivamente (por ejemplo: la longitud de la cintura de cada alumno o el
nivel de felicidad de cada persona). Podemos agregar que, los datos son los valores
que adoptan las variables en cada caso particular (es decir, es el resultado de la
medición realizada sobre un individuo, una unidad experimental o elemental, por
ejemplo, la longitud de la cintura, en cm, de cada alumno), y que las variables no son
más que aquella característica que estudiamos en cada uno de los individuos o
unidades bajo estudio (por ejemplo, la longitud de la cintura, en cm, de cada uno de
los alumnos del curso X). El dato es constante para un individuo pero la variable
cambia de un individuo a otro.

CONCEPTO DE ESTADÍSTICA

Podemos entonces decir que entendemos por estadística a la “técnica o método que se utiliza
para recopilar, organizar, presentar, analizar e interpretar información numérica, con la finalidad
de extraer conclusiones útiles que sirvan para tomar decisiones lógicas. Esto a partir de todo el
conjunto o del conocimiento de una parte del mismo”. (BUSCAR ESTADISTICA DESCRIPTIVA E
INFERENCIAL)

POBLACIÓN Y MUESTRA POBLACIÓN:

Población: Conjunto de individuos u objetos en los cuales un investigador está interesado. La


población puede ser finita o infinita. En la investigación científica, muchas veces la población es
considerada infinita a causa de la imposibilidad física de listar todos sus elementos. Luego la
población infinita es aquella que en la práctica no puede ser físicamente listada.

Muestra: Conjunto de individuos u objetos que componen una parte representativa de la


población. El estudio estadístico se inicia con la selección de parte de una población, constituida
por n unidades de observación y la cual debe tener las mismas características de la población. Este
proceso recibe el nombre de muestreo, el cual comprende por lo menos dos etapas: la selección
de las unidades y el registro de las observaciones.

2
Individuo o unidad estadística: es el menor objeto sujeto a observación.

ETAPAS DEL MÉTODO ESTADÍSTICO

 Recopilación de Datos: Consiste en la captación de los datos estadísticos. Puede ser interna o
externa. Es interna cuando se realiza dentro del ente que la va a utilizar. Por ejemplo los datos de
las ventas de un establecimiento se recogen internamente, son de la propia empresa o
establecimiento. Es externa cuando los datos provienen de afuera del ente, ya sea porque las
tomamos de alguna publicación o porque se captan directamente mediante una encuesta o censo.

En cuanto a la periodicidad de la recolección puede ser:

Permanente: Continua: por medio de registros diarios. Periódica: por ejemplo los censos de
población que se realizan cada diez años, o la encuesta permanente de hogares que se realiza cada
tres meses.

No permanente: está referida a estudios especiales, que pueden utilizar las encuestas o los censos
para la obtención de los datos.

Recopilar o recolectar los datos implica tres actividades:

1. Seleccionar el instrumento de medición (debe ser válido y confiable)

2. Aplicar ese instrumento de medición (obtener las observaciones y mediciones de las variables
que son de interés para nuestro estudio)

3. Preparar las mediciones obtenidas (para un análisis correcto) A continuación y de manera


sintética aparecen las características que debieran reunir algunos instrumentos utilizados en la
recopilación y sus condiciones de validación:

ENCUESTAS: Con este dispositivo se pretende obtener información estandarizada sobre las
variables que son objeto de la investigación. Características de las preguntas que conforman una
encuesta: a) No ejerce influencia en el sentido de la respuesta. b) No incita a una respuesta
inexacta

Las respuestas o categoría que acompañan las preguntas deben ser: exhaustivas y excluyentes.

ENTREVISTAS: Este dispositivo propone recavar información a través de la interacción directa con
los protagonistas.

Diferencia de las entrevistas con respecto a las encuestas

a) El entrevistador forma parte del instrumento.

b) La información necesariamente fluye de la interacción e influjos recíprocos entre entrevistador


y entrevistado.

3
c) El cuestionario es relativamente abierto, no fijo y estandarizado.

d) Permite profundizar sobre aspectos no tenidos en cuenta previamente.

e) Permite con mayor facilidad indagar sobre la construcción de sentido dada a los hechos que se
quieren analizar.

 Organización y resumen de datos: Esta etapa comprende dos operaciones importantes que deben
llevarse a cabo una vez finalizada la recopilación. La primera es la corrección de los datos, que
resulta sumamente importante, particularmente en los casos de encuestas. Consiste en la
eliminación de las inconsistencias internas de algunos datos o el completamiento de otros.

Durante la organización también se realiza la clasificación de los datos, que consiste en establecer
cuáles son los aspectos relevantes que vamos a tener en cuenta para la tabulación y presentación.
Pueden tener en cuenta aspectos temporales, (fechas, períodos), aspectos cuantitativos, (ingresos,
edad, etc.), aspectos cualitativos, (nivel de instrucción, nacionalidad, religión, etc.).

FORMAS DE TRABAJO CON LOS DATOS: Un conjunto de datos puede ser trabajado en:

A) Forma bruta: o sea en el orden aleatorio en que se han recolectado. Pero cuando el número de
observaciones es muy grande se hace difícil trabajar de ésta manera.

B) Arreglo ordenado: pone los datos brutos en orden, de la observación menor a la mayor. Esto
facilita la evaluación por parte del investigador. Esta forma de trabajar es también aconsejable
cuando los datos no son demasiado numerosos.

C) En exhibiciones de “tallo y hojas” o “tronco y ramas”: Esta es una técnica sencilla de gran
utilidad para explorar y describir una gran masa de datos, que fue desarrollada por Tukey.

Se comienza colocando en una columna todos los números que conforman los datos eliminando la
última cifra (unidades), y se ordenan de menor a mayor. A la derecha de cada uno de estos
números se escribe la última cifra (unidad) de cada dato, que comienza con el número escrito
anteriormente. Posteriormente, se ordenan también de menor a mayor los números de cada fila.
Cabe aclarar que en la columna cada número aparece una sola vez en tanto que en las filas
pueden repetirse de acuerdo a las cantidades que conforman los datos. Por ejemplo el valor 19 se
coloca en la fila del 1 agregando el 9; el 22 en la fila del 2 agregando el 2; etc. De ésta manera se
ha obtenido una distribución de frecuencias, donde la frecuencia ahora está representada por una
fila de números en lugar de un rectángulo.

D) En tablas de distribución de frecuencias: éstas asocian cada valor de la variable, con la cantidad
de veces que se observa dicho valor. (VER MÁS ADELANTE)

 Presentación de Datos: ya sea para uso propio o para el ajeno, los datos deben presentarse en
forma adecuada. Pueden utilizarse tres formas: textual, tabular, semi-tabular y gráfica. Estas

4
formas de presentación no son excluyentes entre sí, pudiendo en una misma presentación,
emplear más de una de ellas.

PARTE II DE LA UNIDAD I

VARIABLE, CARACTERÍSTICA O ATRIBUTO: Al observar la realidad notamos la enorme cantidad de


distinciones sensibles que podemos establecer en ella. Por ejemplo, la altura, el diámetro, la edad,
el sexo, la conducta, el tamaño, etc. Definimos como variable a la propiedad con respecto a la cual
los objetos de estudio difieren entre sí de algún modo verificable. Es una cualidad o propiedad de
los individuos de la población en estudio.

Las variables se clasifican en dos grandes grupos: las categóricas o cualitativas y las numéricas o
cuantitativas. Las variables categóricas o cualitativas son aquellas que están definidas por las
clases o categorías que las componen.

Variables numéricas o cuantitativas: Como su nombre lo indica, las variables numéricas son
aquellas que se expresan por medio de un número.

Estas variables se clasifican en: Discretas o discontinuas: que se obtienen por conteo y solo toman
valores numéricos fijos, sin posibles valores intermedios y continuas: que surgen de mediciones
efectuadas sobre cada unidad experimental, y pueden tomar infinitos valores entre dos valores
dados, por lo menos en teoría. Por ejemplo entre las dos medidas de longitud 1,5 y 1,6 cm podrían
medirse infinitas longitudes, siempre que se estuviese dispuesto a hacerlo y si se dispone de un
método suficientemente preciso para obtener tales medidas.

ESCALA O NIVEL DE MEDICIÓN: Las escalas o nivel de medición se diferencian por propiedades de
orden y de distancia. Se las puede clasificar en: nominal, ordinal, intervalar y de razón.

Las escalas nominal y ordinal se usan con las variables cualitativas.

Escala nominal: es aquella en la que no se hace ningún supuesto respecto de las relaciones que
existen entre las categorías de la variable. Por ejemplo el sexo de una persona, es una variable
medida en escala nominal, porque no tiene un orden preestablecido (de mayor o menor) entre sus
categorías: varón, mujer ni tampoco distancia (cuánto “mayor” es una categoría de la variable con
respecto a otra).

Escala ordinal: es aquella que surge de ordenar todas las categorías de la variable, de acuerdo a
algún criterio. Por ejemplo, clasificar las personas de acuerdo al puesto que ocupan en su lugar de
trabajo, como: peón, encargado, administrador, etc. El nivel socioeconómico puede ordenarse
como alto, medio, bajo.

Las escalas intervalar y de razón se usan con las variables cuantitativas discretas o continuas.

Escala intervalar: a las características que se les atribuye valores que permiten comparar el orden
y la variación numérica (distancia entre los valores de la variable). Entonces cuando se dice que un

5
objeto es mayor que otro, se puede especificar cuantas unidades de diferencia hay entre ambos o
por cuantas unidades, un objeto es mayor que el otro. Por ejemplo, con la medición es posible
decir no sólo que Antonio es más alto que Pedro, sino también se puede decir que Antonio es 10
cm más alto que Pedro. Una característica de la escala intervalar es que el punto de origen o punto
cero en la escala de medición es un punto de acuerdo o punto convencional. Otras variables que
se pueden medir con escala intervalar son: temperatura, inteligencia, tiempo, etc. En todos estos
casos es posible hacer comparaciones de distancia entre mediciones pero no entre sus magnitudes
proporcionales. El punto cero o de origen, es convencional.

Escala de razón: es aquella que presenta todas las propiedades de orden y distancia de una escala
intervalar adicionando el punto “0” o punto de origen que es natural o real. Por ejemplo medidas
de distancia, ingreso familiar, medidas de superficie, etc. En ésta escala de razón, al igual que en
una escala intervalar, las unidades de medida son equidistantes unas de otras con la única
diferencia que, en las escalas de razón, existe un punto cero correctamente definido por lo tanto
se pueden efectuar comparaciones proporcionales.

TABLAS DE DISTRIBUCION DE FRECUENCIAS

Se puede definir a una distribución de frecuencias como el cuadro o tabla que presenta en forma
ordenada a los distintos valores de una variable y sus correspondientes frecuencias. El método
estadístico recolecta información y la organiza en forma de Tablas de Frecuencias, y su utilidad
consiste en ordenar los datos para poder calcular y analizar las distintas características de la
variable con mayor facilidad.

A) Para variable discreta: se construye una tabla simple. Si una variable continua es tratada como
discreta, también podrá presentarse en éste tipo de tabla.

B) Para variable continua: se construye una tabla con intervalos de clase. Este tipo de tabla
también puede utilizarse para variable discreta con amplio recorrido.

DEFINICIÓN DE CONCEPTOS PARA FACILITAR LA COMPRENSIÓN DE UNA TABLA

Frecuencia (f): es el número de veces que se repite un suceso. Cuando los valores de la variable
son pocos, se puede trabajar en forma puntual, mientras que si las observaciones son muchas, es
conveniente hallar su frecuencia absoluta.

Frecuencia absoluta (fi): (de un determinado valor xi) es la cantidad de veces que se repite cada
valor de la variable. La suma de las frecuencias absolutas debe ser igual a la población en estudio.

 fi  n

La frecuencia absoluta es siempre un número positivo comprendido entre 0 y n, es decir, 0  fi  n


Frecuencia relativa (fri): es la participación de cada valor de la variable en el total de
observaciones. Es el cociente entre la frecuencia y el tamaño de la población. La suma de las
frecuencias relativas es igual a 1.

6
 fri 1

Frecuencia absoluta acumulada Fi: es la suma parcial y progresiva de las frecuencias absolutas,
puede ser calculada en forma ascendente o descendente. En el primer caso, se coloca en la
primera fila la primera frecuencia absoluta, en la fila siguiente se anota el valor de dicha frecuencia
más la siguiente, y así sucesivamente. Cuando se hace en orden creciente de los valores
representa la cantidad de individuos que cumplen con la condición igual o menor que un valor de
la variable determinado. Si estamos trabajando con intervalos de clase, se cumple la condición
menor o igual al límite superior de un determinado intervalo. Cuando se hace en orden
decreciente representa la situación contraria.

Frecuencia relativa acumulada (Fri): es la suma parcial y progresiva de las frecuencias relativas.
Frecuencia relativa porcentual (fri%): es similar a la frecuencia relativa pero expresada en
porcentajes. La suma de las frecuencias relativas porcentuales es 100.

 fri% 100

Frecuencia relativa porcentual acumulada (Fri%): es la suma parcial y progresiva de las frecuencias
relativas porcentuales.

Cuando necesitamos organizar los datos en tablas de frecuencias, consideraremos tres


situaciones:

1. Si la variable es cuantitativa continua, usamos el método de distribución por intervalos de clase.


2. Si la variable es cuantitativa discreta con menos de 15 valores de variable, se ordenan en tablas
de frecuencias.

3. Si la variable es cuantitativa discreta de más de 15 valores de variable, se considera como


cuantitativa continua y usamos el método de distribución por intervalos de clase.

REPRESENTACIÓN GRÁFICA: En general la representación gráfica de una tabla de frecuencias


permite percibir con mayor claridad algunas características de la masa de datos que se investiga.
Por ello, resulta bastante más fácil transmitir conclusiones a personas no habituadas a la
interpretación de distribuciones de frecuencias cuando se utilizan gráficos estadísticos. Se utiliza
un par de ejes de coordenados. En el eje de las abscisas se representará la variable estudiada y en
el eje de las ordenadas, las correspondientes frecuencias (absolutas o relativas). En el caso de una
variable discreta, como la frecuencia corresponde a cada valor de la variable, se puede representar
por un bastón vertical construyéndose de esta forma un “gráfico de bastones”. Podemos decir
entonces que el gráfico de bastones es la representación gráfica de las frecuencias (absolutas o
relativas) de una variable discreta, mediante un gráfico de puntos, en un sistema de coordenadas
cartesianas ortogonales cuyas abscisas son los valores de la variable y cuyas ordenadas son las
frecuencias absolutas o relativas.

El gráfico de frecuencias acumuladas, o “gráfico de escalones”, es la representación gráfica de las


frecuencias acumuladas (absolutas o relativas), de una variable discreta mediante segmentos

7
paralelos al eje de abscisas. Cada segmento se extiende entre dos valores consecutivos de la
variable, siendo las respectivas ordenadas las frecuencias acumuladas correspondientes al valor de
la variable que es abscisa del punto inicial del segmento.

TIPOS DE GRÁFICOS:

Lineales: Se utilizan generalmente para representar la variación de una variable a través del
tiempo (años, meses, horas, etc.). Sobre el eje horizontal figuran los períodos de tiempo.

Barras o Columnas: Se utilizan generalmente para representar atributos cualitativos o


cuantitativos discreto. La longitud es igual a la frecuencia de cada observación. Pueden ser barras
simples o múltiples, según se trate de representar uno o más atributos. Las barras pueden ser
horizontales o verticales.
Sectores o Circular: Los gráficos circulares o gráficos de torta son útiles para comparar datos pues,
en general, trabajan con porcentajes. El área de cada sector representa el porcentaje que
corresponde a la frecuencia de un cierto valor de la variable. Esta representación es conveniente
cuando el número de sectores es pequeño y sus áreas están bien diferenciadas.
Cartogramas: Es la presentación de la información mediante mapas, ya sean sombreados, con
alfileres, punteados, etc.
Pictogramas o ideogramas: Signo que representa una idea o una palabra en la escritura. Son
utilizados con fines publicitarios. Sirven para representar por ejemplo, producción de petróleo en
miles de metros cúbicos por día, etc. Es evidente que al hacer el pictograma, se elige el dibujo de
manera que sugiera la naturaleza de los datos que se presentan. Es aconsejable usar dibujos
pequeños.

Tabla de distribución de frecuencias por intervalos de clase (variable continua o variable discreta
de gran recorrido)

Cuando los valores de la variable son muchos, o la variable es continua se hace necesario agrupar
los datos en intervalos de clases. De acuerdo con la amplitud o rango de la variable y al tipo de
variable de estudio, se determinará la cantidad de intervalos conveniente. Esta selección está
relacionada con cada caso en particular. Sin embargo en general es preferible que los intervalos no
sean menos de 5, para conservar la información detallada del suceso, ni más de 15 para que dicha
información no esté muy dispersa. Además es considerada como mínimo contar con 16 datos para
ser distribuidos en intervalos de clase. Para el caso de variables continuas será necesario fijar
intervalos de clase para llegar a un resumen efectivo de la información original que se presenta en
una tabla de frecuencias para datos agrupados Los intervalos de clase o simplemente clases son
cada una de las subdivisiones o intervalos en que se ha dividido el dominio o campo de
variabilidad de una variable.

INTERVALOS DE CLASE: Es la forma de disponer ordenadamente todos los valores de variable. Al


hablar de intervalos hacemos referencia al concepto matemático de intervalo, es decir es un
subconjunto de valores comprendidos entre otros dos llamados extremos del intervalo.

8
OBTENCIÓN DE LA FÓRMULA PARA DETERMINAR EL NÚMERO DE INTERVALOS: k 1 3,3log (n)

Dicha fórmula es denominada “Regla de Sturges”, donde “n” constituye el Nº de observaciones.


Para obtener la fórmula se deben partir de los siguientes supuestos:

1. El mínimo de datos que merecen ser distribuidos en intervalos de clase es 16.

2. El número de intervalos no debe ser inferior a 5.

3. Cada vez que se duplique la información se incrementa en 1 (uno) el número de intervalos.

De esta forma, podemos establecer la siguiente correspondencia:

Reglas empíricas para la construcción de una distribución de intervalos

Consideremos el siguiente ejemplo: Situación: “las remuneraciones por cátedra de un grupo de


docentes de una Universidad” fueron las siguientes:

103 153 079 146 150 149 150 070 128 129 116 087 093 132 110 068 069 086 103 085
100 109 123 114 083 106 118 093 106 106 126 132 102 093 097 106 113 111 095 069
111 141 126 114 114 099 063 079 119 128 131 137 099 067 087 103 087 116 063 085
078 078 105 109 095 087 084 097 106 109 140 113 069 089 089 101 118 106 136 073
086 106 108 105 113 101 081 098 113 069 107 098 069 064 068 078 075 106 096 086

Población: docentes de una Universidad. Muestra: un grupo de docentes Variable: remuneración


por hora cátedra. (Variable cuantitativa continua – escala de razón)

9
CONCEPTOS GENERALES EJEMPLO DE APLICACIÓN
Para ello en principio habrá que observar el VMAX 153
mayor y el menor valor que toma la variable VMIN  63
en estudio y obtener el rango o amplitud. R 153 63  90
R VMAX VMIN

Determinar el número de intervalos (k) y la k 1 3,3log (100)  7,6  8 11,25 12


amplitud de cada intervalo (c). n: total de
observaciones
k 1 3,3log (n) c  R/k
k debe ser un número natural” (pref. menor
al obtenido)

Calculo el rango ampliado Rr  k c Rr  812  96

Establecer la diferencia, es decir la cantidad a  96 90  6


en que ha sido alterado el recorrido de las 6 ha sido la cantidad en que ha sido alterado
variables, la cual no debe ser superior a la el recorrido de la variable.
amplitud.
a  Rr  R

Distribuir adecuadamente la cantidad a entre Al VMIN  63 se le resta aproximadamente 3


los valores VMIN y VMAX y para obtener el y la parte restante se le suma al VMAX 153,
límite inferior del primer intervalo (Lin PI) y el obteniéndose el límite inferior del primer
límite superior del último intervalo (L sup UI) intervalo (Lin PI ) y el límite superior del
último intervalo (Lsup UI) LinPI  63 3  60
LsupUI 153 3 156
Construir los intervalos, calcular los puntos
medios o marcas de clase (60 + 72)/2 = 66
Xi = (Linf + Lsup)/2

La decisión en cuanto a la cantidad de intervalos y a la amplitud de cada uno de ellos es arbitraria.


La única recomendación que debemos hacer aquí es tratar de que no queden intervalos de clase
con frecuencia nula. En general se aconseja que los intervalos no sean menos de cinco ni más de
quince. Además como el rango total de los intervalos de clase debe incluir a todos los valores de la
variable registrados, se aconseja redondear el rango calculado a un número entero superior para
evitar que el menor o el mayor valor que toma la variable queden excluidos. El valor de la variable
que coincida con un límite, libremente se puede decidir en cuál de los dos hacerlo, pero siguiendo
siempre el mismo criterio a través de todo el proceso de agrupamiento. A través del agrupamiento
de las observaciones en una tabla de distribución de frecuencias con intervalos de clase se pierde
la información correspondiente a los valores individuales de la variable, ya que se da por supuesto
que todas las observaciones de una clase se encuentran en el punto medio del intervalo. El punto
medio o marca de clase de cada intervalo es el valor de la variable en el que se da por supuesto
que se encuentran todas las observaciones del mismo. Se lo simboliza con Xi

10
HISTOGRAMAS

Un histograma representa, en el eje horizontal, los valores de una variable numérica divididos en
intervalos de clase. En forma similar a los gráficos de barras, tiene una barra sobre cada intervalo
cuya altura indica la cantidad (frecuencia) o proporción (frecuencia relativa) de datos. No se deja
espacio entre las barras ó rectángulos.

Un histograma representa la distribución de una variable numérica en una población o en una


muestra. Los intervalos de clase de una variable discreta están centrados en sus valores posibles y
tienen la misma longitud. (VER VIDEOS)

Existen dos gráficos, llamados histograma, para representar la distribución de éste tipo de
variable:

 para las frecuencias absolutas o relativas.

 para las frecuencias absolutas acumuladas o relativas acumuladas.

En el eje horizontal se pondrán los distintos intervalos de clase y en el eje vertical las
correspondientes frecuencias (absolutas o absolutas acumuladas). Cuando, se estudian variables
continuas, las frecuencias se representan mediante áreas o superficies, pues la escala en la que
están medidas las mismas permiten tomar valores en cualquier punto del eje horizontal del
gráfico. El mismo nos permite, entre otras cosas, la identificación de valores típicos y atípicos de
una distribución.

Llamamos valor atípico al que se diferencia sustancialmente de los demás. Otro gráfico útil es el
polígono de frecuencias, que para el caso del gráfico de frecuencias absolutas, la frecuencia del
intervalo se representa por una ordenada en el punto medio del mismo. Para que quede cerrada
la figura, ya que la superficie dentro del polígono de frecuencias es igual a la del histograma para
la misma distribución, se coloca un punto medio inmediato anterior y otro inmediato posterior de
lo que sería un intervalo anterior y posterior ficticio con frecuencia cero.

En el histograma de frecuencias acumuladas, (gráfica siguiente), éste polígono se denomina ojiva y


es una línea que une los límites superiores de cada uno de los intervalos de clase. Esta línea
empieza en lo que sería el límite superior de un intervalo inmediato anterior ficticio con frecuencia
cero. La mayor utilidad de éste gráfico consiste en la comparación de la distribución empírica de
los datos, proporcionada por la tabla de frecuencias, con una distribución estándar denominada
distribución normal.

11

Potrebbero piacerti anche