Sei sulla pagina 1di 14

ORGANIZACIÓN DE DATOS

ESTADÍSTICA I
AUTOR: Patricia Castillo Garzón
ÍNDICE
ÍNDICE

1. Organización de datos
1.1. Distribución de frecuencias para variable cualitativa
1.2. Representación gráfica para una variable cualitativa
1.2.1. Gráfico de barras
1.2.2. Gráfico circular
1.3. Distribución de frecuencias para variable cuantitativa discreta
1.3.1. Representación gráfica tabla discreta
1.4. Distribución de frecuencias para variable continua
Acceso rápido
1.4.1. Histogramas y polígonos de frecuencias

DESARROLLO

GLOSARIO REFERENCIAS

Este material pertenece al Politécnico


Grancolombiano y a la Red Ilumno. Por ende, son
de uso exclusivo de las Instituciones adscritas a
la Red Ilumno. Prohibida su reproducción total
o parcial.
02
DESARROLLO DE CADA UNA DE LAS UNIDADES TEMÁTICAS Tabla 1. Distribución de personas por estado civil

ESTADO CIVIL (1) Número de Personas (2) Porcentaje de personas (3)


1. Organización de datos Casado 5 5/24*100= 20,83%
Soltero 10 10/24*100= 41,67%
Cuando se observan las variables que están en estudio se genera un conjunto de Separado 3 3/24*100= 12,5%
resultados denominados ‘datos originales’. Estos datos son difíciles de manejar e
Viudo 2 2/24*100= 8,33%
interpretar, y no permiten detectar, en primera instancia, hechos importantes acerca del
Unión Libre 4 4/24*100= 16,67%
comportamiento de la variable.
Total 24 100%
Un primer paso para manejar e interpretar los datos, consiste en agrupar la información, Fuente: (elaboración propia
clasificando los datos según los diferentes valores que pueda presentar la característica,
valores que constituirán las diferentes categorías o clases de la clasificación. Para calcular el porcentaje de personas casadas, se toma el número de personas casadas
(5) y se divide sobre el total de personas (24) y el resultado se multiplica por 100. Note
Los métodos que existen para resumir información dependen del tipo de variable que se que cuando se hace esta operación el resultado es:
esté analizando y de la escala de medida.
5
*100  20,833333
24
1.1. Distribución de frecuencias para variable cualitativa
El valor se deja con solo 2 decimales y queda 20,83
Las tablas de frecuencias para variables cualitativas se trabajan con tres columnas: la
primera con las categorías en las que se divide la variable; la segunda con el número de Tenga en cuenta que si el porcentaje es:
casos en que se repite cada una de las categorías; y la tercera con el porcentaje
correspondiente. Por ejemplo se pregunta a un grupo de personas sobre su estado civil y 10
Solteros = *100  41,666666
se obtienen los siguientes resultados: 24

C, C, S, S, SE, S, S, SE, V, UL, S, UL, C, S, S, C, UL, V, UL, S, SE, C, S, S El resultado se aproxima a 41,67, mediante la siguiente norma: si el tercer decimal es igual
o superior a 5, se aproxima hacia arriba, es decir, el segundo decimal se aumenta en una
En donde se ha utilizado la siguiente codificación: centésima. Si el tercer decimal es inferior a 5, se aproxima hacia abajo, es decir, el
segundo decimal se disminuye en una centésima.
C Casado S Soltero UL Unión libre

SE Separado V Viudo 1.2. Representación Gráfica para una variable cualitativa


En este caso, la variable estado civil es cualitativa con escala de medida nominal.
1.2.1. Gráfico de Barras
La tabla se elabora con tres columnas:
El gráfico se realiza en el primer cuadrante del eje de coordenadas. En el eje horizontal se
 La primera columna (1) con la clasificación de la variable ubican las categorías de la variable y sobre el eje vertical se pone la frecuencia para cada
 La segunda columna (2) con el número de veces que ocurre cada clasificación categoría. Con cada grupo se forma un rectángulo en donde la base es la categoría y la
(frecuencia) altura es el número de elementos de cada categoría. Para la tabla 1, el gráfico de barras es
el que se presenta en la figura 1.
 La tercera columna (3) con el porcentaje para cada clasificación.

3 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA I 4


Tabla 2. Porcentaje de personas por estado civil

ESTADO CIVIL Porcentaje de personas Grados


PERSONAS POR ESTADO CIVIL
(360) x(20,83)
Casado 20,83%  74,98
12
100
(360) x(41,67)
10
Soltero 41,67%  150,01
100

Número de personas
8 (360) x(12,5)
Separado 12,5%  45
100
6
(360) x(8,33)
Viudo 8,33%  29,88
4 100
(360) x(16,67)
2 Unión Libre 16,67%  60,01
100
0
Fuente: elaboración propia
Casado Soltero Separado Viudo Union
Libre

Figura 1. Gráfico de barras Con un transportador se pueden ubicar los grados en la circunferencia para obtener el
Fuente: (elaboración propia) siguiente gráfico.

1.2.2. Gráfico circular


ESTADO CIVIL
Un gráfico circular se hace con los porcentajes. La idea es asociar los 360° de la
circunferencia con el 100%, y establecer los grados correspondientes mediante una regla
de tres simple, de la siguiente manera.
Soltero
En el ejemplo del estado civil encontramos que el 20,83% de las personas son casadas. 41%
Entonces decimos:
Separado
360° --------------------------- 100% 13%

X ____________ 20,83
Viudo
8%
(360) x(20,83)
 74,98
100 Casado Unión Libre
21% 17%
Siguiendo el mismo proceso, se calculan los grados para cada una de las modalidades de la
variable. La tabla queda de la siguiente forma:

Figura 2. Gráfico circular


Fuente: elaboración propia

5 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA I 6


Si se hace una interpretación de la tabla de frecuencias o de los gráficos, se puede decir De acuerdo a la notación anterior, para estos datos n = 40, esto significa que se preguntó
que la mayoría de las personas son solteras (41,67%), en seguida están los casados a 40 empresas sobre el número de empleados.
(20,83%) y finalmente las personas en unión libre (16,67%).
Esta información se va a organizar en una tabla que tiene cinco columnas distribuidas de
la siguiente manera.
1.3. Distribución de frecuencias para variable cuantitativa discreta
La primera columna (1) contiene los valores de la variable (Xi), que para este caso es el
Para las tablas que resumen la información de las variables cuantitativas, se va a utilizar número de empleados por empresa. Observe que en los datos originales el valor mínimo
una notación para la variable y las frecuencias que puede variar un poco con respecto a la es 8 y el máximo 14, estos valores se ordenan en forma ascendente.
que se presenta en los diferentes textos.
En la segunda columna (2) se ubica la frecuencia absoluta (ni), que corresponde a la
Nomenclatura cantidad de veces que se repite cada valor de la variable.

Esta nomenclatura es de uso universal. Para los subíndices se pueden utilizar las letras i, j, Para la tercera columna (3), se ha ubicado la frecuencia relativa (hi), esta frecuencia se
o en algunas ocasiones k. obtiene dividiendo cada frecuencia absoluta (ni) sobre el número total de datos (n), de la
siguiente manera:

Xj = valor de la variable ni
hi 
ni = frecuencia absoluta
n
hi = frecuencia relativa La cuarta columna (4) se presenta con la frecuencia absoluta acumulada N i teniendo en
cuenta que:
Ni = frecuencia absoluta acumulada
N1 = n1 la primera frecuencia absoluta coincide con la primera acumulada
Hi = frecuencia relativa acumulada
N2 = n1 + n2 = N1 + n2
Tabla de distribución de frecuencias: en esta tabla se presentan los distintos valores de la
variable en forma ordenada con las frecuencias absolutas y relativas correspondientes. N3 = n1 + n2+ n3 = N2 + n3

Ejemplo N4= n1 + n2+ n3+n4 = = N3 + n4

Se hace un estudio para determinar el número de empleados que tienen las empresas de .
una pequeña localidad en el centro de la ciudad.
.
En este caso la variable se representa como X = número de empleados por empresa,
.
medida en las empresas de una localidad.
N7= n1 + n2+ n3+n4 +n5 +n6 +n7 = N6+n7 = n
8 12 12 8 10 12 13 8 11 13
10 9 14 9 10 9 12 9 10 13
8 10 11 11 10 14 12 13 9 14
14 12 12 10 11 9 11 14 12 11 El valor de la última frecuencia acumulada coincide con el número total de datos n.

Los datos presentados reciben el nombre de datos sin agrupar o datos originales. La quinta columna (5) presenta las frecuencias relativas acumuladas Hj. Se construye de
forma similar a las frecuencias absolutas acumuladas:

7 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA I 8


H1 = h1 1.3.1. Representación gráfica tabla discreta
H2 = h1 + h2 = H1 + h2 La representación gráfica se realiza sobre el eje de coordenadas. La variable se representa
en el eje horizontal y la frecuencia en el eje vertical; se puede trabajar con frecuencias
H3 = h1 + h2 + h3 = H2 +h3 absolutas o relativas.
.. El gráfico, para los datos de la tabla del ejemplo anterior, queda así:
..

..

H7= h1 + h2+ h3+h4 +h5 +h6 +h7 = H6+h7 = 1 Frecuencia

9
Otra forma de encontrar las frecuencias relativas es con el cociente entre la frecuencia
8
absoluta acumulada y el número total de datos:
7
N
Hi  i 6
n
5
La tabla de Distribución de frecuencias se presenta entonces de la siguiente manera:

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Número de empleados por empresa.
Tabla 3. Número de empleados por empresa

Número de Número de Proporción de Número Proporción


empleados por empresas empresas acumulado de acumulada de Figura 3. Representación de los datos de variables discretas
empresa (2) (3) empresas empresas Fuente: elaboración propia
(1) (4) (5)
Xj nj hj Nj Hj
8 4 0,10 4 0,10
9 6 0,15 10 0,25
10 7 0,175 17 0,425
1.4. Distribución de frecuencias para variable continua
11 6 0,15 23 0,575 Para este tipo de variable se agrega la siguiente notación:
12 8 0,20 31 0,775
13 4 0,10 35 0,875
14 5 0,125 40 1
R = Rango ni = frecuencia absoluta
Fuente: (elaboración propia)
X máx = máximo valor de la variable hi = frecuencia relativa

Xmín = mínimo valor de la variable

X j = punto medio o marca de clase Ni = frecuencia absoluta acumulada

C = amplitud del intervalo Hi = frecuencia relativa acumulada

9 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA I 10


Para elaborar la tabla de frecuencias para variable continua, vamos a tomar la siguiente En esta fórmula n es el número de datos.
información sobre el peso (en kilos) de un grupo de 20 estudiantes con los siguientes
datos: Se espera que el número de intervalos no sea menor a 5 ni mayor a 16.

X1 =71 X5= 66 X9 = 52 X13=65 X17=76 Reemplazando en la fórmula se tiene:

X2=67 X6= 61 X 10 =82 X14=88 X18=57

X3=92 X7= 74 X 11 = 82 X15=47 X19=72 m = 1 + 3,3 log 20

X4=70 X8= 79 X12 = 55 X16=58 X20=69 m = 5,29

Se van a tener en cuenta los siguientes pasos para la construcción de la tabla. Como el número de grupos debe ser un valor entero, se deja m = 5, porque es el entero
más cercano.
1. Determinar el rango o recorrido de los datos (R). Este valor se obtiene con la
diferencia entre el valor máximo y el mínimo de los datos. 3. Calcular la amplitud del grupo, a la que llamaremos C, con la siguiente fórmula:

En el ejemplo tenemos:

Rango
C
Xmáximo= 92 Xmínimo= 47 m

El rango o recorrido de los datos es: 45


C 
5
R = 94 – 47

R = 45

El rango será entonces de 45.


C 9

2. Establecer el valor m, es decir, el número de intervalos o grupos en los que se van


a clasificar los datos.
La amplitud del intervalo es de 9.
El valor de m, se puede obtener mediante la siguiente fórmula:
Se puede comenzar a construir la tabla de frecuencias en forma similar a la tabla discreta,
pero se agrega una columna adicional para la variable presentada en intervalos.

Se inicia la primera columna con el valor mínimo de los datos (47), como Li (límite inferior)
y para el límite superior (Ls) del primer grupo se suma la amplitud C = 9.
m = 1 + 3,3 log n

11 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA I 12


Para el segundo grupo el límite inferior es el mismo valor del límite superior del grupo Observe que el límite superior de un grupo es el mismo límite inferior del siguiente. Por lo
anterior, y para el límite superior se suma la amplitud de 9. Este proceso se sigue en toda tanto, en el conteo de los datos, el valor observado se contará en un solo grupo. El criterio
la tabla. utilizado en esta tabla es que se incluye como límite superior.

Ls = Li + C Una vez establecidos los grupos o intervalos y el punto medio, se comienza a trabajar con
las frecuencias absolutas y las relativas tal como se hizo con la tabla discreta.

Primer grupo Li = 47 Ls = 47 + 9 = 56
Tabla 4. Distribución de frecuencias del peso de 20 alumnos
Segundo grupo Li = 56 Ls = 56 + 9 = 65

Tercer grupo Li = 65 Ls = 65 + 9 = 74 Peso (kilos) Peso Número de Proporción de Número Proporción


medio estudiantes estudiantes acumulado de acumulada
Cuarto grupo Li = 74 Ls = 74 + 9 = 83 estudiantes de
estudiantes
Quinto grupo Li = 83 Ls = 83 + 9 = 92 Li - Ls Xj nj hj Nj Hj
47 56 51,5 3 3/20 = 0,15 3 0,15
56 65 60,5 4 4/20 = 0,20 7 0,35
La segunda columna contiene el punto medio o marca de clase y se obtiene como: 65 74 69,5 7 7/20 = 0,35 14 0,70
74 83 78,5 4 4/20 = 0,20 18 0,90
Li  Ls 83 92 87,5 2 2/20 = 0,10 20 1
Xi 
2 Fuente: elaboración propia

El primer valor queda

47  56
Xi 
2 1.4.1. Histogramas y polígonos de frecuencia

Xi = 51,5 El diagrama de barras de una distribución de frecuencias recibe el nombre de histograma.


Es una gráfica que nos permite presentar los datos de forma tal que se pueda visualizar su
comportamiento.

De la misma forma se continúa trabajando cada punto medio hasta completar la columna. El gráfico lo situamos en el eje de coordenadas en un plano cartesiano. En el eje vertical se
representa la frecuencia, y en el eje horizontal se representan los intervalos de clase.
La tercera columna contiene la frecuencia absoluta, es decir el conteo de valores que
están en un intervalo dado. Para mejor comprensión, los datos del mismo color Las bases de los rectángulos son iguales, dado que los intervalos de clase tienen la misma
pertenecen a un grupo de la tabla. amplitud. La altura de cada rectángulo depende de la frecuencia de cada clase. Como se
trata de una variable cuantitativa continua, los rectángulos deben ir unidos. Al observar la
X1 =74 X5= 69 X9 = 47 X13=65 X17=76 gráfica se comparan las áreas de los rectángulos.
X2=67 X6= 61 X 10 =82 X14=88 X18=57 Realizamos el histograma para el ejemplo sobre el peso de los alumnos, con la distribución
de frecuencias de la tabla 4.
X3=92 X7= 71 X 11 = 82 X15=52 X19=72

X4=70 X8= 79 X12 = 55 X16=58 X20=66

13 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA I 14


PESO DE LOS ESTUDIANTES

NÚMERO DE ESTUDIANTES
7
6
5
4
3
2
1
0
51,5 60,5 69,5 78,5 87,5
PESO

Figura 6. Polígono de frecuencias


Figura 4. Ejemplo de histograma Fuente: elaboración propia
Fuente: elaboración propia

Para este tipo de variable se puede elaborar un gráfico similar al histograma, con las
Polígono de frecuencia frecuencias absolutas acumuladas (Ni). Sobre el eje vertical construimos una escala de
valores que llega hasta 20, que es la frecuencia máxima, y sobre el eje horizontal
Para la variable continua, tomando como base el histograma de frecuencias, se localizan
marcamos los valores de los intervalos. Levantamos rectángulos en donde la altura
los puntos medios y se conectan con una línea recta.
corresponde a la frecuencia absoluta acumulada. Este gráfico se llama Histograma de
Para el ejemplo del peso de los alumnos se puede construir el polígono de frecuencias Frecuencias acumuladas.
sobre el histograma. Para ello se ubican los puntos medios y se unen con una línea recta
que parte desde el eje horizontal, uniendo los puntos medios de los demás intervalos. Histograma de frecuencias acumuladas

Figura 5. Histograma de Frecuencias Figura 7. Representación de datos mediante el histograma de frecuencias acumuladas

Fuente: elaboración propia Fuente: elaboración propia

15 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA I 16


Ahora elaboramos el gráfico similar al polígono de frecuencias, pero en esta ocasión no
ubicamos los puntos medios sino el límite superior de cada intervalo. Estos puntos se 2 3 2 1 3 2 2 2 4 3 4 1 4 2 3 2 5 2 3 0 4 2 5 2 3
unen con una línea que no es exactamente una línea recta. El gráfico queda de la siguiente
forma y es conocido como ojiva.
3 2 4 3 2 4 3 2 3 0 2 3 2 1 2 3 2 2 2 3 3 1 2 2 3
OJIVA

DISTRIBUCION DE ESTUDIANTES POR PESO


Con la anterior información determine:
25
a) ¿Cuál es la población objeto de estudio? ¿Cuál es la muestra?
Número acumulado de

20
b) ¿Cuál es la variable de estudio?
estudiantes

15
c) ¿Qué tipo de variable es?
10
d) Construya la tabla de distribución de frecuencias
5
e) ¿Cuál es el número de familias que tiene como máximo 2 computadores?
0
47 56 65 74 83 94 f) ¿Cuántas familias tienen más de 1 computador, pero como máximo 3?
PESO
g) ¿Qué porcentaje de familias tiene más de 3 computadores?
Figura 8. Representación gráfica de la ojiva
Fuente: (elaboración propia)
Solución:

a) La población objeto de estudio es el conjunto de familias de una determinada ciudad.


Aquí concluimos la organización de datos con dos técnicas estadísticas, las tablas de La muestra son las 50 familias seleccionadas.
frecuencias y los gráficos estadísticos. Recuerde que el tipo de tabla o el gráfico
dependen del tipo de variable que se tenga. b) La variable que estamos estudiando es el número de computadores por familia.

A continuación se presentan algunos ejemplos sobre el material visto. c) El tipo de variable es discreta, ya que el número de computadores sólo puede tomar
determinados valores enteros.

Ejemplo 1

Se desea determinar el número de computadores por familia en una pequeña ciudad. Para
ello se han encuestado a 50 familias respecto al número de computadores que poseen, y
se han obtenido los siguientes datos:

d) Tabla 5. Distribución de frecuencias discreta

17 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA I 18


Número de Número de Número Proporción Proporción a) ¿Cuál es la población objeto de estudio?
computadores familias Acumulado de de familias acumulada
familias de familias b) ¿Qué variable estamos estudiando?
Xi Ni Ni Hi Hi
c) ¿Qué tipo de variable es?
0 2 2 0.04 0.04
1 4 6 0.08 0.12 d) ¿Qué problema plantea la construcción de la tabla de frecuencias?
2 21 27 0.42 0.54
3 15 42 0.30 0.84 e) ¿Cuántos empleados gastan entre 3,6 y 5,1 minutos?
4 6 48 0.12 0.96
5 2 50 0.04 1 f) ¿Cuántos empleados tienen un tiempo superior a 4,6 minutos?
n = 50 1
g) ¿Qué porcentaje de empleados gastan como mucho 4,6 minutos?
Fuente: elaboración propia

Solución:
e) El número de familias que tienen dos o menos computadores es 2+4+21 = 27
a) La población objeto de estudio son los empleados de una entidad financiera.
f) El número de familias que tienen más de un computador, pero tres como máximo, es
b) La variable que estamos estudiando es el tiempo.
21 + 15 = 36
c) El tipo de variable es continua.
g) El porcentaje de familias con más de 3 computadores es 0,12 + 0,04 = 0,16 =
d) El problema que plantea es que existen muchos valores diferentes; por lo tanto es
16%. bueno agrupar los datos en grupos o intervalos.
Ejemplo 2 Para la elaboración de la tabla, primero calculamos el rango de los datos
El gerente de una entidad financiera quiere determinar el tiempo (en minutos) que gastan R = máximo – X mínimo = 6.1 – 3.1 = 3
los empleados en la atención a los clientes. Los valores obtenidos son:
Aplicamos la fórmula para determinar el número de intervalos.
4,8 5,0 3,7 5,6 4,3 4,9 4,7 6,1 5,1 4,5 m = 1 + 3,3log(n)

m = 1 + 3,3log (30)
5,8 3,9 4,3 5,0 4,5 4,7 5,1 4,2 4,4 5,3
m=6
4,3 4,1 3,1 5,8 4,4 5,8 6,1 4,3 5,3 4,5
Por lo tanto se toman 6 intervalos o grupos.

Obtenemos la amplitud de grupo dividiendo el rango sobre el número de grupos, así: 3/6
3,9 5,4 4,0 4,7 3,2 4,5 4,7 4,2 6,0 3,9
= 0,5

Resuelva: Tabla 6. Distribución de frecuencias para variable continua

19 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA I 20


03
NÚMERO PROPORCIÓN PROPORCIÓN GLOSARIO DE TÉRMINOS
PRECIO PRECIO NÚMERO DE ACUMULADO DE ACUMULADA
MEDIO HABITACIONES DE HABITACIONE DE
HABITACIONES S HABITACIONES
Li - Ls xi ni Ni hi Hi Censo: recolección de datos de una población.
3,1 – 3,6 3,35 2 2 0.05 0.05
Dato: es la observación recolectada sobre la característica de interés, que puede ser en la
3,6 – 4,1 3,85 6 8 0.15 0.2
población o en la muestra.
4,1 – 4,6 4,35 12 20 0.30 0.5
4,6 – 5,1 4,85 11 31 0.25 0.75 Histograma: gráfico para representar variables continuas.
5,1 – 5,6 5,35 4 35 0.1 0.85
5,6 – 6,1 5,85 5 40 0.15 1 Muestra: parte representativa de la población.
n= 40
Población: total de personas o elementos objeto de estudio.
Fuente: elaboración propia
Polígono de frecuencias: gráfico de los puntos medios en una variable continua.

Unidad de análisis: mínima unidad de la que se registra información.


e) 29
Variable: característica observada en la población o en la muestra.
f) 20

g) 0,05+0,15+0,30=0,5 0,5*100 = 50%

21 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA I 22


REFERENCIAS
04
 Anderson, D., Sweeney, D. y Williams, T. (2004). Estadística para administración
y economía. México: Cengage Learning Editores.
 Lind, D., Marchal, W. y Wathen, S. (2012). Estadística aplicada a los negocios y la
economía. México: McGraw Hill.
 Martínez, C. (2002). Estadística y Muestreo. Bogotá: ECOE Ediciones.
 Newbold, P. (2008). Estadística para los Negocios y la Economía. México:
Prentice Hall.
 Triola, M. (2013). Estadística. México: Pearson.
 Walpole, R. y Myers, R. (2008). Probabilidad y Estadística para Ingenieros.
México: Prentice Hall.
 Webster, A. L. (2000). Estadística aplicada a los negocios y la economía. México:
McGraw Hill.

23 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA I 24


POLITÉCNICO GRANCOLOMBIANO - 2016 ©

Potrebbero piacerti anche