Sei sulla pagina 1di 8

ESTADSTICA DESCRIPTIVA I

1.

Anlisis de datos
Con mucha frecuencia contamos con informacin numrica de toda una poblacin
y necesitamos algn mtodo para poder obtener un resumen prctico y
significativo.
Por ejemplo podemos tener un listado de los sueldos o salarios de 1,000
trabajadores de una fbrica, en este listado adems de los nombres de los
trabajadores nos encontramos con una cantidad similar de cifras que pueden ser
entre los $300, $450, $500 y otras ms; pero tambin podemos tener un listado
con la informacin referida a los precios de venta de 2,000 casas en la gran Lima
o tal vez los puntajes obtenidos por los 4,000 postulantes a la Universidad
Catlica, etc.
Tener informacin en esta forma no nos es de inters, debido a que es difcil
llegar a una conclusin adecuada con un listado tan grande de datos.
Pero para hacer frente a este problema contamos con tres tcnicas descriptivas
que son:
a. Agrupar la informacin por categoras, llamadas distribuciones de
frecuencia, las cuales pueden ser presentadas en tablas, grficos y ploteos.
b. Una segunda tcnica es la buscar una medida de tendencia central, un
ejemplo de esta medida es el promedio que hemos calculado durante tantos
aos.
c. Y por ltimo buscaremos y mediremos el grado en el cual los nmeros
(observaciones) varan hacia arriba o hacia abajo respecto al promedio, a
esta tcnica se le conoce como medida de dispersin.

2. Distribucin de frecuencias. Construccin de una tabla de distribucin de


frecuencias
Como ya nos hemos podido dar cuenta la informacin estadstica puede estar
compuesta por un gran nmero de observaciones, y mientras mayor sea este
nmero se vuelve ms necesario y conveniente que esta informacin sea
presentada en forma resumida, en este resumen tal vez vayamos a omitir algunos
datos, pero tambin estaremos seguros que revelaremos su naturaleza general. A
este resumen se le conoce con el nombre de distribucin de frecuencias.
Estas distribuciones de acuerdo a los datos que resume pueden ser:
a. De atributos, en este caso su construccin es muy simple, basta con
enumerar o listar los diversos atributos que sean reconocidos, con su
respectiva frecuencia de ocurrencia, o dicho de otra manera las veces que se
repite cada atributo. Veamos un ejemplo, en un aula de la asignatura de
estadstica de 30 alumnos se les consult acerca del rea de especializacin
en
la
que
les
gustara
desempearse,
contestando
de
la
siguiente
forma:
Contabilidad,
Contabilidad,
Logstica,
Mercadeo,
Administracin, Administracin, Mercadeo, No sabe, Contabilidad,
Administracin, Finanzas, Contabilidad, Mercadeo, Finanzas, Logstica,
Contabilidad, Finanzas, Finanzas, Logstica, Contabilidad, Mercadeo,
Logstica, mercadeo, contabilidad, contabilidad, contabilidad, mercadeo,
administracin, no sabe, finanzas.

Vista de esta manera no es significativa la informacin, pero la podemos


resumir en la siguiente tabla de frecuencia:
rea de Especialidad
Administracin
Contabilidad
Finanzas
Logstica
Mercadeo
No sabe
Total

Nmero de alumnos
4
9
5
4
6
2
30

rea de Especializacin de 30 Alumnos de una clase de Estadstica


Esta Tabla puede ser representada grficamente mediante un diagrama de barras
que veremos ms adelante.
b. De variables, la construccin de una distribucin de frecuencias de variables
es un poco ms difcil, pero guarda el mismo principio de agrupacin. La
dificultad se presenta debido a la gran cantidad de cifras o valores que asumen
las variables, por lo cabe la posibilidad de llegar a confeccionar resmenes sin
significado si no tenemos los conceptos claros.
La dificultad del resumen de un conjunto de variables, se puede superar si
agrupamos los diversos valores en un nmero reducido de clases llamadas
intervalos de clase.
Debemos evitar crear intervalos de clase superpuestos, pues incurriramos en
una doble contabilidad de datos.
Al punto medio entre dos extremos de clase consecutivas se le denomina
frontera superior, en el caso del primer intervalo y frontera inferior en el caso
del segundo. Con la finalidad de evitar ambigedades las fronteras se expresan
con una cifra decimal adicional de como estn expresadas las variables.
La diferencia entre la frontera superior e inferior de una clase se denomina
amplitud de clase.
El punto medio entre los dos extremos (fronteras) de una clase se llama marca
de clase. Al nmero de variables incluidas dentro de un intervalo de
clase se conoce como frecuencia de clase. Los siguientes son los saldos
en cientos de nuevos soles de 100 cuentas pendientes de cobrar de la tienda
Beta.
31, 38, 41, 52, 59, 69, 83, 78, 74, 77, 56, 69,
34, 33, 92, 74, 68, 83, 49, 34, 78, 48, 34, 50,
68, 77, 84, 41, 40, 38, 76, 99, 38, 94, 48, 55,
49, 54, 60, 62, 59, 68, 51, 87, 53, 69, 64, 61,
63, 78, 46, 74, 69, 39, 60, 35, 79, 80, 71, 65,
37, 60, 43, 51, 61, 71, 58, 83, 94, 66, 65, 64,
95, 92, 81, 38, 60, 67, 50, 86, 70, 80, 95, 98,
42, 70, 88, 94, 85, 51, 57, 54, 46, 46, 76, 55,
66, 73, 75, 64.
Construyamos una distribucin de frecuencias con los datos anteriores.
Lo primero ser decidir cul, va a ser el nmero o cantidad de clases. Este
nmero no deber ser ni muy grande ni muy pequeo, el primero sera

demasiado detallado y el segundo podra ocultar la naturaleza general de los


datos.
Una regla general es que el nmero de clases debe encontrarse entre 5 y 20.
Pero adems contamos con una regla matemtica llamada de Sturges (debido a
su creador), la cual nos puede dar una aproximacin del nmero de clases que
requerimos. Esta regla dice:
NUMERO DE CLASES = 1 + 3 . 3 LOG N
N = Nmero de observaciones o datos
Para nuestro ejemplo tendremos:
# Clases = 1 + 3.3 log (100)
= 1+3.3*2
= 1+6.6=7.6 Clases
Para nuestra construccin escogeremos 7 clases. Lo segundo ser calcular
cul ser la amplitud de la clase, esta amplitud ser la misma para todas las
clases, su valor aproximado se halla mediante la siguiente formula:
AMPLITUD DE CLASE = VALOR MXIMO - VALOR MNIMO
# DE CLASES
En nuestro caso tendremos:
Ampl. = (99 -31) / 7 = 9.7
Para facilitar nuestro clculos, y como regla general debemos seleccionar cifras
de fcil manejo, en este caso elegimos una amplitud de 10. El siguiente paso
es determinar el extremo inferior de la primera clase. La menor cifra de
nuestros datos es S/.31, luego el extremo inferior podr ser 31 o menos, por
facilidad de manejo seleccionamos como extremo inferior a 30.00.
Ahora procederemos a determinar la frontera inferior de la clase, recordemos
que las fronteras se expresan con un decimal adicional, luego la frontera
inferior de la primera clase ser el punto medio entre 29 y 30, es decir 29.5. La
frontera superior se determinar sumando a la frontera inferior la amplitud
clase:
FRONT. SUP. = 29.5 + 10 = 39.5
De lo que podemos deducir que el extremo superior de la clase ser 39.
Los extremos y fronteras de las clases siguientes se obtienen sumando la
amplitud de clase. La marca de clase como sabemos es el punto medio entre
extremos o fronteras, para la primera clase ser:
(30 + 3 9 ) / 2 m 34.5
(29.5 + 39.5) / 2 = 34.5
Construidos los intervalos contaremos el nmero de cuentas por cobrar
incluidas en cada uno de estos, obteniendo las frecuencias absolutas
de los intervalos. La tabla completa ser:
Interv.
30-39
40-49
50-59
60-69

Amplit.
10
10
10
10

F.Inf.
29.5
39.5
49.5
59.5

F.Sup.
39.5
49.5
59.5
69.5

Marca
34.5
44.5
54.5
64.5

Frec.
11
12
16
23

70-79
80-89
90-99

10
10
10

69. 5
79.5
89.5

79.5
89.5
99.5

74.5
84.5
94.5

17
11
10

Una tabla an ms resumida y general ser:


Intervalo
30-39
40-49
50-59
60-69
70-79
80-89
90-99

Frecuencia
11
12
16
23
17
11
10

Tabla de Dist. de Frecuencias de Cuentas. por cobrar Tienda Beta. Esta tabla
la podemos representar grficamente mediante un histograma.
c. De frecuencias acumuladas, una distribucin de este tipo permite identificar
la cantidad de observaciones acumuladas incluidas bajo la frontera superior
de cada una de las clases de la distribucin.
Podemos determinar la frecuencia acumulada para una clase, agregando la
frecuencia absoluta u observada para esa clase a la frecuencia acumulada de
la clase inmediata anterior. En nuestro ejemplo la tabla de distribucin de
frecuencias acumulada ser la que se muestra a continuacin:
Intervalo
30-39
40-49
50-59
60-69
70-79
80-89
90-99

3.

Front. Sup.
Frec. Abs.
39.5
11
49.5
12
59.5
16
69.5
23
79.5
17
89.5
11
99.5
10

Frec. Acum.
11
11
23
39
62
79
90

+ 12 = 23
+ 16 = 39
+ 23 = 62
+ 17 = 79
+ 11 = 90
+ 10 = 100

Anlisis grfico
Los resultados obtenidos anteriormente tambin pueden ser presentados de
manera grfica, un grfico hace ms fcil la comparacin del tamao relativo de
cada una de las clases.
En nuestro medio las presentaciones grficas ms empleadas son:
-

Histograma
y
polgono
de
frecuencias, un histograma no es ms
que una grfica de barras de una distribucin de frecuencias, en la cual las
fronteras de cada clase se representan sobre el eje horizontal, X o de la
abscisas, formando el ancho de cada barra. Para completar el grfico las
frecuencias de cada clase se representa en el eje e vertical, Y o de las
ordenadas, conformando la altura de cada barra.
En el caso de un polgono de frecuencias, este es la grfica lineal de una
distribucin de frecuencias. En este caso los ejes funcionan en forma similar,
sino que ahora en el eje horizontal se representan las marcas de cada clase y
sobre el eje vertical se representa la frecuencias de la clase, esto nos forma un

punto por clase, para terminar la grfica unimos estos puntos con segmentos
de recta, formndose una figura de varios lados o polgono.
Para el ejemplo de la Tienda Beta el histograma y polgono de frecuencias son
los que se presentan a continuacin.
-

Curvas de frecuencias, esta grfica no es otra cosa que un polgono de


frecuencias pero suavizado. Estas curvas poseen algunas caractersticas
particulares respecto a su simetra y achatamiento (sesgo y curto sis) que
trataremos ms adelante.

Ojiva, como ya lo hemos mencionado la grfica resultante de una distribucin


de frecuencias acumuladas es una ojiva.
Si una grfica de este tipo es suavizada obtendremos una curva ojiva.
La grfica de nuestro ejemplo ser como la que se muestra.

Barras, una grfica o diagrama de este tipo muestra cantidades de frecuencia


para diferentes categoras de datos u observaciones. La diferencia entre una
grfica de barras y un histograma es que este se refiere siempre a datos de
una distribucin de frecuencias, mientras que las barras ilustran cantidades
para cualquier tipo de categoras.
Una grfica de barras y componentes incluye subdivisiones de las barra
(diferentes tipos), Tambin cuando las categoras que se representan son
tiempos, podemos emplear una grfica de lnea, la cul mediante segmentos
ilustra los cambios respecto al tiempo. Ejemplos de estos grficos son los
siguientes, de acuerdo a los datos de la tabla que representan las ventas por
estacin de la tienda deportiva XYZ.
Ventas por estacin Tienda XYZ
(en US$)

Artculo
Golf
Tennis
Bsquet
Ftbol
Total

Primavera
4200
4700
3000
2900
14800

Verano
4700
6000
8200
2900
21800

Otoo
3700
4500
4400
4100
16700

Invierno
3200
3300
4100
7600
18200

Pastel o Pie, las grficas denominadas as son apropiadas especialmente


para ilustrar divisiones de una cantidad total, como pueden ser la distribucin
de ventas, ingresos o egresos de una determinada empresa. Esta misma
grfica pero en porcentajes es la ms usada, y nos permite de una manera
muy sencilla y rpida efectuar comparaciones de los datos. Empleando los
datos del cuadro anterior podemos obtener la participacin de cada uno de los
artculos en las ventas sea por estacin o anuales, pudiendo determinar cul
es la estacin ms productiva en trminos nominales.