Sei sulla pagina 1di 13

Juan Daz Valencia. Esp. Estadstica Aplicada. E-mail jagi120@gmail.

com 25
5.0 ESTADSTICOS PARA DATOS AGRUPADOS.
Para organizar los datos a medida que el nmero de observaciones crece, es necesario condensar
ms los datos en tablas apropiadas, a fin de presentar, analizar e interpretar los resultados en
forma correcta. Entonces, se pueden agrupar los datos en clases o categoras de acuerdo con
divisiones establecidas en forma que conviene al intervalo de observaciones.
5.1 Distribucin de Frecuencias. Es una tabla de resumen en el cual los datos se colocan en
agrupamientos o categoras establecidas en forma conveniente de clases ordenadas
numricamente.
Al construir una tabla de distribucin de frecuencias, se debe tener en cuidado en la seleccionar el
nmero de clases adecuado para obtener un intervalo de clase, o ancho, conveniente y establecer
las fronteras de cada clase sin que se traslapen.
5.2 Seleccin del nmero de clases. Depende del nmero de observaciones, una mayor cantidad
de observaciones requiere un mayor nmero de clases. Sin embargo por lo general la distribucin
de frecuencias debe tener como mnimo 5 clases, pero no ms de 15.
Obtencin del Intervalo de clase. Al desarrollar una tabla de distribucin de frecuencias, es
conveniente que cada intervalo de clase tenga la misma medida o ancho.
El ancho del intervalo lo simbolizaremos con la letra i donde:
deseado _ clases _ de _ nmero
rango
i

Ejemplo 17. En la tabla 7 se muestra los rendimientos totales a un ao que alcanzaron los 59
fondos de crecimiento.
Tabla 7 de rendimientos de un fondo de crecimiento.
Rendimientos Totales a un ao de 59 fondos de crecimiento
20,4 23,8 25,6 26,2 27,6 27,7 28,3 28,6 28,8 28,9
28,9 29,3 29,3 29,5 29,9 30,1 31,5 31,6 31,6 31,8
31,9 32,1 32,3 32,3 32,4 32,8 32,9 32,9 33,0 33,3
33,4 33,7 33,8 34,0 34,0 34,3 34,7 34,7 34,8 35,0
38,2 39,0 39,4 40,7 41,1 42,8 42,9 43,3 43,4 43,5
43,6 43,7 44,6 44,7 45,4 45,7 46,6 48,0 48,6
Determine el ancho del intervalo si se desean 6 clases, construya una tabla de distribucin de
frecuencias.
Valor mnimo = 20,4
Valor mximo = 48,6
Rango = 48,6 20,4 = 28,2 7 , 4
6
2 , 28
i = =
Juan Daz Valencia. Esp. Estadstica Aplicada. E-mail jagi120@gmail.com 26
El valor de 4,7 lo aproximamos a 5,0 siempre se hace por exceso. Es necesario que se discuta que
pasa si se quieren 5, 7 u 8 clases o intervalos. Aqu cabe resaltar que tambin existen otros
mtodos para calcular el nmero de intervalos, pero se ha tomado el ms sencillo, observe como
quedan distribuidos los datos en la tabla 8.
Tabla 8 de intervalos o clases.
Rendimiento Total Frecuencia
Intervalos n
i

20 25 2
25 30 13
30 35 24
35 40 4
40 45 11
45 50 5
59
5.4 Establecimiento de las fronteras de clase. Como cada intervalo de clase se estableci en 5,0
se deben definir las fronteras para que incluyan el conjunto completo de observaciones. Estas se
deben elegir de forma tal que facilite la lectura e interpretacin de los datos. As el primer valor de
clase se puede establecer de 20,0 a menos de 25 es decir matemticamente [20.0, 25,0) que se
lee intervalo cerrado por izquierda y abierto por derecha y as sucesivamente hasta completar las
seis clases, cada una con i = 5,0 sin traslapes.
5.5 Punto Medio de clase. Tambin conocido como marca de clase, es el punto que est en la
mitad de las fronteras de cada clase y es representativo de los datos que estn en esta clase, si
tenemos que la clase esta entre 25,0 y menos de 30,0 [25.0, 30.0) la marca de clase para este
intervalo es de 27,5 que resulta de 5 , 27
2
30 25
=
+
en este mdulo simbolizaremos la marca de
clase como
i
X
5.6 Distribucin de Frecuencias Relativas. La simbolizaremos con
i
h se obtiene al dividir las
frecuencias de absolutas en cada clase de la distribucin de frecuencias entre el nmero total de
observaciones, se aclara en este aparte que la frecuencia absoluta se refiere al nmero de
observaciones que se encuentran en cada intervalo o clase, lo simbolizaremos con
i
n .
5.7 Distribucin de Frecuencia Acumulada. Se obtiene a partir de la distribucin de frecuencias
relativas o la distribucin de porcentajes, al observar la tabla 9 del ejemplo 18 se aprecia el mtodo
para su elaboracin, la simbolizaremos con H
i
.
Ejemplo 18. Para los datos del ejemplo 17 construya una tabla de distribucin de frecuencias
donde se muestre la marca de clase X
i
, las frecuencias absolutas n
i
, las frecuencias relativas hi




Juan Daz Valencia. Esp. Estadstica Aplicada. E-mail jagi120@gmail.com 27
Tabla 9 de Distribucin de frecuencias.
Rendimiento Total
Marca de
clase
Frecuencia
Frecuencia
relativa
% Frecuencia
relativa
Frecuencia
relativa
acumulada
% Frec.
relativa
acumulada
Intervalos X
i
n
i
h
i
% h
i
H
i
% H
i

20 25 22,5 2 0,034 3,4 0,034 3,4
25 30 27,5 13 0,220 22,0 0,254 25,4
30 35 32,5 24 0,407 40,7 0,661 66,1
35 40 37,5 4 0,068 6,8 0,729 72,9
40 45 42,5 11 0,186 18,6 0,915 91,5
45 50 47,5 5 0,085 8,5 1,000 100,0
59 1,000 100,0
Observe las frecuencias relativas acumuladas la celda de la primera clase no varia, la celda de la
segunda clase de la frecuencia relativa acumulada se obtiene de sumar 0,034 + 0,220 = 0,254, la
tercera celda de la tercera clase es la suma de 0,254 + 0,407 = 0,661 y as sucesivamente.
Ejemplo 19. Elabore un grafico de barras y uno poligonal con los datos del ejemplo 17.
Solucin Para elaborar un grafico de barras tendremos en cuenta la marca de clase, el grfico
realizado con Excel nos queda.
Grfica 4 de barras para rendimientos totales fondos de crecimiento.

Para elaborar el un grfico de barras como el anterior en Excel se procede as
Seale con el Mouse los valores de las frecuencias absolutas n
i
.
Luego de clic sobre el icono de Asistente para Grficos.
Al desplegarse la ventana de clic en siguiente.
De clic en la pestaa donde dice Serie
Donde dice Rtulos del eje de categoras (x): de clic en la matriz de este.
0
5
10
15
20
25
30
22,5 27,5 32,5 37,5 42,5 47,5
n
i
Xi
Rendimientos Totales a un ao de 59 fondos de
crecimiento
Juan Daz Valencia. Esp. Estadstica Aplicada. E-mail jagi120@gmail.com 28
Seleccione con el Mouse los valores de la marca de clase.
Luego de clic en siguiente.
De clic en la pestaa Ttulos, escriba los ttulos correspondientes como los del grfico 4.
De clic en finalizar.
Para realizar un grfico poligonal con la ayuda de Excel, los pasos son similares a los anteriores
pero, aqu es necesario agregar un intervalo al inicio y otro al final para poder cerrar el polgono,
observe el arreglo que se hace en la tabla 10 y la forma en que debe quedar en la grfica 5.
Tabla 10 Modificacin de la tabla para la construccin del grfico poligonal.
Rendimiento Total
Marca de
clase Frecuencia
% Frec.
relativa
acumulada
Intervalos X
i
n
i

% H
i

15 20 17,5 0 0
20 25 22,5 2 3,4
25 30 27,5 13 25,4
30 35 32,5 24 66,1
35 40 37,5 4 72,9
40 45 42,5 11 91,5
45 50 47,5 5 100,0
50 55 52,5 0
59
Grfica 5. Grfico poligonal para los rendimientos totales de fondos de crecimiento.

5.8 Histograma. El histograma es una grfica de barras verticales que se construyen en los lmites
de cada clase, se utiliza para representar las distribuciones de frecuencias.
0
5
10
15
20
25
30
17,5 22,5 27,5 32,5 37,5 42,5 47,5 52,5
n
i
Xi
Rendimientos Totales a un ao de 59 fondos de crecimiento
Juan Daz Valencia. Esp. Estadstica Aplicada. E-mail jagi120@gmail.com 29
2
13
24
4
11
5
0
5
10
15
20
25
30
20 25 30 35 40 45 50
Grfico 6. Histograma que representa la distribucin de los Rendimientos totales fondos de
crecimiento.





Si se quiere construir un histograma como el presentado en la grafica 6, Excel no lo proporciona
directamente, necesitamos proceder de la siguiente manera:
Escriba en una celda (puede ser A12) los limites de los intervalos a partir de 20 hasta 50
dejando 6 o 7 espacios entre cada nmero debe verse as: 20 25 30 35 40
45 50
Con los datos de la tabla 9 seale con el Mouse los datos de las frecuencias absolutas n
i
.
Luego presione el icono de Asistente para grficos y de clic en el botn Siguiente.
En el paso 2 de clic series en Filas.
Luego de clic en la pestaa Serie que esta en la parte superior.
Donde dice Rtulos del eje de categoras (x)
De clic en la matriz que esta al frente.
Luego de clic en la celda A12 o donde escribi los valores de los lmites.
Vuelva y despliegue la ventana.
De clic en siguiente paso 3. busque la pestaa donde dice Rtulos de datos, y de clic en el
cuadro de Valor.
Puede escribirle Ttulos etc.
Por ltimo de clic en finalizar.
5.9 Polgono Acumulado u Ojiva. Es la representacin grafica de una distribucin acumulada, se
escriben los fenmenos de inters en el eje horizontal y en el eje vertical se representa la
proporcin o porcentaje de observaciones acumuladas. Observe como queda el grfico 7 una vez
terminado, realice la grfica con los datos de la tabla 10.
Grfico 7 Ojiva o polgono de frecuencias acumuladas para los rendimientos totales de
fondos de crecimiento
Juan Daz Valencia. Esp. Estadstica Aplicada. E-mail jagi120@gmail.com 30

Tambin con ayuda de Excel se puede construir una curva suavizada de la ojiva donde nos
muestra los cambios bruscos si los hay de una distribucin de datos, cuando es normal esta se
aprecia un punto de inflexin, pero cuando la distribucin es como la del ejemplo se presenta
varios puntos de inflexin o cambios de curvatura.
0
3,4
25,4
66,1
72,9
91,5
100
0
20
40
60
80
100
120
17,5 22,5 27,5 32,5 37,5 42,5 47,5
Xi
%
H
i
Juan Daz Valencia. Esp. Estadstica Aplicada. E-mail jagi120@gmail.com 31
5.10 Ejercicios.
1 La tabla 11 muestra las alturas en centmetros de 60 rboles de pino sembrados por un
ecologista, construir la tabla de frecuencias con 7 intervalos, haga un polgono de frecuencias,
histograma y la ojiva.
Tabla 11 altura en milmetros
738 729 743 740 736 741 735 731 726 737
728 737 736 735 724 733 742 736 739 735
745 736 742 740 728 738 725 733 734 732
733 730 732 730 739 734 738 739 727 735
735 732 735 737 734 732 736 741 736 744
732 737 731 746 735 729 730 734 740 735
2 La tabla 12 muestra los puntajes del cociente intelectual (CI) de 50 estudiantes de tercer grado
de un instituto educativo, con base en estos puntajes construya una tabla de frecuencias con 7
intervalos, construya el polgono de frecuencias, el histograma y el polgono de frecuencias
acumulado, repita el ejercicio pero con 8 intervalos.
86 91 104 113 125 101 114 105 101 88
126 118 100 111 125 109 119 91 106 120
109 104 112 101 113 100 106 105 121 128
93 89 124 96 105 95 91 106 93 88
89 100 115 98 108 88 99 120 101 108

5.11 Media aritmtica para datos agrupados. El concepto es el mismo que se haba visto para
datos no agrupados, se puede considerar como el punto de equilibrio en una distribucin cuando el
tamao de la muestra es mayor de 30 observaciones.
5.11.1 Propiedades de la media aritmtica
la suma algebraica de las desviaciones de un conjunto de nmeros de su media aritmtica
es cero. En forma algebraica esta propiedad es

= 0 ) X X (
i

La media es sensible al valor exacto de todos los datos en la distribucin, una modificacin
en cualquier dato provocar un cambio en la media.
La media es muy sensible a los datos extremos.
La suma de los cuadrados de las desviaciones de todos los datos en torno a su media es
la mnima. En forma algebraica,


2
i
) X X ( es mnima. Esta propiedad establece que
aunque la suma de las desviaciones cuadradas en torno a la media no siempre es igual a
cero, es la menor si consideramos las desviaciones cuadradas en torno a cualquier otro
valor
Para un gran nmero de circunstancias, de todas las medidas utilizadas para calcular la
tendencia central, la media es la que esta menos sujeta a la variacin debido al muestreo.
(la media varia menos que las otras medidas de tendencia central) esto es importante en
la estadstica inferencial.
5.11.2 Clculo de la Media Aritmtica. Se puede utilizar la siguiente frmula para el clculo.

Juan Daz Valencia. Esp. Estadstica Aplicada. E-mail jagi120@gmail.com 32
n
n X
X
n
1 i
i i

=
= Esto si son para muestras de tamao n, o bien.
N
n X
N
1 i
i i

=
= Esto si se considera una poblacin.
Ejemplo 20. Calcule el valor de la media aritmtica para los datos del ejemplo 17.
Sol. Es necesario calcular primero los valores para cada X
i
*n
i
, esto se hace con la tabla 13:
Tabla 13 Rendimientos de un fondo financiero.
Intervalos X
i
n
i
X
i
*n
i

20 25 22,5 2 45
25 30 27,5 13 357,5
30 35 32,5 24 780,0
35 40 37,5 4 150,0
40 45 42,5 11 467,5
45 50 47,5 5 237,5

= 59

= 2037,5
53 , 34
59
5 , 2037
X = =
Lo que nos indica que el rendimiento promedio aproximado en el ao para los 59 fondos es de
34,53 unidades.
Otras medidas de posicin o tendencia central son la media geomtrica, la media armnica, media
cuadrtica y la media cbica.
5.11.3 Media Geomtrica G. La media geomtrica G de una serie de n nmeros X
i
es la raz n-
sima del producto de los nmeros
G =
n
X X X X
n 3 2 1
L para datos no agrupados
G =
i n n n
n
X X X
2
2
1
1
L para datos agrupados
Ventajas
a) Se utiliza cuando se quiere dar importancia a valores pequeos de la variable.
b) Es sensible a cualquier cambio en los valores de la distribucin.
c) Su valor es muy influenciable por los datos extremos.
d) Es muy indispensable cuando se desea sacar el promedio de una serie de valores que
estn en progresin geomtrica o aproximadamente geomtrica.

La desventaja es por los clculos matemticos.
Juan Daz Valencia. Esp. Estadstica Aplicada. E-mail jagi120@gmail.com 33
5.11.4 Media Armnica H. La media armnica H de una serie de datos X
1
. . . X
n
es la recproca
de la media aritmtica de los recprocos de los nmeros
H =

=
n
1 j
j
X
1
n
1
1
=

X
1
n
para datos no agrupados

=
i
i
X
n
n
H Para datos agrupados
La media armnica se usa especialmente cuando van a promediarse relaciones que son inversas
proporcionales como es el tiempo en relacin a la velocidad.
5.12 Ejercicios.
1 para los tems 1 y 2 del ejercicio 5.10 hallar la media aritmtica.
2 para los tems 1 y 2 del ejercicio 5.10 hallar la media aritmtica, la media geomtrica y la media
armnica y comprobar si se cumple que X G H .
5.13 La Moda.
La moda de una serie de datos es aquel valor que se presenta con la mayor frecuencia, es decir el
valor ms comn. La moda puede no existir, incluso si existe puede no ser nica.
Ejemplo 21. La serie de datos 2, 2, 3, 3, 3, 4, 5, 6, 7 tiene de moda 3
La serie de datos 15, 17, 10, 13, 11, 20. No tiene moda
La serie de datos 2, 3, 5, 6, 6, 6, 8, 8, 9, 10, 10, 10. Tiene dos modas se conoce como bimodal
Una distribucin que tiene una sola moda se llama unimodal, en el caso de datos agrupados donde
se ha construido una curva de frecuencias, para ajustar los datos, la moda ser el valor o valores
de X correspondientes al mximo de la curva, este valor se representa por X

.
La formula a utilizar es la siguiente i L x
2 1
1
i

+ = donde
L
i
= lmite real inferior de la clase modal
1
= Exceso de la frecuencia modal sobre la frecuencia de clase contigua inferior
2
= Exceso de la frecuencia modal sobre la frecuencia de clase contigua superior
i = tamao del intervalo.
Juan Daz Valencia. Esp. Estadstica Aplicada. E-mail jagi120@gmail.com 34


RS
OT
PQ
OU
= o tambin
2
2
1
1
X

L L X


2 1
1 2 2 1
L L
X

+
+
= y como L
2
= + i se tiene que
i L x
2 1
1
i

+ =
5.13.1 Ventajas de la moda.
En series polimodales, la moda permite dividir la distribucin con fines de estratificacin
La moda indica el punto de mayor concentracin, si la distribucin es muy asimtrica, entonces la
moda es el dato ms representativo.
5.13.2 Desventajas.
La moda no es sensible a cambio de valores de la distribucin, a menos que afecte su
propio valor.
La moda es muy inestable en el muestreo.
En series agrupadas el clculo de la moda no es muy confiable.
5.14 Clculo de la Mediana para datos AGRUPADOS. La mediana se calcula por interpolacin y
viene dada por

i
f
) f (
2
n
L Me
Me
i
i


+ =

Donde L
i
= Lmite real inferior de la clase que contiene a la mediana (es decir, la clase que
contiene a la mediana)
n = nmero total de datos (es decir, frecuencia total)
Juan Daz Valencia. Esp. Estadstica Aplicada. E-mail jagi120@gmail.com 35

i
) f (
= suma de todas las frecuencias de todas las clase por debajo de la mediana
f
Me
= frecuencia de la clase mediana
i = tamao del intervalo de la clase Mediana.
Geomtricamente, la mediana es el valor de X(abscisa) que corresponde a la vertical que divide a
un Histograma en dos partes de igual rea. En otras palabras representa el 50% de los datos, Para
calcular la mediana es necesario ordenar los datos
5.14.1 Propiedades de la mediana.
La mediana es menos sensible que la media a los datos extremos
Bajo circunstancias usuales, la mediana est ms sujeta a la variabilidad de la muestra que
la media.
Con la ecuacin utilizada para hallar la mediana es posible encontrar cuartiles, deciles y
Percentiles interpolado algunos trminos.
5.14.2 Clculo del cuartil uno. Lo simbolizaremos con Q
1
y representa el primer 25% de los datos
ordenados.
i
f
f n
Li Q
Q
i
*
) ( 25 , 0
1
1


+ =


Donde L
i
= Lmite real inferior de la clase que contiene a Q
1
(es decir, la clase que contiene al
cuartil uno)
n = nmero total de datos (es decir, frecuencia total)

i
) f (
= suma de todas las frecuencias de todas las clase por debajo del cuartil uno
f
Q1
= frecuencia de la clase del cuartil uno
i = tamao del intervalo de la clase del cuartil uno.
5.14.3 Clculo del cuartil tres. Lo simbolizaremos con Q
3
y representa el primer 75% de los datos
ordenados.
i
f
f n
Li Q
Q
i
*
) ( 75 , 0
3
3


+ =


Donde L
i
= Lmite real inferior de la clase que contiene a Q
3
(es decir, la clase que contiene al
cuartil tres)
n = nmero total de datos (es decir, frecuencia total)
Juan Daz Valencia. Esp. Estadstica Aplicada. E-mail jagi120@gmail.com 36

i
) f (
= suma de todas las frecuencias de todas las clase por debajo del cuartil tres.
f
Q1
= frecuencia de la clase del cuartil tres
i = tamao del intervalo de la clase del cuartil uno.
De manera similar se puede calcular deciles y Percentiles, tambin es conveniente tener en cuenta
que la mediana es lo mismo que el cuartil dos Q
2
, o es igual al decil cinco D
5
que es lo mismo que
el Percentil 50 P
50
.
Ejemplo 22. Considere la tabla 14 y encuentre la media, mediana, posteriormente halle los
cuartiles el P
10
P
35
P
60
y P
90
.
Tabla 14 Calculo de la mediana.
Intervalos n
i
X
i
n
i
* X
i

120 127 4
127 134 9
134 141 13
141 148 15
148 155 5
155 162 4
= 50
Para calcular la mediana hallamos:
1 n 5 , 0
2
n
= = 0,5*50 = 25
2 ubicamos en cul intervalo se encuentran las 25 primeras observaciones, en este caso, se
ubica la clase mediana en el tercer intervalo 134 - 141 puesto que si sumamos 4 + 9 + 13 = 26.
3 Hallamos el valor para L
i
. en este caso el limite inferior corresponde a 134, a este valor se le
resta media unidad es decir 0,5, lo que nos queda: L
i
= 134 0,5 = 133,5
4 hallamos
i
) f (
= 4 + 9 = 13
5 f
Me
= 13
6 i = 7
Una vez identificados los trminos de la ecuacin que determinan la mediana aplicamos la frmula.
7
13
13 25
5 , 133 Me


+ = = 140 96 , 139

Juan Daz Valencia. Esp. Estadstica Aplicada. E-mail jagi120@gmail.com 37
El anterior resultado nos indica que el 50% de las observaciones se encuentra entre 120 y 140.
5.15 Ejercicio
1 Para el ejemplo 22 calcule Q
1
, Q
2
, Q
3
, P
10
P
35
P
60
y P
90
interprete cada uno de los resultados.
2 Para la tabla 14 del ejemplo 22 calcule el valor de la moda.
3 La tabla 15 contiene las calificaciones obtenidas en un examen de ingles de segundo ao.
Tabla 15 calificaciones de Ingles entre 0 y 100 puntos
60 94 75 82 72 57 92 75 85 77 91
72 85 64 78 75 62 49 70 94 72 84
55 90 88 81 64 91 79 66 68 67 74
45 76 73 68 85 73 83 85 71 87 57
82 78 68 70 71 78 69 98 65 61 83
84 69 77 81 87 79 64 72 55 76 68
84 69 77 81 87 79 64 72 55 76 68
93 56 67 71 83 72 82 78 62 82 49
63 73 89 78 81 93 72 76 73 90 76
Para los datos de la tabla 15 realice lo siguiente:
A. Construya una tabla de frecuencias con 8 intervalos.
B. Construya el polgono de frecuencias, el histograma y la ojiva.
C. Calcule el valor de la media, la mediana, la moda e interprete cada uno de los resultados.
D. Construya un diagrama de caja o Box Plot.
E. Calcule P
10
y el P
90
, interprete estos valores.
F. Construya una tabla de resumen en Excel donde muestre: valor mnimo, valor mximo,
rango, rango medio, eje medio, media aritmtica, moda, mediana, construya los grficos
del literal B, compare los resultados obtenidos.

Potrebbero piacerti anche