Estadística Descriptiva Con Excel 2016 y Megastat PDF

ESTADISTICA DESCRIPTIVA CON
EXCEL 2016 Y EL COMPLEMENTO

MEGASTAT
DAGOBERTO SALGADO HORTA
pág. 1 Dagoberto Salgado Horta

INTRODUCCIÓN
Según Allen (1996), Chao (1996), Yule y Kendal (1986) y Rivas González (1993) la
estadística es una ciencia (otros investigadores la consideran como un conjunto de
métodos) que se encarga de la recolección, clasificación, presentación,
organización, análisis e interpretación de un conjunto de fenómenos, (naturales,
económicos, políticos o sociales) de manera metódica y numérica, que permitan
extraer conclusiones de un hecho, en un momento determinado y así poder tomar
decisiones valederas. De acuerdo con la definición anterior la estadística se encarga
de la recolección, clasificación, análisis e interpretación de un conjunto de datos en
una investigación determinada. Según, algunos investigadores la estadística, es
una rama de las matemáticas que se ocupa de reunir, organizar y analizar datos
numéricos y que ayuda a resolver problemas como el diseño de experimentos y la
toma de decisiones. También, se puede decir que es una rama de las matemáticas
que utilizando un conjunto de métodos y técnicas se encarga de la recolección,
organizar, presentación, analizar e interpretación de datos naturales, económicos,
políticas, sociales, etc, para presentar los resultados obtenidos y sacar conclusiones
válidas basadas en dicho análisis y así poder tomar una decisión. La función
principal de la estadística es elaborar principios y métodos que ayuden a tomar
decisiones frente a la incertidumbre. En realidad, muchos autores definen la
estadística actualmente como un método de toma de decisiones frente a la
incertidumbre. La estadística puede presentar conclusiones referentes únicamente
al grupo estudiado, o puede generalizarlas para grupos mayores.
La estadística es una ciencia que soporta la mayoría de estudios en cualquiera de

los campos particulares de la ciencia. Decisiones empresariales, son apoyadas el
análisis estadístico, inferencias en todo tipo investigaciones de las diferentes áreas
del conocimiento y soporte de muchos análisis financieros, son algunos de sus
aportes. De la misma forma todas las ciencias se benefician del uso de la informática
para tener mayor rapidez en el desarrollo de sus procesos, la estadística como tal
no se escapa de esta influencia por los grandes volúmenes de información que se
manejan y por ello en el mercado se presentan diferentes softwares estadísticos.
No obstante, aun con la existencia de muchos programas estadísticos, la gran
mayoría presentan inconvenientes por altos costos en sus licencias.
Es por ello que se ha pensado en una herramienta de fácil acceso y manejo de
datos como lo es la plantilla cálculo Excel 2016 y el complemento Megastat
programado por el Doctor Orris para solucionar estos inconvenientes.
El libro explica detalladamente la utilización de plantillas de cálculo de Microsoft
Excel en técnicas estadísticas básica en la investigación, como también el manejo
de la macro Megastat como complemento a la misma hoja de cálculo.
En la mayoría de las explicaciones se toma como referencia la base de datos

correspondiente a una encuesta realizada a 500 trabajadores de una empresa que
llamaremos ABC, y que se puede bajar en el siguiente link:
http://www.estadisticacondago.com/index.php/aplicaciones-excel-mainmenu-101

Esta base de datos contiene información de 500 empleados de la empresa ABC, en 10
variables como son:
SEXO = sexo del empleado

EDAD = edad del empleado, expresada en años
EDUCACION = años de educación
FUNCION = función que ocupa dentro de la empresa
SALARIO = salario anual (miles de pesos)
SERVICIO = años de servicio
EXPERIENCIA = experiencia (años)
ESTADO = estado civil del empleado
HIJOS = número de hijos del empleado
ESTRATO = estrato social del empleado

1. CONCEPTOS FUNDAMENTALES
1.1 CONCEPTO DE ESTADÍSTICA Y SU CLASIFICACION
Estadística: se ocupa de los métodos y procedimientos para recoger, clasificar,

resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad
e incertidumbre sea una causa intrínseca de los mismos; así como de realizar
inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en
su caso formular predicciones.
Podríamos por tanto clasificar la Estadística en descriptiva, cuando los resultados

del análisis no pretenden ir más allá del conjunto de datos, e inferencial cuando el
objetivo del estudio es derivar las conclusiones obtenidas a un conjunto de datos
más amplio.
Clasificación de la Estadística
Estadística Ciencia que recoge y organiza datos de forma

sistemática. Datos numéricos sistemáticamente
recolectados y organizados.
Estadística descriptiva Organización de los datos en tablas y gráficas. Se

encarga de establecer los parámetros que definen
una población.
Estadística matemática Comparación de medidas calculadas mediante

distribuciones de probabilidades:
Estadística no Pruebas estadísticas aplicadas cuando se supone

paramétrica que los datos "no" se distribuyen normalmente.
Estadística paramétrica Pruebas estadísticas aplicadas cuando se supone

que los datos se distribuyen normalmente.
Población: Conjunto de individuos u objetos de interés o medidas obtenidas a partir

de todos los individuos u objetos de interés.

Muestra: Porción o parte de la población de interés. También se puede decir que
es una colección de unidades de muestreo seleccionados de un marco muestral o
de varios marcos muestrales. Al número de elementos de la muestra se denota por
“n”. Una muestra tiene las siguientes características:
a. Es representativa.
b. Es adecuada.
Para la determinación del tamaño de muestra se utilizan técnicas de muestreo
donde dependiendo de esta, se utiliza correctamente las fórmulas adecuadas.
Muestreo: Es una técnica estadística por la cual se realizan inferencias o
generalizaciones para una población examinando solo una muestra de ella. Es una
técnica empleada para seleccionar elementos de una población.
Su propósito es proporcionar diferente tipo de información estadística de naturaleza
cuantitativa o cualitativa. Por su gran importancia los investigadores lo utilizan en
los diferentes campos de saber y también lo usamos en la vida diaria.
Unidad de estudio: Es el animal persona o cosa de quien se dice algo. Es el

elemento quien nos va a dar la información. Es el individuo u objeto del cual se
toman las mediciones u observaciones.
Ejemplos: Un docente, un auxiliar de educación, un votante, una factura, una
empresa, una botella de cerveza, una universidad, una vaca, una gota de sangre,
etc.
Observaciones: Estadísticamente son los datos que se recolectan para un estudio.

Una observación o dato es cuando una variable en sí toma un valor específico.
Variables: Las variables son magnitudes que pueden tener un valor cualquiera de
los comprendidos en un conjunto de valores de un estudio o investigación
determinada. Son todos aquellos datos u observaciones que pueden ser
expresados mediante números, es decir, son características de una población
determinada, susceptible de medición.
Tipos de variables: Existen dos tipos básicos de variables: 1) cualitativas y 2)

cuantitativas. Cuando la característica que se estudia es de naturaleza no numérica,
recibe el nombre de variable cualitativa o atributo. Algunos ejemplos de variables
cualitativas son el sexo del empleado, función que ocupa dentro de la empresa,
estado civil del empleado, estrato social del empleado. Cuando la variable que se
estudia aparece en forma numérica, la variable se denomina variable cuantitativa.
Ejemplos de variables cuantitativas son edad del empleado expresada en años,
años de educación, salario anual (miles de pesos), años de servicio, experiencia
(años), número de hijos del empleado. Las variables cuantitativas pueden ser
discretas o continuas. Las variables discretas adoptan sólo ciertos valores y
existen vacíos entre ellos. Ejemplos de variables discretas son años de educación,
número de hijos del empleado. Las observaciones de una variable continua toman
cualquier valor dentro de un intervalo específico. Ejemplos de variables continuas
son edad del empleado expresada en años, salario anual (miles de pesos), años de
servicio, experiencia (años).

Niveles de medición: Los datos se clasifican por niveles de medición. El nivel de
medición de los datos rige los cálculos que se llevan a cabo con el fin de resumir y
presentar los datos. También determina las pruebas estadísticas que se deben
realizar. Existen cuatro niveles de medición: nominal, ordinal, de intervalo y de
razón. La medición más baja, o más primaria, corresponde al nivel nominal. La más
alta, o el nivel que proporciona la mayor información relacionada con la observación,
es la medición de razón. En el caso del nivel nominal de medición, las
observaciones acerca de una variable cualitativa sólo se clasifican y cuentan. No
existe una forma particular para ordenar las categorías. El nivel inmediato superior
de datos es el nivel ordinal, sus categorías requieren de un orden, sin embargo, no
es posible distinguir la magnitud de las diferencias entre los grupos. El nivel de
intervalo de medición es el nivel inmediato superior. Incluye todas las
características del nivel ordinal, pero, además, la diferencia entre valores constituye
una magnitud constante, la razón entre dos números no es significativa y el punto
cero no tiene sentido. El nivel de razón es el más alto. Posee todas las
características del nivel de intervalo, aunque, además, el punto 0 tiene sentido y la
razón entre dos números es significativa.

2. DISTRIBUCION DE FRECUENCIA
El Análisis Exploratorio de datos, antiguamente llamado Estadística Descriptiva,

constituye lo que la mayoría de las personas entiende como Estadística, e
inconscientemente se usa a diario. Consiste en resumir y organizar los datos
colectados a través de tablas, gráficos o medidas numéricas, y a partir de los datos
resumidos buscar alguna regularidad o patrón en las observaciones (interpretación
de los datos).
2.1. Distribución de Frecuencias
Cuando la información que se tiene es un gran volumen, resulta muy conveniente

ordenar y agrupar los datos para manejarlos de acuerdo a la distribución de
frecuencias la cual consiste en agrupar los datos por categorías para variables
cualitativas o en clases que estarán definidas por un límite mínimo y uno máximo
de variación, mostrando en cada clase el número de elementos que contiene o sea
la frecuencia.
La ordenación de datos en cuadros estadísticos, denominada forma tabular o
tabulación, están constituidos por datos cuantitativos y éstos a su vez están en filas
y columnas de acuerdo con las especificaciones de los datos. La tabulación es una
presentación sistemática de los datos estadísticos de una investigación
determinada, estos se presentan en forma resumida a través de las tablas o cuadros
estadísticos.
Cuadros estadísticos: Son esquemas organizados en los que se registran los
datos estadísticos en forma organizada con la frecuencia de cada uno de estos, los
mismos se observan en columnas y filas con la finalidad de presentar la información
recopilada de una investigación o estudio determinado. Por lo tanto, los cuadros
estadísticos es una ordenación de datos numéricos en filas y columnas con las
especificaciones correspondientes acerca de la naturaleza de los datos. Constituye
una forma útil de presentar los datos estadísticos obtenidos en una investigación a
través de cuadros, tablas y gráficos. Esta puede presentar la información para
referencias generales o para un uso específico o particular.
Los cuadros estadísticos están compuestos por las siguientes partes:
título: ¿Qué son los datos incluidos en el cuerpo de la tabla?, ¿Dónde está el área
representada por los datos?, ¿Cómo están los datos clasificados?, ¿Cuándo
ocurrieron los datos?
Concepto o Columnas Matriz: La descripción en hilera de la tabla son llamados
conceptos; y estos son colocados al lado izquierdo de la tabla. La naturaleza de las
clasificaciones es indicada por los encabezados de las columnas, incluyendo la
columna matriz.

Cuerpo del cuadro: El cuerpo del cuadro es la parte que contiene los datos
estadísticos presentados en éste. Cada dato individual ocupa en el cuadro un lugar
que corresponde a la intersección de una fila y una columna dada; por tanto, el
significado de los datos en un lugar está indicado por las especificaciones o partidas
combinadas de la columna y la fila que se interceptan.
Fuentes: Las fuentes de datos o simplemente fuentes, es usualmente escrita
debajo de las notas de pie. Si los datos fueron recopilados y presentados por la
misma persona, es costumbre no establecer la fuente en la tabla. El objeto de la
indicación de las fuentes de los datos es el de proporcionar el debido reconocimiento
a la persona u organismo que recopiló y /o publicó los datos, además de indicar, a
quienes deseen ampliar la información, el origen de la misma.
2.2. Representación Gráfica
El patrón de variación de los datos puede apreciarse mejor representando

gráficamente la información contenida en el cuadro. Son expresiones en forma de
figura, de información originada de un conjunto de datos estadísticos, que explican
un fenómeno determinado. Son descripciones de operaciones y demostraciones
que se representan por medio de figuras o signos, los mismos se realizan con los
valores de los cuadros estadísticos. En otras palabras, es una representación de la
relación entre variables, que se realiza en un plano determinado.
El fin que persigue todo gráfico es el de dar una idea rápida de la situación que en
ese momento se está investigando. Por tal motivo, la presentación de los datos por
medio de gráficos debe ser de una forma simple y de una compresión fácil. Es
preferible construir un conjunto de gráficos en donde cada uno de ellos presente un
aspecto sencillo de una situación determinada, que presentar un solo gráfico en el
cual se observen demasiadas relaciones que se haga difícil estudiar de una forma
efectiva. Por lo tanto, no debe sobrecargarse un gráfico para tratar de mostrar
demasiadas categorías, ya que, la simplicidad es una de la característica básica de
estos.
Partes de un gráfico estadístico
• Numeración.
• Título: Aquí se señala la población en estudio y la variable de interés.
• Diagrama: está dado por el propio dibujo, el cual representa el
comportamiento de los datos.
• Escalas y/o leyendas: Son indicadores donde se precisa la correspondencia
entre los elementos del gráfico y la naturaleza de las medidas representadas.
• Fuente: Aquí se señala el cuadro de frecuencias que permitió obtener el
respectivo gráfico.

Criterios para construir gráficos
• No existe una regla específica para la construcción de gráficos, pero si es

posible considerar algunas recomendaciones o criterios.
• Se emplea una diversidad de gráficos, cuya estructura o forma dependerá
del tipo de variable que se está estudiando.
• Este gráfico debe tener rasgos simples y de fácil comprensión.
Existe una gran variedad de tipos de gráficos entre los que se pueden mencionar
los pictogramas, cartogramas, de cuadrados, de triángulos y círculos
proporcionales, de sectores circulares, de barras, lineales, estereogramas, polares,
etc., pero los más utilizados y de interpretación sencilla son los: Los gráficos de
barras, los de sectores circulares y los lineales. Solo se estudiarán las siguientes
gráficas:
1.- Diagrama de Líneas.

2.- Diagrama de Barras.
3.- Diagrama Circular o de Pastel.
4.- Histograma.
5.- Polígono de Frecuencia.
6.- Polígono Acumulativo (OJIVA).
Los diagramas de líneas, el histograma, el polígono de frecuencia y la ojiva son

gráficos cartesianos porque para su construcción requieren del plano cartesiano, a
estos se le denominan en términos generales gráficos de líneas. El diagrama de
barras y el de pastel se les denomina gráficos de sectores, puesto que, no requieren
del plano cartesiano para su construcción.
Cabe aclarar que tanto las tablas como los gráficos deben acatar las órdenes según
el tipo de norma con las que se trabaje, ya sea Icontec, Apa, Vancouver, etc.
El objetivo que corresponde ahora es presentar los principales procedimientos de

Análisis Exploratorio de datos, en cuanto a su parte tabular y gráfica, para algunas
de las distintas variables de la base de datos mencionada anteriormente, tanto en
la plantilla de cálculo Excel, como en el complemento Megastat.
Los procedimientos fueron realizados utilizando Microsoft Excel 2016, aunque son
Muy parecidos a los de otras versiones de esta hoja de cálculo de Microsoft Office.
2.3. Instrucciones para las variables cualitativas

Cuando se quiere realizar un análisis descriptivo en donde únicamente se toman
variables cualitativas, lo más habitual es construir tablas de frecuencia para cada
variable individualmente, o tablas de contingencia relacionando dos variables. Los
gráficos pueden ser creados a partir de las tablas. Para las variables cualitativas en
Excel 2016 necesitamos utilizar las tablas dinámicas.
2.3.1. Tabla de frecuencia y gráficos de la variable ESTADO (cualitativa

nominal)
a) en la barra de menú seleccione insertar Tabla dinámica, vea la Figura 1.
Figura 1 Insertar Tabla dinámica
b) escoja la opción Tabla o rango y seleccione toda la base de datos (A1:J501)

incluyendo los nombres de las variables (etiquetas). Figura 2
Figura 2 Crear Tabla dinámica

c) Elija dónde desea colocar el informe de tabla dinámica (nueva hoja de cálculo
o hoja de cálculo existente), por defecto escogemos hoja de cálculo existente
y seleccione aceptar, aparece la apariencia de la Figura 3
Figura 3 Campos de la Tabla dinámica
Observe a la derecha los nombres de las variables existentes en el archivo de datos,

y que fueron seleccionados en el paso anterior. Como existe interés únicamente en
la variable ESTADO debemos seleccionarla e inmediatamente aparece en el campo
FILA. Las otras variables no formarán parte de la tabla. Debemos arrastrar también
la variable ESTADO para el campo VALORES. Eso es necesario para especificar la
acción que la tabla deberá ejecutar. La acción a realizar es el conteo de los valores,
tal como es mostrado en la Figura 4.

Figura 4 Tabla dinámica de la variable ESTADO
Cabe precisar que esta tabla como su nombre lo indica queda de forma dinámica,
de tal manera que seleccionando la pestaña al lado derecho de la palaba ESTADO,
podemos escoger las categorías que deseemos. Ahora si se quiere a partir de ella
generar una tabla más completa con sus respectivas frecuencias relativas, la
copiamos y la pegamos en otro especio cualquiera de la hoja de cálculo, y se
procede a generar los porcentajes de la siguiente forma:
Seleccionamos la tabla dinámica y la pegamos más abajo (en nuestro ejemplo a
partir de la celda M18). Figura 5, en las celdas N18 y O18, escribimos
respectivamente ni (frecuencia absoluta) y hi% (frecuencia relativa). Ahora en la
celda O19 escribimos la siguiente formula: =N19/$N$24, y la copiamos para las
demás celdas hasta la O24.

Figura 5 Generación Tabla de frecuencias variable ESTADO
Finalmente, la tabla de frecuencias para la variable nominal ESTADO con su

respectivo título será:
Tabla No 1: Distribución de frecuencias del estado civil de 500 empleados de

la empresa ABC. Ibagué agosto 2016.
ESTADO ni hi%
Casado 95 19%
Separado 104 21%
Soltero 105 21%
Unión Libre 93 19%
Viudo 103 21%
Total general 500 100%
A partir de los resultados de la tabla dinámica, es posible también construir gráficos.

Para realizar esta actividad, se selecciona la tabla dinámica, parándose en la celda
donde está la palabra ESTADO. En la barra de menú seleccionamos insertar
Columna en 2-D, y en el cuadro de despliegue seleccionamos el gráfico adecuado
(en nuestro caso las barras simples) Figura 6. Parados en la gráfica se puede ir a
diseño rápido y mejorarla. También se puede modificar una serie de aspectos en su

apariencia, tales como escala, colores, títulos, entre otras. Se puede cambiar el tipo
de gráfico seleccionando el mismo y escogiendo la herramienta “Cambiar tipo de
gráfico” (por ejemplo, por un diagrama de sectores. Los gráficos generados son los
mostrados en la figura 6 y 7.
Figura 6 Generación de gráficos variable ESTADO
Grafica No 1: Diagrama de barras del estado civil de 500 empleados de la

empresa ABC. Ibagué agosto 2016.

Grafica No 2: Diagrama circular del estado civil de 500 empleados de la
empresa ABC. Ibagué agosto 2016.
Se puede de esta forma generar interpretaciones de la variable ESTADO. Por

ejemplo:
• Casi en proporciones iguales, el estado civil de los empleados de la empresa

ABC, se encuentra repartido para cada una de las diferentes categorías.
2.3.2. Tabla de frecuencia y gráficos de la variable ESTRATO (cualitativa

ordinal)
Siguiendo los mismos pasos de la variable ESTADO, y teniendo cuidado en ordenar

las categorías (bajo-medio-alto), se tabula y grafica la variable ESTRATO, la única
diferencia es que la tabla de distribución de frecuencia tiene dos nuevas columnas
(Ni y Hi%), frecuencia absoluta acumulada y frecuencia relativa acumulada
respectivamente. Para generar Ni, nos ubicamos para nuestro caso en la celda P21,
y colocamos la fórmula: =N21, luego desde la celda P22, escribimos: =P21+N22,
y arrastramos esta celda hasta la última frecuencia absoluta acumulada (P23), de
igual forma para generar Hi%, nos ubicamos en la celda Q21, y colocamos la
fórmula: =O21, luego desde la celda Q22, escribimos: =Q21+O22, y arrastramos
esta celda hasta la última frecuencia relativa acumulada (Q23). Ver Figura 7

Figura 7 Generación Tabla de frecuencias variable ESTRATO
La tabla de frecuencias para la variable nominal ESTRATO con su respectivo título

será:
Tabla No 2: Distribución de frecuencias del estrato social de 500 empleados

de la empresa ABC. Ibagué agosto 2016.
ESTRATO ni hi% Ni Hi%

Bajo 160 32% 160 32%
Medio 184 37% 344 69%
Alto 156 31% 500 100%
Grafica No 3: Diagrama de barras para el estrato social de 500 empleados de

la empresa ABC. Ibagué agosto 2016.

184
160
156
Alto Bajo Medio
Grafica No 4: Diagrama de sectores para el estrato social de 500 empleados

de la empresa ABC. Ibagué agosto 2016.
Interpretación:
• Un 37% (184) de los 500 empleados de la empresa ABC de la ciudad de

Ibagué, pertenecen al estrato medio, mientras que aproximadamente por
proporciones iguales, los demás empleados pertenecen a los estratos bajo y
alto. En cuanto a las frecuencias acumuladas podemos decir que 344
empleados que corresponde a un 69%, tiene un estrato social bajo o medio.

2.3.3. Tabla de frecuencia y gráficos de la variable EDUCACION (cuantitativa
discreta)
Si la variable a analizar es discreta, por ejemplo, Años de Educación (EDUCACION)

en la planilla “base de datos”, el procedimiento puede ser semejante al utilizado para
la variable ESTRATO, sin embargo, al construir la tabla dinámica, Excel irá a
seleccionar “Suma de EDUCACION” como acción (porque los valores de la variable
son números), y se necesitará modificar eso para conteo de los valores, en
configuración de campo de valor: Cuenta de EDUCACION, siguiendo el
procedimiento que se ilustró en la Figura 4. Luego de realizar los ajustes necesarios,
se obtendrá la siguiente tabla dinámica:
Cuenta de EDUCACION
EDUCACION Total
8 54
12 201
14 6
15 125
16 63
17 11
18 9
19 28
20 2
21 1
Total general 500
Y la siguiente tabla de distribución de frecuencias:
Tabla No 3: Distribución de frecuencias de 500 empleados de la empresa ABC,

según los años que se han educado. Ibagué agosto 2016.
EDUCACION ni hi% Ni Hi%

8 54 10.8% 54 10.8%
12 201 40.2% 255 51.0%
14 6 1.2% 261 52.2%
15 125 25.0% 386 77.2%
16 63 12.6% 449 89.8%
17 11 2.2% 460 92.0%
18 9 1.8% 469 93.8%
19 28 5.6% 497 99.4%
20 2 0.4% 499 99.8%
21 1 0.2% 500 100%

Las gráficas adecuadas para una variable cuantitativa discreta son el diagrama de
líneas verticales para las frecuencias no acumuladas (ni y hi%), y el diagrama de
líneas horizontales para las frecuencias acumuladas (Ni y Hi%). En el caso del
diagrama de líneas verticales, se puede generar un diagrama de barras simples,
como se explicó para las anteriores variables, pero por opciones de serie, llevar el
ancho del intervalo al máximo que es del 500%.
Grafica No 5: Diagrama líneas verticales para los años de educación de 500

empleados de la empresa ABC. Ibagué agosto 2016.
Excel no tiene la opción de graficar el diagrama de líneas horizontales para las

frecuencias acumuladas, pero aprovechando, la opción de bordes, un buen
acercamiento a este grafico es el siguiente:
Grafica No 6: Diagrama líneas horizontales para los años de educación de 500


Interpretación:
• Esta variable nos puede informar por ejemplo que el 40.2%, correspondiente
a 201 empleados han tenido 12 años de educación, y tan solo el 6.2% (31
empleados), han estudiado entre 19 y 21 años.
• En cuanto a las frecuencias acumuladas, por ejemplo, el 93.8% (469
empleados), tienen máximo 18 años de educación.
2.3.4. Tabla de frecuencia y gráficos de la variable EDAD (cuantitativa

continua)
La disposición tabular de los datos estadísticos se encuentra ordenados en clases

y con la frecuencia de cada clase; es decir, los datos originales de varios valores
adyacentes del conjunto se combinan para formar un intervalo de clase. No existen
normas establecidas para determinar cuándo es apropiado utilizar datos agrupados
en clases o datos no agrupados en clases; sin embargo, se sugiere que cuando el
número total de datos (n) es igual o superior 50 y además el rango o recorrido de
la serie de datos es mayor de 20, entonces, se utilizará la distribución de frecuencia
para datos agrupados en clases, también se utilizará este tipo de distribución
cuando se requiera elaborar gráficos lineales como el histograma, el polígono de
frecuencia o la ojiva.
La razón fundamental para utilizar la distribución de frecuencia de clases es

proporcionar mejor comunicación acerca del patrón establecido en los datos y
facilitar la manipulación de los mismos. Los datos se agrupan en clases con el fin
de sintetizar, resumir, condensar o hacer que la información obtenida de una
investigación sea manejable con mayor facilidad.
Este tipo de distribución se basa en el principio de que una observación no puede

considerarse diferente de otra por presentar pequeñas diferencias cuantitativas,
como por ejemplo el sueldo mensual de dos empleados que difieran en 500 pesos,
de dos edades de personas adultas que difieran en un año, dos alturas de un edificio
que difieran en un metro, el costo de 2 autos nuevos que difieran en 5000 pesos,
etc.
Al agrupar los datos en una distribución de frecuencia de clase se pierde parte de

la información. La reducción o agrupamiento a que son sometidos los datos de una
serie de valores cuando existen muchos valores diferentes, originan los
denominados errores de agrupamiento; sin embargo, estos errores son en general
muy pequeños, razón por la cual la distribución de frecuencia de clase tiene una
validez estadística práctica.

2.3.4.1. Componentes de una distribución de frecuencia de clase
1.- Rango o Amplitud total (recorrido): Es el límite dentro del cual están
comprendidos todos los valores de la serie de datos, en otras palabras, es el número
de diferentes valores que toma la variable en un estudio o investigación dada. Es la
diferencia entre el valor máximo de una variable y el valor mínimo que ésta toma en
una investigación cualquiera. El rango es el tamaño del intervalo en el cual se ubican
todos los valores que pueden tomar los diferentes datos de la serie de valores,
desde el menor de ellos hasta el valor mayor estando incluidos ambos extremos. El
rango de una distribución de frecuencia se designa con la letra R.
Para obtener el rango, se tienen que identificar los extremos del conjunto de datos,
o sea, sus valores máximo y mínimo. Se iniciará por el mínimo. Seleccione una
celda donde desea que el resultado sea colocado: por ejemplo, la celda L2.
Seleccione esta celda con el cursor. Observe que en la barra de herramientas de
Excel hay un botón llamado Insertar función , vea la Figura 8.
Figura 8. Barra de herramientas de Excel: “Insertar función”
Si presiona surgirá la pantalla vista en la Figura 9.

Figura 9. Funciones disponibles en Excel
Se puede seleccionar una categoría, y en la parte inferior se encuentran las

funciones disponibles, con una breve descripción de cada una de ellas. Una de las
categorías se llama: “Usadas recientemente”, que registra las últimas funciones
aplicadas por el usuario, en cualquier planilla. Estamos especialmente interesados
en las categorías “Matemáticas y trigonométricas”, “Lógicas” y, obviamente
“Estadísticas”. Las funciones MAX y MIN se encuentran en esta última categoría.
Seleccionando “Estadísticas” vamos a obtener el resultado de la Figura 10.
Figura 10. Funciones Estadísticas
Luego de seleccionar “Estadística”, basta buscar la función MIN: y observe la

descripción en la parte inferior. También se puede pedir ayuda a Excel sobre la

descripción detallada de las funciones. Buscando detenidamente, se encontrarán
otras funciones estadísticas muy útiles en el análisis de una variable cuantitativa.
Una vez seleccionada la función y escogida la variable “EDAD”, (B1:B501), basta
presionar ACEPTAR y para el caso de MIN se tendrá:
Figura 11. Función MIN
El mismo resultado podría ser obtenido simplemente digitando la fórmula

directamente en la celda: =MIN(E2:E475) . Pueden ser utilizadas mayúsculas o
minúsculas.
Para encontrar el valor máximo se puede realizar un proceso análogo utilizando la

función MAX, pero colocando el resultado en otra celda, L3 por ejemplo. Para
calcular el rango se puede colar una fórmula en la celda L4, haciendo la sustracción
entre máximo y mínimo. Los resultados pueden observarse a continuación:
EDAD
Mínimo 29.83836
Máximo 71.86575
Rango 42.0274
Figura 12. Rango de la variable EDAD
La menor edad es 29,84 y la mayor de 71,87, resultando en un rango de 42,03

aproximando a dos decimales. Este rango es el que se necesita para la construcción
de la distribución en clases del conjunto de datos.

2.- Dividir el rango en un número conveniente de clases: Usualmente se define el
número de clases (m), utilizando la ecuación de Sturges, m = 1+3.33 * log 10 (n), como en
nuestro caso n = 500 empleados, tenemos que el número de clases es aproximadamente
igual a 10. De acuerdo a esto, la amplitud (o ancho de clase) sería igual al cociente entre el
rango y el número de clases (R/m), dando como resultado, A = 4,203, esta amplitud la
aproximamos a dos decimales (con este formato se está trabajando) por exceso, es decir,
4,21. Inmediatamente y para corregir dicha aproximación, redefinimos el rango, el mínimo
y el máximo de la siguiente manera:
R” = A x m = 4,21 x 10 = 42,1
R” – R = 42,1 – 42,03 = 0,07
Esta diferencia la dividimos en dos números los más equitativos, pero con dos decimales,
para mantener el formato, es decir 0,03 y 0,04, uno de estos números lo restamos del
mínimo y el otro se lo sumamos al máximo, lo cual quedaría:
Mínimo redefinido = 29,84 – 0,03 =29,81
Máximo redefinido = 71,87 + 0,04 =71,91
3.- Generación de intervalos, marca de clase y frecuencias: Ahora en Excel

Colocamos las convenciones que aparecen en la tabla. Para ello escogemos unas
celdas vacías, por ejemplo, de K13 a Q13. Figura 14
Li: Límite inferior

Ls: Límite superior
Yi: Marca de clase
ni: Frecuencia absoluta
hi%: Frecuencia relativa
Ni: Frecuencia absoluta acumulada
Hi%: Frecuencia relativa acumulada
En K14, colocamos el mínimo redefinido (29,81) y en L14, escribimos la fórmula

=K14+4.21 que es el valor de la amplitud, luego en la celda K15 escribimos =L14,
posteriormente arrastramos las celdas K15 y L15, hasta K23 y L23, completando de
esta manera las diez clases donde se distribuirán las edades de los 500 empleados.
Ahora las marcas de clase utilizan la siguiente fórmula: Yi = (Li + Ls)/2. Desde la
celda M14, escribimos: =(K14+L14)/2, y ubicados en la misma celda, la arrastramos
Hasta M23.

Figura 12. Función frecuencia
Para la frecuencia absoluta (ni), se selecciona el rango desde la celda N14 a N23,
se presiona y surgirá la pantalla vista en la Figura 12. Escogemos la función
frecuencias, y damos aceptar. Aparece el cuadro de la figura 13 “Argumentos de
función”.
Figura 13. Argumentos de la función frecuencia
En datos seleccionamos la variable EDAD (B1:B501), y en grupos el rango de los límites

superiores del intervalo (L14:L23), no oprimimos aceptar, se oprimen las teclas
CTRL+MAYÚS+Entrar a la vez, de lo contrario solo se mostrará el valor de la celda
N14. El mismo resultado podría ser obtenido simplemente digitando la fórmula

directamente en la celda: =FRECUENCIA(B1:B501;L14:L23), previa selección del
rango desde la celda N14 a N23 . Pueden ser utilizadas mayúsculas o minúsculas.
Para las demás frecuencias se repite el mismo procedimiento de la variable discreta.
Figura 14. Generación Tabla de frecuencias variable EDAD
Finalmente, la tabla de distribución de frecuencias con su respectivo título será:
Tabla No 4: Distribución de frecuencias de 500 empleados de la empresa ABC,

según la edad en años. Ibagué agosto 2016.
Li Ls Yi ni hi% Ni Hi%
29.81 34.02 31.92 83 16.6% 83 16.6%
34.02 38.23 36.13 142 28.4% 225 45.0%
38.23 42.44 40.34 87 17.4% 312 62.4%
42.44 46.65 44.55 21 4.2% 333 66.6%
46.65 50.86 48.76 27 5.4% 360 72.0%
50.86 55.07 52.97 33 6.6% 393 78.6%
55.07 59.28 57.18 29 5.8% 422 84.4%
59.28 63.49 61.39 29 5.8% 451 90.2%
63.49 67.7 65.60 26 5.2% 477 95.4%
67.7 71.91 69.81 23 4.6% 500 100.0%
TOTAL 500 100.0%

Esta tabla puede ser usada para construir un histograma. Seleccionando los
intervalos de la tabla, pero cada intervalo en una sola celda, la frecuencia absoluta
(ni), escogiendo el gráfico de columnas, y reduciendo el ancho del intervalo a cero,
entre otros ajustes, tal como se muestra en la Figura 15.
Intervalos ni
29.81 - 34.02 83
34.02 - 38.23 142
38.23 - 42.44 87
42.44 - 46.65 21
46.65 - 50.86 27
50.86 - 55.07 33
55.07 - 59.28 29
59.28 - 63.49 29
63.49 - 67.70 26
67.70 - 71.91 23
Figura 15. Tabla para generar el histograma de la variable EDAD
Grafica No 7: Histograma de frecuencias para los años de educación de 500

Si se selecciona el grafico y se escoge la opción Diseño – Cambiar tipo de gráfico

– Gráficos recomendados – Línea, se puede obtener el polígono. Figura 15

Figura 16. Generación del polígono de frecuencias para la variable EDAD
Grafica No 8: Polígono de frecuencias para los años de educación de 500

Ahora con la tabla que se muestra en la Figura 17, se puede construir la ojiva.
Seleccionando los intervalos de la tabla, pero cada intervalo en una sola celda, la
frecuencia absoluta acumulada (Ni), escogiendo el gráfico de líneas con
marcadores, y realizando los ajustes necesarios.

Intervalos Ni
29.81 - 34.02 83
34.02 - 38.23 225
38.23 - 42.44 312
42.44 - 46.65 333
46.65 - 50.86 360
50.86 - 55.07 393
55.07 - 59.28 422
59.28 - 63.49 451
63.49 - 67.70 477
67.70 - 71.91 500
Figura 17. Tabla para generar la ojiva de la variable EDAD
Grafica No 9: Ojiva de frecuencias para los años de educación de 500

Algunas interpretaciones:
• 142 empleados que corresponden al 28.4%, tiene una edad comprendida

entre 34,02 y 38,23 años, con un promedio de 36,13 años.
• 393 empleados que corresponden al 78.6%, tiene una edad máxima de 55,07
años.
2.3.5. Tabla de frecuencia bidimensional (contingencia) y gráfico de la

variable FUNCION vs ESTADO (2 variables cualitativas)

El procedimiento es similar al descrito en el inciso 2.3.1, pero ahora serán
utilizadas dos variables, teniendo como propósito construir una tabla de
contingencia. Las instrucciones descritas en las literales a) a la c) del inciso
2.3.1 pueden ser repetidas literalmente. Las diferencias comienzan a aparecer
cuando se hace el diseño de la tabla. Se arrastra una de las dos variables a
FILAS, la otra a COLUMNAS, y cualquiera de las dos a ∑ VALORES, como lo
indica la figura 18.
Figura 18. Tabla dinámica de contingencia para las variables FUNCION vs

ESTADO
La tabla de frecuencias absoluta bidimensional con su respectivo título será:
Tabla No 5: Distribución de frecuencias de la función de desempeño vs el

estado civil de 500 empleados de la empresa ABC. Ibagué agosto 2016.
Cuenta de FUNCION ESTADO

FUNCION Casado Separado Soltero Unión Libre Viudo Total general
Gerencia 9 24 18 20 17 88
Oficina 79 73 80 69 84 385
Servicios Generales 7 7 7 4 2 27
Total general 95 104 105 93 103 500
Si cada celda se divide por el tamaña de muestra (500), y se le da el formato

porcentaje, se obtiene la tabla de frecuencias relativa bidimensional.

Tabla No 6: Distribución de frecuencias porcentual de la función de
desempeño vs el estado civil de 500 empleados de la empresa ABC. Ibagué
agosto 2016.
ESTADO
FUNCION Casado Separado Soltero Unión Libre Viudo Total general
Gerencia 1.8% 4.8% 3.6% 4.0% 3.4% 17.6%
Oficina 15.8% 14.6% 16.0% 13.8% 16.8% 77.0%
Servicios Generales 1.4% 1.4% 1.4% 0.8% 0.4% 5.4%
Total general 19.0% 20.8% 21.0% 18.6% 20.6% 100%
Grafica No 10: Diagrama de barras compuestas de la función de desempeño

vs el estado civil de 500 empleados de la empresa ABC. Ibagué agosto 2016.
Grafica No 11: Diagrama de barras apiladas de la función de desempeño vs el

estado civil de 500 empleados de la empresa ABC. Ibagué agosto 2016.

Algunas interpretaciones:
• De los 500 empleados de la empresa ABC, 80 que corresponden al 16%,

trabajan en oficina y son solteros.
• De los 500 empleados de la empresa ABC, 17 que corresponden al 3.4%,

son gerentes y actualmente se encuentran viudos.
2.4. Ejercicios
1. Elaborar las tablas y graficas con sus respectivos títulos e interpretaciones,

de las siguientes variables, correspondientes a la plantilla “base de datos”.
SEXO, = edad del empleado, expresada en años

FUNCION = función que ocupa dentro de la empresa
ESTRATO = estrato social del empleado
Para el caso bidimensional, cruce las variables FUNCION vs ESTRATO
2. Clasifica las siguientes variables como cualitativas o cuantitativas, y a estas

últimas como continuas o discretas. Identifique su escala de medición.
a) Intención de voto de un colectivo

b) Nº de cartas que se escriben en un mes
c) Número de calzado

d) Nº de Km. recorrido en un fin de semana
e) Marcas de cerveza
f) Nº de empleados de una empresa
g) Altura
h) Temperatura de un enfermo
3. Muchas de las personas que invierten en bolsa lo hacen para conseguir

beneficios rápidos, por ello el tiempo en que mantienen las acciones es
relativamente breve. Preguntada una muestra de 40 inversores habituales
sobre el tiempo en meses que han mantenido sus últimas inversiones se
recogieron los siguientes datos
10.5 11.2 9.9 15.0 11.4 12.7 16.5 10.1 12.7 11.4
11.6 6.2 7.9 8.3 10.9 8.1 3.8 10.5 11.7 8.4
12.5 11.2 9.1 10.4 9.1 13.4 12.3 5.9 11.4 8.8
7.4 8.6 13.6 14.7 11.5 11.5 10.9 9.8 12.9 9.9
Construye una tabla de frecuencias que recoja adecuadamente esta información, y

haz también alguna representación gráfica.
4. Investigados los precios por habitación de 50 hoteles de una ciudad se han

obtenido los siguientes resultados
700 300 500 400 500 700 400 750 800 500
500 750 300 700 1000 1500 500 750 1200 800
400 500 300 500 1000 300 400 500 700 500
300 400 700 400 700 500 400 700 1000 750
700 800 750 700 750 800 700 700 1200 800
Determínese:
a) La distribución de frecuencias de los precios.
b) Porcentaje de hoteles con un precio superior a 750.
c) Cuántos hoteles tienen un precio mayor o igual que 500 pero menor o igual
a 1000.
d) Representar gráficamente dichas distribuciones.

5. El gobierno desea saber si el número medio de hijos por familia ha
descendido respecto a la década anterior. Para ello ha encuestado a 50
familias respecto al número de hijos y ha obtenido los siguientes datos:
2 4 2 3 1 2 4 2 3 0 2 2 2 3 2 6 2 3 2 2 3 2 3 3 4
3 3 4 5 2 0 3 2 1 2 3 2 2 3 1 4 2 3 2 4 3 3 2 2 1
a) Construye la tabla de frecuencias a partir de estos datos.

b) ¿Cuántas familias tienen exactamente tres hijos?
c) ¿Qué porcentaje de familias tienen exactamente 3 hijos?
d) ¿Qué porcentaje de las familias de la muestra tienen más de dos hijos?
¿Y menos de 3?
e) Construye el grafico que consideres más adecuado con las frecuencias
no acumuladas
f) Construye el gráfico que consideres más adecuado con las frecuencias
acumuladas.
6. En un hospital se desea hacer un estudio sobre los pesos de los recién

nacidos. Para ello, se recogen los datos de 40 bebes y se tiene:
3.2 3.7 4.2 4.6 3.7 3.0 2.9 3.1 3.0 4.5
4.1 3.8 3.9 3.6 3.2 3.5 3.0 2.5 2.7 2.8
3.0 4.0 4.5 3.5 3.5 3.6 2.9 3.2 4.2 4.3
4.1 4.6 4.2 4.5 4.3 3.2 3.7 2.9 3.1 3.5
Se pide:
a) Construir la tabla de frecuencias

b) Si sabemos que los bebes que pesan menos de 3 kilos nacen
prematuramente ¿Qué porcentaje de niños prematuros han nacido entre
estos 40?
c) Normalmente los niños que pesan más de 3 kilos y medio no necesitan
estar en la incubadora ¿Puedes decirme que porcentaje de niños están en
esta situación?
d) Representa gráficamente la información recogida
7. En una finca de apartamentos en el Tolima, se reúne la comunidad de

vecinos para ver si contratan una persona que les lleve la contabilidad. El
resultado de la votación es el siguiente: 25 vecinos a favor de la contratación,

15 vecinos en contra y 5 vecinos se abstienen. Construye la tabla de
frecuencias para estos datos y representa gráficamente la información
recogida mediante un diagrama de sectores.

3. ESTADISTICOS
Son medidas de resumen que se calculan dentro de las muestras. Se clasifican en:
a) Medidas de posición
b) Medidas de dispersión
c) Medidas de forma
d) Medidas de concentración
3.1. Medidas de posición: El análisis estadístico de una serie de datos se elabora

mediante el cálculo de diferentes estadísticos. Después que los datos han sido
reunidos y tabulados, se inicia el análisis con el fin de calcular un número único, que
represente o resuma todos los datos. Por lo general, las frecuencias de los
intervalos centrales de una serie de datos son mayores que el resto, ese número se
le denomina medida de posición. Una medida de posición es un número que se
escoge como orientación para hacer mención a un grupo de datos. Uno de los
problemas fundamentales que presenta un análisis estadístico, es el de buscar el
valor más representativo de una serie de valores. El primer paso que hay que
realizar para que se entienda una larga serie de valores u observaciones, es el de
resumir los datos en una distribución de frecuencia; esto no es suficiente para fines
practico, puesto que a menudo es necesario una sola medida descriptiva, y en
especial cuando se requiere comparar dos o más serie estadísticas. Es necesario
continuar el proceso de reducción hasta sustituir todos los valores observados por
uno solo que sea representativo, de tal forma que permita una interpretación global
del fenómeno en estudio; para que ese valor sea representativo debe reflejar la
tendencia de los datos individuales de la serie de valores. Un valor o dato de la serie
con estas características recibe el nombre de promedio, media o medida de
posición, esto es debido a su ubicación en la zona central de la distribución. Las
medidas de posición son de gran importancia en el resumen estadístico, ya que
representan un gran número de valores individuales por uno solo.
El valor más representativo de un conjunto de datos por lo general no es el valor
más pequeño ni el más grande, es un número cuyo valor se encuentra en un punto
intermedio de la serie de datos. Por lo tanto, un promedio es con frecuencia un valor
referido que representará la medida de posición de la serie de valores. Las medidas
de posición se emplean con frecuencia como mecanismo para resumir un gran
número de datos o cantidades con la finalidad de obtener un valor que sea
representativo de la serie.
Las Principales Medidas de Posición son:
a) La Media Aritmética, b) La Mediana, c) La Moda, d) Los cuartiles, e) Los

Deciles y f) Los Percentiles.
3.1.1. Características de las medidas de posición
• Deben ser definidas rigurosamente y no ser susceptibles de diversas interpretaciones.

• Deben depender de todas las observaciones de la serie, de lo contrario no sería una
característica de la distribución.
• No deben tener un carácter matemático demasiado abstracto.
• Deben ser susceptibles de cálculo algebraico, rápido y fácil.
3.1.2. Media aritmética: La media aritmética ( X ) o simplemente la media es el

parámetro de posición de más importancia en las aplicaciones estadísticas. Se trata
del valor medio de todos los valores que toma la variable estadística de una serie
de datos. Por lo tanto, la medida posicional más utilizada en los estudios
estadísticos viene a ser la media. Por su fácil cálculo e interpretación, es la medida
de posición más conocida y más utilizada en los cálculos estadísticos. La media es
el valor más representativo de la serie de valores, es el punto de equilibrio, es el
centro de gravedad de la serie de datos. La media aritmética por lo general se le
designa con X .
La media aritmética de una serie de N valores de una variable X1, X2, X3;
X4,.........Xn, es el cociente de dividir la sumatoria de todos los valores que toma la
variable Xi, entre el número total de ellos. La fórmula se puede expresar así:
X
n
X i 1
.
N
Desviaciones o desvíos. - Son diferencias algebraicas entre cada valor de la serie
o cada punto medio y la media aritmética de dicha serie, o un valor cualquiera
tomado arbitrariamente. Los desvíos o desviación se designan con la letra di.
Dado una serie de valores X1, X2, X3, .......Xn, se llama desvío a la diferencia entre
un valor cualquiera Xi de la serie y un valor indicado k de esa misma serie. Si el
valor indicado k de la serie corresponde precisamente a la media aritmética de esos
valores dados, se dice entonces que los desvíos son con respecto a la media
aritmética. En símbolo: d i  ( X i  X ).
Propiedades de la media aritmética
1. La suma de las desviaciones con respecto a la media aritmética es igual a cero.

 d i  0.
2. La suma de las desviaciones al cuadrado de los diversos valores con respecto
a la media aritmética es menor que la suma de las desviaciones al cuadrado de
los diversos valores con respecto a cualquier punto K, que no sea la media
aritmética.  X i  X     X i  K  .
2 2
3. La media aritmética total o conjunta de dos o más serie de datos, se puede

calcular en función de las medias aritméticas parciales y del número de datos de
cada una de ellas, mediante la siguiente formula:

n1 X 1  n2 X 2  n3 X 3  ........  nk X k  X 1  X 2  X 3  Xk ,
Xt      .......
N n1 n2 n3 nk
Donde:
N  n1  n2  n3  ......  nk , en esta n1, n2, n3 y nk es el número de datos de cada
serie. Además, X 1 ..,. X 2., .,.. X 3 .,., y.. X k .,..son las medias de cada una de las series.
4. La media del producto de una constante por una variable, es igual al producto
de la constante por la media de la variable.
X
 KXi K Xi

  KX.
N N
5. La media de la suma de una constante más una variable, es igual a la media de
la variable más la constante. X  X i  K  

  X i  K    X i   K  X  K . ., de
n n n
la misma forma se cumple esta propiedad para la resta.
Características principales de la media aritmética
1. El valor de la media depende de cada una de las medidas que forman la serie
de datos, y se halla afectada excesivamente por los valores extremos de la serie
de datos.
2. La media se calcula con facilidad y es única para cada caso y permite

representar mediante un solo valor la posición de la serie de valores.
3. La media es una medida de posición que se calcula con todos los datos de la
serie de valores y es susceptible de operaciones algebraicas.
Cálculo de la media para datos no agrupados
Para calcular la media de datos no agrupados en clases se aplica la siguiente

formula:
X
 Xi
. En donde N es el número total de datos y X i son los valores de
N
la variable.
Ejemplo: Calcule la media aritmética de los siguientes valores:

X i  5,.7,.8,.9.,11.,.14

X
X i

5  7  8  9  11  14 54
  9. Por lo tanto, la media es 9.
N 6 6
Cálculo de la media para datos agrupados
Cuando se construye una distribución de frecuencia, los datos se agrupan en clases

definidas por unos límites. Cuando se trabaja con la distribución de frecuencia se
parte del supuesto de que todos los datos comprendidos en un intervalo de clase
se distribuyen uniformemente a lo largo de este, entonces se puede tomar la marca
de clase o punto medio ( X ) del intervalo como adecuada representación de los
valores que conforman el mencionado intervalo. El punto medio se designa con la
letra X . Para calcular la media en estas condiciones se pueden utilizar los pasos a
siguientes:
• Se agrupan los datos en clases y se llevan a una columna, se calculan los

puntos medios de cada clase y se colocan en sus respectivas columnas, se
determinan las frecuencias de cada clase y se ubican en sus respectivas
columnas.
• Se multiplican los puntos medios de cada clase por sus respectivas

frecuencias, luego se obtiene la sumatoria de las frecuencias (fi) multiplicadas
por el punto medio ( X ) así:  f i X i .
• Luego se calcula la media aritmética aplicando la fórmula:
X 
 f i X i   f X i ...Donde..N es igual al número total de datos. fi representa
 fi  N N
la frecuencia absoluta, que en el capítulo de distribuciones de frecuencias se ha
denotado como ni.
Ejemplo: Calcule la media de la siguiente distribución de frecuencia correspondiente

al peso en Kg de un grupo de obreros. Realice los cálculos respectivos para
completar el siguiente cuadro.
CLASES fi
75-------79 20
80-------84 40
85-------89 60
90-------94 100
95 ------99 140
 f i  N =360

CLASES X fi f i X
75-------79 77 20 1540
80-------84 82 40 3280
85-------89 87 60 5220
90-------94 92 100 9200
95 ------99 97 140 13580
TOTAL  f i  N =360  f i X i  32820
Aplicando la formula se tiene:
X
 f i X i  32820  91.17. Kg
N 360
3.3.1. La mediana: La mediana (Md) es una medida de posición que divide a la

serie de valores en dos partes iguales, un cincuenta por ciento que es mayor o igual
a esta y otro cincuenta por ciento que es menor o igual que ella. Es por lo tanto, un
estadístico que está en el medio del ordenamiento o arreglo de los datos
organizados, entonces, la mediana divide la distribución en una forma tal que a cada
lado de la misma queda un número igual de datos.
Para encontrar la mediana en una serie de datos no agrupados, lo primero que se
hace es ordenar los datos en una forma creciente o decreciente y luego se ubica la
posición que esta ocupa en esa serie de datos; para ello hay que determinar si la
serie de datos es par o impar. Si el número N de datos es impar, entonces la
N 1
posición de la mediana se determina por la fórmula: p Md  , luego el número
2
que se obtiene indica el lugar o posición que ocupa la mediana en la serie de
valores. Para obtener la posición de la mediana en una serie de datos no agrupados,
N
en donde el número N de datos es par, se aplica la formula PMd  El
2
resultado obtenido, es la posición que ocupara la mediana, pero en este caso se
ubica la posición de la mediana por ambos extremos de la serie de valores y los dos
valores que se obtengan se le saca la media y esta será la mediana buscada, por
lo tanto la mediana, en este caso, es un número que no se encuentra dentro de la
serie de datos dados. Ejemplos:
• Sean los siguientes datos, 5, 12, 7, 8, 10, 6, y 9, los años de servicios de un

grupo de trabajadores. Determine la mediana. Lo primero que se hace es ordenar
N 1
los datos en forma creciente o decreciente; luego se aplica la formula PMd 
2
, para ubicar la posición de la mediana. Los datos ordenados quedaran así: 5, 6,
7 1
7, 8, 9, 10, 12. La posición p Md   4. Esto indica que la mediana ocupa la
2

posición 4 en la serie de valores y por lo tanto esa posición corresponde a los
números 8 y 9 que en este caso ocupan la posición por la izquierda y por la derecha,
89 
por lo tanto la Md viene a ser la semisuma de ambas posiciones   8.5  en
 2 
este caso 8.5 es la mediana.
Cuando los valores de los datos brutos de un conjunto de datos se agrupan en una
distribución de frecuencia de clase, cada valor pierde su identidad, por tal motivo la
mediana obtenida de una distribución de frecuencia de datos puede no ser la misma
que la mediana obtenida de los datos sin arreglar en clases, pero el resultado será
una aproximación. Cuando se obtiene la mediana para datos agrupados se utiliza
el método de interpolación. La interpolación parte del supuesto de que los datos de
cada intervalo de la distribución están igualmente distribuidos.
Pasos para determinar la mediana en datos agrupados
• Se elabora la tabla de frecuencia de datos con sus diferentes intervalos de

clases, se ubican las frecuencias fi (ni) y se calculan las frecuencias acumuladas
Fa (Ni)de esa distribución.
• Se determina la ubicación o posición de la mediana en el intervalo de la
N
distribución de frecuencia, mediante la fórmula PMd  . El resultado obtenido
2
determinará la clase donde se encuentra ubicada la mediana, lo cual se conseguirá
en la clase donde la frecuencia acumulada Fa sea igual o superior a este resultado.
N 
 2  Faa 
Luego se aplica la fórmula: Md  Li    Ic , en esta fórmula Md es la
 fm 
 
mediana, Li es el límite real inferior de la clase donde se encuentra ubicada la
mediana, Faa es el valor de la frecuencia acumulada anterior a la clase donde se
encuentra la mediana, fm es el valor de la frecuencia fi de la clase donde se
encuentra la mediana, Ic es el valor o longitud del intervalo de clase y N es el
número total de datos de la distribución en estudio.
Ejemplo: Dada la siguiente distribución de frecuencia referida a las horas extras

laboradas por un grupo de obreros. Calcule la mediana. Realice los cálculos
respectivos para completar el siguiente cuadro.
N° de horas Extras Obreros

CLASES fi
55------59 6
60------64 20
65------69 18
70------74 50
75------79 17
80------84 16

85------89 5
N = 132
Cuadro con las frecuencias acumuladas:
N° de horas Extras Obreros Obreros

CLASES fi fa
55------59 6 6
60------64 20 26
65------69 18 44
70------74 50 94
75------79 17 111
80------84 16 127
85------89 5 132
N = 132
N 
 2  Faa 
Ahora se aplica la fórmula: Md  Li    Ic
 fm 
 
N 132
N = 132,   66, luego la mediana se encuentra en la clase 70----74, por
2 2
lo tanto el limite real inferior de esa clase es 69.5 = Li. La frecuencia fi de esa clase
es 50 = fm , Faa = 44 y el
Ic = 5. Aplicando la formula se tiene:
 66  44   22 
Md  69.5    5  69.5   .5  69.5  2.2  71.70.
 50   50 
Luego la mediana de esa distribución es 71.70. Esto quiere decir que un 50 % de
los obreros trabajaron horas extras por debajo de 71.70 horas y el otro 50 %
trabajaron horas extras por encima de 71.70 horas.
Características de la mediana
• La mediana no es afectada por los valores extremos de una serie de valores,

puesto que la misma no es calculada con todos los valores de la serie.
• La mediana no está definida algebraicamente, ya que para su cálculo no

intervienen todos los valores de la serie.
• La mediana en algunos casos no se puede calcular exactamente y esto

ocurre cuando en una serie de valores para datos no agrupados el número
de datos es par, en este caso la mediana se calcula aproximadamente.

• La mediana se puede calcular en aquellas distribuciones de frecuencia de
clases abierta, siempre y cuando los elementos centrales puedan ser
determinados.
• La suma de los valores absolutos de las desviaciones de los datos

individuales con respecto a la mediana siempre es mínima.
3.3.2. La moda: La moda es la medida de posición que indica la magnitud del valor
que se presenta con más frecuencia en una serie de datos; es pues, el valor de la
variable que más se repite en un conjunto de datos. De las medias de posición la
moda es la que se determina con mayor facilidad, ya que se puede obtener por una
simple observación de los datos en estudio, puesto que la moda es el dato que se
observa con mayor frecuencia. La moda se designa con las letras Mo.
En las representaciones gráficas la moda es el punto más alto de la gráfica. La

obtención de la moda para datos agrupados no es un valor exacto, ya que varía con
las diferentes formas de agrupar una distribución de frecuencia.
En algunas distribuciones de frecuencias o serie de datos no agrupados o

agrupados se presentan dos o más modas, en esta casa se habla de serie de datos
bimodales o multimodales, según sea el caso. Estos tipos de distribuciones o series
de valores se deben a la falta de homogeneidad de los datos.
Cuando una serie de valores es simétrica, la media, la mediana y el modo coinciden,

y si la asimetría de la serie es moderada, la mediana estará situada entre la media
y el modo con una separación de un tercio entre ambas. Tomando en cuenta esta
relación, cuando se tengan dos de esta medidas se puede determinar la tercera; sin
embargo es conveniente utilizar esta relación para calcular solamente la moda ya
que para calcular la media y la mediana existen fórmulas matemáticas que dan
resultados más exactos; la fórmula matemática para calcular la moda por medio de

la relación antes mencionada es: Mo  X  3 X  Md . 
Para calcular la moda en datos agrupados existen varios métodos; cada uno de los
métodos puede dar un valor diferente de la moda: Aquí se dará un método el cual
se puede considerar uno de los más precisos en el cálculo de esta. Es un método
matemático que consiste en la interpolación mediante la siguiente formula:
 1 
Mo  Li   .Ic , en donde Mo es la moda, Li es el límite real de la clase

 1   2 
que presenta el mayor número de frecuencia; la clase que presenta el mayor

número de frecuencias fi se le denomina clase modal y a las frecuencias de esa
clases se les denomina frecuencia modal fm, 1 es la diferencia entre la frecuencia
de la clase modal ( fm) y la frecuencia de la clase anterior a la modal, la cual se
designa con fa , entonces, 1  ( fm  fa) ;  2 es la diferencia entre la frecuencia

de la clase modal (fm) y la frecuencia de la clase siguiente a la modal, esta se
designa con fs , entonces,  2  ( fm  fs).
Ejemplo: Dada la siguiente distribución de frecuencia correspondiente al peso en Kg

de un grupo de trabajadores de una empresa, calcule la moda.
CLASES fi
30-----39 2
40-----49 2
50-----59 7
60-----69 11
70-----79 12
80-----89 16
90-----99 2
TOTAL
La clase modal es 80----89, entonces Li = 79.5 y su fm = 16, fa = 12 y fs = 2,

Ic  10 , entonces:
1  f m  f a  1  16  12  4;.. 2  f m  f s  16  2  14
Aplicando la formula se tiene:
 1   4  40
Mo  L i     Mo  79.5   .10  79.5   79.5  2.22  81.71.
 1   2   4  14  18
Este resultado de la moda se interpreta así: La mayoría de los trabajadores tiene un
peso aproximadamente de 81.71 Kg.
Características de la moda
• El valor de la moda puede ser afectado grandemente por el método de

elaboración de los intervalos de clases.
• El valor de la moda no se halla afectado por la magnitud de los valores

extremos de una serie de valores, como sucede en la media aritmética.
• La moda se puede obtener en una forma aproximada muy fácilmente, puesto

que la obtención exacta es algo complicado.
• La moda tiene poca utilidad en una distribución de frecuencia que no posea

suficientes datos y que no ofrezcan una marcada tendencia central.
• No es susceptible de operaciones algebraicas posteriores.
• La moda se utiliza cuando se trabaja con escalas nominales, aunque se

puede utilizar con las otras escalas.

• La moda es útil cuando se está interesado en tener una idea aproximada de
la mayor concentración de una serie de datos.
3.3.3. Otras medidas posiciónales: Cuando se estudió la mediana se pudo

detectar que esta divide la serie de valores en dos partes iguales, una
generalización de esta medida da origen a unas nuevas medidas de posición
denominadas:
Cuartiles, Deciles y Percentiles. Estas nuevas medidas de posición surgen por la

necesidad de requerir de otras medidas que expresen diferentes situaciones de
orden, aparte de las señaladas por la mediana. Por lo tanto, es interesante ubicar
otras medidas que fraccionen una serie de datos en diferentes partes. Es bueno
destacar que los cuarteles, los Deciles y los Percentiles son unas variantes de la
mediana: De la misma forma los percentiles abarcan tanto a los cuarteles como a
los Deciles.
Los cuartiles: Son medidas posiciónales que dividen la distribución de frecuencia

en cuatro partes iguales. Se designa por el símbolo Qa en la que a corresponde a
los valores 1, 2 y 3., que viene a ser el número de Qa que posee una distribución
de frecuencia de clase. El Q1 divide la distribución de frecuencia en dos partes, una
corresponde a 25 % que está por debajo de Q1 y el otro 75 % por encima de Q1. El
Q2 divide la distribución de frecuencia en dos partes iguales, un 50 % que está por
debajo de los valores de Q2 y otro 50 % que está por encima del valor de Q2. El Q2
es igual a la mediana.
Cálculo de los cuartiles: Para datos no agrupados no tiene ninguna utilidad

práctica calcular los cuartiles. Para el cálculo de los cuartiles en datos agrupados
en una distribución de frecuencia existe un método por análisis gráfico y otro por
determinación numérica, por fines prácticos en esta cátedra se utilizará el último
método. Para calcular los cuartiles por el método numérico se procede de la
siguiente manera:
• Se localiza la posición del cuartil solicitado aplicando la fórmula de posición:
aN
PQa  , en donde a viene a ser el número del cuartil solicitado, N
4
corresponde al número total de datos de la distribución y 4 corresponde al
número de cuartiles que presenta una distribución de frecuencia.
• Luego se aplica la fórmula para determinar un cuartil determinado, así:
 aN 
 4  Faa 
Qa  Li   .Ic. En esta fórmula, Qa = El cuartil solicitado, en esta a
 fm 
 
corresponde al número del cuartil solicitado; Li = Limite real inferior de la clase
donde se encuentra ubicado el cuartil; Faa = Frecuencia acumulada anterior a la
clase donde se encuentra el cuartil; fm = Frecuencia fi que posee el intervalo de

aN
clase donde se encuentra el cuartil; PQa  = Posición que ocupa el cuartil en
4
la distribución de frecuencia, este resultado obtenido determinará la clase donde se
encuentra ubicado el cuartil, el mismo se encontrará en la clase donde la frecuencia
acumulada Fa sea igual o superior a este resultado.
Los deciles: Son medidas de posición que dividen la distribución de frecuencia en

diez partes iguales y estas van desde el número uno hasta el número nueve. Los
deciles se les designa con las letras Da, siendo a, el número de los diferentes
deciles, que en este caso son nueve. El D2 es el punto debajo del cual se encuentran
ubicados el 20 % de los valores de la distribución o también el punto por sobre el
cual se encuentra el 80 % de los valores de la serie de datos. La mediana es igual
al D5, puesto que este decil divide la distribución en dos partes iguale tal como lo
hace la mediana, de la misma forma el decil cinco es igual al cuartil dos.
Cálculo de los deciles: El cálculo de los deciles es similar al cálculo de los cuartiles,
solo que en estos varía la posición, la misma se calcula con la fórmula:
aN
PDa  , en esta a corresponde al número del decil que se desea calcular, N
10
equivale al número de datos de la distribución y 10 corresponde a las diez partes en
la que se divide la serie de valores de la distribución.
 aN 
 10  Faa 
La fórmula para su cálculo es: Da  Li   .Ic . En este caso se aplica la
 fm 
 
fórmula de la misma manera que se hizo para calcular los cuartiles, solo que en esta
fórmula varia la posición de ubicación de la clase donde se encuentra ubicado el
decil.
Los percentiles: Son medidas posicióneles que dividen la distribución de

frecuencia en 100 partes iguales. Con estos se puede calcular cualquier porcentaje
de datos de la distribución de frecuencia. Los percentiles son las medidas más
utilizadas para propósitos de ubicación de valor de una serie de datos ubicados en
una distribución de frecuencia. El número de percentiles de una distribución de
frecuencia es de 99. El percentil 50 es igual a la mediana, al decil 5 y al cuartil 2, es
decir: Md  Q2  D5  P50 .  50% por encima y 50 % por debajo de los datos de la
distribución.
Cálculo de los percentiles: es similar al cálculo de los cuartiles y los deciles con
una variante en la posición de ubicación de estos, que viene expresada por la
siguiente formula:
 aN 
aN  100  Faa 
PPa  . Con esta posición se aplica la fórmula: Pa  Li   .Ic .
100  fm 
 

Ejemplo: Dada la siguiente distribución correspondiente al salario semanal en
dólares de un grupo de obreros de una empresa petrolera trasnacional. Calcule:
a) Q1, b) Q2, c) Compare los resultados con la mediana D3, d) D5, e) P25, f) P50, g)
P7
SALARIO EN $ fi Fa
200-----299 85 85
300-----399 90 175
400-----499 120 295
500-----599 70 365
600-----699 62 427
700-----799 36 463
Totales = N 463
a) Para calcular Q1, se determina primero la posición así:

1x 463 463
PQ1    115.75.
4 4
PQ1 = 115.75. Con ese valor de la posición encontrado se busca en las
frecuencias acumuladas para ver cuál de esas contiene ese valor. Observando las
frecuencias acumuladas se puede detectar que la posición 115.75 se encuentra en
la clase 300------399, por lo tanto, el Li = 299.5,
fm = 90, y la Faa = 85 y Ic = 100, aplicando la formula se tiene:
115.75  85  3075
Q1  299.5   .100  299.5   299.5  34.17  333.67.
 90  90
Este valor de Q1 indica que el 25 % de los obreros en estudio, devengan un salario

semanal por debajo de $ 333.67 y el 75 % restante gana un salario por encima de
$ 333.67.
b) Para calcular Q2=Md se determina primero la posición de este así.
2 x 463
PQ 2   231.5 , ahora se ubica esta posición en las frecuencias acumulados
4
para determinar la posición de Q2, se puede observar en la distribución que esta
posición de Q2 está ubicada en la clase 400----499, entonces, Li = 399.5, fm = 120,
Faa = 175 y Ic = 100, aplicando la formula se tiene:
 231.5  175 5650

Q2  399.5   .100  399.5   399.5  47.08  446.58.
 120  120
Este resultado de Q2 establece que el 50 % de los obreros de este estudio,

devengan un salario semanal por debajo de $ 446.58 y el otro 50 % devenga un
sueldo por encima de $ 446.58. Calcule la mediana y compárela con este resultado.

c) Para determinar D3 = P30 hay primero que calcular la posición de este así:
3x 463
PD 3   138.9 , ahora se ubica esta posición en las frecuencias acumuladas
10
para determinar la posición de D3, en la tabla de la distribución de frecuencia se
observa que D3 se encuentra en la clase 300----399, luego, Li = 299.5, fm = 90,
Faa = 85 y Ic = 100, aplicando la formula se tiene:
138.9  85 
D3  299.5   .100  299.5  59.89  359.39 . Esto indica que un 30 % de los
 90
obreros ganan un salario semanal por debajo de $ 359.39 y el 70 % restante
devenga un sueldo por encima de $ 359.39.
d) Calcular, D5 = Q2 = P50, además P25 = Q1, la comprobación de estos resultados
se le deja como practica al estudiante.
g) Para calcular P70 lo primero que se hace es determinar la posición,
70x 463
PP 70   324.10 . Ahora se ubica este resultado en la columna de frecuencias
100'
acumuladas para encontrar la posición de P70 en la distribución de frecuencia.
Como se puede observar en la tabla de distribución de frecuencia, P70 se encuentra
ubicado en la clase 500-------599, entonces, Li = 499.5, fm = 70, Faa = 295 y Ic
= 100, aplicando la formula se tiene:
 324.10  295 2910
P70  499.5   .100  499.5   499.5  41.57  541.07.
 70  70
Esto indica que el 70 % de los obreros devengan un sueldo semanal que está por
debajo de $ 541.07 y que el 30 % de los restantes obreros, ganan un salario por
encima de $ 541.07.
Porcentajes de valores que están por debajo o por encima de un valor

determinado: Muchas veces necesitamos conocer el porcentaje de valores que
están por debajo o por encima de un valor determinado; lo que representa un tipo
de problema contrario al estudiado anteriormente, esto es, dado un cierto valor en
el eje de abscisa (X) del plano cartesiano, determinar en la ordenada (Y) el tanto
por ciento de valores inferiores y superiores al valor dado. Operación que se
resuelve utilizando la siguiente fórmula matemática:
 f ( P  Li  100
p   faa  i  , donde:
 Ic  N
p  porcentajeque se quiere buscar.
P  Valor dado en el eje de las X (valor que se ubica en las clases).
faa  Frecuencia acumulada de la clase anterior a la clase donde se encuentra
ubicado P.
f i  Frecuencia de la clase donde se encuentra ubicada P.
Li  Límite inferior de la clase donde se encuentra ubicada P.
I c  Intervalo de clase.
N = Número total de datos o total de frecuencias.

Ejemplo: Utilizando los datos de la distribución de frecuencia anterior, Determine
qué porcentaje de obreros ganan un salario semanal inferior a $ 450.
Solución:
Datos:
p?
P  450
faa  175
Li  400
I c  100
N = 463
Ahora se aplica la fórmula:
 f ( P  Li  100
p   faa  i  , Sustituyendo valores se tiene:
 Ic  N
 120(450  400  100

p  175   463  p  50.75
 100
De acuerdo con el resultado se puede afirmar que el 50.75 % de los obreros

devengan un salario inferior a $ 450 y el 49.25 % de los obreros ganan un salario
superior a $ 450.
3.2. Medidas de dispersión: Las medidas de posición central son los valores que
de una manera condensada representan una serie de datos, pero realmente no son
suficientes para caracterizar una distribución de frecuencia. Para describir una
distribución de frecuencia o serie de datos es necesario, por lo menos otra medida
que indique la dispersión o variabilidad de los datos, es decir, su alejamiento de las
medidas de posición central. Estas medidas de posición central no tienen ningún
valor si no se conoce como se acercan o se alejan esos valores con respecto al
promedio, en otras palabras, es conocer cómo se dispersan o varían esos valores
con respecto al promedio de una distribución de frecuencia.
La dispersión o variabilidad: se entiende como el hecho de que los valores de

una serie difieran uno de otro, es decir, como se están dispersando o distribuyendo
en la distribución. De acuerdo con esto es necesario encontrar una medida que
indique hasta qué punto los valores de una variable están dispersos en relación con
el valor típico. Las medidas de variabilidad son números que expresan la forma en
que los valores de una serie de datos cambian alrededor de una medida de posición
central la cual por lo general es la media aritmética.

La dispersión puede ser mayor o menor, tomando en cuenta esas diferencias. La
variabilidad es la esencia de la estadística, puesto que las variables y atributos se
caracterizan siempre por diferencias de valores entre observaciones individuales.
Casi siempre en una distribución de frecuencia el promedio obtenido difiere de los
datos de la serie; por esto es importante determinar el grado de variación o
dispersión de los datos de una serie de valores con respecto al promedio. Las
medidas de dispersión se clasifican en dos grandes grupos: a) Las Medidas de
Dispersión Absolutas y las Relativas; las Relativas, vienen expresadas en las
mismas medidas que se identifican la serie de datos, las mismas son: 1) El
Recorrido, 2) La Desviación cuartilica, 3) La Desviación Semicuartilica, 4) La
desviación Media, 5) La Desviación Típica o Estándar 6) La varianza.
Las Medidas de Dispersión relativa. Son relaciones entre medidas de dispersión

absolutas y medidas de tendencia central multiplicadas por 100, por lo tanto, vienen
expresadas en porcentaje, su función es la de encontrar entre varias distribuciones
la dispersión existente entre ellas. La medida de dispersión relativa de mayor
importancia es el Coeficiente de Variación.
Se llama Variación o Dispersión de los datos, el grado en que los valores de una
distribución o serie numérica tiende a acercarse o alejarse alrededor de un
promedio. Cuando la dispersión es baja indica que la serie de valores es
relativamente homogénea mientras que una variabilidad alta indica una serie de
valores heterogénea.
Cuando los valores observados de una serie están muy concentrados alrededor del
promedio, se dice que ese promedio es o será muy representativo; pero si están
muy dispersos con relación al promedio, es decir muy esparcidos con respecto al
promedio, entonces ese promedio es poco representativo de la serie o distribución,
puesto que no representan adecuadamente los datos individuales de esa
distribución. Es importante obtener una medida que indique hasta qué punto las
observaciones de una serie de valores están variando en relación con el valor típico
de la serie.
3.2.1. Rango o Recorrido (R): Es la primera medida de dispersión, no está

relacionada con ningún promedio en particular, ya que este se relaciona con los
datos mismos, puesto que su cálculo se determina restándole al dato mayor de una
serie el dato menor de la misma. El rango es el número de variables diferentes que
posee una serie de valores. Su fórmula se calcula así:
Rango(R) = Dato mayor (XM)Dato Menor (Xm)
R = XM  Xm. El rango es la medida de dispersión más sencilla e inexacta dentro de

las medidas de dispersión absoluta.

3.2.2. Desviación íntercuartilica (DC): La desviación íntercuartilica es la diferencia
que existe entre el cuartil tres (Q3) y el cuartil uno (Q1) de una distribución de
frecuencia y se expresa así: DC = Q3  Q1.
3.2.3. desviación semi-íntercuartilica (DSC): La desviación semi-íntercuartilica es
la diferencia entre el Q3 y el Q1 dividido entre dos:
Q3  Q1
DSC  .
2
Si los valores de la DC o DSC son pequeños indica una alta concentración de los
datos de la distribución en los valores centrales de la serie de datos. Estas medidas
se utilizan para comparar los grados de variación de los valores centrales en
diferentes distribuciones de frecuencias. Los mismos no son afectados por los
valores extremos, no se adaptan a la manipulación algebraica, por tal motivo son de
poca utilidad.
3.2.4. Desviación media: La desviación media de un conjunto de N observaciones
x1, x2, x3, .............xn, es el promedio de los valores absolutos de las desviaciones
(di) con respecto a la media aritmética o la mediana. Si se denomina como DM a la
desviación media, entonces su fórmula matemática será la siguiente:
N N
X i X d i
DM  i 1
 i 1
N N
Esta fórmula es para datos no agrupados. Se toma el valor absoluto en la ecuación,
debido a que la primera propiedad de la media aritmética establece que los desvíos
(di) de una serie con respecto a la media aritmética siempre son iguales a cero, es
decir: di = 0.
Cuando los datos están en una distribución de clases o agrupados se aplica la
siguiente formula:
 f
N N
 X f
X di
i i i
DM i 1
 i 1
N N
En esta fórmula X es el punto medio de cada clase y fi es la frecuencia de cada

clase. La Desviación Media a pesar de que para su cálculo se toman todas las
observaciones de la serie, por el motivo de no tomar en cuenta los signos de las
desviaciones (di), es de difícil manejo algebraico. Su utilización en estadística es
muy reducida o casi nula, su importancia es meramente histórica, ya que de esta
fórmula es la que da origen a la desviación típica o estándar.

3.2.5. Desviación típica o Estándar: Es la medida de dispersión más utilizada en
las investigaciones por ser la más estable de todas, ya que para su cálculo se
utilizan todos los desvíos con respecto a la media aritmética de las observaciones,
y, además, se toman en cuenta los signos de esos desvíos. Se le designa con la
letra castellana S cuando se trabaja con una muestra y con la letra griega minúscula
 (Sigma) cuando se trabaja con una población. Es importante destacar que cuando
se hace referencia a la población él número de datos se expresa con N y cuando se
refiere a la muestra él número de datos se expresa con n. La desviación típica se
define como:
“La raíz cuadrada positiva del promedio aritmético de los cuadrados de los desvíos
de las observaciones con respecto a su media aritmética”. La desviación típica es
una forma refinada de la desviación media”.
Características de la Desviación Típica:
• La desviación típica se calcula con cada uno de los valores de una serie de
datos.
• La desviación típica se calcula con respecto a la media aritmética de las
observaciones de una serie de datos, y mide la variación alrededor de la
media.
• La desviación típica es susceptible de operaciones algebraicas, puesto que
para su cálculo se utilizan los signos positivos y negativos de los desvíos de
todas las observaciones de una serie de valores, por lo tanto, es una medida
completamente matemática.
• Es una medida de bastante precisión, que se encarga de medir el promedio
de la dispersión de las observaciones de una muestra estadística. Las
influencias de las fluctuaciones del azar, al momento de seleccionar la
muestra la afectan muy poco. Le da gran significación a la media aritmética
de la serie de valores.
• Es siempre una cantidad positiva.
Interpretación de la desviación típica: La desviación típica como medida absoluta

de dispersión, es la que mejor nos proporciona la variación de los datos con
respecto a la media aritmética, su valor se encuentra en relación directa con la
dispersión de los datos, a mayor dispersión de ellos, mayor desviación típica, y a
menor dispersión, menor desviación típica.

Su mayor utilidad se presenta en una distribución normal, ya que en dicha
distribución en el intervalo determinado por X   se encuentra el 68. 27% de los
datos de la serie; en el intervalo determinado por la X  2 se encuentra el 95,45%
de los datos y entre la X  3 se encuentra la casi totalidad de los datos, es decir,
el 99,73% de los datos; además, existe una regla general de gran utilidad para la
comprobación de los cálculos que dice: “una oscilación igual a seis veces la  ,
centrada en la media comprende aproximadamente el 99% de los datos”. Ver figura
19.
68,27%
95,45%
99,73%
Media
Figura 19. Porcentajes característicos de la distribución normal
A la zona limitada por la X   conoce bajo el nombre de zona normal, ya que se

considera a los datos que caen dentro de esa zona, datos normales en relación con
el grupo estudiado; los datos que estén por encima o por debajo de dicho intervalo
se consideran supranormales e infranormales.
Cálculo de la Desviación Típica: La desviación típica para calcularla se procede
de dos formas: a) Para datos no agrupados en clases, b) Para datos agrupados en
clases.
a) Para datos no Agrupados.- Las fórmulas para determinar la desviación
típica de una S y de una  son:
(X  X )2 d
2
1.  .S  
i i
n 1 n 1

2.  .d i2  ( X i  X ) 2
( X i ) 2
X i
2

n N  X i2  ( X i ) 2
3.  .S  
n 1 n(n  1)
Es importante recordar que cuando se trabaja con la formula para datos no

agrupados y se trata de una muestra se utilizará como denominador n1, para
corregir el sesgo.
Para caular la desviacián tipica de una poblacián para datos no agrupados, se
utilizan las siguientes formulas:
4.  . 
(X i  X )2

d i
2
N N
X    i X
2
2
 X  2
5.  .  i
  i
 X2
N 
 N  N
Método para calcular la Desviación Típica en datos no agrupados:
• Se calcula la media aritmética.
• Se calculan los desvíos (di) de la serie de valores Xi, con respecto a la media
aritmética.
• Se elevan al cuadrado cada una de las desviaciones (di)2 , y se determina la

sumatoria de esos. De la misma forma se elevan al cuadrado cada uno de
los Xi y se calcula la sumatoria de estos; de igual manera se calcula la
sumatoria de los Xi y se elevan al cuadrado. Despues de hacer todos estos
cálculos se elabora un cuadro estadístico con estos cálculos.

• Finalmente se aplica la formula de la desviación típica para datos no
agrupados de la muestra o de la población, según el caso.
Ejemplo: Los siguientes valores corresponden a la edad de ñiños de una muestra

tomada de una población: Xi = 3, 4, 5, 6, 7. Determine la desviación típica.
X 
X i

25
5
n 5
Xi (X i  X)  d i d i2
3 3–5 =-2 4
4 4–5 =-1 1
5 5–5 = 0 0
6 6–5 = 1 1
7 7–5 = 2 4
X i  25 d i 0 d i  10
Este problema se resolverá utilizando la media aritmética y sin utilizar la media,

para ello se utilizarán las formulas 1 y 3
.
1.  .S 
d i
2

10
 2.5  1.58
n 1 4
n X i2   X 
2
5(135  625 50
3.  .S     1.58
i
n(n  1) 5(4) 20
Interpretación: El resultado obtenido con las formulas 1 y 3 indican que en

promedio, las edades de los ñiños de esa muestra se desvian o varian con respecto
a la media aritmética en una cantidad igual a 1.58 años.
Si este problema se resuelve ahora, considerando los datos como si fueran de una
población y se aplica la formula 4 y 5, entonces se tiene:

4.  . 
d i
2

10
 2  1.41.
N 5
X    i  
2
2
 X  135 625
5.  .  i
  27  25  2  1.41.
N  N  5 5
 60.83  56.25  4.58  2.14
En la solución del problema con las formula 4 y 5 de la población se observa que

la  de la población es menor que la S de la muestra, esto es debido a que la S de
la muestra utilizó n-1, para corregir el error producto del sesgo, y la  de la
población no lo utilizó.
b) Para datos Agrupados en Clases.- Para calcular la desviación típica en

datos agrupado existen varios criterios en relacion a la corrección del sesgo que se
produce al tomar una muestra, en este estudio se considerará la formula que corrige
el sesgo de aquellas muestras en estudio; sin embargo, cuando n sea mayor que
50, no es necesario tal corrección. . Existen muchas formulas matemáticas para
calcular la desvición típica, queda a juicio del estudiante utilizar la formula que él
considere más fácil, siempre y cuando su aplicación sea valedera.
Formulas Para calcular la muestra y la población de una desviación típica
con datos agrupados en clases:
1.  .S 
 ( X i  X )2 fi

d i
2
fi
n 1 n 1

 X f 
2
 X i
2
fi 
i
n
i
2.  .S 
n 1
 f (X 
2
 f K  2

 Xa )
f K 
2 i i
  X )2 
f i (X
i i
i i
i a
n n
3.  .S   n 1
n 1
Para calcular la S de la fórmula 1 es necesario calcular el punto medio de cada

una de las clases de la distribución, calcular la media aritmética y luego calcular los
desvíos de los puntos medios con respecto a la media aritmética. En la formula 2
no es necesario calcular la media.
En la fórmula 3, X a es un valor arbitrario que se toma de los X  de la distribución,
i
 lo más central posible para así facilitar los

es recomrndable que se escoja el X i
calculos posteriores.
El término Ki , en esta formula, viene a ser un desvío arbitrario con respecto a una
  X ) . Este método para calcular S en datos
mdia arbitraria X a .Entonces, K i  (X a
agrupados, se fundamenta en la propiedad de la desviación típica que establece:

“si a cada una de los valores de una serie de datos se le suma una constante, la
desviación típica no se altera en sus resultados”.
4.  .   f ( X
i i  X )2
 fd i i
2
N N
5.  . 
 f Xi i
2
X2
N
f   f i X i
2
X i2 
6.  .   
i
N  N 
 

 f K  2
  f K 
2 i i
   2
  X )2
f i (X fiX

i 
i i
7.  . 
i a
 N
N  N  N
 
Método para calcular la Desviación Típica en datos Agrupados
• Se calcula la X
• Se calcula el X i de cada una de las clases que integran la distribución de
frecuencia, se determinan los desvíos di de los X con respecto a la X , i
luego se elevan al cuadrado los di y se multiplican por fi, y se calcula la

f d i
2
i .
• Se calcula la  f X , luego se determina la

i
2
i  f i X i 2.
• Se elabora un cuadro estadístico y se llevan a este todos los datos

calculados.
• Se aplica la formula necesaria para calcular la desviación típica.
Ejemplo: Los siguientes datos corresponden a las horas extras trabajadas por los
obreros de la empresa FATEXTOL, en un mes (se resolverá considerando los datos
como de una S y ).
CLASES
fi
X i f i X di = X i X  f i d i2 f i
X 
i
2
1 42 42 - 15.26 232.87 1764

40 — 44
45 — 49 6 47 282 - 10.26 631.60 13254
50 — 54 21 52 1092 - 5.26 581.02 56784
55 — 59 75 57 4275 - 0.26 5.07 243675
60 — 64 23 62 1426 4.74 516.75 88412
65 — 69 7 67 469 9.74 664.07 31423
70 — 74 2 72 144 14.74 434.54 10368
135
 f Xi i =7730 d i  1.82 f d i
2
i =3065.92  f Xi
2
i =445680
Para resolver el problema lo primero que se debe hacer es calcular la media

aritmética así:

X
f X i

7730
 57.26
n 135
Ahora se calculan los diferentes, para determinar los otros parámetros necesarios
(es recomendable que se realice todos los cálculos) para resolver el problema
planteado, en el cuadro de arriba se colocaron los cálculos realizados que son
necesarios para resolver el mismo; este se resolverá aplicando las formulas 1, 2, y
3 de la S, considerando los datos como los de una muestra.
1.  S 
fd i i
2

3065.92

3065.92
 22.88  4.78
n 1 135  1 134
  
fX
2
7730 2
 2  445680 
i i
fi X i
n 135 3065.93
2.  .S     22.88  4.78.
n 1 135  1 134
Para aplicar la fórmula 3 se toma una media arbitraria X a que en este caso la más
céntrica es 57, luego se calculan los desvíos de los puntos medios con respecto
a la X a así:
Ki = ( X i  X a ) se elabora un cuadro estadístico para resumir los datos y finalmente

se procede a buscar la desviación
fi
X i ( X i  X a ) =Ki
fi . Ki fi (ki)2
1 42 - 15 - 15 225
6 47 - 10 - 60 600
21 52 - 5 - 105 525
75 57 0 0 0
23 62 5 115 575
7 67 10 70 700
2 72 15 30 450
f i  135 fK i i  35 fK i i

2
 3075

 f K  2
35
2
fK i i
2
 i i
3075 
3.  .  N  135 
N 135
1225
3075 
 135  3075  9.07  3065.93  22.71  4.76.
135 135 135
Interpretación: Los resultados obtenidos con las formulas 1, 2, y 3, indican que los
promedios de las horas extras laboradas por los trabajadores se desvían o varían
con respecto a su media aritmética en una cantidad igual a 4.78 y 4.76
respectivamente. La misma interpretación se obtiene con los resultados obtenidos
con las formulas 4, 5 y 6.
4.  . 
fd i i
2

3065.92
 22.71  4.76
N 135
5.  . 
 f Xi i
2
X2 
445680
 3278.62  22,71  4.76.
N 135
f   f i X i
2
X i2  445680  7730 
2
6.  .        4.76.
i
N  N  135  135 
 
La aplicación de la fórmula 7 se deja para que el participante la aplique y resuelva

el mismo problema, el cual tendrá resultados idénticos a los anteriores.

Propiedades de la Desviación Típica
• La desviación típica de una constante k es cero. Si se parte de que la media
aritmética de una constante es igual a la constante, esto es así, debida a
que al ser todos los datos iguales no habrá dispersión en la serie de datos
con respecto a la media aritmética, por lo tanto (k) = 0.
• Si a cada uno de los valores de una serie de variables se le suma o se le
resta una constante K, la desviación típica no se altera. Esta se apoya en la
propiedad de la media aritmética que establece “si a cada valor de la serie
se le suma una constante, la media de la nueva serie es igual a la media de
la serie original más la constante”, igual sucede con la resta, la nueva media
 (X i K )   (Xi )
vendrá disminuida en el valor de dicha constante.
• Si a cada uno de los términos de la serie de valores se le multiplica por una
constante K, la desviación típica de la serie quedará multiplicada por K, y la
nueva desviación típica será igual a la constante K tomada en valor absoluto
por la desviación típica original. Esta propiedad se apoya en la propiedad del
producto de la media aritmética
(X i .K )  . K .. ( X i ) .
• Para distribuciones normales siempre se cumple que: 68.27 % de los datos

se encuentran en el intervalo ( X  ). 95.45 % de los datos se encuentran
en el intervalo ( X  2). 99.73 % de los datos se encuentran en el intervalo
( X  3). Estos valores se cumplen con bastante aproximación, para

distribuciones que son Normales y para las que son ligeramente asimétricas.
• Para dos series de valores, de tamaño n1 y n2, con variaciones S21 y S22,
respectivamente, la varianza
n1 S12  n2 S 22
S 
2
n1  n2
T
3.2.5. Varianza: Es otra de las variaciones absolutas y la misma se define como el

cuadrado de la desviación típica; viene expresada con las mismas letras de la
desviación típica pero elevadas al cuadrado, así S2 y 2. Las fórmulas para calcular
la varianza son las mismas utilizadas por la desviación típica, exceptuando las
1.  . 2

(X i   )2
.., para.datos.no.agrupados.
N

respectivas raíces, las cuales desaparecen al estar elevados el primer miembro al
cuadrado.
2.  . 2

f i ( X i   ) 2
..,. para.datos.agrupados.
N
La varianza general de la muestra se expresa así:
3.  .S 2

(X i  X )2
..,. para.datos.no.agrupados.
n 1
4.  .S 2

f i ( X i  X )
..,. para.datos.agrupados.
n 1
3.2.6. Dispersión relativa: Las medidas de variabilidad, estudiadas hasta ahora,

solo permitían medir las dispersiones absolutas de los términos de la muestra. Las
medidas, tomadas en esas condiciones, serán de utilidad, solo cuando se trata de
analizar una sola muestra; pero, cuando hay que establecer comparaciones entre
distintas muestras, será necesario expresar tales medidas en valores relativos, que
pueden ser proporciones o porcentajes.
Las medidas de dispersión relativas permiten comparar grupos de series distintas
en cuanto a su variación, independientemente de las unidades en que se midan las
diferentes características en consideración. Generalmente las medidas de
dispersión relativas se expresan en porcentajes, facilitando así el estudio con
medidas procedentes de otras series de valores La dispersión relativa viene a ser
igual a la dispersión absoluta dividida entre el promedio.
Existen varias medidas de dispersión relativa, pero, la más usada es el coeficiente
de variación de Pearson, este es un índice de variabilidad sin dimensiones, lo que
permite la comparación entre diferentes distribuciones de frecuencias, medidas en
diferentes unidades. El coeficiente de variación de Pearson se designa con las letras
CV. La fórmula matemática es:

CV  x100.
X

Ejemplo: La venta en el mercado de tres productos, varía de acuerdo al siguiente
cuadro. Determine el CV de cada uno y diga cuál de ellos presenta mayor variación
y cuál la menor.
Producto X S Unidades CV
1 45 5 Bs. 11.11 %
2 450 40 Bs. 8.87 %
3 4500 350 Bs. 7.78 %
Para resolver el problema se calcula el CV de cada producto y luego sé determina

cuál presenta mayor o menor variación
CV = Sx100/ X
CV1 = 5x100/45 = 11.11 %.
CV2 = 40x100/450 = 8.87 %.
CV3 = 350x100/4500 = 7.78 %.
Se puede observar que la menor dispersión la presenta el producto 3, por lo tanto,

de los 3 productos el que menos varia es ese; por otro lado, el de mayor dispersión
o variabilidad es el producto 1.
3.3. Medidas de forma: Hasta ahora, hemos estado analizando y estudiando la

dispersión de una distribución, pero parece evidente que necesitamos conocer más
sobre el comportamiento de una distribución. En esta parte, analizaremos las
medidas de forma, en el sentido de histograma o representación de datos, es decir,
que información nos aporta según la forma que tengan la disposición de datos.
Las medidas de forma de una distribución se pueden clasificar en dos grandes
grupos o bloques: medidas de asimetría y medidas de curtosis.

3.3.1. Simetría: Según el Diccionario de la Real Academia Española es la
“Regularidad en la disposición de las partes o puntos de un cuerpo o figura, de modo
que posea un centro, un eje o un plano de referencia”. Es por lo tanto la armonía de
posición de las partes o puntos similares uno respecto de otros y con referencia a
puntos, líneas o planos determinados. Se puede generalizar diciendo que es una
proporción de las partes entre sí y con el todo.
En estadística se dice que una distribución de datos es simétrica si se le puede

doblar a lo largo de un eje vertical de una manera tal que coincidan los dos lados de
la distribución. Las distribuciones que no tienen simetría con respecto al eje vertical
se les llama sesgada o asimétrica. Una distribución sesgada a la derecha tiene una
cola prolongada del lado derecho de la distribución y una cola más corta del lado
izquierdo de la misma; esta asimetría se le denomina positiva, cuando la cola de la
distribución del lado izquierdo es más larga que la del lado derecho, entonces la
asimetría es negativa.
En una distribución simétrica la media, la mediana y la moda son iguales. La simetría

se mide por medio del coeficiente de asimetría. Una distribución simétrica tiene un
coeficiente de asimetría igual a cero. Cuando una distribución de frecuencia es
asimétrica, la media, la mediana y la moda se alejan una de otra, es decir, las tres
medidas de posición son diferente; mientras más se separe la media de la moda,
mayor es la asimetría. Si la distribución de frecuencia es asimétricamente negativa,
la cola de la curva de distribución se encuentra hacia los valores más pequeños de
la escala de las X y si la distribución es asimétricamente positiva la cola de la
distribución se ubica hacia los valores más grandes de la escala de las X.
Karl Pearson un estudioso de la estadística designo el coeficiente de asimetría con

las letras SK y determinó la fórmula para su cálculo, al cual se le denominó primer
coeficiente de asimetría de Pearson
( X  Mo)
SK 1 
S
Esta fórmula se puede transformar por medio de la relación:
Mo  X  3X  Md   Mo  X  3X  Md   X  Mo  3X  Md .
X  Mo  3X  Md , si ahora se sustituye 3( X - Md) en el primer coeficiente de

asimetría de Pearson, se tiene otro coeficiente de asimetría utilizando la mediana
que se le denomina segundo coeficiente de asimetría de Pearson, este es más
preciso que el primero
3( X  Md )
SK 2 
S

Arthur Bowley otro estudioso de la estadística determinó que el coeficiente de
asimetría se podía calcular por medio de los cuartiles y utilizó el coeficiente de
asimetría por medio de cuartiles (skq), y la formula es
Q1  Q3  2Q2
SK q 
Q3  Q1
En donde, Q1, Q2 y Q3 son los cuartiles 1, 2 y 3 respectivamente. El valor de SKq

varía entre 1 y 1; según Bowley una distribución de frecuencia con un coeficiente
de asimetría igual a 0.1, se considera como ligeramente asimétrica y con un valor
mayor 0.3 se le considera marcadamente asimétrica.
El coeficiente de asimetría se puede calcular también en función de los momentos,

siendo el momento m3 el parámetro utilizado para tal efecto. El coeficiente de
asimetría según los momentos se designa con las letras SKm y sé calcula mediante
m3
SK m  3
S
la fórmula
En esta fórmula m3 es el momento tres con respecto a la media aritmética y S3 es

la desviación típica elevada a la potencia tres. Este coeficiente es el más confiable
de todos los antes descritos, así que para cualquier cálculo se debería utilizar este,
ya que es un parámetro que utiliza todos los datos de la serie de valores.
Si en una serie de valores la X  Md  Mo, entonces la distribución de frecuencia

presenta una curva asimétrica positiva; si la X = Md = Mo = 0 , la curva de la
distribución es simétrica y si la distribución presenta una curva en la que el Mo 
Md  X , entonces se dice que la curva de la distribución asimétrica negativa.
Sí la curva de una distribución de frecuencia es sesgada, la media tratara de

ubicarse hacia el extremo o lado opuesto, de la serie de valores, donde se
concentran los datos. Es bueno hacer referencia que en una asimetría positiva la
X  Md y en una asimetría negativa la X  Md.
Si en una distribución de frecuencia, los intervalos de las clases que la conforman

presentan frecuencias balanceadas en cada uno de ellos y no presentan ninguna
aglomeración especial en los extremos y, además, presenta una concentración de
los datos en el centro de la distribución, entonces se dice que la distribución de
frecuencia es simétrica. Cuando la curva de una distribución de datos es simétrica
el SK = 0, esta es una de las características de la curva Normal o Campana de
Gauss.

Si la mayoría de los datos de una serie de valores están ubicados en el centro de la
distribución y, además existe una dispersión medianamente hacia los extremos
mayores o menores de las variables, entonces se afirma que la curva de la
distribución es Ligeramente Asimétrica. Ejemplo:
CLASES 1 f1 CLASES f2
2
3—5 5 3—5 8
6—8 10 6—8 12
9—11 25 9—11 20
12—14 40 12—14 40
15—17 20 15—17 25
18—20 12 18—20 10
21—23 8 21—23 5
TOTAL 120 TOTAL 120
En este ejemplo la distribución 1 es ligeramente asimétrica positiva y la distribución

2 es ligeramente asimétrica negativa. La mayoría de las distribuciones de casos
reales por lo general son ligeramente asimétricas.
Una distribución de datos es marcadamente asimétrica si la mayoría de los datos

de la misma se encuentran ubicados en los extremos mayores o menores de las
variables que conforman la distribución. Si la mayoría de los de los datos de una
serie de valores se encuentra situados en el extremo de las clases menores de la
distribución, entonces la curva de la distribución de frecuencia presenta una
asimetría positiva, siendo en este caso el SK  0; y si por el contrario esa mayoría
se encuentra en los extremos de las clases mayores de las variables, entonces la
serie de valores presenta una curva con una asimetría negativa, luego el
Coeficiente de asimetría será mayor que cero, es decir, SK0 Ejemplo:
CLASES 3 f3 CLASES 4 f4
3—5 15 3—5 5
6—8 25 6—8 10
9—11 40 9—11 15
12—14 60 12—14 60
15—17 15 15—17 40
18—20 10 18—20 25
21—23 5 21—23 15
TOTAL 170 TOTAL 170

En la distribución 3 los datos presentan una curva marcadamente asimétrica positiva
y el caso 4 la curva de la distribución es marcadamente asimétrica negativa.
Existen distribuciones de frecuencias que presentan curvas fuertemente

marcadamente asimétricas y otras que las curvas son ligeramente asimétricas.
Considerar la asimetría de una curva de frecuencia marcadamente o ligeramente
asimétrica, es un asunto de criterio del investigador, puesto que no existen reglas
rígidas establecidas que determinen las líneas divisorias o parámetros entre
ligeramente o marcadamente asimétrica; Sin embargo cuando la mayoría de los
datos de una distribución de frecuencia se ubican en los extremos mayores o
menores de las variables se puede afirmar con certeza que la curva de la
distribución es marcadamente asimétrica.
Algunos investigadores como Arthur Bowley determinaron que si se aplica el SKq y

ese coeficiente de asimetría obtenido es menor que 0.3 (sin considera el signo) se
puede afirmar que la curva de la distribución es ligeramente asimétrica, en caso
contrario la curva de la distribución sería marcadamente asimétrica. Otros
investigadores utilizan el coeficiente de asimetría según los momentos (SK m) para
tales efectos, pero no existe criterio en cual ha de ser el coeficiente especifico que
marque el límite entre ligera y marcadamente. Sin embargo, en este estudio se
considerará que un coeficiente de asimetría según los momentos comprendido
entre  0.30  SKm  0.30, sería un buen límite para considerar una curva de
distribución como ligeramente asimétrica, de lo contrario sería marcadamente
asimétrica. El SKm es el coeficiente de asimetría de mayor precisión y confiabilidad,
puesto que este, utiliza para su cálculo todos los valores de la serie de datos.
Es bueno afirmar que cuando el coeficiente de asimetría de una curva de

distribución es marcadamente asimétrico no se puede utilizar la media aritmética
como medida de tendencia central, puesto que esta es afectada altamente por los
valores extremos de una serie de datos, en su lugar es recomendable utilizar la
mediana como medida de posición.
3.3.2. Kurtosis (Curtosis): Es el grado de apuntamiento o altura de la curva de una

distribución de frecuencia. La finalidad de la Kurtosis es determinar si la distribución
de los términos de una serie de valores responde a una curva normal o no. Se
utiliza para observar el promedio o posición de la distribución, así como la media, la
mediana y la moda, se puede en esta observar la asimetría, el grado de
concentración de los datos, en fin, para observar en forma general el
comportamiento de una serie de datos en una distribución de frecuencia. Por medio
de la Kurtosis se determinará si la distribución de frecuencia es demasiado
puntiaguda, normal o muy achatada.
El grado de apuntamiento o altura de una curva de distribución se determina por
medio del coeficiente de Kurtosis, el cual se calcula utilizando el momento cuatro de
una serie de valores con respecto a su media aritmética. La Kurtosis se designa con
la letra K4 y la fórmula de cálculo es:

m4
K4 
S4
En esta fórmula m4 es el momento cuatro con respecto a la media aritmética y S 4

es la desviación típica elevada a la cuarta potencia, K4 es el coeficiente de Kurtosis.
Tomando en cuenta la Kurtosis el k4 de una curva de distribución puede ser:
Mesocurtica, Platicurtica y Leptocurtica.
Mesocurtica: Es aquella curva de una distribución de frecuencia que no es ni muy

alta ni muy achatada, es la llamada curva normal. La curva Mesocurtica tiene un
coeficiente de Kurtosis igual a tres, es decir, K4 = 3.
Leptocurtica: Es aquella curva de la distribución que presenta un apuntamiento o

altura relativamente más alta que la curva Mesocurtica, en esta los datos se
encuentran más concentrados alrededor del máximo valor. El coeficiente de
Kurtosis para curva Leptocurtica es mayor de tres, es decir, K4  3.
Platicurtica: Es la curva de una distribución de frecuencia que presenta un

achatamiento más pronunciado que la Mesocurtica, encontrándose los datos más
dispersos alrededor del máximo valor de la distribución. En esta curva el coeficiente
de Kurtosis es menor de tres, es decir, K4  3.
En la Figura 20 de Kurtosis se pueden observar los tres tipos de Kurtosis antes

descritos, siendo la primera curva Platicurtica (azul), la segunda Mesocurtica (roja)
y la última es Leptocurtica (amarilla):

KURTOSIS
1° PLATIKURTICA
2° MESOKURTICA
3° LEPTOKURTICA
Figura 20. Curvas según su curtosis
Ejemplo: En la siguiente distribución de frecuencia, determine el coeficiente de

asimetría utilizando los métodos de Pearson, de Bowley y el de los momentos,
interprete los resultados y haga un análisis de los diferentes resultados y diga cuál
es el resultado más recomendado en este caso; encuentre la Kurtosis e interprete
los resultados.
CLASES fi
10—12 1
13—15 5
16—18 15
19—21 40
22—24 15
25—27 10
28---30 9
 95
Solución: Para resolver el problema lo primero que hay que hacer es calcular la X
y determinar los desvíos di con respecto a la media, luego se elabora un cuadro
estadístico con el resumen de los cálculos necesarios para determinar la asimetría

y la curtosis. Además, se tendrá que calcular la mediana, la moda, el Q 1 el Q3, y
después de realizar todos esos cálculos se procede a buscar la asimetría y la
curtosis con las formulas respectivas. En el siguiente cuadro se encuentran
resumidos la mayoría de los cálculos necesarios, el resto se calcularán aparte.
CLASES fi X i f i X i di fi.di fi.d2 fi.d3 fi.d4

10—12 1 11 11 -10.07 -10.07 101.40 -1021.15 10282.95
13—15 5 14 70 -7.07 -35.35 249.92 -1766.97 12492.45
16—18 15 17 255 -4.07 -61.05 248.47 -1011.29 4115.94
19—21 40 20 800 -1.07 -42.80 45.80 -49.00 52.43
22—24 15 23 345 1.93 28.95 55.87 107.84 208.12
25—27 10 26 260 4.93 49.30 243.05 1198.23 5907.28
28---30 9 29 261 7.93 71.37 565.96 4488.10 35590.60
 95 2002 0.38 1510.40 1945.76 68649.77
Se recomienda realizar los cálculos de los parámetros, ya que solo aparecen sus
resultados
X = 21.07, Mo = 20.0, Q1 = 18.71, Q2 = Md = 20.49,
Q3 = 23.55, S = 4.41, S2 = 19.46, S3 = 85.82, S4 = 378,82.
X  Mo 21.07  20.0 1.07

SK1     0.27
S 3.99 3.99
El resultado indica que la curva de distribución es ligeramente asimétrica positiva.
3( X  Md ) 3(21.07  20.49) 1.74

SK 2     0.44
S 3.99 3.99
El resultado indica que la curva de la distribución es marcadamente asimétrica

positiva.
Q1  Q2  2Q2 18.71  23.55  2(20.49) 1.28

SK q     o.26.
Q3  Q1 23.55  18.71 4.84
El resultado indica que la curva es ligeramente asimétrica positiva.

Para calcular el coeficiente de asimetría según los SKm se cálcula primero el m3
así:
m3 
fd i i
3

1945.76
 20.48
n 95
m 3 20.48
SK m    0.32
S 3 63.40
El coeficiente SKm indica que la curva de la distribución es marcadamente

asimétrica positiva. Si se observan los diferentes coeficientes de asimetría se puede
notar que el SK2 y el SKm son marcadamente asimétricos y los otros son ligeramente
asimétricos, esto es así por cuanto él valor obtenido con el SK2 y el SKm son más
precisos que los otros, lo que indica que se debe preferir el resultado de estos
últimos por razones obvias. Siempre el SKm será más preciso que cualquier otro
coeficiente de asimetría, ¿Por qué? Los resultados obtenidos con los diferentes
coeficientes de asimetría indican que esta es positiva, es decir, con un sesgo hacia
la cola de la derecha.
Para calcular el K4 se calcula el m4 así:
m4 
fd i i
4

68649.77
 722.63
n 95
Ahora se procede a calcular el K4 aplicando la formula
m4 722.63
K4  4
  2.86.
S 252.8
El resultado indica que el apuntamiento de la curva es achatado, la primera curva

(de color verde), es decir, la curva es platicurtica. Observe la Figura 21, donde se
puede ver la curva normal (de color rojo) y se puede observar la kurtosis y la
simetría. La asimetría positiva se puede observar en la parte derecha de la gráfica.

60 KURTOSIS Y ASIMETRÍA
50
40
30
20
10
0
11 14 17 20 23 26 29
1d ASIMETRÍA + 1 5 15 40 15 9 10
CURVA NORMAL 1 5 15 50 15 5 1
Figura 21. Curtosis y Asimetria
Ejemplo: En la siguiente distribución de frecuencia determine el SK1, SK2, SKq y el

skm, interprete los resultados y diga cuál es el más recomendado; encuentre la
curtosis e interprete el resultado.
CLASES fi
10—12 9
13—15 10
16—18 15
19—21 40
22—24 15
25—27 5
28—30 1
 95
Solución.- Para resolver este problema se debe calcular la X y los desvíos di con
respecto a esta, también es necesario calcular la Md, el Mo, el Q1, el Q3, la S, el m3,
el m4, elaborar un cuadro estadístico y finalmente aplicar las formulas respectivas.

En el siguiente cuadro se resumen los cálculos para tales efectos. Se recomienda
al estudiante realizar todos los cálculos pertinentes.
CLASES fi X i f i X i di fi.di fi.d2 fi.d 3 fi.d4

10—12 9 11 99 -7.93 -71.37 565.96 -4488.10 35590.60
13—15 10 14 140 -4.93 -49.30 243.05 -1198.23 5907.28
16—18 15 17 255 -1.93 -28.95 55.87 -107.84 208.12
49.30
19—21 40 20 800 1.07 42.80 45.80 49.00 52.43
22—24 15 23 345 4.07 61.05 248.47 1011.29 4115.94
25—27 5 26 130 7.07 35.35 249.92 1766.97 12492.45
28—30 1 29 29 10.0 10.07 101.40 1021.15 10282.95
 95 1798 7 - 0. 3 5 1510.4 -1945.76 68649.77
Los resultados obtenidos de los diferentes cálculos son:
X = 18.93, Mo = 20.0, Q1 = 16.45, Q2 = Md = 19.91.
S = 3.99, S3 = 63.40, S4 = 252.80, m3 = 20.48, m4 = 722.63
Ahora se procederá a calcular los diferentes coeficientes de asimetría así:
X  Mo 18.93  20.0  1.07

SK 1     0.27
S 3.99 3.99
3( X  Md ) 3(18.93  19.51)  1.74

SK 2     0.44.
S 3,99 3.99
Si observa puede ver que este problema es casi idéntico al anterior, solo las
m3  20.48
SK m    0.32
S3 63.40
frecuencias fueron cambiadas de la parte alta de las variables hacia la parte baja de
Q1  Q3  2Q2 16.45  21.29  2(19.51)  1.28
SK q     0.26
Q3  Q1 21.29  16.45 4.84
las mismas, por tal razón todos sus cálculos son idénticos en valor absoluto al

anterior, lo que indica que ahora la asimetría obtenida es negativa, es decir, con
sesgo hacia la izquierda.
Para calcular la Kurtosis se procede así:
m4 722.63
K4    2.86.
S 4 252.80
La curva de la distribución es platikurtica. La interpretación es idéntica a la del

problema anterior. Se puede ver que la curva más alta es la normal (roja) o
Mesocurtica y la más achatada es la curva de la distribución en estudio, y en este
caso es platikurtica.
3.4. Medidas de concentración: Las medidas de concentración tratan de poner

de relieve el mayor o menor grado de igualdad en el reparto del total de los valores
de la variable, son por tanto indicadores del grado de distribución de la variable.
Denominamos concentración a la mayor o menor equidad en el reparto de la suma
total de los valores de la variable considerada (renta, salarios, etc.).
Las infinitas posibilidades que pueden adoptar los valores, se encuentran entre los
dos extremos:
Concentración máxima, cuando uno solo percibe el total y los demás nada, en
este caso, nos encontraremos ante un reparto no equitativo.
Concentración mínima, cuando el conjunto total de valores de la variable está
repartido por igual, en este caso diremos que estamos ante un reparto equitativo
De las diferentes medidas de concentración que existen nos vamos a centrar en
dos:
Índice de Gini: Coeficiente, por tanto, será un valor numérico.
Curva de Lorenz: gráfico, por tanto, será una representación en ejes coordenados.
Sea una distribución (xi, ni) de la que formaremos una tabla con las siguientes
columnas:
• Los productos xi ni, que nos indicarán la totalidad percibida por los ni
frecuencias de valores individuales xi.
• Las frecuencias absolutas acumuladas Ni.
• Los totales acumulados ui que se calculan de la siguiente forma:

u1= x1 n1
u2 = x1 n1 + x2 n2
u3 = x1 n1 + x2 n2 + x3 n3
u4 = x1 n1 + x2 n2 + x3 n3 + x4 n4
un = x1 n1 + x2 n2 + x3 n3 + x4 n4 + …………. + xn nn
n
Por tanto podemos decir que u n   x i n i
i 1
• La columna total de frecuencias acumuladas relativas, que expresaremos en

tanto por ciento y que representaremos como pi y que vendrá dada por la
siguiente notación
Ni
pi  100
n
• La renta total de todos los rentistas que será un y que, dada en tanto por
ciento, la cual representaremos como qi y que responderá a la siguiente
notación:
ui
qi  100
un
Por tanto, ya podemos confeccionar la tabla que será la siguiente:

Ni ui pi - qi
pi  100 qi  100
n un
xi ni xi ni Ni ui
x1 n1 x1 n1 N1 u1 p1 q1 p1 - q1
x2 n2 x2 n2 N2 u2 p2 q2 p2 - q2
... ... ... ... ... ... ... ...

xn nn xn nn Nn un pn qn pn - qn

Como podemos ver la última columna es la diferencia entre las dos penúltimas, esta
diferencia seria 0 para la concentración mínima ya que pi = qi y por tanto su
diferencia seria cero.
Si esto lo representamos gráficamente obtendremos la curva de concentración o
curva de Lorenz. La manera de representarlo será, en el eje de las X, los valores
pi en % y en el de las Y los valores de qi en %. Al ser un %, el gráfico siempre será
un cuadrado, y la gráfica será una curva que se unirá al cuadrado, por los valores
(0,0), y (100,100), y quedará siempre por debajo de la diagonal.
La manera de interpretarla será: cuanto más cerca se sitúe esta curva de la
diagonal, menor concentración habrá, o más homogeneidad en la distribución.
Cuanto más se acerque a los ejes, por la parte inferior del cuadrado, mayor
concentración.
Los extremos son:
Figura 22. Valores extremos de la concentración

Analíticamente calcularemos el índice de Gini el cual responde a la siguiente
ecuación
k 1
 p i  q i 
i 1
IG  k 1
 pi
i 1
Este índice tomara los valores de IG = 0 cuando pi = qi concentración mínima y

de Ig = 1 cuando qi = 0 Esto lo veremos mejor con un ejemplo:

Frecuencia
marca xin i S un pi = (Ni/n) 100 qi = (u i/u n ) 100 pi - qi
L i-1 - L i xi ni Ni
0 - 50 25 23 23 575 575 8,85 1,48 7,37
50 - 100 75 72 95 5400 5975 36,54 15,38 21,16
100 - 150 125 62 157 7750 13725 60,38 35,33 25,06
150 - 200 175 48 205 8400 22125 78,85 56,95 21,90
200 - 250 225 19 224 4275 26400 86,15 67,95 18,20
250 - 300 275 8 232 2200 28600 89,23 73,62 15,61
300 - 350 325 14 246 4550 33150 94,62 85,33 9,29
350 - 400 375 7 253 2625 35775 97,31 92,08 5,22
400 - 450 425 5 258 2125 37900 99,23 97,55 1,68
450 - 500 475 2 260 950 38850 100,00 100,00 0,00
260 38850 651,15 125,48
Se pide Índice de concentración y Curva de Lorenz correspondiente

a) Índice de concentración de GINI
k 1
 p i  q i  125 ,48
i 1
IG  k 1
  0,193
651,15
 pi
,
i 1
Observamos que hay poca concentración por encontrarse cerca del 0.
b) Curva de Lorenz
La curva la obtenemos cerca de la diagonal, que indica que hay poca

concentración:

Figura 23. Curva de Lorenz
3.5. Ejercicios
1. En un estudio de mercado se ordena encuestas a 20 personas de

determinada población. Se medirá un conjunto de variables entre las cuales
figura el ingreso mensual (I) en miles de pesos y el nivel socioeconómico
(NSE) que se supone fuertemente relacionado con la variable anterior. Los
datos obtenidos se muestran en la siguiente tabla:
Encuesta Sexo Edad Ingreso NSE

1 M 24 123.5 C4
2 M 46 678.8 C2
3 F 24 539.0 C2
4 F 35 234.5 C3
5 F 45 149.9 C4
6 F 89 56.8 E
7 M 58 889.3 C1

8 F 25 361.5 C3
9 M 64 548.7 C2
10 M 34 154.5 C4
11 M 72 2630.4 AB
12 F 37 129.5 C4
13 M 59 162.9 C4
14 F 45 516.5 C2
15 F 46 250.6 C3
16 F 45 850.8 C1
17 F 63 57.3 E
18 F 59 409.2 C2
19 F 60 135.0 C4
20 M 34 159.9 E
a) Clasifique las variables del estudio.

b) En que subpoblación, mujeres u hombres, los datos de ingreso mensual son
más homogéneos.
2. Se conocen los puntajes que un grupo de postulantes, no así las

identificaciones de los mismos. Uno de ellos, Andrés quiere conocer su
puntaje y le han dicho que es mayor que el promedio y menor que el percentil
75 Los puntajes son los siguientes
851 344 591 513 744 526 522

684 491 618 750 739 527 765 590
a) Obtenga los posibles puntajes de Andrés.

b) De entre los valores calculados en a), el puntaje de Andrés es aquel que, al
calcular la desviación estándar de los 14 restantes, produce la mayor
variabilidad ¿Cuál es el puntaje de Andrés?

3. Si se conoce que el salario medio mensual de 5 hermanos, es de $120.000,
y la mediana es de $100.000.
a) ¿Cuánto dinero llevan mensualmente a la casa los cinco hermanos?

b) Si Juan, el mejor pagado de los cinco recibe un aumento de $10.000; cuál es
la nueva media y cuál es la nueva mediana.
4. Un grupo de 80 estudiantes se compone de 35 hombres. En un test, el

puntaje medio de las mujeres fue de 70 puntos y del grupo completo fue 66.5
puntos.
a) Determine el puntaje medio de los hombres.

b) Si se cambia la escala de puntajes mediante la transformación Yi   X i  
( X i : puntaje antiguo, Yi puntaje nuevo), determine el nuevo puntaje medio
de hombres, mujeres y el grupo completo.
c) Compruebe que si se aplica la transformación al puntaje medio del grupo
total (66.5) se obtiene el mismo resultado que si se calcula el puntaje medio
del grupo total transformado, como promedio ponderado de los puntajes
transformados de hombres y mujeres (trate de comprobar esta propiedad en
forma general).
5. En una distribución simétrica de 7 intervalos de igual amplitud se conocen los

siguientes datos:
A  10 ; n1  8 ; Y3  n3  1260; n 2  n5  62 ; h3  0.21; H 6  0.96 .
a) Complete la información.
b) Calcule el promedio bajo la transformación lineal y  3x  7 .
6. En un banco comercial se desea estudiar el tiempo de atención necesario

para que un cliente realice una transacción entre las 12:00 horas y las 14:00
horas. Durante una semana se tomaron los tiempos de atención de 10
clientes diariamente, obteniéndose los siguientes datos tabulados:
Tiempo de atención Cantidad de

(min.) Clientes
0.25 - 1.65 17
1.65 - 3.05 11

3.05 - 4.45 7
4.45 - 5.85 7
5.85 - 7.25 4
7.25 - 8.65 2
8.65 - 10.05 2
Total 50
a) Determine qué porcentaje de clientes demoraron a lo más 3 minutos en su

atención.
b) Determine cuántas horas a lo más demorará en su transacción el 84% de los
clientes.
c) Construya un gráfico adecuado que permita mostrar (aproximadamente) la
ubicación de la Mediana y el Percentil 75.
7. La distribución de frecuencias observadas, de los sueldos para los

trabajadores del departamento de producción de dos empresas, A y B, para
dos muestras se da a conocer la siguiente tabla:
Sueldo (UF) nA nB
10.5 – 15.5 4 5
15.5 – 20.5 9 8
20.5 – 25.5 12 7
25.5 – 30.5 15 12
30.5 – 35.5 20 18
35.5 – 40.5 17 23
40.5 – 45.5 10 18
45.5 – 50.5 8 17
50.5 – 55.5 5 12
Total 100 120
a) Calcular en cada muestra las medidas de tendencia central.

b) Compare la homogeneidad de los datos a partir de los sueldos de la
empresa.
8. Los siguientes datos corresponden a los tiempos (en minutos) que duran 40
llamadas telefónicas recibidas por una central:
2.2 0.8 1.5 1.9 1.3 2.3 2.3 0.9 0.5 1.3 2.0 1.7
1.1 1.1 1.3 1.7 1.1 1.0 2.1 0.7 1.9 2.6 1.7 2.3
1.4 2.4 2.1 1.7 1.2 1.6 1.5 1.4 2.1 2.0 1.0 2.8
1.3 1.1 1.5 1.4
a) Construya una tabla de frecuencias con seis intervalos de igual amplitud.

b) Construya un histograma de frecuencias relativas porcentuales.
c) ¿Qué porcentaje de llamadas se encuentran en el intervalo x  s; x  s  .
9. La media de un grupo de facturas es de $150 y la desviación $20. Utilizando

la regla empírica, construya un intervalo donde se encuentre el 99,7% del
monto de las facturas.
10. Una compañía produce lotes de tubos para gas con un diámetro promedio de
14 milímetros y una desviación de 0,1 milímetros. El gerente de control de
calidad de la compañía piensa que los tubos que no tengan diámetros entre
13,8 y 14,2 milímetros no deben ser puestos a la venta. Usando la regla
empírica, ¿aproximadamente qué porcentaje de tubos se encuentra apto
para la venta?
11. Para cada uno de los ejercicios siguientes, determine: la desviación estándar,
la varianza, el coeficiente de variación y el coeficiente de asimetría.
Establezca, así mismo, al menos una conclusión acerca de la dispersión y
otra acerca de la asimetría.
a) La producción diaria de dos plantas de ensamblado de vehículos se

muestra a continuación.
Planta “A”
49 51 50 48 49 50 50 51 52

Planta “B”
50 4 0 47 47 50 60 50 53 53
b) A continuación se presentan las notas de un examen de estadística (sobre
100 puntos).
95 81 59 68 100 92 75 67 85 79 71 88 100 94 87 65 93 72 83 91
c) La siguiente es una muestra de los aportes realizados por un grupo de
empleados al seguro social.
Cantidad (miles de$) Número de empleados

10 - 19 10
20 - 29 33
30 - 39 64
40 - 49 13
12. En un barrio de una gran ciudad se ha constatado que las familias residentes
se han distribuido, según su composición, de la siguiente forma:
Composición 0–2 2–4 4-6 6-8 8-10

Familias 110 200 90 75 25
a) ¿Cuál es el número medio de personas por familia?

b) ¿Cuál es el tipo de familia más usual?
c) Si sólo hubiera plazas de aparcamiento para el 50% de las familias, y
éstas se atendieran de mayor a menor número de miembros, ¿Cuántos
componentes debería tener una familia para entrar en el cupo?
d) Si el coeficiente de variación de Pearson de otro barrio de la misma ciudad
es 1,8, ¿cuál de los dos barrios puede ajustar mejor sus previsiones en
base al diferente número de miembros de las familias que lo habitan?
e) Si el ayuntamiento concede una ayuda de 5.000 ptas. fijas por familia,
más 10.000 ptas. por cada miembro de la unidad familiar, determinar el
importe medio por familia y la desviación típica.
f) Número de miembros que tienen como máximo el 85% de las familias
menos numerosas.

13. Las siguientes tablas corresponden a dos muestras representativas de los
créditos concedidos, en millones de pesos, por dos agencias de una entidad
bancaria en el último ejercicio. Comparar la concentración y la homogeneidad
de ambas distribuciones.
Agencia A Agencia B
Valor crédito Nº créditos Nº créditos
0 - 0,5 3 10
0,5 - 1 4 12
1- 2 6 8
2-4 58 30
4-7 78 12
7 - 12 90 15
12 - 14 20 5
14 - 18 6 6
18 - 20 4 16

4. ESTADÍSTICOS EN EXCEL 2016
Aunque podríamos utilizar fórmulas de Excel para obtener información como el valor
máximo, el mínimo, la media, la suma, etc., podremos obtener toda esa información
con solo utilizar la herramienta Estadística descriptiva.
El primer paso es pulsar el botón Análisis de datos de la ficha Datos y seleccionar

la opción Estadística descriptiva.
Figura 22 y 23. Opción Datos y Análisis de datos
Al pulsar el botón Aceptar se mostrará un nuevo cuadro de diálogo que nos permitirá
hacer las configuraciones necesarias para obtener los datos estadísticos de nuestra
información.

Figura 24. Estadística descriptiva
Las opciones dentro de este cuadro de diálogo a las que se debe prestar especial
atención son las siguientes:
• Rango de entrada: La columna que contiene los datos numéricos de los

cuales se obtendrán los datos estadísticos.
• Agrupado por: Indica la orientación del rango de entrada. Para el ejemplo
los datos están en una columna.
• Rótulos en la primera columna: Si dentro del rango de entrada está incluida
la celda que contiene el título de la columna, entonces debes marcar esta
caja de selección.
• Opciones de salida. Podrás elegir tres posibles opciones de salida: elegir
un rango dentro de la misma hoja donde se colocarán los resultados, o elegir
que los resultados se coloquen en una hoja nueva o en un libro nuevo.
• Resumen de estadísticas. Es necesario que esta opción esté seleccionada
para obtener los datos estadísticos que necesitamos.
Una vez que has hecho las configuraciones necesarias en el cuadro de

diálogo Estadística descriptiva pulsa el botón Aceptar para ver los resultados.
En muchas ocasiones al pulsar Datos, no aparece la opción de Análisis de datos

(Figura 24), esto se debe a que esta opción es un complemento de Excel, y en ese
momento no está activado o instalado.

Figura 25. Opción Datos sin Análisis de datos
Para activarlo, se seleccionan la siguiente secuencia de comandos: Archivo –

Opciones – Complementos – Ir – Herramientas para análisis. Como lo muestran las
figuras de la 26 a la 30
Figura 26. Comando archivo
Figura 27. Comando opciones

Figura 28. Comando complementos
Figura 29. Comando ir

Figura 30. Comando herramientas para análisis
Ejemplo: Calcular las medidas de resumen de la variable EDAD, correspondiente a

la plantilla: “base de datos”.
Figura 31. Resumen de estadísticas para la variable EDAD

EDAD
Media 44.0760219
Error típico 0.5228584
Mediana 38.8465753
Moda 38.4109589
Desviación estándar 11.6914691
Varianza de la muestra 136.690451
Curtosis -0.53532468
Coeficiente de asimetría 0.87473403
Rango 42.0273973
Mínimo 29.8383562
Máximo 71.8657534
Suma 22038.011
Cuenta 500
Figura 31. Medidas de resumen para la variable EDAD
Excel maneja las siguientes expresiones para la asimetría y la curtosis:
• CURTOSIS se define como sigue:
• ecuación para la ASIMETRÍA es la siguiente:
Como se puede observar la curtosis en su fórmula resta una expresión al lado

derecho relacionada con el número 3, luego su interpretación se hace con referencia
al número 0.
CURTOSIS > 0 Leptocurtica
CURTOSIS < 0 Platicurtica

CURTOSIS = 0 Mesocurtica
Otra medida que se puede generar a partir de la tabla de la Figura 3, es el coeficiente
de variación, dividiendo la desviación estándar entre la media y expresándola en
formato porcentual. Su resultado es: C.V. = 26.53%.
Los cuartiles, deciles, percentiles, se pueden generar desde cada celda, mediante
las siguientes expresiones:
=CUARTIL(B2:B6;1) para el cuartil 1
=PERCENTIL(B1:B501;0.7) para el decil 7
=PERCENTIL(B1:B501;0.89) para el percentil 89
Cuartíl 1 35.54452
Cuartíl 2 38.84658
Cuartíl 3 52.49726
Decil 7 48.97973
Percentil 89 62.81882
Figura 32. Cuartiles, Decil y Percentil para la variable EDAD
Interpretación: La edad promedio de los 500 empleados de la empresa ABC, es

aproximadamente de 44, 08 años. Un 50% de estos empleados tienen una edad
máxima de 38,85 años. La mayoría de los empleados tienen una edad aproximada
de 38,41 años. La distribución de la variable edad es platicurtica y asimétrica
positiva. La edad mínima es de 29,84 y la máxima de 71,87. La variable edad
presenta una leve heterogeneidad. El 25% de los empleados tiene una edad
máxima de 35,54 años, el 75% una edad máxima de 52,5 años, el 70% una edad
máxima de 48.98 años, y el 89% una edad máxima de 62,82 años.
Ejercicio:
1. Calcule e interprete las diferentes medidas de resumen para las siguientes
variables de la plantilla “base de datos”
EDUCACION = años de educación

2. Calcule e interprete las diferentes medidas de resumen para el ejercicio 8 del
capítulo 3.

5. DIAGRAMAS COMPLEMENTARIOS PARA EL ANALISIS EXPLORATORIO
DE DATOS
5.1. Diagrama de tallo y hojas: Un procedimiento semi-gráfico de presentar la

información para variables cuantitativas, que es especialmente útil cuando el
número total de datos es pequeño (menor que 50), es el diagrama de tallo y hojas
de Tukey. Los principios para constituirlo son:
• Redondear los datos a dos o tres cifras significativas, expresándolos en

unidades convenientes.
• Disponerlos en una tabla con dos columnas separadas por una línea como
sigue:
a) Para datos con dos dígitos, escribir a la izquierda de la línea los dígitos de
las decenas (forma el tallo), y a la derecha las unidades (hojas).
b) Para datos con tres dígitos el tallo estará formado por los dígitos de las
centenas y decenas, que se escribirán a la izquierda, separados de las
unidades.
• Cada tallo define una clase, y se escribe sólo una vez. El número de hojas
representa la frecuencia de dicha clase.
Ejemplo:
1. Datos recogidos en cm:

11,357; 12,542; 11,384; 12,431; 14,212: 15,213; 13,300; 11,300; 17,206; 12,710;
13,455; 16,143; 12,162; 12,721; 13,420; 14,698.
2. Datos redondeados expresados en mm:

114; 125; 114; 124; 142; 152; 133; 113; 172; 127; 135; 161; 122, 127; 134; 147.
3. Diagrama de tallo y hojas, datos en mm:
11 443
12 54727
13 354
14 27
15 2
16 1
17 2
decenas unidades

Cuando el primer dígito de la clasificación varía poco, la mayoría de los datos
tienden agruparse alrededor de un tallo y el diagrama resultante tiene poco detalle.
En ese caso es conveniente subdividir cada tallo en dos o más partes
introduciendo algún signo arbitrario, como se indica:
• Las pulsaciones por minuto de un grupo de 40 personas se han representado

en el diagrama de tallo y hojas siguiente:
5 2 6
6 0 0 0 0 0 0 4 4 4 4 4 4 8 8 8 8 8 888
7 2 2 2 2 2 2 2 2 6 6 6 6 6
8 0 0 4 4 8 8
9 2
• Podemos obtener más detalle subdividiendo cada tallo en dos partes iguales:
en una colocaremos las hojas 0 a 4 y lo representamos por ( * ) y en la otra las
hojas de 5 a 9 y lo representaremos por ( . ), obteniendo el diagrama:
5 * 2
. 6
6 * 0 0 0 0 0 0 4 4 4 4 4 4
. 8 8 8 8 8 8 8 8
7 * 2 2 2 2 2 2 2 2
. 6 6 6 6 6
8 * 0 0 4 4
. 8 8
9 * 2
.
Observemos que todos los datos son múltiplos de 4, lo que hace sospechar que
se han obtenido midiendo las pulsaciones cada 15 segundos y multiplicando por
cuatro.

5.2. Diagrama de cajas y bigotes: Los diagramas de Caja-Bigotes (boxplots o
box and whiskers) son una presentación visual que describe varias características
importantes, al mismo tiempo, tales como la dispersión y simetría. Para su
realización se representan los tres cuartiles y los valores mínimo y máximo de los
datos, sobre un rectángulo, alineado horizontal o verticalmente. Una gráfica de este
tipo consiste en una caja rectangular, donde los lados más largos muestran el
recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que
indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles
primero y tercero (recordemos que el segundo cuartil coincide con la mediana). Esta
caja se ubica a escala sobre un segmento que tiene como extremos los valores
mínimo y máximo de la variable. Las líneas que sobresalen de la caja se llaman
bigotes. Estos bigotes tienen tienen un límite de prolongación, de modo que
cualquier dato o caso que no se encuentre dentro de este rango es marcado e
identificado individualmente.
Si la distribución es aproximadamente normal, se declaran puntos extremos

(outliers) aquellos que caen por fuera del intervalo X  2.7*S ya que P (-2.7*S < X
<  + 2.7*S) = 0.993. Si la distribución es asimétrica, se acostumbra dividir la serie
en áreas o segmentos como se muestra en la siguiente gráfica, llamada gráfica de
Box and Whisker o caja esquemática o diagrama de bigotes:
Donde:
1: Q1 – 3xRq
2: Q1 – 1.5xRq
3: Q3 + 1.5xRq
4: Q3 + 3.xRq
Obsérvese que los puntos a distancias menores de la representación 1 o mayores

de la representación 4, son altos extremos. Los puntos entre la representación 3 y
4 y entre 1 y 2 se consideran como puntos de advertencia o bajos extremos; los
puntos entre la representación 2 y 3 se consideran como puntos normales.

Cuando la caja es contrecha, se puede determinar homogeneidad en la variable, en
caso contrario heterogeneidad.
Si el bigote derecho es más largo que el izquierdo, se puede determinar asimetría
positiva, en caso contrario asimetría negativa.
5.3. Diagrama de cajas y bigotes en Excel: Para construir un boxplot

necesitamos determinar el valor del primer y el tercer cuartil, el valor del a mediana,
y los valores mínimo y máximo de la variable analizada.
Todos estos estadísticos son provistos por la opción de estadística descriptiva del
menú de Análisis de Datos de Excel, con excepción del primer y tercer cuartil.
Ejemplo: Vamos a elaborar un diagrama de cajas y bigotes, para la variable EDAD,

de la “base de datos”.
Calculamos los estadísticos que aparecen en la Figura 33:
Figura 33. Algunos estadísticos para la variable EDAD
Seleccione el rango de celda M20 a N24 y luego usando el botón derecho del ratón
seleccione la alternativa Copiar. Manteniendo el rango seleccionado M20 a N24
diríjase al menú principal y elija Edición/Pegado especial. En el cuadro de diálogo
que aparece seleccione la opción valores, como se muestra en la figura 34.

Figura 34. Pegado especial - Valores
Presione el botón Aceptar y verá que aparentemente no se opera cambio alguno.

En realidad, acaba de convertir las fórmulas introducidas en el paso anterior en
valores que pueden usarse para cálculos posteriores.
Seleccione el rango M20 a N24 y luego del menú principal elija Insertar/Gráfico. En
tipo de gráfico seleccione Líneas y en subtipo de gráfico Línea con marcadores en
cada valor, generándose el grafico de la figura 34. Se puede agregarle un título al
gráfico
Figura 35. Diagrama de líneas
Parados en la línea azul de la figura 35, damos botón derecho y escogemos

seleccionar datos. Figura 36

Figura 36. Seleccionar datos
Seleccionamos el botón “Cambiar fila/columna que aparece en la figura 37
Figura 37. Cambiar fila/columna

El gráfico resultante deberá tener el siguiente aspecto:
Figura 38. Cambiar fila/columna

Figura 39. Agregar elemento de gráfico – Diseño rápido
En diseño rápido seleccionamos “Diseño 1”, y en Agregar elemento de gráfico,

seleccionamos Líneas – Líneas de máximos y mínimos y Barras ascendentes y
descendentes. Figura 40.
Figura 40. Líneas máximos y mínimos – Líneas ascendentes y descendentes
Finalmente, el diagrama de cajas y bigotes, con sus respectivos ajustes será:
Diagrama de cajas y bigotes para la EDAD

80
70
60 Primer cuartil
Título del eje
50 Mínimo
40
Mediana
30
20 Máximo
10 Tercer cuartil
0
1
Figura 41. Diagrama de cajas y bigotes para la variable EDAD

6. ESTADISTICA DESCRIPTIVA MEDIANTE EL COMPLEMENTO
MEGASTAT
6.1. Que es Megastat: Es un complemento de Microsoft Excel. Creado por J. B.

Orris en la Universidad de Butler. Hasta la versión 9.1 era de uso libre, sin embargo,
hoy en día es distribuido por la editorial McGraw-Hill. MegaStat ofrece herramientas
para efectuar estadística descriptiva, cálculos probabilísticos, estimación por
intervalos, prueba de hipótesis, series de tiempo y control de calidad.
MegaStat 10.3 Release 3.2 y versiones posteriores se ejecutarán en 32 bits o 64
bits Excel 2010, 2013, y 2016. Las versiones anteriores se pueden ejecutar sólo en
32 bits de Excel.
MegaStat 10.2 ha sido probado con las versiones de 32 bits de Microsoft Excel
2010, 2013, y 2016. MegaStat 10.2 y versiones anteriores pueden ejecutarse en
Excel 2007, MegaStat trabajará con 32 y 64 bits de Windows 10, Windows 8,
Windows 7, y Windows Vista Service Pack 2.
Según sea el sistema operativo o la versión de Excel, el ejecutable de Megastat se
puede bajar del siguiente link:
http://www.estadisticacondago.com/index.php/software-aplicativo-superior-89

6.2. Instalación y activación de Megastat: Por ser un complemento de Excel, el
ejecutable de Megastat, debe ser descomprimido en la carpeta “Library” o en la
carpeta “AddIns”, según la versión de Excel. Para ir en busca de cualquiera de estas
dos rutas, siga las siguientes instrucciones:
• Abra Excel, y siga la siguiente ruta: Archivo – Opciones – Complementos – Ir
- Examinar
Figura 42. Ruta para el copiado de Megastat
• Copie la ruta que aparece en la Figura 43

Figura 43. Carpeta del complemento Megastat
• La ruta definitiva para este PC que tiene instalado el Excel 2016, es la

siguiente: C:\Users\DAGO\AppData\Roaming\Microsoft\AddIns.
• Copie esta dirección en cualquier carpeta del explorador, y pegue la versión
adecuada del Megastat, descomprimiéndola.
Figura 44. Pegado y descomprensión de Megastat

• Una vez realizado el paso anterior, vuelva y abra la ruta de la Figura 42 y
active Megastat, como lo indica la Figura 45, finalmente oprima “Aceptar”
Figura 45. Activación de Megastat
Figura 46. Megastat Activado
6.3. Configuración del punto como separador de decimales: Algo muy

importante para trabajar con Megastat, es la configuración del punto y como
tal la coma, por ser una macro programada en otra región. Para ello se abre
el “Panel de control” del PC, y se realiza lo siguiente:
• Escogemos “Reloj, idioma y región” – “Región” y “Configuración adicional…”

Figura 47.

Figura 47. Configuración adicional del Panel de control
• En “Símbolo decimal”, escogemos punto “.”, y en “Símbolo de separación

de miles, escogemos coma “,”, y damos “Aceptar” “Aceptar”. Figura 48.
Figura 48. Configuración del punto y la coma

6.4. Configuración de rangos en Excel: Una forma para facilitar el trabajo en
Megastat, es configurar los rangos de cada una las variables. Esto se realiza
de la siguiente forma: se selecciona toda la variable, incluyendo su etiqueta,
por ejemplo, en el caso de la variable SEXO, se sombrea desde A1 a A501,
y en el “cuadro de nombres”, reemplazamos su contenido por el nombre de
la variable (para nuestro ejemplo “SEXO”. Figura 49. De la misma forma se
hace el procedimiento para el resto de variables.
Figura 49. Rangos para las varables
6.5. Tabulación y graficación variable cualitativa nominal con Megastat

(ESTADO):
a) En la opción “Datos” – “Filtro”, se puede visualizar las diferentes categorías

y el formato de las mismas, para cada variable. En el caso de la variable
ESTADO, se pude observar que existen 5 categorías: Casado, Separado,
Soltero, Unión Libre, Viudo. Figura 50

Figura 50. Filtro para visualizar categorías de las variables
b) En un área libre de la base de datos, por ejemplo, de L3 a L7, se colocan las

diferentes categorías de la variable, respetando el formato original, es decir,
teniendo en cuenta la escritura original en la base datos (respetando
mayúsculas y minúsculas). Figura 51.
Figura 51. Categorías de la variable ESTADO

c) Se elige la ruta: “Complementos – Megastat – Freqency Distributions –
Qualitative…”, como la indica la Figura 52.
Figura 52. Selección del comando Qualitative
d) Inmediatamente después, aparece un cuadro de dialogo como el de la Figura

53, donde en la opción “InputRange”, se escribe el nombre de la variable
definida en el rango que se configuro anteriormente (sección 6.4), o se
oprime la pestaña encerrada en el ovalo azul, seleccionando el rango de la
variable ($H$1:$H$501), y en la opción “specification range”, se ubica el
rango de las categorías ($L$3:$L$7). Escogemos la opción “histogram”, para
que se genere la gráfica, que no es un histograma sino un diagrama de barras
Figura 53. Selección del rango y las categorías de la variable ESTADO
El resultado obtenido se muestra en la Figura 54, en una hoja nueva del libro Excel,
llamada “Output”.

Figura 54. Output de la variable ESTADO
e) Por último, se edita la tabla y las gráficas como en el apartado 2.3.1.
6.6. Tabulación y graficación variable cualitativa ordinal con Megastat

(ESTRATO):
a) Se repiten los incisos del a) al d), de la sección anterior 6.5, teniendo en

cuenta que las categorías que deben ir en el área en blanco de la base de
datos son: Bajo, Medio y Alto. Estas categorías deben de tener un orden
establecido, por ser una variable Ordinal.
b) Se edita la tabla y las gráficas de la misma forma que en el apartado 2.3.2.
6.7. Tabulación y graficación variable cuantitativa discreta con Megastat

(EDUCACION):
a) Se repiten los incisos del a) al d), de la sección 6.5, teniendo en cuenta que
las categorías que deben ir en el área en blanco de la base de datos son los
números: 8-12-14-15-16-17-18-19-20-21. Estos números deben de ir en

orden por ser una variable Discreta. Se aclara que la variable EDUCACION,
es una variable discreta, pero para el tratamiento en Megastat, optamos por
la opción del apartado 6.5.
b) Se edita la tabla y las gráficas de la misma forma que en el apartado 2.3.3.
6.8. Tabulación y graficación variable cuantitativa continua con Megastat

(EDAD):
Teniendo en cuenta los incisos del 1 al 3 del apartado 2.3.4.1., para el cálculo de la
amplitud (4,21) y el mínimo redefinido (29,81), se realizan los siguientes pasos:
a) Se elige la ruta: “Complementos – Megastat – Freqency Distributions –
Quantitative…”, como la indica la Figura 55.
Figura 55. Selección del comando Quantitative
b) Aparece un cuadro de dialogo como el de la Figura 56, donde en la opción

“InputRange”, se escribe el nombre de la variable definida en el rango que se
configuro anteriormente (sección 6.4), o se oprime la pestaña encerrada en
el ovalo azul, seleccionando el rango de la variable ($B$1:$B$501). En
“interval width”, escribimos la amplitud (4,21) y en “lower boundary of first
interval”, el límite inferior del primer intervalo (29,81). Seleccionamos las tres
gráficas para las frecuencias acumuladas y las no acumuladas “Histogram,
Polygon y Ogive” y damos “OK”.

Figura 56. Selección del rango, amplitud y límite inferior del primer intervalo
de la variable EDAD
El resultado obtenido se muestra en la Figura 57, en una hoja nueva del libro Excel,
llamada “Output”.
Figura 57. Output de la variable EDAD
c) Por último, se edita la tabla y las gráficas con las convenciones como en el
apartado 2.3.4.

6.9. Estadísticos y análisis exploratorio de datos con Megastat

BIBLIOGRAFÍA
• Berenson, Mark. (1.992): Estadística Básica en Administración. Editorial.

Harla. Cuarta Edición. México.
• Best,J. W. (1987): Como Investigar en Educación. Editorial Morata. Madrid
– España.
• Castañeda J., J. (1991): Métodos de Investigación 2. Editorial McGraw-Hill.
México.
• Chao, L.(1993): Estadística para la Ciencia Administrativa. Editorial McGraw
–Hill. 4ta Edición. Colombia
• DANIEL WAYNE, W. y Otros (1993): Estadística con Aplicación a las
Ciencias Sociales y a la Educación Editorial McGraw-Hill Interamericana de
México, S.A. de C.V. México.
• ERKIN KREYSZIA (1978): Introducción a la Estadística Matemática. Editorial
Limusa, S.A. México.
• Gomes Rondón, Francisco (1985): Estadística Metodológica: Ediciones
Fragor. Caracas.
• González, Nijad H. (1986): Métodos estadísticos en Educación. Editorial
Bourgeón, Caracas.
• Mason, Robert (1.992): Estadística para la Administración y Economía.
Ediciones Alfaomega S.A.N. México.
• WALPOLE, R. y Myers, R. (1987): Probabilidad y Estadística para Ingenieros.
Editorial Interamericana. México.
• Webster, Allen L. (1996): Estadística Aplicada a la Empresa y la Economía.
Editorial Irwin. Segunda edición. Barcelona – España.
• Weimer, Richard C. (1996) Estadística. Compañía Editorial Continental, SA
de CV. México.
• Wonnacott, T. H. y Wonnacott, R: J. (1989): Fundamentos de Estadística
para Administración y Economía. Editorial LIMUSA. México.

Estadística Descriptiva Con Excel 2016 y Megastat PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Estadística Descriptiva Con Excel 2016 y Megastat PDF

Caricato da

Copyright:

Formati disponibili

ESTADISTICA DESCRIPTIVA CON

EXCEL 2016 Y EL COMPLEMENTO

DAGOBERTO SALGADO HORTA

pág. 1 Dagoberto Salgado Horta

La estadística es una ciencia que soporta la mayoría de estudios en cualquiera de

En la mayoría de las explicaciones se toma como referencia la base de datos

pág. 2 Dagoberto Salgado Horta

SEXO = sexo del empleado

pág. 3 Dagoberto Salgado Horta

1.1 CONCEPTO DE ESTADÍSTICA Y SU CLASIFICACION

Estadística: se ocupa de los métodos y procedimientos para recoger, clasificar,

Podríamos por tanto clasificar la Estadística en descriptiva, cuando los resultados

Estadística Ciencia que recoge y organiza datos de forma

Estadística descriptiva Organización de los datos en tablas y gráficas. Se

Estadística matemática Comparación de medidas calculadas mediante

Estadística no Pruebas estadísticas aplicadas cuando se supone

Estadística paramétrica Pruebas estadísticas aplicadas cuando se supone

Población: Conjunto de individuos u objetos de interés o medidas obtenidas a partir

pág. 4 Dagoberto Salgado Horta

Unidad de estudio: Es el animal persona o cosa de quien se dice algo. Es el

Observaciones: Estadísticamente son los datos que se recolectan para un estudio.

Tipos de variables: Existen dos tipos básicos de variables: 1) cualitativas y 2)

pág. 5 Dagoberto Salgado Horta

pág. 6 Dagoberto Salgado Horta

El Análisis Exploratorio de datos, antiguamente llamado Estadística Descriptiva,

2.1. Distribución de Frecuencias

Cuando la información que se tiene es un gran volumen, resulta muy conveniente

pág. 7 Dagoberto Salgado Horta

2.2. Representación Gráfica

El patrón de variación de los datos puede apreciarse mejor representando

Partes de un gráfico estadístico

pág. 8 Dagoberto Salgado Horta

• No existe una regla específica para la construcción de gráficos, pero si es

1.- Diagrama de Líneas.

Los diagramas de líneas, el histograma, el polígono de frecuencia y la ojiva son

El objetivo que corresponde ahora es presentar los principales procedimientos de

2.3. Instrucciones para las variables cualitativas

pág. 9 Dagoberto Salgado Horta

2.3.1. Tabla de frecuencia y gráficos de la variable ESTADO (cualitativa

a) en la barra de menú seleccione insertar Tabla dinámica, vea la Figura 1.

Figura 1 Insertar Tabla dinámica

b) escoja la opción Tabla o rango y seleccione toda la base de datos (A1:J501)

Figura 2 Crear Tabla dinámica

pág. 10 Dagoberto Salgado Horta

Figura 3 Campos de la Tabla dinámica

Observe a la derecha los nombres de las variables existentes en el archivo de datos,

pág. 11 Dagoberto Salgado Horta

pág. 12 Dagoberto Salgado Horta

Finalmente, la tabla de frecuencias para la variable nominal ESTADO con su

Tabla No 1: Distribución de frecuencias del estado civil de 500 empleados de

A partir de los resultados de la tabla dinámica, es posible también construir gráficos.

pág. 13 Dagoberto Salgado Horta

Figura 6 Generación de gráficos variable ESTADO

Grafica No 1: Diagrama de barras del estado civil de 500 empleados de la

pág. 14 Dagoberto Salgado Horta

Se puede de esta forma generar interpretaciones de la variable ESTADO. Por

• Casi en proporciones iguales, el estado civil de los empleados de la empresa

2.3.2. Tabla de frecuencia y gráficos de la variable ESTRATO (cualitativa

Siguiendo los mismos pasos de la variable ESTADO, y teniendo cuidado en ordenar

pág. 15 Dagoberto Salgado Horta

La tabla de frecuencias para la variable nominal ESTRATO con su respectivo título

Tabla No 2: Distribución de frecuencias del estrato social de 500 empleados

ESTRATO ni hi% Ni Hi%