Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Medidas de dispersión
Jhon F. Bernedo Gonzales • Ronny I. Gonzales Medina • 2020
Índice
1. Introducción 2
2. Rango 2
5. Coeficiente de variación 13
6. Puntaje z 16
1
Probabilidad y Estadística 2. Rango
1 Introducción
Una medida de tendencia central, por ejemplo, la media aritmética (o la mediana) no proporciona una
descripción completa o suficiente de los datos, esto debido a que existe variación en los datos, esto es,
dispersión entre los datos.
Las medidas de dispersión mas comunes para cuantificar la dispersión son: amplitud, desviación
media, varianza, desviación estándar, rango intercuartílico, el coeficiente de variación entre otros.
Las medidas de dispersión son utilizados para
comparar distribuciones de los datos, tal como, la forma de la distribución de los datos, entre
otras características.
2 Rango
Una manera de medir la variación en un conjunto de datos es calcular el rango.
R = xmax − xmin
El cálculo del rango es fácil y es generalmente es adecuada cuando el conjunto de datos es pequeño.
Sin embargo cuando el conjunto de datos es grande el rango muestral no es una medida adecuada
para medir la variación
El rango de la muestra es más usado en el área del control estadístico de la calidad.
2
Probabilidad y Estadística 2. Rango
Ejemplo 2.1.
Considerando 2 conjuntos de datos
muestra datos
1 2, 3, 3.6, 4, 4.6, 8, 10.3, 11, 12, 15,
2 4, 4.8, 5, 5.2, 5.4, 6, 6.5, 7.2, 9.5, 10
3
Probabilidad y Estadística 2. Rango
Ejemplo 2.2.
Dado que se tiene 2 muestras de datos
A B
2 2
3 6.9 Se observa que en la muestra A el rango es dado por R1 = 15 − 2 = 13, y
3.6 7.9 el rango en la muestra B es R2 = 15 − 2 = 13.
4 8 Así, se pude observar que ambas muestran tienen el mismo rango y
4.6 8.2 aparentemente tienen la misma dispersión.
8 8.3 Un gráfico de los puntos de cada muestra debe de ser considerada antes
10.3 8.5 de afirmar que la dispersión de ambas muestras es la misma.
11 10
12 11
15 15
Como se puede observar del gráfico de puntos, la distribución de los datos para ambas es distinta. La
muestra A tiene sus valores mas dispersos y la muestra B una gran parte de los datos se agrupan al
centro.
Muestra B
Muestra A
● ● ●● ● ● ● ● ● ●
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Nótese que, el rango tiene un defecto porque sólo considera 2 los datos extremos y no considera los
n − 2 datos restantes.
4
Probabilidad y Estadística 3. Varianza y desviación estándar
Notación:
Se usa también la notación s2x para la varianza si los datos son denotados x1 , . . . , xn
Si los datos son denotados por y1 , . . . , yn la varianza de la muestra es denotada por s2y
5
Probabilidad y Estadística 3. Varianza y desviación estándar
Ejemplo 3.1.
Un estudio de la relación entre edad y varias funciones visuales (tales como agudeza y percepción
de profundidad) reportó las siguientes observaciones de área de la lámina esclerótica (mm 2 ) de las
cabezas del nervio óptico humano (“Morphometry of Nerve Fiber Bundle Pores in the Optic Nerve
Head of the Human”, Experimental Eye Research, 1988: 559-568)
Solución:
Pn
n = 17 − nx2 2
i=1 xi
s2x =
n−1
x = 3.3412
197.804 − 17 · 3.34122
X
n = = 0.5016
x2i = 197.804 17 − 1
√
i=1 sx = 0.5016 = 0.7082
6
Probabilidad y Estadística 3. Varianza y desviación estándar
Propiedades
1) Para datos no agrupados por intervalos se tiene que la suma de los cuadrados de los valores es
dado por
X
n
x2i = (n − 1)s2x + nx2
i=1
2) Si todos los datos x1 , x2 , . . . , xn son iguales a una constante c, entonces la media aritmética es igual
a x = c y la varianza muestral es igual a 0.
3) Sea x que representa una variable estadística (discreta o continua) y sea xi un valor de la muestra
de tamaño n. Si se considera una transformación lineal de x, esto es,
yi = axi + b i = 1, . . . , n
sy = |a|sx
4) Considerando 3 grupos de datos en que para cada grupo se tiene su tamaño de muestra, media y
varianza dadas respectivamente:
En que n = n1 + n2 + n3 .
La varianza total de los n valores de los datos es dado por
hP i
3 2 + n x2 − nx2
(n
i=1 i − 1)s i i i
s2x =
n−1
en que x es la media global es dada por
n1 x1 + n2 x2 + n3 x3
x=
n
7
Probabilidad y Estadística 3. Varianza y desviación estándar
Ejemplo 3.2.
El costo inicial de producción x de una muestra de 50 objetos de cierto tipo, tiene una desviación
estándar de $3. La media del costo de producción es de $25 para 30 de los objetos de la muestra y de
$20 para el resto. El costo final de producción y es dado por la relación
yi = 1.15xi + 2,
Solución:
Para calcular la media y se tiene que calcular primero la media, y1 , para los n1 =30 objetos y la media,
y2 , para los restantes.
Luego la media es
n1 y1 + n2 y2 30(30.75) + 20(25)
y= = = 28.45
n1 + n2 30 + 20
Para calcular la varianza y desviación estándar
√
s2y = 1.152 s2x = 1.152 (32 ) = 11.9025 ⇒ sy = 11.9025 = 3.45
8
Probabilidad y Estadística 3. Varianza y desviación estándar
Teorema de Chebyshev
Casos particulares
1 1
(1 − 2
) × 100 % = (1 − ) × 100 %
2 4
3
= × 100 %
4
= 75 % de los datos.
1 1
(1 − 2
) × 100 % = (1 − ) × 100 %
4 16
15
= × 100 %
16
= 93.75 % de los datos.
9
Probabilidad y Estadística 3. Varianza y desviación estándar
Ejemplo 3.3.
Un conjunto de datos tiene una media de 75 y una desviación estándar de 5. Usted no sabe nada más
acerca del tamaño del conjunto de datos o de la forma de la distribución de datos.
a) ¿Qué puede decir acerca de la proporción de mediciones que caen entre 60 y 90?
b) ¿Qué puede decir acerca de la proporción de mediciones que caen entre 65 y 85?
Solución:
10
Probabilidad y Estadística 3. Varianza y desviación estándar
Ejemplo 3.4.
Un grupo de animales experimentales es infectado con una forma particular de bacterias, encontrándose
que su tiempo medio de supervivencia es de 32 días con una desviación estándar de 6 días.
¿Dentro de qué límites esperaría usted que se encuentren al menos 3/4 de las mediciones?
11
Probabilidad y Estadística 4. Varianza para datos agrupados por intervalos
mi : marca de clase
Será considerado la tabla de distribución de frecuencias relacionado con las edades de los regidores de
varias alcaldías en algún país.
12
Probabilidad y Estadística 5. Coeficiente de variación
homogeneidad y heterogeneidad
5 Coeficiente de variación
sx
CV = × 100 %
x
El CV es utilizada para comparar la dispersión de dos conjuntos de datos, sin que tales conjuntos
tengan las mismas unidades de medida.
Así el CV es adimensional (sin dimensiones), i.e., no tiene unidades de medida.
Baja dispersión: CV 6 15 %
13
Probabilidad y Estadística 5. Coeficiente de variación
Ejemplo 5.1.
Se realiza un estudio acerca de los efectos del tabaquismo sobre los patrones de sueño. La medición que se
observa es el tiempo, en minutos, que toma que dar dormido. Se obtienen los siguientes datos:
Bryan afirma que el grupo de fumadores es el grupo mas homogéneo, es esta afirmación correcta? Justifique su
respuesta calculando el coeficiente de variación.
Solución:
No fumadores (y)
Fumadores (x)
y = 30.32
x = 43.7
sy = 7.1278
sx = 16.9278
sy 7.1278
sx 16.9278 CVy = × 100 = × 100
CVx = × 100 = × 100 y 30.32
x 43.7
= 23.5086
= 38.7364 %
Interpretación:
- El grupo de no fumadores es mas homogéneo esto por que su CVy es menor que el CV del
grupo de fumadores (23.51% < 38.74% )
- El grupo de fumadores es el mas heterogéneo esto por que su CVx es mayor que el CV
del grupo de no fumadores ( 38.74% > 23.51% )
14
Probabilidad y Estadística 5. Coeficiente de variación
Ejemplo 5.2.
La junta directiva de la empresa Gothic Products está considerando adquirir una o dos compañías y
examinando minuciosamente la administración de cada compañía, con el fin de hacer una transacción
lo menos riesgosa posible. Durante los últimos 5 años,
la primera de las compañías tuvo una recuperación promedio de lo invertido del 28.0 %, con una
desviación estándar del 5.3 %
la otra compañía tuvo una recuperación promedio de lo invertido del 37.8 %, con una desviación
estándar del 4.8 %
Si consideramos riesgoso asociarse con una compañía que tenga una alta dispersión relativa en la
recuperación, ¿cuál de estas dos compañías ha seguido una estrategia más riesgosa?
15
Probabilidad y Estadística 6. Puntaje z
6 Puntaje z
x−x
z=
sx
Por ejemplo:
si z = −1.6 significa que la observación esta a 1.6 desviaciones estándar por abajo de la media.
Ejemplo 6.1.
Las calificaciones en un examen de matemáticas e historia generaron las medias 13 y 17 y las desviacio-
nes estándar 3 y 4 respectivamente. Si un alumno obtuvo 14 en matemáticas y 16 en historia, en cuál de
los dos curso tiene mejor rendimiento relativo?
Solución:
Matemáticas Historia
x = 13 y = 17
sx = 3 sy = 4
x = 14 y = 16
x−x 14 − 13 y−y 16 − 17
zx = = = 1/3 = 0.3333 zy = = = −1/4 = −0.25
sx 3 sy 4
Interpretación:
El alumno tuvo un mejor rendimiento relativo en el curso de matemáticas
16
Probabilidad y Estadística 6. Puntaje z
Ejemplo 6.2.
La media de las notas de un curso es 75 puntos con una desviación estándar de 5 puntos, Bryan tiene
un puntaje z = −2. Cuantos puntos Bryan tiene en el curso?
17
Probabilidad y Estadística 7. Índices de asimetría y curtosis
1 Pn
"P
#
n 3
p 3
n i=1 (xi − x) n(n − 1) n i=1 (xi − x)
AS = = (7.1)
h P
(n − 1)(n − 2) s3x n−2 1 n 2
i3/2
n i=1 (xi − x)
En este sentido, el coeficiente de asimetría de Pearson tipo 2 calculada considerando la media, mediana
y desviación estándar de la muestra es dada por
3(x − Me)
AS = (7.2)
sx
En relación a esta última estadística dada en (7.2) es poco usada en la actualidad aunque es intuitiva
para indicar la relación entre la media aritmetica, mediana y moda.
Interpretación
a) Si AS = 0 entonces se dice que la distribución es simétrica.
18
Probabilidad y Estadística 7. Índices de asimetría y curtosis
Ejemplo 7.1.
Las personas sensibles a la sal deben tener cuidado con el contenido de sodio en los alimentos. A
continuación se muestra el contenido de sodio (en miligramos) en una porción de 3 cucharadas de 32
marcas de mantequilla de maní.
Solución:
n = 32
x = 115.78125
sx = 60.6299
Pn 3
i=1 (xi − x) =-3456223.389
"P #
n
− x)3
n i=1 (xi 32 −3456223.389
AS = = = −0.5336
(n − 1)(n − 2) s3x (32 − 1)(32 − 2) (60.6299)3
19
Probabilidad y Estadística 7. Índices de asimetría y curtosis
7.2 Curtosis
La curtosis de una distribución de frecuencias mide el apuntamiento o agudeza de la distribución
(polígono) de frecuencia. La curtosis puede ser calculado utilizando
Pn
1 i=1 (xi − x)4
K= −3 (7.3)
n s4x
Interpretación:
20
Probabilidad y Estadística 7. Índices de asimetría y curtosis
Ejemplo 7.2.
Las personas sensibles a la sal deben tener cuidado con el contenido de sodio en los alimentos. A
continuación se muestra el contenido de sodio (en miligramos) en una porción de 3 cucharadas de 32
marcas de mantequilla de maní.
21
Probabilidad y Estadística 7. Índices de asimetría y curtosis
IQR = Q3 − Q1 (7.4)
Así como el rango R y la desviación estándar sx , cuanto mayor sea la variabilidad (dispersión) en los
datos, mayor también será el rango intercuartil IQR. Sin embargo, a diferencia de esas medidas, el IQR
no se ve afectado por observaciones que están debajo del primer cuartil, Q1 o arriba del tercer cuartil,
Q3 . Esto significa que el IQR no se ve afectado por valores atípicos.
En resumen, se recomienda usar el IQR en lugar del rango o la desviación estándar para comparar
la dispersión (variabilidad) de las distribuciones que están muy sesgadas (asimétricas) o que poseen
valores atípicos severos.
Ejemplo 7.3.
Se investiga la cantidad de sodio en 20 marcas de cereales para desayuno, los niveles registrados (en
mg) son
a) Encuentre los cuartiles inferior (Q1 ) y superior (Q3 ) para este conjunto de datos
b) Calcule IQR
Solución:
x5 + x6 130 + 140
Q1 = = = 135
2 2
Posición 20(3/4) = 15 = (i) luego
b) Calcule IQR
IQR = 205 − 135 = 70
El 50 % de las mediciones se extienden en un rango de 70 mg.
22
Probabilidad y Estadística 7. Índices de asimetría y curtosis
Usualmente para tener una buena descripción de a distribución de los datos se utiliza el resumen de
los 5 números que son
Estas estadísticas se usadas frecuentemente como un conjunto para resumir posiciones que ayudan a
describir el centro y la variabilidad de una distribución.
Definición 7.1
Una observación es un potencial outlier, x∗ , si este cae a una distancia mayor que 1.5 × IQR por
debajo del primer cuartil (Q1 ) ó a una distancia mayor que 1.5 × IQR por encima del tercer cuartil
(Q3 ).
x∗ ∈/ (Q1 − 1.5 × IQR, Q3 + 1.5 × IQR)
Ejemplo 7.4.
Considerando los datos presentados en el Ejemplo 7.3 indicar cuales observaciones puedens er poten-
ciales outliers
Solución:
Para los datos de cantidad de sodio en los cereales se tiene que
luego se tiene
1.5 × IQR = 1.5 × 70 = 105
Se calcula lo límites
Ordenando los datos de forma ascendente, se tiene que las observaciones que caen fuera de estos
límites son: 0 y 340.
23
Probabilidad y Estadística 8. Gráfico de box-plot ó de cajas
Contrucción
Una caja (box) se construye del primer cuartil,Q1 , al tercer cuartil Q3
Se traza una línea dentro del cuadro, esta linea representa la mediana
Se traza una línea que va desde el extremo inferior de la caja hasta la observación más pequeña
que no es un valor atípico potencial. Otra línea va desde el extremo superior de la caja a la
observación más grande que no es un valor atípico potencial. Estas líneas se llaman bigotes
Los potenciales outliers (valores atípicos) que caen en más de 1.5 × IQR debajo del primer cuartil o
encima del tercer cuartil se muestran por separado con símbolos tales como puntos, estrellas o
asteriscos.
24
Probabilidad y Estadística 8. Gráfico de box-plot ó de cajas
Ejemplo 8.1.
Construir la gráfica de box-plot o de caja para la cantidad de sodio en las 20 marcas de cereales para
desayuno (en mg) del Ejemplo 7.3.
Solución:
Del Ejemplo 7.3 y 7.4 se tiene la siguiente información
Q1 Q3
Figura 8.1: Gráfica de caja o de box-plot para los niveles de sodio en los cereales del Ejemplo 7.3.
25
Probabilidad y Estadística 8. Gráfico de box-plot ó de cajas
Ejemplo 8.2.
Siguiendo una lista del número de sitios de residuos peligrosos en cada uno de los 50 estados federales
de los Estados Unidos en abril de 1995. Los datos se tomaron de The World Almanac and Book of Facts
1996 (World Almanac Books, Mahwah, NJ, 1996). La lista se ha ordenado numéricamente.
1 2 3 4 4 5 6 8 8 9
indicar que datos
10 10 10 11 11 11 12 12 12 12 son los datos
13 13 14 15 16 17 17 18 18 19 outlier ó datos
19 20 22 23 24 25 29 30 33 37 atípicos
38 39 40 55 58 77 81 96 102 107
Construya un diagrama de caja para estos datos. ¿El diagrama de caja muestra algún dato atípico?
50(1/4) = 12.5
12< 12.5 < 13
Q1= X_(13) = 10
Q3= 30
IQR= Q3-Q1=30- 10 = 20
26