Medidas de Dispersión: Índice

Probabilidad y Estadística ÍNDICE
Medidas de dispersión
Jhon F. Bernedo Gonzales • Ronny I. Gonzales Medina • 2020
Última revisión: 8 de octubre de 2020
Índice
1. Introducción 2
2. Rango 2
3. Varianza y desviación estándar 5
4. Varianza para datos agrupados por intervalos 12
5. Coeficiente de variación 13
6. Puntaje z 16
7. Índices de asimetría y curtosis 18

7.1. Asimetría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
7.2. Curtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
7.3. Rango intercuartil (IQR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
7.4. Detección de potenciales outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
8. Gráfico de box-plot ó de cajas 24
1
Probabilidad y Estadística 2. Rango
1 Introducción
Una medida de tendencia central, por ejemplo, la media aritmética (o la mediana) no proporciona una
descripción completa o suficiente de los datos, esto debido a que existe variación en los datos, esto es,
dispersión entre los datos.
Definición 1.1 (Medida de Dispersión)

Un medida de dispersión de una variable cuantitativa es un indicador del grado dispersión de
los valores de la muestra o población alrededor de una medida de centralidad (media aritmética,
mediana entre otros). Nótese que
la dispersión es pequeña si los datos son próximos uno de los otros
la dispersión es grande si los valores son muy diferentes (dispersos)
Las medidas de dispersión mas comunes para cuantificar la dispersión son: amplitud, desviación
media, varianza, desviación estándar, rango intercuartílico, el coeficiente de variación entre otros.
Las medidas de dispersión son utilizados para
cuantificar y conocer la variabilidad (dispersión) de los datos.
comparar distribuciones de los datos, tal como, la forma de la distribución de los datos, entre
otras características.
2 Rango
Una manera de medir la variación en un conjunto de datos es calcular el rango.
Definición 2.1 ( Rango )

El rango o recorrido de un conjunto de n datos es la diferencia entre el mayor (xmax ) y el menor
valor (xmin )
R = xmax − xmin
El cálculo del rango es fácil y es generalmente es adecuada cuando el conjunto de datos es pequeño.
Sin embargo cuando el conjunto de datos es grande el rango muestral no es una medida adecuada
para medir la variación
El rango de la muestra es más usado en el área del control estadístico de la calidad.
2
Ejemplo 2.1.
Considerando 2 conjuntos de datos
muestra datos
1 2, 3, 3.6, 4, 4.6, 8, 10.3, 11, 12, 15,
2 4, 4.8, 5, 5.2, 5.4, 6, 6.5, 7.2, 9.5, 10
se observa que en la muestra 1 el rango es dado por R1 = 15 − 2 = 13, y el rango en la muestra 2 es R2 = 10 − 4 = 6,

así se pude observar que la muestra 2 es menos dispersa que la muestra 1, esto por que la muestra 2 tiene un
menor rango en relación a la muestra 1.
3
Ejemplo 2.2.
Dado que se tiene 2 muestras de datos
A B
2 2
3 6.9 Se observa que en la muestra A el rango es dado por R1 = 15 − 2 = 13, y
3.6 7.9 el rango en la muestra B es R2 = 15 − 2 = 13.
4 8 Así, se pude observar que ambas muestran tienen el mismo rango y
4.6 8.2 aparentemente tienen la misma dispersión.
8 8.3 Un gráfico de los puntos de cada muestra debe de ser considerada antes
10.3 8.5 de afirmar que la dispersión de ambas muestras es la misma.
11 10
12 11
15 15
Como se puede observar del gráfico de puntos, la distribución de los datos para ambas es distinta. La
muestra A tiene sus valores mas dispersos y la muestra B una gran parte de los datos se agrupan al
centro.
Muestra B
Muestra A
● ● ●● ● ● ● ● ● ●
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Nótese que, el rango tiene un defecto porque sólo considera 2 los datos extremos y no considera los
n − 2 datos restantes.
4
Probabilidad y Estadística 3. Varianza y desviación estándar
3 Varianza y desviación estándar

La varianza muestral es una medida de dispersión para un conjunto de datos (univariados) y es dada
por
Pn Pn
− x)2
i=1 (xi
2
i=1 xi − nx2
s2x = = (3.1)
n−1 n−1
La varianza es una estadística de difícil interpretación por presentar unidades al cuadrado de la unidad
de medida de los datos.
Por tal razón, en la práctica se usa la desviación estándar que es definida como la raíz cuadrada de la
varianza
Pn
s
− x)2
i=1 (xi
q
sx = s2x =
n−1
Notación:
Se usa también la notación s2x para la varianza si los datos son denotados x1 , . . . , xn
Si los datos son denotados por y1 , . . . , yn la varianza de la muestra es denotada por s2y
5
Ejemplo 3.1.
Un estudio de la relación entre edad y varias funciones visuales (tales como agudeza y percepción
de profundidad) reportó las siguientes observaciones de área de la lámina esclerótica (mm 2 ) de las
cabezas del nervio óptico humano (“Morphometry of Nerve Fiber Bundle Pores in the Optic Nerve
Head of the Human”, Experimental Eye Research, 1988: 559-568)
2.75 2.62 2.74 3.85 2.34 2.74 3.93 4.21 3.88

4.33 3.46 4.52 2.43 3.65 2.78 3.56 3.01
Encuentre la varianza muestral s2 y la desviación estándar muestral, s.
Solución:
Pn
n = 17 − nx2 2
i=1 xi
s2x =
n−1
x = 3.3412
197.804 − 17 · 3.34122
X
n = = 0.5016
x2i = 197.804 17 − 1
√
i=1 sx = 0.5016 = 0.7082
6
Propiedades
1) Para datos no agrupados por intervalos se tiene que la suma de los cuadrados de los valores es
dado por
X
n
x2i = (n − 1)s2x + nx2
i=1
2) Si todos los datos x1 , x2 , . . . , xn son iguales a una constante c, entonces la media aritmética es igual
a x = c y la varianza muestral es igual a 0.
3) Sea x que representa una variable estadística (discreta o continua) y sea xi un valor de la muestra
de tamaño n. Si se considera una transformación lineal de x, esto es,
yi = axi + b i = 1, . . . , n
en que a y b son constantes. Entonces la varianza muestral de los valores transformados

y1 , y2 , . . . , yn es dada por
s2y = a2 s2x ,
en que s2x representa la varianza de los datos x1 , x2 , . . . , xn .
Luego, la desviación estándar para las variables transformadas es dada por
sy = |a|sx
4) Considerando 3 grupos de datos en que para cada grupo se tiene su tamaño de muestra, media y
varianza dadas respectivamente:
grupo 1 grupo 2 grupo3

n1 , x1 , s21 n2 , x2 , s22 n3 , x3 , s23
En que n = n1 + n2 + n3 .
La varianza total de los n valores de los datos es dado por
hP i
3 2 + n x2 − nx2
(n
i=1 i − 1)s i i i
s2x =
n−1
en que x es la media global es dada por
n1 x1 + n2 x2 + n3 x3
x=
n
7
Ejemplo 3.2.
El costo inicial de producción x de una muestra de 50 objetos de cierto tipo, tiene una desviación
estándar de $3. La media del costo de producción es de $25 para 30 de los objetos de la muestra y de
$20 para el resto. El costo final de producción y es dado por la relación
yi = 1.15xi + 2,
Encuentre la media, varianza y desviación estándar del costo final de producción.
Solución:
Para calcular la media y se tiene que calcular primero la media, y1 , para los n1 =30 objetos y la media,
y2 , para los restantes.
y1 = 1.15x1 + 2 = 1.15(25) + 2 = 30.75

y2 = 1.15x2 + 2 = 1.15(20) + 2 = 25
Luego la media es
n1 y1 + n2 y2 30(30.75) + 20(25)
y= = = 28.45
n1 + n2 30 + 20
Para calcular la varianza y desviación estándar
√
s2y = 1.152 s2x = 1.152 (32 ) = 11.9025 ⇒ sy = 11.9025 = 3.45
8
Teorema de Chebyshev
Teorema 3.1 (Teorema de Chebyshev)

La proporción de cualquier distribución (simétrica o asimétrica) que se encuentre dentro de k
desviaciones estándar de la media es por lo menos  − k12 de los valores que se tienen en los
datos.
Así, dado un conjunto de datos de tamaño n, con media aritmética x y desviación estándar sx
entonces del teorema de Chebyshev indica que
el intervalo [x − ksx , x + ksx ] contiene por lo menos

1
− 2 × 100 % de los datos
k
en que k es número positivo mayor a 1 (k > 1).
Casos particulares
a) El intervalo [x − 2sx ; x + 2sx ] (k = 2) contiene por lo menos
1 1
(1 − 2
) × 100 % = (1 − ) × 100 %
2 4
3
= × 100 %
4
= 75 % de los datos.
Interpretación: dentro de 2 desviaciones estándar (2sx ) de la media (x) , siempre se encontrará

por lo menos el 75 % (es decir, 75 % o más) de los datos.
b) El intervalo [x − 3sx ; x + 3sx ] (k = 3) contiene por lo menos
1 1
(1 − ) × 100 % = (1 − ) × 100 %
32 9
8
= × 100 %
9
= 88.89 % de los datos.
c) El intervalo [x − 4sx ; x + 4sx ] (k = 4) contiene por lo menos
1 1
(1 − 2
) × 100 % = (1 − ) × 100 %
4 16
15
= × 100 %
16
= 93.75 % de los datos.
9
Ejemplo 3.3.
Un conjunto de datos tiene una media de 75 y una desviación estándar de 5. Usted no sabe nada más
acerca del tamaño del conjunto de datos o de la forma de la distribución de datos.
a) ¿Qué puede decir acerca de la proporción de mediciones que caen entre 60 y 90?
b) ¿Qué puede decir acerca de la proporción de mediciones que caen entre 65 y 85?
Solución:
10
Ejemplo 3.4.
Un grupo de animales experimentales es infectado con una forma particular de bacterias, encontrándose
que su tiempo medio de supervivencia es de 32 días con una desviación estándar de 6 días.
¿Dentro de qué límites esperaría usted que se encuentren al menos 3/4 de las mediciones?
11
Probabilidad y Estadística 4. Varianza para datos agrupados por intervalos
4 Varianza para datos agrupados por intervalos

El cálculo de algunas medidas de dispersión cuando los datos están agrupados por intervalos es
diferente al caso cuando los datos no lo están. La varianza para datos agrupados en k intervalos es
dada por
Pk Pk
i=1 fi (mi − x)2 − nx2
2
i=1 fi mi
s2x = = (4.1)
n−1 n−1
en que
mi : marca de clase
fi : frecuencia absoluta de cada intervalo
x es la media aritmética calculada de los datos agrupados en intervalos.
La desviación estándar es dada por la raíz cuadrada de la varianza.

q
sx = s2x
Será considerado la tabla de distribución de frecuencias relacionado con las edades de los regidores de
varias alcaldías en algún país.
Tabla 1: Cálculo de la varianza para las edades de los regidores.

Ii mi fi fi × mi fi × m2i
[21; 31[ 26 189 4914 127764
[31; 41[ 36 1032 37152 1337472
[41; 51[ 46 2053 94438 4344148
[51; 61[ 56 1617 90552 5070912
[61; 71[ 66 564 37224 2456784
[71; 81] 76 95 7220 548720
271500/5550
total 5550 271500 13885800
La media aritmética es x = 48.92 años, luego la varianza es

Pk
2 × m2i − n × x2
i=1 fi
s =
n−1
13885800 − 5550 × 48.922
= = 108.7991 años2
5550 − 1
√
La desviación estándar es s = 108.7991 = 10.43 años.
12
Probabilidad y Estadística 5. Coeficiente de variación
homogeneidad y heterogeneidad
5 Coeficiente de variación
Definición 5.1 (Coeficiente de Variación)

El coeficiente de variación (CV) es una medida de dispersión relativa definida como a razón entre
la desviación estándar y la media aritmética, es dada por
sx
CV = × 100 %
x
El CV es utilizada para comparar la dispersión de dos conjuntos de datos, sin que tales conjuntos
tengan las mismas unidades de medida.
Así el CV es adimensional (sin dimensiones), i.e., no tiene unidades de medida.
A partir del coeficiente de variación se puede evaluar la homogeneidad de un conjunto de datos y

de esta forma saber si la media aritmética es una buena medida para representar estos datos. Una
desventaja del coeficiente de variación es que el deja de ser útil cuando la media está próxima de cero.
Así, una media próxima de cero puede inflacionar el CV.
Varios autores indican diferentes métodos para se clasificar el CV. Sin embargo, en este curso será
considerado la siguiente clasificación (empírica)
Baja dispersión: CV 6 15 %
Media dispersión: 15 % < CV < 30 %
Alta dispersión: CV > 30 %
13
Ejemplo 5.1.
Se realiza un estudio acerca de los efectos del tabaquismo sobre los patrones de sueño. La medición que se
observa es el tiempo, en minutos, que toma que dar dormido. Se obtienen los siguientes datos:
Fumadores 69.3 56 22.1 47.6

53.2 48.1 52.7 34.4
60.2 43.8 23.2 13.8
No fumadores 28.6 25.1 26.4 34.9
29.8 28.4 38.5 30.2
30.6 31.8 41.6 21.1
36 37.9 13.9
Bryan afirma que el grupo de fumadores es el grupo mas homogéneo, es esta afirmación correcta? Justifique su
respuesta calculando el coeficiente de variación.
Solución:
No fumadores (y)
Fumadores (x)
y = 30.32
x = 43.7
sy = 7.1278
sx = 16.9278
sy 7.1278
sx 16.9278 CVy = × 100 = × 100
CVx = × 100 = × 100 y 30.32
x 43.7
= 23.5086
= 38.7364 %
Interpretación:
- El grupo de no fumadores es mas homogéneo esto por que su CVy es menor que el CV del
grupo de fumadores (23.51% < 38.74% )
- El grupo de fumadores es el mas heterogéneo esto por que su CVx es mayor que el CV
del grupo de no fumadores ( 38.74% > 23.51% )
14
Ejemplo 5.2.
La junta directiva de la empresa Gothic Products está considerando adquirir una o dos compañías y
examinando minuciosamente la administración de cada compañía, con el fin de hacer una transacción
lo menos riesgosa posible. Durante los últimos 5 años,
la primera de las compañías tuvo una recuperación promedio de lo invertido del 28.0 %, con una
desviación estándar del 5.3 %
la otra compañía tuvo una recuperación promedio de lo invertido del 37.8 %, con una desviación
estándar del 4.8 %
Si consideramos riesgoso asociarse con una compañía que tenga una alta dispersión relativa en la
recuperación, ¿cuál de estas dos compañías ha seguido una estrategia más riesgosa?
15
Probabilidad y Estadística 6. Puntaje z
6 Puntaje z
Definición 6.1 (Puntaje z ó z-score)

El puntaje z para una observación es el número de desviaciones estándar que este cae (esta alejado)
de la media.
Un puntaje positivo indica que la observación esta por encima de la media.
Un puntaje negativo indica que la observación esta por debajo de la media.

Para una muestra de datos el puntaje z es calculado como
x−x
z=
sx
Los puntajes z son también denominados de valores estandarizados y no tienen unidades.
Por ejemplo:
si z = 2 significa que la observación esta a 2 desviaciones estándar por encima de la media.
si z = −1.6 significa que la observación esta a 1.6 desviaciones estándar por abajo de la media.
Ejemplo 6.1.
Las calificaciones en un examen de matemáticas e historia generaron las medias 13 y 17 y las desviacio-
nes estándar 3 y 4 respectivamente. Si un alumno obtuvo 14 en matemáticas y 16 en historia, en cuál de
los dos curso tiene mejor rendimiento relativo?
Solución:
Matemáticas Historia
x = 13 y = 17
sx = 3 sy = 4
x = 14 y = 16
x−x 14 − 13 y−y 16 − 17
zx = = = 1/3 = 0.3333 zy = = = −1/4 = −0.25
sx 3 sy 4
Interpretación:
El alumno tuvo un mejor rendimiento relativo en el curso de matemáticas
zx=1.8 .... zy=2.5 (mejor rendimiento)
zx=-2.3 zy=-1.2 (mejor)
16
Probabilidad y Estadística 6. Puntaje z
Ejemplo 6.2.
La media de las notas de un curso es 75 puntos con una desviación estándar de 5 puntos, Bryan tiene
un puntaje z = −2. Cuantos puntos Bryan tiene en el curso?
17
Probabilidad y Estadística 7. Índices de asimetría y curtosis
7 Índices de asimetría y curtosis

7.1 Asimetría
La asimetría es una medida de falta de simetría de una distribución o conjunto de datos.
Muchos paquetes estadísticos usan el coeficiente de asimetría de Fisher-Pearson ajustado dado por
1 Pn
"P
 
#
n 3
p 3
n i=1 (xi − x) n(n − 1)  n i=1 (xi − x)
AS = = (7.1)

h P
(n − 1)(n − 2) s3x n−2 1 n 2
i3/2 
n i=1 (xi − x)
En este sentido, el coeficiente de asimetría de Pearson tipo 2 calculada considerando la media, mediana
y desviación estándar de la muestra es dada por
3(x − Me)
AS = (7.2)
sx
En relación a esta última estadística dada en (7.2) es poco usada en la actualidad aunque es intuitiva
para indicar la relación entre la media aritmetica, mediana y moda.
Interpretación
a) Si AS = 0 entonces se dice que la distribución es simétrica.
b) Si AS > 0 la distribución de los datos es asimétrica positiva o sesgada a la derecha.
c) Si AS < 0 la distribución de los datos es asimétrica negativa o sesgada a la izquierda.
18
Ejemplo 7.1.
Las personas sensibles a la sal deben tener cuidado con el contenido de sodio en los alimentos. A
continuación se muestra el contenido de sodio (en miligramos) en una porción de 3 cucharadas de 32
marcas de mantequilla de maní.
0 110 125 150

0 110 130 150
0 115 130 150
5 120 140 160
15 120 140 180
50 120 140 190
65 120 140 200
110 120 150 250
Indique que tipo de asimetría se presenta en los datos.
Solución:
n = 32
x = 115.78125
sx = 60.6299
Pn 3
i=1 (xi − x) =-3456223.389
"P #
n
− x)3

n i=1 (xi 32 −3456223.389
AS = = = −0.5336
(n − 1)(n − 2) s3x (32 − 1)(32 − 2) (60.6299)3
se tiene una asimetria negativa,

esto es, la distribución de los
datos es asimetrica a la izquierda
19
7.2 Curtosis
La curtosis de una distribución de frecuencias mide el apuntamiento o agudeza de la distribución
(polígono) de frecuencia. La curtosis puede ser calculado utilizando
Pn
1 i=1 (xi − x)4
K= −3 (7.3)
n s4x
Interpretación:
Si K = 0 la distribución es normal. mesocúrtica
Si K > 0 la distribución es leptocúrtica
Si K < 0 la distribución es platicúrtica
20
Ejemplo 7.2.
Las personas sensibles a la sal deben tener cuidado con el contenido de sodio en los alimentos. A
continuación se muestra el contenido de sodio (en miligramos) en una porción de 3 cucharadas de 32
marcas de mantequilla de maní.
0 110 125 150

0 110 130 150
0 115 130 150
5 120 140 160
15 120 140 180
50 120 140 190
65 120 140 200
110 120 150 250
Calcule la curtosis para los datos anteriores
21
7.3 Rango intercuartil (IQR)

El rango intercuartil es la diferencia entre el tercer Q3 y el primer cuartil Q1 . Esta medida es mas estable
que el rango (R) por no considerar los valores extremos.
El rango intercuartil (IQR) contiene el 50 % de los datos y es útil para detectar datos atípicos (outliers)
IQR = Q3 − Q1 (7.4)
Así como el rango R y la desviación estándar sx , cuanto mayor sea la variabilidad (dispersión) en los
datos, mayor también será el rango intercuartil IQR. Sin embargo, a diferencia de esas medidas, el IQR
no se ve afectado por observaciones que están debajo del primer cuartil, Q1 o arriba del tercer cuartil,
Q3 . Esto significa que el IQR no se ve afectado por valores atípicos.
En resumen, se recomienda usar el IQR en lugar del rango o la desviación estándar para comparar
la dispersión (variabilidad) de las distribuciones que están muy sesgadas (asimétricas) o que poseen
valores atípicos severos.
Ejemplo 7.3.
Se investiga la cantidad de sodio en 20 marcas de cereales para desayuno, los niveles registrados (en
mg) son
0 50 70 100 130 140 140 150 160 180

180 180 190 200 200 210 210 220 290 340
a) Encuentre los cuartiles inferior (Q1 ) y superior (Q3 ) para este conjunto de datos
b) Calcule IQR
Solución:
a) Calculo de los cuartiles

Posición 20(1/4) = 5 = (i) luego
x5 + x6 130 + 140
Q1 = = = 135
2 2
Posición 20(3/4) = 15 = (i) luego
x15 + x16 200 + 210

Q3 = = = 205
2 2
b) Calcule IQR
IQR = 205 − 135 = 70
El 50 % de las mediciones se extienden en un rango de 70 mg.
22
Usualmente para tener una buena descripción de a distribución de los datos se utiliza el resumen de
los 5 números que son
Valor Mínimo mı́n

Primer Cuartil Q1
Mediana Me
Tercer Cuartil Q3
Valor Máximo máx
Estas estadísticas se usadas frecuentemente como un conjunto para resumir posiciones que ayudan a
describir el centro y la variabilidad de una distribución.
7.4 Detección de potenciales outliers

En el análisis de datos es importante examinar observaciones atípicas outliers. Para la detección de
potenciales outliers se utiliza el rango intercuartilico IQR.
Definición 7.1
Una observación es un potencial outlier, x∗ , si este cae a una distancia mayor que 1.5 × IQR por
debajo del primer cuartil (Q1 ) ó a una distancia mayor que 1.5 × IQR por encima del tercer cuartil
(Q3 ).
x∗ ∈/ (Q1 − 1.5 × IQR, Q3 + 1.5 × IQR)
Ejemplo 7.4.
Considerando los datos presentados en el Ejemplo 7.3 indicar cuales observaciones puedens er poten-
ciales outliers
Solución:
Para los datos de cantidad de sodio en los cereales se tiene que
Q1 = 135, Q3 = 205, IQR = 70
luego se tiene
1.5 × IQR = 1.5 × 70 = 105
Se calcula lo límites
Q1 − 1.5 × IQR = 135 − 105 = 30

( 30 , 310 )
Q3 + 1.5 × IQR = 205 + 105 = 310
Ordenando los datos de forma ascendente, se tiene que las observaciones que caen fuera de estos
límites son: 0 y 340.
0* 50 70 100 130 140 140 150 160 180

180 180 190 200 200 210 210 220 290 340*
23
Probabilidad y Estadística 8. Gráfico de box-plot ó de cajas
8 Gráfico de box-plot ó de cajas

El resumen de los cinco números es utilizado para construir la gráfica de box-plot.
Contrucción
Una caja (box) se construye del primer cuartil,Q1 , al tercer cuartil Q3
Se traza una línea dentro del cuadro, esta linea representa la mediana
Se traza una línea que va desde el extremo inferior de la caja hasta la observación más pequeña
que no es un valor atípico potencial. Otra línea va desde el extremo superior de la caja a la
observación más grande que no es un valor atípico potencial. Estas líneas se llaman bigotes
Los potenciales outliers (valores atípicos) que caen en más de 1.5 × IQR debajo del primer cuartil o
encima del tercer cuartil se muestran por separado con símbolos tales como puntos, estrellas o
asteriscos.
24
Ejemplo 8.1.
Construir la gráfica de box-plot o de caja para la cantidad de sodio en las 20 marcas de cereales para
desayuno (en mg) del Ejemplo 7.3.
Solución:
Del Ejemplo 7.3 y 7.4 se tiene la siguiente información
El primer, mediana y el tercer cuartil son Q1 =135, Me=180 y Q3 =205 respectivamente
la observación más pequeña que no es un valor atípico potencial es 50
la observación más grande que no es un valor atípico potencial es 290
los potenciales valores atípicos o outliers son los valores 0 y 340.
Q1 Q3
0 50 100 150 200 250 300 350
Figura 8.1: Gráfica de caja o de box-plot para los niveles de sodio en los cereales del Ejemplo 7.3.
25
Ejemplo 8.2.
Siguiendo una lista del número de sitios de residuos peligrosos en cada uno de los 50 estados federales
de los Estados Unidos en abril de 1995. Los datos se tomaron de The World Almanac and Book of Facts
1996 (World Almanac Books, Mahwah, NJ, 1996). La lista se ha ordenado numéricamente.
1 2 3 4 4 5 6 8 8 9
indicar que datos
10 10 10 11 11 11 12 12 12 12 son los datos
13 13 14 15 16 17 17 18 18 19 outlier ó datos
19 20 22 23 24 25 29 30 33 37 atípicos
38 39 40 55 58 77 81 96 102 107
Construya un diagrama de caja para estos datos. ¿El diagrama de caja muestra algún dato atípico?
50(1/4) = 12.5
12< 12.5 < 13
Q1= X_(13) = 10
Q3= 30
IQR= Q3-Q1=30- 10 = 20
( Q1 - 1.5*IQR, Q3 + 1.5*IQR ) = ( 10 - 1.5*20, 30 + 1.5*20 )

= ( -20, 60 )
datos outliers ---> 77,81,96,102,107
26

Medidas de Dispersión: Índice

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Medidas de Dispersión: Índice

Caricato da

Copyright:

Formati disponibili

Probabilidad y Estadística ÍNDICE

Última revisión: 8 de octubre de 2020

3. Varianza y desviación estándar 5

4. Varianza para datos agrupados por intervalos 12

7. Índices de asimetría y curtosis 18

8. Gráfico de box-plot ó de cajas 24

Definición 1.1 (Medida de Dispersión)

la dispersión es pequeña si los datos son próximos uno de los otros

la dispersión es grande si los valores son muy diferentes (dispersos)

cuantificar y conocer la variabilidad (dispersión) de los datos.

Definición 2.1 ( Rango )

se observa que en la muestra 1 el rango es dado por R1 = 15 − 2 = 13, y el rango en la muestra 2 es R2 = 10 − 4 = 6,

3 Varianza y desviación estándar

2.75 2.62 2.74 3.85 2.34 2.74 3.93 4.21 3.88

Encuentre la varianza muestral s2 y la desviación estándar muestral, s.

en que a y b son constantes. Entonces la varianza muestral de los valores transformados

grupo 1 grupo 2 grupo3

Encuentre la media, varianza y desviación estándar del costo final de producción.

y1 = 1.15x1 + 2 = 1.15(25) + 2 = 30.75

Teorema 3.1 (Teorema de Chebyshev)

en que k es número positivo mayor a 1 (k > 1).

a) El intervalo [x − 2sx ; x + 2sx ] (k = 2) contiene por lo menos

Interpretación: dentro de 2 desviaciones estándar (2sx ) de la media (x) , siempre se encontrará

c) El intervalo [x − 4sx ; x + 4sx ] (k = 4) contiene por lo menos

4 Varianza para datos agrupados por intervalos

fi : frecuencia absoluta de cada intervalo

x es la media aritmética calculada de los datos agrupados en intervalos.

La desviación estándar es dada por la raíz cuadrada de la varianza.

Tabla 1: Cálculo de la varianza para las edades de los regidores.

La media aritmética es x = 48.92 años, luego la varianza es

Definición 5.1 (Coeficiente de Variación)

A partir del coeficiente de variación se puede evaluar la homogeneidad de un conjunto de datos y

Media dispersión: 15 % < CV < 30 %

Alta dispersión: CV > 30 %

Fumadores 69.3 56 22.1 47.6

Definición 6.1 (Puntaje z ó z-score)

Un puntaje positivo indica que la observación esta por encima de la media.

Un puntaje negativo indica que la observación esta por debajo de la media.

Los puntajes z son también denominados de valores estandarizados y no tienen unidades.

si z = 2 significa que la observación esta a 2 desviaciones estándar por encima de la media.

zx=1.8 .... zy=2.5 (mejor rendimiento)

zx=-2.3 zy=-1.2 (mejor)

7 Índices de asimetría y curtosis

b) Si AS > 0 la distribución de los datos es asimétrica positiva o sesgada a la derecha.

c) Si AS < 0 la distribución de los datos es asimétrica negativa o sesgada a la izquierda.

0 110 125 150

Indique que tipo de asimetría se presenta en los datos.

se tiene una asimetria negativa,

Si K = 0 la distribución es normal. mesocúrtica

Si K > 0 la distribución es leptocúrtica

Si K < 0 la distribución es platicúrtica

0 110 125 150

Calcule la curtosis para los datos anteriores

7.3 Rango intercuartil (IQR)

0 50 70 100 130 140 140 150 160 180

a) Calculo de los cuartiles

x15 + x16 200 + 210

Valor Mínimo mı́n

7.4 Detección de potenciales outliers

Q1 = 135, Q3 = 205, IQR = 70

Q1 − 1.5 × IQR = 135 − 105 = 30

0* 50 70 100 130 140 140 150 160 180

8 Gráfico de box-plot ó de cajas

( Q1 - 1.5IQR, Q3 + 1.5IQR ) = ( 10 - 1.520, 30 + 1.520 )