Sei sulla pagina 1di 26

Probabilidad y Estadística ÍNDICE

Medidas de dispersión
Jhon F. Bernedo Gonzales • Ronny I. Gonzales Medina • 2020

Última revisión: 8 de octubre de 2020

Índice

1. Introducción 2

2. Rango 2

3. Varianza y desviación estándar 5

4. Varianza para datos agrupados por intervalos 12

5. Coeficiente de variación 13

6. Puntaje z 16

7. Índices de asimetría y curtosis 18


7.1. Asimetría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
7.2. Curtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
7.3. Rango intercuartil (IQR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
7.4. Detección de potenciales outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

8. Gráfico de box-plot ó de cajas 24

1
Probabilidad y Estadística 2. Rango

1 Introducción
Una medida de tendencia central, por ejemplo, la media aritmética (o la mediana) no proporciona una
descripción completa o suficiente de los datos, esto debido a que existe variación en los datos, esto es,
dispersión entre los datos.

Definición 1.1 (Medida de Dispersión)


Un medida de dispersión de una variable cuantitativa es un indicador del grado dispersión de
los valores de la muestra o población alrededor de una medida de centralidad (media aritmética,
mediana entre otros). Nótese que

la dispersión es pequeña si los datos son próximos uno de los otros

la dispersión es grande si los valores son muy diferentes (dispersos)

Las medidas de dispersión mas comunes para cuantificar la dispersión son: amplitud, desviación
media, varianza, desviación estándar, rango intercuartílico, el coeficiente de variación entre otros.
Las medidas de dispersión son utilizados para

cuantificar y conocer la variabilidad (dispersión) de los datos.

comparar distribuciones de los datos, tal como, la forma de la distribución de los datos, entre
otras características.

2 Rango
Una manera de medir la variación en un conjunto de datos es calcular el rango.

Definición 2.1 ( Rango )


El rango o recorrido de un conjunto de n datos es la diferencia entre el mayor (xmax ) y el menor
valor (xmin )

R = xmax − xmin

El cálculo del rango es fácil y es generalmente es adecuada cuando el conjunto de datos es pequeño.
Sin embargo cuando el conjunto de datos es grande el rango muestral no es una medida adecuada
para medir la variación
El rango de la muestra es más usado en el área del control estadístico de la calidad.

2
Probabilidad y Estadística 2. Rango

Ejemplo 2.1.
Considerando 2 conjuntos de datos

muestra datos
1 2, 3, 3.6, 4, 4.6, 8, 10.3, 11, 12, 15,
2 4, 4.8, 5, 5.2, 5.4, 6, 6.5, 7.2, 9.5, 10

se observa que en la muestra 1 el rango es dado por R1 = 15 − 2 = 13, y el rango en la muestra 2 es R2 = 10 − 4 = 6,


así se pude observar que la muestra 2 es menos dispersa que la muestra 1, esto por que la muestra 2 tiene un
menor rango en relación a la muestra 1.

3
Probabilidad y Estadística 2. Rango

Ejemplo 2.2.
Dado que se tiene 2 muestras de datos
A B
2 2
3 6.9 Se observa que en la muestra A el rango es dado por R1 = 15 − 2 = 13, y
3.6 7.9 el rango en la muestra B es R2 = 15 − 2 = 13.
4 8 Así, se pude observar que ambas muestran tienen el mismo rango y
4.6 8.2 aparentemente tienen la misma dispersión.
8 8.3 Un gráfico de los puntos de cada muestra debe de ser considerada antes
10.3 8.5 de afirmar que la dispersión de ambas muestras es la misma.
11 10
12 11
15 15

Como se puede observar del gráfico de puntos, la distribución de los datos para ambas es distinta. La
muestra A tiene sus valores mas dispersos y la muestra B una gran parte de los datos se agrupan al
centro.

Muestra B

Muestra A
● ● ●● ● ● ● ● ● ●

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Nótese que, el rango tiene un defecto porque sólo considera 2 los datos extremos y no considera los
n − 2 datos restantes.

4
Probabilidad y Estadística 3. Varianza y desviación estándar

3 Varianza y desviación estándar


La varianza muestral es una medida de dispersión para un conjunto de datos (univariados) y es dada
por
Pn Pn
− x)2
i=1 (xi
2
i=1 xi − nx2
s2x = = (3.1)
n−1 n−1
La varianza es una estadística de difícil interpretación por presentar unidades al cuadrado de la unidad
de medida de los datos.
Por tal razón, en la práctica se usa la desviación estándar que es definida como la raíz cuadrada de la
varianza
Pn
s
− x)2
i=1 (xi
q
sx = s2x =
n−1

Notación:

Se usa también la notación s2x para la varianza si los datos son denotados x1 , . . . , xn

Si los datos son denotados por y1 , . . . , yn la varianza de la muestra es denotada por s2y

5
Probabilidad y Estadística 3. Varianza y desviación estándar

Ejemplo 3.1.
Un estudio de la relación entre edad y varias funciones visuales (tales como agudeza y percepción
de profundidad) reportó las siguientes observaciones de área de la lámina esclerótica (mm 2 ) de las
cabezas del nervio óptico humano (“Morphometry of Nerve Fiber Bundle Pores in the Optic Nerve
Head of the Human”, Experimental Eye Research, 1988: 559-568)

2.75 2.62 2.74 3.85 2.34 2.74 3.93 4.21 3.88


4.33 3.46 4.52 2.43 3.65 2.78 3.56 3.01

Encuentre la varianza muestral s2 y la desviación estándar muestral, s.

Solución:

Pn
n = 17 − nx2 2
i=1 xi
s2x =
n−1
x = 3.3412
197.804 − 17 · 3.34122
X
n = = 0.5016
x2i = 197.804 17 − 1

i=1 sx = 0.5016 = 0.7082

6
Probabilidad y Estadística 3. Varianza y desviación estándar

Propiedades
1) Para datos no agrupados por intervalos se tiene que la suma de los cuadrados de los valores es
dado por
X
n
x2i = (n − 1)s2x + nx2
i=1

2) Si todos los datos x1 , x2 , . . . , xn son iguales a una constante c, entonces la media aritmética es igual
a x = c y la varianza muestral es igual a 0.

3) Sea x que representa una variable estadística (discreta o continua) y sea xi un valor de la muestra
de tamaño n. Si se considera una transformación lineal de x, esto es,

yi = axi + b i = 1, . . . , n

en que a y b son constantes. Entonces la varianza muestral de los valores transformados


y1 , y2 , . . . , yn es dada por
s2y = a2 s2x ,
en que s2x representa la varianza de los datos x1 , x2 , . . . , xn .
Luego, la desviación estándar para las variables transformadas es dada por

sy = |a|sx

4) Considerando 3 grupos de datos en que para cada grupo se tiene su tamaño de muestra, media y
varianza dadas respectivamente:

grupo 1 grupo 2 grupo3


n1 , x1 , s21 n2 , x2 , s22 n3 , x3 , s23

En que n = n1 + n2 + n3 .
La varianza total de los n valores de los datos es dado por
hP i
3 2 + n x2 − nx2
(n
i=1 i − 1)s i i i
s2x =
n−1
en que x es la media global es dada por
n1 x1 + n2 x2 + n3 x3
x=
n

7
Probabilidad y Estadística 3. Varianza y desviación estándar

Ejemplo 3.2.
El costo inicial de producción x de una muestra de 50 objetos de cierto tipo, tiene una desviación
estándar de $3. La media del costo de producción es de $25 para 30 de los objetos de la muestra y de
$20 para el resto. El costo final de producción y es dado por la relación

yi = 1.15xi + 2,

Encuentre la media, varianza y desviación estándar del costo final de producción.

Solución:
Para calcular la media y se tiene que calcular primero la media, y1 , para los n1 =30 objetos y la media,
y2 , para los restantes.

y1 = 1.15x1 + 2 = 1.15(25) + 2 = 30.75


y2 = 1.15x2 + 2 = 1.15(20) + 2 = 25

Luego la media es
n1 y1 + n2 y2 30(30.75) + 20(25)
y= = = 28.45
n1 + n2 30 + 20
Para calcular la varianza y desviación estándar

s2y = 1.152 s2x = 1.152 (32 ) = 11.9025 ⇒ sy = 11.9025 = 3.45

8
Probabilidad y Estadística 3. Varianza y desviación estándar

Teorema de Chebyshev

Teorema 3.1 (Teorema de Chebyshev)


La proporción de cualquier distribución (simétrica o asimétrica) que se encuentre dentro de k
desviaciones estándar de la media es por lo menos  − k12 de los valores que se tienen en los
datos.
Así, dado un conjunto de datos de tamaño n, con media aritmética x y desviación estándar sx
entonces del teorema de Chebyshev indica que
el intervalo [x − ksx , x + ksx ] contiene por lo menos
 
1
− 2 × 100 % de los datos
k

en que k es número positivo mayor a 1 (k > 1).

Casos particulares

a) El intervalo [x − 2sx ; x + 2sx ] (k = 2) contiene por lo menos

1 1
(1 − 2
) × 100 % = (1 − ) × 100 %
2 4
3
= × 100 %
4
= 75 % de los datos.

Interpretación: dentro de 2 desviaciones estándar (2sx ) de la media (x) , siempre se encontrará


por lo menos el 75 % (es decir, 75 % o más) de los datos.
b) El intervalo [x − 3sx ; x + 3sx ] (k = 3) contiene por lo menos
1 1
(1 − ) × 100 % = (1 − ) × 100 %
32 9
8
= × 100 %
9
= 88.89 % de los datos.

c) El intervalo [x − 4sx ; x + 4sx ] (k = 4) contiene por lo menos

1 1
(1 − 2
) × 100 % = (1 − ) × 100 %
4 16
15
= × 100 %
16
= 93.75 % de los datos.

9
Probabilidad y Estadística 3. Varianza y desviación estándar

Ejemplo 3.3.
Un conjunto de datos tiene una media de 75 y una desviación estándar de 5. Usted no sabe nada más
acerca del tamaño del conjunto de datos o de la forma de la distribución de datos.

a) ¿Qué puede decir acerca de la proporción de mediciones que caen entre 60 y 90?

b) ¿Qué puede decir acerca de la proporción de mediciones que caen entre 65 y 85?

Solución:

10
Probabilidad y Estadística 3. Varianza y desviación estándar

Ejemplo 3.4.
Un grupo de animales experimentales es infectado con una forma particular de bacterias, encontrándose
que su tiempo medio de supervivencia es de 32 días con una desviación estándar de 6 días.
¿Dentro de qué límites esperaría usted que se encuentren al menos 3/4 de las mediciones?

11
Probabilidad y Estadística 4. Varianza para datos agrupados por intervalos

4 Varianza para datos agrupados por intervalos


El cálculo de algunas medidas de dispersión cuando los datos están agrupados por intervalos es
diferente al caso cuando los datos no lo están. La varianza para datos agrupados en k intervalos es
dada por
Pk Pk
i=1 fi (mi − x)2 − nx2
2
i=1 fi mi
s2x = = (4.1)
n−1 n−1
en que

mi : marca de clase

fi : frecuencia absoluta de cada intervalo

x es la media aritmética calculada de los datos agrupados en intervalos.

La desviación estándar es dada por la raíz cuadrada de la varianza.


q
sx = s2x

Será considerado la tabla de distribución de frecuencias relacionado con las edades de los regidores de
varias alcaldías en algún país.

Tabla 1: Cálculo de la varianza para las edades de los regidores.


Ii mi fi fi × mi fi × m2i
[21; 31[ 26 189 4914 127764
[31; 41[ 36 1032 37152 1337472
[41; 51[ 46 2053 94438 4344148
[51; 61[ 56 1617 90552 5070912
[61; 71[ 66 564 37224 2456784
[71; 81] 76 95 7220 548720
271500/5550
total 5550 271500 13885800

La media aritmética es x = 48.92 años, luego la varianza es


Pk
2 × m2i − n × x2
i=1 fi
s =
n−1
13885800 − 5550 × 48.922
= = 108.7991 años2
5550 − 1

La desviación estándar es s = 108.7991 = 10.43 años.

12
Probabilidad y Estadística 5. Coeficiente de variación

homogeneidad y heterogeneidad
5 Coeficiente de variación

Definición 5.1 (Coeficiente de Variación)


El coeficiente de variación (CV) es una medida de dispersión relativa definida como a razón entre
la desviación estándar y la media aritmética, es dada por

sx
CV = × 100 %
x
El CV es utilizada para comparar la dispersión de dos conjuntos de datos, sin que tales conjuntos
tengan las mismas unidades de medida.
Así el CV es adimensional (sin dimensiones), i.e., no tiene unidades de medida.

A partir del coeficiente de variación se puede evaluar la homogeneidad de un conjunto de datos y


de esta forma saber si la media aritmética es una buena medida para representar estos datos. Una
desventaja del coeficiente de variación es que el deja de ser útil cuando la media está próxima de cero.
Así, una media próxima de cero puede inflacionar el CV.
Varios autores indican diferentes métodos para se clasificar el CV. Sin embargo, en este curso será
considerado la siguiente clasificación (empírica)

Baja dispersión: CV 6 15 %

Media dispersión: 15 % < CV < 30 %

Alta dispersión: CV > 30 %

13
Probabilidad y Estadística 5. Coeficiente de variación

Ejemplo 5.1.
Se realiza un estudio acerca de los efectos del tabaquismo sobre los patrones de sueño. La medición que se
observa es el tiempo, en minutos, que toma que dar dormido. Se obtienen los siguientes datos:

Fumadores 69.3 56 22.1 47.6


53.2 48.1 52.7 34.4
60.2 43.8 23.2 13.8
No fumadores 28.6 25.1 26.4 34.9
29.8 28.4 38.5 30.2
30.6 31.8 41.6 21.1
36 37.9 13.9

Bryan afirma que el grupo de fumadores es el grupo mas homogéneo, es esta afirmación correcta? Justifique su
respuesta calculando el coeficiente de variación.

Solución:

No fumadores (y)
Fumadores (x)

y = 30.32
x = 43.7
sy = 7.1278
sx = 16.9278
sy 7.1278
sx 16.9278 CVy = × 100 = × 100
CVx = × 100 = × 100 y 30.32
x 43.7
= 23.5086
= 38.7364 %

Interpretación:

- El grupo de no fumadores es mas homogéneo esto por que su CVy es menor que el CV del
grupo de fumadores (23.51% < 38.74% )

- El grupo de fumadores es el mas heterogéneo esto por que su CVx es mayor que el CV
del grupo de no fumadores ( 38.74% > 23.51% )

14
Probabilidad y Estadística 5. Coeficiente de variación

Ejemplo 5.2.
La junta directiva de la empresa Gothic Products está considerando adquirir una o dos compañías y
examinando minuciosamente la administración de cada compañía, con el fin de hacer una transacción
lo menos riesgosa posible. Durante los últimos 5 años,

la primera de las compañías tuvo una recuperación promedio de lo invertido del 28.0 %, con una
desviación estándar del 5.3 %

la otra compañía tuvo una recuperación promedio de lo invertido del 37.8 %, con una desviación
estándar del 4.8 %

Si consideramos riesgoso asociarse con una compañía que tenga una alta dispersión relativa en la
recuperación, ¿cuál de estas dos compañías ha seguido una estrategia más riesgosa?

15
Probabilidad y Estadística 6. Puntaje z

6 Puntaje z

Definición 6.1 (Puntaje z ó z-score)


El puntaje z para una observación es el número de desviaciones estándar que este cae (esta alejado)
de la media.

Un puntaje positivo indica que la observación esta por encima de la media.

Un puntaje negativo indica que la observación esta por debajo de la media.


Para una muestra de datos el puntaje z es calculado como

x−x
z=
sx

Los puntajes z son también denominados de valores estandarizados y no tienen unidades.

Por ejemplo:

si z = 2 significa que la observación esta a 2 desviaciones estándar por encima de la media.

si z = −1.6 significa que la observación esta a 1.6 desviaciones estándar por abajo de la media.

Ejemplo 6.1.
Las calificaciones en un examen de matemáticas e historia generaron las medias 13 y 17 y las desviacio-
nes estándar 3 y 4 respectivamente. Si un alumno obtuvo 14 en matemáticas y 16 en historia, en cuál de
los dos curso tiene mejor rendimiento relativo?

Solución:

Matemáticas Historia

x = 13 y = 17
sx = 3 sy = 4
x = 14 y = 16
x−x 14 − 13 y−y 16 − 17
zx = = = 1/3 = 0.3333 zy = = = −1/4 = −0.25
sx 3 sy 4
Interpretación:
El alumno tuvo un mejor rendimiento relativo en el curso de matemáticas

zx=1.8 .... zy=2.5 (mejor rendimiento)

zx=-2.3 zy=-1.2 (mejor)

16
Probabilidad y Estadística 6. Puntaje z

Ejemplo 6.2.
La media de las notas de un curso es 75 puntos con una desviación estándar de 5 puntos, Bryan tiene
un puntaje z = −2. Cuantos puntos Bryan tiene en el curso?

17
Probabilidad y Estadística 7. Índices de asimetría y curtosis

7 Índices de asimetría y curtosis


7.1 Asimetría
La asimetría es una medida de falta de simetría de una distribución o conjunto de datos.
Muchos paquetes estadísticos usan el coeficiente de asimetría de Fisher-Pearson ajustado dado por

1 Pn
"P
 
#
n 3
p 3
n i=1 (xi − x) n(n − 1)  n i=1 (xi − x)
AS = = (7.1)

h P
(n − 1)(n − 2) s3x n−2 1 n 2
i3/2 
n i=1 (xi − x)

En este sentido, el coeficiente de asimetría de Pearson tipo 2 calculada considerando la media, mediana
y desviación estándar de la muestra es dada por

3(x − Me)
AS = (7.2)
sx

En relación a esta última estadística dada en (7.2) es poco usada en la actualidad aunque es intuitiva
para indicar la relación entre la media aritmetica, mediana y moda.

Interpretación
a) Si AS = 0 entonces se dice que la distribución es simétrica.

b) Si AS > 0 la distribución de los datos es asimétrica positiva o sesgada a la derecha.

c) Si AS < 0 la distribución de los datos es asimétrica negativa o sesgada a la izquierda.

18
Probabilidad y Estadística 7. Índices de asimetría y curtosis

Ejemplo 7.1.
Las personas sensibles a la sal deben tener cuidado con el contenido de sodio en los alimentos. A
continuación se muestra el contenido de sodio (en miligramos) en una porción de 3 cucharadas de 32
marcas de mantequilla de maní.

0 110 125 150


0 110 130 150
0 115 130 150
5 120 140 160
15 120 140 180
50 120 140 190
65 120 140 200
110 120 150 250

Indique que tipo de asimetría se presenta en los datos.

Solución:
n = 32
x = 115.78125
sx = 60.6299
Pn 3
i=1 (xi − x) =-3456223.389

"P #
n
− x)3
 
n i=1 (xi 32 −3456223.389
AS = = = −0.5336
(n − 1)(n − 2) s3x (32 − 1)(32 − 2) (60.6299)3

se tiene una asimetria negativa,


esto es, la distribución de los
datos es asimetrica a la izquierda

19
Probabilidad y Estadística 7. Índices de asimetría y curtosis

7.2 Curtosis
La curtosis de una distribución de frecuencias mide el apuntamiento o agudeza de la distribución
(polígono) de frecuencia. La curtosis puede ser calculado utilizando
Pn
1 i=1 (xi − x)4
K= −3 (7.3)
n s4x

Interpretación:

Si K = 0 la distribución es normal. mesocúrtica

Si K > 0 la distribución es leptocúrtica

Si K < 0 la distribución es platicúrtica

20
Probabilidad y Estadística 7. Índices de asimetría y curtosis

Ejemplo 7.2.
Las personas sensibles a la sal deben tener cuidado con el contenido de sodio en los alimentos. A
continuación se muestra el contenido de sodio (en miligramos) en una porción de 3 cucharadas de 32
marcas de mantequilla de maní.

0 110 125 150


0 110 130 150
0 115 130 150
5 120 140 160
15 120 140 180
50 120 140 190
65 120 140 200
110 120 150 250

Calcule la curtosis para los datos anteriores

21
Probabilidad y Estadística 7. Índices de asimetría y curtosis

7.3 Rango intercuartil (IQR)


El rango intercuartil es la diferencia entre el tercer Q3 y el primer cuartil Q1 . Esta medida es mas estable
que el rango (R) por no considerar los valores extremos.
El rango intercuartil (IQR) contiene el 50 % de los datos y es útil para detectar datos atípicos (outliers)

IQR = Q3 − Q1 (7.4)

Así como el rango R y la desviación estándar sx , cuanto mayor sea la variabilidad (dispersión) en los
datos, mayor también será el rango intercuartil IQR. Sin embargo, a diferencia de esas medidas, el IQR
no se ve afectado por observaciones que están debajo del primer cuartil, Q1 o arriba del tercer cuartil,
Q3 . Esto significa que el IQR no se ve afectado por valores atípicos.
En resumen, se recomienda usar el IQR en lugar del rango o la desviación estándar para comparar
la dispersión (variabilidad) de las distribuciones que están muy sesgadas (asimétricas) o que poseen
valores atípicos severos.

Ejemplo 7.3.
Se investiga la cantidad de sodio en 20 marcas de cereales para desayuno, los niveles registrados (en
mg) son

0 50 70 100 130 140 140 150 160 180


180 180 190 200 200 210 210 220 290 340

a) Encuentre los cuartiles inferior (Q1 ) y superior (Q3 ) para este conjunto de datos

b) Calcule IQR

Solución:

a) Calculo de los cuartiles


Posición 20(1/4) = 5 = (i) luego

x5 + x6 130 + 140
Q1 = = = 135
2 2
Posición 20(3/4) = 15 = (i) luego

x15 + x16 200 + 210


Q3 = = = 205
2 2

b) Calcule IQR
IQR = 205 − 135 = 70
El 50 % de las mediciones se extienden en un rango de 70 mg.

22
Probabilidad y Estadística 7. Índices de asimetría y curtosis

Usualmente para tener una buena descripción de a distribución de los datos se utiliza el resumen de
los 5 números que son

Valor Mínimo mı́n


Primer Cuartil Q1
Mediana Me
Tercer Cuartil Q3
Valor Máximo máx

Estas estadísticas se usadas frecuentemente como un conjunto para resumir posiciones que ayudan a
describir el centro y la variabilidad de una distribución.

7.4 Detección de potenciales outliers


En el análisis de datos es importante examinar observaciones atípicas outliers. Para la detección de
potenciales outliers se utiliza el rango intercuartilico IQR.

Definición 7.1
Una observación es un potencial outlier, x∗ , si este cae a una distancia mayor que 1.5 × IQR por
debajo del primer cuartil (Q1 ) ó a una distancia mayor que 1.5 × IQR por encima del tercer cuartil
(Q3 ).
x∗ ∈/ (Q1 − 1.5 × IQR, Q3 + 1.5 × IQR)

Ejemplo 7.4.
Considerando los datos presentados en el Ejemplo 7.3 indicar cuales observaciones puedens er poten-
ciales outliers

Solución:
Para los datos de cantidad de sodio en los cereales se tiene que

Q1 = 135, Q3 = 205, IQR = 70

luego se tiene
1.5 × IQR = 1.5 × 70 = 105
Se calcula lo límites

Q1 − 1.5 × IQR = 135 − 105 = 30


( 30 , 310 )
Q3 + 1.5 × IQR = 205 + 105 = 310

Ordenando los datos de forma ascendente, se tiene que las observaciones que caen fuera de estos
límites son: 0 y 340.

0* 50 70 100 130 140 140 150 160 180


180 180 190 200 200 210 210 220 290 340*

23
Probabilidad y Estadística 8. Gráfico de box-plot ó de cajas

8 Gráfico de box-plot ó de cajas


El resumen de los cinco números es utilizado para construir la gráfica de box-plot.

Contrucción
Una caja (box) se construye del primer cuartil,Q1 , al tercer cuartil Q3

Se traza una línea dentro del cuadro, esta linea representa la mediana

Se traza una línea que va desde el extremo inferior de la caja hasta la observación más pequeña
que no es un valor atípico potencial. Otra línea va desde el extremo superior de la caja a la
observación más grande que no es un valor atípico potencial. Estas líneas se llaman bigotes

Los potenciales outliers (valores atípicos) que caen en más de 1.5 × IQR debajo del primer cuartil o
encima del tercer cuartil se muestran por separado con símbolos tales como puntos, estrellas o
asteriscos.

24
Probabilidad y Estadística 8. Gráfico de box-plot ó de cajas

Ejemplo 8.1.
Construir la gráfica de box-plot o de caja para la cantidad de sodio en las 20 marcas de cereales para
desayuno (en mg) del Ejemplo 7.3.

Solución:
Del Ejemplo 7.3 y 7.4 se tiene la siguiente información

El primer, mediana y el tercer cuartil son Q1 =135, Me=180 y Q3 =205 respectivamente

la observación más pequeña que no es un valor atípico potencial es 50

la observación más grande que no es un valor atípico potencial es 290

los potenciales valores atípicos o outliers son los valores 0 y 340.

Q1 Q3

0 50 100 150 200 250 300 350

Figura 8.1: Gráfica de caja o de box-plot para los niveles de sodio en los cereales del Ejemplo 7.3.

25
Probabilidad y Estadística 8. Gráfico de box-plot ó de cajas

Ejemplo 8.2.
Siguiendo una lista del número de sitios de residuos peligrosos en cada uno de los 50 estados federales
de los Estados Unidos en abril de 1995. Los datos se tomaron de The World Almanac and Book of Facts
1996 (World Almanac Books, Mahwah, NJ, 1996). La lista se ha ordenado numéricamente.
1 2 3 4 4 5 6 8 8 9
indicar que datos
10 10 10 11 11 11 12 12 12 12 son los datos
13 13 14 15 16 17 17 18 18 19 outlier ó datos
19 20 22 23 24 25 29 30 33 37 atípicos
38 39 40 55 58 77 81 96 102 107

Construya un diagrama de caja para estos datos. ¿El diagrama de caja muestra algún dato atípico?
50(1/4) = 12.5
12< 12.5 < 13
Q1= X_(13) = 10
Q3= 30
IQR= Q3-Q1=30- 10 = 20

( Q1 - 1.5*IQR, Q3 + 1.5*IQR ) = ( 10 - 1.5*20, 30 + 1.5*20 )


= ( -20, 60 )

datos outliers ---> 77,81,96,102,107

26

Potrebbero piacerti anche