Sei sulla pagina 1di 16

ANÁLISIS E INTREPRETACIÓN

DE DATOS
SESIÓN 4. MEDIDAS DE DISPERSIÓN
INTRODUCCIÓN
Las medidas de tendencia central nos sirven de guía
para encontrar los datos centrales y representativos
de un conjunto de observaciones en un estudio
estadístico. Sin embargo, ¿Qué tan “representativos
pueden llegar a ser?
Para resolver este interrogante es necesario acudir a
medidas que nos hablen sobre la variabilidad de los
datos, en otras palabras sobre qué tan lejanos son
los datos con respecto a las medidas de tendencia
central más relevantes. A estas medidas las
llamaremos medidas de dispersión o de variabilidad
INTERPRETACIÓN DE LAS MEDIDAS
DE DISPERSIÓN
Como indicamos anteriormente las medidas de
dispersión nos dicen que tan lejanas son las
observaciones en un estudio estadístico con respecto a
las medidas de tendencia central, si encontramos un
alto valor de dispersión significa que los datos son
poco homogéneos con las medidas de tendencia
central y por lo tanto dicha medida no es un descriptor
muy adecuado. Si por el contrario encontramos
medidas de dispersión bajas significa que el
estadístico utilizado representa muy bien a los datos
debido a que en general estos son similares en valor al
estadístico propiamente dicho (media o mediana)
PRINCIPALES MEDIDAS DE DISPERSIÓN
A continuación listaremos las medidas que
usaremos par medir la dispersión de datos,
más adelante estudiaremos de manera más
detenida cada una de ellas:
 Rango (R)
 Desviación promedio
 Varianza ( s 2 )
 Desviación típica o estándar (s)
 Coeficiente de variación (CV)
Rango
El Rango o amplitud se define como la
diferencia entre las observaciones más
extremas de un conjunto de datos, esto es:
R  xmax  xmin
Aunque es una medida muy fácil de calcular no
es un gran indicador de dispersión debido a
que solo usa dos observaciones y a que
puede verse afectado por observaciones muy
extremas con respecto al conjunto de datos
Desviación
Definiremos como desviación a la diferencia entre
cada observación con respecto a una medida de
tendencia central como la media o la mediana.
Para calcular la variabilidad que una distribución tiene
con respecto a su media (mediana), se calcula la
media de las desviaciones de las puntuaciones
respecto a la media aritmética (o bien mediana). Pero
la suma de las desviaciones es siempre cero, así que
se adoptan dos clases de estrategias para salvar este
problema. Una es tomando las desviaciones en valor
absoluto (desviación promedio) y otra es tomando
las desviaciones al cuadrado (varianza).
Desviación promedio
Definimos la desviación promedio como la
media aritmética del valor absoluto de las
desviaciones (entre cada observación y la
medida de tendencia central –media o
mediana)
Para la desviación promedio con respecto a la
media tenemos: 1 n
Dx   x  x
-Para datos sin agrupar: n i 1
-Para datos agrupados:
n
1
Dx   x  x ni
N i 1
Para la desviación promedio con respecto a la
mediana tenemos:
-Para datos no agrupados:
1 n
DM ed   x  M ed
n i 1
-Para datos agrupados:
n
1
DM ed 
N
 xM
i 1
ed ni
VARIANZA
Sin embargo la desviación promedio no es un
medidor de dispersión muy fuerte por lo cuál
se suele usar como indicador principal de
dispersión una medida conocida como
varianza, que se define como la media de las
desviaciones cuadráticas de las
observaciones. Esto es:
Para datos no agrupados:
Para datos agrupados: s 
1
2
 (x  x)
n
2

n  1 i 1

1 n
s 
2

N  1 i 1
( x  x ) 2
ni
DESVIACIÓN ESTÁNDAR
La varianza tiene como inconveniente que
debido a que su cálculo se realiza elevando al
cuadrado las desviaciones tiene como
unidades las mismas de la variable pero en
orden cuadrático, por ejemplo si es una
medición de dispersión de edades en años la
varianza tendrá por unidades años al cuadrado
Por esta razón se suele calcular la raíz cuadrada
de la varianza y a ella se le llama Desviación
estándar, esto es:
s  s2
PROPIEDADES DE LA VARIANZA Y LA
DESVIACIÓN ESTÁNDAR
 Ambas son sensibles a la variación de cada una de
las puntuaciones, es decir, si una puntuación
cambia, cambia con ella la varianza (por lo tanto
también la desviación estándar). La razón es que si
miramos su definición, la varianza es función de
cada una de las puntuaciones.
 La desviación típica tiene la propiedad de que en el
( x  2 s, x  2 s )
intervalo se encuentra al menos el 75%
de las observaciones.
 No es recomendable el uso de ellas cuando tampoco
lo sea el de la media como medida de tendencia
central
COEFICIENTE DE VARIACIÓN
El coeficiente de variación nos permite la comparación entre
diferentes poblaciones (o muestras según el caso) y nos sirve
como un indicador de confiabilidad de las estimaciones en la
estadística inferencial según los expertos del DANE: “Se suele
considerar que el resultado de una estimación es bueno si su
coeficiente de variación es menor del 5 %; aceptablemente
práctico, entre el 5 % y el 10%; de baja precisión si es mayor
del 10 %. Y menor del 15% y no útil si es mayor del 15%”. (No
útil se refiere a usar los datos con fines netamente
descriptivos)
Para calcularlo basta con dividir la desviación estándar sobre la
s
media aritmética, porcentualmente
CV  *100% tenemos:
x
Ejemplo para datos no agrupados
Calcular las medidas de dispersión para el
conjunto de datos: 3,5,4,3,6,5
Para este conjunto nuestra media es 4.333 y la
mediana es 5
Las medidas de dispersión serían:
R=6-3=3
3  4.33  5  4.33  4  4.33  3  4.33  6  4.33  5  4.33 6
Dx   1
6 6

35  55  4 5  35  65  55 6


DM ed   1
6 6
s 2

 3  4.33   5  4.33   4  4.33   3  4.33   6  4.33   5  4.33
2 2 2 2 2 2

7.33
 1.464
6 1 5

s  1.464  1.21

1.21
CV  *100%  27.943%
4.33

Para este caso tenemos datos con una


dispersión medianamente alta, en otras
palabras los datos están en general alejados
de la media aritmética por una unidad (al
igual que de la mediana).
Ejemplo para datos agrupados
Li-1 xi ni xini |xi- |Xi- ni (xi-
Li media|ni mediana|ni media)^2

10-20 15 12 180 198.14 201.60 3271.61

20-30 25 5 125 32.56 34.00 212.01

30-40 35 15 525 52.33 48.00 182.53

40-50 45 8 360 107.91 105.60 1455.49

50-60 55 3 165 70.47 69.60 1655.11

Total 43 1355 461.40 458.80 6776.74


La media sería: 31.51
La mediana: 33
Dx= 461.4/43=10.73
Dmed= 458.8/43=10.41
s2=6776.74/42=161.35
s= 161.35  12.7
CV=(12.7/31.51)*100%=40.31%

Acá vemos una altísima dispersión en los datos

Potrebbero piacerti anche