Sei sulla pagina 1di 12

UNIDAD 3: Medidas estadísticas

Las medidas estadísticas o parámetros estadísticos son valores


representativos de una colección de datos y que resumen en unos
pocos valores la información del total de datos. Estas medidas
estadísticas nos darán información sobre la situación, dispersión y
otros patrones de comportamiento de los datos, de manera que sea
posible captar rápidamente la estructura de los mismos y también la
comparación entre distintos conjuntos de datos. Las más importantes
son: las de tendencia central o centralización, que indican el valor
medio de los datos, las de dispersión que miden la variabilidad de los
datos respecto a los parámetros de centralización y las de forma:
simetría y apuntamiento, que nos indican la forma de distribución de
los datos.

Estas medidas serán más significativas cuanto más homogéneos sean


los datos y pueden ser engañosas cuando mezclamos poblaciones
distintas.

3.1. Medidas de centralización

Nos dan los valores centrales de los datos obtenidos. Las más usuales
son: la media, la moda y la mediana.

• Media ( x )

Es el resultado de sumar el valor de la variable de todos los


individuos y dividir por el total de individuos.
n

∑X
i =1
i
x=
N

Supondremos que toma la variable X toma k valores distintos


x1 , x 2 , x3 ..., x k que se repiten el número de veces que indica la
frecuencia relativa f i , sustituyendo en la fórmula, la expresión de la
media quedaría como:

Σxi ⋅ f i Σxi ⋅ f i
x= =
Σf i N

Para datos agrupados el valor de xi será el de la marca de clase.


Ejemplo. Variable discreta

Vamos a calcular la media de edad de los alumnos entrevistados.


Añadimos a la tabla de frecuencias absolutas la columna con el
producto de cada valor de la
x ⋅f Frecuencia
varaible por su frecuencia i i Valores x ⋅f i i
absoluta
Σxi ⋅ f i 1433 12 9 108
x= = = 14,33 13 25 325
Σf i 100
14 27 378
La media de edad de los alumnos 15 16 240
del centro entrevistados es de 14,33 16 12 192
años. 17 8 136
18 3 54

TOTAL N=100 1433

Características de la media:

- La media aritmética sólo se puede calcular para variables


numéricas.
- Un conjunto de datos numéricos sólo tiene una media.
- La media es un parámetro sensible a la presencia de valores
muy separados del resto de datos.

Por ejemplo, la serie de valores, 1, 1, 2, 3, 3, 5, 7, 8, 8, 50


posee un valor extremo que es el 50. La media aritmética
calculada con los 9 primeros valores es 4.2, lo que
constituye un valor central razonable. Por el contrario, si se
considera también el último valor, la media aritmética
resulta ser 8.8, que es un valor muy poco indicativodel
conjunto pues está muy influido por ese valor extremo.

• Moda (Mo)

La moda es el valor más frecuente de la variable estadística. La


moda, como la media, representa un valor central de la distribución
de datos y su determinación visual la podemos obtener a partir de la
tabla de frecuencias o de su gráfico, en el caso de ser de columnas
corresponde con la columna más alta.

Este parámetro se puede calcular para cualquier tipo de variable.

Ejemplo. Variable cualitativa

Podemos identificar la moda de la actividades del tiempo libre


preferida de los alumnos observando la tabla de frecuencias:
Frecuencia
Valores
absoluta
Deportes 51
Mantenimiento 8
Música 17
Cine 10
Lectura 6
Otros 5
TOTAL N=97

El conjunto de datos puede ser unimodal (1 moda), bimodal (2


modas) o amodal (sin moda), gráficamente sería:

1 2 3 4 5 6 7 1 2 3 4 5 6 7

Bimodal Unimodal

26
23
20
17
14
11
8
5

1 2 3 4 5 6 7

Amodal

Para datos agrupados

Para datos agrupados no se puede calcular exactamente el valor de la


moda. Sin embargo, se puede estimar utilizando los siguientes pasos:

Para obtener la moda en datos agrupados, se buscará la clase o


intervalo que tenga el mayor cociente entre frecuencia y amplitud, es
f
decir, valor máximo de hi = i .
ci
Tal y como vimos en la construcción de los histogramas, esta clase
estará asociada al rectángulo de mayor altura. Si todos los intervalos
tienen la misma amplitud, dicho intervalo será el de mayor
frecuencia.
Esta clase o intervalo se denomina intervalo modal, y una vez
hallado, se aplica la siguiente expresión derivada del cálculo de
proporciones para calcular la moda:

D1
Mo = Li −1 + ( ) ⋅ ci
D1 + D2

Donde:

Li − 1 = Límite inferior de la clase modal.

D1 = hi − hi −1

D2 = hi − hi +1

fi
hi =
ci

ci = amplitud del intervalo.

f i = frecuencia absoluta de la clase modal.


f i −1 y f i +1 = frecuencia absoluta de la clase inferior y superior
respectivamente.

En el caso de trabajar con intervalos de igual amplitud se puede


trabajar directamente con las frecuencias absolutas.

Ejemplo. Para datos agrupados

Vamos a calcular la moda del número de horas semanales que pasan


los alumnos del centro anterior viendo la televisión
Frecuencia Frecuencia
Valores
absoluta acumulada
[0,4) 4 4
[4,8) 28 32
[8,12) 21 53
[12,16) 15 68
[16,20) 9 77
[20,24) 5 82

TOTAL N=82

La clase modal es [4,8), la de mayor frecuencia absoluta. Al tratarse


de intervalos de igual amplitud podemos sustituir en la fórmula las
frecuencias absolutas:

Li − 1 = 4

D1 = f i − f i −1 =28-4=24

D2 = f i − f i +1 =28-21=7

ci = amplitud del intervalo=4

24
Mo = 4 + ⋅ 4 = 7 .1
24 + 7

Características de la moda:
- La moda es de fácil interpretación.
- Su cálculo es sencillo para variables discretas y cualitativas
pero la expresión para variables agrupadas se complica.
- No intervienen en su determinación todas las observaciones.
- Es útil para detectar posibles mezclas de distintas
poblaciones en una misma masa de datos.
- Se puede calcular para todo tipo de variable.

• Mediana (Me)
La mediana es el valor de la variable que divide la serie estadística
ordenada en dos partes iguales, dejando tantos valores por encima
como por debajo y por consiguiente la frecuencia a uno y a otro lado
de la mediana también son iguales.
Si los n datos no están agrupados y están enumerados del 1 al N el
valor de la mediana será:
N +1
- Si N es impar, el valor que ocupa el lugar
2
- Si N es par, la media aritmética de los valores que ocupan el
N N
lugar y +1.
2 2
Este procedimiento es útil cuando disponemos de pocos datos, pero
cuando el número de estos es elevado es mejor incluir en la tabla de
frecuencias las frecuencias acumuladas.

Datos no agrupados: La mediana será el primer valor cuya


N
frecuencia acumulada es Fi ≥ .
2
Datos agrupados: Se buscará la primera clase cuya frecuencia
acumulada supere la mitad de las observaciones. Esta clase se
denomina clase mediana y su marca de clase, se podría dar como una
aproximación de la mediana. Sin embargo podemos obtener un valor
más aproximado empleando la fórmula siguiente:
N
− Fi −1
Me = Li −1 + 2 ⋅ ci
fi
Donde:

Li − 1 = Límite inferior de la clase mediana.

ci = amplitud del intervalo.

f i = frecuencia absoluta de la clase mediana.


Fi −1 = frecuencia absoluta acumulada de la clase inferior a la
clase mediana.

Ejemplo. Variable continua

Vamos a calcular la mediana del número de horas semanales que pasan


los alumnos del centro anterior viendo la televisión

Frecuencia Frecuencia
Valores
absoluta acumulada
[0,4) 4 4
[4,8) 28 32
[8,12) 21 53
[12,16) 15 68
[16,20) 9 77
[20,24) 5 82

TOTAL N=82

82
= 41 . La primera frecuencia acumulada que supera N/2 es 53, por tanto
2
la clase mediana es el intervalo [8,12). Para calcular el valor de la
mediana aplicamos la fórmula definida:
41 − 32
Me = 8 + ⋅ 4 = 9.71
21

Características de la mediana:

- La mediana es sencilla de calcular y de interpretar.


- Por depender de los valores a través de su orden, la
mediana no varía demasiado por los valores extremos, por
ello, si nuestros datos contienen valores de este tipo, será
preferible usar la mediana en vez de la media aritmética
como medida central.
• Relación entre media, mediana y moda.

Es recomendable comparar los valores obtenidos para la moda, media


y mediana, para conocer mejor la distribución de los datos que
estamos analizando. Diferencias importantes entre la media y la
moda o la media y la mediana indican que la distribución de los datos
es asimétrica, y si son iguales o muy cercanos la distribución de los
datos será simétrica. Observa los siguientes gráficos:

3.2. Otras medidas. Medidas de posición

Para describir otros aspectos relevantes de la distribución de


frecuencia se utilizan las medidas de posición: los cuartiles y los
percentiles. Son valores que dividen la distribución en partes iguales:

− Cuartiles: Hay 3 cuartiles que dividen a una distribución en 4


partes iguales: primero, segundo y tecer cuartil.
− Percentiles: Hay 99 percentiles que dividen a una serie en 100
partes iguales: (primero al noventa y nueve percentil).

• Cuartiles
Los cuartiles son los tres valores de la variable que dividen a un
conjunto de datos ordenados en cuatro partes iguales. Q1 , Q 2 y Q3
determinan los valores correspondientes al 25%, 50% y 75% de los
datos. Q 2 coincide con la mediana.
Si tenemos n datos, para hallar el primer cuartil, se ordenan los
valores de menor a mayor y a continuación se busca en dicha serie
ordenada el primer valor cuyo orden de lugar supere n/4.

Puede ocurrir que el valor coincida exactamente con n/4 (sucede


cuando n es múltiplo de 4), en tal caso, el primer cuartil se obtiene
tomando dicha observación y la siguiente, y calculando su media
aritmética, tal y como hacíamos para la mediana. Veamos el siguiente
ejemplo.

Ejemplo. Variable discreta

Vamos a calcular el primer y tercer cuartil de la distribución de las edades


de los alumnos del centro
Valores Frecuencia Frecuencias
absoluta acumuladas
12 9 9
13 25 34
14 27 61
15 16 77
16 12 89
17 8 97
18 3 100

TOTAL N=100

Q1  N/4=25 buscamos aquél valor que su frecuencia acumulada sea


mayor que 25, en este caso Q1 =13, es decir el 25% de los datos están
por debajo de esa cantidad.
Q3  3N/4=75 buscamos aquél valor que su frecuencia acumulada sea
mayor que 75, en este caso Q3 =15, es decir el 75% de los datos están
por debajo de esa cantidad.

Para datos agrupados

En este caso los cuartiles se buscará la primera clase cuya frecuencia


acumulada supere N/4, 2N/4 o 3N/4 de las observaciones, según
estemos hallando el primer, segundo o tercer cuartil. La marca de
clase de dicho intervalo, se podría dar como una aproximación de la
mediana. Sin embargo podemos obtener un valor más aproximado
empleando la fórmula siguiente, similar a la empleada para hallar la
mediana:
N
⋅ K − Fi −1
Qk = Li −1 + 4 ⋅ ci
fi
Donde:
K= número del cuartil que queremos hallar
Li − 1 = Límite inferior de la clase del cuartil que queremos
hallar.
ci = amplitud del intervalo.

f i = frecuencia absoluta de la clase del cuartil.

Fi −1 = frecuencia absoluta acumulada de la clase inferior a la


clase del cuartil.

• Percentiles
Los percentiles son los valores de la variable que dividen a un
conjunto de datos ordenados en cien partes iguales. P1 , P2 ...P100
determinan los valores correspondientes al 1%, 2%...100% de los
datos. P50 coincide con la mediana.

Su cálculo es similar al de los cuartiles, veamos el siguiente ejemplo


para datos agrupados

Ejemplo. Variable continua

Vamos a calcular el percentil 25 ( P25 ) del número de horas semanales que


pasan los alumnos del centro anterior viendo la televisión. Usamos la
frecuencia acumulada en porcentajes para hallar los percentiles.

Frecuencia Frecuencia Porcentajes


Valores
absoluta acumulada acumulados
[0,4) 4 4 4,87%
[4,8) 28 32 39,02%
[8,12) 21 53 64,63%
[12,16) 15 68 82,93%
[16,20) 9 77 93,90%
[20,24) 5 82 100%

TOTAL N=82

82
⋅ 25 = 20,50 . La primera frecuencia porcentual que supera 25N/100 es
100
39,02%, por tanto la clase del percentil 25 es el intervalo [4,8). Para
calcular el valor aplicamos la fórmula:
N
⋅ K − Fi −1
Pk = Li −1 + 100 ⋅ ci
fi
20,50 − 4
P25 = 4 + ⋅ 4 = 6,36
28
Podemos decir que el 75% de los alumnos ve la televisión más de 6 horas
semanales

3.3. Medidas de dispersión

Mediante la media, la mediana y la moda conocemos una parte de la


información acerca de las características de los datos, pero para
completar esa información necesitaríamos saber si todos los están
próximos o no a estas medidas. Para medir esta desviación respecto
a los valores centrales utilizamos los parámetros de dispersión.

• Rango (R).
Es la diferencia entre el mayor y el menor de los valores que toma la
variable.

Características del rango:


- El rango es sencillo de calcular y de interpretar.
- No es una medida muy significativa.

• Varianza (V) y desviación típica.


La varianza es una medida de dispersión que se basa en la desviación
de las observaciones con respecto a la media aritmética, y se denota
por V o σ 2 .

Para su cálculo seguimos los siguientes pasos:


1) hallamos la «distancia» de cada valor observado con respecto a la
media, xi − x
2) la elevamos al cuadrado (x i )
2
− x , con el fin de convertirlas en
positivas;
( )2
3) multiplicamos por su frecuencia absoluta xi − x ⋅ f i para tener en
cuenta las veces que se repite cada dato,
4) sumamos todos los valores obtenidos hasta ahora para conseguir
una
medida global
5) dividimos el resultado anterior por N (número de datos), para
conocer
el valor medio,

Con estos pasos llegamos a la expresión:


V =σ =
(
Σ xi − x ⋅ f i
2 )2

N
si desarrollamos el cuadrado de esta expresión, obtenemos:
2
Σx ⋅ f i 2
V =σ2 = i −x
N
que es una expresión más sencilla de manejar.

Si hallamos la raíz cuadrada de la expresión de la varianza


compensamos el cuadrado tomado inicialmente. A este valor se le
denomina desviación típica y es la medida de desviación más usual.
2
Σxi ⋅ f i 2
σ= −x
N

Ejemplo. Variable discreta

Habíamos obtenido que la media de edad de los alumnos del colegio


entrevistados era de 14,33. Vamos a calcular la desviación típica para
saber si las edades están dispersas o concetradas respecto a la media.

Frecuencia
Valores xi2 xi2 ⋅ f i
absoluta
12 9 144 1296
13 25 169 4225
14 27 196 5292
15 16 225 3600
16 12 256 3072
17 8 289 2312
18 3 324 972

20769
Sutituyendo los valores obtenemos σ = − 14,33 2 = 1,53
100

Y vemos que las edades difieren de la media en un año y medio por


encima y por debajo. Teniendo en cuenta que el rango de edades es de 6
años, los datos presentan poca dispersión, aunque la conclusión de
“mucha o poca” depende del contexto del problema y de la comparación
con otras poblaciones o muestras.

Características de la desviación típica:

- La desviación típica tiene más significado si usa para


comparar dos o más poblaciones.
- Es más sensible que la media a valores erróneos al usar el
cuadrado en su expresión.
- No es sensible al cambio de escala a diferencia de la
varianza, es decir, si medimos en metros o en kilómetros
obtendremos valores similares.

Potrebbero piacerti anche