Sei sulla pagina 1di 36

Medidas de tendencia central,

variacin y grficos de caja


Objetivos del tema
Conocer cmo calcular y analizar las medidas de tendencia central y
dispersin de un grupo de datos

Interpretar correctamente las medidas de tendencia central y


dispersin

Manejar herramientas para el clculo de parmetros y estadsticos


Medidas de tendencia central
Media aritmtica: es la medida de tendencia central que se calcula al
sumar todos los datos y dividir el total entre el nmero de datos

Puede verse afectada por los valores extremos

Mediana: es la medida de tendencia central que implica el valor


intermedio, cuando los datos originales se presentan en orden de magnitud
creciente (o decreciente)
Si el nmero de valores es impar, la mediana es el nmero que se localiza
exactamente a la mitad de la lista
Si el nmero de valores es par, la mediana se obtiene calculando la media de los dos
nmeros que estn a la mitad
Medidas de tendencia central
Moda: Es el valor que se presenta con mayor frecuencia entre los
datos
Un conjunto de datos puede tener una moda, ms de una moda o ninguna
moda
Cuando dos valores se presentan con la misma frecuencia y esta es la ms alta, ambos
valores son modas, por lo que el conjunto de datos es bimodal.
Cuando ms de dos valores se presentan con la misma frecuencia y esta es la ms alta,
todos los valores son modas, por lo que el conjunto de datos es multimodal.
Cuando ningn valor se repite, se dice que no hay moda
Mitad de rango: constituye el valor que se encuentra a la mitad, entre
la puntuacin ms alta y la ms baja, en el conjunto original de datos

Sensible a valores extremos


Clculo de la media a partir de frecuencias
Frecuencia

Marca de clase
Media ponderada

Ponderacin

Se calcula cuando existen diferentes grados de importancia para los datos


Sesgo de la distribucin
Comparacin de medidas de tendencia central
Medidas de variacin
Desviacin estndar
La desviacin estndar es una medida de variacin de todos los valores con respecto a la media
El valor de la desviacin estndar s generalmente es positivo. Solo es igual a cero cuando todos
los valores de los datos son el mismo nmero. (Nunca es negativa). Adems, valores grandes de s
implican mayores cantidades de variacin
El valor de la desviacin estndar s puede aumentar de manera drstica con la inclusin de uno o
ms valores atpicos (valores de datos que se encuentran muy lejos de los dems)
Las unidades de la desviacin estndar s (como minutos, pies, libras, etctera) son las mismas de
los datos originales
Propiedades de la desviacin estndar
La desviacin estndar mide la variacin entre los valores de los datos.

Los valores cercanos tienen una desviacin estndar menor, y los valores con una variacin
mucho mayor tienen una desviacin estndar ms grande.

La desviacin estndar tiene las mismas unidades de medicin (como minutos, gramos o dlares)
de los datos originales.

Para muchos conjuntos de datos, un valor es inusual si difiere de la media por ms de dos
desviaciones estndar.

Cuando se compara la variacin de dos conjuntos de datos diferentes, solo se comparan las
desviaciones estndar si los conjuntos de datos utilizan la misma escala y las mismas unidades, y
si sus medias son aproximadamente iguales.
Desviacin estndar de la poblacin
Varianza
La varianza de un conjunto de valores es una medida de variacin igual al cuadrado de la
desviacin estndar

Varianza muestral: s2 el cuadrado de la desviacin estndar s

Varianza poblacional: 2 el cuadrado de la desviacin estndar poblacional


Regla prctica da la desviacin estndar
Si se conoce la desviacin estndar de un conjunto de datos, utilcela para
calcular estimaciones de los valores mustrales mnimos y mximos comunes
de la siguiente manera: valor mnimo comn = (media) - 2 x(desviacin
estndar) valor mximo comn = (media) + 2 x(desviacin estndar)

Ejercicio:

La Escala Wechsler de Inteligencia para Adultos es una prueba de CI que


est diseada con una media de 100 y una desviacin estndar de 15.
Utilice la regla prctica de las desviaciones para calcular las puntuaciones
de CI mxima y mnima comunes. Luego, determine si una puntuacin de
CI de 135 se considerara poco comn
Regla emprica (68-95-99.7)
Esta regla establece que las siguientes propiedades se aplican a
conjuntos de datos con una distribucin aproximadamente normal:
Aproximadamente el 68% de todos los valores estn dentro de una
desviacin estndar de la media.

Aproximadamente el 95% de todos los valores estn dentro de 2


desviaciones estndar de la media.

Aproximadamente el 99.7% de todos los valores estn dentro de 3


desviaciones estndar de la media.
Coeficiente de variacin
Cuando se compara la variacin de dos conjuntos diferentes de datos,
solo se deben comparar las desviaciones estndar si los dos conjuntos
de datos utilizan la misma escala y las mismas unidades, y si tienen
aproximadamente la misma media. Si las medias son muy diferentes,
o si las muestras utilizan diferentes escalas o unidades de medicin,
podemos utilizar el coeficiente de variacin
Valores Z (o valores estandarizados)
Es el nmero de desviaciones estndar que un valor x se encuentra
por arriba o por debajo de la media. Se calcula convirtiendo un valor a
una escala estandarizada
Utilidad de los valores Z
Percentiles
Son un tipo de cuantiles o fractiles que dividen a los datos en
grupos con aproximadamente el mismo nmero de valores en cada
uno
Los percentiles son medidas de ubicacin, que se denotan con P1, P2,
, P99, las cuales dividen un conjunto de datos en 100 grupos con
aproximadamente 1% de los valores en cada grupo
No existe un consenso universal sobre el mejor procedimiento para el
clculo de los percentiles
Clculo del percentil al que corresponde un
dato
Si queremos saber a qu percentil corresponde un dato (x) especfico
dentro de un grupo de datos se utiliza la siguiente frmula:

El resultado se redondea al nmero ms cercano


Ejemplo
Clculo de un percentil: Presupuestos de pelculas En la siguiente
tabla se presenta una lista de 35 presupuestos (en millones de
dlares) ordenados, los cuales se obtuvieron de la muestra aleatoria
simple de pelculas. Calcule el percentil para el valor de $29 millones.

El presupuesto de $29 millones


separa al 17% inferior de los
presupuestos, del 83% superior
de los presupuestos
Transformacin de un percentil por un valor

Notacin
n nmero total de valores en el conjunto de datos
K percentil utilizado (Ejemplo: para el percentil 25, k = 25).
L localizador que da la posicin de un valor (Ejemplo: para el valor en
el lugar 12 en la lista ordenada, L = 12).
Pk percentil k-simo (Ejemplo: P25 es el percentil 25)
Procedimiento para el
clculo
Calcular el valor del percentil 90, P90
L = 31.5 no es un nmero entero.
Siguiendo el mecanismo descrito
modificamos L al redondearlo de
31.5 a 32.
En el ltimo recuadro observamos
que el valor de P90 es el 32 valor,
contando desde el ms bajo.
Es decir, P90 = $150 millones.
Por lo tanto, alrededor del 90% de
las pelculas tienen presupuestos
por debajo de $150 millones, y
aproximadamente el 10% de las
pelculas tienen presupuestos por
encima de $150 millones
Calcular el valor del percentil 60, P60

Como L = 21 es un nmero entero,


observamos que el valor del percentil
60 est a la mitad del valor L-simo
(21) y el siguiente valor en el
conjunto de datos original. Es decir, el
valor del percentil 60 se encuentra a
la mitad entre el vigsimo primer
valor (21) y el vigsimo segundo
valor (22). El valor 21 es $70
millones y el valor 22 es $72
millones; por lo tanto, el valor a la
mitad de ellos es $71 millones.
Concluimos que el percentil 60 es
P60 = $71 millones
Cuartiles
Los cuartiles son medidas de ubicacin, que se denotan por Q1, Q2 y Q3, y
dividen un conjunto de datos ordenado en cuatro partes iguales, con
aproximadamente el 25% de los valores en cada grupo

Q1 (Primer Cuartil) Separa el 25% inferior de los valores ordenados del 75%
superior. (Para ser ms precisos, al menos el 25% de los valores ordenados son
menores que o iguales a Q1, y al menos el 75% de los valores son mayores que o
iguales a Q1).
Q2 (Segundo Cuartil) Igual a la mediana; separa el 50% inferior de los valores
ordenados del 50% superior.
Q3 (Tercer cuartil) Separa el 75% inferior de los valores ordenados del 25%
superior. (Para ser ms precisos, al menos el 75% de los valores ordenados son
menores que o iguales a Q3, y al menos el 25% de los valores son mayores que o
iguales a Q3)
Cuartiles
Resumen de los 5 nmeros y grfica de caja
El resumen de los 5 nmeros consiste en reportar el valor mnimo; el
primer cuartil, Q1; la mediana (o segundo cuartil, Q2); el tercer
cuartil, Q3; y el valor mximo
En una grfica de caja (o diagrama de caja y bigotes) se representa
un conjunto de datos consistente en una lnea que se extiende desde
el valor mnimo hasta el valor mximo, y un caja con lneas trazadas
en el primer cuartil, Q1, la mediana y el tercer cuartil, Q3
Ejercicio
Realice un grfico de caja y bigotes para el conjunto de datos del
ejemplo anterior
Su grfico debe verse aproximadamente as
Valores atpicos y grficas de caja modificadas
Se acepta que un valor es atpico si se encuentra por arriba de Q3 en una
cantidad mayor que 1.5RIC o 1,5RIC por debajo de Q1

Usando el ejemplo del pulso en mujeres tendramos que Q1 = 68 y Q3 = 80. El


rango intercuartil se obtiene de la siguiente manera: RIC = Q3 Q1 = 80 - 68 = 12.
Utilizando los criterios para identificar valores atpicos, buscamos pulsos que
estn por arriba del tercer cuartil de 80 en una cantidad mayor que 1.5 * RIC =1.5
* 12 = 18, de manera que los valores extremos superiores son mayores que 98.
Los pulsos de 104 y 124 satisfacen esta condicin, por lo que ambos son valores
atpicos
Valores atpicos y grficas de caja modificadas
Una grfica de caja modificada es aquella que se construye con las
siguientes modificaciones:
1. Se usa un smbolo especial (como un asterisco o un punto) para
identificar valores atpicos
2. La lnea horizontal slida se extiende nicamente hasta el valor del
dato mnimo que no es un valor atpico y hasta el valor del dato
mximo que no es un valor atpico
Cuaderno de ejercicios
Captulo 3 Triola. Seccin 3-2
Ejercicios del 25 al 34
Captulo 3 Triola. Seccin 3-3
Ejercicios 17, 18
Captulo 3 Triola. Seccin 3-4
Ejercicios 14-30
Puntos clave
Un grupo de datos se puede describir mediante medidas de tendencia
central y variacin
Existen diferentes estadsticos y parmetros que describen tanto el centro
de la distribucin (media, mediana, moda, mitad de rango) como la
variacin (desviacin estndar, varianza, coeficiente de variacin, rango).
Aunque ninguno de ellos es exacto para todos los tipos de datos
Los cuantiles (cuartiles, percentiles, deciles, entre otros) son medidas de
posicin y ubican los datos dentro de las distribuciones
Los diagramas de caja y bigotes son tiles para determinar valores clave
dentro de un grupo de datos y para comparar dos grupos de datos

Potrebbero piacerti anche