Sei sulla pagina 1di 37

Medidas estadísticas.

Medidas de centralización (o de tendencia central): Sirven para determinar


los valores centrales o medios de la distribución.

Indican valores alrededor de los cuales los datos parecen agruparse.

Media aritmética.
Mediana.
Moda.

PROBABILIDAD Y ESTADISTICA. 1
Medidas de dispersión. Indican la mayor o menor concentración de los datos
con respecto a las medidas de centralización.
Nos dan una idea sobre que tan representativos son las medidas centrales de
los datos. A mayor dispersión menor representatividad.
Una dispersión pequeña indica un alto grado de uniformidad en las
observaciones y una dispersión grande indica poca uniformidad.
Varianza.
Desviación estandar.
Coeficiente de variación.
Rango.

PROBABILIDAD Y ESTADISTICA. 2
Medidas de posición. Dividen un conjunto ordenado de datos en grupos con
la misma cantidad de elementos.

Útiles para una clasificación de los elementos de la muestra.

Cuartiles.
Percentiles.

PROBABILIDAD Y ESTADISTICA. 3
Medidas de centralización
Media aritmética. Es el promedio de las mediciones observadas.
Datos no agrupados MUESTRA Datos no agrupados
n
POBLACION
X
N

X1  X 2    X n
i
X1  X 2    X N
X i
X  i 1
  i 1
n n N N

Datos agrupados p

m1 f 1  m 2 f 2    m p f p
m
j 1
j fj
X  
n n

Cantidad total de la variable distribuida en partes iguales entre todas las


observaciones.
Para datos agrupados mi es la marca de clase, fi es la frecuencia de clase y p
es el número total de clases.
4
Mediana. La mediana de un conjunto de observaciones es el valor que queda
en la parte central de un grupo de observaciones arregladas en orden de
magnitud.
Datos no agrupados
n impar n par
x n  x n 
me  x n 1   1
me  2
2

2 2
Datos agrupados

 n 1 
 T 
me  LM   2 
 f M 
 
La mediana deja el mismo número de datos antes y después de ese dato.

PROBABILIDAD Y ESTADISTICA. 5
LM  Límite inferior del intervalo de clase
que contiene la mediana, llamado clase de
la mediana.
f M  Es la frecuencia de clase de la mediana.
T  Es el total de las frecuencia s en los intervalos
de clase que están antes de la clase de la mediana.
  Es el ancho de la clase de la mediana.

PROBABILIDAD Y ESTADISTICA. 6
Moda: Se define como el valor o clase que tiene la mayor frecuencia en
un conjunto de observaciones.
Algunas veces dos clases o categorías tienen un número de observaciones
igualmente grande. A esto se le denomina distribución bimodal.
Si tiene una sola moda se llama unimodal.
Cuando las mediciones de una variable continua se agrupan como un
histograma de frecuencias o de frecuencias relativas, la clase que
tiene la frecuencia más alta se llama clase modal y el punto medio de
dicha clase se toma como la moda.

 a 
mo  LMO   
 ab

PROBABILIDAD Y ESTADISTICA. 7
LMO  Límite inferior de la clase de la moda.
a  Valor absoluto de la diferencia en frecuencia
entre la clase de la moda y la clase anterior.
b  Valor absoluto de la diferencia en frecuencia
entre la clase de la moda y la clase siguiente.
  Es el ancho de la clase de la moda.

PROBABILIDAD Y ESTADISTICA. 8
LAS POSICIONES RELATIVAS DE LA MEDIA, LA
MEDIANA Y LA MODA.

Se llama DISTRIBUCIÓN SIMÉTRICA, a la distribución que tiene la misma


forma hacia cualquier lado del centro.
Para una distribución simétrica, en forma de campana, la moda, la mediana y
la media se localizan en el centro y siempre son iguales.
Hay distribuciones simétricas que no tienen forma de campana.
Ejemplo Sim étrica ( cero sesgo )
Frecuencia

Años
Media = 20
Mediana = 20
Moda = 20

PROBABILIDAD Y ESTADISTICA. 9
Si una distribución es no simétrica o sesgada, cambia la relación entre
las tres medidas.
En una distribución con sesgo positivo, la media aritmética es la
mayor de las tres medidas, por lo general, la mediana es la medida
siguiente y la moda es la menor de las tres.

Sesgada a la derecha

Frecuencia

Ingreso semanal

Moda Mediana Media


Si una distribución tiene un sesgo negativo, la media es la menor
de las tres medidas, la mediana es mayor que la media aritmética y
el valor modal es el mayor.

Media Mediana Moda


Varianza: Medida de la desviación de las mediciones muestrales respecto a
su media. Es la media del cuadrado de las desviaciones de las
mediciones respecto a su media.

Datos no agrupados Datos no agrupados


POBLACION MUESTRA

 
n
 i  
2

 X X
X n
2
 2 i 1 i
n ˆs 2  i 1
n 1
Datos agrupados

 m  X  f
p
2
j j
j 1
sˆ 2 
n 1

PROBABILIDAD Y ESTADISTICA. 12
Desviación estándar. También es una medida de la desviación de los datos
respecto a la media. Es al raíz cuadrada de la varianza.
Datos no agrupados Datos no agrupados
POBLACION MUESTRA

 X i   
n
 X i  X 
2 n
2

 i 1 s i 1

n 1
N
Datos agrupados

 m j  X  f j
p
2

j 1
s
n 1

PROBABILIDAD Y ESTADISTICA. 13
Rango. Se define como la diferencia entre la medición mayor y la menor.

R = xmáx-xmín

PROBABILIDAD Y ESTADISTICA. 14
EJERCICIO
Construya los histogramas de frecuencias absoluta y polígono de
frecuencias para relativas y las ojivas. Utilice el entero superior de
para el número de clases. Además calcule y analice todas las
medidas estadísticas correspondientes (media, moda, mediana,
varianza, desviación estándar)

El síndrome de inmunodeficiencia adquirida (SIDA) se ha convertido en


una de las enfermedades más devastadoras en la sociedad moderna.
Las cantidades de casos de SIDA (en miles) registrados en 25 ciudades
principales de los Estados Unidos en 2010 aparecen a continuación:

20.3 6.2 3.7 2.6 2.1


14.6 5.6 3.7 2.3 2.0
11.9 5.5 3.4 2.2 2.0
6.6 4.6 3.1 2.2 1.9
6.3 4.5 2.7 2.1 1.8

PROBABILIDAD Y ESTADISTICA. 15
Coeficiente de variación

En estadística el coeficiente de variación (de Pearson) es una


medida de dispersión útil para comparar dispersiones a escalas
distintas pues es una medida invariante ante cambios de escala.
Por otro lado presenta problemas ya que a diferencia de la
desviación típica este coeficiente es variable ante cambios de
origen. Por ello es importante que todos los valores sean positivos
y su media de por tanto un valor positivo.
Exigimos que: x  0

Se calcula: CV 

Donde σ es la desviación típica. Se puede dar en tanto por ciento
calculando: 
CV   100

PROBABILIDAD Y ESTADISTICA. 16
El coeficiente de variación permite comparar las dispersiones de
dos distribuciones distintas, siempre que sus medias sean
positivas.

Se calcula para cada una de las distribuciones y los valores que


se obtienen se comparan entre sí.

La mayor dispersión corresponderá al valor del coeficiente de


variación mayor.

PROBABILIDAD Y ESTADISTICA. 17
Ejemplo.
• Una distribución tiene una media de 140 y σ = 28.28 y otra
con media de 150 y σ = 25. ¿Cuál de las dos presenta mayor
dispersión?

PROBABILIDAD Y ESTADISTICA. 18
El Coeficiente de asimetría, se representa mediante la ecuación
matemática,
n
(1 / n)  ( xi  x ) 3 * f
i 1
g1 
s3
(g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe
aproximadamente la misma cantidad de valores a los dos lados de la media.
Este valor es difícil de conseguir por lo que se tiende a tomar los valores que
son cercanos ya sean positivos o negativos (± 0.5).

• (g1 > 0): (distribución asimétrica positiva; existe mayor concentración de


valores a la derecha de la media que a su izquierda)

• (g1 < 0): (distribución asimétrica negativa; existe mayor concentración de


valores a la izquierda de la media que a su derecha)

Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la
distancia que separa la aglomeración de los valores con respecto a la media.

PROBABILIDAD Y ESTADISTICA. 19
CURTOSIS

Esta medida determina el grado de concentración que presentan los


valores en la región central de la distribución. Por medio del
Coeficiente de Curtosis, podemos identificar si existe una gran
concentración de valores (Leptocúrtica), una concentración normal
(Mesocúrtica) ó una baja concentración (Platicúrtica).

PROBABILIDAD Y ESTADISTICA. 20
n
(1 / n)  ( xi  x ) 4 * f
i 1
g2  3
s4
Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de
los valores, X la media de la muestra y (ni) la frecuencia de cada
valor. Los resultados de esta fórmula se interpretan:

(g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría


es bastante difícil encontrar un coeficiente de Curtosis de cero (0),
por lo que se suelen aceptar los valores cercanos (± 0.5 aprox.).
(g2 > 0) la distribución es Leptocúrtica
(g2 < 0) la distribución es Platicúrtica

Cuando la distribución de los datos cuenta con un coeficiente de


asimetría (g1 = ±0.5) y un coeficiente de Curtosis de (g2 = ±0.5),
se le denomina Curva Normal. Este criterio es de suma importancia
ya que para la mayoría de los procedimientos de la estadística de
inferencia se requiere que los datos se distribuyan normalmente.

PROBABILIDAD Y ESTADISTICA. 21
EJEMPLO: Los cálculos para la media aritmética para datos
agrupados en una distribución de frecuencias. En la siguiente tabla
tenemos una distribución de frecuencias para los precios de venta de
los vehículos. Determinar el precio de venta medio aritmético de los
vehículos.

Precios de venta
(miles de $) FRECUENCIA

15 A 18 8
18 A 21 23
21 A 24 17
24 A 27 18
27 A 30 8
30 A 33 4
33 A 36 2

TOTAL 80
Precio de venta Frecuencia Punto medio fm
(Miles de $) (f) (m)
De 15 hasta 18 8 $16.5 $132.0

De 18 hasta 21 23 19.5 448.5

De 21 hasta 24 17 22.5 382.5

De 24 hasta 27 18 25.5 459.0

De 27 hasta 30 8 28.5 228.0

De 30 hasta 33 4 31.5 126.0

De 33 hasta 36 2 34.5 69.0

Total 80 $1 845.0

Al calcular la media aritmética utilizando la fórmula obtenemos:

X 
f m

$1845
 $23.1 (miles)
n 80
De modo que, llegamos a la conclusión de que el precio de venta medio de los
vehículos es aproximadamente de $23 100
Precio de Frecuencia Punto
venta (f) Medio (m- X ) (m- X)² 
f m- X 
2

(miles $) (m)

De 15.0 8 16.5 -6.6 43.56 348.48


hasta 18.0

De 18.0 23 19.5 -3.6 12.96 298.08


hasta 21.0

De 21.0 17 22.5 -0.6 0.36 6.12


hasta 24.0

De 24.0 18 25.5 2.4 5.76 103.68


hasta 27.0

De 27.0 8 28.5 5.4 29.16 233.28


hasta 30.0

De 30.0 4 31.5 8.4 70.56 282.24


hasta 33.0

De 33.0 2 34.5 11.4 129.96 259.92


hasta 36.0

80 1531.80
Aplicando la fórmula tenemos:

s
 f m 
- X
2



1531.8
 4.403
n 1 80 - 1

La desviación estándar para datos agrupados es de $ 4 403, que


difieren por $49 o 1.1 % ($ 4 354 valor real (toda la población)).
Con base en el diferencia porcentual los estimados están muy cerca
de los valores reales.
EJERCICIO. Los ingresos netos de una muestra de grandes
importadores de antigüedades se organizaron en la siguiente tabla:

Ingreso neto Número de


(millones de $) importadores

De 2 hasta 6 1 a) ¿Cómo se llama la tabla?


De 6 hasta 10 4 b) ¿Cuál es el estimado del ingreso
neto medio aritmético?
De 10 hasta 14 10
c) ¿Cuál es el estimado de la
De 14 hasta 18 3
desviación media estándar?
De 18 hasta 22 2
TAREA 1. Se realiza un estudio acerca de los efectos del tabaquismo sobre los
patrones de sueño. La medición que se observa es el tiempo, en minutos, que
toma quedarse dormido. Se obtienen estos datos para una muestra.

Fumadores: 69.3, 56.0, 22.1, 47.6,


53.2, 48.1, 52.7, 34.4,
60.2, 43.8, 23.2, 13.8

No fumadores 28.6, 25.1, 34.9


29.8, 38.5, 30.2
31.8, 41.6, 21.1
36.0, 37.9, 13.9
a) Encuentre la media, la mediana y la desviación estándar para cada grupo.
b) Encuentre la media, la mediana y la desviación estándar para datos
agrupados
c) Comparar los resultados.

PROBABILIDAD Y ESTADISTICA. 26
La desviación estándar o típica se interpreta utilizando
dos medidas:
a) Teorema de Chebyshev o Tchebycheff
b) La Regla Empírica o la regla de la normal
TEOREMA DE CHEBYSHEV.
La desviación típica de un conjunto de observaciones se emplea para medir las
variaciones con respecto a la media de los valores de las observaciones.
Mientras más pequeña sea la desviación típica, es más probable obtener un
valor cercano a la media; mientras mayor sea la desviación típica, es más
probable obtener un valor alejado de la media.

El matemático ruso P. L. Chebyshev (1821 – 1894) desarrolló un


teorema que nos permite determinar la proporción mínima de los
valores que se encuentran en un número específico de desviaciones
estándar de la media.
Teorema de Chebyshev. Para cualquier grupo de observaciones (muestra o
población), la proporción de los valores que se encuentran dentro de k
desviaciones estándar de la media es por lo menos 1 – 1/ k², donde k es
cualquier constante mayor que 1.
La proporción de veces que cualquier posible valor de X caerá dentro del
intervalo construido es de al menos 1 – 1/k². De acuerdo con esto, la
proporción de veces que los valores de X caerán dentro del intervalo formado
por dos desviaciones típicas medidas a partir de X es 1 – 1/2² = 1 – ¼ =
¾; la proporción de veces que los valores de X caerán dentro de 3
desviaciones típicas medidas a partir de es de al menos 1 – 1/3² = 1 –
1/9 = 8/9.
X

EJEMPLO: La cantidad media aritmética quincenal con la que


contribuyen los empleados de Dupree Paint al plan de participación de
utilidades de la compañía fue $51.54 y la desviación estándar es
$7.51. ¿Qué porcentaje de las contribuciones se encuentra entre más
3.5 desviaciones estándar y menos 3.5 desviaciones estándar de la
media?
SOLUCIÓN.
1 1 1
1 2 1 1  0.92
k 3.5 2
12.25

Alrededor de 92 %.
EJEMPLOS:
1. Al menos, ¿qué porcentaje de un conjunto de observaciones caerá
a) Dentro de cinco desviaciones típicas medidas a partir de la media.
b) Dentro de diez desviaciones típicas medidas a partir de la media?
Solución.
a) Al menos 1 – 1/5² = 1 – 0.04 = .96, esto es 96%, de las
observaciones caerán dentro de cinco desviaciones típicas medidas a
partir de la media.
b) Al menos 1 – 1/10² = 1 – 0.01 = 0.99, esto es 99% de las
observaciones caerán dentro de diez desviaciones típicas medidas a
partir de la media.
2. A lo más, ¿qué porcentaje de un conjunto de observaciones caerá
a) Más allá de dos desviaciones típicas medidas a partir de la media.
b) Más allá de tres desviaciones típicas medidas a partir de la media?
Las palabras “más allá” se refieren a las partes de la distribución que
quedan fuera del intervalo indicado. Entonces, la proporción de la
distribución que cae más allá del intervalo es igual a:

1 – proporción dentro del intervalo.


SOLUCIÓN.
a) La proporción de observaciones que cae más allá de 2 desviaciones
típicas medidas a partir de la media es 1 – (1 – 1/2²) = 1 – ¾ = ¼
ó 25%.
a) La proporción de la distribución que cae más allá de tres
desviaciones típicas medidas a partir de la media es 1 – (1 – 1/3²)
= 1 – 8/9 = 1/9 ó 11%.
Teorema de Chebyshev
Para cualquier distribución de los datos con respecto a la media. La
proporción de los datos que se encuentran K desviaciones estándar
de la media es al menos:

1 - 12
k
Por lo cual,
• El 75% de los datos se encuentran a dos desviaciones estándar.

1- 1 1 - 1 1 3
= = 1 - = = 75%
k2 22 4 4
• El 88.89% de los datos se encuentran a tres desviaciones estándar.

1- 1 1 1 8
2
= 1- 2
= 1- = = 88.9%
k 3 9 9
31
Al menos
89%
Al menos
75%

x - 3s x - 2s x x + 2s x + 3s

32
LA REGLA EMPÍRICA
El Teorema de Chebyshev se ocupa de cualquier grupo de valores, esto
es, la distribución de los valores puede tener cualquier forma.

Sin embargo, para una distribución simétrica en forma de campana,


podemos ser más precisos al explicar la dispersión en relación con la
media.
La REGLA EMPÍRICA, que en ocasiones se conoce como la REGLA de
la NORMAL, describe aquellas relaciones que comprenden la
desviación estándar y la media.

REGLA EMPÍRICA. Para una distribución de la frecuencia simétrica en forma de


campana, aproximadamente 68 % de las observaciones estarán entre más y
menos una desviación estándar de la media; alrededor de 95% de las
observaciones se encontrarán ente más y menos dos desviaciones estándar de
la media y prácticamente todas (99.7%) estarán entre más y menos tres
desviaciones estándar de la media.
99.7%

95%
68%

X - 3s X - 2s X -1s X X + 1s X + 2s X + 3s

34
Ejemplo:
Una muestra de las tarifas de renta en los departamentos University
Park se asemeja a una distribución simétrica en forma de
campana. La media de la muestra es $500; la desviación
estándar es $20. Utilizando la Regla empírica, responder las
siguientes preguntas:
1. ¿Entre qué par de cantidades se encuentra alrededor de 68 % de
los gastos mensuales en alimentos?
2. ¿Entre qué par de cantidades está 95 % de los gastos mensuales
en alimentos?
3. ¿Entre qué par de cantidades están casi todos los gastos
mensuales?
SOLUCIÓN:
1. Alrededor de 68 % se encuentra entre $480 y $520, calculado como sigue:
X  1 s  $500  1$20
2. Aproximadamente 95 % está entre $460 y $540, calculando como sigue:

X  2 s  $500  2$20
3. Casi todos (99.7%) se encuentran entre $440 y $560, calculado
como sigue:
X  3 s  $500  3$20
EJERCICIO1. Pitney Pipe Company es uno de varios fabricantes nacionales de
tubería PVC. El departamento de control de calidad tomó una muestra de 600
tubos de 10 pies. A la distancia de un pie del extremo del tubo se midió el
diámetro exterior; la media fue 14.0 pulgadas y la desviación estándar 0.1
pulgadas.
a) Si la forma de la distribución se desconoce, por lo menos, ¿qué porcentaje de
las observaciones estará entre 13.85 pulgadas y 14.15 pulgadas?
b) Si suponemos que la distribución de los diámetros es simétrica y que tiene
forma de campana, ¿entre qué par de valores estarán 95% de las
observaciones?

EJERCICIO 2. De acuerdo con el teorema de Chebyshev, ¿qué


porcentaje de las observaciones debe caer

Dentro de 2.0 desviaciones estándar?


Dentro de 3.5 desviaciones estándar?.
Dentro de 5.0 desviaciones estándar?

PROBABILIDAD Y ESTADISTICA. 37

Potrebbero piacerti anche