Sei sulla pagina 1di 47

ESTADÍGRAFOS

Estadígrafo: Es la medida que en Estadística se aplica sobre una muestra. A estos indicadores
se les denomina también ESTADIGRAFOS o MEDIDAS DE RESUMEN, permiten hallar un
valor numérico, el mismo que representa a toda la población o muestra en estudio.
Las medidas de resumen más importantes se clasifican en tres grupos:
- Medidas de tendencia central: Media, mediana, moda
- Medidas de posición : Deciles, cuartiles, percentiles
- Medidas de dispersión: Desviación standard, varianza, coeficiente de variación

1. MEDIDAS DE TENDENCIA CENTRAL

GENERALIDADES
En una distribución de frecuencias se observan diferentes características que tienen relación
con el comportamiento de las variables. Una de las primeras observaciones se refieren a la
ubicación o posición de los datos alrededor de un valor central; así en las distribuciones de
frecuencias pueden existir diferentes valores centrales para la misma forma de distribución, o
también un solo valor central para diferentes formas de distribución. La importancia de estas
características condice en general a la determinación de promedios o estadígrafos de posición.

Estos estadígrafos localizan el centro de la distribución de frecuencias, por esto se denominan


también estadígrafos de posición o de localización, como por ejemplo: media aritmética, media
armónica, media geométrica, moda, mediana, cuartiles, etc.

1.1 MEDIA ARITMETICA.


La media aritmética, llamado también promedio aritmético, o simplemente media, de un
conjunto de n números X 1 , X 2 , X 3 ,......., X n se denota por X (léase «X barra») es un

estadígrafo que localiza el centro de la distribución en base al centro de gravedad y se obtiene


a partir del siguiente razonamiento:
n

X  X 2  X 3  .......  X n
X
j 1
j
X
X 1  
n n n

1
EJEMPLO:

Sean las notas de un alumno: 8, 3 ,5 ,12 Y 10 entonces el promedio será:

8  3  5  12  10
X   7.6
5

X j
PARA DATOS NO AGRUPADOS
Luego se puede decir que: X 
j 1

Para datos agrupados: Si los números X 1 , X 2 ,....., X m ocurren f 1 , f 2 ,....., f m veces,

respectivamente (o sea, con frecuencias f 1 , f 2 ,....., f K ), media aritmética es

f X  f 2 X 2  ....  f m X m
f
j 1
j Xj
 fX   fX
X 1 1  
f 1  f 2  ......  f m
f
m

j
f n
j 1

Donde N =  f es la frecuencia total (o sea, el número total de casos).


m

Entonces: f
j 1
j Xj PARA DATOS
X  m AGRUPADOS
fj 1
j

(f, es el numero de veces que aparece el valor de X)

2
EJEMPLO: La tabla es una distribución de frecuencias de alturas (con precisión de 1 pulgada)
de 100 estudiante varones de la universidad XYZ.

Tabla 1.1 Alturas de 100 estudiantes varones


de la universidad XYZ
ALTURA
NUMERO DE ESTUDIANTES
(Pulgadas)
60 - 62 5
63 - 65 18
66 - 68 42
69 - 71 27
72 - 74 8
TOTAL 100

La primera clase comprende las alturas de 60 a 62 pulgadas, puesto que 5 estudiantes tienen
una altura perteneciente a esa clase, la correspondiente frecuencia de clase es 5.

Los datos ordenados y requeridos como en la distribución de frecuencia anterior, se suelen


llamar “Datos Agrupados”, aunque en el proceso de agrupamiento se pierden detalles del valor
original de los datos, tiene la ventaja de presentarlos “todos” en un cuadro sencillo que facilita
encontrar las relaciones entre ellos.

Intervalos de Clase y Límites de Clase: Un símbolo que define una clase tal como 60-62 de la
tabla anterior, se conoce como intervalo de clase. Los números extremos 60 y 62 son los
“Límites de Clase”, el número menor es el “Límite inferior” de la clase y el mayor es el
“Límite superior” de la clase; “Límite Real”.

Los términos clase e intervalo de clase se usan a menudo indistintamente, aunque el intervalo
de clase es realmente un símbolo para la clase.

Marca de Clase: La marca de clase es el punto medio del intervalo de clase y se obtiene
sumando los límites superior e inferior de la clase y dividiendo por 2.

3
La marca de clase en el intervalo 60-62 es (60+62)/2=61, también se denomina punto medio de
clase.

SOLUCIÓN

La Tabla 1.2 indica cómo se hace. Nótese que todos los estudiantes que tienen entre 60 y 62
(pulgadas) , o entre 63 y 65, etc., se consideran como de 61 (pulgadas) , 64 (pulgadas), etc.

El problema se reduce entonces a hallar la altura media de 100 estudiantes, de los cuales 5
miden 61 (pulgadas), 18 miden 64 (pulgadas), etc.
Los cálculos exigidos pueden ser tediosos, sobre todo para casos de números grandes y con
muchas clases.
Tabla 1.2
Altura (pulgadas) Marca de clase (X) Frecuencia ( f ) fX
60-62 61 5 305
63-65 64 18 1152
66-68 67 42 2814
69-71 70 27 1890
72-74 73 8 584
n   f  100 n   fX  6745

X 
 fX   fX 
6745
 67.45 _ pu lg adas
f n 100

La altura media de 100 estudiantes es de 67.45 pulgadas.

1.1.1 FORMULAS ABREVIADAS PARA LA MEDIA ARITMETICA

Dada la importancia que posee la media aritmética como estadígrafo de posición, es necesario
apelar a su flexibilidad matemática para deducir formulas abreviadas o reducidas

En general, existen dos métodos, denominados método CORTO y método CLAVE


respectivamente.

4
a) Método Corto
Este método se fundamenta en un cambio de origen o translación a otro nuevo llamado
ORIGEN DE TRABAJO, o algunos casos MEDIA HIPOTETOCA, es decir
d=X-A

Donde: d= Desviación
X= Variable
A=Origen de trabajo (o media hipotética)
Despejando la variable X se tiene:

m
X=d+A
f
j 1
j Xj
X
n
m m m


j 1
f j (d j  A) 
j 1
f jd j A f j
j 1
X  
n n n
Entonces:

X
 fd  An
n n

X  A
 fd FORMULA DEL METODO CORTO PARA
n
DATOS AGRUPADOS

X  A
d PARA DATOS NO AGRUPADOS
n

Las formulas del método corto no tienen restricciones en este sentido se pueden utilizar
cuando los tamaños de clase son iguales o no y cuando la serie es simple o de datos agrupados

b) Método Clave

5
Se sustenta en un cambio de origen y de escala simultáneamente de manera que por este
medio , se define una nueva variable (“u”) de números enteros positivos y negativos . es
importante aclarar que la formula obtenida por este método, tiene restricciones fundamentales y
es que solamente se puede utilizar cuando los tamaños de clase son CONSTANTES y
únicamente para datos agrupados en otro caso no es posible utilizar la formula deducida por el
método CLAVE.
cu  X  A

X A
u
c

Donde:
C = Tamaño de intervalo de clase
U = Números enteros positivos, negativos y cero
X = Variable
A = Origen de trabajo o media hipotética
Despejando X:
X=cu+A
Por lo tanto
m m m

f
j 1
j (cu j  A)  f cu
j 1
j j A f j
j 1
X  
n n n

m m
A f j c f j u j
j 1 j 1
X 
n n

 m 
  f ju j 
X  A 
j 1
c FORMULA DEL MÉTODO CLAVE
 n 
 
 

1.1.2 PROPIEDADES DE LA MEDIA ARITMÉTICA

6
La media aritmética tiene propiedades sumamente importantes desde el punto de vista
descriptivo y también inferencial, sin embargo es imprescindible realizar una revisión de las
propiedades más fundamentales empezando por las descriptivas.

PROPIEDAD 1

Para datos no agrupados. La suma algebraica de las desviaciones de cada valor observado
X 1 , X 2 ,........ Xn con respecto a su media es cero. Esta propiedad significa que,
n

(X
j 1
j  X)  0

Para datos agrupados. Para datos agrupados esta propiedad se transforma en


m

f
j 1
j (X j  X )  0

Donde:
m = número de clases
f j = frecuencia absoluta de la clase j

X j = punto medio del intervalo i (marca de clase)

DEMOSTRANDO:

n n n m m m

 ( X j  X )   X j  X f
j 1
j ( X j  X )  f j X j  f j X
j 1 j 1
j 1 j 1 j 1
m m
n
  f j X j X  f j
  X j nX j 1 j 1
j 1
m
n 1 n    f j X j nX
  X j n *  *  X j  j 1

j 1  n j 1   m 
n n m  f j X j 
  X j  X j  0  f j X j n 
j 1
0
j 1 j 1 j 1  n 
 
 

PROPIEDAD 2

7
La suma de los cuadrados de las desviaciones de cada una de las observaciones
X 1 , X 2 ,........ Xn con respecto a su media es mínima. Esta propiedad significa que, si a es
cualquier valor, entonces:

 X  A
n
2 PARA DATOS NO AGRUPADOS
j
j 1

 f X  A
m
2 PARA DATOS AGRUPADOS
j j
j 1

DEMOSTRANDO:
X  A
n
2
j
j 1

X  A  ( X j  X )  ( X  A) 
n n
2
j
j 1 j 1

 
n
  ( X j  X ) 2  2( X j  X )( X  A)  ( X  A) 2
j 1
n n n
  ( X j  X ) 2   ( X  A) 2  2 ( X i  X )( X  A)
j 1 j 1 j 1

Puesto que
n n
2 ( X j  X )( X  A)  2( X  A) ( X j  X )  0
j 1 j 1

Se tiene
n n

 ( X i  A) 2   ( X j  X ) 2  n( X  A) 2
j 1 j 1

Y como n( X  A) 2  0, obtenemos
n n

 ( X j  A) 2   ( X j  X ) 2
j 1 j 1

Alcanzándose la igualdad cuando X =A

 f X  A
m
2
j j
j 1

8
Es mínimo si A = X

Hallando la primera derivada respecto de A, e igualando a cero:

m
   f j ( X j  A) 2
j 1

d m
 2 f j ( X j  A)(1)
dA j 1

d
0
dA
m
2 f j ( X j  A)(1)  0
j 1
m

f
j 1
j X j  nA  0

m
nA   f j X j
j 1
m

f
j 1
j Xj
A
n
A X

d 2
 2n
dA Por tanto es mínimo

PROPIEDAD 3

M (X )  X

9
m

f j ( AX j  K )

M AX j  K   j 1

n
Operando en el segundo miembro
m m

f j AX j f j Xj
A f j X j k f j

M AX j  K   j 1

n

j 1

n

n

n

 
M AX j  K  AX  K

"EL PROMEDIO O MEDIA ARITMÉTICA DE UNA VARIABLE, MULTIPLICADA POR


UNA CONSTANTE MAS OTRA CONSTANTE, ES IGUAL A LA PRIMERA CONSTANTE
MULTIPLICADA, POR LA MEDIA ARITMÉTICA DE LA VARIABLE MAS IA OTRA
CONSTANTE".

i) Si A=0

M[k] = K

"EL PROMEDIO O MEDIA ARITMÉTICA DE UNA CONSTANTE ES IGUAI


A LA CONSTANTE".

De otro modo:

K 
K 
K

nK
n n n
Luego:
K K

ii) Si A=1

 
M Xj K  X K

10
"LA MEDIA ARITMÉTICA O PROMEDIO DE UNA VARIABLE MAS UNA CONSTANTE,
ES IGUAL A LA MEDIA DE LA. VARIABLE MAS LA CONSTANTE".

iii) Si K=0
M[Ak] =A X

"EL PROMEDIO O MEDIA ARITMÉTICA DE UNA VARIABLE POR UNA CONSTANTE,


ES IGUAL A LA CONSTANTE MULTIPLICADO POR LA MEDIA DE LA VARIABLE".

PROPIEDAD 4

f j Xj m
 X 1n1   f j X j
j 1
X1 
n1 j 1

f j Xj m
 X 2 n2   f j X j
j 1
X2 
n2 j 1

FORMULA DE LA MEDIA GENERAL O MEDIA ARITMÉTICA PONDERADA (Para 2 sub


• nuestras)

Donde:

n1 = Tamaño de la sub-muestra 1

n2 = Tamaño de la sub-muestra 2
X 1 = Media aritmética de la sub-muestra 1

X 2 = Media aritmética de la sub-muestra 2

Apuntes
W1 X 1  W2 X 2
X 
W1  W2

11
Es la media aritmética ponderada donde los pesos o las ponderaciones; son las W.

Por extensión:
r

n X r r
X 1
r

n
1
r

Siendo: r = el número de sub-muestras.

1.3 MEDIA ARITMETICA PONDERADA

A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para
determinado estudio. En esos casos se puede utilizar una media ponderada. Si X1,X2,...,Xn es un
conjunto de datos o media muestral y w1,w2,...,wn son números reales positivos, llamados
"pesos" o factores de ponderación, se define la media ponderada relativa a esos pesos como:

Donde:

W j =Valor de peso para o ponderación

= Dato j

EJEMPLO

En una materia dada se asignan pesos de importancia, de la siguiente forma: Unida I (20% del
curso), Unidad II (25% del curso), Unidad III (20% del curso), Unidad IV (15% de la
calificación), Unidad V (20% de la calificación). Si las calificaciones de un alumno son 8 en la

12
primera unidad, 5 en la segunda, 8 en la tercera unidad, 10 en la cuarta unidad y 8 en la última
unidad. Es decir, se tienen la siguiente tabla:

Unidad Ponderacion (Wi) Datos (Xi)


I 20% = 0.2 8
II 25% = 0.35 5
III 20% = 0.2 8
IV 15% = 0.15 10
V 20% = 0.10 8

1.4 MEDIA ARMONICA

La media armónica H de un conjunto de n números X1, X2,........Xn; es el reciproco de la


media aritmética de los recíprocos de los números.

1 n
H j m
 j m
1 1
PARA DATOS NO AGRUPADOS X
j 1
X
j 1
j j

j m
1
1
X 1 1
En la práctica es más fácil recordar que:

j 1 j
 
H n n X

EJEMPLO:

3 3
H   3  3,42857
La media armónica de 2, 4, 8 es: 1 1 1 7
 
2 4 8

13
Para datos agrupados. 1 n
H  
jm fj j m fj
X
j 1
X
j 1
j j

En la práctica es mas fácil recordar que:

1 1 j m f j
 
H n j 1 X j

EJEMPLO:

Determinar el tiempo promedio empleado en la producción por artículo de cuarenta obreros.

Minutos por Nº de obreros


Articulo
Xi fi

10 5
15 20
16 10
20 5
40

40 10
H   14  14,7692
5 20 10 5 13
  
10 15 16 20

1.5 MEDIA GEOMÉTRICA


La media geométrica G de un conjunto de N números x1, x2,...... , xn es la raíz n-esima del
producto de los n números:
j n
G  n X 1, X 2 ... X n  n X
j 1
j

14
EJEMPLO: La media geométrica de: 2, 4, 8 es: G  3 2 x 4 x8  4
j n
G  n X 1 , X 2 ,... X n  n X
j 1
j

j n

Utilizando logaritmos seria:  LogX


j 1
j

log G 
n

EJEMPLO
Calcular el crecimiento promedio porcentual de producción de estaño según el siguiente
cuadro:

Año Producción % de la producción


En TMF respecto al año anterior.
Xi Log xi
1972 6.031 - -
1973 6.650 10,2636 1,011299718
1974 6.897 3,7143 0,569876978
1975 7.366 6,8000 0,832508912
1976 8.876 20,4996 1,311745387
3,725430995

3.725430995
LogG   0,9313577488 G  AntiLog(0,9313577588)  8.538031
4
RESPUESTA: EL crecimiento porcentual promedio anual de estaño es 8,54%
j m

Para datos agrupados seria: G  n X 1f X 2f ... X mf utilizando logaritmos:


1 2 m
f
j 1
j log X j
log G 
n
La media geométrica tiene algunos inconvenientes como por ejemplo si algún X j es igual “0”
entonces G=0 ó si algún X j es negativo entonces G es imaginario, luego es preciso buscar una
forma diferente de calcular la media geométrica:

15
Luego:
Sean los datos % de los datos
observados xi

Co -
C1 C1/Co
C2 C2/C1
: :
: :
Cn Cn/C n-1

C1 C 2 C n C
Gn . ...  G  n n ; Pero la variación porcentual es: 1-G = r
C O C1 C n 1 Co

Luego: G = r+1
Entonces remplazando este valor en la anterior formula:
Cn C
r 1  n  (r  1) n  n
Co Co

Cn  Co (1  r ) n

Donde:

Cn = Cantidad al final del período


Co = Cantidad inicial
r = Tasa de interes compuesto, o tasa de cambio por período
n = número de períodos.

Esta última función es muy utilizada para cálculos de crecimiento de población o la tasa de
interés compuesto.

EJEMPLO
En una empresa, la producción ha experimentado un crecimiento del 25% del primer al
segundo año, del 40% del segundo al tercero.
a. Determine la tasa promedio de crecimiento del primer año al tercero;
b. Estimar la producción del cuarto año.

16
SOLUCIÓN El crecimiento de la producción de la empresa se resume en la siguiente tabla

CRECIMIENTO DE LA PRODUCCIÓN DE UNA EMPRESA


Año Porcentaje de Factor de cambio Producción
crecimiento (x.) (T.M)
1 100
2 25% 1.25 100x1.25 = 125
3 40 1.40 125x1.40=175

a. El cambio promedio de crecimiento será


G 1.25 * 1.40  1.75  1.323

Por tanto, la tasa promedio de crecimiento será


32.3
1.323  1  de 32.3 % anual
100

Comprobación:
Año producción (T.M)

1 100
2 100x1.323 = 132.3
3 132.3 x 1.323 = 175.03

b. La producción del cuarto año será:


Producción = (producción tercer año) x (Factor de cambio)
=175.03*1.323 = 231.56 T.M.
Equivalencia con la fórmula del interés compuesto
G 1.25 * 1.40  1.323

Elevando al cuadrado la ecuación anterior


G2  (1.25 * 1.40) 2  (1.323) 2
G 2  1.25 * 1.40  (1.323) 2
G 2  1.75  (1  0.323) 2
100 * G 2  C n  175  100(1  0.323) 2  C 0 (1  r ) 2

17
1.6 MODA
La moda de una serie estadística es la frecuencia más alta de la serie estadística o dicho de otra
manera es el valor más frecuente.
Ejemplo:

20, 40, 30, 40, 50, 110, 20, 50, 40, 15 donde la moda de esta serie es: Mo=40.

A) Si la distribución de frecuencias tiene un solo máximo, se dice que la distribución es


unímodal

B) Si la distribución de frecuencias tiene más de un máximo, se dice que la distribución es


multimodal, bimodal, trimodal, etc.

C) Si todas las frecuencias son iguales se dice que la distribución no tiene moda y se trata
de una distribución uniforme:

Para datos agrupados la determinación de la definición de la moda se puede hacer de forma


geométrica así:

Mo = Moda
Lo = Limite real inferior de
la clase modal.
no = Frecuencia absoluta de
la clase modal.
f1 = Frecuencia absoluta
anterior a la clase
modal.
f2 = Frecuencia absoluta
posterior a la clase
modal.
w = Amplitud o ancho del
intervalo de clase.

Lo Mo (Lo+w+Mo) 18
EF EG M  L0 L0  w  M 0 M  L0 L0  w  M 0
  0   0 
AB DC f 0  f1 f0  f2 1 2

1
M 0  LO  w
Para datos agrupados 1   2

EJEMPLO:

1
Intervalos Universitari M 0  LO  w.
1   2
os
20
fi M 0  50  10  52,86  53
20  50
20 - 30 10
30 – 40 20
40 – 50 40
50 – 60 60
60 – 70 10
70 - 80 5
Total 145

1.7 MEDIANA

La mediana es otro estadígrafo de posición, o medida de tendencia central que sigue en


importancia a la media aritmética. La mediana se define como: 'AQUEL VALOR DE LA
VARIABLE QUE DIVIDE EN DOS PARTES IGUALES UN HISTOGRÁMA DE
FRECUENCIAS O UNA SERIE SIMPLE DE DATOS ORDENADOS".
Este estadígrafo es inestable en el muestreo, carece de flexibilidad matemática pero ci
contrapartida tiene una ventaja importante y es que la mediana no está afectada por sus valores
extremos, por este motivo se utiliza con preferencia en aquellas investigaciones estadísticas,
donde existen limites extremos abiertos o en aquellos casos donde los valores extremos se
encuentran significativamente distanciados de los valores centrales. Un ejemplo frecuente de
aplicación de la mediana se observa para el caso del ingreso medio.

19
Datos no agrupados: en el cálculo de la mediana para datos no tabulados, hay que distinguir
dos situaciones: número de observaciones impar y número de observaciones par.
a. Si el número de observaciones n es impar, basta con ordenar los datos en orden de magnitud
creciente X  1 , X  2  ,....., X  n  , (esto es x(1) denota a la observación más pequeña, X(2) denota a la
segunda observación menor, y X(n) denota a la observación mayor, o sea X (1) < X(2) ... < X(n)), y
tomar como valor de la mediana el valor de la observación que ocupa la posición central. Es
decir:
Me  X   n 1 / 2 

Esto es válido tanto para variables continuas como para variables discretas.

EJEMPLO: Suponga que se tiene las observaciones: 43,51, 37, 39, 19, 24, 27. Hallar la
mediana de la muestra.

SOLUCIÓN
1. Se ordena los datos X 1 = 43, X2 = 51, X3 = 37, X4 = 39, X5=19, X6 = 24, X7 = 27, en orden
de magnitud creciente

19, 24, 27, 37, 39, 43, 51

X1 X2 X3 X4 X5 X6 X7

2. Existen n = 7, un número impar de observaciones, entonces la mediana es el valor de la


observación que ocupa la posición central, es decir

Me  X   7 1 / 2   X 4  37

20
b. Si el número de observaciones n es par, en este caso, después de ordenado el conjunto de

observaciones, existen dos valores centrales X(n/2) y X   n / 2  1 pudiéndose tomar como mediana
cualquiera de ellos, o cualquier valor entre estos dos. Se acostumbra tomar como mediana la
semisuma de ambos valores. Es decir
X  n / 2   X   n / 2  1
Me 
2
EJEMPL0: Considere las observaciones muéstrales: 43, 51, 37, 39, 19, 24,27, 62.
Determinar la mediana de la muestra.

SOLUCIÓN
1. La muestra X 1 = 43, X2 =51, X3 = 37, X4 = 39, X5 = 19, X6 = 24., X7 = 27, X 8 = 62
ordenada en forma ascendente es

2. Existen n = 8, un número par de observaciones, entonces la mediana es el promedio de


las dos observaciones centrales X(8/2) = X(4) = 37 y X ((8/2) + 1) = X(5) =39

Es decir
X  8 / 2   X   8 / 2  1 X 4  X 5 37  39
Me     38
2 2 2

En consecuencia con la definición de la mediana es fácil observar que dial representa el valor
central del conjunto de observaciones, es decir, indica la posición del centro de las
observaciones.

Para datos agrupados: la mediana se determina utilizando una fórmula derivada del gráfico de
las frecuencias absolutas acumuladas, o de las frecuencias relativas acumuladas.

21
La media para datos agrupados seria:

Me = Mediana
L j-1 = Limite real inferior de la clase que
contiene la mediana.
Lj = Limite real superior de la clase
que contiene la mediana.
F j-1 = La frecuencia acumulada que
corresponde a x j-1.
F j = La frecuencia acumulada que
corresponde a fj.
N/2 = La mitad de la frecuencia total.
w = El ancho de intervalo de clase.

N
Me  L j 1 Me  L j 1 w  F j 1
AB AC w
      Me  L j 1  2 w
BD CE N F j  F j 1 N fj fj
 F j 1  F j 1
2 2

EJEMPLO:

N
 F j 1
Edades Xi Univ. Fi Me  L j 1  2 w
15 – 19 17 5 5 fj
20 – 24 22 10 15 50
 15
25 – 29 27 20 35 2
Me  24,5  5  27
30 – 34 32 10 45 20
35 – 40 37 5 50
Total 50

Donde F j  F j 1 = f j

1.8 FRACTILES

22
El concepto de la mediana puede extenderse a otros estadígrafos conocidos como cuartiles,
deciles, percentiles, etc. Es decir que si la mediana divide en dos partes iguales la distribución
de frecuencias, entonces es posible dividirla también en cuatro partes iguales (cuartiles), o en
diez partes iguales (deciles), o cien partes iguales (percentiles), y así sucesivamente.

Por tanto la formulas serian:

N
(n)  F j 1
Cuartil: Me  L  4 w Donde n indica la posición
j 1
fj del fractil.

N
( n)  F j 1
Decil: Me  L  10 w
j 1
fj

N
( n)  F j 1
Percentil: Me  L  100 w
j 1
fj

1.8.1 CUARTILES

Son los que dividen la serie o el histograma de frecuencias en cuatro partes iguales.
Son los valores de la variable que dividen en cuartos a los datos ordenados en forma ascendente
o descendente en cuatro partes iguales; y se denotan Qi , i=1,2,3 .

X (1) , X ( 2 ) ,........., X ( i ) , X ( i 1) ,......, X ( K 1) ,........, X ( m ) , X ( m 1) ,...., X ( n )

23
Cada conjunto de datos posee tres cuartiles. El primer cuartil Q1, es el número tal que cuando
mucho el 25 % de los datos es menor en valor que Q1 y cuando mucho el 75% de de los datos
es mayor que Q1. El segundo cuartil es la mediana. El tercer cuartil, Q3, es el número tal que
cuando mucho el 75% de los datos es menor en valor que Q3 y cuando mucho el 25% de datos
es mayor que Q3. (Según el cuadro)

N
(n)  F j 1
Cuartil 1 4
Q1  L j 1  w
f q1

Siendo:

Frecuencia del cuartil uno

Suma de todas las frecuencias anteriores a la clase del primer cuartil

w ═ Tamaño de clase del primer cuartil

Limite inferior de la clase del primer cuartil

N
( 2)  F j 1
Cuartil 2 Q2  L j 1  4 w
f q2

El cuartil dos coincide con la mediana, ya que

N
Cuartil 3 (3)  F j 1
Q3  L j 1  4 w
f q3

EJEMPLO

24
La tabla muestra una distribución de frecuencias de puntuaciones de un examen final de
álgebra, (a) Hallarlos cuartiles de la distribución y (b) interpretar su significado.

Solucion

 30  15 
Q1  60   10  67
 21 
 60  36 
Q2  70   10  75
 43 
 90  79 
Q3  80   10  83
 32 

b) Q1 significa el valor, hasta donde se encuentra el 25% de los datos.

25
Q2 es la mediana; y Q3 es el valor donde se encuentra el 75% de los datos

1.8.2 QUINTILES

Son los que dividen una serie o un histograma de frecuencias en cinco partes iguales se denota
por “T”
N   2N   3N   4N 
 5  F j 1   5 2  F j 1   5 3  F j 1   5 4  F j 1 
T1  Li    w j ; T2  Li    w j ; T3  Li    w j ; T4  Li   w j
 f r1   f r2   fr3   f r4 
       

1.8.3 DECILES

Son los que dividen una serie o un histograma de frecuencias en diez partes iguales se denota
por “D”

N   2N   5N 
 10  F j 1   10 2  F j 1   10 5  F j 1 
D1  Li    w j ; D2  Li    w j ;........; D5  Li   w j
 f D1   f D2   f D5 
     

5N N
El decil quinto es la mediana ya que: 
10 2

Ejemplo 2. Calcular los deciles para la misma tabla del ejemplo anterior.

La tabla se transcribe de nuevo en seguida:

Límite Límite
Frecuencia
No. inferior superior Frecuencia
acumulada
($) ($)
1 250 259.99 8 8
2 260 269.99 10 18
3 270 279.99 16 34
4 280 289.99 14 48

26
5 290 299.99 10 58
6 300 309.99 5 63
7 310 319.99 2 65

Al igual que para los cuartiles, lo primero que tenemos que hacer es saber en qué intervalo o
clase quedará el primer decil, en él hay incluidos 1/10 N = 65/10 = 6.5 elementos, ¿cuál es la
primera clase que su frecuencia acumulada es mayor a 6.5?, vemos que la primera clase tiene
una frecuencia acumulada de 8, entonces en este intervalo está el primer decil, así:

N   2N   5N 
 10  F j 1   10 2  F j 1   10 5  F j 1 
D1  L1    w j ; D 2  L2    w j ;........; D5  Li   w j
 f D1   f D2   f D5 
     

Di = Li + (wj) [ (d N/10) - (Fj-1) ] / [ Fj - (Fj-1) ]

D1 = Li + (w1) [ (N/10) - (F1-1) ] / [ F1 - (F1-1) ]

Sustituyendo valores:

D1 = 250 + (10) [6.5 - 0] / [8 - 0]

Efectuando operaciones y simplificando, se obtiene que:

D1 = $258.12

El segundo decil abarca: (2/10)(65) = 13 elementos. Quedará en el segundo intervalo, esto es:

D2 = 260 + (10) [ 13 - 8 ] / [ 18 -8 ]

D2 = 260 + 5

D2 = $265.00

El tercer decil abarcaría: (3/10)(65) =19.5 elementos. Por lo que:

D3 = 270 + (10) [ 19.5 - 18 ] / [ 34 -18 ]

D3 = 270 + 0.9375

27
D3 = $270.94

El cuarto decil abarcará: (4/10)(65) = 26 elementos. Por lo que:

D4 = 270 + (10) [ 26 - 18 ] / [ 34 -18 ]

D4 = $275.00

Siguiendo con el mismo procedimiento, obtenemos los deciles restantes. Se dejan al lector
como ejercicio.

D5 = $279.06

D6 = $283.57

D7 = $288.21

D8 = $294.00

D9 = $301.00

CONCLUSIONES:

10% de los colaboradores de este estudio ganan $258.12 ó menos.

20% de los colaboradores de este estudio ganan $265.00 ó menos.

90% de los colaboradores de este estudio ganan $301.00 ó menos.

1.8.4 PERCENTILES
Son valores que dividen a la población en cien partes iguales (de forma ascendente o
descendente). Los representamos por Pi ; i= 1,2,…., 99. Evidentemente los percentiles 25, 50 y
75 coinciden con los cuartiles. Y los percentiles 10, 20 , ... , 90 coinciden con los deciles. Se
tiene entonces, el esquema siguiente:

28
 N   50 N   99 N 
 100  F j 1   100  F j 1   100  F j 1 
P1  Li    w j ;...; P50  Li    w j ;...; P99  Li   w j
 f p1   f p 50   f p 99 
     

Notas:

1. El primer cuartil y el 25avo percentil son iguales; es decir Q1 = P 25 también Q3 = P75


2. La mediana, el segundo cuartil, y el 50avo percentil son iguales X = P50 .Así, cuando
se pida encontrar P50, aplique el procedimiento para encontrar la mediana

PRIMER PERCENTIL = P1: es el valor que supera a no más de un céntimo de las


observaciones y es superado por no más de 99 centécimos de ellas. O equivalentemente, P1 es
el valor que deja 1 % de las observaciones menores o iguales a él y el 99% superiores a él.

SEGUNDO PERCENTIL = P2: Es el valor que supera a no más de dos centécimos de las
observaciones y es superado por no más de 98 centécimos de ellas. En otras palabras, P 2, es el
valor que deja 2% de las observaciones menores o iguales a él y el 98% superiores a él.
Así, sucesivamente.
NOVENTA Y NUEVE AVO PERCENTIL = P 99: es el valor que supera a no más de 99
centécimos de las observaciones y es superado por no más de 1 centécimo de ellas. O en forma
equivalente, P99 es el valor que deja 99% de las observaciones menores o iguales a él y el 1%
superiores a él.
En estadística el término percentil, se emplea para indicar en una distribución, el valor por
debajo del cual está situado un cierto porcentaje de la distribución de valores observados. Así,
al decir que en una distribución de estatura de un grupo de estudiantes, el percentil 40 es 148.2

29
cm. (P40 = 148.2 cm.), se está afirmando que el 40% de los estudiantes miden menos de 148.2
centímetros.

EJEMPLO

SALARIOS NUMERO DE Fi
POR DIA EMPLEADOS
50 – 60 8 8
60 – 70 10 18
70 – 80 16 34
80 – 90 14 48
90 – 100 10 58
100 –110 5 63
110 – 120 2 65
TOTAL 65

A) Calcular el primer cuartil de la distribución:


N 65
(n)  F j 1 1 8
P25= Q  L  4 w  Q  60  4 10  68,25
1 j 1 1
fj 10

B) Calcular el Segundo cuartil de la distribución.


N 65
( n)  F j 1 2  18
P50 = Q  L  4 w  Q2  70  4 10  79,0625
2 j 1
fj 16

C) Calcular 5 percentil.

N 65
(n)  F j 1 50
P5  L j 1  10 w  P5  50  100 10  54,0625
fj 8

30
2. MEDIDAS DE VARIABILIDAD

Las medidas de tendencia central que se describen en él capitulo anterior, son útiles para la
identificación de un valor típico en un grupo de valores. Por el contrario, las medidas de
dispersión o variabilidad describen un grupo de valores en función de la variación o dispersión
de los datos incluidos en ese grupo. Existen varias técnicas para medir el grado de dispersión
en los conjuntos de datos en este capitulo describiremos: La desviación media, la desviación
intercuartilica, la varianza y la desviación típica.

2.1 RECORRIDO O RANGO (AMPLITUD)

Es un estadígrafo sumamente sencillo pero frecuentemente influido por sus valores extremos,
descuidando los valores intermedios, por cuyo motivo su aplicación se restringe a una parte
especializada de la estadística, conocida como el control de calidad, y utilizado frecuentemente
en el sector industrial.
Se define como:
LA DIFENENCIA DEL VALOR MAS ALTO DE LA VARIABLE Y EL VALOR MAS BAJO
PARA UNA SERIE. PARA DATOS AGRUPADOS, ES LA DIFERENCIA ENTRE EL
LIMITE SUPERIOR DE LA ULTIMA CLASE, Y EL LIMITE INFERIOR DE LA PRIMERA”
R  X max  X min
R  Ls m  Li 1

2.2 LA DESVIACION MEDIA

Es la diferencia entre cada valor del conjunto de datos y la media del grupo. Si se calculara la
media de la suma de diferencias más o menos entre cada valor y la media aritmética, la
respuesta en realidad siempre seria cero. Por esta razón, se suman los valores absolutos de las
diferencias. Es decir que, la desviación media son los promedios absolutos de los valores de la
variable con respecto a su media aritmética.

| X
j 1
j X | PARA DATOS SIMPLES
DM 
n
31
m

| X
j 1
j  X | fj PARA DATOS AGRUPADOS
DM 
n

EJEMPLO:

Edades X fj Xifi |Xj X | fj 1352


j X   27,05
50
14.5-19,5 17 5 85 50,25
19,5-24,5 22 10 220 50,50
24,5-29,5 27 20 540 1,00
29,5-34,5 32 10 320 49,50
34,5-40,5 37.5 5 187.5 52,25
50 1352.5 203,50

2.3 DESVIACION MEDIANA

Es otro estadígrafo de dispersión, definido como:


“LA MEDIA ARITMETICA O PROMEDIO DE LOS DESVIOS, RESPECTO DE LA
MEDIANA, EXPRESADOS EN VALOR ABSOLUTO”.
Es decir:


DMe  M X j  Me 

X
j 1
j  Me PARA UNA SERIE SIMPLE
DMe 
n
32
m
PARA DATOS AGRUPADOS
f
j 1
j X j  Me
DMe 
n

RELACION GENERAL

DMe  DM  S

EJEMPLO:

Hallar la desviación mediana de los pesos de los niños 15, 12, 10,18, 14, 22, 17,20 .

SOLUCIÓN
1. En primer lugar se determina la mediana de los datos: Las observaciones escritas en forma
ascendente son:
10 12 14 15 17 18 20 22

n = 8, par, entonces la mediana es la semisuma de los dos valores centrales

15  17
Me   16
2

2. Se halla las desviaciones de cada observación con respecto a la mediana y luego, se toma el
valor absoluto de éstas.

3. Se suma los valores absolutas de las desviaciones y se divide esta suma entre el número de
observaciones.
Los pasos (2) y (3) están resumidos en la Tabla adjunta.

33
Observación Desviación Desviación absoluta
Xi Xi -Me I Xi.-Mel
10 -6 6
12 -4 4
14 -2 2
15 -1 1
17 1 1
18 2 2
20 4 4
22 6 6
26

X
j 1
j  Me
26
DMe    3.25
n 8

2.4 RECORRIDO SEMI-INTERCUARTILICO (ERROR PROBABLE)

Frente a las desventajas del recorrido, algunos investigadores han sugerido como su alternativa
el estadígrafo denominado RECORRIDO SEMI-INTERCUARTILICO o también ERROR
PROBABLE, definido como:

"LA SEMIDIFERENCIA ENTRE LOS DOS CUARTILES TERCERO Y PRIMERO (Q 3 y Q1).


RESPECTIVAMENTE".

Q3  Q1
EP 
2 34
Es decir

RELACION GENERAL:
EP<= DM<=S

EJEMPLO:
N 50
  12,5
4 4
Edades xi fi Fi 12,5  5
14,5-19,5 17 5 5 Q1  19,5  5  23,25
10
19,5-24,5 22 10 15 N 50
24,5-29,5 27 20 35 3 3  37,5
50 4
29,5-34,5 32 10 45 37,5  35
34,5-40,5 37,5 5 50 Q3  29,5  5  30,75
10
50
Q3  Q1
EP 
2
30.75  23.25
EP 
2
EP  3.5

2.5 VARIANZA.

Es una medida de dispersión, que mide la agrupación de los datos, al rededor de la media
aritmética, conocida también como el segundo momento central.
Según el concepto: Las diferencias de Xj X , nos darían las distancias entre los datos
observados y la media aritmética, pero la suma de estas diferencias serian siempre cero, por lo
que es necesario, hallar una forma en que esta suma no sea cero, por lo que se propone sumar
los números absolutos de estas diferencias así:  | X j X |, luego el promedio de estas

35
n

diferencias seria:
X j 1
j X
; que como ya hemos visto es conocida como desviación
DM 
n
media. Pero otra manera de evitar los números negativos, para evitar la suma cero seria, elevar
las diferencias al cuadrado de la siguiente manera:  ( X j X )2, el promedio de estas
diferencias seria:
Aclarando:
S 2 =Varianza de la muestra
 2 = Varianza de la población
En general
V(X) =Varianza de X

X X
n
2 PARA DATOS NO AGRUPADOS
j
j 1
S2 
n

X  X fj
m
2 PARA DATOS AGRUPADOS
j
j 1
S2 
n

EJEMPLO:

Edades xi fi xifi  xi  x  2 fi

14,5-19,5 17,0 5 85,0 505,01


19,5-24,5 22,0 10 220,0 255,02
24,5-29,5 27,0 20 540,0 0,05
29,5-34,5 32,0 10 320,0 245,02
34,5-40,5 37,5 5 187,5 546,01
50 1352,5 1551,11

36
1.352,5
x   27,05
50
1551
. ,11
s2   31,02
50

2.6 DESVIACION TIPICA O STANDART.

La desviación típica o desviación estándar es otro de los estadígrafos de dispersión importante


en Estadística. Dado que la varianza tiene una interpretación sumamente dificultosa, engorrosa
y a veces carente de sentido, por estar medida en unidades cuadráticas de la vanable, los
estadísticos se han preocupado por eliminar este'defecto, encontrando la desviación típica, que
en lo fundamental. soluciona el problema de la varianza manteniendo todas sus propiedades y
particularidades descriptivas De este modo, la desviación típica viene medida en las mismas
unidades de la variable original y se define como
"LA RAÍZ CUADRADA POSITIVA DE LA VARIANZA"

S  V (X )
Es decir

i N

 x  x  fi
2
i
.
S i 1
 S  31,02  5,57
N

37
PROBLEMA.

En un grupo de 50 estudiantes la suma de los cuadrados de las desviaciones de sus


calificaciones respecto a su media aritmética es igual a 1.250, por otra parte la suma de los
cuadrados de las calificaciones es igual a 5.000 averiguar el promedio de calificaciones de
dicho grupo de universitarios:

SOLUCIÓN:

 X  X   1.250
n

j
j 1

X 2j  5.000
n  50
X ?

 
2

 X  X   1.250   X j  2 X j X  X 2  1.250   X 2j  2 X  X j   X 2  1.250


n n n n n
2
j
j 1 j 1 j 1 j 1 j 1

Si:

38
n

X j n n n n n
 nX   X j   X 2j  2 XnX   X 2  1.250   X 2j  2nX 2   X 2  1.250
j 1
X 
n i 1 j 1 j 1 j 1 j 1

Luego:

n
5.000  1.250
X
j 1
2
j  nX 2  1.250  5.000  50 X  1.250  X 
50
 8,66

PROPIEDADES DE LA VARIANZA:

1) La varianza de una constante es 0, es decir:


m

  c  c
2

c, c, c  X  c; cj Luego: j 1
S2  0
n

2) Si la varianza de una serie estadística es multiplicada por una constante c, la varianza es


igual al producto de la constante al cuadrado por la varianza de la serie antes de ser
multiplicada por c.

 X  X
n
2
i
j 1
X 1 , X 2 , X 3 ,...... X m  S 2 
n
Luego:

  cX  cX    c X  X  c2  X j  X 
n n n
2 2
j j
j 1 j 1 j 1
cX 1 , cX 2 , cX 3 ,......cX m  S c2   S c2   S c2 
n n n
Entonces:
S c2  c 2 S 2

3) Si a los valores de una serie estadística se suma una constante c la varianza de la serie
no cambia.

39
X  X
n
2
j
j 1
X 1 , X 2 , X 3 ,...... X m  S 2 
n

  X  c   X  c   X  c  X  c 
n n
2 2
j j
j 1 j 1
X 1  c, X 2  c, X 3  c,......X m  c  S c2   S c2 
n n

X  X
n
2
j
Luego: j 1
S c2   S c2  S 2
n

2.7 COEFICIENTE DE VARIACION

El coeficiente de variación o desviación relativa, es adimensional en el sentido de que este


estadígrafo es independiente de las unidades de medida y por este motivo, permite decidir el
mejor estadígrafa de posición, de modo que si la medida de tendencia central en cuestión, tiene
un coeficiente de variación mínimo, entonces es mejor.
Por otra parte, sirve para comparar fenómenos semejantes en tiempos distintos y viceversa,
(por ejemplo: consumo de leche con azúcar), así se pondría interés en conocer si la distribución
de leche. Tiene mayor o menor dispersión que la distribución del azúcar, en el sentido de si, una
desviación típica de 6,5 litros, ¿es mayor o menor?, que otra de 2.3 kilos.
El coeficiente de variación se define como:

“EL COEFICIENTE ENTRE UNA DESVIACION TIPICA Y SU CORRESPONDIENTE


ESTADIGRAFO DE POSICION”.

S
CV X  100
X
S
CV Me  100
Me
S
CV Mo  100
EJEMPLO: Mo

Si S = 431.19
X = 805.3

40
S
CV X  100  431.19 (100)  53.54402%
X 805.3
CV X  53.54%

3. OTROS ESTADIGRAFOS Y MOMENTOS

3.1 MEDIDAS DE ASIMETRIA Y CURTOSIS

En una distribución de frecuencias, es necesario conocer la forma de la misma, por tanto, se puede
medir el apuntamiento o simetría por diferentes métodos, en este tema explicaremos algunos como ser:

ESTADÍGRAFOS DE ASIMETRÍA O DEFORMACIÓN

(+) (-)

Mo Me X
ASIMETRIA POSITIVA X Mo Me
(Mo < X ) ASIMETRIA NEGATIVA
(Mo > X )

ESTADÍGRAFOS DE APUNTAMIENTO O CURTOSIS

41
Mo = = Me Mo = = Me Mo = = Me
APUNTADA APLANADA NORMAL
3.2 COEFICIENTE DE ASIMETRÍA DE KARL PEARSON(Sesgo):

Definición: X  Mo
Sk 
S

Interpretación:
Sk=0 La distribución es simétrica.
Sk>0 La distribución es sesgada a la derecha
Sk<0 La distribución es sesgada a la izquierda.
EJEMPLO:

Sueldos Nº de xi xifi (xi – x )2fi Fi


Bs. Empleados 14990
X   40.51
30 – 34 50 32 1600 3621 50 370
35 – 39 100 37 3700 1232 150 50
M o 40 5  41,17 5  41,17
39,,51
40 – 44 150 42 6300 333 300 Sk   0,127 La
50  100
5,18
45 – 49 50 47 2350 2106 350 9932
S   5,18
50 – 54 20 52 1040 2640 370 distribución
370 es sesgada a la
370 14990 9932 izquierda.
DEMOSTRACIÓN GRÁFICA:

42
Para evitar el uso de la moda, podemos recurrir a la formula empírica, llamada también
segundo coeficiente de Pearson.

3 X  M e 
SP 
S

EJEMPLO:

N 370
  185
2 2
185  150
M e  39,5  5  40,67
150

3 x  M e  3 40,51  40,67 
SP  ;Sp   0,09267
S 5,18

Este coeficiente, también indica al igual que el primero un sesgo a la izquierda.

3.3 CURTOSIS (Apuntamiento)

43
La curtosis, mide cuan putiaguda es una distribución, en general, por referencia a la normal, si
tiene un pico alto(leptocurtica), si es aplastada (platicurtica), o si es normal(mesocurtica), este
coeficiente viene definida por:
1
 Q3  Q1 
K 2
P90  P10

Interpretación:

EJEMPLO:

Sueldos Nº de xi Fi 370
 92,5
Bs. Empleados 4
30 – 34 50 32 50 92,5  50
Q1  34,5  5  36,625
35 – 39 100 37 150 100
40 – 44 150 42 300 370
3  277,5
45 – 49 50 47 350 4
50 – 54 20 52 370 277,5  150
Q3  39,5  5  43,75
370 150
370
10  37
100
37  0
P10  29,5  5  30,24
50
370
90  333
100
333  300
P90  44,5  5  47,8
50

44
1
 43,75  36,625
K  2  0,203
47,8  30,24

La distribución de frecuencias es mesocurtica o tiene tendencia mesocurtica.

3.4 MOMENTOS

Los momentos son en realidad promedios o medias de las potencias de la diferencia de la


variable respecto a un valor constante, es decir:

(X
j 1
j A) r PARA DATOS NO
m AGRUPADOS
n

f
j 1
j ( X j A) r PARA DATOS
AGRUPADOS
m
n

Los momentos mas usados son dos, respecto al origen y respecto a la media llamado también
momento central.

3.4.1 MOMENTOS RESPECTO AL ORIGEN.


Un momento respecto al origen se define como:

"EL PROMEDIO O MEDIA ARITMÉTICA DE LA VARIABLE ELEVADA A UNA


POTENCIA r".

Es decir si: f
j 1
j ( X j  A) r
ar 
n

45
m m

 f
r
f j ( X j  0) r Xj
Donde A═0 
j
j 1 j 1
ar  
n n

3.4.2 MOMENTOS CENTRALES RESPECTO A LA MEDIA

Este tipo de momentos, se definen como:

“EL PROMEDIO O MEDIA ARITMÉTICA DE LOS DESVÍOS RESPECTO DE LA MEDIA


ELEVADOS A LA POTENCIA r”

m
Es decir si: f j 1
( X j A) r
j

mr 
n

Donde
fj 1
j ( X j  X )r
donde r es el momento r-esimo respecto a la media.
A  X  mr 
n

Por tanto cuando r = 2


m


j 1
f j (X j  X )2
m2  S2
n
m 2 = S2 momento central de segundo orden (varianza)

Cuando r = 3
m


j 1
f j ( X j  X )3
m3 
n
Y así sucesivamente.

46
BIBLIGRAFIA

 Fundamentos de cálculo de Probabilidades, (Juan Choque Tito, Latinas-Oruro)

 Estadística y probabilidad, (Celestino Garcia Ore,Princelines-Lima).

 Estadística Elemental, (Raul Arias,Latinas-Oruro).

 http://www.vitutor.com/estadistica/descriptiva/a_10.html

 http://es.wikipedia.org/wiki/Media_estad

%C3%ADstica#Media_aritm.C3.A9tica_ponderada

47

Potrebbero piacerti anche