Sei sulla pagina 1di 11

1

1. MEDIDAS DE LOCALIZACION (TENDENCIA CENTRAL)


Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un solo
valor a un conjunto de valores. Representan un centro en torno al cual se encuentra ubicado el
conjunto de los datos.
1.A.- PROMEDIO ( o MEDIA) ARITMETICO
Esta medida determina un valor representativo de la serie de valores, que intuitivamente es un
valor de la mitad de la serie de datos.
Este valor se puede calcular a nivel poblacional como muestral.
 POBLACION

𝑁
𝑥ᵢ
𝜇=∑ 𝑝𝑎𝑟𝑎 − ∞ < 𝑥 < +∞
𝑁
𝑖=1
 MUESTRAL

Dado que es un valor “en la mitad”, este valor corresponde en “promedio” a todos los datos.
También es muy popular el promedio (media) aritmética para datos agrupados.

donde Xc: marca de clase en la tabla de intervalos o rangos; f: frecuencia absoluta de la clase
(rangos o intervalos)
I.A.- PROPIEDADES DEL PROMEDIO
I.A.1 M(K)=K con K constante
I.A.2 M(KX)=KM(X) con k constante
I.A.3 M(K1X+K2)=K1M(X)+K2 con K1 y K2 constantes
I.A.4 M(X±Y)=M(X)±M(Y)
2

I.A.5 Promedio ponderado


Este promedio es útil, cuando se requiere es una medida de centralización. Consiste en
otorgar a cada observación del conjunto de datos (X1,X2,…,XN) unos pesos (p1,p2,…,pN)
según la importancia de cada elemento.
∑𝑛
𝑖=1 𝑋𝑖∗ 𝑃
̅̅̅̅
𝑋𝑃 = 𝑖
𝑐𝑜𝑛 ∑𝑛𝑖=1 𝑃𝑖 = 𝑛
∑𝑛
𝑖=1 𝑃𝑖

Ejemplo
Una cafetería vende refrescos de 3 tamaños; el pequeño cuesta $500 pesos; el mediano $750 y
el grande $1050. Sí se vendieron en un día 20 pequeños 50 medianos y 30 grandes. Determine:
a. el precio promedio de venta de las gaseosas
b.- las ventas promedio de unidades
TAMAÑOS PRECIO VENTAS
VENTA $ UNIDADES
GRANDE 500 20
MEDIANO 750 50
PEQUEÑO 1050 30
TOTAL
X: PRECIO DE VENTA
500 ∗ 20 + 750 ∗ 50 + 1050 ∗ 30
̅̅̅̅
𝑋𝑃 = = 790
20 + 50 + 30
El precio promedio ponderado de las ventas es de 790, ed., que cada gaseosa se vendió en
promedio a 790. A pesar que varían tanto los tamaños como los precios y las ventas.
U: Ventas en unidades
500 ∗ 20 + 750 ∗ 50 + 1050 ∗ 30
̅̅̅̅
𝑈𝑃 = = 34,35
500 + 750 + 1050
El promedio ponderado de las ventas diarias es de 34,35 gaseosas, a pesar que se venden
gaseosas de tamaños diferentes a precios diferentes.

1.B. PROMEDIO (MEDIA) GEOMETRICA


Esta medida se emplea únicamente para determinar el promedio de las variaciones de una
variable asociada al tiempo (años, meses, semanas, días, horas, etc.)
3

Este promedio mide los cambios de los valores de una serie de datos en el tiempo.

𝑀𝐺 = 𝑛√∏𝑛𝑖=1 𝑋𝑖 donde X representa los cambios, por tanto existe una limitante, si el
resultado de la productoria puede ser negativo y la raíz n-ésima de un negativo solo será impar
y si el total de datos n es par, no se podrá calcular.
Algoritmo para calcular el promedio geométrico en cualquier caso es el siguiente, partimos de
las siguientes definiciones:
o VARIACION ABSOLUTA (V.A): se refiere a los cambios de una variable de un periodo con
respecto al anterior en unidades originales. Su cálculo es:
𝑉. 𝐴𝑡 = 𝑋𝑡 − 𝑋𝑡−1 donde t: indica el periodo de interés y t-1 indica periodo anterior.
o VARIACION RELATIVA (V.R): se refiere a los cambios de una variable de un periodo con
respecto al periodo anterior es unidades relativas. Su cálculo es:
𝑋𝑡 − 𝑋𝑡−1 𝑋𝑡
𝑉. 𝑅𝑡 = ∗ 100 = ( − 1) ∗ 100 cuyo resultado se expresa en porcentaje.
𝑋𝑡−1 𝑋𝑡−1

El nuevo promedio geométrico sin limitaciones de cálculo es


𝑛 𝑋𝑡
𝑀𝐺(𝑋𝑡 ) = √∏𝑛𝑡=1 donde n se refiere a la cantidad de periodos de estudio. (años,
𝑋 𝑡−1

meses, etc.)

1.C. MEDIA ARMONICA

La media armónica se define como el recíproco de la media aritmética de los recíprocos:

Este valor se emplea para promediar variaciones con respecto al tiempo. Tiene un uso muy
específico. Suele utilizarse principalmente para calcular la media de velocidades, tiempos o en
electrónica.

1.D. MEDIANA

Esta medida proporciona el valor central de la serie de datos. En algunos casos no


necesariamente corresponde a un valor de la variable.

Sea una muestra aleatoria de observaciones, la Mediana de estos datos se


denota y se define de la siguiente manera:
4

En resumen, su cálculo es:

1.- Ordenar la serie de datos


𝑛+1
2.- Calcular = 𝑘 donde k , corresponderá al valor en la posición k, luego de ser ordenados.
2

3.- Escoger el valor central de acuerdo a la norma anterior.

Ejemplo

Suponga que se tienen las duraciones en horas de un cierto tipo de lámparas incandecentes

612,623, 666, 744, 883, 898, 964, 970, 983, 1003, 1016, 1022, 1029, 1058, 1085, 1088, 1122,
1135, 1197, 1201.

Como hay 20 datos y se encuentran ordenados, entonces la mediana es dada por

1.E. PERCENTILES

Estas medidas son también llamadas cuantilas, cuantiles o fractiles y cuyo objetivo es describir
el comportamiento de una variable dividiendo la serie de valores en diferente número de partes
porcentualmente iguales, las más usadas son: los cuartiles (cuartas partes), los deciles (decimas
partes) y los centiles o percentiles (centésimas partes).

Los Cuartiles

Son aquellos números que dividen a éstas en cuatro partes porcentualmente iguales. Hay tres
cuartiles, Q1, Q2 y Q3. El primer cuartil Q1, es el valor en el cual o por debajo del cual queda
aproximadamente un cuarto (25%) de todos los valores de la sucesión (ordenada); El segundo
5

cuartil Q2 es el valor por debajo del cual queda el 50% de los datos (Mediana), el tercer cuartil
Q3 es el valor por debajo del cual quedan las tres cuartas partes (75%) de los datos.

Los Deciles

Son ciertos números que dividen el conjunto de observaciones (ordenadas) en diez partes
porcentualmente iguales. Los deciles se denotan por D1, D2, . . ., D9. El decil 5 corresponde al
cuartil 2 (mediana).

Los Percentiles

Son ciertos números que dividen el conjunto de datos ordenados en cien partes
porcentualmente iguales. El percentil 50 equivale a la mediana.

Considerando la definición de la mediana, esta será el segundo cuartil, el quinto decil o el 50avo
percentil o centil. En cualquiera de estas medidas el valor matemático que se obtenga será
representativo del número de datos o menos que corresponde al valor relativo planteado.
(Ejemplo: el primer cuartil es un valor representativo del 25% o menos de los valores de una
distribución, es decir, los valores inferiores de la distribución).

El procedimiento para encontrar el valor de cualquier percentil a partir de datos clasificados,


es el siguiente:

1. Encontrar la posición del percentil mediante el cálculo de .


𝑘
(𝑃𝑘 (𝑋) = 𝑛 + 1 ∗ ( )) = 𝑛𝑘)
100
2. Si no es un entero, entonces la posición es el siguiente entero más grande y entonces
el valor de es el dato ordenado en la posición de este entero más grande.
3. Si es un entero, entonces la posición del percentil será y así el valor del
percentil es el promedio de las observaciones ordenadas y .

Ejemplo

A continuación, se presentan 20 observaciones en orden del tiempo de falla, en horas, de un


material aislante eléctrico.

204 228 252 300 324 444 624 720 816 912

1176 1296 1392 1488 1512 2520 2856 3192 3528 3710
6

Para encontrar el percentil 10, , el valor de es 0.10, es un entero, el


número de la posición es , el cual es el promedio de las observaciones segunda y
tercera. Por tanto, el percentil 10 es , lo cual significa que el 10% de
los tiempos de fallas del material eléctrico aislante es aproximadamente inferior a 240 horas.

El percentil 88 se encuentra de manera similar. Puesto que ahora k=0.88, nk=20 ,


que no es un entero, y el número de la posición es . Por tanto, el percentil 88 es la
observación ordenada número 18, esto es =3192; es decir el 88% de los tiempos de fallas
del material eléctrico aislante es aproximadamente inferior a 3192 horas.

2. MEDIDAS DE DISPERSION (VARIABILIDAD)


Las medidas de dispersión miden el grado de dispersión de los valores de la variable. Dicho en
otros términos las medidas de dispersión pretenden evaluar en qué medida los datos difieren
entre sí. De esta forma, ambos tipos de medidas usadas en conjunto permiten describir un
conjunto de datos entregando información acerca de su posición y su dispersión.
2.A RANGO (R(X))
Determina o proporciona el número de valores que presenta la variable en la serie de datos.
R(x) = Xmax – Xmin.

2.B DESVIACION INTERCUARTILICA (RANGO INTERCUARTILICO)


se define un nuevo indicador, que toma en cuenta el recorrido entre el primer y tercer cuartil.
RIq = Q3 – Q1
Al definirse de este manera se considera la dispersión en la zona intermedia central de la
distribución. Esta zona contiene el 50% de los datos y tiene la ventaja de no verse influenciada
por los datos extremos, pero solamente toma dos valores de la variable.
2.C DESVIACION ABSOLUTA MEDIA.
N
Una de las propiedades de la media aritmética consiste en que 
i 1
(Xi -  x) = 0. Si se toman los

desvíos con respecto a la media aritmética en valor absoluto y se promedian se tiene lo que se
conoce como desviación absoluta media. DAM.
7

N
1
DAM =
N
x
i 1
i  x

Si bien es de un uso simple tiene el inconveniente de no poseer buenas propiedades en el


muestreo estadístico. Si en lugar de la media aritmética (  x) utilizamos la mediana o la moda,
se tiene la desviación absoluta mediana y la desviación absoluta modal.
N
1
DAMe =
N
x
i 1
i  M e ( x)

N
1
DAMd =
N
x
i 1
i  M d ( x)

2.D VARIANZA
Se puede definir como el "casi promedio" de los cuadrados de las desviaciones de los datos con
respecto a la media muestral. Su resultado se da en unidades originales de la variable al
cuadrado. Se puede calcular a nivel poblacional y muestral
 POBLACION
N

 (x i   x )2
V(x) =  x2  i 1

 MUESTRAL

También es muy popular el cálculo de la varianza mediante el siguiente procedimiento


 x2  M ( x 2 )  [M ( x) ]2 = M(x2)-  x2
N N

x 2
x
donde: M(x2) = i 1
M(x) =  x  i 1

N N

que se presenta para el caso poblacional, pero que el lector debe realizar para el caso muestral.
Además, se presenta el cálculo para datos agrupados, en caso de no tener los datos originales.
8

m m

 (Yi   y ) 2 ni Y n i i m
 
2
y
i 1

N
con  y  i 1

N
N= n
i 1
i

2.D.1 PROPIEDADES DE LA VARIANZA


2.D.1.A Var(X) ≥ 0
2.D.1.B Var(k)=0 con K constante
2.D.1.C Var(KX)=k2Var(X)
2.D.1.D Var(X+K)=Var(X)
2.D.1.E Var(KX+C)=K2Var(X) con K,C constantes
2.D.1.F Var(X±Y)=Var(X)+Var(Y)±2Covarianza(X,Y) con X,Y variables
Covarianza: es una medida que indica el grado de variación conjunta de dos variables
aleatorias respecto a sus medias.
Esta medida también se puede calcular a nivel poblacional y muestral.
 POBLACION
∑𝑁
𝑖=1[𝑋𝑖 − 𝐸(𝑋)] ∗ [𝑌𝑖 − 𝐸(𝑌)]
𝐶𝑜𝑣(𝑋, 𝑌) = 𝜎𝑋,𝑌 = 𝐸{[𝑋 − 𝐸(𝑋)] ∗ [𝑌 − 𝐸(𝑌)]} =
𝑁
 MUESTRAL
∑𝑛𝑖=1[𝑋𝑖 − 𝐸(𝑋)] ∗ [𝑌𝑖 − 𝐸(𝑌)]
𝑐𝑜𝑣(𝑥, 𝑦) = 𝑠𝑥,𝑦 = 𝐸{[𝑥 − 𝐸(𝑥)] ∗ [𝑦 − 𝐸(𝑦)]} =
𝑛−1
PROPIEDADES
 Cov(X,a)=0 con a constante
 Cov(X,X)= 𝜎𝑥₂
 Cov(X,Y)=Cov(Y,X) con X,Y variables
 Cov(aX,bY)= abCov(X,Y)
 Cov(X+a,Y+b)=Cov(X,Y)con a,b constantes
 Cov(aX+bY,cW+dV)=acCov(X,W)+adCov(X,V)+bcCov(Y,W)+bdCov(Y,V) con X,Y,W,V
variables y a,b,c,d constantes
9

Suponga una muestra de valores de dos variables aleatorias X,Y

obs x y (X-E(X)) (Y-E(Y)) (X-E(X))*(Y-E(Y))


1 2 50 -1 -1 1
2 5 57 2 6 12
3 1 41 -2 -10 20
4 3 54 0 3 0
5 4 54 1 3 3
6 1 38 -2 -13 26
7 5 63 2 12 24
8 3 48 0 -3 0
9 4 59 1 8 8
10 2 46 -1 -5 5
total 30 510 99
E(X)= 3
E(Y)= 51
(X-E(X))*(Y-E(Y)) 99
covarianza 11

2.E DESVIACION ESTANDAR


Esta medida indica el promedio de las desviaciones entre cada dato y su promedio, en unidades
originales. También se debe calcular tanto poblacional como muestral.
 POBLACION
𝜎𝑋 = √𝜎𝑋2

 MUESTRAL
𝑠𝑋 = √𝑠𝑋2

2.F COEFIENTE DE VARIACION (C.V)


Esta medida mide el grado de dispersión o variación de la variable en términos relativos.
También se calcula a nivel poblacional y muestral.
 POBLACION 𝐶. 𝑉(𝑋) < 30% → 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑏𝑎𝑗𝑎
𝜎𝑋 Sí {30% < 𝐶. 𝑉(𝑋) < 50% → 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑚𝑒𝑑𝑖𝑎
𝐶. 𝑉(𝑋) = ∗ 100
𝜇𝑋 𝐶. 𝑉(𝑋) > 50% → 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑎𝑙𝑡𝑎
 MUESTRAL
𝑋𝑠
𝑐. 𝑣(𝑥) = 𝐸(𝑥) ∗ 100
10

3. MEDIDAS DE FORMA
Estas medidas indican la forma que tiene la variable dados la serie de datos bajo estudio.
3.A ASIMETRIA (SKEWNEES)
La asimetría indica el grado de asimetría que presenta la variable, que pueden ser positiva o
negativa.
g1 < 0 asimetria negativa
Si { g1 = 0 simetrica
g1 > 0 asimetria positiva

3.B CURTOSIS
Esta medica indica el grado de apuntamiento o afilamiento de la variable.

g 2 < 0 platicurtica
𝑆i {g 2 = 0 mesocurtica (normal)
g 2 > 0 leptocurtica
11

DISGRAMA DE CAJA (BOX PLOT)


Es un diagrama que sirve para detectar la variabilidad, asimetría y curtosis de la variable.

Potrebbero piacerti anche