Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
INTRODUCCIN
DEFINICIN DE ESTADSTICA
ESTADSTICA DESCRIPTIVA
CONCEPTOS BSICOS
POBLACIN
VARIABLE: Cualitativas o Categricas y Cuantitativas (Discretas y
Continuas)
MUESTRA
TAMAO MUESTRAL
DATO
DISTRIBUCIONES DE FRECUENCIAS
FRECUENCIA ABSOLUTA
FRECUENCIA RELATIVA
FRECUENCIA ACUMULADA
FRECUENCIA RELATIVA ACUMULADA
DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS
MTODOS GRFICOS
DIAGRAMA DE BARRAS
DIAGRAMA DE SECTORES O DE PASTEL
HISTOGRAMA
MEDIDAS DE POSICIN
MEDIDAS DE DISPERSIN
INTRODUCCION
Las escalas de medicin son el conjunto de los posibles valores que determinada
variable puede tomar. Por tal razn, los tipos de escala de medicin estn
ntimamente ligadas con los tipos de variables a estudiar. Las magnitudes de las
observaciones cuantitativas se conocen como los valores que una variable
puede asumir. Dependiendo de la medicin y de la esencia de las variables, se
obtienen diversas clases de datos que originan diferentes escalas. Resulta
imprescindible conocer el tipo de escala que representan los datos, debido a que,
de su esencia dependen las tcnicas estadsticas que se debern aplicar para su
anlisis.
La escala ordinal sigue siendo una forma de medicin dbil porque no se pueden
hacer planteamientos numricos significativos con respecto a las diferencias
entre las categoras. Es decir, la ordenacin establece slo cul categora es
mayor, mejor o preferida; y no se habla cunto es mayor, mejor o ms
preferida.Esta escala se emplea, cuando un estudio esta basado en ciertas
normas que se asignan a un conjunto de objetos, personas o caractersticas o
a un conjunto de categoras ordenadas. Las categoras de la escala se ordenan
d acuerdo con la cantidad de rasgos o caractersticas que representan cada
una de ellas ya que la escala ordinal distingue los diferentes valores de la
variable, ubicando las caractersticas en orden, desde la ms alta hasta la ms
baja.
Ejemplos:
Calificaciones N de calificaciones
Excelente 3
Sobresaliente 6
Distinguido 10
Bueno 38
Satisfactorio 25
Deficiente 50
Muy Deficiente 0
Prof. Simn Cabrera pgina 4 de 32
ESTADISTICA DESCRIPTIVA
Ejemplos:
Puntuacin N de Estudiantes
90-99 2
80-89 6
70-79 15
60-69 30
Menos de 60 60
Otro ejemplo de esta escala lo constituyen las escalas utilizadas para medir
temperatura, bien sea en grados Centgrados o Fahrenheit. En estas escalas la
diferencia entre 80 y 85 es igual a la que existe entre 90 y 95 o entre dos
puntos cualesquiera de la escala.
Las estadsticas apropiadas para esta escala son: media, desviacin estndar,
rango, varianza, coeficiente de variacin, asimetra y kurtosis. Tipos de
grficos: histograma, polgono de frecuencias y grfico de tallos y hojas.
Meses N de computadores
Octubre 4.000
Noviembre 6.000
Diciembre 15.000
Otros ejemplos de esta escala son: la medicin del peso o altura de un grupo
de personas, el ingreso familiar, la intensidad de corriente elctrica de un cable,
la edad de un grupo de personas, etc.
Generalmente, se supone que los datos que se obtienen para una variable
cuantitativa se miden en escalas de intervalo o de razn. Estas escalas
constituyen los niveles ms elevados de medicin. Son formas ms fuertes de
medicin que la escala nominal y ordinal, porque permiten comprender no slo
cul de los valores de un estudio es mayor o menor, sino por cuntas
unidades de medida. Las escalas de razn son medidas de Longitud, peso,
capacidad, etc., los nmeros reflejan razones entre particularidades y los datos
obtenidos segn tales escalas pueden ser sometidas a cualquier tratamiento
estadstico
2. DISTRIBUCIONES DE FRECUENCIAS
Es aquella que resulta de dividir cada una de las frecuencias absolutas entre el
nmero total de datos. Las frecuencias relativas se designan con las letras hi.
f
Se calcula, hi = i
n
Es aquella que resulta de dividir cada una de las frecuencias acumuladas entre
F
nmero total de datos. Se designa con las letras Hi . Se calcula; Hi = i
n
Variable (xi) fi Fi hi Hi
x1 f1 F1 h1= f1/n h1
x2 f2 f1+f2 h2= f2/n h1+h2
... ... ... ... ...
xn fn f1+f2+ + fn hn= fn/n h1+h2+ + hn
fi=n hi=1
Ejemplo 1:
0 0 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 5 6
Se pide:
a. Construir la tabla de frecuencias absolutas
b. Cul es el nmero de familias que tiene como mximo dos hijos?
c. Cuntas familias tienen ms de 1 hijo pero como mximo 3?
d. Qu porcentaje de familias tiene ms de 3 hijos?
Solucin:
Para agrupar los datos en intervalos de clase se deben seguir las siguientes
reglas generales:
El numero de intervalos de clase se toma entre 5 y 15 dependiendo de
los datos.
Cada observacin debe estar incluida en una y solo una clase o
intervalo.
El valor mas pequeo y mas grande deben entrar en la clasificacin.
No deben existir brechas o vacos entre clases sucesivas.
Los intervalos no se deben sobreponer.
En la medida de lo posible, se debe utilizar la misma amplitud para todos
los intervalos.
2.- Punto medio o Marca de clase ( X& ).- Es la semisuma del lmite inferior y
L +L
superior de una clase, tal como lo indica la siguiente formula: X i = i i 1 .
2
Ejemplo 2
Un nuevo hotel va abrir sus puertas en una cierta ciudad. Antes de decidir el
precio de sus habitaciones, el gerente investiga los precios por habitacin de
40 hoteles de la misma categora de esta ciudad. Los datos obtenidos (en miles
de pesetas) fueron:
3.3 3.3 3.7 3.8 3.9 3.9 3.9 4.0 4.1 4.2
4.2 4.3 4.3 4.3 4.3 4.4 4.4 4.5 4.5 4.5
4.5 4.7 4.7 4.7 4.7 4.8 4.9 5.0 5.0 5.1
5.1 5.3 5.3 5.4 5.6 5.8 5.8 6.0 6.1 6.1
Procedimiento:
1.- El menor valor es 3.3 y el mayor 6.1, la diferencia es 2.8 y por tanto R=2.8.
2.- K= 1+3,322 log(40) = 6.3 6 nmeros de intervalos
3.- Ic = 2.8 / 6 = 0.467 0.5 tamao de los intervalos
CLASES fi Fi Ci hi Hi
[3.3, 3.8) 3 3 3.5 0.075 0.075
[3.8, 4.3) 8 11 4 0.2 0.275
[4.3, 4.8) 14 25 4.5 0.35 0.625
[4.8, 5.3) 6 31 5 0.15 0.775
[5.3, 5.8) 4 35 5.5 0.1 0.875
[5.8, 6.3) 5 40 6 0.125 1
MTODOS GRFICOS
xi fi
a favor 50%
en contra 40%
abstencin 10%
Elecciones Locales
a favor
en contra
abstencion
Ejemplo:
Histograma correspondiente a las horas extras
laboradas por un grupo de obreros petroleros.
25
21
20
16 16
15
Frecuencias
15
11
10 8
6
5 4
3
0
15 20 25 30 35 40 45 50 55 60 65
Clases
1. Forma de la distribucin.
2. Acumulacin o tendencia posicional (valor central de la distribucin).
3. Dispersin o variabilidad.
EJERCICIOS
1.- Los siguientes datos representan los ingresos diarios (en miles) de 20
obreros de cierta compaa.
16, 16, 17, 18, 18, 19, 19, 19, 20, 20, 20, 20, 20, 21, 21, 22, 22, 23, 23, 24.
2.- Los siguientes datos corresponden al tiempo que han necesitado 30 clientes
de un banco para llevar a cabo una transaccin bancaria:
0.1 0.4 1.1 1.2 1.3 1.4 1.5 1.6 2.0 2.5 2.8 2.8 3.1 3.3 3.6
4.1 4.1 4.3 4.6 5.0 5.5 6.4 6.5 7.7 7.3 7.4 8.0 9.5 9.5 10.0
10 11 12 12 13 13 13 14 14 15
15 16 16 16 16 16 16 16 17 19
MEDIDAS DE POSICIN
INTRODUCCIN
Despus que los datos han sido reunidos y tabulados, se inicia el anlisis con el fin de
calcular un nmero nico, que represente o resuma todos los datos. Las medidas de
posicin forman parte del conjunto de medidas descriptivas numricas, las cuales se
clasifican en parmetros cuando se calculan a partir de la poblacin total- y los
estadgrafos - cuando se calculan a partir de los datos de una muestra. Una medida
de posicin es un nmero que se toma como orientacin para referirnos a un conjunto
de datos.
Uno de los problemas fundamentales que presenta un anlisis estadstico, es el de
buscar el valor ms representativo de una serie de valores. El primer paso que hay
que realizar para que se entienda una larga serie de valores u observaciones, es el de
resumir los datos en una distribucin de frecuencia; esto no es suficiente para fines
practico, puesto que a menudo es necesario una sola medida descriptiva, y en
especial cuando se requiere comparar dos o ms serie estadsticas. Es necesario
continuar el proceso de reduccin hasta sustituir todos los valores observados por uno
solo que sea representativo, de tal forma que permita una interpretacin global del
fenmeno en estudio; para que ese valor sea representativo debe reflejar la tendencia
de los datos individuales de la serie de valores. Un valor o dato de la serie con estas
caractersticas recibe el nombre de promedio, media o medida de posicin, esto es
debido a su ubicacin en la zona central de la distribucin. Las medidas de posicin
son de gran importancia en el resumen estadstico, ya que representan un gran
nmero de valores individuales por uno solo.
El valor ms representativo de un conjunto de datos por lo general no es el valor ms
pequeo ni el ms grande, es un nmero cuyo valor se encuentra en un punto
intermedio de la serie de datos. Por lo tanto un promedio es con frecuencia un valor
referido que representar la medida de posicin de la serie de valores. Las medidas de
posicin se emplean con frecuencia como mecanismo para resumir un gran nmero de
datos o cantidades con la finalidad de obtener un valor que sea representativo de la
serie.
Las Principales Medidas de Posicin son:
Todas ellas a su manera tratan de dar una idea del numero alrededor del cual se
centra a todo el conjunto de datos.
MEDIA ARITMTICA
La media aritmtica de una serie de n valores de una variable X1, X2, X3; X4,.........Xn,
es el cociente de dividir la sumatoria de todos los valores que toma la variable Xi, entre
n
X
i=1
i
el nmero total de ellos. La formula se puede expresar as: X = .
n
Desviaciones o desvos.- Son diferencias algebraicas entre cada valor de la serie o
cada punto medio y la media aritmtica de dicha serie, o un valor cualquiera tomado
arbitrariamente. Los desvos o desviacin se designan con la letra di.
Dado una serie de valores X1, X2, X3, .......Xn , se llama desvo a la diferencia entre un
valor cualquiera Xi de la serie y un valor indicado k de esa misma serie. Si el valor
indicado k de la serie corresponde precisamente a la media aritmtica de esos valores
dados, se dice entonces que los desvos son con respecto a la media aritmtica. En
smbolo: d i = ( X i X ).
n1 X 1 +n 2 X 2 +n3 X 3 +........ +n k X k X 1 X 2 X 3 X k ,
Xt = = + + + .......
N n1 n2 n3 nk
Donde:
Adems, X 1 ..,.X 2., .,..X 3 .,., y..X k .,..son las medias de cada una de las series.
4. La media del producto de una constante por una variable, es igual al producto de la
constante por la media de la variable.
X =
KX= K = KXX .
i i
n n
variable ms la constante.
X (X +K ) = ( X i +K )
=
X i
+
K = X + K . ., de
i
n n n
X =
=X i
. En donde n es el nmero total de datos y X i son los valores de la
n
variable.
Ejemplo:
X =
X i
=
5 +7 +8 +9 +11 +14 54
= = 9. Por lo tanto la media es 9.
n 6 6
MTODO DIRECTO
Este mtodo se le conoce tambin como mtodo largo; el mismo resulta demasiado
engorroso cuando las magnitudes de los puntos medios o de las frecuencias de clase
son muy grandes, debido a que los clculos son demasiados extensos. Los pasos a
seguir para calcular la media con este mtodo son los siguientes:
2. Se multiplican los puntos medios de cada clase por sus respectivas frecuencias,
luego se obtiene la sumatoria de las frecuencias (fi) multiplicadas por el punto
medio ( X& ) as: f i X& i .
3. Luego se calcula la media aritmtica aplicando la formula:
f X& f X&
i i i
X = = ...Donde..n es igual al nmero total de datos.
f i =n n
Ejemplo:
CLASES fi
75-------79 20
80-------84 40
85-------89 60
90-------94 100
95 ------99 140
f i = n =360
Solucin:
LA MEDIANA
ocupa la mediana en la serie de valores, luego la mediana ser el nmero que ocupe
el lugar de lo posicin encontrada.
X ( n / 2) +X ( n +2 / 2)
Si n es par, se aplica la formula Me = El resultado obtenido, es la
2
posicin que ocupara la mediana, pero en este caso se ubica la posicin de la
mediana por ambos extremos de la serie de valores y los dos valores que se obtengan
se le saca la media y esta ser la mediana buscada, por lo tanto la mediana, en este
caso, es un nmero que no se encuentra dentro de la serie de datos dados.
Ejemplos:
Sean los siguientes datos, 5, 12, 7, 8, 10, 6, y 9, los aos de servicios de un grupo de
trabajadores. Determine la mediana.
Lo primero que se hace es ordenar los datos en forma creciente o decreciente; Los
datos ordenados quedaran as:
5, 6, 7, 8, 9, 10, 12.
Como se trata de un numero par de datos (n =8), la mediana esta dada por:
X ( n / 2) +X ( n +2 / 2) X ( 4 ) +X (5) 9 +11 20
Me = = = = = 10
2 2 2 2
Ejemplo:
Dada la siguiente distribucin de frecuencia referida a las horas extras laboradas por
un grupo de obreros. Calcule la mediana. Realice los clculos respectivos para
completar el siguiente cuadro.
Solucin:
n 132
= = 66, luego se busca en la frecuencia acumulada Fi, un valor que sea igual o
2 2
superior a 66, este se encuentra en la clase 70 -74, la cual llamaremos clase
mediana. Por lo tanto el limite inferior de esa clase es 70 = Li. La frecuencia absoluta
de esa clase es 50 = fi , F(i-1) = 44 y el Ic = 5. Aplicando la formula se tiene:
66 44 22
Me = 70 + 5 = 70 + .5 = 70 + 2.2 = 72.2.
50 50
Luego la mediana de esa distribucin es 72.2. Esto quiere decir que un 50 % de los
obreros trabajaron horas extras por debajo de 72.2 horas y el otro 50 % trabajaron
horas extras por encima de 72.2 horas.
CARACTERSTICAS DE LA MEDIANA
La mediana no es afectada por los valores extremos de una serie de valores,
puesto que la misma no es calculada con todos los valores de la serie.
La mediana no esta definida algebraicamente, ya que para su clculo no
intervienen todos los valores de la serie.
La mediana en algunos casos no se puede calcular exactamente y esto ocurre
cuando en una serie de valores para datos no agrupados el nmero de datos
es par, en este caso la mediana se calcula aproximadamente.
La mediana se puede calcular en aquellas distribuciones de frecuencia de
clases abierta, siempre y cuando los elementos centrales puedan ser
determinados.
La suma de los valores absolutos de las desviaciones de los datos individuales
con respecto a la mediana siempre es mnima. (propiedad)
LA MODA
La moda es la medida de posicin que indica la magnitud del valor que se presenta
con ms frecuencia en una serie de datos; es pues, el valor de la variable que ms se
repite en un conjunto de datos. De las medidas de posicin la moda es la que se
determina con mayor facilidad, ya que se puede obtener por una simple observacin
de los datos en estudio, puesto que es el dato que se observa con mayor frecuencia. Se
designa con las letras Mo.
1
Mo = Li + .Ic
1 + 2
Donde,
Ejemplo:
La clase que presenta mayor frecuencia absoluta es 80----89, entonces esta sera la
clase modal, donde Li = 80 1 = 16 12 = 4; 2 = 16 2 = 14; Ic = 10
Aplicando la formula se tiene:
1 4 40
Mo = L + Mo = 80 + .10 = 80 + = 80 + 2.22 = 82.22.
i +
4 +14 18
1 2
CARACTERSTICAS DE LA MODA
El valor de la moda puede ser afectado grandemente por el mtodo de
elaboracin de los intervalos de clases.
El valor de la moda no se halla afectado por la magnitud de los valores
extremos de una serie de valores, como sucede en la media aritmtica.
La moda se puede obtener en una forma aproximada muy fcilmente, puesto
que la obtencin exacta es algo complicado.
La moda tiene poca utilidad en una distribucin de frecuencia que no posea
suficientes datos y que no ofrezcan una marcada tendencia central.
No es susceptible de operaciones algebraicas posteriores.
La moda se utiliza cuando se trabaja con escalas nominales aunque se puede
utilizar con las otras escalas.
La moda es til cuando se esta interesado en tener una idea aproximada de la
mayor concentracin de una serie de datos.
Cuando se estudio la mediana se pudo detectar que esta divide la serie de valores en
dos partes iguales, una generalizacin de esta medida da origen a unas nuevas
medidas de posicin denominadas:
Qc = Li + 4 Ic.
fi
Donde,
cn
= Posicin que ocupa el cuartil en la distribucin de frecuencia.
4
c = corresponde al nmero del cuartil solicitado: 1,2 3.
Li = Limite real inferior de la clase donde se encuentra ubicado el cuartil.
F( i-1) = Frecuencia acumulada anterior a la clase donde se encuentra el cuartil.
fi = Frecuencia absoluta de clase donde se encuentra el cuartil.
El clculo de los percentiles es similar al clculo de los cuartiles con una variante en
la posicin de ubicacin de estos, que viene expresada por la siguiente formula:
pn
F
pn
P = . Con esta posicin se aplica la formula: P Li Ic .
P p = +
100 100 (i 1)
fi
Ejemplo:
SALARIO EN $ Obreros Fi
200-----299 85 85
300-----399 90 175 Clase cuartil
400-----499 120 295 Clase mediana
500-----599 70 365 Clase percentil
600-----699 62 427
700-----799 36 463
463
Esto indica que el 70 % de los obreros devengan un sueldo semanal que esta por
debajo de 541.57 $ y que el 30% de los restantes obreros, ganan un salario por
encima de 541.57 $.
MEDIDAS DE DISPERSION
INTRODUCCIN
La utilizacin de una medida de posicin escogida para representar a los datos no indica
otras caractersticas que el conjunto de observaciones que posee. No todas las
observaciones son iguales a la medida de posicin tomada o seleccionada; en general
los datos difieren unos de otros, por lo tanto se hace necesario encontrar ciertos
ndices o medidas que indiquen la variabilidad o dispersin del conjunto de
observaciones que se estudian.
Son aquellas que vienen expresadas en las mismas unidades originales que
indican la serie de datos. Entre las medidas de dispersin absoluta se encuentran:
el rango, el rango intercuartilico, la desviacin media, la varianza y la desviacin
tpica.
Medidas de Dispersin Relativas.
RANGO O RECORRIDO.
El rango nos dar una primera idea sobre las dispersin de los datos ya que si su valor
es pequeo nos indicar una gran concentracin de los datos, y si por el contrario su
valor es grande nos puede indicar una gran variabilidad o dispersin de los datos.
RANGOS ESPECIALES
El rango nos da una idea de la dispersin total de las observaciones, por lo tanto
puede estar afectada por valores extremos dando en consecuencia una idea de alta
dispersin. Por tal motivo, se han definido otros rangos que tratan de subsanar este
problema.
Si los valores de la RI o RSI son pequeos indica una alta concentracin de los datos
de la distribucin en los valores centrales de la serie de datos. Estas medidas se
utilizan para comparar los grados de variacin de los valores centrales en diferentes
distribuciones de frecuencias. Los mismos no son afectados por los valores extremos,
no se adaptan a la manipulacin algebraica, por tal motivo son de poco utilidad.
X i X d i
i =1 i =1
DM = =
N N
X& i X fi f i di
i =1 i =1
DM = =
n n
VARIANZA
S 2
=
( X i X ) 2
..,. para datos no agrupados
n
S 2
= f i ( X i X ) 2
=
f i X i
2
X2 para datos agrupados
n n
DESVIACIN TIPICA
S=
( X& i X ) 2
Para datos no agrupados
n
& i i i i 2
Para datos agrupados
(X X ) f 2
X f 2
S= = X
n n
los
los datos; adems,
clculos existe
que dice: unauna regla general
oscilacin igual ade gran
seis veces la
utilidad para la comprobacin
, centrada de
en la media
comprende aproximadamente el 99% de los datos.
Ejemplo:
Clases fi
3032 10
3335 18
3638 60
3941 100
4244 80
4547 14
4850 6
288
Solucin:
Clases fi X& i f i X& i f i X& i2
3032 10 31 310 9610
3335 18 34 612 20808
3638 60 37 2220 82140
3941 100 40 4000 160000
4244 80 43 3440 147920
4547 14 46 644 29624
4850 6 49 294 14404
288 11520 464508
X =
f X& i i
=
11520
= 40.0.
n 288
f X 2
464508 11520
2
= 12 .88
288
2S =
i i
X =
n
2
288
i 1
2
i
&
i 464508 11520 2
2
=
f& X f X
S=
n
n
=
288 288
DISPERSIN RELATIVA
Las medidas de variabilidad, estudiadas hasta ahora, solo permitan medir las
dispersiones absolutas de los trminos de la muestra. Las medidas, tomadas en esas
condiciones, sern de utilidad, solo cuando se trata de analizar una sola muestra;
pero, cuando hay que establecer comparaciones entre distintas muestras, ser
necesario expresar tales medidas en valores relativos, que pueden ser proporciones o
porcentajes.
Una serie de valores ser ms dispersa que otra mientras su CV sea mayor.
Ejemplo:
Producto X S Unidades CV
1 45 5 Bs. 11.11 %
2 450 40 Bs. 8.87 %
3 4500 350 Bs. 7.78 %
CV = Sx100/ X