Sei sulla pagina 1di 48

DATOS NO AGRUPADOS

RANGO
Rango o recorrido. El rango es la diferencia entre el valor mayor y el valor
menor encontrado en la muestra, tambin se le denomina recorrido ya que nos
dice entre que valores hace su recorrido la variable de inters; y se determina
de la siguiente manera:
R = VM Vm
Dnde:
R = rango o recorrido
VM = valor mayor en la muestra
Vm = valor menor en la muestra
Ejemplo:
1. Se han tomado como muestras las mediciones de la resistencia a la tensin
de la soldadura usada para unir dos cables, estas son: 78.5kg, 82.4, 87.3, 78.0,
90.0, 86.5, 77.9, 92.4, 75.9, determine su rango o recorrido.
Solucin:
VM = 92.4 kg
Vm = 75.9 kg
R = VM Vm = 92.4 75.9 = 16.5 kg
2. Se toman las mediciones de la cantidad de grasa de la leche en gramos por
cada 100 ml de leche que entra a un proceso de pasteurizacin, a continuacin se
1

enumeran; 14.85, 15.32, 12.76, 16.29, 15.84, 17.3, 17.61, 16.33, determine el
rango o recorrido de la cantidad de grasa de la leche.
Solucin:
VM = 17.61
Vm = 12.76
R = 17.61 12.76 = 4.85gramos

MEDIA ARITMETICA
Equivale al clculo del promedio simple de un conjunto de datos. Para
diferenciar datos mustrales de datos poblacionales, la media aritmtica se
representa con un smbolo para cada uno de ellos: si trabajamos con la poblacin,
este indicador ser ; en el caso de que estemos trabajando con una muestra, el
smbolo ser .
Hay que entender:
Media aritmtica ( o ): Es el valor resultante que se obtiene al dividir la
sumatoria de un conjunto de datos sobre el nmero total de datos. Solo es
aplicable para el tratamiento de datos cuantitativos.
Que existen dos formas distintas de trabajar con los datos tanto poblacionales
como mustrales: sin agruparlos o agrupndolos en tablas de frecuencias. Esta
apreciacin nos sugiere dos formas de representar la media aritmtica.

Media aritmtica para datos no agrupados


Podemos diferenciar la frmula del promedio simple para datos poblaciones y
mustrales:

Observe que la variacin de ambas frmulas radica en el tamao de los datos


(N identifica el tamao de la poblacin, mientras que n el de la muestra).

Ejemplo: la media aritmtica para datos no agrupados


El profesor de la materia de estadstica desea conocer el promedio de las notas
finales de los 10 alumnos de la clase. Las notas de los alumnos son:
3,2

3,1

2,4

4,0

3,5

3,0

3,5

3,8

4,2

4,0

Cul es el promedio de notas de los alumnos de la clase?

SOLUCIN
Aplicando la frmula para datos no agrupados tenemos:
Cabe anotar que en el ejemplo estamos hablando de una poblacin
correspondiente a todos los alumnos de la clase (10 alumnos en total). El
promedio de las notas es de 3,47.
Modifiquemos la primera nota por 0,0 y calculemos nuevamente la media
aritmtica.
En este caso la media pasa de 3,47 a 3,15. Esta variacin notoria se debi a
que la media aritmtica es sensible a los valores extremos cuando tratamos con
pocos datos. El 0,0 es una nota atpica comparada con las dems, que estn
ubicadas entre 3,0 y 4,2.
MEDIA GEOMETRICA
Media geomtrica (G). Es la raz en ensima del producto de los valores de
los

elementos de la muestra, es usada cuando los valores de los datos de la

muestra no son lineales, es decir que su valor depende de varios factores a la vez,
se determina de la siguiente forma:
3

Dnde:
G = media geomtrica
xi = dato i
n = nmero de datos en la muestra
Ejemplos:
1.

Las siguientes temperaturas han sido tomadas de un proceso qumico,

13.4oC, 12.8, 11.9, 13.6, determine la temperatura promedio de este proceso.


Solucin:
G=
2.

= 12.9077 oC

Las siguientes temperaturas han sido tomadas de un proceso para

fabricar queso chihuahua, 21.4 oC, 23.1, 20.2, 19.7, 21.0, determine la temperatura
promedio de este proceso.
Solucin:
G=

= 21.048 oC

MEDIANA
Mediana (xmed). La mediana es aquel valor que se encuentra en la parte central
de los datos que se tienen en la muestra una vez que estos han sido ordenados
segn su valor o magnitud. Para calcular la mediana se presentan dos casos:
a.

Cuando el nmero de datos en la muestra es impar.- En este caso


despus de ordenar los datos de la muestra en cuanto a su magnitud, es
decir de mayor a menor valor o de menor a mayor valor, se procede a
localizar aquel dato que se encuentra justo en el centro de los datos o en

la parte central de los mismos, el valor de este dato ser el que d valor
a la mediana.

Ejemplo:
Los siguientes datos son las mediciones obtenidas de un circuito utilizado en
un arns de lavadora; se toman como muestra siete circuitos y sus mediciones
son: 11.3, 11.2, 11.5, 11.2, 11.2, 11.4, 11.5 cm.
Solucin:
Ordenando los datos de menor a mayor valor;
11.2, 11.2, 11.2, 11.3, 11.4, 11.5, 11.5
Se observa que el dato 11.3 es el que queda en la parte central, por lo que
este es el que dar valor a la mediana; entonces,
xmed = 11.3 cm.
b.

Cuando el nmero de datos en la muestra es par.- En este caso despus

de ordenar los datos en cuanto a su magnitud, observamos que en la parte central


de los datos no se encuentra dato alguno, en este caso, la mediana tomar el
valor del promedio de dos datos; el que se encuentra antes de la parte central y el
que se encuentra despus de la parte central.
Ejemplo:
Los siguientes datos son las mediciones obtenidas de un circuito utilizado en
un arns de lavadora; se toman como muestra ocho circuitos y sus mediciones
son: 11.3, 11.2, 11.5, 11.2, 11.2, 11.4, 11.5, 11.4 cm.
Solucin:
Ordenando los datos de mayor a menor valor,

11.5, 11.4, 11.4, 11.3, 11.2, 11.2, 11.2, 11,1 cm.


Se observa que en la parte central de los datos no hay dato alguno por lo que

la mediana se determina con el promedio de los datos subrayados,


entonces,
Nota: Es imprescindible para calcular el valor de la mediana el que primero se
ordenen los datos en cuanto a su magnitud, ya que de no hacerlo, se incurrira en
un grave error.

MODA
Moda (xmod). La moda se define como aquel valor o valores que ms se repiten
o que tienen mayor frecuencia entre los datos que se han obtenido en una
muestra, la muestra de una poblacin nos genera la distribucin de los datos una
vez que estos se han graficado y en esta grfica es posible observar la moda o
modas de la misma, es por esto que una distribucin de datos puede ser amodal
(carece de moda), unimodal (tiene una sola moda), bimodal (tiene dos modas) o
polimodal (tiene ms de dos modas).
Ejemplos:
1.

Determine la moda de los datos que se muestran a continuacin, se refieren

a la estatura de un grupo de jvenes; 1.60m, 1.65, 1.70, 1.71, 1.70, 1.70, 1.70,
1.71, 1.70, 1.93, 1.87, 1.85
Solucin:
Estatura

Frecuencia

1.60

1.65

1.70

5*

1.71

2
6

1.85

1.87

1.93

La tabla muestra la distribucin de frecuencias de los datos o el nmero de


veces que estos se repiten, la mayor frecuencia que es 5 corresponde a una
estatura de 1.70m, por lo que esta sera la moda.
Luego, xmod = 1.70m
2.

Determine la moda de los siguientes datos que se refieren a la edad de

alumnos de primer semestre del tecnolgico de Chihuahua, 18 aos, 17, 19, 21,
19, 18, 22, 22, 18, 18, 17, 19, 19, 19, 18, 20, 21, 20, 18, 19, 18, 19, 18,19, 22, 35
Solucin:
Edad

Frecuencia

17

18

7*

19

8*

20

21

22

35

En este caso se observa que las edades que ms frecuencia tienen son las de
18 y 19 aos, por lo que se concluye que existen dos modas,
Xmod1= 18 aos , Xmod2= 19aos

Hay que hacer notar que la frecuencia para ambas modas puede ser de igual
magnitud o diferente, como en el caso que se ilustra.
b2. Medidas de Dispersin. Cuando se tiene una muestra de datos obtenida de
una poblacin cualquiera, es importante determinar sus medidas de tendencia
central as como tambin es bsico el determinar que tan dispersos estn los
datos en la muestra, por lo que se hace necesario determinar su rango, la
varianza, la desviacin estndar, etc., ya que una excesiva variabilidad o
dispersin en los datos indica la inestabilidad del proceso en anlisis en la mayora
de los casos.

GRAFICACIN
Datos correspondientes a un carcter cualitativo
La representacin grfica de este tipo de datos est basada en la
proporcionalidad de las reas a las frecuencias absolutas o relativas. Veremos dos
tipos de representaciones:
1. Diagrama de sectores:

Est representacin grfica consiste en dividir un crculo en tantos sectores


circulares como modalidades presente el carcter cualitativo, asignando un ngulo
central a cada sector circular proporcional a la frecuencia absoluta ni, consiguiendo
de esta manera un sector con rea proporcional tambin a ni.

Ejemplo:

As, los ngulos que corresponden a las cuatro modalidades de la tabla adjunta
sern:
8

Rehusaron ciruga
Rehusaron radiacin
Empeoraron
una

por

Nmero de casos
26
3
10

ngulo(grados)
234
27
90

enfermedad

ajena al cncer
Otras causas
1
Y su representacin en un diagrama de sectores ser:

2. Diagrama de rectngulos:

Esta representacin grfica consiste en construir tantos rectngulos como


modalidades presente el carcter cualitativo en estudio, todo ellos con base de
igual amplitud. La altura se toma igual a la frecuencia absolua o relativa (segn la
distribucin de frecuencias que estemos representando), consiguiendo de esta
manera rectngulos con reas proporcionales a las frecuencias que se quieren
representar.
9

Ejemplo:
La representacin grfica de la distribucin de frecuencias absolutas del
ejemplo anterior ser de la forma:

b. Datos sin agrupar correspondientes a un carcter cuantitativo

Estudiaremos dos tipos de representaciones grficas, correspondientes a


distribuciones de frecuencias (absolutas o relativas) no acumuladas y acumuladas.
1. Diagrama de barras:

Consiste en levantar, para cada valor de la variable, una barra cuya altura sea
su frecuencia absoluta o relativa, dependiendo de la distribucin de frecuencias
que estemos representando.
10

Ejemplo:
As, la representacin grfica de la distribucin de frecuencias del ejemplo del
n de hijos ser:

2. Diagrama de frecuencias acumuladas:

Esta representacin grfica se corresponde con la de una funcin constante


entre cada dos valores de la variable a representar, e igual en cada tramo a la
frecuencia relativa acumulada (o absoluta acumulada si se trata de representar
una distribucin de frecuencias absolutas) hasta el menor de los dos valores de la
variable que construyen el tramo en el que es constante.

Ejemplo:

Tambin para el ejemplo del Nmero de Hijos, se tendr un diagrama de


frecuencias acumuladas como el del siguiente grfico:

11

c. Datos agrupados en intervalos correspondientes a un carcter


cuantitativo

Al igual que antes, existen tambin dos tipos de representaciones grficas


dependiendo de si la distribucin de frecuencias en estudio es de datos
acumulados o de datos sin acumular.
1. Histograma:

Al ser esta representacin una representacin por reas, hay que distinguir si
los intervalos en los que aparecen agrupados los datos son de igualamplitud o no.
Si la amplitud de los intervalos es constante, dicha amplitud puede tomarse
como unidad y al ser
Frecuencia (rea) = amplitud del intervalo altura
La altura correspondiente a cada intervalo puede tomarse igual a la
frecuencia.
Si los intervalos tienen diferente amplitud, se toma alguna de ellas como
unidad (generalmente la menor) y se levantan alturas para cada intervalo de forma
que la ecuacin anterior se cumpla.
12

Ejemplo:
En el ejemplo de los Niveles de Colinesterasa, al tener los intervalos igual
amplitud, la representacin grfica ser:

Ejemplo:
Si tuviramos una distribucin de frecuencias como la siguiente,
correspondiente a puntuaciones obtenidas en un test psicolgico y en la que los
intervalos son de diferente amplitud
Ii
0-20
20-30
30-40
40-45
45-50
50-60
60-80
80-100

ni
fi
8
8/70
9
9/70
12
12/70
10
10/70
9
9/70
10
10/70
8
8/70
4
4/70
?ni= 70
?fi=1
Tomando la amplitud 5 como unidad, deberemos levantar para el primer

intervalo una altura de 2/70 para que el rea sea la freceuncia relativa 8/70.

13

Procediendo de la misma manera con el resto de los intervalos obtendramos


como representacin grfica la figura siguiente:

Obsrvese que la suma de todas las reas debe ser 1, tanto si los intervalos de
la distribucin de frecuencias relativas son o no de igual amplitud.
2. Polgono de frecuencias acumuladas:

Se utiliza para representar distribuciones de frecuencias (relativas o absolutas)


acumuladas. Consiste en representar la grfica de una funcin que una por
segmentos las alturas correspondientes a los extremos superiores de cada
intervalo, tengan o no todos igual amplitud, siendo dicha altura igual a la
frecuencia acumulada, dando una altura cero al extremo inferior del primer
intervalo y siendo constante a partir del extremo superior del ltimo.
Ejemplo:
As, para el ejemplo de los Niveles de Colinesterasa, el polgono de
frecuencias relativas acumuladas tendr una representacin grfica de la forma:

14

DATOS AGRUPADOS
1- MEDIA ARITMTICA PARA DATOS AGRUPADOS
Se calcula sumando todos los productos de marca clase con la frecuencia
absoluta respectiva y su resultado dividirlo por el nmero total de datos:

La marca clase de una tabla para datos agrupados en intervalos corresponde


al promedio de los extremos de cada intervalo.

15

2- MODA
Es el valor que representa la mayor frecuencia absoluta. En tablas de
frecuencias con datos agrupados, hablaremos de intervalo modal.
La moda se representa por Mo.

Li Extremo inferior del intervalo modal (intervalo que tiene mayor frecuencia
absoluta).
fi Frecuencia absoluta del intervalo modal.
fi-1 Frecuencia absoluta del intervalo anterior al modal.
fi+1 Frecuencia absoluta del intervalo posterior al modal.
t Amplitud de los intervalos.

16

3- MEDIANA
Es el valor que ocupa el lugar central de todos los datos cuando stos estn
ordenados de menor a mayor. La mediana se representa por Me. La mediana se
puede hallar slo para variables cuantitativas.
Clculo de la mediana para datos agrupados
La mediana se encuentra en el intervalo donde la frecuencia acumulada llega
hasta la mitad de la suma de las frecuencias absolutas.
Es decir tenemos que buscar el intervalo en el que se encuentre. N / 2
Luego calculamos segn la siguiente frmula:

Li-1 es el lmite

inferior de la clase

donde se encuentra la mediana.


N / 2 es la semisuma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
fi es la frecuencia absoluta del intervalo mediano.
ti es la amplitud de los intervalos.
Ahora veamos un ejemplo:
- En la siguiente tabla se muestran las edades de un grupo de personas.

1 Calculemos la media aritmtica:

17

2 Ahora calculemos la mediana (Me) segn las frmulas explicadas ms


arriba:
Lo primero que debemos hacer para poder calcular la mediana es identificar
la clase mediana. Para esto tenemos que buscar el intervalo en el que se
encuentre. N / 2
en este caso N / 2 = 31 / 2 15,5

Ahora debemos buscar el intervalo donde la frecuencia acumulada (F i )


contenga el valor obtenido (15,5).

18

Veamos:
Recuerda:
Li-1 :es el lmite inferior de la clase donde se encuentra la mediana, en este
caso el lmite inferior es 20.
N / 2 :es la semisuma de las frecuencias absolutas, en este caso es 15,5.
Fi-1 :es la frecuencia acumulada anterior a la clase mediana, en este caso es 9.
fi : es la frecuencia absoluta del intervalo mediano, en este caso es 7
ti :es la amplitud de los intervalos. Se calcula restando el extremo superior menos
el inferior del intervalo, en este caso es:
19

30 - 20 = 10

3 Calculemos la moda Mo :
Lo primero que debemos hacer es identificar el intervalo modal:

Ahora podemos reemplazar los datos en la frmula:

20

- Si la moda est en el primer intervalo, entonces fi-1= 0. Si la moda est en el


ltimo intervalo, entonces fi+1= 0.
- Puede haber ms de una moda en el caso en que dos o ms valores de la
variable presenten la misma frecuencia (distribuciones bimodales o multimodales).

CENTILES O PERCENTILES
Los percentiles son, tal vez, las medidas ms utilizadas para propsitos de
ubicacin o clasificacin de las personas cuando atienden caractersticas tales
como peso, estatura, etc.
Los percentiles son ciertos nmeros que dividen la sucesin de datos
ordenados en cien partes porcentualmente iguales. Estos son los 99 valores que
dividen en cien partes iguales el conjunto de datos ordenados. Los percentiles (P1,
P2,... P99), ledos primer percentil,..., percentil 99.
Datos Agrupados
Cuando los datos estn agrupados en una tabla de frecuencias, se calculan
mediante la frmula:
k= 1,2,3,... 99
21

Donde:
Lk = Lmite real inferior de la clase del decil k
n = Nmero de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.
fk = Frecuencia de la clase del decil k
c = Longitud del intervalo de la clase del decil k
Otra forma para calcular los percentiles es:
Primer percentil, que supera al uno por ciento de los valores y es superado por
el noventa y nueve por ciento restante.
El 60 percentil, es aquel valor de la variable que supera al 60% de las
observaciones y es superado por el 40% de las observaciones.
El percentil 99 supera 99% de los datos y es superado a su vez por el 1% restante

POBLACIN Y MUESTRA
DATOS AGRUPADOS
Si un conjunto de datos consta de todas las observaciones concebibles (o
hipotticamente posibles) de cierto fenmeno, se denomina poblacin; si un
conjunto de datos consta solamente de una parte de estas observaciones se
22

conoce como muestra por lo que una muestra debe ser un subconjunto de la
poblacin.
Por ejemplo: Un peridico local imprime un artculo poltico para todos sus
lectores. El peridico desea considerar las actitudes de 200 lectores hacia el
artculo y conocer sus puntos de vista.
De acuerdo a lo planteado en el ejemplo el total de los lectores representara
la poblacin a la que le llega el artculo y los 200 lectores seleccionados
representaran la muestra para conocer su punto de vista.
Se utilizar la palabra "muestra" solo con relacin a datos que se puedan
utilizar en forma razonable para hacer generalizaciones acerca de la poblacin de
la cual provinieron. En este sentido ms tcnico, no son aceptables muchos
conjuntos de datos que por lo comn se denominan muestras.
Como el trmino estadstica(o) se introdujo con relacin a los datos de
muestra, se agregar que tambin existe un nombre para las descripciones
estadsticas de poblaciones llamadas parmetros. Como se observar, la
distincin entre estadstica y parmetros servir para simplificar nuestro lenguaje.
En realidad, hasta se usarn smbolos diferentes de medidas estadsticas, segn
se utilicen para describir muestras o poblaciones. Para poblaciones se
utilizarn letras griegas y para muestras, latinas.
Por ejemplo para representar la media o el promedio de una muestra se utiliz
la frmula:

La media de una poblacin de N elementos se define en la misma forma. Es la


suma de los N elementos, dividida entre el tamao de la poblacin N.

En las frmulas anteriores se representa a la media de la muestra por


media de la poblacin por para identificarlas entre s.

y la

23

MEDIDAS DE DISPERSIN
En secciones anteriores se ha discutido sobre tres medidas descriptivas del
centro. Sin embargo, estas medidas no son suficientes para caracterizar la
distribucin, puesto que otro aspecto que debe se tomar en cuenta es la
variabilidad de las observaciones.
Con el propsito de medir la dispersin o variabilidad, se discutirn en este
apartado las medidas de: Amplitud (llamada tambin rango o recorrido),
Desviacin media, Varianza, Desviacin Estndar (tambin llamada desviacin
tpica) y Coeficiente de Variacin.

Amplitud o recorrido
La medida de dispersin ms simple recibe el nombre de Amplitud o
recorrido y es muy poco usada puesto que su nica ventaja es la sencillez con
que se calcula. Es comn que se use tambin el nombre de Rango para esta
medida. La amplitud (A) de un conjunto de datos es la diferencia entre las
observaciones que tienen el mayor y el menor valor numrico en el mismo.
Por ejemplo: Supngase que en un hospital el pulso de cada paciente se mide
tres veces al da y que cierto da los registros de dos pacientes muestran:
Paciente 1: 73 77 74
Paciente 2: 64 90 73
Cul es la Amplitud en pulsaciones para cada paciente?
Para calcular la amplitud de los datos necesario identificar el valor ms grande
y el valor ms pequeo del conjunto de datos de cada uno de los pacientes.
Para el Paciente 1:
A = 77 - 73 = 4
Para el Paciente 2:
A = 90 - 64 = 26

La amplitud es una medida de dispersin cuya ventaja es la facilidad con que


se calcula. Tiene en cambio las siguientes desventajas:

En su clculo slo intervienen dos elementos del conjunto.


24

Al aumentar el nmero de observaciones, puede esperarse que aumente la


variabilidad. Puesto que la amplitud no tiene en cuenta el tamao del
conjunto, no es una medida adecuada para comparar la variabilidad de dos
grupos de observaciones, a menos que stos sean del mismo tamao.

Desviacin media, desviacin estndar y varianza


Para presentar la desviacin estndar, que es por mucho la medida
generalmente ms til de la dispersin, obsrvese que la dispersin de un
conjunto de datos es pequea si los valores se agrupan en forma cerrada en torno
a su media y es grande si los valores se dispersan ampliamente en torno a su
media. Por tanto, parecera razonable medir la dispersin de un conjunto de datos
en trminos de las cantidades en las cuales difieren los valores individuales de su
media. Si se tiene un conjunto de nmeros:

que constituyen una poblacin con una media

, las diferencias entre:

Se denominan las desviaciones de la media y esto sugiere que se podra usar


el promedio de estas desviaciones como medida de dispersin en la poblacin. A
menos que las X sean todas iguales, algunas de las desviaciones sern positivas
y otras negativas, la suma de todas las desviaciones de la media

y en consecuencia tambin su promedio es siempre cero.

Como realmente se est interesado en la magnitud de las desviaciones, y no si


son positivas o negativas, se pueden ignorar simplemente los signos y definir una
medida de variacin en trminos de los valores absolutos de las desviaciones de
la media. En realidad, si se suman las desviaciones de la media como si fueran

todas positivas o cero y las dividiramos entre N, se obtendra la media estadstica


que se denomina desviacin media y se representa por:
25

Esta medida tiene una apariencia intuitiva, pero debido al valor absoluto, lleva a
encontrar dificultades tericas en problemas de inferencia y rara vez se usa.
Un mtodo alternativo consiste en trabajar con los cuadrados de las
desviaciones de la media, ya que tambin esto eliminar el efecto de los signos.
Los cuadrados de nmeros reales no pueden ser negativos y pueden tomar el
valor de cero.
Por consiguiente, si se promedia las desviaciones cuadradas de la media y se
toma la raz cuadrada del resultado (para compensar el hecho de que las
desviaciones fuesen cuadradas), se obtiene laDesviacin estndar de la
poblacin.

sta medida de variacin se representa por medio de sigma minscula ( ) y


al expresar literalmente lo que se ha hecho aqu de manera matemtica, tambin
se conoce como la raz de la desviacin cuadrada media. A su cuadrado de se
le llama Varianza de la poblacin.
Quiz parezca lgico utilizar la misma frmula con n y
sustituidas por N y
, para la desviacin estndar de una muestra; pero, esto no es realmente lo que se
hace. En lugar de dividir la suma de las desviaciones entre n, se divide entre (n-1)
y se define como desviacin estndar de la muestra, que se denota con s como
Su cuadrado s2, se llama la Varianza de la muestra.

Al dividir entre n-1 en vez de hacerlo entre n, tiene una buena razn. Si se
dividiera entre n y se utilizara s2 como estimacin de
es decir, se utilizara la
varianza de una muestra para determinar la varianza de la poblacin de la cual
provino, el resultado sera demasiado pequeo y esto se corrige al dividir entre n-1
en lugar de hacerlo entre n. Si el valor de n es muy grande no importa hacerlo
entre n-1 sino que es prctico para definir s como se hizo.
Coeficiente de variacin

26

Las medidas de dispersin anteriores son todas medidas de variacin


absolutas. Una medida de dispersin relativa de los datos, que toma en cuenta su
magnitud, est dada por el coeficiente de variacin.
El Coeficiente de variacin (CV) es una medida de la dispersin relativa de un
conjunto de datos, que se obtiene dividiendo la desviacin estndar del conjunto
entre su media aritmtica y se expresa como para una muestra y para la
poblacin.

Los coeficientes de variacin tienen las siguientes caractersticas:

Puesto que tanto la desviacin estndar como la media se miden en las


unidades originales, el CV es una medida independiente de las unidades de
medicin.

Debido a la propiedad anterior el CV es la cantidad ms adecuada para


comparar la variabilidad de dos conjuntos de datos.

En reas de investigacin donde se tienen datos de experimentos previos,


el CV es muy usado para evaluar la precisin de un experimento,
comparando en CV del experimento en cuestin con los valores del mismo
en experiencias anteriores.

Ejemplo: En seis sbados consecutivos un operador de taxis recibi 9, 7, 11,


10, 13 y 7 llamadas a su sitio para su servicio. Calcule:
a. Amplitud.
b. Media.
c. Desviacin media.
d. Desviacin estndar.
e. Varianza.
f. Coeficiente de variacin.

a) Para calcular la amplitud.


Valor mximo 13
27

Valor mnimo 7
A = 13 - 7 = 6

b) Para calcular la media.

c) Para calcular la desviacin media

d) Para calcular la desviacin estndar

Se puede utilizar la siguiente tabla:

-0.5

0.25
28

-2.5

6.25

11

1.5

2.25

10

0.5

0.25

13

3.5

12.25

-2.5

6.25

0.0

27.50

Al sustituir los valores se obtiene:

e) Para calcular la varianza:

f) Para calcular el coeficiente de variacin:

Clculo de la varianza en una tabla de frecuencias


Para calcular la varianza de una tabla de frecuencias se utiliza la siguiente
frmula:

29

Donde:
k es el nmero de intervalos de clase
Xi es el valor medio de cada clase
fi es el valor de la frecuencia absoluta

Al retomar el ejemplo de la tabla de distribucin de frecuencias de Precipitacin


pluvial promedio anual en Baja California 1905 a 1994 en pulgadas.

intervalos

Punto
medio
de Conteo
clase (mi)

fi

fAi

FRi

FRAi

(07.7 , 11.7] 9.7

||||| ||||| ||||| ||| 18

18

18/90 18/90

(11.7 , 15.7] 13.7

||||| ||||| |||

13

31

13/90 31/90

(15.7 , 19.7] 17.7

||||| ||||| |||||


24
||||| ||||

55

24/90 55/90

(19.7 , 23.7] 21.7

||||| ||||| ||||| || 17

72

17/90 72/90

(23.7 , 27.7] 25.7

||||| ||||| |||

85

13/90 85/90

13

30

(27.7 , 31.7] 29.7

85

0/90

85/90

(31.7 , 35.7] 33.7

||||

89

4/90

89/90

(35.7 , 39.7] 37.7

90

1/90

90/90

90

90

90/90 90/90

TOTAL

Calcular s2 y s.

mi

fi

fimi

9.7

94.09

18

174.6 1693.62

13.7

187.69

13

178.1 2439.97

17.7

313.29

24

424.8 7518.96
31

21.7

470.89

17

368.9 8005.13

25.7

660.49

13

334.1 8586.37

29.7

882.09

33.7

1135.69

134.8 4542.76

37.7

1421.29

37.7

TOTAL

#####

90

1653.0 34208.10

1421.29

32

DISPERSIN POBLACIONAL Y MUESTRAL


DATOS NO AGRUPADOS
El concepto de variabilidad juega un papel clave dentro de la Estadstica. Si
los hechos no se repitieran o se repitieran sin variacin, la Estadstica casi no
tendra razn de ser; pero la realidad es que la mayora de los fenmenos se
repiten y lo hacen mostrando variaciones de mayor o menor intensidad; de ah la
importancia que tiene la Estadstica en el mundo moderno, al suministrarle al
hombre procedimientos vlidos y confiables para analizar esos hechos que se
repiten y hacer inferencias acerca de ellos a pesar de la variabilidad que
presentan.
Bsicamente, al analizar un conjunto de datos, se tienen en mente dos
objetivos: a) por una parte, se trata de descubrir las irregularidades que puedan
existir en l y de resumirlas a travs de un valor tpico (un promedio por ejemplo);
y
b) por otra, se procura establecer la medida en que los datos se
concentran o se dispersan alrededor de se valor tpico, o sea, la
importancia de las desviaciones de los elementos individuales respecto
a ese valor representativo escogido para caracterizar al grupo.
En realidad, es casi tan importante conocer un promedio como conocer la
variabilidad de los datos alrededor de l. Esto es lgico: la validez de un valor
tpico para resumir o representar al conjunto de datos para el cual se calcul,
depende, en gran medida de si los datos individuales se concentran o se
33

dispersan alrededor de l. Cuanto ms concentrados estn los datos alrededor


del promedio aritmtico, por ejemplo, mucho ms confianza se tendr en este
valor para caracterizar o representar el conjunto de datos.
Si la moda del nmero ideal de hijos es 3 en una poblacin, y una porcin muy
grande de mujeres se concentran en ese valor, podemos utilizar con seguridad
ese valor para describir las preferencias reproductivas de la poblacin, como un
todo, ya que sabemos que pocos se alejan, de forma significativa, de ese valor.
En esta oprtunidad veremos el clculo de las medidas de dispersin para datos no
agrupados.

LA VARIABILIDAD Y SU IMPORTANCIA
La importancia del concepto de variabilidad se hace an ms clara, si se nota que
en la prctica puede suceder que varios conjuntos de datos tengan, la misma
media aritmtica y sin embargo, su dispersin sea muy diferente, tal como se
puede apreciar a continuacin:

34

Los anteriores conjuntos tienen la misma media aritmtica (5) pero su


dispersin o variabilidad es muy diferente: mientras que en el grupo A todos los
valores son iguales a cinco, es decir, no existe dispersin, en B s existe cierto
grado de variabilidad y en el grupo C la dispersin es an mayor. An ms, en este
35

ltimo grupo ni siquiera hay un valor que sea igual al promedio y esto puede
darnos una idea de las conclusiones errneas a que podramos llegar si no
tomramos en cuenta la dispersin de los datos con respecto a esta medida. Para
los investigadores, la variabilidad es un fenmeno natural y corriente del cual
tienen clara conciencia.
Es evidente que slo el conocimiento del valor central x no es suficiente para
caracterizar un conjunto de datos.

LA MEDICIN DE LA VARIABILIDAD
Dentro del tratamiento estadstico de la informacin cuantitativa, es necesario
hacer referencia a la medicin de la variabilidad. Han sido propuestas diferentes
formas de medir la dispersin o variabilidad de un conjunto de datos; cada una de
ellas posee ventajas y tambin limitaciones conceptuales y prcticas.
La eleccin de una de ellas, en particular, depender de la situacin concreta
que se considere y de si, en ese caso, las ventajas de su utilizacin superan a las
desventajas, en relacin a las dems medidas. Seguidamente se discutirn las
medidas de variabilidad ms conocidas, a saber:
a) El recorrido o amplitud.
b) La desviacin media.
c) La desviacin estndar.
d) La variancia.
e) El coeficiente de variacin.

El recorrido o amplitud (R)


Una forma natural de apreciar la variabilidad es considerar los valores extremos
del grupo de datos. Esto da origen al recorrido o amplitud, que se define como la
diferencia entre el valor mayor y el valor menor del conjunto de datos. Su clculo
es simple; por ejemplo, lo calcularemos para los siguientes datos: 3, 10, 2, 8,

36

7.

. Tambin puede indicarse dando directamente

los valores extremos, o

sea, para el ejemplo considerado: Recorrido de 2 a 10.


No obstante lo simple de su clculo y lo fcil que resulta percibir su significado,
el recorrido no es muy usado debido a ciertas limitaciones que presenta. La ms
importante, como puede apreciarse en su definicin es la de que no toma en
cuenta todas las observaciones del grupo o muestra, sino nicamente el mayor y
elmenor. Esta caracterstica hace que dependa sensiblemente del nmero de
datos y que aumente al crecer este nmero ya que es probable que, entre las
nuevas observaciones agregadas aparezca una ms pequea y/o una de mayor
valor que las existentes y eso producir un incremento en el valor del recorrido.
En la prctica el recorrido se utiliza cuando se desea una medida simple de la
variabilidad o cuando -por falta de tiempo- no se pueden emplear medidas ms
complejas.

La desviacin media (DM)


La necesidad de definir una medida de dispersin que tome en cuenta para su
clculo todos los datos y no est tan estrictamente ligada al nmero de ellos, lleva
casi automticamente a la conclusin de que esta medida tiene que estar basada
en las desviaciones o diferencias de los datos individuales respecto de un valor
central o tpico.
Esta lnea de razonamiento conduce lgicamente, a considerar la suma de las
desviaciones de los datos con respecto a la media aritmtica como una posible
medida de dispersin. Sin embargo, como es sabido, la suma de las desviaciones
de las observaciones con respecto a la media aritmtica siempre es igual a cero,
circunstancia que impide que pueda ser utilizada como medida de dispersin.
Para obviar este problema, se puede emplear la suma de los valores absolutos
de las diferencias y dividirla por el nmero de datos para obtener una medida de
dispersin promedio o por observacin. As se origina la llamada desviacin
media.
Simblicamente as:
37

Recurdese que el smbolo se emplea para indicar que

deben ser

considerados los valores absolutos de las diferencias, es decir, ignorando su


signo.
Su clculo se ilustra seguidamente para los valores: 3, 10, 2, 8, 7. Primero se
obtiene la media aritmtica:

Se recomienda hacer una tabla como la que se muestra a continuacin

Luego se calcula la
La desviacin

desviacin media:
media, no obstante

las ventajas conceptuales que rene, casi no se utiliza debido a que requiere el
manejo de valores absolutos por una parte, y por el hecho de que existe otra
medida, basada tambin en las desviaciones respecto a la media aritmtica, que
es mucho ms cmoda y til, y rene numerosas ventajas prcticas y tericas.
Esta medida es la desviacin tpica.

38

Desviacin tpica (Desviacin estndar)


La desviacin estndar -o tpica- utiliza en lugar de los valores absolutos, los
cuadrados de las desviaciones. La desviacin estndar nos indica cunto se
alejan, en promedio, las observaciones de la media aritmtica del conjunto.
Es la medida de dispersin ms usada en estadstica, tanto para aspectos
descriptivos como analticos. Es, la raz cuadrada del cuadrado de la suma de las
desviaciones entre el nmero total de observaciones, as:

Simblicamente es as:

Tambin tiene mucha importancia el cuadrado de la desviacin estndar, que


recibe el nombre de variancia (en algunos textos aparece como varianza).

La Variancia
Como se dijo atrs, la variancia es el cuadrado de la desviacin tpica, as:

Simblicamente as:

Es conveniente hacer algunas observaciones acerca de la definicin de


varianza, segn se considere una muestra o toda la poblacin.

39

Como ya se ha explicado, el estudio de una poblacin se realiza observando


no todos sus elementos, sino, tomando una muestra. Las medidas o valores
calculados a partir de las muestras se utilizan luego para representar o estimar los
valores de la poblacin en los que estamos interesados.
Con el propsito de establecer claramente si el clculo ha sido realizado para
toda la poblacin o para una muestra, se acostumbra indicar con smbolos
diferentes cada una de las situaciones. Comnmente se utilizan letras latinas
maysculas o letras griegas para indicar los valores de la poblacin y letras latinas
minsculas para los valores calculados a partir de los datos de la muestra
(estimadores).
Adems, es corriente emplear la letra N para indicar el nmero total de
elementos en la poblacin y la n para representar el tamao de la muestra.
Seguidamente se presentan los smbolos y definiciones para el promedio y la
variancia, segn se refieran a la poblacin o a una muestra:

Algo que llama la atencin inmediatamente es que, al definir

, se utiliza n-1

Como divisor en vez de n. Esto obedece al hecho de que, de acuerdo con la


teora de la estadstica, al dividir por n-1 se obtiene una mejor estimacin del valor
poblacional

(variancia de la poblacin).

Debe sealarse, sin embargo, que si la muestra es grande no tiene


importancia alguna usar n n-1 como divisor, ya que el resultado numrico que se
40

obtendr ser prcticamente el mismo; en cambio, si la muestra es pequea,


entonces s es importante el usar la frmula apropiada, o sea, la correspondiente
a

(minscula).

Clculo de la variancia en datos no agrupados


Seguidamente se presentar el clculo de la variancia cuando se tiene una
muestra de n datos sin agrupar. Como ya se vio, la frmula de

es la siguiente:

Utilizando esta frmula y sacando luego la raz cuadrada, puede obtenerse el


valor de la desviacin estndar (s). Ahora se ilustra el clculo de ambas medidas a
partir de la definicin.
EJEMPLO: Para los valores: 3, 10, 2, 8, 7. Calcular

y s.

Primero se obtiene la media aritmtica:

Se recomienda hacer una tabla como la que se muestra a continuacin:

3
10
2
8
7
=30

-3
4
-4
2
1
0

9
16
16
4
1
46

41

En el ejemplo anterior, el promedio result ser un nmero entero y por lo tanto,


el cmputo de las diferencias

y su elevacin al cuadrado, fue una

labor

relativamente fcil; sin embargo, en la mayora de los casos, la utilizacin de la


frmula

, implica una serie de operaciones incmodas y largas, al tener que

elevar al cuadrado nmeros con muchos decimales. Adems, la expresin, no es


la ms apropiada cuando se trabaja con calculadora, por ello, para fines de
clculo, es preferible emplear la expresin siguiente:

A la cual se llega realizando ciertas transformaciones algebraicas en el numerador


de . Seguidamente, se repite el clculo de y s, utilizando la frmula para
clculos que se acaba de introducir:

3
10
2
8
7
=30

9
100
4
64
49
=226

42

Puede verse que los resultados obtenidos para la desviacin tpica y

la

variancia son idnticos a los hallados empleando la frmula de la pgina anterior.

EL COEFICIENTE DE VARIACIN
Una situacin corriente en la investigacin, es la necesidad de comparar dos o
ms conjuntos de datos en cuanto a su variabilidad. Si los datos estn dados en
las mismas unidades, y si los promedios de los conjuntos, es decir, la magnitud de
los datos, son bastantes similares, la desviacin estndar es una herramienta
perfectamente apropiada para realizar la comparacin.
Pero, si alguna de las condiciones antes citadas no se cumple, la desviacin
estndar, y cualquier medida absoluta de dispersin, pierde casi toda su utilidad
para este propsito.
43

Si los datos estn expresados en diferentes unidades, es obvio que no puede


compararse su variabilidad utilizando la desviacin estndar, ya que carece de
sentido comparar, por ejemplo, una desviacin estndar expresada en kg, con otra
dada en minutos o en aos luz.
Por otra parte, aun cuando los conjuntos de datos estn dados en la misma unidad
de medida, la diferencia entre sus promedios puede ser tan importante que haga
completamente inadecuada la comparacin directa de las desviaciones estndar.
Se hace necesario entonces, disponer de valores que sean independientes de las
unidades de medida y que no dependan de la magnitud general de los datos que
se consideren. Con este propsito se utilizan las llamadas medidas de dispersin
relativa, la ms importante de las cuales es el coeficiente de variacin.
El coeficiente de variacin indica la importancia de la desviacin estndar en
relacin al promedio aritmtico y cuya definicin puede representarse de la
siguiente forma:

Ntese que se da multiplicado por 100. De acuerdo con la simbologa


presentada anteriormente, se tendran las siguientes frmulas segn se trate de
una poblacin o de una muestra:
EDAD EN
2
AOS
16

ESTATURA PROMEDIO
84
160

DESVIACIN
3
ESTNDAR
5

44

Su definicin obedece a las necesidades mencionadas anteriormente de contar


con una medida independiente de las unidades y de la magnitud general de las
observaciones.
Al dividir la desviacin estndar ( medida de dispersin absoluta) entre la
media aritmtica ( medida de posicin), se eliminan las unidades1, por una
parte, y por otra, la inclusin del promedio en el divisor, permite corregir el efecto
que sobre la desviacin estndar tiene la magnitud general de los datos.
En otras palabras, si la desviacin estndar es grande porque los datos en s son
grandes, al dividirse entre la media aritmtica ese factor queda eliminado. En
cuanto a la multiplicacin por 100, no tiene otro propsito que el de amplificar el
nmero relativo y hacer ms cmodo su uso.
Ejemplo:
Los siguientes datos se refieren a estatura en centmetros de nias de 2 y 16
aos.

En trminos

absolutos es evidente que hay

mayor variabilidad en el grupo de nias de 16 aos, ya que la desviacin estndar


es mayor; sin embargo, al calcular los coeficientes de variacin se descubre que
son muy parecidos, resultando ms bien ligeramente inferior el correspondiente a
nias de 16 aos.
Debe concluirse, entonces, que la dispersin relativa en ambos grupos de nias es
muy similar.

45

CURTOSIS O APUNTAMIENTO
La curtosis mide el grado de agudeza o achatamiento de una distribucin con
relacin a la distribucin normal, es decir, mide cun puntiaguda es una
distribucin.

2.1) TIPOS DE CURTOSIS


La curtosis determina el grado de concentracin que presentan los valores en
la regin central de la distribucin. As puede ser:
Leptocrtica.- Existe una gran concentracin.
Mesocrtica.- Existe una concentracin normal.
Platicrtica.- Existe una baja concentracin.

2.2) MEDIDAS DE CURTOSIS


Medida de Fisher
Para datos sin agrupar se emplea la siguiente frmula:

Para datos agrupados en tablas de frecuencias se emplea la siguiente frmula:

Para datos agrupados en intervalos se emplea la siguiente frmula:

46

Dnde:
aritmtica;

= cada uno de los valores; n = nmero de datos; = media

= Cudruplo de la desviacin estndar poblacional; f = frecuencia

absoluta; xm = marca de clase


Nota:
Si a < 3 ? la distribucin es platictica
Si a = 3 ? la distribucin es normal o mesocrtica
Si a > 3 ? la distribucin es leptocrtica

FUENTES DE INFORMACIN:
http://www.vitutor.net/2/11/medidas_dispersion.htmlhttps://prezi.com/geb
ydqv4qeaq/medidas-de-dispersion-para-datos-agrupados/
http://www.medwave.cl/link.cgi/Medwave/Series/MBE04/4934
47

http://es.slideshare.net/Igneigna/medidas-de-dispersin-para-datos-noagrupados
http://www.ditutor.com/estadistica/medidas_dispersion.html
https://prezi.com/7sknvt40sqtc/datos-no-agrupados-y-medidas-dedispersion-no-agrupados/
http://www.monografias.com/trabajos87/medidas-forma-asimetriacurtosis/medidas-forma-asimetria-curtosis.shtml#ixzz44nqSiqMi

48

Potrebbero piacerti anche