Sei sulla pagina 1di 29

UNIDAD 2

VARIABLES
Definicin
Se podra conceptuar como algo susceptible de ser
medido o contado. Tiene cada una su correspondiente unidad de informacin,
que es aquella por la cual se identifica y la representa. Ej: para la poblacin de
un pas su unidad ser: persona; de las longitudes ser alguna perteneciente al
sistema mtrico; de igual manera con pesos; volmenes, capacidad, superficie,
etc.; otras concentran muchas variables: razas de ganado (Holando Argentino,
Shorton, Hereford, etc) sern cabezas de ganado; etc.; cosechas (Trigo, maz,
cebada, etc.) sern las bolsas, o quintales o hectreas, etc. Los datos son las
cantidades, las observaciones se hacen respecto de cada unidad.

Clasificacin:

Continua: mediciones
Cuantitativa
Discreta: conteos
Variable
Dicotmica: dos variables
ej: sexo
Cualitativa
(atributos)
Policotmica: mas de dos
variables ej: estado civil, razas
de ganado

Cuantitativa: se reconocen dos clases segn el conjunto de nmeros a los


cuales pertenezcan:
Cuantitativa Continua: pertenecen al campo de los nmeros reales, entre uno
y otro existe infinitos nmeros. Sus operaciones se encuentran dentro de la
integracin. Son reas.

Cuantitativa Discreta: Toman cifras numricas enteras positivas y/o negativas


incluido el cero. Es decir, pasa de un nmero a otro sin existir otros
intermedios. Son conteos. Se utilizan sumatorias
Cualitativa: surgen del conteo en base al agrupamiento de los atributos o
categoras de ellos.
Dicotmica: toman dos modalidades. Ej: sexo: femenino masculino.
Policotmica: toman mas de dos modalidades. Ej: estado civil: soltero
casado divorciado viudo unin consensual. Color de ojos: marrones
verdes azules etc.

MEDIDAS CENTRALES O DE CENTRALIZACIN O DE


TENDENCIA CENTRAL Y MEDIDAS DE DISPERSIN
Las podemos esquematizar con el siguiente cuadro

Medidas centrales

Medidas de dispersin

Media

Mediana

Modo o Moda

Rango

Desvo estndar

S = DS

Varianza

V = S = Var.

Antes de ingresar a ellas deberemos recordar:


Subndices: dada una serie de nmeros, el subndice determinar la posicin
del nmero. Se encuentran ubicados en la parte inferior derecha.
Ej: sea la serie

Se puede escribir

X1

X2

X3

X4

X5

Sumatoria: si deseamos representar la suma de esta serie utilizamos de


smbolo de sumatoria
Por lo tanto

X1 + X 2 + X 3 + X 4 + X 5

Se representar como

Xi

Y se leer como la sumatoria de todos los X variando i desde uno hasta 5 (en
este caso).
En forma general se escribe como

xi

Y se lee: sumatoria de todos los Xi , variando i desde 1 hasta n


Donde Xi : datos

N: la cantidad de datos

Series Simples
Se considerarn para el caso que nos ocupa, series finitas.
(estn acotadas). Es decir, que tienen una cantidad de nmeros limitada
(pocos) y que sea posible realizar operaciones no engorrosas utilizando
calculadoras.
Estn dadas entonces, por una cantidad finita de datos
estn estos ordenados o no.
MEDIDA DE TENDENCIA CENTRAL O DE CENTRALIZACIN
Siempre se debe acompaar la medida de tendencia central utilizada con una
medida de dispersin. Una medida central no explica por s misma mas que un
punto central (masa). Acompaada de una medida de dispersin explica
adems, cuanto se apartan los datos del centro. Si se concentran cerca o lejos
de l.

Media Aritmtica
es un simple promedio

Est dada por la expresin

xi

Sea la serie simple:

Aplicando la frmula precedente, la media aritmtica ser


2+3+2+1+7
X

15

=3
5

Propiedades de la media. Dos de las ms importantes son:


a) la sumatoria de los desvos con respecto a la media aritmtica
da cero.
b) la sumatoria de los desvos cuadrticos con respecto a la
media aritmtica es un mnimo.

Simetra, Asimetra y Formas posibles

Positiva
Simtrica

Negativa
Asimtrica

(Normal o de Gauss)

J forme

anti J forme

en U

Mediana
Es el parmetro central de posicin que divide a la serie en dos partes
exactamente iguales. Se la puede definir como la medida del valor central o la
semisuma de los dos valores centrales de la serie.
Los pasos a seguir son los siguientes y en este orden:
a) Ordenar la serie del valor menor al mayor o la inversa. Es imprescindible
realizarlo.
b) Posicin de la mediana Dicha posicin se obtiene por:
N+1
2
Es la ubicacin en la serie ordenada. El puesto. En este momento no se
determina el valor, solo el lugar que ocupa en la serie.
Ir a la serie ordenada y visualizar el puesto
Si es una cantidad de nmeros impar, el valor estar exactamente en el centro.
Habr igual cantidad de nmeros a la izquierda que a la derecha.
Si la cantidad de nmeros es par, el valor de la mediana ser la semisuma de
los dos valores centrales
c) obtener el valor de la mediana.
Ej:
Retomemos a modo de ejemplo la serie dada anteriormente para la media
2

orden

posicin

N+1 =
2

5+1 =
2

6/2 = 3

la posicin corresponde (la serie es impar), al tercer valor.


1

por lo tanto la mediana ser:

3
X=2

Propiedades
a) el valor de la mediana no se ve afectada por la
existencia de algunos valores o muy pequeos o muy
altos(aberrantes o espurios). No es el caso de la
media aritmtica que s es sensible a la existencia de
ellos y modifican su valor, perturbando su posicin
central. Es decir, la media se ve afectada y la
mediana no.
b) Por lo tanto, en algunos casos se proceder a elegir
la mediana como medida de tendencia central con la
desventaja de que tendremos que previamente
ordenar los datos.
c) O si elegimos la media, deberemos excluirlos de su
clculo, con la observacin al pie de que datos fueron
incluidos.
Ej: si a la serie anterior le agregaremos un nmero muy alto = 170
La serie quedara

170

Para la mediana:
La posicin ser 3,5. Como es una serie par, el valor se obtendr por la
semisuma de los dos valores centrales que en este caso son los
correspondientes al tercer y cuarto puesto dentro de la serie ordenada.
El valor de la mediana ser por lo tanto
X = 2.5
Para la media:
Como se explic anteriormente ser el cociente de la sumatoria de los valores
componentes de la serie con la cantidad de datos que la componen.
185/6 = 30.83

X = 30.83

que como se puede apreciar no representa genuinamente a la serie.


Conclusin: el mejor parmetro de tendencia central en este caso es la
mediana, como se ve el n 170 no la afecta.

Modo o Moda
En las series simples es por visualizacin. Es el nmero o nmeros que se
repite la mayor cantidad de veces.
Sea la serie presentada anteriormente:
1

el modo ser

X=2

Recapitulando hasta el momento sobre la serie dada hemos obtenido los tres
parmetros centrales:
X = 3
X = 2
X = 2
Como se puede observar, no obstante ser una pequea serie, la mediana y el
modo coinciden, no es el caso de la media en la cual se aprecia
un corrimiento hacia un mayor valor.
Podemos encontrar varias clases de modo segn sea la cantidad de
repeticiones:

Unimodal: un solo modo

Bimodal: dos modos

Multimodal: mas de dos modos


Curtosis: es el grado de achatamiento o apuntalamiento
de la curva que representa la serie.

Platocrtica

Mesocrtica
(Gauss)

MEDIDAS DE DISPERSIN

Leptocrtica

El concepto sera: cuanto se apartan los datos del parmetro de tendencia


central elegido. Por ello, toda medida central debe ir acompaada de una
medida de dispersin. Este hecho explica con mayor completitud las
magnitudes observadas con respecto a la/s variable/s en estudio.
En series simples ya se han mencionado algunos conceptos introductorios se
trata de:

Rango
O recorrido; en una serie tanto simple como en los datos agrupados est dado
por la diferencia existente entre el mayor valor y el menor.
Es una medida grosera de dispersin y habitualmente no se lo utiliza. No es
demasiado explicativo.
Sea la serie simple: 1
Ser

71 =6

Varianza
Se obtiene realizando el cociente de la sumatoria de los desvos cuadrticos de
cada uno de los valores con respecto a la media y la cantidad de valores que
poseemos.
Sea la serie simple anterior
1

y la media correspondiente a esta serie

X = 3

entonces:
(1-3) + (2-3) + (2-3) + (3-3) + (7-3)
5
4 + 1 + 1 + 16
5
Varianza = S = Var

22
5

V = 4.4

Desvo Estndar:

Es la raz cuadrada de la varianza


Si nuestra varianza es 4.4 el desvo ser:
4.4

ajustado a un decimal

2.098

S = 2.1

X
X
X
-3

-2

-1

S = 68.27%
2 S = 95.45%
3 S = 99.73%

Siendo la raz cuadrada de la varianza , en el ejemplo = 2.1, en mas menos un


desvo se encontrar el 68.27% de los datos. Cuanto mayor sea la magnitud
del desvo mas dispersos se hallarn los datos con respecto a la media o
parmetro central que se haya elegido, en el razonamiento inverso se hallarn
mas concentrados alrededor de la media.
Siendo la X = 3 y S = 2.1
3
2.1 = (1.1 ; 5.1) con el 68.27% de igual
manera con respecto a dos y tres desvos con sus correspondientes
porcentajes.

Datos Agrupados
Hasta el momento se han desarrollado y obtenido los
parmetros centrales y de dispersin en series simples. No es habitual que se
tengan tan pocos datos como los que antecedieron, por lo tanto entraremos en
la operatoria cuando, de manera mas real, poseemos mayor cantidad de datos.
Introduccin: La operacin mediante la cual se inicia el trabajo estadstico es
el relevamiento o captacin de datos. Es el contacto con la realidad de lo que
queremos conocer que es susceptible de ser medido o contado.
Es la correlativa experimentacin que proporciona el material necesario para
poder realizar posteriormente el anlisis estadstico. Es importante efectuar el
relevamiento lo mas cuidadosamente posible, en ello reside el cimiento de todo
resultado exitoso. Cualquier error, imprecisin u omisin (los hay en todo
momento: en la confeccin del formulario, en la deficiente instruccin de los
encuestadores, en el conteo, en el agrupamiento, etc.) proveniente de la
captacin y/o manejo de los datos influir en los resultados finales.
Por todo ello es necesario que la poblacin est
inequvocamente definida en espacio y tiempo. As surge la necesidad de fijar
con precisin el territorio y la fecha de realizacin del trabajo estadstico. Esta
ltima es particularmente importante en el caso de trabajo censal, de manera
que todos los datos sean referidos a esa fecha (el censo de poblacin se
realiza en un da determinado en todo el territorio nacional) o en un perodo
(Censo Econmico y Censo Agropecuario) de manera que todos sean referidos
a esos tiempos y territorio, ya que el carcter dinmico de muchos atributos
que los censos contienen hace necesaria esa referencia.
Organizacin de la masa de datos
Una vez obtenido los datos necesarios y realizadas las
observaciones de todas las unidades contenidos en ellas, estamos en
presencia de una gran masa de datos en bruto, los cuales rara vez son
significativos sin organizacin ni tabulacin. Se comenzar presentando un
procedimiento sencillo para mejorar una informacin no organizada.
Tenemos una gran cantidad de datos desorganizados
deberemos conformarlos de manera tal que podamos obtener los resultados
visualizados para cumplir el objetivo.
Para lograr el orden conveniente los agrupamos en clases
con el intervalo adecuado, las cuales por convencin no son menos de 5 ni
ms de 20 (salvo mejor opcin).
La manera de proceder, en general:
-

orden.
observar la magnitud de los valores. Es til obtener en este momento el
rango o recorrido.
Comenzar con un agrupamiento en clases tentativo. Para lo cual se habr
determinado el intervalo de clase y sus lmites. Uniforme para todas las
clases o no. El agrupamiento correcto ser aquel que al trazar el
Histograma o Polgono de Frecuencias se concrete una forma campanular y
no posea clases vacas (cero).

Se construye la distribucin de frecuencias contando para cada clase la


cantidad de valores que en ella caen.

Supongamos por ejemplo que hemos contado los


aspirantes atendidos en una oficina de ingreso de personal, por un lapso de 20
das la cual cuenta con tres entrevistadores y cada uno de ellos 5 horas de
trabajo. Tendremos 20 datos, los cuales por supuesto no son una gran masa de
datos, pero en este caso servir a modo de ejemplo para desarrollar conceptos.
30
17
26

11
30
13

42
29
21

8
21
36

30
23

18
25

25
15

25
35

Estas observaciones no tienen significado a menos que se


organicen adecuadamente. La forma mas sencilla de organizar los datos en
bruto es formar un arreglo, es decir, colocar las observaciones en orden de su
magnitud, visualizando el nmero menor y mayor.
Probamos utilizando el rango: R = 42 - 8 = 34 nos puede dar indicativamente
la amplitud que deberamos utilizar para obtener la cantidad de clases que no
sean menores a 5 o mayores de 20, (no es exacto, sino solamente
aproximado).
rango
Ancho o amplitud del intervalo =
Nmero de clases tentativas
Si tentativamente desease 5 clases reemplazo

Amplitud = 34/7 = 4.571


clases

Amplitud = 34/5 = 6.8

Con una amplitud 7 obtendra 5 clases


5 anlogamente con amplitud 5 obtendra 7

Un orden, confeccionando en principio un arreglo ascendente tentativo, podra


ser el obtenido en primer lugar, es decir, 5 clases con amplitud de 7. Si a su vez
trato de centrar el menor valor en el medio de la primera clase:
5 a 11
8
11

12 a 18
18
17
15
13

19 a 25
25
25
25
21
23
21

26 a 32
30
30
30
29
26

33 a 39
36
35

40 a 46
42

Si invertimos esta tabla-arreglo y tomamos las columnas de


nmeros, ya su forma se aproxima a una campana.
Se habrn determinado entonces:
Nmero de Clases: 6
Intervalo de Clase: 7, siendo todas ellas de igual tamao.
No existe ninguna clase desierta.
Si aceptamos entonces, este agrupamiento, podemos construir la distribucin
de frecuencias.
Distribucin de Frecuencias
La mejor forma de analizar los datos masivos es agruparlos en clases.
Las clases son divisiones con amplitudes o intervalos establecidas en forma
conveniente.
En resumen: una distribucin de frecuencias es una tabla de resumen en
la que los datos se agrupan en clases o categoras ordenadas en forma
numrica, establecidas de modo conveniente.
Cuando los datos se agrupan o condensan en tablas de distribucin de
frecuencias, el proceso de anlisis e interpretacin de datos se vuelve mucho
mas manejable y significativo. En esa forma resumida, se logra una
aproximacin muy fcil a las caractersticas de los datos salientes, lo cual
compensa el hecho de que, cuando los datos se agrupan de ese modo, la
informacin inicial perteneciente a observaciones individuales que estaba
previamente disponible, se pierde en el curso del proceso de agrupamiento o
condensacin. Como consecuencia de este ltimo concepto las variables
cuantitativas discretas y cualitativas reciben tratamiento de continuas.
Se perder la identidad de los valores individuales, se los ha condensado
dentro de cada clase para ser representados por la marca de clase o punto
medio.
El punto medio o marca de clase es el valor representativo de los datos de esa
clase. Se determina su valor mediante y dentro de los lmites de las clases por:
Ls - Li
+

Li

2
Se lo puede indicar con el smbolo X, o simplemente en adelante x i
Por lo tanto, la distribucin de frecuencias es en realidad, una tabla resumen en
la cual se condensan o agrupan los datos originales para facilitar el anlisis de
los datos.
La construccin ser, retomando el ejemplo dado:

Clases
5 11
12 18
19 25
26 32
33 - 39
40 46

Frecuen
cias (fi )
2
4
6
5
2
1
N=
20

Donde:
N = cantidad de datos totales.
fi = cantidad de datos de cada clase
En la construccin de esta tabla se observ que:
1. Debimos seleccionar el nmero de clases apropiado.
2. Obtener un intervalo de clase o ancho o amplitud para cada clase.
3. Establecimos los lmites de clase evitando superposiciones (es decir, que
un dato pueda ser contado en mas de una clase).
1.- Nmero de Clases: dependen en forma primordial del nmero de
observaciones, es decir, cuanto mayor es el nmero de datos tanto mayor
podra llegar a ser el nmero de clases (mas de 5 pero menos de 20 25). Si
no hay suficientes clases habr demasiada concentracin de datos y si son
muchas existiran posiblemente clases vacas y/o datos desperdigados. En
ambos casos extremos se obtiene poca informacin.
2.- Intervalo o Amplitud o Tamao de Clase: al desarrollar la tabla de
distribucin de frecuencias, es deseable (pero no imprescindible) que todas las
clases tengan el mismo tamao. Para determinar el ancho de las clases, el
recorrido o rango puede ser til (el nmero mayor menos el menor),
dividindolo por el nmero de clases que proponemos.
A medida que consideramos un menor nmero de clases, el ancho del intervalo
se hace ms grande y viceversa.
3.- Establecimiento de los lmites de clase: es necesario establecerlos con
claridad, a fin de que las observaciones se puedan contar en el agrupamiento
correcto evitando superposiciones.
En una clase cualquiera se distinguen dos lmites: el lmite inferior y el
lmite superior. Entre el lmite inferior de una clase y el lmite superior de la
clase que la antecede existen infinitos nmeros.
Cuando contamos datos enteros este concepto no es significativo y el
nico cuidado que se debe tener es que esos dos lmites mencionados no
posean el mismo nmero.
Pero si nuestras magnitudes son mediciones, los datos provenientes de
ellas sern decimales (campo numrico real). En este caso el concepto de

infinitos nmeros entre el lmite inferior de la clase y el superior del que la


antecede es importante. Deberemos establecer por ajuste de decimales, o el
cual convenga, a cual pertenecern los datos sin lugar a duras.
En el caso de la primer clase del ejemplo, el lmite inferior de la primer
clase es 5 y el lmite superior 11. El lmite real inferior ser 5,00 y el superior
11,99
Ajuste de datos: el nmero 46,8365
redondeo al centsimo ser: 46,84
al dcimo
46,8
al milsimo
46,836 46,837
segn se haya
instituido si el 5 aumenta 1 milsimo el nmero o lo deja como est.
Generalmente se opta por la primera.

Grficos para presentacin y anlisis de distribuciones de


frecuencias
Histograma y Polgono de Frecuencias: Son los grficos especiales y
especficos para representar las distribuciones de frecuencias. Representan
reas o superficies, este significado es el que los diferencia de los grficos
comunes y va ntimamente unido al concepto de representatividad que el
agrupamiento en clases realiza de los datos en conjunto.
Histograma
Es en su forma un grfico de barras verticales, sin separacin
entre ellas. Al trazarlas, la variable o fenmeno de inters se representa a lo
largo del eje horizontal (x) y en el vertical (y) la cantidad de observaciones.
Con este grfico no se pueden comparar dos o ms conjuntos de
datos agrupados, la superposicin de las barras ocasionara dificultades en la
interpretacin.
La forma de este grfico tratar de asemejarse a una campana
(con intensin de que se acerque a la forma de la curva normal o de Gauss.
Si los intervalos de clases son iguales la base tendr para cada una de las
barras igual longitud sobre el eje horizontal y la altura ser la frecuencia de la
clase.
Si los intervalos de clase no son iguales, la longitud de la base representada en
eje x, ser proporcional al tamao de ellas entre s.
Ya se ha convenido que el conjunto de barras que componen el
histograma es una superficie. Dado que cada barra es un rectngulo, por lo
tanto su superficie ser el resultado de:
Utilizando la distribucin de frecuencias del ejemplo, su histograma ser:

8fi
5-

15

12

19

26

33

40

47

clases

Polgono de Frecuencias:
Al igual que en el histograma, al trazar el polgono el
fenmeno de inters se representa a lo largo del eje horizontal y las
frecuencias en el vertical. Se forma al hacer que la marca de clase o punto
medio de cada clase represente los datos de esa clase y luego se conectan
entre si de forma lineal.
Es lineal en su construccin pero es una superficie.
Se puede usar para comparar dos o tres distribuciones de frecuencias siempre
que la estructura de ellos sea semejante.
No se construye un polgono de frecuencias a partir y sobre el histograma de
una nica distribucin de frecuencias.
De igual forma que la anterior ejemplifica

8fi

5-

15

12

19

26

33

40

47

clases

Medidas de Centralizacin para datos Agrupados

El agrupamiento de datos en distribuciones de frecuencias


conlleva la formulacin de frmulas adecuadas a l.

Media Aritmtica

fi xi

Se leer como: la sumatoria de las marcas de clase multiplicadas por la


frecuencia de cada clase y dividida por la cantidad de valores que poseemos.
Donde:

Xi : marcas de clase
fi : frecuencias de clase
N : cantidad de datos

Se obtiene de la siguiente forma. Volviendo a nuestro ejemplo:


Clases

fi

Xi

f i xi

5 11
12 18
19 25
26 32
33 39
40 - 46

2
4
6
5
2
1
20

8
15
22
29
36
43

16
60
132
145
72
43
468

X = 468/20 = 23.4

X = 23.4

Valor que no sorprende, si visualizamos la tabla de distribucin este valor de


media se encuentra contenido en la tercer clase y es donde se encuentra la
mayor frecuencia.
Frecuencias acumuladas
Aqu debemos introducir otro concepto que es el de
las frecuencias acumuladas las cuales se pueden confeccionar con valores
absolutos y/o relativos.
Se obtienen sumando acumuladamente las frecuencias de cada fila ms la
anterior.
Estos conceptos sern de utilidad para obtener el siguiente parmetro central

Mediana

N/2 - fax
Li +

c
fx

Donde:

Li = lmite real inferior de la clase que contiene a la mediana


N = cantidad de datos
fax = frecuencia acumulada anterior de la clase que contiene a la

mediana.
fx = frecuencia de la clase a que contiene a la mediana
c = intervalo de clase que contiene a la mediana
Siendo nuestra distribucin de frecuencias ejemplo con sus frecuencias
acumuladas,

Clases

fa

5 11

12 18

19 25

12

26 32

17

33 39

19

40 46

20

20

Se siguen los siguientes pasos:


1. Se obtiene la posicin para determinar que clase la contiene, por N + 1
2
21/2 = 10.5 ubicacin de la mediana
2.

Se ubica que clase contiene en mayor o igual esa cantidad entrando a la


tabla por la columna de las frecuencias acumuladas (flecha).
Ser la tercera clase (19 - 25) con fa. = 12 (ya que la anterior solo contiene
6 datos acumulados en sus frecuencias).

3.
4.
5.
6.

La (fax ) es la referencia a la fa. anterior a la clase de la mediana, es = 6.


Observo el intervalo de clase que contiene la mediana. = 7. ( Ls Li + 1)
El lmite real inferior de la clase de la mediana = 19.
(fx) es la frecuencia de la clase donde se ubica la mediana.

Reemplazo en la frmula:

20/2
X =

19

X = 23,67

7
6

Mtodo grfico para obtener la mediana, es solamente indicativo, no es


exacto, pero en algn momento nos puede resultar de utilidad.
Sobre el eje cartesiano se representa una de las frecuencias acumuladas
porcentuales de menos que: o mas que: . Se traza una paralela al eje x
hasta cortar la curva y luego una perpendicular desde ese punto de
interseccin hasta el eje x donde se representan las clases, de la siguiente
manera:

20 -

Clases

fi

fa
menos
que

fa
mas
que

5 11
12 18
19 25
26 32
33 39
40 46

2
4
6
5
2
1
20

2
6
12
17
18
20

20
18
14
8
3
1

fa
10 -

12

19

26

33

40

47

clases

Modo

X =

1
Li +

Donde: Li = Limite inferior real de la clase con mayor cantidad de frecuencias

1 = Diferencia absoluta entre la frecuencia de la clase modal y la anterior.


2 = Diferencia absoluta entre la frecuencia de la clase modal y la siguiente.
c = amplitud de la clase modal (la clase que tiene la mayor cantidad de frecuencias)
siguiendo los siguientes pasos:
1. Visualizo la clase con mayor cantidad de frecuencias (clase modal), en este
caso la 19 25, y determino su lmite real inferior = 19
2. Realizo las diferencias existentes entre la frecuencia de la clase modal y las
frecuencias anterior a ella y siguiente.
3. Reemplazando en la frmula dada y utilizando el mismo ejemplo:
Clases

fi

5 11
12 18
19 25
26 32
33 39
40 - 46

2
4
6
5
2
1
20

2
X = 19 +

7
2 + 1

X = 23,67

Una forma grfica de obtenerlo es utilizando el histograma con las barras de


mayor frecuencia, anterior y posterior.

6 -

2
N

R
fi

4 -

2 -

12

19

26

33

clases

Trazo una recta de R a Q y otra de M a N cruzndose en P.


Por ese cruce comienzo a trazar una perpendicular al eje x.

A partir de este razonamiento y por tringulos semejantes, parte el desarrollo


para obtener la frmula utilizada.
Resumen Medidas Centrales
X = 23.4
X = 23.7
X = 23.7

Como era previsible ya sea por la conformacin de la tabla de frecuencias, por


la forma tanto del histograma como del polgono de frecuencias y por la
obtencin grfica de mediana y modo; numricamente se ha corroborado que
se trata de una poblacin de conformacin casi simtrica. Los parmetros
centrales se ubicarn: la mediana y el modo en la cspide y la media casi
imperceptiblemente corrida.
Relacin til:
Cuando no poseemos los tres parmetros centrales (no es menester tenerlos,
solamente poseemos dos y la distribucin es simtrica o levemente asimtrica.
Una relacin de utilidad para obtener el tercero faltante ser:

X - X = 3(X - X)

Medidas de Dispersin para datos Agrupados

Rango:
De igual forma que para las series simples es la diferencia entre el
mayor valor y el menor de los datos. En datos agrupados se ha visto que se
puede utilizar para la bsqueda de la cantidad de clases para confeccionar una
distribucin de frecuencias considerando segn tamao del intervalo.

Rango = Mayor Valor - Menor Valor


de la serie

Varianza

fi (xi - x)
Var = S = V

Donde:

fi = frecuencias
Xi = punto medio o marca de clase.
x = media aritmtica de la distribucin.
N = cantidad de datos o sumatoria de las frecuencias.

Recordemos que en nuestro ejemplo X = 23.4


Desarrollaremos la siguiente tabla de trabajo secuencial:
Clases

fi

xi

xi - x

(xi - x)

fi(xi - x)

5 11
12 18

2
4

8
15

-15.4
-8.4

237.16
70.56

474.32
282.24

19 25
26 32
33 39
40 - 46

6
5
2
1
20

22
29
36
43

-1.4
5.6
12.6
19.6

1.96
131.36
158.76
384.16

11.76
156.8
317.52
384.16
1626.8

V = 1626.8 /20 = 81.34


V = 81.34
Otra forma de obtenerla es mediante la expresin
V

x - (x)

Se lee como la diferencia de la media de los cuadrados menos el cuadrado de


la media.
Clases

fi

xi

(xi)

fi (xi)

5 11
12 18
19 25
26 32
33 39
40 - 46

2
4
6
5
2
1
20

8
15
22
29
36
43

64
225
484
841
1296
1849

128
900
2904
4205
2592
1849
12578

Siendo la x = 23.4 (23.4) = 547.56


V = 12578/20 - 547.56 = 81.34

V = 81.34

Igual valor al obtenido anteriormente.


Desvo Estndar:
Se obtiene como la raz cuadrada de la varianza. O
aplicando la forma:
fi (xi - x)
N
La varianza del ejemplo tiene valor 81.34 por lo tanto su
desvo ser igual
S = 9.02

Es decir nueve unidades y media de corrimiento con respecto al valor central


de la media.
Propiedades
a)

Sea a un promedio distinto de la media aritmtica, de todas las


desviaciones, la mnima es aquella para la que a = x, esta propiedad es
la que suministra una razn de peso para definir la desviacin con la
frmula que se ha presentado anteriormente.
b) Para las distribuciones normales resulta que:
i. 1.- el 68,27% de los casos estn comprendidos entre x S
ii. 2.- el 95,45%

entre x 2S
iii. 3.- el 99,73%

entre x 3S
c) c) Suponiendo dos series de datos de N 1 y N2 nmeros (o dos
distribuciones de frecuencias con frecuencias totales N 1 y N2 ) cuyas
variaciones vienen dadas por S 1 y S2 , respectivamente, y que tienen
la misma media. Entonces, la varianza combinada para ambas series (o
ambas distribuciones de frecuencia) est dada por:
N1 S1
S

+ N2 S2

=
N1 + N2

Resumen Medidas Centrales y de Dispersin:


X = 23.4, X y X = 23.7

V = 81.34 S = 9.02

Entonces a lo ya comentado podemos agregarle los desvos con sus


correspondientes porcentajes, por lo tanto en nuestra distribucin ejemplo.
X S

(23,4 + 9.02 ; 23,4 - 9.02) = (32.42 ; 23.4)

Da el intervalo donde se concentrar el 68.27% de los valores reales que ser


el comprendido por todos aquellos entre 32.42 y 23.4

Otras Medidas de Tendencia Central


Cuartiles, Deciles y Percentiles
Si una serie de datos se colocan en orden de magnitud, el valor medio (media
aritmtica) que divide al conjunto de datos en dos partes iguales es la mediana.
Por extensin se puede dividir el conjunto ordenado en cuatro partes iguales,
representados por Q1 , Q2 y Q3 se llaman primero, segundo y tercer cuartil. (el
segundo cuartil es la mediana).
Anlogamente, si los valores ordenados se dividen en diez partes iguales se
llaman deciles y se representan por D1 , D2 , .............. , D9
Si los valores se dividen en cien partes iguales se llaman percentiles y se
presentan como P1 , P2 , .............. , P99
El quinto decil y el quincuagsimo percentil coinciden y se corresponden con la
mediana, junto con el segundo cuartil.
X = Q2

D5

P50

y
P25 y P75

se corresponden con el Q1 y Q3

Las frmulas por las cuales se obtienen son similares a la de la mediana, ya


que su principio de orden es el mismo, solo se diferencia en el trmino N/2, si
lo cambisemos a uno mas general como:
Cuartiles:

qN/4

Deciles:

dN/10

Cuartiles

Percentiles: pN/100

Deciles

qN/4 - faq
Li +

dN/10 - fad
c

Li +

fq

fd

Percentiles

pN/100 - fap
Li +

c
fp

Otras Medidas de Dispersin

Rango Semiintercuartlico o Desviacin cuartlica


De una serie de datos se define por
Q

Q3

- Q1

desviacin cuartlica o rango semiintercuartlico

2
Donde

Q3

y Q1 son el tercer y primer cuartil de los datos.

El rango intercuartlico Q3
- Q1 se emplea a veces, pero el rango
semiintercuartlico es ms utilizado como medida de dispersin.
Rango entre Percentiles 10-90
Viene definido por
Rango percentil 10-90

P90 - P10

Donde P10 y P90 son los percentiles dcimo y nonagsimo.


Tambin puede emplearse el rango semipercentil 10-90, aunque se empleo
no es corriente
P90 - P10
2
Coeficiente de Variacin
Si la dispersin absoluta es S y x es la media, entonces la dispersin relativa
se conoce como coeficiente de variacin o coeficiente de dispersin, dado por:

S
x

y est generalmente expresado como porcentaje. El coeficiente de variacin es


independiente de las unidades utilizadas. Por esta razn es til para comparar
distribuciones donde las unidades pueden ser diferentes. Un inconveniente del
coeficiente de variacin es que deja de ser til cuando x est prxima a cero.

Variable normalizada, Referencias Tipificadas


X - X
z =
S
Mide la desviacin de la media en unidades de desviacin se llama variable
normalizada o tipificada y sus cantidades son adimensionales (es decir,
independientes de las unidades empleadas).
Si las desviaciones de la media vienen dadas en unidades de desviacin, se
dice que estn expresadas en unidades tipificadas o referencias tipificadas.
Son de gran valor en la comparacin de distribuciones.

Sesgo y Curtosis
Sesgo
Es el grado de asimetra, o falta de simetra, de una distribucin. Si la curva de
frecuencias (polgono de frecuencias suavizado) de una distribucin tiene una
cola mas larga a la derecha del mximo central que a la izquierda, se dice de
la distribucin que est sesgada a la derecha o que tiene sesgo positivo. Si es
al contrario, se dice que est sesgada a la izquierda o que tiene sesgo
negativo.
En distribuciones sesgadas, la media tiende a situarse con respecto al modo al
mismo lado que la cola mas larga. As, una medida de la asimetra viene dada
por la diferencia (media modo). Esta medida puede adimensionarse,
dividindola por una medida de dispersin, tal como el desvo:
media - modo

X - X

Sesgo =

=
desvo

se puede evitar el empleo del modo utilizando:


3(media - mediana)

3(X - X)

Sesgo =

=
Desvo

Tambin se pueden obtener a travs de los cuartiles y de los percentiles, con


las siguientes frmulas:
Q3 - 2Q2
Coeficiente de sesgo cuartlico

+ Q1

=
Q3

- Q1

P90

- 2P50

P10

Coeficiente de sesgo percentlico 10-90 =


P90 - P10
Curtosis o kurtosis
Es el grado de apuntalamiento de una distribucin, normalmente se toma en
relacin a la distribucin normal. Una distribucin que presenta un
apuntalamiento relativo alto se llama leptocrtica, mientras que si es achatada,
se llama platocrtica. La distribucin normal no es ni lo uno ni lo otro, se llama
mesocrtica.
Se emplean tambin para obtener esta medida los cuartiles y percentiles:
Q
coeficiente de curtosis percentlico

=
P90 - P10

donde Q es el rango semiintercuartlico Q = (Q3


Para la distribucin normal vale 0.263.

- Q1 ).

Demostracin de la formula utilizada para el Modo

6 -

1
fi

Q
N

R
4 -

2 -

12

Li x U s
19
26

33

clases centrales

1. Tomemos las tres clases centrales las cuales poseen las mayores
frecuencias del histograma de nuestro ejemplo
2. Trazamos MN y RQ, se cortan en P.
3. La perpendicular al eje x determina la posicin del x dentro del grfico.
4. Se fijan el Li y Us como lmites inferior y superior de la clase modal.
5.
1 y 2 son las diferencias con las clases anterior y posterior a la
modal.
6. Se han determinado dos tringulos semejantes MPR y QPN.
7. Trazo la altura:

8.

EP
MR

PF
QN

x - Li

Us - x

9. 2 (x - Li ) =

1 (Us - x) aplic. distributiva

10. 2 x - 2 Li = 1 Us - 1 x
11.

EP = x - Li
PF = Us - x

2 x + 1 x = 1 Us + 2 Li

agrupando y pasando trminos

sacando factor comn x

12. (2 + 1 ) x = 1 Us + 2 Li

despejando x

1 Us + 2 Li
13.

x =
( 2 + 1 )

14.

como Us = Li + c

y siendo c = amplitud de clase

entonces:

1 (Li + c) + 2 Li
x =
(2 + 1 )

1 Li + 1 c + 2 Li
x =

saco factor comn


(2 + 1 )
Li (1 + 2 ) + 1 c

x =

2 + 1

Li (1 + 2 ) + 1 c
x =

separo en dos trminos

2 + 1
Li (1 + 2 )
x =

1 c
+

2 + 1

simplifico y saco c afuera del segundo trmino

2 + 1

1
x =

Li

2 + 1
Queda demostrada la frmula utilizada a partir del histograma.

Potrebbero piacerti anche