Sei sulla pagina 1di 50

ESTADSTICA CAPITULO 1

Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 1
Universidad de Chile
E c o n o m a & N e g o c i o s


ESTADISTICA DESCRIPTIVA


1.1. Qu es la estadstica?

Como la mayora de los lectores se saltan el captulo de introduccin sobre todo si se trata de
un libro tcnico, es tentador en este caso contestar a la pregunta del ttulo con Estadstica es
lo que hacen los estadsticos
1
y pasar inmediatamente al siguiente punto. Sin embargo,
esto podra ser valido como una respuesta siempre y cuando, dicho punto aborde las funciones
de un analista de procesos estocsticos, funcin que por lo general es muy difcil de explicar,
por la gran variedad de aplicaciones que tiene la estadstica dentro de las diferentes funciones
profesionales.

Los cursos de estadstica obligatorios suelen tener mala fama. Desde hecho inscribirse en un
curso de este tipo tiene tanta popularidad como las leyes que regulan la edad mnima para beber
y la obligacin de llenar la encuesta docente. En parte, esta reputacin es merecida. Los
conceptos que se manejan no son siempre fciles de asimilar en primera instancia, y se necesita
un gran esfuerzo para mantener actualizado cualquiera de los temas de un curso. Otro factor
que suele darle mala fama a la estadstica es que al ensearla se siga un proceso mecanizado, que
por lo general resulta ser el mismo que ha recibido el educador, el cual plantea diversos
ejemplos donde el alumno no enfrenta el problema, ste se encuentra planteado, por ende ya
est resuelto, y lo nico que se debe hacer es utilizar mtodos matemticos para encontrar un
determinado valor. Este procedimiento suele tomarle un menor esfuerzo al educador y mucho
tiempo para que el alumno pueda comprender el uso de los conceptos estadsticos, lo cual
resulta en una frustracin.

Un grupo de personas que utiliza estos procedimientos encuentra que la estadstica es una
herramienta que en la medida que avanza el tiempo se hace ms importante. En la actualidad se
han perfeccionado varios de los instrumentos que son utilizados para encontrar valores, sin
embargo, esto hace que el educador fuerce el uso de computadores y anlisis de problemas
sobre la base de su planteamiento, lo cual toma mayor esfuerzo al educador y al alumno, sin
embargo, este ltimo requiere menos tiempo en dominar los conceptos estadsticos, lo que
podramos llamar el aprender con la experiencia.

Lo que llama la atencin es la diversidad de problemas en los cuales se ven envueltos los
estadsticos. Esta actividad invade prcticamente todo los aspectos de la empresa y la economa,
por ello es importante que los conceptos tengan connotacin general, explicando claramente

1
En este caso la palabra estadstico esta siendo utilizada para referirse a una persona que hace anlisis estadsticos, o tambin
analista de procesos estocsticos, condicin que puede ser atribuida a un sin fin de profesionales, pero el lector debe tener
presente que estadstico tambin corresponde a un indicador o instrumento con propiedades de incertidumbre.
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 2
por qu queremos hacerlo, qu buscamos hacer y cmo lo vamos a hacer, lo cual requiere
manejar ciertos fundamentos matemticos o procesos algebraicos, esto hace ms fcil al
investigador o usuario de la estadstica responder al por qu, el qu y el cmo, por eso aunque
muchos descartan las matemticas como elemento importante dentro de la estadstica, la
experiencia nos ha mostrado que las mejores respuestas son las que se fundamentan sobre
fuertes pilares y uno de los ms importantes es el buen uso de las matemticas, esto criticando
principalmente el uso mecanizado.

1.1.2. Cmo sacar conclusiones de la informacin numrica.

Cualquier administrador, trabajando en un entorno de negocios, requiere toda la informacin
disponible sobre las caractersticas de dicho entorno. En la era moderna, gracias en parte, a la
capacidad de almacenamiento masivo de informacin de los sistemas informticos, un gran
porcentaje de la informacin disponible es cuantitativa. Por ejemplo, puede ser necesario
asimilar los movimientos de los tipos de inters, oferta de dinero o desempleo. Se hacen
estudios de mercado para determinar la demanda de productos. Un auditor debe ocuparse del
nmero y la importancia de los errores contables. Un director de personal puede utilizar los
resultados de un test de aptitud, para complementar la informacin subjetiva de los candidatos
a un empleo. La lista es interminable.

Las caractersticas comunes de estos ejemplos son que la informacin que se va a utilizar es
numrica, y que presentada en forma de lista de datos, es virtualmente imposible de aprovechar
en su totalidad. El trabajo de un estadstico es extraer y sintetizar las caractersticas
fundamentales de una coleccin grande de datos numricos. Un objetivo es el de intentar que la
informacin tenga sentido, resumindola de tal forma que pueda obtenerse una idea general a
primera vista, sin perder demasiada informacin.

En el anlisis y sntesis de datos numricos se ven envueltas muchas variables. El mtodo ms
apropiado depender de la naturaleza de los datos y de cmo se van a utilizar los resultados. En
algunas circunstancias, ser conveniente utilizar la artillera pesada de las tcnicas formales tal y
como se detallar en la medida que profundicemos dentro de la materia. En otras ocasiones, un
estudio sencillo o un grfico sern suficientes, este tipo de estudio, en cualquier caso, puede
servir de punto de partida para anlisis ms profundos.

1.1.3. Cmo manejar la incertidumbre

Una segunda forma de contestar a la pregunta formulada al comienzo de este captulo es La
estadstica es la ciencia de la incertidumbre. En estadstica, no trabajamos con preguntas del
tipo qu es, sino con preguntas como qu podra ser, o qu es probable que sea.
Considerando las siguientes afirmaciones:

El precio de la accin de IANSA dentro de seis meses ser ms alto que hoy

Si el dficit en el presupuesto fiscal es tan alto como se previ, los tipo de inters
permanecern altos el resto del ao

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 3
Si hacemos una oferta de este nivel, ser ms baja que la de nuestros competidores y nos
aseguraremos el contrato

La mejor opcin para mejorar la situacin de este producto en el mercado de acciones es la de
realizar una campaa de publicidad dirigida a jvenes entre 18 y 25 aos de edad

Cada una de las afirmaciones anteriores contienen un lenguaje que da una sensacin de falsa
seguridad. En el momento en que se realizaron, no haba forma de estar seguro de su veracidad.
Aunque un analista pueda pensar que el desarrollo en los prximos meses va a ser tal que las
acciones de IANSA subirn en ese perodo, no puede tener la certeza de que sea as. Luego,
desde un punto de vista semntico, las frases anteriores deberan modificarse, por ejemplo
como se indica a continuacin:

El precio de la accin de IANSA dentro de seis meses ser posiblemente ms alto que hoy

Si hacemos una oferta de este nivel, es probable que sea ms baja que la de nuestros
competidores y nos aseguraremos el contrato

No obstante, nuestra preocupacin por la incertidumbre no es solamente semntica. Todo lo
que hemos hecho ahora, es sustituir afirmaciones precisas que no podamos garantizar, por
otras innecesariamente vagas. Despus de todo, qu queremos decir con es probable? Las
frases, una vez modificadas, pueden interpretarse como que es ms fcil que los sucesos de
inters se cumplan frente a que no lo hagan. Sin embargo, el espaol es un lenguaje rico en
palabras que denotan incertidumbre, y algunas de ellas sugieren una escala desde lo imposible
hasta lo seguro. Aun as, el lenguaje no es suficiente para dar una descripcin satisfactoria del
grado de incertidumbre asociado a un suceso. Necesariamente una estructura ms formal con
este fin.

1.1.4. Muestreo

Antes de introducir un nuevo producto en el mercado, un fabricante quiere tener cierta idea de
la demanda que cabe esperar de dicho producto, para ello puede llevarse a cabo un estudio de
mercado. Al fabricante lo que le interesa realmente es la poblacin de posibles compradores.
No obstante, es prohibitivo, econmicamente hablando, cuando no completamente imposible,
contactar en un estudio de mercado con cada miembro de la poblacin. Ms bien, se contactar
con un pequeo subconjunto, o muestra, de los individuos de la poblacin, y las conclusiones
que se obtengan sobre la poblacin se basarn en la informacin obtenida de la muestra.

La tcnica de muestreo en grandes poblaciones se utiliza habitualmente en el campo de la
administracin de empresas. Por ejemplo, se decide si un proceso de produccin est
funcionando correctamente basndose en la calidad de una muestra de sus productos. Tambin
una auditoria de contabilidad se basar en una muestra de todas las cuentas.

Cuando tenemos informacin sobre una muestra de una poblacin, es relativamente fcil
resumir los datos muestrales. No obstante, el muestreo es solamente un medio, no un fin en s
mismo. El objetivo no es llegar a conclusiones sobre la muestra, sino sobre la poblacin a la que
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 4
pertenece dicha muestra. De esta forma, un problema importante que se le presenta a un
estadstico es decidir hasta qu punto es posible generalizar los resultados obtenidos en una
muestra a toda la poblacin.

Por supuesto, si tomamos una muestra, no podemos conocer con precisin las caractersticas de
la poblacin. Por ejemplo, supongamos que tomamos una muestra de asientos contables y
resulta que el 8,2% de ellos contiene algn error. De este hecho no puede deducirse que
exactamente el 8,2% de todos los asientos contables tenga errores. Sabremos algo ms de este
porcentaje en la poblacin, pero no conocemos exactamente su valor. Todava quedar cierta
incertidumbre. Por tanto, al hacer inferencia sobre la poblacin basndose en una muestra,
cualquier conclusin que se obtenga tendr que ser expresada con lenguaje de incertidumbre,
como se discuti en el punto anterior.

1.1.5. Cmo analizar relaciones.

Influye el crecimiento de oferta de dinero en la inflacin?

Si FORD incrementa un 5% el precio de sus modelos de tamao medio, cul ser el efecto
en las ventas de estos automviles?

Cmo deben considerarse las empresas cuyos dividendos representan un porcentaje alto de su
flujo de caja, de alto o de bajo riesgo?

Son los servicios ms rentables en reas en las que gozan de un monopolio local que en
reas en las que estn sujetos a competencia?

Afecta un legislacin de salario mnimo al nivel de desempleo?

Cada una de estas preguntas tiene que ver con la posibilidad y naturaleza de una relacin entre
dos o ms variables de inters. Por ejemplo, por dnde podramos empezar para contestar la
pregunta sobre efectos en la demanda de automviles de un incremento del 5% en el precio? La
teora econmica nos dice que, a igualdad del resto de factores, un incremento en el precio
conllevar un descenso en la demanda. No obstante, esta teora es puramente cualitativa. No
nos dice en cunto descender la demanda. Las teoras basadas en el conocimiento subjetivo son
muy tiles para sugerir los factores que influyen en las cantidades de inters, como la demanda
en este caso. Para ir ms all, debemos obtener informacin cuantitativa que informe de cmo
la demanda ha respondido a cambios en el precio en el pasado. Basaramos, entonces, nuestra
conclusiones, en la premisa de que lo que ocurri en el pasado se repetir, probablemente,
despus de la subida de precios propuesta.

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 5
1.1.6. Prediccin

El deseo de predecir el futuro es una caracterstica inherente al ser humano. No obstante, la
necesidad de hacer predicciones fiables en los negocios va ms all de la curiosidad. Las
decisiones de inversin deben tomarse mucho antes de que un nuevo producto salga al
mercado, por tanto, es muy deseable tener predicciones sobre cmo ser la situacin del
mercado en el futuro prximo. Para productos ya establecidos, hacer predicciones sobre las
ventas a corto plazo es importante para establecer los niveles ptimos de acumulacin de stocks
y produccin. Para tomar una decisin sobre aumentar o no el nivel de pasivo de una empresa,
es importante predecir los tipos de inters en el futuro. Para formular una poltica econmica
razonable, los gobiernos necesitan predicciones sobre cul sera el producto interno bruto
(PIB), el desempleo y la inflacin bajo varias polticas diferentes.

Bsicamente, las predicciones de valores futuros suelen obtenerse a partir del descubrimiento
de regularidades en el comportamiento en el pasado. Por esta razn, es necesario disponer de
datos sobre el comportamiento, tanto de la variable a predecir, como de otras variables
relacionadas. El anlisis de est informacin puede sugerir tendencias en el futuro. Sin
embargo, las principales metodologas utilizadas para predecir, son ms complejas que las que
sern discutidas en esta parte del curso.

1.1.7. Toma de decisiones en un entorno de incertidumbre.

En cualquier tipo de negocio, deben tomarse constantemente decisiones en un entorno en el
que la persona que debe decidir no conoce con seguridad el comportamiento futuro de los
factores que podran afectar al resultado que se obtendra bajo varias opciones posibles a
considerar.

Cuando un fabricante presenta una oferta para un contrato, no est completamente seguro de
los costos futuros que le ocasionar hacer frente a su oferta. Es ms, tampoco conocer las
ofertas de sus competidores. A pesar de esta incertidumbre, la decisin debe tomarse. Cuando
un inversor decide cmo equilibrar su cartera de acciones, bonos y otros instrumentos
financieros, no conoce los movimientos futuros del mercado. Puede tener alguna idea sobre
futuros desarrollos, pero no puede predecir con exactitud qu ocurrir.

Estos ejemplos demuestran que, en los negocios, en el momento de decidir entre diferentes
opciones, resultan de vital importancia las tcnicas para tratar la incertidumbre.

En este captulo presentaremos una serie de tcnicas tiles a la hora de analizar informacin
numrica. Su objetivo es ayudar a comprender los entornos con incertidumbre, de forma que
puedan tomarse mejores decisiones. Hay que hacer hincapi, no obstante, en que estas tcnicas
son nicamente herramientas tiles para el administrador. No pretenden ser sustitutos de la
familiaridad con el entorno que se consigue con aos de trabajo y experiencia, sino ms bien
ayudas para agudizar dicha familiaridad. Por tanto, a pesar de que un anlisis tcnico profundo
de la informacin numrica ser, en ocasiones, de mucho valor, no se aprovechar al mximo si
no se utiliza en combinacin con la experiencia que se obtiene de estudiar las caractersticas del
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 6
entorno en el que se trabaja. De hecho, los mtodos estadsticos resultan de mayor utilidad en
la gestin cuando se combinan con la experiencia en el entorno de los negocios.

1.2. Subdivisiones de la estadstica.

Los administradores aplican alguna tcnica estadstica a virtualmente todas las ramas de las
empresas pblicas y privadas. Estas tcnicas son tan diversas que los estadsticos, por lo general,
las dividen en dos grandes categoras: Estadstica Descriptiva y Estadstica Inferencial. Algunos
ejemplos nos sern de ayuda para entender la diferencia entre las dos.

Supngase que un profesor calcula la calificacin promedio de un grupo de STA100. Como la
estadstica describe el desempeo del grupo pero no hace ninguna generalizacin acerca de los
diferentes grupos, podemos decir que el profesor est utilizando estadstica descriptiva.
Grficas, tablas y diagramas que muestren los datos de manera que sea ms fcil su
entendimiento son ejemplos de estadstica descriptiva.

Supngase ahora que el profesor de STA100 decide utilizar el promedio de calificacin
obtenido por uno de sus grupos para estimar la calificacin promedio de las cinco unidades del
mismo curso de estadstica. El proceso de estimacin promedio sera un problema concerniente
a la estadstica inferencial. Los estadsticos se refieren tambin a esta rama como inferencia
estadstica. Obviamente, cualquier conclusin a la que llegue el profesor sobre las diez unidades
del curso estar basada en una generalizacin que va ms all de los datos del grupo original de
STA, y sta puede no ser completamente vlida, de modo que el profesor debe establecer qu
posibilidad hay de que sea cierta. De manera similar, la inferencia estadstica implica
generalizaciones y afirmaciones con respecto a la probabilidad de su validez.

1.2.1. Estadstica descriptiva v/s inferencia estadstica.

Como ya se ha visto, la Estadstica es una Ciencia con la que se pretende buscar las regularidades
existentes en el comportamiento de los datos. Sabemos que la Estadstica se puede clasificar en
dos grandes bloques: Estadstica Descriptiva e Inferencia Estadstica. Con el primero lo que se hace
es dar un conjunto de mtodos y herramientas que permiten estudiar esas regularidades cuando
lo que observamos es toda la poblacin. Es decir admitimos que es posible realizar esa
operacin de recuento exhaustivo. En tal caso lo que realizamos con la estadstica es estudiar,
describir, el comportamiento de una variable determinada. Esa observacin exhaustiva nos
permite realizar afirmaciones categricas sobre las distintas caractersticas de la variable, tales
como cul es su media, su dispersin, la forma de la distribucin, etc.

Pero esa posibilidad de observacin exhaustiva no siempre es posible. En la gran mayora de los
casos nos vemos limitados a realizar una observacin parcial de la variable. Con ese conjunto
limitado de datos intentaremos conocer las caractersticas de toda la poblacin, es decir,
intentaremos inferir su comportamiento. As una empresa antes de lanzar un nuevo producto
estar interesada en conocer cul puede ser su cuota de mercado, para lo cual realizar un
sondeo de opinin entre algunos de sus potenciales clientes. Pero el resultado de ese sondeo,
basado en una muestra (observacin parcial), no le permite concluir cul ser su verdadera
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 7
cuota de mercado. La decisin que tome respecto a ese producto estar marcada por un cierto
grado de incertidumbre.

Pero qu duda cabe que, en esas situaciones, nuestras afirmaciones ya no pueden ser
categricas y las decisiones que se tomen puede que no sean las ms acertadas como
consecuencia de la informacin no contenida en la muestra. En base a esto debemos admitir
que nuestras conclusiones estn sujetas a un margen de incertidumbre que es la consecuencia de
nuestra observacin parcial de la realidad. Ante tales circunstancias nuestro objetivo ser doble:
por un lado estudiar el comportamiento de la variable y de otro reducir en la medida de lo
posible ese margen de incertidumbre o, al menos, intentar cuantificar esa falta de certeza en
relacin a las caractersticas de las variables. Una forma de cuantificar esa incertidumbre es
haciendo uso del concepto de probabilidad. De hecho la probabilidad es un concepto con el que
convivimos de forma diaria, incluso sin percatarnos de l. Cada vez que hacemos uso de las
expresiones quizs, tal vez, es probable, puede que, etc. Estamos implcitamente hablando en
trminos probabilsticos. La incertidumbre es una acompaante inseparable de todas las ciencias
sociales e incluso de las fsicas como seal Heisenberg con el enunciado del principio de
incertidumbre de la mecnica cuntica.

1.2.2. Conceptos previos.

Pero antes de dar la definicin de probabilidad es aconsejable introducir una serie de conceptos
previos que nos sern de gran utilidad. Empezaremos con el de fenmeno aleatorio. Como
sabemos un fenmeno es algo observable y que en la mayora de los casos es, adems,
cuantificable. Podemos decir que la estadstica tiene por objeto el estudio y comportamiento de
fenmenos. Estos fenmenos son a su vez el resultado de una experimentacin, por lo que
podemos hablar indistintamente de fenmenos y experimentos aleatorios. De forma
especfica se dice que un experimento aleatorio es aqul que puede concretarse en al menos dos resultados
posibles, con incertidumbre en cuanto a cul de ellos tendr lugar.

Los experimentos se pueden clasificar en deterministas y aleatorios. Los primeros son aquellos que
repetidos en idnticas condiciones nos llevan siempre al mismo resultado. Por el contrario,
para el segundo tipo de experimentos nos encontramos que, incluso aunque las condiciones del
experimento no cambien, el resultado del experimento es impredecible antes de realizarlo.
(Antes de lanzar una moneda al aire no sabremos si saldr cara o cruz. Tambin son
experimentos aleatorios la cotizacin de las acciones de una empresa, sus beneficios, sus ventas,
su periodo de actividad, etc.). En general diremos que las caractersticas de un experimento
aleatorio son las siguientes:

El experimento se puede repetir u observar de forma indefinida en circunstancias
prcticamente muy similares.
Aunque no podemos predecir el resultado particular del experimento, s podemos
conocer el conjunto de todos los posibles resultados.
Si el experimento se repite pocas veces, los resultados parecen mostrar un
comportamiento catico, mientras que si se repite un nmero infinito de veces
empieza a detectarse una regularidad en el comportamiento de los resultados.

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 8
Hemos sealado antes que una de las caractersticas del experimento aleatorio es que, aunque
los resultados individuales no son predecibles con anterioridad, si podemos saber cul es el
conjunto de todos sus posibles resultados. Pues bien, a ese conjunto de posibles resultados le
llamaremos espacio muestral y lo representaremos en adelante por la letra E
2
. As pues, E
ser un conjunto formado por los resultados del experimento. Estos resultados elementales de
un experimento tienen la caracterstica de que no son descomponibles. A partir de ellos surge
el concepto de suceso o evento. Un suceso o evento ser un conjunto de resultados
elementales del experimento. Antes de continuar con el concepto de suceso o evento conviene
sealar que un espacio muestral puede ser finito ( si est formado por un conjunto finitos de
resultados) o infinito. Dentro los espacios infinitos se puede diferenciar entre los infinitos
numerables e infinitos no numerables. Tanto a los espacios finitos como a los infinitos
numerables se les suele conocer como espacios discretos, mientras a que los espacios
infinitos no numerable se conoce tambin como continuos.

Habindose definido previamente el concepto de suceso, a continuacin vamos a dar una
tipologa de los mismos dentro de la cual se distingue: suceso elemental, suceso
compuesto (consta de dos o ms sucesos elementales), suceso seguro o universal
(coincide con el espacio muestral) y suceso imposible (no contiene ningn elemento del
espacio muestral E y por tanto no ocurrir nunca y lo denotaremos por | ).

1.3. Cmo dar sentido a los Datos.

La estadstica, como campo de estudio, es el arte y la ciencia de dar sentido a los datos
numricos. La dcada de los 80 fue testigo de la creciente toma de conciencia de que el
pensamiento estadstico es una de las claves para la buena administracin. Cuando un grupo de
gerentes tiene que decidir cmo elaborar un nuevo producto alimenticio, puede guiarse por sus
propios gustos e intuicin u obtener datos tomados de una encuesta acerca de las preferencias
de los consumidores. Cuando los cigeales para automviles que produce una fundidora se
rechazan debido a problemas con la calidad, los directores de los departamentos de diseo,
ingeniera, compras y produccin pueden discutir entre s tratando de culparse los unos a los
otros, o pueden obtener datos para determinar qu es lo que ocasiona el problema. Cuando los
gerentes de personal desean consultar a un asesor en inversiones, lo pueden elegir siguiendo la
moda o tomando en consideracin los datos relativos a la trayectoria de los candidatos.
Obtener y utilizar datos en forma inteligente resuelve muchos problemas.

Prcticamente todo tomador de decisiones tiene la necesidad y la ocasin de tratar con datos.
La necesidad puede ser obvia, como en el caso de los altos ejecutivos de empresas crediticias
que deben analizar el comportamiento de cientos de clientes a los que se les han hecho
prstamos, o del director de un hospital que tiene que contabilizar todos los das la
disponibilidad de camas y quirfanos. En otros casos, la oportunidad puede ser menos obvia (y
por consiguiente ms valiosa); por ejemplo, los gerentes del hotel quiz no se dan cuenta de
que podran experimentar con el registro anticipado de huspedes para reducir las colas y los
tiempos de espera de sus clientes en el mostrador de recepcin, o los propietarios de una
cadena de tiendas de equipos de sonido podran pasar por alto que al combinar los datos

2
En muchas textos tambin son utilizadas las letras S , U o Q .
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 9
relativos a las ventas con los del inventario se pone de manifiesto que el afn por alcanzar su
cuota trimestral de ventas est provocando problemas peridicos con el inventario, que se
pueden evitar. El pensamiento estadstico es indispensable para todo gerente, tanto al tratar con
las operaciones cotidianas como al buscar oportunidades para mejorar.

1.3.1. Recopilacin de Datos.

Para ser tiles, los datos se deben recopilar y poner a nuestra disposicin. La simple decisin de
medir y recopilar los datos relevantes es el comienzo indispensable para usarlos en la solucin
de problemas. Si un fabricante de hornos de microondas registra los casos de reparaciones
dentro de la garanta, pero no el defecto especfico que se tuvo que corregir, entonces los datos
no son de ninguna utilidad para mejorar el proceso de fabricacin de los hornos. La primera
decisin consiste entonces en determinar lo que se quiere medir. A menudo, las variables ms
fciles de medir no son las ms relevantes para resolver un problema. Por ejemplo, a un
fabricante de golosinas que tiene que programar su produccin de tabletas de chocolate le
gustara saber cul es la demanda mensual que tiene la tableta. Sera relativamente fcil registrar
cada mes las rdenes de compra de los mayoristas y las cadenas de tiendas minoristas que las
venden, pero no es lo mismo que la demanda de los consumidores: puede suceder que algunos
clientes quieran comprar la tableta pero no la encuentren en existencia cuando van a la tienda.
Sera mejor obtener informacin no slo sobre las rdenes de compra sino sobre las existencias
en los almacenes. Precisar un poco el problema ayuda a determinar los datos que se han de
reunir y cules son las variables importantes, no las ms fciles de medir.

La segunda decisin tiene que ver con la forma en que obtiene la informacin. Con frecuencia
los datos se pueden recopilar en el trabajo diario; si se establece algn plan, la informacin
acerca de la produccin, las garantas, las rdenes de compra o el flujo de efectivo se puede
registrar y hacer accesible como parte de la operacin cotidiana. Otras veces, los datos se deben
buscar deliberadamente.

Un paso importante en la obtencin de datos es el muestreo. Un grupo dedicado a la
investigacin del mercado que examina la reaccin de los consumidores ante un nuevo diseo
de asientos para automviles no puede, en realidad, entrevistar a todos los compradores
potenciales e, inevitablemente, los datos se obtienen de una muestra limitada de estos. Los
auditores que tratan de verificar las cuentas por cobrar de una tarjeta de crdito no estn en
condiciones de escribir a cada cliente; en vez de ello, examinarn una muestra de usuarios de la
tarjeta. Es natural, aunque errneo, pensar en el muestreo estadstico slo en trminos de
muestras de personas; podemos de igual manera tomar muestras de documentos, lugares o
tiempos. El muestreo estadstico es un enfoque plausible siempre que existan datos
potencialmente valiosos, pero resulta imposible o incosteable reunir toda la informacin.

Otra forma de recopilar datos es la experimentacin. El grupo dedicado a la investigacin
del mercado, en vez de proponer un nico modelo de los nuevos asientos para automviles a
los compradores potenciales, podra presentar varios diseos que combinen distintas
caractersticas e investigar cul de ellos fue el de mayor aceptacin. Un equipo de trabajo que
intenta reducir los cuellos de botella en la fabricacin de tarjetas para computadora puede
experimentar con distintas velocidades de operacin, niveles gerenciales y patrones de flujo, y
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 10
medir la velocidad de produccin y la calidad de las tarjetas. Los experimentos diseados son
un factor clave en la tendencia actual para mejorar la calidad de los productos y de los procesos,
y no se limitan al laboratorio: prcticamente se puede experimentar con todo producto o
proceso que sea parte de una organizacin empresarial.

1.3.2. Fuentes de Datos.

Existen cuatro fuentes para la recopilacin de datos, los cuales corresponden a:

Se pueden obtener datos ya publicitados por fuentes gubernamentales, industriales o
individuales.
Se puede disear experimentos para obtener los datos necesarios.
Se puede realizar una encuesta
Se puede realizar un estudio observacional

Los recopiladores de datos son fuentes primarias; los compiladores de datos se llaman fuentes
secundarias. Como se ve describi en el prrafo anterior, el primer mtodo para obtener datos
es consultar las fuentes gubernamentales, industriales o individuales. De estas tres fuentes, el
gobierno es el principal recopilador de datos, ya sea para fines pblicos o privados.

Muchas oficinas de gobierno facilitan este trabajo, por ejemplo el Banco Central, que en su
pgina web publica los valores que han tenido una gran variedad de indicadores econmicos
como el precio del dlar, Unidad de Fomento, inflacin, PIB, etc. Por otro lado el
requerimiento constitucional para realizar un censo cada 10 aos el INE (instituto nacional de
estadstica) monitorea una amplia variedad de encuestas sobre la poblacin, vivienda y
manufactura. Tambin, lleva a cabo estudios especiales sobre ciertos temas: criminalidad, viajes
y cuidado de la salud.

A parte del gobierno, varias publicaciones comerciales presentan datos acerca de grupos
industriales especficos. Algunos servicios de inversin como La Bolsa de Comercio de Santiago
proporcionan datos financieros sobre compaas. Los peridicos ofrecen una amplia
informacin numrica respecto a estadstica de precios, condiciones climatolgicas y deportes,
dems de algn dato financiero nacional e internacional aunque en algunas ocasiones estos
presentan errores y por ende de interpretacin.

La segunda fuente para recopilar datos es la experimentacin. En un experimento se ejerce un
control estricto sobre los tratamientos; por ejemplo, en un estudio para verificar la efectividad
de un detergente para ropa, el investigador determinar qu marcas son ms efectivas para
limpiar ropa manchada al lavar las prendas en lugar de preguntar a los consumidores cul marca
es la mejor. En general, los diseos experimentales adecuados son temas de estudio a niveles
ms avanzados, pues con frecuencia involucran procedimientos estadsticos elaborados.

La tercera fuente de datos se obtiene al realizar una encuesta. En ella no se ejerce control sobre
el comportamiento de las personas que se investigan. Slo se hacen preguntas sobre sus
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 11
creencias, actitudes, comportamiento y otras caractersticas. Las respuestas se editan, codifican
y tabulan para su anlisis.

El cuarto mtodo para recopilar datos consiste en realizar un estudio observacional. Un
investigador observa el comportamiento de manera directa, casi siempre en el entorno natural.
La mayor parte del conocimiento sobre la conducta de los animales se ha desarrollado de esta
manera, al igual que los conocimientos cientficos en muchos campos, como en astronoma y
geologa, donde la experimentacin y las encuestas son impracticables o imposibles.

Los estudios observacionales se presentan en formas muy variadas en las empresas; todos estn
diseados para recopilar informacin en un medio grupal y ayudar en el proceso de toma de
decisiones. Como ejemplo, el grupo focal es una herramienta bastante conocida en la
investigacin de mercado, se aplica para obtener respuestas no estructuradas a partir de
preguntas abiertas: un moderador conduce la discusin y todos los participantes responden a las
preguntas. Tambin se cuentan con otros formatos ms estructurados que involucran dinmicas
de psicologa industrial y del comportamiento organizacional, como son la lluvia de ideas, la
tcnica Delphi y el mtodo de grupo nominal. Estas herramientas se han popularizado en los
ltimos aos debido al impacto de la filosofa de administracin de la calidad total (Total
Quality Management) en las empresas la cual hace hincapi en la importancia del trabajo en
equipo y el potencial de los empleados, en un intento por mejorar cada producto o servicio.

Para disear un experimento, aplicar una encuesta o realizar un estudio por observacin, se
deben comprender los distintos tipos de datos y niveles de medicin.

1.3.3. Mtodos de Muestreo.

Como ya se mencion, una muestra es la porcin de la poblacin que se selecciona para el
anlisis. En lugar de hacer el censo completo de una poblacin, los procedimientos de muestreo
estadstico se centran en un pequeo grupo representativo de la poblacin ms grande. La
muestra obtenida proporciona informacin que se puede usar para estimar caractersticas de
toda la poblacin.

El proceso de muestreo comienza con la localizacin de las fuentes adecuadas de datos, como
listados de poblacin, directorios, planos y otras fuentes llamadas marcos. Las muestras se
extraen de estos marcos. Si el marco es inadecuado debido a que ciertos grupos de individuos o
de objetos en la poblacin no se incluyen de manera apropiada, entonces las muestras sern
inexactas y sesgadas. Utilizar diferentes marcos para generar datos pueden llevar a conclusiones
opuestas.

Existen tres razones principalmente para realizar una encuesta, las cuales se pueden resumir en:

stas requieren menos tiempo que un censo
Cuesta menos administrarlas
Resulta ms econmico.

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 12
Es posible agrupar las muestras en no probabilsticas y aqullas que son probabilsticas.
En una muestra no probabilstica los elementos o los individuos incluidos se eligen sin tomar en
cuenta su probabilidad de ocurrencia, mientras que en una muestra probabilstica los sujetos
son elegidos de acuerdo con las probabilidades de ocurrencia.

Como las muestras no probabilsticas eligen a sus participantes sin conocer sus probabilidades
de seleccin (y en algunos casos los participantes se auto-seleccionan), no se puede aplicar la
teora que se desarroll para el muestreo probabilstico. Muchas compaas realizan encuestas y
se entregan en forma de una respuesta electrnica. La respuesta a estas encuestas pueden
proporcionar grandes cantidades de datos en poco tiempo, pero la muestra se compone de
usuarios de Internet que son seleccionados en forma automtica. Para muchos estudios slo se
dispone de una muestra no probabilstica como una muestra subjetiva. En estos casos, la
opinin de un experto en la materia es crucial para poder usar los resultados obtenidos y
realizar cambios en un proceso. Otros procedimientos comunes de muestreo no probabilstica
son el muestreo por cuotas y, el por grupos naturales.

Las muestras no probabilsticas tienen algunas ventajas como son conveniencia, rapidez y bajo
costo. Por otro lado, dos desventajas importantes de precisin debido al sesgo en la seleccin y
falta de capacidad para generalizar los resultados superan con mucho a las ventajas. En
consecuencia, el uso de los mtodos de muestreo no probabilsticos se restringir a situaciones
en las que slo se desea obtener aproximaciones de bajo costo para satisfacer la curiosidad
acerca de un tema especfico o en estudios iniciales de pequea escala o estudio piloto que
precedern a investigaciones ms rigurosas.

El muestreo probabilstico deber usarse siempre que sea posible, porque es el nico mtodo
que permite hacer inferencias estadsticas correctas a partir de una muestra.

Los cuatro tipos de muestras probabilsticas que se utilizan con mayor frecuencia son: muestras
aleatoria simple, sistemtica, estratificada y conglomerada. Estos mtodos de muestreo varan
entre s por su costo, precisin y complejidad.

Una muestra aleatoria simple es aqulla en la cual cada individuo o elemento de una
poblacin tiene la misma oportunidad de ser elegido. Adems, cada muestra de un tamao fijo
tiene la misma probabilidad de ser elegida que cualquier otra muestra del mismo tamao. El
muestreo aleatorio simple es la tcnica de muestreo aleatorio ms elemental y constituye la
base para las otras tcnicas.

En el muestreo aleatorio simple se usa n o T para representar el tamao de la muestra y N
para el tamao de la poblacin. Cada persona o elemento en el marco se enumera de 1 a N . La
probabilidad de seleccionar a cualquier miembro en particular de la poblacin la primera vez es
1/ N .

En una muestra sistemtica, se dividen N individuos o elementos del marco poblacional en
k grupos, dividiendo el tamao de la poblacin N entre el tamao de la muestra deseado T .
Es decir, / k N T = donde k se redondea al entero ms cercano. Para obtener una muestra
sistemtica, el primer individuo o elemento se selecciona al azar entre los k individuos o
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 13
elementos del primer grupo del marco de poblacin y, para el resto de la muestra, se elige un
individuo o elemento cada k en la lista completa de la poblacin.

Cuando el marco poblacional consiste en listas de cheques numerados, notas de venta o
facturas, listas de miembros de un club, el registro de estudiantes inscritos o tal vez un nmero
predeterminado de artculos consecutivos que salen de una lnea de ensamble, es ms rpido y
fcil obtener una muestra sistemtica que una muestra aleatoria simple. En estas situaciones la
muestra sistemtica es un mecanismo para obtener los datos deseados.

Aunque su aplicacin es ms sencilla, en general, los mtodos de muestreo aleatorio simple y
muestreo sistemtico son menos eficientes que otros mtodos de muestreo probabilstico ms
elaborados. Es decir, para cualquier muestra que se adquiere mediante muestreo aleatorio
simple o sistemtico, los datos obtenidos pueden o no ser una buena representacin de las
caractersticas fundamentales (parmetros) de la poblacin correspondiente, no es posible saber
si una muestra en particular es, de hecho, representativa.

Se presentan posibilidades todava mayores de un sesgo en la seleccin y una falta de
representatividad de las caractersticas de la poblacin en el muestreo sistemtico. Si existiera
un patrn en el listado del marco de poblacin, podran ocurrir errores de seleccin
importante. Para evitar el problema potencial de la representacin desproporcionada de grupos
especficos en una muestra, se pueden usar los mtodos de muestreo estratificado o de
muestreo conglomerado.

En una muestra estratificada, primero se dividen los N individuos o elementos de la
poblacin en sub-poblaciones separadas o estratos, de acuerdo con alguna caracterstica comn.
Se realiza un muestreo aleatorio simple en cada estrato y despus se combinan los resultados de
las muestras aleatorias separadas. Estos mtodos de muestreo son ms eficientes que el
muestreo aleatorio simple o sistemtico, porque garantizan la representacin de individuos o
elementos de toda la poblacin, lo que asegura una mayor precisin en las estimaciones de los
parmetros poblacionales fundamentales. Lo que proporciona la precisin, una vez combinados
los estratos, es la homogeneidad de individuos o elementos dentro de cada estrato.

En el caso de la muestra conglomerada, se dividen los N individuos o elementos de la
poblacin en varios conglomerados, de manera que cada conglomerado sea representativo de la
poblacin completa. Despus, se obtiene una muestra aleatoria de los conglomerados y se
estudian todos los individuos o elementos dentro de cada conglomerado seleccionado. Los
conglomerados pueden ser asignaciones naturales, como condados, distritos electorales,
manzanas, edificios de departamento o familias.

Los mtodos de muestreo conglomerado pueden ser ms eficientes (con relacin a sus costos)
que los mtodos de muestreo aleatorio simple, sobre todo si la poblacin en cuestin se
encuentra esparcida en una vasta regin geogrfica. Sin embargo, los mtodos de muestreo
conglomerado tienden a ser menos eficientes que los mtodos de muestreo aleatorio simple o
de muestreo estratificado, y necesitan una muestra total ms grande para obtener resultados tan
precisos como los que se obtienen con los procedimientos ms eficientes.

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 14
1.4. Encuesta.

Prcticamente todos los das se oye o se lee acerca de resultados de encuestas o escrutinios en
peridicos, Internet, en la radio o televisin. Es evidente que los avances en la tecnologa de la
comunicacin han provocado la proliferacin de las investigaciones por medio de encuestas, sin
embargo, no todas son aceptables, significativas o importantes.

Para evitar encuestas carentes de objetividad o credibilidad, debe evaluarse con sentido crtico
todo lo que se lee y escucha, adems, debe examinarse el valor de la encuesta. En primer lugar,
se evala el propsito de la encuesta, por qu y para quin se realiza. Un escrutinio de opinin
o una encuesta realizada para satisfacer la curiosidad pertenece a la esfera de la diversin. Su
resultado es un fin en s mismo, no un medio para lograr un fin. Debe existir escepticismo ante
tales encuestas, porque el resultado no tiene una aplicacin posterior.

En segundo lugar, para evaluar el valor de una encuesta se debe determinar si est basada en
una muestra probabilstica o no probabilstica. Recuerde que el nico medio disponible para
hacer inferencias estadsticas correctas a partir de una muestra es el uso de una muestra
probabilstica. Las encuestas que emplean mtodos de muestreo no probabilstico estn sujetas
a errores importantes, quizs no intencionales, que pueden generar resultados sin sentido.

Sin embargo, an cuando en las encuestas se utilizan mtodos de muestreo probabilstico, estn
sujetas a errores potenciales, tales como sesgo de seleccin, sesgo de no respuesta, error de
muestreo y error de medicin.

La clave para una seleccin apropiada en la muestra es un marco de poblacin adecuado o una
lista actualizada de todos los sujetos que participarn en el muestreo. El error de cobertura
o de sesgo de seleccin ocurre si se excluyen ciertos grupos de sujetos de la poblacin, de
manera que no tienen oportunidad de ser seleccionados en la muestra. Si el listado es
inadecuado, porque no se incluyeron algunos grupos o sujetos de la poblacin, cualquier
muestra probabilstica aleatoria proporcionar una estimacin de las caractersticas del marco,
no de la poblacin real. Un ejemplo sera levantar una encuesta y seleccionar slo a las personas
que nos resultan conocidas como familiares, por ello existira error de representatividad en los
resultados.

No todas las personas estn dispuestas a contestar una encuesta. De hecho, la investigacin
indica que los individuos de los grupos socio econmicos altos y bajos tienden a responder con
menos frecuencia que los individuos de clase media. El sesgo de no respuesta surge del
fracaso al recopilar datos de todos los sujetos de la muestra y el resultado es un sesgo. Como en
general, no se puede suponer que las personas que no responden son semejantes a aqullas que
s responden, es en extremo importante dar seguimiento a las no respuestas despus de un
periodo especfico. Debern hacerse varios intentos, ya sea por correo o telfono, para
convencerlos y que cambien de opinin. Con base en estos resultados, las estimaciones
obtenidas con las respuestas iniciales se combinan con las estimaciones obtenidas con el
seguimiento, de manera que las inferencias hechas a partir de la encuesta sean vlidas.

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 15
El modo de respuesta afecta la tasa de respuesta. La entrevista personal y por telfono casi
siempre produce una respuesta ms alta que la encuesta por correo, aunque la primera resulta
ms costosa.

Existen tres razones principales para extraer una muestra en lugar de realizar un censo
completo: es ms rpido, menos costoso y ms eficiente. Sin embargo, en el marco
poblacional, el azar determina quin estar (o quin no estar) incluido. El error de
muestreo refleja la heterogeneidad, o las diferencias aleatorias, de una muestra a otra segn
la probabilidad de que individuos o elementos especficos sean seleccionados en una muestra
determinada.

Cuando se observan los resultados de sondeos o encuestas en peridicos y revistas, a menudo se
hacen afirmaciones respecto al margen de error o precisin; por ejemplo, se espera que los
resultados de este escrutinio estn ms o menos cuatro puntos porcentuales del valor real. Este
margen de error es el error de muestreo. Este error se puede reducir con tamaos de muestras
ms grandes, aunque esto incrementar el costo de la encuesta.

Cuando se quiere analizar una buena investigacin por medio de encuestas, se disea un
cuestionario que permita reunir informacin importante. Los datos obtenidos deben ser
vlidos; es decir, las respuestas correctas deben ser evaluadas y plantearse de manera que
arrojen medidas significativas.

Pero existe un dilema, es ms fcil decir que se obtienen mediciones significativas que el simple
hecho de obtenerlas. Considere el siguiente proverbio:

Un hombre con un reloj siempre sabe qu hora es; un hombre con dos relojes siempre trata de
determinar cul tiene la hora exacta; un hombre con 10 relojes siempre recuerda la dificultad que
implica medir el tiempo.

Por desgracia, la realizacin de mediciones est gobernada por lo que es conveniente, no por lo
que se necesita. Con bastante frecuencia, las mediciones que se obtienen son solamente una
aproximacin de las mediciones que se desean en realidad.

Se le ha dado mucha atencin al error de medicin que ocurre por fallas de redaccin en el
enunciado de las preguntas. Una pregunta debe ser clara, no ambigua. Debe presentarse en
forma objetiva y neutral; se deben evitar las preguntas guiadas.

Existen tres fuentes de errores en la medicin: redaccin ambigua de las preguntas, efecto de
halo y errores de la persona que contesta. Como ejemplo de ambigedad en la redaccin,
en noviembre de 1993 el Departamento del Trabajo de Estados Unidos inform que la tasa de
desempleo se haba subestimado durante ms de una dcada debido a fallas en la redaccin de
las preguntas en la Encuesta de Poblacin Actual. En particular, esta falla provoc que se
minimizara la presencia de las mujeres en la fuerza laboral. Como la tasa de desempleo est
ligada a los programas de beneficio social, como los sistemas estatales de compensacin por
desempleo, era imperativo que los investigadores del gobierno rectificaran la situacin con
ajustes al contenido de las preguntas.
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 16

El efecto de halo se presenta cuando la persona que responde se siente obligada a complacer
al entrevistador. Este tipo de error puede minimizar con la capacidad adecuada en la realizacin
de entrevistas.

El error que proviene de la persona que responde se produce cuando sta realiza un
esfuerzo demasiado grande o demasiado pequeo. Existen dos formas para minimizar esta clase
de error: (1) mediante una revisin cuidadosa de los datos y un nuevo llamado a aquellos
individuos cuyas respuestas parecen raras y (2) al establecer un programa de llamadas aleatorias
para verificar la contabilidad de las respuestas.

1.5. Aspectos ticos.

Respecto a la proliferacin de investigaciones que se apoyan en encuestas, stas han presentado
una prdida de tica. Lo que preocupa es que las personas toman decisiones con base a lo que se
publica. Puede que se trate de un crimen invisible, pero s existen vctimas. No
todas las investigaciones son buenas, significativas o importantes, y no todas son ticas. Se debe
intentar distinguir entre un diseo de encuesta deficiente y un diseo carente de tica.

Las consideraciones ticas surgen con relacin a cuatro tipos de errores potenciales que pueden
ocurrir cuando se disean encuestas que utilizan muestras probabilsticas aleatorias: sesgo de
seleccin, error de no respuesta que tambin es un tipo de sesgo, error de muestreo y error de
medicin. El sesgo de seleccin se convierte en un problema tico slo si se excluyen a
propsito grupos especficos de individuos del marco poblacional, para obtener resultados
sesgados, que indican una posicin ms favorable para el patrocinador de la encuesta.

De igual manera, el sesgo de respuesta se convierte en un problema tico slo si es menos
probable que grupos o individuos especficos respondan a un formato de encuesta dado y si el
patrocinador disea a propsito la encuesta, con el fin de excluir a esos grupos o individuos. El
error de muestreo se convierte en un problema tico slo cuando los resultados se presentan, a
propsito, sin referencia al tamao de muestra o al margen de error, de modo que el
patrocinador puede promover un punto de vista que de otra manera sera insignificante. El
error de medicin se convierte en un problema tico en cualquiera de las tres formas: (1) un
patrocinador puede elegir, en forma deliberada, preguntas orientadas que guan las respuestas
hacia direcciones especficas; (2) un investigador, mediante actitudes y tono de voz, puede
crear un efecto deliberado de halo o puede guiar las respuestas en cierta direccin; (3) alguien
que responde, pero no est de acuerdo con la encuesta, puede proporcionar informacin falsa,
a propsito.

Al momento de recopilar los datos que sern procesados se es susceptible de cometer errores
as como durante los cmputos de los mismos. No obstante, hay otros errores que no tienen
nada que ver con la digitacin y que no son tan fcilmente identificables.
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 17
Algunos de stos errores son.
Sesgo: Es imposible ser completamente objetivo o no tener ideas preconcebidas antes de
comenzar a estudiar un problema y existen muchas maneras en que una perspectiva o estado
mental pueda influir en la recopilacin y en el anlisis de la informacin. En estos casos se dice
que hay un sesgo cuando el individuo da mayor peso a los datos que apoyan su opinin que a
aqullos que la contradicen. Un caso extremo de sesgo sera la situacin donde primero se toma
una decisin y despus se utiliza el anlisis estadstico para justificar la decisin ya tomada.
Datos no comparables: el establecer comparaciones es una de las partes ms importantes
del anlisis estadstico, pero es extremadamente importante que tales comparaciones se hagan
entre datos que sean comparables.
Proyeccin descuidada de tendencias: la proyeccin simplista de tendencias pasadas
hacia el futuro es uno de los errores que ms ha desacreditado el uso del anlisis estadstico.
Muestreo Incorrecto: en la mayora de los estudios sucede que el volumen de informacin
disponible es tan inmenso que se hace necesario estudiar muestras, para derivar conclusiones
acerca de la poblacin a que pertenece la muestra. Si la muestra se selecciona correctamente,
tendr bsicamente las mismas propiedades que la poblacin de la cual fue extrada; pero si el
muestreo se realiza incorrectamente, entonces puede suceder que los resultados no signifiquen
nada.

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 18
2 CARACTERISTICAS DE UNA DISTRIBUCIN DE FRECUENCIAS

2.1. Introduccin

La fase previa de cualquier estudio estadstico se basa en la recogida y ordenacin de datos; esto
se realiza con la ayuda de los resmenes numricos y grficos vistos en los temas anteriores.

2.2. Tipos de Variables.

En el trabajo estadstico se recogen variables. Estas variables se organizan de forma ordenada y
se almacenan en ficheros. Posteriormente ser posible operar con estas variables y aplicar
funciones a las mismas para realizar las transformaciones y los anlisis estadsticos que se desee.

Las variables pueden contener datos numricos (variables cuantitativas) y datos categricos
no cuantificables numricamente (variables cualitativas). El sexo, la profesin y el lugar de
origen seran variables cualitativas. La estatura y la edad seran ejemplo de variables
cuantitativas.

Las variables cuantitativas pueden ser discretas y continuas.

Una variable es discreta cuando toma una cantidad finita o numerable de valores aislados, es
decir, entre cada dos valores consecutivos no se puede intercalar ningn otro valor de la
variable. El nmero de aprobaciones, el nmero de inasistencias o tambin podra ser el
nmero de caras obtenido al lanzar tres monedas al aire seran ejemplos de variables
cuantitativas discretas.

Una variable es continua cuando toma una infinidad no nmerable de valores, es decir,
entre cada dos valores cualesquiera siempre existen infinitos valores de la varible. La fuerza
fsica, la longitud y el peso seran ejemplos de variables cuantitativas continuas.

Las variables cualitativas suelen clasificarse, segn la naturaleza de los datos categricos que
representan, en variables nominales y variables ordinales.

Las variables nominales describen las categoras directamente por su contenido, por
ejemplo, las categoras de la variable cualitativa sexo son hombre y mujer. A veces suelen
asignarse por comodidad cdigos numricos a las distintas categoras de una variable cualitativa
nominal, por ejemplo, Hombre=0 y Mujer =1, en cuyo caso hay que resaltar que dichos
cdigos siguen siendo variables cualitativas no tratables numricamente.

Las variables ordinales describen las categoras por el orden que ocupan, por ejemplo, los
valores (categoras) de la variable cualitativa satisfaccin en el trabajo pueden ordenarse en
satisfaccin baja (valores entre 0 y 10 segn una determinada escala de puntuacin que vara
entre 0 y 30), satisfaccin media (valores entre 10 y 20) y satisfaccin alta (valores entre 30
y 40).

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 19
Las variables cuantitativas suelen clasificarse en variables ratio o no agrupada, que toman
valores numricos puntuales, y variables por intervalos o agrupadas, en las cuales se
agrupan los valores numricos en intervalos convenientes con vistas a facilitar el trabajo.

2.3. Medidas de posicin

Son aquellas medidas que nos ayudan a saber dnde estn los datos, pero sin indicar cmo se
distribuyen.

2.3.1. Medidas de posicin central

i) Media aritmtica ) (X M

La media aritmtica o simplemente media muestral, que denotaremos por ) (X M
3
, es el
nmero obtenido al dividir la suma de todos los valores de la variable entre el nmero total de
observaciones ) (N . Entonces, si contamos con un conjunto de N observaciones, que
definiremos como { }
N
x x x x ,..., , ,
3 2 1
o equivalentemente como { }
N
i i
x
1 =
, la media muestral
corresponder a.

i
N
i
x
N
X M
1
1
) (
=
E = (2.1.a)

Sin embargo, existen algunos conjuntos de observaciones que tienen valores comunes, por lo
que es posible separar el conjunto de N observaciones en un conjunto de k grupos que poseen
el mismo valor, entonces, la media muestral se puede calcular como:

N
x x
X M
j j
k
j
j
k
j
j j
k
j
q
q
q
1
1
1
) (
=
=
=
E
=
E
E
= (2.1.b)

Donde
j
q se denomina frecuencia absoluta y representa el nmero de elementos con el mismo
valor en el grupo j _simo, por lo tanto, la suma de todos estos
j
q debe ser igual al nmero
total de observaciones, es decir, N
j
k
j
= E
=
q
1
.

A modo de comprender lo indicado en el prrafo anterior, resolveremos el siguiente ejemplo.

Ejemplo 1. Si tenemos la siguiente distribucin, se pide hallar la media aritmtica, de los
siguientes datos expresados en kg.

En base a la tabla que se encuentra ms abajo, sabemos que el nmero total de observaciones es
10 y el nmero total de grupos es 4, tal que 10
4
1
= E =
= j j
N q . Adems, la suma total de las
observaciones corresponde a 601
4
1
= E
= j j j
x q .

3
En gran parte de la literatura se define la media muestral ) (X M como X
N
X .
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 20
i
x
i
q
i i
x q
54 2 108
59 3 177
63 4 252
64 1 64

Por lo tanto, nuestro resultado corresponde a:
Kg
N
x
X M
j j j
1 , 60 ) (
4
1
=
E
=
=
q

Si los datos estn agrupados en intervalos, la expresin de la media aritmtica, es la misma,
pero utilizando alguna de las marcas de clase existentes.

Ejemplo 2.
] , [
1 i i
L L


i
x
i
q
i i
x q
[30,40] 35 3 105
(40,50] 45 2 90
(50,60] 55 5 275

Donde
10
3
1
= E =
= j j
N q y 470
3
1
= E
= j j j
x q
Por lo tanto, nuestro resultado corresponde a:
47 ) (
3
1
=
E
=
=
N
x
X M
j j j
q


Propiedades:

a. Cambio de origen.

Si sometemos una variable estadstica X , a un cambio de origen de la forma X a Y = , la
media muestral de la nueva variable Y ser representada por:

) ( ) ( ) ( X M a X a M Y M X a Y = = = (2.2.a)

b. Cambio de escala.

Si sometemos una variable X , a un cambio de escala de la forma bX Y = , la media muestral de
la nueva variable Y ser representada por:

) ( ) ( ) ( X bM bX M Y M bX Y = = = (2.2.b)

c. Desviaciones con respecto a la media.

La suma de las desviaciones de los valores o datos de una variable X , respecto a su media
aritmtica es cero.
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 21
0 )) ( (
1
= E
=
X M x
i
N
i
(2.3)

Si consideramos el hecho de que los valores tienen una frecuencia, entonces la ecuacin 2.3 se
puede extender al siguiente caso.

0 )) ( (
1
= E
=
X M x
j j
k
j
q

La demostracin queda como ejercicio para el lector.

d. Media condicional.

Es muy frecuente que un grupo de observaciones sea divisible en grupos ms pequeos, por
ejemplo, un grupo de personas para las cuales se registra su salario, y luego para efecto de
estudios se vuelvan a separar entre hombres y mujeres. Por lo tanto, la media resultante es
condicional al subgrupo indicado, que en el ejemplo corresponde al sexo. De esta manera la
media condicional se define como:

j
Y i
n
i
j
n
x
Y X M
j
j
| 1
) | (
=
E
= (2.4.a)

Donde la variable a medir es X y la variable Y es la que condiciona los subgrupos, por lo
tanto, el trmino
j
Y se refiere al grupo condicional j _simo, as que
j
Y i
x
|
corresponde a los
valores de la variable X que se encuentran en el conjunto j _simo.

c. Media total versus condicional.

En general siempre es posible obtener la media muestral total en forma directa, o a travs de
los grupos, de forma que la media muestral total es igual a la media ponderada de cada grupo.

N
Y X M
Y X M M X M
j j
k
j
Y
) | (
)) | ( ( ) (
1
q
=
E
= = (2.4.b)

d. Media muestral cuadrtica.

En general la media de los valores observados al cuadrado ser diferente de la media muestral al
cuadrado, a menos que todos los valores observados sean iguales o sean la misma constante, es
decir,

) ( ) (
2 2
X M X M =

Ya que,

( )
2
1
1 2
1
1
i
N
i
N
i
N
i
N
x x
= =
E = E
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 22

Queda propuesto para el lector demostrar que ) ( ) (
2 2
X M X M > .

Ventajas e inconvenientes:
La media aritmtica viene expresada en las mismas unidades que la variable.
En su clculo intervienen todos los valores de la distribucin.
Es el centro de gravedad de toda la distribucin, representando a todos los valores
observados.
Es nica.
Su principal inconveniente es que se ve afectada por los valores extremadamente
grandes o pequeos de la distribucin.

NOTA: Media aritmtica ponderada

Es una media aritmtica que se emplea en distribuciones de tipo unitario, en las que se
introducen coeficientes de ponderacin, denominados
i
f , que son valores positivos, que
representan el nmero de veces que un valor de la variable es ms importante que otro.

j j
k
j
j j
k
j
j
k
j
j j
k
j
x f
x f
f
x f
X M
1
1
1
1
1
) (
=
=
=
=
E =
E
=
E
E
= (2.5)

ii) Media geomtrica ) (X M
g
.

Sea una distribucin de frecuencias ) , (
i i
x q . La media geomtrica que denotaremos por
) (X M
g
. se define como la raz N -sima del producto de los k valores de la distribucin.

N
i
k
j
N
t g
i k
x x x x X M
q q q q
1 2 1
2 1
) (
=
H = = (2.6)

Donde
j
N
j
N q
1 =
E =

Si los datos estn agrupados en intervalos, la expresin de la media geomtrica, es la misma,
pero utilizando la marca de clase ) (
i
x como el punto medio de cada intervalo.

El empleo ms frecuente de la media geomtrica es el de promediar variables tales como
porcentajes, tasas, nmeros ndices. etc., es decir, en los casos en los que se supone que la
variable presenta variaciones acumulativas.

Ventajas e inconvenientes:

En su clculo intervienen todos los valores de la distribucin.
Los valores extremos tienen menor influencia que en la media aritmtica.
Es nica.
Su clculo es ms complicado que el de la media aritmtica.
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 23

Adems, cuando la variable toma al menos un 0 =
i
x entonces ) (X M
g
se anula, y si la variable
toma valores negativos se pueden presentar una gama de casos particulares en los que tampoco
queda determinada debido al problema de las races de ndice par de nmeros negativos.

iii) Media armnica ) (X M
a
.

La media armnica, que representaremos por ) (X M
a
, se define como sigue:
j
j
i x
k
j x
N
i
a
N N
X M
q
1
1
1
) (
=
= E
=
E
= (2.7)

Obsrvese que la inversa de la media armnica es la media aritmtica de los inversos de los
valores de la variable. No es aconsejable en distribuciones de variables con valores pequeos. Se
suele utilizar para promediar variables tales como productividades, velocidades, tiempos,
rendimientos, cambios, etc.

Ventajas e inconvenientes:

En su clculo intervienen todos los valores de la distribucin.
Su clculo no tiene sentido cuando algn valor de la variable toma valor cero.
Es nica.

NOTA: Relacin entre las medias ) ( ) ( ) ( X M X M X M
g a
s s

Sin embargo, el lector debe tener presente que un forma muy reveladora de utilizar la media es
en forma condicional, esto quiere decir que se obtener medias por grupo o entre grupos.

iv) Mediana
Me
x ( ) Me .

Dada una distribucin de frecuencias con los valores ordenados de menor a mayor, llamamos
mediana y la representamos por Me , al valor de la variable, que deja a su izquierda el mismo
nmero de frecuencias que a su derecha.

Calculo de la mediana variara segn el tipo de dato:

a) Variables discretas no agrupadas:

1 Se calcula la mitad de las observaciones T
2
1
y se construye la columna de frecuencias
acumuladas que se denominaran como
i
T .

2 Se observa cual es el primer
i
T que supera o iguala a T
2
1
, distinguindose dos casos:

- Si existe un valor de
i
x tal que
i i
T T T < <

2
1
1
, entonces se toma como
i
x Me =
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 24

- Si existe un valor i tal que T T
i
2
1
= , entonces ) (
1
2
1
+
+ =
i i
x x Me

Ejemplo 3. Sea la distribucin
i
x
i
q
i
T
1 3 3
2 4 7
5 9 16
7 10 26
10 7 33
13 2 35

Entonces, 5 , 17 35
2
1
= = T T

Por lo tanto, para calcular la media se debe realizar lo siguiente

7 26 5 , 17 16
2
1
1
= < < < <

Me T T T
i i


En el caso en que coincida en posicin la frecuencia acumulada tal como podemos ver en la
siguiente distribucin:
i
x
i
q
i
T
1 3 3
2 4 7
5 9 16
7 10 26
10 6 32

Por lo tanto, en este caso se tiene que:

6 ) 7 5 ( ) ( 16 32
2
1
1
2
1
2
1
= + = + = = = =
+ i i i
x x Me T T T

Notar que en este caso se podra haber producido que hubiera una frecuencia absoluta
acumulada superior a 16. En este caso se calculara como en el ejemplo anterior.

b) Variables agrupadas por intervalos

En este caso hay que detectar en qu intervalo est el valor mediano. Dicho intervalo se
denomina intervalo medio.

Cada intervalo
i
I vendr expresado segn la notacin ] , (
1 i i i
L L I

= ; observando la columna de
las frecuencias acumuladas, buscaremos el primer intervalo cuya
i
T sea mayor o igual que T
2
1
,
que ser el intervalo modal; una vez identificado dicho intervalo, procederemos al clculo del
valor mediano, debiendo diferenciar dos casos:

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 25
1 Si existe
i
I tal que
i i
T T T < <

2
1
1
, entonces el intervalo medio es el ] , (
1 i i
L L

y la
mediana es:

( )( )
1
1 1
2
1
1


+ =
i i i i i
L L T T L Me q (2.8)

2 Anlogamente si existe un
i
I tal que T T
i
2
1
= , la mediana es
i
L Me =

Ejemplo 4.
] , [
1 i i
L L


i
q
i
T
[20,25] 100 100
(25,30] 150 250
(30,35] 200 450
(35,40] 180 630
(40,45] 41 671

Entonces 5 , 335 671
2
1
= = T T

Por lo tanto, Me estar en el intervalo (30,35] el cual corresponder a:

138 , 32 200 ) 30 35 ( ) 250 5 , 335 ( 30
1
= + =

Me

Ventajas e inconvenientes:

Es la medida ms representativa en el caso de variables que slo admitan la escala
ordinal.
Es fcil de calcular.
En la mediana solo influyen los valores centrales y es insensible a los valores extremos
u outliers .
En su determinacin no intervienen todos los valores de la variable.

v. Moda ) (Mo

La moda es el valor de la variable que ms veces se repite, y en consecuencia, en una
distribucin de frecuencias, es el valor de la variable que viene afectada por la mxima
frecuencia de la distribucin. En distribuciones no agrupadas en intervalos se observa la
columna de las frecuencias absolutas, y el valor de la distribucin al que corresponde la mayor
frecuencia ser la moda. A veces aparecen distribuciones de variables con ms de una moda
(bimodales, trimodales, etc), e incluso una distribucin de frecuencias que presente una moda
absoluta y una relativa.

En el caso de estar la variable agrupada en intervalos de distinta amplitud, se define el intervalo
modal, y se denota por ] , (
1 i i
L L

, como aqul que posee mayor densidad de frecuencia ) (
i
o ; la
densidad de frecuencia se define como:

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 26
1

=
i i
i
i
L L
q
o (2.9)

Una vez identificado el intervalo modal procederemos al clculo de la moda, a travs de la
frmula:

) ( ) (
1
1
1 1 1 1

+ +
+ + =
i i i i i i
L L L Mo o o o (2.10)

En el caso de tener todos los intervalos la misma amplitud, el intervalo modal ser el que posea
una mayor frecuencia absoluta ) (
i
q y una vez identificado ste, empleamos la frmula:

) ( ) (
1
1
1 1 1 1

+ +
+ + =
i i i i i i
L L L Mo q q q (2.11)

Ventajas e inconvenientes:

Su clculo es sencillo.
Es de fcil interpretacin.
Es la nica medida de posicin central que puede obtenerse en las variables de tipo
cualitativo.
En su determinacin no intervienen todos lo valores de la distribucin.

2.3.2. Medidas de posicin no central ( Cuartiles )

Los cuartiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la
distribucin en partes, de tal manera que cada una de ellas contiene el mismo nmero de
frecuencias.

Los cuartiles ms conocidos son:

i) Cuartiles ) (
i
Q

Son valores de la variable que dividen a la distribucin en 4 partes, cada una de las cuales
engloba el 25 % de las mismas. Se denotan de la siguiente forma:
1
Q es el primer cuartil que
deja a su izquierda el 25 % de los datos;
2
Q es el segundo cuartil que deja a su izquierda el 50%
de los datos, y
3
Q es el tercer cuartil que deja a su izquierda el 75% de los datos. Notar que el
segundo cuartel corresponde exactamente a la mediana.

ii) Deciles ) (
i
D

Son los valores de la variable que dividen a la distribucin en las partes iguales, cada una de las
cuales engloba el 10 % de los datos. En total habr nueve deciles. Notar que el quinto decil es
igual a la mediana.

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 27
iii) Centiles o Percentiles ) (
i
P

Son los valores que dividen a la distribucin en 100 partes iguales, cada una de las cuales
engloba el 1 % de las observaciones. En total habr noventa y nueve percentiles. Notar que el
quincuagsimo percentil es igual a la mediana.

Clculo de los cuartiles en distribuciones no agrupadas en intervalos

Se calculan a travs de la siguiente expresin
1
rTq
Donde
= r es el orden del cuartil correspondiente
= q nmero de intervalos con iguales frecuencias u observaciones.
= T nmero total de observaciones

La anterior expresin nos indica que el valor de la variable estudiada es el cuartil que nos piden,
que se corresponder con el primer valor cuya frecuencia acumulada sea mayor o igual a
1
rTq .

Ejemplo 5: Distribucin no agrupadas. En la siguiente distribucin

i
x
i
q
i
T
5 3 3
10 7 10
15 5 15
20 3 18
25 2 20

Calcular la mediana; el primer y tercer cuartil; el cuarto decil y el nonagsimo percentil.
Solucin.
Mediana ) (Me
Lugar que ocupa la mediana 10
2
1
= T
Como es igual a un valor de la frecuencia absoluta acumulada, realizaremos el siguiente clculo:
5 , 12 ) 15 10 ( ) (
2
1
1
2
1
= + = + =
+ i i
x x Me
Primer cuartil ) (
1
C
Lugar que ocupa en la distribucin 5 4 20 1
1 1
= =

rTq . Como
i i
T rTq T < <

1
1
, es decir
10 5 3 < < esto implicara que 10
1
= =
i
x C .
Tercer cuartil ) (
3
C
Lugar que ocupa en la distribucin 15 4 20 3
1 1
= =

rTq , que coincide con un valor de la
frecuencia absoluta acumulada, por tanto realizaremos el clculo:
5 , 17 ) 20 15 ( ) (
2
1
1
2
1
3
= + = + =
+ i i
x x C .
Cuarto decil ) (
4
D
Lugar que ocupa en la distribucin 8 10 20 4
1 1
= =

rTq (4/10). 20 = 80/10 = 8. Como
i i
T rTq T < <

1
1
ya que 10 8 3 < < , por lo tanto 10
4
= D .
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 28

Nonagsimo percentil (P90)
Lugar que ocupa en la distribucin 18 100 20 90
1 1
= =

rTq (90/100) que coincide con un
valor de la frecuencia absoluta acumulada, por tanto realizaremos el clculo:
5 , 22 ) 25 20 ( ) (
2
1
1
2
1
90
= + = + =
+ i i
x x P .

Clculo de los cuartiles en distribuciones agrupadas en intervalos

Este clculo se resuelve de manera idntica al de la mediana.

El intervalo donde se encuentra el cuartil i _simo, es el primero que una vez ordenados los
datos de menor a mayor, tenga como frecuencia acumulada ) (
i
T un valor superior o igual a
1
rTq ; una vez identificado el intervalo ] , (
1 i i i
L L I

= , calcularemos el cuartil correspondiente,
a travs de la frmula:
( ) 1 ,...., 2 , 1 ) (
1
1
1
1
1
= + =

q r L L T rTq L C
i i i i i q r
q (2.12)

Ejemplo: Distribuciones agrupadas. Hallar el primer cuartil, el cuarto decil y el 90 percentil de
la siguiente distribucin:

] , [
1 i i
L L


i
q
i
T
[0,100] 90 90
(100,200] 140 230
(200,300] 150 380
(300,800] 120 500

Primer cuartil ) (
1
Q
Lugar ocupa el intervalo del primer cuartil: 125 4 500 1
1 1
= =

rTq .
Por lo tanto
1
Q estar situado en el intervalo (100 200].Aplicando la expresin directamente,
tendremos:
( ) 125 100 140 ) 90 125 ( 100 ) (
1
1
1
1
1
1 1 4 1
= + = + = =

i i i i i
L L T rTq L Q C q
Cuarto decil ) (
4
D
Lugar que ocupa: 200 10 500 4
1 1
= =

rTq . Por lo tanto,
4
D estar situado en el intervalo
(100 200]. Aplicando la expresin tendremos:
( ) 57 , 178 100 140 ) 90 200 ( 100 ) (
1
1
1
1
1
1 4 10 4
= + = + = =

i i i i i
L L T rTq L D C q
Nonagsimo percentil ) (
90
P
Lugar que ocupa: 450 100 500 90
1 1
= =

rTq , por lo tanto
90
P estar situado en el intervalo
(300 800]. Aplicando la expresin tendremos:
( ) 67 , 591 500 120 ) 380 450 ( 300 ) (
1
1
1
1
1
1 90 100 90
= + = + = =

i i i i i
L L T rTq L P C q

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 29
2.4. Momentos potenciales

Los momentos son medidas obtenidas a partir de todos los datos de una variable estadstica y
sus frecuencias absolutas. Estas medidas caracterizan a las distribuciones de frecuencias de tal
forma que si los momentos coinciden en dos distribuciones, diremos que son iguales.

2.4.1. Momentos respecto al origen

Se define el momento de orden p respecto al origen de una variable estadstica a la expresin:
) (
p
p
i
N
i p
x
X M
N
x
=
E
=
=
(2.13.a)
Particularidades:

Si 1 = p ,
1
x
es igual a la media aritmtica ) (X M .
Si 0 = p ,
0
x
es igual a uno.

2.4.2. Momentos centrales o momentos con respecto a la media aritmtica

Esta medida central se hace entorno a la media aritmtica del conjunto de observaciones, con
respecto a la variable X .

N
X M x
m
p
i
N
i p
x
)) ( (
1
E
=
=
(2.13.b)

Particularidades:

Si 1 = p , entonces 0
1
=
x
m (demostracin queda propuesta al lector)
Si 2 = p , entonces ) (
2
X S m
x
= , por lo que el segundo momento central corresponde a
la varianza.

2.4.3. Momento producto central

Antes de definir el momento producto central, definiremos el momento producto, el cual a
nivel muestral corresponde a:

) (
) (
1
,
p p
p
i i
N
i p
y x
Y X M
N
y x
=
E
=
=
(2.14.a)

Tenido presente que deben existir el mismo nmero de observaciones de la variable X como
de la variable Y .

En base a esta consideracin tenemos que el momento producto central es igual a lo anterior
pero entorno las medias respectivas, es decir,

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 30
N
Y M y X M x
m
p
i
p
i
N
i p
y x
)) ( ( )) ( (
1
,
E
=
=
(2.14.b)

Si 1 = p , entonces
1
,y x
m representa la covarianza muestral entre las variables X e Y ,
valor que indica la posibilidad de encontrar una relacin lineal entre ambas variables.
Este covarianza muestral se denota habitualmente por:

1 1 1
,
1
,
) ( ) ( ) ( ) , cov(
y x y x y x
Y M X M XY M Y X m = = =

2.5. Medidas de dispersin

Las medidas de dispersin tratan de medir el grado de dispersin que tiene una variable
estadstica en torno a una medida de posicin o tendencia central, indicndonos lo
representativa que es la medida de posicin. A mayor dispersin menor representatividad de la
medida de posicin y viceversa.

2.5.1 Medidas de dispersin absoluta

a) Rango ) (Ra

Se define como la diferencia entre el mximo y el mnimo valor de la variable:

{ } { }
i
I i
i
I i
x x Ra
e e
= min max (2.15)

Ejemplo: Sea X , las indemnizaciones recibidas por cuatro trabajadores de dos empresas A y
B .

A 100 120 350 370
B 225 230 240 245

Entonces, los rangos para A y B , son: 270 100 370 ) ( = = A Ra y 20 225 245 ) ( = = B Ra ,
respectivamente. En este caso se puede determinar que las indemnizaciones de la empresa B
son menos dispersas que en A .

Otros recorridos:

intervalo intercuartlico
1 3
Q Q I
Q
=

intervalo interdeclico
1 9
D D I
D
=

intervalo intercentlico
1 99
P P I
P
=

b) Desviacin absoluta media con respecto a la media ) (
e
d

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 31
Nos indica las desviaciones con respecto a la media con respecto a la media aritmtica en valor
absoluto.

N
X M x
d
i
n
i
e
) (
1
E
=
=
(2.16)

c) Varianza

La varianza mide la mayor o menor dispersin de los valores de la variable respecto a la media
aritmtica. Cuanto mayor sea la varianza mayor dispersin existir y, por tanto, menor
representatividad tendr la media aritmtica.

La varianza se expresa en las mismas unidades que la variable analizada, pero elevadas al
cuadrado.

j
N
j
j j
k
j
i
N
i
X M x
N
X M x
X S
q
q
1
2
1
2
1
)) ( (
)) ( (
) (
=
=
=
E
E
=
E
= (2.17)

Sin embargo, si realizamos un poco ms de lgebra a la ecuacin 2.17 se obtiene otra forma de
calcular la varianza, tal como se puede ver a continuacin.

N
X NM x X M x
N
X M X M x x
X S
i
N
i i
N
i i i
N
i
) ( ) ( 2 )) ( ) ( 2 (
) (
2
1
2
1
2 2
1
+ E E
=
+ E
=
= = =
(2.18)
) ( ) ( 2 ) (
2 1
2
1
X M
N
x
X M
N
x
X S
i
N
i i
N
i
+
E

E
=
= =
(2.19)

Reemplazando en la ecuacin 2.19 la ecuacin 2.1 se tiene la siguiente expresin.

) ( ) ( ) (
2 2
X M X M X S = (2.20)

Propiedades:

a. Positividad.

Dado que la varianza es una medida de dispersin, entonces sta debe ser siempre mayor o
igual que cero y menor que infinito, es decir, s s ) ( 0 X S .

Tngase presente que la nica forma de que la varianza sea igual a cero, es cuando la variable a
considerar es una constante.

b. Cambios de Origen.

Supongamos que la variable aleatoria X es sometida a un cambio de origen de la forma
X a Y + = , por lo tanto, la dispersin para esta nueva variable ser:
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 32

) ( ) ( ) ( X S X a S Y S = + =

Con lo cual queda claro que el cambio de origen no afecta la dispersin, hecho que el lector
deber demostrar.

c. Cambio de escala.

Si a una variable X la sometemos a un cambio de escala b , de la forma bX Y = , entonces, la
varianza para esta nueva escala quedar expresada de la forma:

) ( ) ( ) (
2
X S b bX S Y S = =

Claramente la escala s afecta el valor de la varianza, por lo tanto, se debe tener cuidado con
este tipo de aplicaciones ya que pueden en ms de una ocasin inducir a error.

d. Suma de varianzas muestrales.

Si contamos con dos variables X e Y , entonces, la suma de la varianza muestral entre ambas
variables corresponde a:

) , cov( 2 ) ( ) ( )] ( ) ( ) ( [ 2 ) ( ) ( ) ( Y X Y S X S Y M X M Y X M Y S X S Y X S + = + =

El lector deber tener presente que demostrar este tipo de ejercicio, ayuda mucho a la
compresin de sus aplicaciones.

e. Desviacin tpica o estndar.

Se define como la raz cuadrada con signo positivo de la varianza

) ( ) ( X S X s = (2.21)
f. Varianza condicional.

Ya que un grupo de observaciones se pueda dividir en grupos ms pequeos entonces, al igual
que el caso de obtener medias muestrales condicionales, es posible obtener varianzas
condicionales. Estas varianzas condicionales se definen como:

k j
n
Y X M x
Y X S
j
j i
n
i
j
j
,..., 2 , 1
)] | ( [
) | (
2
1
=
E
=
=
(2.22)

Dentro de esta varianza condicional X representa la variable a medir, Y es la variable que
condiciona los subgrupos, as que el trmino
j
Y representa la condicin para el subgrupo
j _simo y
j
n corresponde a la cantidad de elementos dentro del grupo j _simo y k es el
nmero total de grupos.
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 33

g. Intervarianza.

La intervarianza corresponde a la variacin o dispersin que existe entre los grupos, es decir,

N
X M Y X M
X M S X InterVar
j j
k
j
Y
2
1
)] ( ) | ( [
Y)) | ( ( ) (
E
= =
=
q
(2.23.a)

Donde X es la variable a medir, Y es la variable de referencia para condicionar los grupos,
j
q
es el nmero total de elementos en el grupo j _simo y k es la cantidad total de subgrupos,
contenidos en las N observaciones.

h. Intravarianza.

Este trmino representa la dispersin o varianza promedio al interior de los grupos, es decir,
N
Y X S
Y X S M X IntraVar
j j
k
i
Y
) | (
)) | ( ( ) (
1
q
=
E
= = (2.23.b)

Donde X es la variable a medir, Y es la variable de referencia para condicionar los grupos,
j
q
es el nmero total de elementos en el grupo j _simo y k es la cantidad total de subgrupos,
contenidos en las N observaciones.

Sin embargo, se puede demostrar (queda propuesto para el lector hacerlo) que la varianza
muestral total no es ms que la suma de la inter e intra varianza muestrales, tal que:

)) | ( ( )) | ( ( ) ( ) ( ) ( Y X S M Y X M S X IntraVar X InterVar X S
Y Y
+ = + = (2.24)

La ecuacin (2.24) nos puede resultar muy til para establecer de dnde proviene la mayor
dispersin, ya que esta puede venir principalmente de la diferencia entre los grupos (en
problema donde se agrupa por condicin socioeconmica se puede encontrar mayor
intervarianza que intravarainza), y de las diferencias al interior de los grupos (en problemas de
educacin segn sexo, podemos detectar mayor intravarianza que intervarianza).

2.5.2. Medidas de dispersin relativa

Nos permiten comparar la dispersin de distintas distribuciones.

a) Coeficiente de variacin de Pearson ) (
x
CV

Indica la relacin existente entre la desviacin tpica de una muestra y su media.

) (
) (
) (
X M
X s
X CV = (2.25)

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 34
Al dividir la desviacin tpica por la media se convierte en un valor exento de unidad de
medida. Si comparamos la dispersin en varios conjuntos de observaciones tendr menor
dispersin aqulla que tenga menor coeficiente de variacin.

El principal inconveniente, es que al ser un coeficiente inversamente proporcional a la media
aritmtica, cuando sta tome valores cercanos a cero, el coeficiente tender a infinito.

Ejemplo 6. Calcula la varianza, desviacin tpica y la dispersin relativa de esta distribucin.

Sea x el nmero de habitaciones que tienen los 8 pisos que forman un bloque de vecinos

i
x
i
q
2 2
3 2
5 1
6 3

125 , 4 ) (
1
1
= E =
= j j
k
j
N
x X M q habitaciones
86 , 2 ) ( ) ( ) (
2 2
= = X M X M X S habitaciones al cuadrado
69 , 1 ) ( ) ( = = X S X s habitaciones
41 , 0 ) ( / ) ( ) ( = = X M X s X CV

Queda propuesto al lector buscar una interpretacin para estos resultados, y los presente en un
prrafo literario.

2.6. Medidas de forma

Hasta ahora hemos estado analizando y estudiando la dispersin de una distribucin, pero
parece evidente que necesitamos conocer ms sobre el comportamiento de una distribucin. En
esta parte, analizaremos las medidas de forma, en el sentido de histograma o representacin de
datos, es decir, qu informacin nos aportan segn la forma que tenga la disposicin de datos.

Las medidas de forma de una distribucin se pueden clasificar en dos grandes grupos o bloques:
medidas de asimetra y medidas de curtosis.

2.6.1. Medidas de asimetra o sesgo : Coeficiente de asimetra de Fisher.

Cuando al trazar una vertical (en el diagrama de barras o histograma de una variable, segn sea
sta discreta o continua) por el valor de la media, esta vertical se transforma en eje de simetra,
decimos que la distribucin es simtrica. En caso contrario, dicha distribucin ser asimtrica o
diremos que presenta asimetra.

El coeficiente de asimetra ms preciso es el de Fisher, que se define por:

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 35
2 3
3
1
1
1
)] ( [
)) ( (
X S
X M x
i
N
i
N
E
=
=
u (2.26)

Segn sea el valor de
1
u , diremos que la distribucin es asimtrica a derechas o positiva, a
izquierdas o negativa, o simtrica, o sea:
Si 0
1
> u , entonces la distribucin ser asimtrica positiva, es decir, existe mayor
concentracin de valores a la derecha de la media.
Si 0
1
< u , entonces la distribucin ser asimtrica negativa, es decir, existe mayor
concentracin de valores a la izquierda de la media.
Si 0
1
= u , en este caso existe una gran posibilidad de que la distribucin sea simtrica;
sin embargo, si la distribucin es simtrica entonces se puede afirmar con certeza que
la asimetra de Fisher ser igual a cero.

Entonces, se puede sealar las siguientes condiciones para la asimetra, tal que:
Si existe simetra, entonces 0
1
= u , y Me X M = ) ( ; si adems la distribucin es
unimodal, tambin podemos afirmar que: Mo Me X M = = ) ( .
Si 0
1
> u , entonces Mo Me X M < < ) ( .
Si 0
1
< u , entonces Mo Me X M > > ) ( .

2.6.2. Medidas de apuntamiento o curtosis: coeficiente de curtosis de Fisher

Con estas medidas nos estamos refiriendo al grado de apuntamiento que tiene una distribucin;
para determinarlo, emplearemos el coeficiente de curtosis de Fisher ) (
2
u .

2
4
1
1
2
)] ( [
)) ( (
X S
X M x
i
N
i
N
E
=
=
u (2.27)

Si 3
2
> u la distribucin ser leptocrtica o apuntada
Si 3
2
= u la distribucin ser mesocrtica o normal
Si 3
2
< u la distribucin ser platicrtica o menos apuntada que lo normal.

2.7. Medidas de concentracin

Las medidas de concentracin tratan de poner de relieve el mayor o menor grado de igualdad
en el reparto del total de los valores de la variable, son por tanto indicadores del grado de
distribucin de la variable.

Para este fin, estn concebidos los estudios sobre concentracin.

Denominamos concentracin a la mayor o menor equidad en el reparto de la suma total de los
valores de la variable considerada (renta, salarios, etc.).

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 36
Las infinitas posibilidades que pueden adoptar los valores, se encuentran entre los dos
extremos:

1.- Concentracin mxima, cuando uno solo percibe el total y los dems nada, en este caso, nos
encontraremos ante un reparto no equitativo:

1 2 1
= = =
T
x x x y
T
x

2.- Concentracin mnima, cuando el conjunto total de valores de la variable esta repartido por
igual, en este caso diremos que estamos ante un reparto equitativo

T T
x x x x = = = =
1 2 1


De las diferentes medidas de concentracin que existen nos vamos a centrar en dos:

Indice de Gini, Coeficiente, por tanto, ser un valor numrico.
Curva de Lorenz, grfico, por tanto, ser una representacin en ejes coordenados.

Sea una distribucin de rentas ) , (
i i
x q de la que formaremos una tabla con las siguientes
columnas:

Los productos
i i
x q , que nos indicarn la renta total percibida por los
i
q rentistas de renta
individual.

Las frecuencias absolutas acumuladas
i
T .

Los totales acumulados
i
u que se calculan de la siguiente forma:

1 1 1
x u q =
2 2 1 1 2
x x u q q + =

=
=
k
i
i i k
x u
1
q

La columna total de frecuencias acumuladas relativas, que expresaremos en tanto por ciento y
que representaremos como
i
p y que vendr dada por la siguiente notacin

100
T
T
p
i
i
=

La renta total de todos los rentistas que ser un y que dada en tanto por ciento, la cual
representaremos como
i
q y que responder a la siguiente notacin:

100
t
i
i
u
u
q =

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 37
Por tanto ya podemos confeccionar la tabla que ser la siguiente:

i
x
i
q
i i
x q
i
T
i
u
i
p
i
q
i i
q p
1
x
1
q
1 1
x q
1
T
1
u
1
p
1
q
1 1
q p

t
x
t
q
t t
x q T T
t
=
t
u
t
p
t
q
t t
q p

Como podemos ver la ltima columna es la diferencia entre las dos penltimas, esta diferencia
sera cero para la concentracin mnima ya que
i i
q p = y, por tanto, su diferencia sera cero.

Si esto lo representamos grficamente obtendremos la curva de concentracin o curva de
Lorenz .La manera de representarlo ser, en el eje x , los valores
i
p en % y en el eje y los
valores de
i
q en %. Al ser un %, el grfico siempre ser un cuadrado, y la grfica ser una
curva que se unir al cuadrado, por los valores (0,0), y (100,100), y quedar siempre por
debajo de la diagonal.

La manera de interpretarla ser: cuanto ms cerca se site esta curva de la diagonal, menor
concentracin habr, o ms homogeneidad en la distribucin. Cuanto ms se acerque a los ejes,
por la parte inferior del cuadrado, mayor concentracin.

Analticamente calcularemos el ndice de Gini el cual responde a la siguiente ecuacin:

=

=
1
1
1
1
) (
t
i
i
t
i
i i
G
p
q p
I (2.25)

NOTA: Este ndice tomara los valores de 0 =
G
I cuando
i i
q p = concentracin mnima y de
1 =
G
I cuando t i q
i
,..., 1 0 = = .

Sin embargo, esto puede apreciarse mejor en un ejemplo, por lo que veamos la siguiente tabla.


] ; [
1 i i
L L


i
x
i
q
i i
x q
i
T
i
u
i
p
i
q
i i
q p
[0,50] 25 23 575 23 575 8,85 1,48 7,37
(50,100] 75 72 5400 95 5975 36,54 15,38 21,16
(100,150] 125 62 7750 157 13725 60,38 35,33 25,06
(150,200] 175 48 8400 205 22125 78,85 56,95 21,90
(200,250] 225 19 4275 224 26400 86,15 67,95 18,20
(250,300] 275 8 2200 232 28600 89,23 73,62 15,61
(300,350] 325 14 4550 246 33150 94,62 85,33 9,29
(350,400] 375 7 2625 253 35775 97,31 92,08 5,22
(400,450] 425 5 2125 258 37900 99,23 97,55 1,68
(450,500] 475 2 950 260 38850 100,00 100,00 0,00

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 38
Se pide ndice de concentracin y Curva de Lorenz correspondiente

ndice de concentracin de GINI

193 , 0
55 , 651
48 , 125
) (
1
1
1
1
= =

=
t
i
i
t
i
i i
G
p
q p
I

Observamos que hay poca concentracin por encontrarse cerca del 0.

Curva de Lorenz

La curva la obtenemos cerca de la diagonal, que indica que hay poca concentracin, tal como se
aprecia e la figura 1.6.
CURVA DE LORENTZ
0
20
40
60
80
100
0 20 40 60 80 100
% de la poblacin
%

d
e

l
o
s

i
n
g
r
e
s
o
s

Figura 1.6. Curva de Lorente, en base al ejemplo presentado.

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 39
2.7. Representacin Grfica de las Distribuciones de Frecuencia.

El objetivo esencial de las representaciones grficas de las distribuciones de frecuencia es
obtener una idea general sobre sus propiedades en un simple vistazo. Observando un
histograma de frecuencias podemos deducir si la variable se aproxima a la normalidad o si es
simtrica, as como otras propiedades que posteriormente pueden ser analizadas de modo
formal utilizando contraste u otras herramientas adecuadas.

A la hora de representar distribuciones de frecuencias ser necesario tener presente en primer
lugar si la variable es cualitativa o cuantitativa. En segundo lugar, y ya dentro de las variables
cuantitativas, habr que tener presente si la distribucin es agrupada o no agrupada. Teniendo
en cuenta estas caractersticas de la variable o las variables cuya distribucin de frecuencias se
representa podemos clasificar los grficos como sigue:

Histogramadefrecuencia
Datosagrupados Polgonodefrecuencia
Polgonodefrecuenciaacumulada
Cuantitativos
Diagramadebarras
Diagramaescalonado
Datossinagrupar
Polgonodefrecuencias
Poligonodefrecuenc
Variables

iasacumulada
Diagramadesectores
Cualitativos Diagramaderectngulos
Pictogramas









Cuadro 1. Agrupaciones del tipo de variable con el tipo de grfico.

2.7.1. Representacin para Variables Cualitativas.

Los diagramas de rectngulo se construyen asignando a cada modalidad de la variable
cualitativa un rectngulo con altura igual (o proporcional) a su frecuencia absoluta
i
q y con
base constante.

Como ejemplo, en la figura 1.7 se representa un diagrama de barra que representa los activos
segn las distintas modalidades de la variable rama de actividad. Sobre cada rectngulo se
presenta la frecuencia absoluta
i
q en miles de activos de la correspondiente rama de actividad.
Sobre el eje abscisas se presentan las propias ramas de actividad y sobre el eje de ordenadas se
presentan diferentes valores de las frecuencias absolutas por intervalos que sirven como
referencias para situar la altura de cada rectngulo.
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 40
Activos por Ramas de Actividad
3706
3437
1096
1388
648
2454
0
500
1000
1500
2000
2500
3000
3500
4000
Agricultura Fabriles Construccin Comercio Transporte Otros

Figura 1.7. Representacin de los activos por Rama por rectngulos.

Los diagramas de sectores (o de pastel) constituyen el tipo de grfico ms utilizado para
representar distribuciones de frecuencias de variables cualitativas. La variable se representa en
un crculo cuyas porciones (sectores circulares) tienen un rea proporcional a las frecuencias
absolutas de las modalidades de la variable. Para realizar el grfico de la figura 1.8 basta con
signar a cada modalidad de la variable un sector circular cuyo ngulo central sea proporcional a
la frecuencia absoluta de la modalidad. Como seguramente el lector ya lo sospecha, el clculo
del ngulo consiste en una regla de tres, es decir, el total de las observaciones es a 360 como
i
q es al ngulo desconocido
i
o , lo cual numricamente nos lleva a:

360
360 360
i i
i i i
N
N
f o
q o q

= =



Que corresponde a que el ngulo desconocido es igual a la frecuencia relativa por 360. Por
ejemplo, para el mismo ejercicio de los prrafos anteriores construiremos primero la tabla de
valores para determinar los ngulos respectivos, es decir,

Tabla1. Activos por rama segn frecuencia relativa por ngulo.
Rama Activos
Activos
Relativos ngulo
Agricultura
3706 0.29 104.81
Fabriles 3437 0.27 97.20
Construccin
1096 0.09 31.00
Comercio 1388 0.11 39.26
Transporte
648 0.05 18.33
Otros
2454 0.19 69.40
TOTAL
12729 1 360


ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 41
Activos por Ramas de Activos
Agricultura
Fabriles
Construccin
Comercio
Transporte
Otros
Agricultura
Fabriles
Construccin
Comercio
Transporte
Otros

Figura 1.8. Pictograma de sectores para la rama de activos.

Otra forma habitual de construir grficos de sectores consiste en asignar al sector circular
relativo a la modalidad i-sima un porcentaje igual al tanto por ciento que representa su
frecuencia absoluta ni sobre la frecuencia total
1
k
i i
N q
=
= E . Lo cual numricamente se obtiene
como el producto de la frecuencia relativa por 100%, 100%
i i
p f = , y en la figura 1.9 se puede
apreciar una variante del diagrama de sectores con porcentajes.

Activos por Ramas de Activos
29%
27%
9%
11%
5%
19%
Agricultura
Fabriles
Construccin
Comercio
Transporte
Otros

Figura 1.9. Muestre una variante de la figura 1.8 en trminos de presentacin.

2.7.2. Representacin para Variables Cuantitativas sin Agrupar.

Los diagramas de barras para variables cuantitativas sin agrupar se construyen situando
sobre el eje de las abscisas los valores de la variable y sobre el eje de las ordenadas los valores de
sus frecuencias absolutas. Por otro lado los diagramas de barras constituyen una herramienta
muy adecuada para comparar los tamaos relativos de cantidades que se distribuyen en el
espacio, entre los elementos o estados y entre los periodos. Por ejemplo, en la tabla 2 recoge,
para una muestra, los aos de escolaridad que posean los encuestados. Esta informacin se
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 42
presenta visualmente en el diagrama de barras de la figura 1.10. El diagrama se constituye en
forma que, la altura del rectngulo que representa a cada uno de los niveles de educacin, es
proporcional al nmero de personas que posee ese nivel de educacin. La informacin
contenida en los diagramas de este tipo puede ser asimilada de manera fcil y rpida.

Tabla 2. Frecuencias relativas y absolutas segn ao de escolaridad.
Escolaridad
i
q
i
N
i
f
i
F
8 11 11 0.035 0.035
9 21 32 0.067 0.102
10 23 55 0.073 0.175
11 38 93 0.121 0.295
12 45 138 0.143 0.438
13 25 163 0.079 0.517
14 33 196 0.105 0.622
15 25 221 0.079 0.702
16 33 254 0.105 0.806
17 21 275 0.067 0.873
18 22 297 0.070 0.943
19 12 309 0.038 0.981
20 5 314 0.016 0.997
21 1 315 0.003 1.000

0
5
10
15
20
25
30
35
40
45
8 9 10 11 12 13 14 15 16 17 18 19 20 21
Distribucin Muestral de la Escolaridad

Figura 1.10. Representacin de la frecuencia absoluta de los aos de escolaridad.

Los diagramas de barras en escalera o de frecuencia acumulada para variables cuantitativas
sin agrupar se construyen situando sobre eje de abscisas los valores de la variable y sobre el eje
de ordenadas los valores de sus frecuencias absolutas acumuladas
i
N , tal y como se muestra la
figura 1.11 para nuestro ejemplo de los aos de escolaridad de una muestra.

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 43
0
50
100
150
200
250
300
350
8 9 10 11 12 13 14 15 16 17 18 19 20 21
Distribucin Muestral de la Escolaridad

Figura 1.11. Representacin de la frecuencia acumulada sobre los aos
de escolaridad de una muestra.

Ambas representaciones de diagramas de barras de frecuencia absoluta o acumulada pueden
hacerse tambin utilizando frecuencias relativas en vez de absoluta en el eje de ordenada.

Para construir el polgono de frecuencia se unen las coordenadas ( ,
i i
x q ) tal y como se observa
en la figura 1.12 (lnea azul). Tambin pueden unirse las coordenadas ( ,
i i
x f ). Por ltimo, para
construir el polgono de frecuencias calculadas se unen las coordenadas ( ,
i i
x N ) segn se
observa en la lnea roja en la figura 1.12. Tambin pueden unirse las coordenadas ( ,
i i
x F ).

Frecuencia Relativas
0.000
0.020
0.040
0.060
0.080
0.100
0.120
0.140
0.160
8 9 10 11 12 13 14 15 16 17 18 19 20 21
0.000
0.200
0.400
0.600
0.800
1.000
1.200
fi Fi

Figura 1.12. Representacin de la frecuencia relativa simple y acumulada.

Como ejemplo, en la figura 1.7 se presenta un diagrama de rectngulo que representa los
activos segn distintas modalidades de la variable rama de actividad. Sobre cada rectngulo se
presenta la frecuencia absoluta en miles de activos de la correspondiente rama actividad. Sobre
el eje de abscisas se presentan las propiedades ramas de actividades y sobre el eje ordenadas se
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 44
presentan diferentes valores de las frecuencias absolutas por intervalos que sirven como
referencia para situar la altura de cada rectngulo.

2.7.3. Representaciones para Variables Cuantitativas Agrupadas.

Los histogramas de frecuencia para variables cuantitativas agrupadas en intervalos se construyen
levantando sobre cada intervalo un rectngulo de rea proporcional a la frecuencia absoluta
correspondiente de dicho intervalo. Hay que tener muy presente que si los intervalos son de
amplitud constante, las alturas de los rectngulos sern iguales a las frecuencias absolutas
respectivas (las reas dependen slo de las alturas porque las bases de los rectngulos son
iguales). Si las amplitudes de los intervalos son desiguales, las alturas de los rectngulos
(densidad de frecuencias) deben calcularse dividiendo la frecuencia absoluta por la amplitud del
intervalo.

Si llamamos
i
o a la densidad del intervalo i-simo,
i
c a su amplitud y
i
n a sus frecuencias
absolutas, la densidad de frecuencia
i
o vendr dada por /
i i i
c o q = . La tabla 3 resume los
valores de necesarios para construir el histograma de frecuencias, que como ya sabemos, consta
de rectngulos cuyas bases sobre el eje abscisas son los intervalos
i
I , y cuyas alturas son las
densidades de frecuencia
i
o .

Tabla 3. Representacin de una tabla de datos agrupados.
Intervalo
Marca de
clase
Frecuencia Absoluta Frecuencia Relativa
Amplitud Densidad Simple Acumulado Simple Acumulado
1
[ , ]
i i i
I L L

=
i
x
i
q
i
N
i
f
i
F
i
c
i
o

Como ejemplo consideramos la variable cuantitativa X son valores agrupados en intervalos
cuya tabla de frecuencias es la siguiente:

Tabla 4. Ejemplo de una variable cuantitativa X agrupada.
Intervalo
Marca de
clase
Frecuencia Absoluta
Amplitud Densidad Simple Acumulado
1
[ , ]
i i i
I L L

=
i
x
i
q
i
N
i
c
i
o
[1,3) 2 10 10 2 5
[3,5) 4 20 30 2 10
[5,10) 7.5 10 40 5 2
[10,20) 15 30 70 10 3
[20,50] 35 30 100 30 1

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 45
Histograma
0
2
4
6
8
10
12
0 10 20 30 40 50 60

Figura 1.13. Representacin de un histograma.

En ocasiones suele sustituirse el histograma por el polgono de frecuencia simple, grfico que se
forma al unir con la marca de clase (lo frecuente es que sea el punto medio del intervalo) a una
altura proporcional a la frecuencia (para intervalos iguales) o a la densidad de frecuencia
(intervalos desiguales). La unin de estos puntos ( ,
i i
x q ) o ( ,
i i
x f ) forma una lnea quebrada
rectilnea que al prolongarla por los extremos corta al eje x (esta prolongacin suele hacerse
hasta los puntos medios de las categoras inferior y superior inmediatos que corresponde a la
clase de frecuencia cero, ver figura 1.14). De esta forma, el rea que queda por debajo del
polgono de frecuencia es igual al rea contenida dentro del correspondiente histograma. Este
grfico permite comparar las distribuciones de varios grupos observando las reas donde
coinciden o se separan.

Otro instrumento grfico esencial para representar una distribucin de frecuencias es el
polgono de frecuencia acumulada (ver figura 1.15), que se utiliza cuando se trabaja con
frecuencias absolutas o relativas acumuladas y que se construye levantando en el extremo
superior de cada intervalo de clase una ordenada igual a la frecuencia acumulada
correspondiente y uniendo a continuacin dichas ordenadas. Los puntos que se unen sern
(
1
,
i i
L N
+
). La primera ordenada se une al extremo inferior del primer intervalo prolongndose
el polgono desde este punto hacia la izquierda sobre el eje x , y prolongndose tambin el
polgono a partir de la ordenada del extremo superior del ltimo intervalo con una paralela al
eje de abscisas. De esta forma, la ordenada correspondiente a cada valor de la variable X mide
el nmero de observaciones para las cuales la variable toma valores menores o iguales que la
abscisa (concepto que aproxima la funcin de distribucin de la variable X ).

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 46
Histograma y Marca de Clase
0
2
4
6
8
10
12
0 10 20 30 40 50 60

Figura 1.14. Representacin del histograma por medio polgonos.

Histograma de Frecuencia Acumulada
0
20
40
60
80
100
120
0 10 20 30 40 50 60

Figura 1.15. Polgono de frecuencia acumulado relativo a la variable X .

2.7.4. Otros Diagramas.

2.7.4.1. Diagramas de Dispersin.

A menudo nos interesar analizar la relacin entre dos nmeros, en el caso de que sta exista.
Por ejemplo, la tabla 5 recoge los ndices de inflacin de precios al consumo y los tipos de
inters a largo plazo de doce pases de la Unin Europea en 1992. Uno esperara que los tipos
de inters ms altos fueran los de aquellos pases donde la inflacin es alta, y basta una ojeada a
los nmeros para confirmar que as es. Para obtener una idea ms completa acerca de la
relacin entre estas dos variables, hemos representado los datos en el diagrama de dispersin de
la figura 1.16. En este grfico se puede apreciar que, para los ocho pases que tienen los tipos
de inters y la inflacin ms bajos, hay poca relacin entre las variables. Sin embargo, los cuatro
pases que tienen las tasas de inflacin ms altas tienen tambin los tipos de inters. Unos de
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 47
ellos, Grecia, destaca por tener los valores ms altos tanto de inflacin como de tipos de
inters.

Los diagramas de dispersin, como el de la figura 1.16, proporcionan una visin grfica de la
relacin entre dos variables. En todo caso dejaremos para cursos superiores las tcnicas
estadsticas que permiten analizar con mayor profundidad datos de este tipo.

Tabla 5. Tasa de inflacin y tipos de inters a largo plazo.
Pas Inflacin (%) Tipos de Inters (%)
Francia 2.8 8.6
Alemania 4.5 7.9
Italia 5.5 13.1
Reino Unido 3.7 9.1
Blgica 2.4 8.6
Dinamarca 2 9.8
Grecia 15.9 22.5
Irlanda 3 9.4
Luxemburgo 3.2 7.9
Holanda 3.7 8.1
Portugal 8.9 16.1
Espaa 5.9 12.6

Inflacin (X) v/s Tipo de Inters (Y)
0
5
10
15
20
25
0 5 10 15 20

Figura 1.16. Diagrama de dispersin de la tasa de inflacin y de
los tipos de inters a largo plazo.

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 48
2.7.4.2. Diagramas de Caja.

El diagrama de caja es una herramienta muy til en el anlisis grfico de un conjunto de
datos. Para ilustrarlo, emplearemos de nuevo las tasas de inflacin de los pases de la Unin
Europea descrito en la tabla 5.

La mediana de la tasa de inflacin de estos pases es del 3.7%, mientras que el primer y el
tercer cuartil son 2.85% y 5.8% respectivamente. Una caracterstica de estos datos es el hecho
de que la tasa de inflacin de Grecia, que es del 15.9%, es mucho ms alta que las tasas de los
otros pases. Exceptuando este valor, todas las tasas de inflacin estn en el rango que va de
2.0% a 8.9%.

Esta informacin se resume en el grfico de la figura 1.17. La escala muestra las tasas de
inflacin. El rectngulo (o caja) se ha dibujado de forma que sus lmites inferior y superior
corresponde al primer y al tercer cuartil respectivamente. En el interior de la caja se ha
dibujado una lnea para sealar el lugar que ocupa la mediana. El valor atpico para Grecia
aparece lejos de la caja, y las lneas que van desde los bordes de la caja hasta lneas horizontales
(o bigotes) sealan la menor y la mayor de las observaciones restantes.

Inflacion
2,00
4,00
6,00
8,00
10,00
12,00
14,00
16,00
7

Figura 1.17. Diagrama de caja de las tasas de inflacin de doce
pases de la Unin Europea.

Los diagramas de caja resultan muy tiles para comparar visualmente dos o ms conjuntos de
datos. Para ilustrar esto, en la tabal 6 se recogen las notas finales del curso de estadstica para
una muestra de estudiante de estos cursos en tres generaciones diferentes.

La tabla 7 aparecen la mediana y los cuartiles primero y tercero de cada uno de estos tres
conjuntos de notas. La figura 1.17 contiene los diagramas de caja de las puntuaciones de cada
uno de estos tres grupos. En este ejemplo concreto, puede apreciarse que hay semestres con
ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 49
mayor nmero de observaciones atpicas, que en este caso representan rendimientos bajos. Por
lo tanto, los bigotes de las cajas corresponden a la menor y la mayor puntuacin de cada
conjunto sin considerar los valores atpicos.

Tabla 6. Grupo de notas del curso de estadstica para tres semestres consecutivos.
2005 2006
Primer semestre Segundo semestre Primer semestre
3.7 4.0 4.3 5.6 4.1 4.0
4.4 5.4 5.7 4.2 4.2 3.2
4.3 4.0 5.3 5.2 2.3 4.0
2.2 4.8 5.2 4.2 4.0 4.0
2.3 4.0 4.3 4.1 4.2 4.1
4.7 4.2 2.5 5.4 4.6 5.2
3.7 3.1 3.6 4.2 3.7 4.6
3.4 4.0 5.0 5.2 4.3 5.0
4.2 3.7 4.4 4.0 4.7 2.8
3.6 5.3 4.0 4.3 5.0 4.8
4.1 4.0 5.1 4.4 3.3 4.1
4.6 4.7 4.0 4.9 4.9 5.4
4.8 3.8 4.4 4.8 4.4 3.6
2.4 4.6 4.8 4.0 4.3 4.4
4.6 3.8 5.6 5.4 3.5 4.0
5.2 4.5 5.0 4.0 2.4 4.8
4.4 4.8 5.2 5.2 3.1 4.9
3.8 4.0 4.9 4.7 4.8 4.1
4.6 4.6 4.0 4.2 4.0
4.3 4.8 4.2 4.0 4.0
4.4 4.5 3.0 4.8 4.2
4.6 5.0 3.7 3.2 5.7
4.9 4.7 3.8 4.1
4.5 4.9 4.5 4.0
5.3 4.2 3.7 4.1
4.7 4.8 4.1 4.6
4.5 4.8 4.0 3.7
4.3 5.3 4.3 4.1
4.9 5.3 4.4 4.0

En la figura 1.18 se observa que los estudiantes del ltimo semestre consiguieron la mediana
ms baja, dejando a un 25% del grupo muy apretado entre este valor y la nota 4.0, pero la
distribucin de sus notas finales del 25% menor son considerablemente mayores que la de los
grupos anteriores. Otro hecho que llama la atencin es que el tercer grupo presenta una
agrupacin ms ajustada de los alumnos, sin embargo, dentro de estas conclusiones se debe
considerar el hecho de que las muestras son de distinto tamao, y que no se ha dado ningn
antecedente sobre las caractersticas de los alumnos.

ESTADSTICA CAPITULO 1
Estadstica Descriptiva.

Autor: Pablo Tapia G. Pgina 50
Tabla 7. Cuarteles de las puntuaciones en las notas del examen.

2005 2006

Primer semestre Segundo semestre Primer semestre
Mnimo 2.2 2.5 2.3
Primer cuartil 3.9 4.2 4.0
Mediana 4.3 4.7 4.1
Tercer cuartil 4.7 5.2 4.6
Mximo 5.4 5.7 5.7


200501 200502 200601
Semestre
2,00
3,00
4,00
5,00
6,00
N
o
t
a
s

Figura 1.18. Diagrama de caja de las notas finales del curso
de estadstica.

Potrebbero piacerti anche