Sei sulla pagina 1di 45

FACULTAD DE CIENCIAS DEPARTAMENTO DE ESTADISTICA

ESTADISTICA 220015

CARRERAS: INGENIERA CIVIL INDUSTRIAL INGENIERA CIVIL y CIVIL MECANICA

PRIMER SEMESTRE 2013

UNIDAD I: ESTADISTICA DESCRIPTIVA


1.1 INTRODUCCIN

El trmino estadstica se deriva de la palabra latina status (que significa estado). Los primeros usos de la estadstica implicaron la recoleccin de datos y la elaboracin de grficas para describir diversos aspectos de un estado o de un pas. En 1662, John Graunt public informacin estadstica acerca de los nacimientos y los decesos. Al trabajo de Graunt siguieron estudios de tasas de mortalidad y de enfermedad, tamaos de poblaciones, ingresos y tasas de desempleo. Los hogares, gobiernos y negocios se apoyan bastante en datos estadsticos para orientar sus acciones. Por ejemplo, se recopilan datos cuidadosamente y con regularidad para establecer las tasas de desempleo, las tasas de inflacin, los ndices del consumidor y las tasas de nacimiento y muerte, y los lderes empresariales utilizan los datos resultantes para tomar decisiones relacionadas con futuras contrataciones, niveles de produccin y la expansin hacia nuevos mercados ( Fuente: Probabilidad y Estadstica. Novena edicin, Mario F. Triola. Addison Wesley) Una meta comn e importante de la estadstica es aprender acerca de un grupo examinando los datos de alguno de sus componentes. En dicho contexto los trminos muestra y poblacin adquieren importancia. Las definiciones formales de stos y otros trminos se presentan a continuacin:

Definicin 1: La estadstica es la ciencia de los datos; implica la coleccin, clasificacin, sntesis, organizacin, anlisis e interpretacin de los datos.
La ciencia de la estadstica suele aplicarse a dos tipos de problemas: Resumir, describir y explorar datos. Utilizar datos de muestra para inferir la naturaleza del conjunto de datos del que se escogi la muestra.

Definicin 2: La rama de la estadstica que se dedica a la organizacin, sntesis y descripcin de conjuntos de datos es la estadstica descriptiva.
Hay ocasiones en que el fenmeno de inters se caracteriza por un conjunto de datos cuya obtencin es o bien fsicamente imposible o requerira un gasto excesivo en dinero o en tiempo. En tales situaciones se muestrea el conjunto de datos y se utiliza la informacin de la muestra para inferir la naturaleza del conjunto. Como ilustracin, supongamos que el fenmeno de inters es el tiempo de espera para que un trabajo de procesamiento de datos termine su ejecucin. Podramos esperar que el tiempo de espera depender de factores tales como el tamao del trabajo, el factor de utilizacin de la computadora , etc. De hecho, si ejecutramos el mismo trabajo una y otra vez en el computador los tiempos de espera variaran, incluso si el factor de utilizacin de la mquina es el mismo. Por tanto, el fenmeno tiempo de espera para el procesamiento de trabajo se caracteriza por un conjunto de datos de gran tamao que slo existe en lo conceptual (en nuestra mente). Para determinar la naturaleza de este conjunto de datos, lo muestreamos; es decir, procesamos el trabajo varias veces, registramos el tiempo de espera en cada ejecucin y luego utilizamos esta muestra de n tiempos de espera para inferir la naturaleza del conjunto grande de datos conceptuales que nos interesa. La rama de la estadstica que utilizamos para resolver este problema es la estadstica inferencial.

Definicin 3: La rama de la estadstica que se ocupa de utilizar datos de muestra para inferir algo acerca de una poblacin se denomina estadstica inferencial.
Poblacin : es la totalidad de los elementos en discusin y acerca de los cuales se desea informacin.

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

Muestra

: es una porcin o parte representativa de una poblacin de inters. (La palabra representativo es la clave de esta idea. Una buena muestra es aquella que refleja las caractersticas esenciales de la poblacin de la cual se obtuvo) : es una caracterstica de inters de una poblacin o muestra. : es una caracterstica numrica de una poblacin. : se le llama al valor de la variable asociado a un elemento de una poblacin o muestra (son las observaciones recolectadas) : es la actividad realizada segn un plan definido, cuyos resultados producen un conjunto de datos. : es una caracterstica numrica de la muestra.

Variable Parmetro Dato Muestreo Estadgrafo

En estadstica, el objetivo de las tcnicas de muestreo es asegurar que cada observacin en la poblacin tenga una oportunidad igual e independiente de ser incluida en la muestra. Tales procesos de muestreo conducen a una muestra aleatoria. Las observaciones de la muestra aleatoria se usan para calcular ciertas caractersticas de la muestra denominadas Estadsticas o Estadgrafos. Estos estadgrafos se usan como base para hacer inferencias acerca de ciertas caractersticas de la poblacin, que reciben el nombre de Parmetros. En estadstica, la inferencia es inductiva, porque se proyecta de lo especfico (muestra) hacia lo general (poblacin). En un procedimiento de esta naturaleza siempre existe la posibilidad de error. Nunca podr tenerse el 100% de seguridad sobre una proposicin que se base en la inferencia estadstica. Sin embargo, lo que hace que la estadstica sea una ciencia es que, unida a cualquier proposicin, existe una medida de confiabilidad de sta. En estadstica la confiabilidad se mide en trminos de probabilidad. En otras palabras, para cada inferencia estadstica se identifica la probabilidad de que la inferencia sea correcta. Los problemas estadsticos se caracterizan por los siguientes cuatro elementos : 1. La poblacin de inters y el procedimiento cientfico que se emple para muestrear la poblacin. 2. La muestra y el anlisis matemtico de su informacin. Las inferencias estadsticas que resulten del anlisis de la muestra. 3. La probabilidad de que las inferencias sean correctas.

1.2 TIPOS DE DATOS Los datos pueden ser de dos tipos: cuantitativos o cualitativos. Los datos cuantitativos son los que representan la cantidad de algo, medida en una escala numrica. Por ejemplo, la frecuencia de potencia (medida en megahertz) de un semi conductor es una variable cuantitativa, lo mismo que el tiempo de espera (medido en segundos) antes de que un trabajo de cmputo inicie su proceso. En contraste, los datos cualitativos (o categricos) no tienen una interpretacin cuantitativa; slo pueden clasificarse. El conjunto de n ocupaciones correspondientes a un grupo de n graduados de ingeniera es un conjunto de datos cualitativos. Una lista de los fabricantes de n minicomputadores propiedad de n empresas pequeas es un conjunto de datos cualitativos. Es posible un desglose ms fino de los tipos de datos en nominales, ordinales, de intervalo y de razn. Los datos nominales son datos cualitativos con categoras que no pueden ordenarse de forma significativa. Los datos ordinales tambin son cualitativos, pero existe un claro ordenamiento de los grupos del ms alto al ms bajo. Los datos de intervalo y de razn son dos tipos distintos de datos cuantitativos (ver apunte EL PROCESO DE MEDICION). En la mayor parte de las aplicaciones estadsticas basta con clasificar los datos como cuantitativos o cualitativos.

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

Definicin 4: Datos cualitativos son los que describen cualidades, no tienen una interpretacin cuantitativa y slo pueden clasificarse en categoras. Definicin 5: Datos cuantitativos son los que representan la cantidad o el nmero de algo. Se subdividen en DISCRETOS y CONTINUOS. Definicin 6: Datos cuantitativos discretos son los que toman nicamente valores enteros, corresponden en general a contar el nmero de veces que ocurre un evento. Definicin 7: Datos cuantitativos continuos son los que toman valores en un intervalo y corresponden a medir magnitudes continuas.
A su vez el tipo de escala para medir una variable es de suma importancia, entre stas distinguimos cuatro tipos: nominales, ordinales, de intervalo o de razn. Ser nominal cuando se utilizan nombres para establecer categoras (excluyentes), sin que denote jerarqua, por ejemplo el gnero (masculino, femenino), estado civil (soltero, casado, separado, viudo), la regin (I, II,...,XII), etc. Como observamos, las variables medidas en escala nominal no admiten puntuaciones numricas ordenadas significativamente, aunque para efectos principalmente de procesos computacionales asignamos nmeros a estas categoras. Por ejemplo, si medimos el gnero de una persona, podemos asignar 1 al valor hombre y 2 al valor mujer. Esto no significa la mujer sea mayor que el hombre (2>1) ni el doble (2=2x1) como tampoco que existan personas intermedias (1,5). Una exigencia bsica de las escalas nominales es que los objetos han de poder clasificarse en categoras que sean mutuamente excluyentes y exhaustivas, es decir, un objeto debe poder asignarse a una y slo una categora, y todos los elementos han de poder clasificarse en las categoras existentes. Ser ordinal cuando se utilizan nombres para establecer categoras pero con un orden significativo por ejemplo el grado educacional (bsico, medio, superior), factor de riesgo (bajo, medio, alto). Por ejemplo la variable actitud hacia el aborto legal podra ordenar el grado de acuerdo mediante el uso de categoras de respuestas; totalmente de acuerdo, de acuerdo, no sabe, en desacuerdo, totalmente en desacuerdo. Este conjunto de valores ampliamente utilizado se denomina escala de Likert. En esta clasificacin tambin se pueden utilizar nmeros por ejemplo en el factor de riesgo se puede utilizar "1", "2" y "3" para riesgo bajo, medio y alto respectivamente, sin embargo la diferencia aritmtica entre una categora u otra carece de sentido. Una escala de intervalo posee las caracterstica de una nominal (diferentes valores representan diferentes caractersticas de los objetos) y de la ordinal (mayor valor representa mayor presencia de la caracterstica). Sin embargo, la escala de intervalo, aade una nueva propiedad; la diferencia tambin tiene sentido. Las variables medidas en escala de intervalo identifican las diferencias en monto, cantidad, grado o distancia. Tambin dan sentido de cunto o de que tamao, que tan obstinado, qu tan conservador, que tan deprimido, que tan largo, que tan pesado. Una de las caractersticas de las escalas de intervalo es que, el cero es arbitrario, es decir, no es absoluto. En estas escalas no tienen sentido las razones, por ejemplo, si medimos la temperatura en grados celsius y un objeto mide 20C y otro 10C podemos decir que uno tiene el doble de temperatura que otro, pero si estas mismas temperaturas las medimos en grados Fahrenheit no es cierto ya que 20C 68F y 10C 50F,

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

en el que obviamente 68F no es doble de 50F. Una escala de razn tiene las mismas propiedades de las escalas de intervalos pero, adems, las razones si tienen sentido. Estas escalas tienen un valor base cero natural. Por ejemplo la edad, los ingresos, densidad, etc. En resumen; Tipo de Variable Cualitativas o no mtricas Cuantitativas o mtricas Discretas o continuas La eleccin de la herramienta estadstica correcta que se utilice para describir y analizar datos depender del tipo de los datos. Es por ello que la diferencia entre datos cuantitativos y cualitativos es importante. 1.3 DISTRIBUCIN DE FRECUENCIAS Una distribucin de frecuencias o tabla de frecuencias es el agrupamiento u ordenacin de los datos en clases o categoras con las frecuencias correspondientes a cada una. La presentacin de datos cualitativos suele hacerse indicando las clases o atributos considerados y sus frecuencias de aparicin como se indica en la tabla 1 del ejemplo 1 siguiente : Ejemplo 1 (Variable Cualitativa o Atributo) Los datos que se muestran a continuacin estn referido a un estudio de calidad de vida aplicado a una muestra de 116 personas en etapa laboral y corresponden a la respuesta ante la pregunta cmo encuentra el casino o lugar para alimentarse durante la jornada laboral, en trminos de la infraestructura y condiciones ambientales? 0: No existe un lugar 1: Inadecuado 2: Medianamente adecuado 3: Adecuado
3 0 1 0 0 3 3 1 1 3 3 3 3 0 3 3 1 0 3 1 1 0 1 3 3 3 2 3 3 2 3 3 3 3 2 1 3 3 3 3 1 3 3 3 3 2 3 3 3 3 3 2 3 3 3 3 2 2 2 3 3 3 3 3 3 2 3 3 3 3 3 3 3 3 2 3 3 3 3 2 3 3 3 2 3 3 3 2 3 2 3 3 3 3 3 3 0 3 2 0 3 3 3 1 3 2 3 3 3 3 3 3 3 3 3 3

Escala de medicin Nominal u ordinal De intervalo o de razn

La distribucin de frecuencias correspondiente se indica a continuacin: Clases Adecuado Medianamente adecuado Inadecuado No existe un lugar Total Frecuencia absoluta (ni) 82 16 10 8 n = 116 Frecuencia relativa (fi) 0,70 0,14 0,09 0,07 1.00

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

Esta misma idea se aplica para presentar datos cuantitativos cuando el nmero de valores posibles de la variable X es pequeo (menor que 10). Ejemplo 2 (Variable Cuantitativa Discreta) Para estimar la cantidad de madera disponible en una regin boscosa, un propietario decide contar el nmero de rboles con dimetro mayor que 30 centmetros en reas cuadradas de 15 x 15 metros seleccionados al azar. Se seleccionaron al azar 25 cuadrados de 15 x 15 en la regin, observndose el nmero de rboles (con dimetros mayores que 30 cm.) en cada uno de ellos. Los datos son los siguientes: 7 7 10 9 8 10 6 4 8 5 9 10 9 2 9 7 8 8 6 7 3 8 9 6 8

La distribucin de frecuencias correspondiente es: Clases

xi
2 3 4 5 6 7 8 9 10 Total Nota f

ni
1 1 1 1 3 4 6 5 3 n = 25

fi
0.04 0.04 0.04 0.04 0.12 0.16 0.24 0.20 0.12 1.00

Ni
1 2 3 4 7 11 17 22 25

Fi
1/25 = 0.04 2/25 = 0.08 3/25 = 0.12 4/25 = 0.16 7/25 = 0.28 11/25 = 0.44 11/25 = 0.68 22/25 = 0.88 1.0 = 1.00

ni . Se llama la frecuencia relativa de la i-sima clase y se acostumbra expresarla en porcentajes. n As, por ejemplo f 5 0.12 indica que al 12% de los 25 cuadrados seleccionados tienen 6 rboles con un
dimetro mayor a 30 cm. Adems de las frecuencias relativas es conveniente indicar las frecuencias acumuladas Ni y las frecuencias relativas acumuladas Fi donde: Fi

Ni n

ver tabla de ejemplo 2.

Cuando el nmero de valores posibles de una variable discreta o continua sea grande, conviene agrupar en Intervalos de clase. Los intervalos pueden ser de amplitud variable o constante. La seleccin del nmero de intervalos (K), depende de cada caso particular, es aconsejable que haya menos de 20 clases (para un fcil manejo y con el fin de asegurar una compactacin suficiente de informacin) y por lo menos 5 (para evitar la prdida de informacin que se producir al reunir en un grupo datos muy diferentes). Por lo general las clases se eligen de modo que la amplitud de cada una de ellas sea igual para todas las categoras o intervalos de clase. Para ilustrar la construccin de una distribucin de frecuencias, consideraremos el siguiente ejemplo: Ejemplo 3: (Variable cuantitativa continua) Los siguientes datos representan las duraciones, en aos, de 40 bateras de autos similares. Las bateras estaban garantizadas para durar tres aos.

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

2.2 3.4 2.5 3.3 4.7 Los datos ordenados son:


1.6 3.0 3.3 3.6 4.1

4.1 1.6 4.3 3.1 3.8


1.9 3.1 3.3 3.7 4.1

3.5 3.1 3.4 3.7 3.2


2.2 3.1 3.3 3.7 4.2

4.5 3.3 3.6 4.4 2.6


2.5 3.1 3.4 3.7 4.3

3.2 3.8 2.9 3.2 3.9


2.6 3.1 3.4 3.8 4.4

3.7 3.1 3.3 4.1 3.0


2.6 3.2 3.4 3.8 4.5

3.0 4.7 3.9 1.9 4.2


2.9 3.2 3.5 3.9 4.7

2.6 3.7 3.1 3.4 3.5


3.0 3.2 3.5 3.9 4.7

Para resumir estos datos, se han establecido algunas normas que se dan a continuacin en trminos de los datos del ejemplo 3. 1. Se determina el Rango o recorrido de la variable, que est dado por: Rango = X max X min En el ejemplo: Rango = 4,7 - 1,6 = 3,1 2. Se decide el nmero de k de clases (o intervalos de clase) a considerar. El nmero de intervalos, k, a utilizar no est determinado de forma fija y por tanto se debe tomar un k que permita trabajar cmodamente y ver bien la estructura de los datos. Como referencia nosotros tomaremos uno de los siguientes valores aproximados:

N de intervalos

n si n no es muy grande 1+3,3log(n) es el menor entero tal que 2k n


n = 100, un buen criterio es agrupar las

Por ejemplo si el nmero de observaciones que tenemos es observaciones en k

100 10 intervalos. Sin embargo si tenemos n = 1.000.000, ser ms razonable elegir 1000000 1000 !!! k = 1 + 3,3 log(1000000) 20 o 21 intervalos, que elegir k
En nuestro ejemplo: k 1 3.3 log(40) = 6.2868 Podramos entonces, considerar 6 7 intervalos de clase. Tomemos K

7.

3. Se obtiene la amplitud o tamao del intervalo, dividiendo el rango por el nmero de intervalos Rango 3.1 A 0.4429 0.5 K 7 Como criterio y como una forma de facilitar la interpretacin, la amplitud debe presentarse con la misma cantidad de decimales que los datos originales por lo tanto sta debe aproximarse hacia arriba de acuerdo al formato de los datos. Cada clase corresponde a un intervalo de valores, en que el extremo inferior se llama lmite inferior y el extremo superior, lmite superior de la clase. Una forma rpida de saber si las clases sern inclusivas es determinar el lmite superior de la ltima clase, lim . supk , donde
lim sup k mnimo kA up

con up definida como sigue:

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

1 si los datos son enteros 0,1 si los datos tienen un decimal up 0,01 si los datos tienen dos decimales ... y as sucesivamente

Si lim . supk

mximo, entonces las clases sern inclusivas en caso contrario aumentar A en un valor de up .
1,6 7(0,5) 0,1 = 5 > 4,7

En nuestro ejemplo, lim.supk

4. Para escribir las clases, un criterio es comenzar a anotar los lmites inferiores de cada clase, correspondiendo al lmite inferior de la primera clase el valor mnimo luego a este sumamos la amplitud y obtenemos el lmite inferior de la segunda clase y por sumas sucesivas de la amplitud al valor obtenido vamos obteniendo el resto de los lmites inferiores de las clases siguientes. Para obtener los lmites superiores de cada clase se procede de la siguiente forma: El lmite superior de la primera clase corresponde al valor del lmite inferior de la segunda clase menos una unidad de paso (up), donde up se defini anteriormente. (Ver tabla) Intervalos de clase 1.5 2.0 2.5 3.0 3.5 4.0 4.5 1.9 2.4 2.9 3.4 3.9 4.4 4.9 ni 2 1 4 15 10 5 3

Nota: Cuando realizamos este trabajo con algn software, este no necesariamente sigue el criterio empleado manualmente. Se debe recordar que la agrupacin tiene por objeto encontrar un patrn en el comportamiento de la caracterstica de estudio. Observaciones: 1. El punto medio de cada clase representar los valores asignados a ella. Esto es importante porque los puntos medios, llamados marcas de clase (mi), se utilizarn para el clculo de medidas que resumen la informacin como representantes de todos los valores que pertenecen a sus respectivas clases. 2. A los extremos de cada una de las clases se les llama lmite superior y lmite inferior de clase. En nuestro ejemplo, los lmites inferiores son 1.5, 2.0, 2.5, 3.0, 3.5, 4.0 y 4.5, mientras que los lmites superiores son 1.9, 2.4, 2.9, 3.4, 3.9, 4.4 y 4.9. Luego, si consideramos el primer intervalo sus lmites son 1.5 - 1.9. Estos lmites tambin se conocen con el nombre de Lmites Aparentes de clase, ya que al tratarse de una variable cuantitativa continua estos son realmente 1.45 - 1.95, que constituyen lo que se llaman lmites reales o fronteras. Ejercicio 1: Completar la tabla, e interpretar n3 , f3 , N3 y F3. Ejercicio 2: Moore Travel, una agencia de viajes, ofrece precios especiales en ciertas travesas por el Caribe. Planea ofrecer varios de estos paseos durante la prxima temporada invernal y desea enviar folletos a posibles clientes. A fin de obtener el mayor provecho por cada dlar gastado en publicidad, necesita la distribucin de las edades de los pasajeros de las travesas anteriores. Se consider que si participaban pocas personas de un grupo de edad en los paseos no sera econmico enviar un gran nmero de folletos a personas de ese grupo de edad. La

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

agencia seleccion una muestra de 40 clientes anteriores de sus archivos y registr sus edades, las que se muestran a continuacin: 77 54 58 63 45 18 56 58 62 66 63 36 53 62 83 84 26 51 65 71 71 38 50 62 61 63 54 34 43 52 58 50 44 52 60 61 59 41 53 60 a) Defina y clasifique la variable de inters. b) Organice la informacin en una distribucin de frecuencias con 6 intervalos y tal que 15 sea el lmite inferior de la primera clase. c) Indique cuatro conclusiones tiles que permitan a la agencia planear una campaa de publicidad para la prxima temporada.

1.4 REPRESENTACIONES GRFICAS Si bien es til clasificar los datos en categoras (o en intervalos de clase) y determinar las frecuencias absolutas y relativas (como en las tablas anteriores), muchos analistas prefieren una representacin grfica. La grfica ms comn es aquella en que las clases se representan en el eje horizontal y las frecuencias en el vertical. Los diagramas ms adecuados para una variable cualitativa o atributo son los Diagramas de Barras y los Grficos Circulares. Las figuras siguientes muestran respectivamente, un diagrama de barras y un grfico circular correspondiente a la distribucin de frecuencias del ejemplo 1.
Diagrama de barras 90 80 70
Nmero de empleados

60 50 40 30 20 10 0
Adecuado Inadecuado Medianamente Adecuad No existe un lugar

Cmo encuentra el casino o lugar para alimentarse durante la jornada laboral?

Grfico circular para los datos del ejemplo 1


No existe un lugar 6,9% C ategory A decuado Inadecuado Medianamente A decuad No existe un lugar

edianamente A decuad 13,8%

Inadecuado 8,6%

A decuado 70,7%

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

La representacin grfica ms adecuada para una distribucin de frecuencias como la del ejemplo 2 es el diagrama de lneas (o varas) que grafica los valores posibles de la variable y sus frecuencias de aparicin (absolutas y/o relativas). La figura siguiente presenta el diagrama de lneas asociado a la distribucin de frecuencias del ejemplo 2.

ni
10 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 10

xi

Haciendo referencia a los datos de Ejemplo 3 que muestra 40 valores, se puede construir una representacin grfica simple, en que cada uno de los 40 valores se indica como una vara sobre el valor correspondiente en el eje X. (Ejercicio). Si hay ms de 25 mediciones en la muestra, la construccin de un diagrama de lneas o varas como el anterior, involucra mayor detalle del que se necesita para efectos prcticos. La representacin grfica ms frecuente para datos agrupados en intervalos es el Histograma. Un histograma es un conjunto de rectngulos, cada uno de los cuales representa un intervalo de agrupacin o clase. Sus bases son iguales a la amplitud del intervalo, y las alturas se determinan de manera que su rea sea proporcional a la frecuencia de cada clase. Si los intervalos de clase tienen todos la misma amplitud, las alturas (hi) de los rectngulos son iguales a las frecuencias de clases absolutas o relativas. Si los intervalos tienen distintas amplitudes, Ai , entonces las alturas de los rectngulos son iguales a hi La figura siguiente corresponde al histograma asociado a los datos del ejemplo 3.
HISTOGRAMA PARA LOS DATOS DEL EJEMPLO 3

ni . Ai

15.75

ni

11.81

7.88

3.94

0.00 1.7 2.2 2.7 3.2 3.7 4.2 4.7

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

10

Otro grfico til agregado al histograma es el polgono de frecuencias, que se construye uniendo con segmentos de recta los puntos medios (Marcas de Clase) de los intervalos adyacentes.
Polgono de frecuencias para los datos del Ejemplo 3
15.75

11.81

7.88

3.94

1.2

1.7

2.2

2.7

3.2 3.7

4.2

4.7 5.2

As como la grfica de las frecuencias de un conjunto de valores proporciona una descripcin visual de los datos originales, tambin una grfica de frecuencias acumuladas, o de frecuencias relativas acumuladas, proporciona informacin visual acerca de los valores acumulados. Un grfico que muestre las frecuencias acumuladas menores que cualquier frontera superior de clase trazado sobre los lmites reales superiores (o fronteras superiores) de clase se llama polgono de frecuencias acumuladas u ojiva. La Ojiva es una grfica en que se representan las frecuencias acumuladas y se usa para determinar cuntas observaciones hay mayores o menores que un valor determinado en una distribucin. Para dibujar la ojiva, en el eje de las abscisas se ubican los limites reales y en el eje de las ordenadas las frecuencias acumuladas ( N i ) o relativas acumuladas ( Fi ). Cada punto de la grfica es unido mediante una curva suavizada.
Polgono de frecuencias acumuladas para los datos del ejemplo 3 40

Frecuencias acumuladas

30

20

10

1,45

1,95

2,45

2,95

3,45

3,95

4,45

4,95

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

11

1.5 ESTADIGRAFOS DE POSICION CENTRAL, DE VARIABILIDAD Y DE FORMA Estadgrafos Los fenmenos, en general, no suelen ser constantes, por lo que ser necesario que junto a una medida que indique el valor alrededor del cual se agrupan los datos, se asocie una medida que haga referencia a la variabilidad que refleje dicha fluctuacin. En este sentido pueden examinarse varias caractersticas, siendo las ms comunes: La tendencia central de los datos; La dispersin o variacin con respecto a este centro; Los datos que ocupan ciertas posiciones La simetra de los datos. La forma en la que los datos se agrupan. Figura 1: Medidas representativas de un conjunto de datos estadsticos

A lo largo de esta unidad, y siguiendo este orden, iremos estudiando los estadsticos que nos van a orientar sobre cada uno de estos niveles de informacin: valores alrededor de los cuales se agrupa la muestra, la mayor o menor fluctuacin alrededor de esos valores, nos interesaremos en ciertos valores que marcan posiciones caractersticas de una distribucin de frecuencias as como su simetra y su forma.

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

12

MEDIDAS DE POSICIN CENTRAL

Las tres medidas ms usuales de tendencia central son: la media, la mediana, la moda. En ciertas ocasiones estos tres estadsticos suelen coincidir, aunque generalmente no es as. Cada uno de ellos presenta ventajas e inconvenientes. La media ( x ) La media aritmtica de una variable estadstica es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, si la distribucin de frecuencias de una variable X es Xi x1 xk ni n1 nk fi f1 fk

la media es el valor que podemos escribir de las siguientes formas equivalentes:

x1 f1 x2 f 2 ... xk f k

1 x n ... xk nk n 1 1

1 n

xi ni
i 1
n

Si los datos no estn ordenados en una tabla, entonces x


Observacin:

x1

x2 ...xn = n

xi
i 1

Hemos supuesto implcitamente en la definicin de media que tratbamos con una variable X discreta. Si la variable es continua tendremos que cambiar los valores de x i por las marcas de clase correspondientes. En general, la media aritmtica obtenida a partir de las marcas de clase mi , diferir de la media obtenida con los valores reales, xi . Es decir, habr una perdida de precisin que ser tanto mayor cuanto mayor sea la diferencia entre los valores reales y las marcas de clase, o sea, cuanto mayores sean las amplitudes A i, de los intervalos.

Algunas propiedades de la media aritmtica.


n

La suma de las diferencias de la variable con respecto a la media es nula, es decir,


i 1

xi

Demostracin Basta desarrollar la sumatoria para obtener :


n

xi
i 1

x1 x

...

xn

x1 ... xn

nx

nx nx

Este resultado nos indica que el error cometido al aproximar un valor cualquiera de la variable, por ejemplo x1, mediante el valor central x , es compensado por los dems errores:

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

13

Ejemplo
Obtener las desviaciones con respecto a la media en la siguiente distribucin y comprobar que su suma es cero. Lmites de Clase ni 0 10 20 30 Solucin: Lmites de Clase 0 10 20 30 10 20 30 40 ni 1 2 4 3 n = 10 10 20 30 40 1 2 3 4

mi
5 15 25 35
4 i 1

mi n i
5 30 100 105

mi

( mi

x ) ni
-19 -18 +4 +33
=0

-19 -9 +1 +11

mi ni =240
k

mi ni

La media aritmtica es: x

i 1

240 10

24
4

Como se puede comprobar sumando los elementos de la ltima columna,


i 1

mi

x ni = 0

Si cada valor de la variable x se aumenta en a unidades entonces la media aritmtica de la nueva variable es igual a la media aritmtica original ms la constante a, es decir:

x a

x a , a : constante

Si cada valor de la variable x se multiplica por a, entonces la media de la nueva variable es igual a la media aritmtica original multiplicada por la constante a, es decir: a : constante ax a x , En Resumen :

ax b
Observaciones:

a x b

1. A veces los valores x1 , x 2 , , x n de una variable, se les asocia ciertos factores o pesos w1 , w2 , , wn , que dependen de la importancia de cada uno de los valores. En este caso la media aritmtica se llama Media Aritmtica Ponderada y se determina de la siguiente manera: x

xi wi wi

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

14

2. La observacin nmero dos, la hacemos mediante el siguiente ejemplo: Un grupo de 20 dueas de casa gasta en promedio $90.000.- mensuales en supermercado. Otro grupo de 50 dueas de casa gasta un promedio de $60.000.- mensuales en supermercado. Entonces el gasto promedio en supermercado de las 70 dueas de casa es:

(90.000)(20) (60.000)(50) 70

$68.571, 43

y no $75.000.-, que es lo que se obtiene al promediar $90.000.- con $60.000.IMPORTANTE A pesar de las buenas propiedades que ofrece la media, sta posee algunos inconvenientes: Uno de ellos es que es muy sensible a los valores extremos de la variable, ya que todas las observaciones intervienen en el clculo de la media, la aparicin de una observacin extrema, har que la media se desplace en esa direccin. En consecuencia, no es recomendable usar la media como medida central en las distribuciones muy asimtricas; Depende de la divisin en intervalos en el caso de variables continuas. Si consideramos una variable discreta, por ejemplo, el nmero de hijos en las familias de Concepcin el valor de la media puede no pertenecer al conjunto de valores de la variable; Por ejemplo x = 2,5 hijos.

Medias generalizadas
En funcin del tipo de problema varias generalizaciones de la media pueden ser consideradas. He aqu algunas de ellas aplicadas a unas observaciones x1, ..., xn: La media geomtrica x g

Es la media de los logaritmos de los valores de la variable:

log x g
Luego:

log x1 log x2 n

... log xn

xg

n x x ...x 1 2 n

Si los datos estn agrupados en una tabla, entonces se tiene:

xg

n x n1 x n 2 ... x n k 1 2

La media armnica x a H Se define como el recproco de la media aritmtica de los recprocos, es decir:

1 xa

1 x1

1 x2 n

...

1 xn

de donde : x a

n 1 x1 1 x2 ... 1 xn
2 x1 2 x2

La media cuadrtica

xc

Es la raz cuadrada de la media aritmtica de los cuadrados: x c

... n

2 xn

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

15

La Mediana (Me) :
Otra medida de la tendencia central de un conjunto de datos es la Mediana, definida como el valor central de un conjunto de nmeros ordenados en forma ascendente o descendente. Cuando desea dividir los datos en dos grupos, de modo que cada uno de ellos contenga el mismo nmero de valores, la mediana resulta ser el punto de divisin apropiado. Si el nmero de valores en el conjunto de datos (n) es impar, hay un trmino central y la mediana es el valor que se ubica en el lugar T n
2 1

, es decir:

Me

Tn
2

si el valor del nmero es par, hay dos trminos centrales, y la mediana es el promedio entre los valores que se ubican en los lugares

Tn
2

Tn
2

Tn
1

Tn
2

es decir : Me

Ejemplos : 1. La mediana del conjunto de valores: 4, 5, 5, 7, 9, 10, 10 es Me = 7 2. La mediana del conjunto de valores: 4, 5, 5, 7, 9, 10, 10, 11 es Me

7 9 2

8
n , luego 2

3. Para calcular la mediana de una distribucin de frecuencias como la del ejemplo 2 se debe calcular la mediana es aquel valor de la variable, cuya frecuencia acumulada es Ni As,

n 2

n 2

25 12.5 y por lo tanto la mediana es 8. 2


n 2

1. Si los datos estn agrupados en intervalos de clase como en el ejemplo 3, para calcular la mediana se debe utilizar la frmula: donde

Ni ni

Me

FI i

Ai

i: intervalo al cual pertenece la mediana.

FI i : Frontera inferior del intervalo en el cual N i


n: ni: Ni 1: Ai:

n . 2

n total de datos. Frecuencia absoluta del intervalo de la mediana. Frecuencia acumulada del intervalo anterior al de la mediana. Amplitud

Ejercicio : Calcular la mediana para el ejemplo 3. Observacin : Entre las propiedades de la mediana, se destacan las siguientes: Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimtricas. Es de clculo rpido y de interpretacin sencilla.

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

16

El mayor defecto de la mediana es que tiene unas propiedades matemticas complicadas, lo que hace que sea muy difcil de utilizar en inferencia estadstica. Ejemplo Sea X una variable discreta que ha presentado sobre una muestra los siguientes valores: X : 2, 5, 7, 9, 12

x 7

; Me = 7

Si cambiamos la ltima observacin por otra anormalmente grande, esto no afecta a la mediana, pero si a la media: X : 2, 5, 7, 9, 125

29, 6

; Me = 7

En este caso la media no es un posible valor de la variable (discreta), y se ha visto muy afectada por la observacin extrema. Este no ha sido el caso para la mediana

La Moda (Mo) :
Si los datos no estn agrupados en intervalos de clase, se define la Moda como aquel valor que aparece el mayor nmero de veces. Si los datos estn agrupados en una distribucin de frecuencias con intervalos de clase se define el intervalo modal como aquel que tiene la mayor frecuencia absoluta y la Moda se elige como la marca de clase correspondiente a ese intervalo. Ejemplo : Para los datos del ejemplo 2 la moda es Mo = 8 (frecuencia absoluta = 6) Para los datos del ejemplo 3 el intervalo modal es el cuarto 3.0 3.4 y la moda es la marca de clase correspondiente, es decir: Mo = 3.2. Observar que si obtenemos la moda a partir de los datos no agrupados, sta resulta ser Mo = 3.1. Notar que la moda puede ser una inadecuada medida de posicin central, porque el valor que se presenta con mayor frecuencia, no siempre est cerca del centro de los datos. Adems puede ocurrir que la moda no sea nica.

frec.

Moda

frec.

Moda

En los ejemplos grficos anteriores, la moda de la primera distribucin est situada en la clase ms baja y, ciertamente, no puede considerarse que represente la posicin central. La segunda distribucin tiene dos modas, que tampoco pueden representar la posicin central de los datos. Por estas razones, la moda tiene uso limitado como medida de posicin central para la toma de decisiones. Sin embargo, es til en el anlisis descriptivo, porque representa el valor que ocurre con mayor frecuencia.

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

17

Observacin: De la moda destacamos las siguientes propiedades: Es muy fcil de calcular. Puede no ser nica. Es funcin de los intervalos elegidos a travs de su amplitud, nmero y lmites de los mismos. Aunque el primero o el ltimo de los intervalos no posean extremos inferior o superior respectivamente, la moda puede ser calculada

El Rango Medio
El Rango Medio es una medida de tendencia central que constituye el valor que est a medio camino, entre el puntaje ms alto y el ms bajo, en el conjunto original de datos. Se calcula sumando el valor mximo con el mnimo y luego dividiendo dicha suma entre 2, como se muestra a continuacin: Rango Medio =

valor mximo valor mnimo 2

Observacin: El rango medio se utiliza en pocas ocasiones. Puesto que slo utiliza los valores mximo y mnimo es demasiado sensible a dichos extremos. Es fcil de calcular Ayuda a reforzar el hecho importante de que existen diferentes formas para definir el centro de un conjunto de datos. Ejemplo: Para comparar las medidas de tendencia central revisadas (media, mediana , moda y rango medio), consideremos la tabla 1 siguiente, donde los valores de los datos corresponden a los niveles medidos de cotinina srica (en ng/ml) en personas seleccionadas como sujetos de estudio (los datos se redondearon hacia el entero ms cercano, de tal forma que un valor cero no necesariamente implica la ausencia total de cotinina. De hecho, todos los valores originales fueron mayores que cero). La cotinina es un metabolito de la nicotina, es decir, es una sustancia que se produce cuando el cuerpo absorbe la nicotina. Porque se sabe que la nicotina se absorbe cuando se consumen cigarrillos, hay una forma indirecta de medir la presencia efectiva del humo del tabaco; esto es por medio de la cotinina. ( Tomado del texto: Probabilidad y Estadstica. Novena edicin. M. F. Triola. Addison Wesley) Tabla 1: Niveles medidos de cotinina en tres grupos de individuos. Fumador : Los sujetos informan su consumo de tabaco HTA (Humo de Tabaco Ambiental) : Sujetos que no fuman, pero que estn expuestos a humo de tabaco ambiental (fumadores pasivos), en su casa o trabajo. SHTA (Sin Humo de Tabaco Ambiental) : Sujetos que no fuman y que no se exponen a humo de tabaco ambiental en su casa o trabajo. Esto es, no fuman ni son fumadores pasivos.

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

18
Fumador 1 35 130 123 384 4 0 0 0 0 1 0 0 112 234 167 0 0 3 551 0 9 0 0 131 477 164 250 69 543 1 2 0 0 0 0 173 289 1 98 245 19 17 45 1 0 0 0 0 265 227 17 48 1 1 13 1 0 0 90 0 210 103 253 86 0 0 3 1 0 0 1 0 44 222 87 284 178 51 1 0 0 0 0 0 277 149 121 1 2 0 1 74 0 0 309 0 32 313 266 208 13 197 1 1 0 244 0 0 3 491 290 173 1 3 0 241 0 0 0 0

HTA

SHTA

Haciendo los clculos para la media, mediana, moda y rango medio, se obtiene las medidas que se resumen en la tabla 2 dada a continuacin: Tabla 2: Comparacin de los niveles de cotinina de fumadores, de no fumadores expuestos al humo ambiental del tabaco (HAT) y de no fumadores no expuestos al humo ambiental del tabaco (SHAT). Media Mediana Moda Rango Medio Fumadores 172.5 170.0 1 y 173 245.5 HTA 60.6 1.5 1.0 275.5 SHTA 16.4 0.0 0.0 154.5

Se observa que los niveles de cotinina son ms altos en los fumadores. Adems, los niveles de cotinina de los individuos que no fuman, pero estn expuestos al humo del tabaco, son ms altos que los de personas que tampoco fuman y no estn expuestas al humo. Lo anterior sugiere que los fumadores pasivos s se ven afectados (existen mtodos para determinar si estas aparentes diferencias son estadsticamente significativas, estos mtodos se ven en cursos de Inferencia Estadstica).

LA MEJOR MEDIDA DE TENDENCIA CENTRAL De las medidas estudiadas media, mediana, moda y rango medio, cul de ellas es la mejor?. Desafortunadamente, no existe una respuesta nica a esta pregunta, porque no hay criterios objetivos para determinar la medida ms representativa para todos los conjuntos de datos. Las diferentes medidas de tendencia central presentan diversas ventajes y desventajas. Algunas de las cuales se resumen en la tabla 3 siguiente: Tabla 3: Comparacin de la media, mediana, moda y rango medio Toma en Se ve Qu tan cuenta todos afectada por Definicin Existencia comn es? los valores valores involucrados? extremos?
n

Medida de Tendencia central

Ventajas y desventajas
Funciona bien con muchos mtodos estadsticos Suele ser una buena opcin si hay algunos valores extremos

Media

xi

x =

i 1

Es uno de los ms conocidos y utilizados De uso comn

Siempre existe

Mediana

Trmino central

Siempre existe

No

No

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

19
Podra no existir. Podra haber ms de una Siempre existe Apropiada para datos en nivel nominal Muy sensible a valores extremos.

Moda

Valor que presenta la mayor frecuencia

Se usa en ocasiones

No

No

Rango Medio

X mx 2

X mn

Poco usada

No

Observaciones: En el caso de conjuntos de datos de distribucin aproximadamente simtrica y unimodal, la media, mediana, moda y rango medio tienden a ser iguales. En el caso de distribuciones claramente asimtricas, se sugiere informar tanto la media como la mediana. La media es relativamente confiable. Es decir, cuando las muestras se extraen de la misma poblacin, las medidas muestrales tienden a ser ms consistentes que las dems medidas de tendencia central (consistentes en el sentido de que las medias muestrales, extradas de la misma poblacin, no varan tanto como las otras medidas de tendencia central. Una pregunta frecuente es qu medida usar como indicador del centro de los datos?. La respuesta esta pregunta podemos verla en el siguiente diagrama de flujo:

Son datos categricos?

si Use la Moda

no

El total de las observaciones tiene algn inters? no

si Use la Media

Es la distribucin simtrica?

si Use la Media

no

Use la Mediana

MEDIDAS DE VARIABILIDAD O DISPERSIN

Los estadsticos de tendencia central o posicin nos indican donde se sita un grupo de puntuaciones. Los de variabilidad o dispersin nos indican si esas puntuaciones o valores estn prximas entre s o si por el contrario estn muy dispersas. Rango Una medida razonable de la variabilidad podra ser la amplitud o rango, que se obtiene restando el valor ms bajo de un conjunto de observaciones del valor ms alto. Es fcil de calcular y sus unidades son las mismas que las de la variable, aunque posee varios inconvenientes:
Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

20

No utiliza todas las observaciones (slo dos de ellas); Se puede ver muy afectada por alguna observacin extrema; El rango aumenta con el nmero de observaciones, o bien se queda igual. En cualquier caso nunca disminuye. En el transcurso de esta seccin, veremos medidas de dispersin mejores que la anterior. Estas se

determinan en funcin de la distancia entre las observaciones y algn estadstico de tendencia central. Varianza y desviacin tpica
Como forma de medir la dispersin de los datos hemos descartado:
n

xi
i 1

0 , pues sabemos que esa suma vale 0, ya que las desviaciones con respecto a la media se

compensan al haber trminos en esa suma que son de signos distintos. Para tener el mismo signo al sumar las desviaciones con respecto a la media podemos realizar la suma con valores absolutos. Esto nos lleva a la Dm xi x pero, tiene poco inters por las dificultades matemticas que presenta. Si las desviaciones con respecto a la media las consideramos al cuadrado, xi

x , de nuevo obtenemos que

todos los sumandos tienen el mismo signo (positivo). Esta es adems la forma de medir la dispersin de los datos de forma que sus propiedades matemticas son ms fciles de utilizar. Vamos a definir entonces dos estadsticos que sern fundamentales en el resto del curso: La varianza y la desviacin tpica. La Varianza y la Desviacin Estndar: Estas dos medidas de dispersin son las ms importantes y las de mayor utilidad prctica y terica. La varianza, S 2 , se define como la media de las diferencias cuadrticas de n puntuaciones y se
n

denota por

S o por V(X). Es decir:

(xi s
2

x) 2

Para describir la Variabilidad de los datos, en vez de (o conjuntamente con) la Varianza se usa con mucha frecuencia la raz cuadrada positiva de la Varianza, denotada por S y llamada Desviacin Estndar o tpica. La desviacin estndar es, por lo general, ms conveniente que la Varianza para interpretar la Variabilidad de un conjunto de datos, ya que s 2 est expresada en unidades al cuadrado, en tanto que s tiene las mismas unidades que los datos originales. La desviacin estndar se define de la siguiente manera:

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

21

1/ 2

xi
S= i 1

Para ilustrar el clculo de una varianza y una desviacin estndar, supondremos que los valores de X en la tabla siguiente representan el nmero de grabadoras ensambladas por 10 trabajadores diferentes en una fbrica el pasado mes. Esto es, el primer trabajador ensambl 115 grabadoras, el segundo 122, etc. El nmero medio de grabadoras ensambladas es: x Tabla:

1200 10

120 (grabadoras)

xi
115 122 129 113 119 124 132 120 110 116 1200

xi

xi

5 +2 +9 7 1 +4 +12 0 10 4 0

25 4 81 49 1 16 144 0 100 26 436

En la segunda columna figuran las desviaciones respecto a la media. Observe que la suma de estas desviaciones es igual a cero. En la tercera columna estn los cuadrados de las desviaciones respecto a la media, cuya suma es 436. Entonces, el promedio de los cuadrados de las desviaciones (la Varianza) es:

s2

436 10

43.6 (grabadoras)2
43.6 6.6 (grabadoras)
k 2

Para los datos de la tabla anterior, la desviacin estndar es: S

Si los datos estn agrupados en tablas de frecuencias, la varianza est dada por:

mi s
2

x ni n

Donde: mi : es la marca de clase del intervalo i , intervalo i .

x =

mi ni n

, y ni : es la frecuencia absoluta del

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

22
n 2 k 2

Nota : las frmulas

xi S
2

para datos no agrupados, y

mi S
2

x ni n

para datos

agrupados en intervalos de clase se pueden transformar en expresiones ms simples mediante un desarrollo algebraico sencillo como se muestra a continuacin: (tarea) Ejemplo Calcular la varianza y desviacin tpica de las siguientes cantidades medidas en metros: 3, 3, 4, 4, 5 Solucin: Para calcular dichas medidas de dispersin es necesario calcular previamente el valor con respecto al cual vamos a medir las diferencias. ste es la media: La varianza es: siendo la desviacin tpica su raz cuadrada: Ejemplo: Para la distribucin de frecuencias del ejemplo 3 se tiene: ni 2 1 4 15 10 5 3 mi 1.7 2.2 2.7 3.2 3.7 4.2 4.7 m i2 n i 5.78 4.84 29.16 153.60 136.90 88.20 66.27 484.75

y S

ni mi 2 n

484.75 40

3.4125

12.11875 11.64516

0.47359 (aos)2

0.688 (aos)

Si calculamos la Varianza a partir de los datos no agrupados, se tiene:


n

x i2 S
2

485.07 40

3.4125

12.12675 11.645 0.4816

(aos)2

0.694 (aos)

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

23

Observaciones: 1 En general, es difcil hacer una interpretacin precisa de los valores de s 2 y s en razn que la variabilidad depende mucho de la unidad de medida. Por ejemplo, la variabilidad de los ingresos en Chile es ciertamente mayor cuando se mide en pesos que cuando se mide en miles de pesos. En todos los casos, cuando crece la dispersin de una poblacin, tambin crece el valor de s2 (y el de s). Por otra parte, si s2 = s = 0, significa que no existe ninguna variabilidad entre los datos (todos los valores de X son iguales entre s, es decir, X es una constante). 2 Una regla prctica que a menudo proporciona una buena aproximacin al grado de dispersin de un conjunto de observaciones establece que: Alrededor del 68% de todos los valores caern dentro de una desviacin estndar a ambos lados de la media y ms o menos el 95% de todos los valores caern dentro de dos desviaciones estndar a ambos lados de la media Esta regla prctica se basa en la suposicin de que la poblacin tiene una distribucin simtrica o casi simtrica de forma acampanada que se llama Distribucin normal. Como ejemplo del proceso de interpretacin de la varianza y de la desviacin estndar, consideramos los datos de la tabla indicada en pgina 16. Anteriormente calculamos la media y la varianza y obtuvimos x 120 , s 2 43.6 y s 6.6 . Si se cumpliera la regla prctica, entonces el intervalo x los datos; y x

s debera contener aproximadamente el 68% de

2s alrededor del 95% de todos estos valores.

Verificando estos intervalos contra los valores del ejemplo, se obtienen los siguientes resultados: x S = 113.4 a 126.6 60% de valores
x 2S = 106.8 a 133.2 100% de valores

lo que indica una descripcin aceptable de la variabilidad de los datos y de su posicin central. 3 Si la mayor parte de los valores estn a la derecha (izquierda) de la moda, se dice que la distribucin es sesgada a la derecha (izquierda) o que tiene sesgo positivo (negativo), y en tal caso M o

Me

Me

Mo

En este caso, un interesante y til teorema desarrollado por el matemtico ruso Tchebyshef resulta adecuado para describir la distribucin de los datos. Teorema de Tchebysheff: Dados un nmero k k 1 y un conjunto de observaciones x1 , x 2 , , x n , al 1 menos el 1 2 100% de las observaciones caen dentro de k desviaciones estndar alrededor de la media. k Las siguientes propiedades de la varianza (respectivamente, desviacin tpica) son importantes a la hora de hacer un cambio de origen y escala a una variable. En primer lugar, la varianza (resp. desviacin tpica) no se ve afectada si al conjunto de valores de la variable se le aade una constante. Si adems cada observacin es multiplicada por otra constante, en este caso la varianza cambia en relacin al cuadrado de la constante (respectivamente, la desviacin tpica cambia en relacin al valor absoluto de la constante).

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

24

Propiedades de la Varianza. La varianza de una constante es cero, es decir la varianza de X es cero si escribe V c

x1

x2

x n

c y se

0.

Si cada valor de la variable X se aumenta en a unidades, entonces la varianza de la nueva variable obtenida es igual a la varianza de la variable original X, y se escribe: V X a V X Si cada valor de la variable X se multiplica por a, entonces la varianza de la nueva variable que se a 2V X obtiene es igual a la varianza de X multiplicada por la constante a al cuadrado, es decir: V aX Observacin Adems de las propiedades que hemos demostrado sobre la varianza (y por tanto sobre la desviacin tpica), ser conveniente tener siempre en mente otras que enunciamos a continuacin: Ambas son sensibles a la variacin de cada una de las puntuaciones, es decir, si una puntuacin cambia, cambia con ella la varianza. La razn es que si miramos su definicin, la varianza es funcin de cada una de las puntuaciones. Si se calculan a travs de los datos agrupados en una tabla, dependen de los intervalos elegidos. Es decir, cometemos cierto error en el clculo de la varianza cuando los datos han sido resumidos en una tabla estadstica mediante intervalos, en lugar de haber sido calculados directamente como datos no agrupados. Este error no ser importante si la eleccin del nmero de intervalos, amplitud y lmites de los mismos ha sido adecuada. No es recomendable el uso de ellas, cuando tampoco lo sea el de la media como medida de tendencia central. Coeficiente de variacin Hemos visto que las medidas de centralizacin y dispersin nos dan informacin sobre una muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. Por ejemplo, si nos piden comparar la dispersin de los pesos de las poblaciones de elefantes de dos circos diferentes, S nos dar informacin til. Pero qu ocurre si lo que comparamos es la altura de unos elefantes con respecto a su peso? Tanto la media como la desviacin tpica, X y S, se expresan en las mismas unidades que la variable. Por ejemplo, en la variable altura podemos usar como unidad de longitud el metro y en la variable peso, el kilogramo. Comparar una desviacin (con respecto a la media) medida en metros con otra en kilogramos no tiene ningn sentido. El problema no deriva slo de que una de las medidas sea de longitud y la otra sea de masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en toneladas de una poblacin de 100 elefantes con el correspondiente en miligramos de una poblacin de 50 hormigas. El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los elefantes (toneladas). Si la ingeniera gentica no nos sorprende con alguna barbaridad, lo lgico es que la dispersin de la variable peso de las hormigas sea prcticamente nula (Aunque haya algunas que sean 1.000 veces mayores que otras!)

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

25

En los dos primeros casos mencionados anteriormente, el problema viene de la dimensionalidad de las variables, y en el tercero de la diferencia enorme entre las medias de ambas poblaciones. El coeficiente de variacin es lo que nos permite evitar estos problemas, pues elimina la dimensionalidad de las variables y tiene en cuenta la proporcin existente entre medias y desviacin tpica. Se define del siguiente modo: CV(X) =

SX X

Basta dar una rpida mirada a la definicin del coeficiente de variacin, para ver que las siguientes consideraciones deben ser tenidas en cuenta: Slo se debe calcular para variables con todos los valores positivos. Todo ndice de variabilidad es esencialmente no negativo. Las observaciones pueden ser positivas o nulas, pero su variabilidad debe ser siempre positiva. De ah que slo debemos trabajar con variables positivas, para la que tenemos con seguridad que X 0 . No es invariante ante cambios de origen. Es decir, si a los resultados de una medida le sumamos una cantidad positiva, b>0, para tener Y = X + b, entonces CV(Y) < CV(X) , ya que la desviacin tpica no es sensible ante cambios de origen, pero si la media. Lo contrario ocurre si restamos ( b<0). CV(Y) =

Sy Y

S SX < X = CV(X) X X b

Es invariante a cambios de escala. Si multiplicamos X por una constante a, para obtener Y = aX , entonces CV(Y) =

Sy Y

S aX aS X < = CV(X) aX aX

Observacin. 1. Coeficiente de variacin, CV, expresado porcentualmente es calculado como: CV

S x100 X

2. El coeficiente de variacin es usado, entre otros, como una medida de la representatividad de la media. Si CV < 50% se dice que la media es representativa como medida de tendencia central para ese conjunto de datos, en cambio si CV > 100% entonces decimos que la media no representa para nada al conjunto de datos. 3. Tambin el coeficiente de variacin es usado como medida de la homogeneidad de los datos: Si CV < 35% se dice que los datos son homogneos, si 35% CV < 70% se dice que los datos son medianamente heterogneos y si CV > 70% se dice que los datos son severamente heterogneos. 4. Es importante destacar que los coeficientes de variacin sirven para comparar las variabilidades de dos conjuntos de valores (muestras o poblaciones), mientras que si deseamos comparar a dos individuos de cada uno de esos conjuntos, es necesario usar los valores tipificados. Tipificacin Se conoce por tipificacin al proceso de restar la media y dividir por su desviacin estndar a una variable X. De este modo se obtiene una nueva variable : Z de media Z

X S

0 y desviacin tpica o estndar S Z

1 , que denominamos variable tipificada.

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

26

Esta nueva variable carece de unidades y permite hacer comparables dos medidas que en un principio no lo son, por aludir a conceptos diferentes. As por ejemplo nos podemos preguntar si un elefante es ms grueso que una hormiga determinada, cada uno en relacin a su poblacin. Tambin es aplicable al caso en que se quieran comparar individuos semejantes de poblaciones diferentes. Por ejemplo si deseamos comparar el nivel acadmico de dos estudiantes de diferentes Universidades para la concesin de una beca de estudios, en principio sera injusto concederla directamente al que posea una nota media ms elevada, ya que la dificultad para conseguir una buena calificacin puede ser mucho mayor en un centro que en el otro, lo que limita las posibilidades de uno de los estudiante y favorece al otro. En este caso, lo ms correcto es comparar las calificaciones de ambos estudiantes, pero tipificadas cada una de ellas por las medias y desviaciones tpicas respectivas de las notas de los alumnos de cada Universidad. Ejemplo. Dada la distribucin de las horas trabajadas semanalmente en un grupo de 100 personas, obtener: a) La variable tipificada Z. b) Valores de la media y varianza de Z. c) Coeficiente de variacin de Z. Horas Trabajadas 0 -- 4 4 -- 10 10 -- 20 20 -- 40 N de empleados 47 32 17 4 100

mi
2 7 15 30

mi ni
94 224 255 120 693

mi2 ni
188 1568 3825 3600 9181

Solucin: Para calcular la variable tipificada Z

X SX

Partimos de los datos del enunciado. Ser necesario calcular en primer lugar la media y desviacin estndar de la variable original ( X = horas trabajadas).
n

693 100

xi
2 6.93 horas , S X i 1

= 43,78 horas al cuadrado, S X = 6,6 horas

A partir de estos valores podremos calcular los valores tipificados para las marcas de clase de cada intervalo y construir su distribucin de frecuencias:

Z1

2 6,93 6, 6

0, 745 ,
Zi
-0,745 0,011 1,220 3,486

Z2

7 6,93 6, 6

0, 011 , Z3

15 6,93 1, 22 , Z 4 6, 6

30 6,93 6, 6

3, 486

ni 47 32 17 4 n = 100

z i ni -35,015 0,352 20,720 13,944 0,021

zi2 ni 26,086 0,004 25,303 48,609 100,002

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

27
n

0, 021 0, 00021 100

zi2 ni

0,

2 SZ

i 1

100, 002 2 0 100

1,

SZ

A pesar de que no se debe calcular el coeficiente de variacin sobre variables que presenten valores negativos (y Z los presenta), lo calculamos con objeto de ilustrar el porqu:

SZ 1 = = 0 Z tipificadas.

CV(Z) =

. Es decir, el coeficiente de variacin no debe usarse nunca con variables

1.6 OTRAS MEDIDAS DESCRIPTIVAS: CUANTILES

Para una variable discreta, se define el percentil de orden k, como la observacin, Pk, que deja por debajo de si el k% de la poblacin. Esta definicin nos recuerda a la mediana, pues como consecuencia de la definicin es evidente que Me = P50
En el caso de una variable continua, el intervalo donde se encuentra P k

li 1 , li , se calcula buscando el que

deja debajo de si al k%de las observaciones. Dentro de l, Pk se obtiene segn la relacin:

k n Ni 1 100 Pk li 1 Ai ni Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la distribucin, por lo que no puede considerrsele como una medida de tendencia central.
Los cuartiles, q l , son un caso particular de los percentiles. Hay 3, y se definen q1 como: q2
q3

P25 P50 P75 Me

De forma anloga se definen los deciles como los valores de la variable que dividen a las observaciones en 10 grupos de igual tamao. Ms precisamente, definimos d1, d2, ..., d9 como:
di P 10 i

i = 1, 2,,9

Los percentiles (que incluyen a la mediana, cuartiles y deciles) tambin son denominados estadsticos de posicin.
Grados de libertad Los grados de libertad de un estadstico calculado sobre n datos se refieren al nmero de cantidades independientes que se necesitan en su clculo, menos el nmero de restricciones que ligan a las observaciones y el estadstico. Es decir, normalmente n-1. Veamos un ejemplo. Consideramos una serie de valores de una variable X : 2, 5, 7, 9, 12 tomados de forma independiente.
Estadstica 220015 / 1ro_2013

que han sido

Prof. Nelly Gmez F.

28

Su media es x

7 y se ha calculado a partir de las n = 5 observaciones independientes xi, que estn ligadas a la


n

xi
media por la relacin: x
i 1

. Luego el nmero de grados de libertad de la media es n-1 = 4.

Si calculamos a continuacin la varianza, se han de sumar n cantidades

xi n

Sin embargo esas cantidades no son totalmente independientes, pues estn ligadas por una restriccin:
n n

xi
i 1 i 1

xi / n

El nmero de grados de libertad del estadstico es el nmero de observaciones de la variable menos el nmero de restricciones que verifican, as que en este caso, los grados de libertad de la varianza sobre los n = 5 datos son tambin n-1 = 4. Un principio general de la teora matemtica nos dice que si pretendemos calcular de modo aproximado la varianza de una poblacin a partir de la varianza de una muestra suya, se tiene que el error cometido es generalmente ms pequeo, si en vez de considerar como estimacin de la varianza de la poblacin, a la
n

varianza muestral:

xi S
2

n
n 2

2 que se calcula como la anterior, pero cambiando consideramos lo que se denomina cuasivarianza muestral, S
el denominador por el nmero de grados de libertad, n-1:

2 S

xi
i 1

n 1

nS 2 n 1

Sobre este punto insistiremos ms adelante, ya que es fundamental en estadstica inferencial. ASIMETRA Y APUNTAMIENTO Sabemos cmo calcular valores alrededor de los cuales se distribuyen las observaciones de una variable sobre una muestra y sabemos cmo calcular la dispersin que ofrecen los mismos con respecto al valor de central. Nos proponemos dar un paso ms all en el anlisis de la variable. En primer lugar, nos vamos a plantear el saber si los datos se distribuyen de forma simtrica con respecto a un valor central, o si bien la grfica que representa la distribucin de frecuencias es de una forma diferente del lado derecho que del lado izquierdo. Si la simetra ha sido determinada, podemos preguntarnos si la curva es ms o menos apuntada (larga y estrecha). Este apuntamiento habr que medirlo comparado a cierta distribucin de frecuencias que consideramos normal (no por casualidad es ste el nombre que recibe la distribucin de referencia). Estas ideas son las que veremos a continuacin. Estadsticos de asimetra

Para saber si una distribucin de frecuencias es simtrica, hay que precisar con respecto a qu. Un buen candidato es la mediana, ya que para variables continuas, divide al histograma de frecuencias en dos partes de igual rea. Podemos basarnos en ella para, de forma natural, decir que una distribucin de
Prof. Nelly Gmez F.

Estadstica 220015 / 1ro_2013

29

frecuencias es simtrica si el lado derecho de la grfica (a partir de la mediana) es la imagen por un espejo del lado izquierdo (Figura 2).

Figura 2: Distribuciones de frecuencias simtricas y asimtricas

Cuando la variable es discreta, decimos que es simtrica, si lo es con respecto a la media. Observacin Se podra pensar que definir la simetra con usando la mediana para variables continuas y usando la media para variables discretas es una eleccin arbitraria. En realidad esto no es as, pues si una variable es continua, coinciden los ambos criterios de simetra (con respecto a la media y a la mediana). Es ms, se tiene que media y mediana coinciden para distribuciones continuas simtricas. Por otro lado, en el caso de variables discretas, la distribucin es simtrica si el lado derecho del diagrama se obtiene por imagen especular desde la media. En este caso coincide la media con la mediana si el nmero de observaciones es impar. Si la variable es continua simtrica y unimodal, coinciden la media, la mediana y la moda. Dentro de los tipos de asimetra posible, vamos a destacar los dos fundamentales ( Figura 3): Asimetra positiva: Si las frecuencias ms altas se encuentran en el lado izquierdo de la mediana, mientras que en el derecho hay frecuencias ms pequeas (cola). Asimetra negativa: Cuando la cola est en el lado izquierdo.

Figura 3: Asimetra positiva y asimetra negativa

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

30

Cuando realizamos un estudio descriptivo es poco probable que la distribucin de frecuencias sea totalmente simtrica. En la prctica diremos que la distribucin de frecuencias es simtrica si lo es de un modo aproximado. Por otro lado, an observando cuidadosamente la grfica, podemos no ver claro de qu lado estn las frecuencias ms altas. Conviene definir entonces unos estadsticos que ayuden a interpretar la asimetra, a los que llamaremos ndices de asimetra, y que denotaremos mediante AS . Vamos a definir a continuacin algunos de los ndices de asimetra ms usuales como son el ndice basado en los tres cuartiles, el momento de tercer orden y la distancia entre la moda y la media o la media y la mediana. ndice basado en los tres cuartiles (Yule-Bowley) Si una distribucin es simtrica, es claro que deben haber tantas observaciones entre la que deja por debajo de s las tres cuartas partes de la distribucin y la mediana, como entre la mediana y la que deja por debajo de s un cuarto de todas las observaciones. De forma abreviada esto es,

q3 q2

q2 q1

Una pista para saber si una distribucin de frecuencias es asimtrica positiva la descubrimos observando la figura 3: q3 q2 q2 q1

Por analoga, si es asimtrica negativa, se tendr

q3 q2

q2 q1

Para quitar dimensionalidad al problema, utilizamos como ndice de asimetra la cantidad:

AS

q3 q2 q2 q1 q3 q1
-1

Es claro que

AS

q3 q2 q2 q1 (q3 q2 ) (q2 q1 )

1...........................*

El nmero obtenido, AS , es invariante ante cambios de origen de referencia y de escala.

Figura 4: Uso de los cuartiles para medir la asimetra

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

31

Otros ndices de asimetra


Basndonos en que si una distribucin de frecuencias es simtrica y unimodal, entonces la media, la mediana y la moda coinciden, podemos definir otras medidas de asimetra, como son:

AS
O bien,

Moda S

AS

3( X S

Me)

Diremos que hay asimetra positiva si AS > 0 y negativa si Ejercicio:

AS < 0.

Las edades de un grupo de personas se reflejan en la tabla siguiente: Intervalos 7 -- 9 9 -- 11 11 -- 12 12 -- 13 13 -- 14 14 -- 15 15 -- 17 17 -- 19 ni 4 18 14 27 42 31 20 1

Determinar la variabilidad de la edad mediante los estadsticos varianza, desviacin tpica, coeficiente de variacin y rango intercuartlico. Estudie la simetra de la variable. Solucin: En primer lugar realizamos los clculos necesarios a partir de la tabla de frecuencias: Intervalos 7 -- 9 9 -- 11 11 -- 12 12 -- 13 13 -- 14 14 -- 15 15 -- 17 17 -- 19 Terminar...(Tarea) ni 4 18 14 27 42 31 20 1

mi
8 10 11,5 12,5 13,5 14,5 16 18

Ni 4 22 36 63 105 136 156 157

m i ni
32 180 161 337,5 567 449,5 320 18

mi2 ni
256 1800 1851,5 4218,75 7654,5 6517,75 5120 324
27742,25

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

32

Estadsticos de apuntamiento Se define el coeficiente de aplastamiento de Fisher como:


2

m4 S4

donde m4 es el momento emprico de cuarto orden y su frmula de clculo es


n

xi m4

. Es ste un coeficiente adimensional, invariante ante cambios de escala y de origen. Sirve n para medir si una distribucin de frecuencias es muy apuntada o no. Para decir si la distribucin es larga y estrecha, hay que tener un patrn de referencia. El patrn de referencia es la distribucin normal o gaussiana para la que se tiene: De este modo, atendiendo a Leptocrtica: Cuando Mesocrtica: Cuando Platicrtica: Cuando
2 2 2 2

m4 S4

=0

, se clasifican las distribuciones de frecuencias en (Figura 5):

> 0, o sea, si la distribucin de frecuencias es ms apuntada que la normal;

= 0, es decir, cuando la distribucin de frecuencias es tan apuntada como la normal; < 0 , o sea, si la distribucin de frecuencias es menos apuntada que la normal;

Figura 5: Apuntamiento de distribuciones de frecuencias

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

33

1.7 ANALISIS EXPLORATORIO DE DATOS Definicin Anlisis exploratorio de datos: proceso para utilizar herramientas estadsticas (como grficas, medidas de tendencia central y medidas de variacin), con la finalidad de investigar conjuntos de datos para comprender sus caractersticas importantes. Datos distantes Dato distante: valor que est muy alejado de la mayora de los dems valores. Un dato distante es un valor extremo en relacin con los otros datos. Cuando se explora un conjunto de datos, se deben considerar los datos distantes, ya que pueden revelar informacin importante y afectar, en gran medida, el valor de la media y de la desviacin estndar, as como distorsionar gravemente un histograma. El siguiente ejemplo utiliza un valor incorrecto para un dato distante; aunque no todos los datos distantes son errores, algunos de ellos son valores correctos. Ejemplo: Cuando se introducen datos a una planilla electrnica o a una calculadora, es fcil cometer errores. A modo de ejemplo retomemos el de los niveles de cotinina de la pgina 18 de este apunte y supongamos que por error, el primer dato (que es 1) se introduce como 11111. Este dato es un dato distante o atpico (outlier) ya que se localiza muy lejos de los dems valores. De qu manera afecta ese dato distante a la media, a la desviacin estndar y al histograma? Cuando el dato 1 se reemplaza con el valor distante de 11111, la media cambia de 172.5 a 450.2, de modo que el efecto del dato distante es muy grande. El dato incorrecto de 11111 causa que la desviacin estndar cambie de 119.5 a 1732.7, por lo que el efecto del dato distante tambin es muy grande. Por otra parte, la figura 6 siguiente muestra el histograma con los valores correctos de los niveles de cotinina de fumadores y la figura 7 muestra el histograma que resulta del uso de los mismos datos con el valor 1, reemplazado por el valor incorrecto de 11111. Si comparamos, fcilmente vemos que la presencia del dato distante afecta de manera drstica la forma de la distribucin.
Figura 6: Histograma de niveles de cotinina en fumadores
14 12 10
Frecuencias

Figura 7: Histograma de niveles de cotinina en fumadores


40

30

8 6 4 2 0

Frecuencias
-0,5 99,5 199,5 299,5 niveles de cotinina 399,5 499,5

20

10

-5000

5000 niveles de cotinina

10000

15000

El ejemplo anterior ilustra estos principios importantes: 1. Un dato distante puede tener un efecto importante sobre la media. 2. Un datos distante puede tener un efecto importante sobre la desviacin estndar. 3. Un dato distante puede tener un efecto importante sobre la escala del histograma, de modo que la verdadera naturaleza de la distribucin se oculta totalmente. Un procedimiento sencillo para encontrar datos distantes es el examen de una lista ordenada de los datos. En particular, se debe observar los valores mnimos y mximo muestrales; luego, determinar si se alejan mucho de
Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

34

los dems valores. Algunos datos distantes son valores correctos y algunos son errores, como en el ejemplo anterior. Si estamos seguros de que un dato distante es un error, debemos corregirlo o eliminarlo. Si incluimos un dato distante, porque sabemos que es correcto, se debera estudiar sus efectos por medio de la construccin de grficas y el clculo de estadsticos que incluyan y que no incluyan los datos distantes. Adems de las representaciones grficas ya estudiadas, un diagrama de caja y bigotes es otro tipo de grfica que se utiliza a menudo. Los diagramas de caja y bigotes son tiles para revelar la tendencia central de los datos, su dispersin, su distribucin y la presencia de datos distantes. La construccin de un diagrama de caja y bigotes requiere que primero se obtenga el valor mnimo, el valor mximo y los cuartiles, tal como se define en el resumen de los cinco nmeros. PROCEDIMIENTO PARA CONSTRUIR UN DIAGRAMA DE CAJA Y BIGOTES (grfica de Cuadro) 1. Elabore el resumen de los cinco nmeros, consistente en el valor mnimo, primer cuartil, mediana, tercer cuartil y el valor mximo.

X mn

q1

mediana

q3

X mx

2. Construya una escala sobre el eje X con valores que incluyan el valor mnimo y mximo. 3. Construya un cuadro (rectngulo) que se extienda desde

q1

hasta

q3

y dibuje una lnea en la caja,

correspondiente al valor de la mediana. Observe que el ancho de la base de la caja es nmero se conoce como rango o recorrido intercuartlico y se denota por RI = 4.

q3 - q1 , este

q3 - q1 .
q1 y por arriba de q3 . Es

Establezca dos conjuntos de lmites en la grfica de cuadro: Las cotas interiores y las cotas exteriores. Las cotas interiores se localizan a una distancia de 1.5(RI) por debajo de decir, CII = Cota Interior Inferior =

q1 - 1.5(RI) CIS = Cota Interior Superior = q3 + 1.5(RI) q1 - 3(RI) CES = Cota Exterior Superior = q3 + 3(RI)

Las cotas exteriores se encuentran a una distancia de 3(RI) por debajo de Es decir, CEI = Cota Exterior Inferior = y

q1

y por arriba de

q3 .

Las observaciones que caen entre las cotas interiores y exteriores se denominan posibles valores fuera del intervalo. Se utilizan asteriscos para marcar los posibles valores fuera del intervalo. Las observaciones que caen fuera de las cotas exteriores se denominan valores fuera del intervalo muy probables. Se utilizan crculos pequeos para marcar valores fuera del intervalo muy probables. 5. A fin de destacar an ms los valores extremos, se aaden bigotes a la grfica de cuadro de la siguiente forma: Marque el valor de la observacin dentro de la regin entre CII y una X y su bigote para ubicar el valor ms extremo entre

q1

que est ms

cercano a CII con una X y nala al cuadro con una lnea punteada (un bigote). De igual forma utilice

q3 y

CIS.

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

35

Ejemplo: Para los niveles de cotinina en fumadores, considere toda la informacin dada y construya un diagrama de caja y bigotes.

X mn
CII =

= 0.0,

q1 =

86.3,

mediana = 170.0,

q3 = 252.3,

X mx

= 491.0

RI = 252.3 - 86.3 = 166.0

q1 - 1.5(RI) = 86.3 1.5(166) = 86.3 249 = - 162.7 CIS = q3 + 1.5(RI) = 252.3 + 1.5(166) = 252.3 + 249 = 501.3 q1 - 3(RI) = 86.3 3(166) = - 411.7 CES = q3 + 3(RI) = 252.3 + 3(166) = 750.3
CEI =

COTAS INTERIORES

COTAS EXTERIORES

Ejercicio : El resumen estadstico que se da a continuacin se refiere a los tiempos de CPU (en segundos) que 25 trabajos estuvieron en control de la unidad central de procesos (CPU) de una computadora mainframe grande. Representan una muestra seleccionada de una poblacin de 1000 tiempos de CPU. Descriptive Statistics: CPU
Variable CPU Total Count 25 Minimum 0,020 Q1 0,785 Median 1,380 Q3 2,285 Maximum RI 4,750 1,500

Utilice esta informacin para construir un diagrama de caja y bigotes hay puntos atpicos?

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

36

1.8 DIAGRAMA DE DISPERSIN Un diagrama de dispersin (o nube de puntos) es el conjunto de puntos que resultan al marcar los puntos ( x1 , y1 ), ( x 2 , y 2 ),......, ( x n , y n ) , sobre un sistema de coordenadas rectangulares. Es una tcnica grfica til para mostrar la relacin entre dos variables. A continuacin, se muestra el diagrama de dispersin para el siguiente conjunto de datos:

xi
10 8 9 11 13

yi
6 2 6 5 7

xi
11 10 7 7 11

yi
6 5 2 3 7

Un diagrama de dispersin requiere que las dos variables sean de tipo cuantitativa.

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

37

1.9 DISTRIBUCIN DE FRECUENCIAS BIVARIADAS. COVARIANZA Y COEFICIENTE DE CORRELACIN Muchas veces los datos que se investigan pueden incluir valores de varias variables relacionadas entre s, por lo que es interesante su estudio conjunto. Segn el nmero de variables analizadas (una, dos o ms de dos), el anlisis estadstico corresponde a un anlisis univariado, bivariado o multivariado de datos como lo muestra la figura siguiente.
Inicio

Una

Cuntas variables van a analizarse a la vez? Dos

Ms de dos

Anlisis univariado de datos

Anlisis bivariado de datos

Anlisis multivariado de datos

En lo que sigue, supondremos que sobre cada individuo o elemento se han observado dos variables en lugar de una, por lo que nuestro inters se centrar en las distribuciones de frecuencias de dos variables o bidimensionales. Las estadsticas de dos variables resultan de observar conjuntamente dos caracteres cuantitativos de los elementos que componen una poblacin o muestra. Las parejas de valores observados se disponen en dos columnas, una para los valores que toma una de las variables observadas X, y otra para la segunda de las variables Y. Valores de X x1 x2 . . . xn Valores de Y y1 y2 . . . yn

Donde algunos valores de la variables X pueden repetirse con distintos valores de la variable Y, y viceversa. Cuando las parejas de valores presentan repeticiones o frecuencias se acostumbra a disponer los resultados en una tabla de doble entrada (con k filas y h columnas), donde en la primera fila se colocan los valores y1 , y 2 , . . . , y h de la variable Y, y en la primera columna los valores x1 , x 2 , . . . , x k de la variable X. En la interseccin de la fila i con la columna j, se indica la frecuencia conjunta nij referida al par ( xi , y j ) correspondiente, tal como lo muestra la tabla 1 a continuacin:

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

38
Tabla 1: tabla de doble entrada para las variables X e Y.

X x1
x2 xi xk

y1
n11

y2 n12 n22 ni 2 nk 2

yj n1 j

yh n1h n2 h
nih

n21 ni1 nk 1

n2 j
nij nkj

nkh

Los valores de las variables X e Y que aparecen en la tabla de doble entrada pueden ser singulares o por intervalos, hacindose necesario en este segundo caso construir intervalos de clase y trabajar con las marcas de clases. DISTRIBUCIONES MARGINALES: Medias, Varianzas y Desviaciones Estndar. La tabla de doble entrada anterior puede completarse con una ltima fila y una ltima columna que recojan los totales de cada columna y de cada fila respectivamente. La tabla 2 siguiente muestra los totales para X e Y respectivamente:
Tabla 2: distribucin conjunta y marginal

X
x1 x2 xi xk
Marginal de Y
k

y1
n11

y2 n12 n22 ni 2 nk 2
k

yj n1 j

yh n1h

Marginal de X
h

n1 j
j 1
h

n21 ni1 nk 1

n2 j
nij

n2 h
j 1

n2 j

nih
h

nkj
k

nkh
j 1

nk j
n

ni 1
i 1 i 1

ni 2
i 1

ni h

Si se tiene en cuenta de esta nueva tabla la primera columna, es decir, los valores de la variable X y la ltima de dichas columnas, o sea, el nmero de veces que se repite cada uno de los valores de X independientemente del valor de Y que lo acompaa, obtendremos la llamada distribucin marginal de la variable X cuyo nombre proviene simplemente del hecho de que las dos series de valores se encuentran en los mrgenes de la tabla. Del mismo modo, la primera fila (valores de la variable Y) y la ltima (frecuencias de y j ) componen la distribucin marginal de la variable Y. A continuacin se muestra separadamente la distribucin marginal de X e Y.

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

39
Distribucin marginal de X Distribucin marginal de Y

Marginal de

X
h

X
n1 j
j 1

Y
y1

Marginal de

Y
k

x1
h

ni 1
i 1 k

x2
j 1

n2 j

y2
i 1

ni 2

xi
h

yj

xk
j 1

nk j
n

yh
i 1

ni h
n

Naturalmente, para cada una de estas dos distribuciones marginales pueden hallarse las Medias, las varianzas, las desviaciones estndar y cualquier otra medida de las ya consideradas para las estadsticas de una sola variable. Ejemplo: Se tiene los siguientes datos sobre el peso (variable X) y la estatura (variable Y) de 20 personas de gnero masculino. X (kilos) 63 75 67 70 73 72 67 69 70 84 Y (metros) 1.71 1.70 1.70 1.68 1.75 1.69 1.71 1.69 1.66 1.73 X (kilos) 71 70 66 60 73 69 65 72 73 68 Y (metros) 1.76 1.70 1.69 1.67 1.78 1.74 1.70 1.68 1.71 1.78

Dado que hay ms de 10 valores distintos para las variables, se trabajar con intervalos de clases. Seguimos los siguientes pasos: Rango (X) = 84 60 = 24 KX = 5 Rango (Y) = 1,78 1.66 = 0.12 KY = 3

AX

24 5

4,8

AY

0,12 3

0, 04

0.05
Marginal de X

1.65 1.69

1.70 1.74

1.75 1.79

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

40

60 64 65 69 70 74 75 79 80 84 Marginal de Y

1 2 4 0 0 7

1 4 2 1 1 9

0 1 3 0 0 4

2 7 9 1 1 20

De esta tabla podemos obtener la distribucin marginal de la variable X que es la siguiente: Intervalos 60 64 65 69 70 74 75 79 80 84

ni
2 7 9 1 1 20

Marcas de clases mi 62 67 72 77 82

mi n i
124 469 648 77 82 1400

mi2 ni

98420

Media marginal de X : x =

1400 20

70
98420 20

Varianza marginal de X : S2

mi 2 n i n

70

21

Desviacin estndar de X : S = 4,58 Ejercicio: Obtener la distribucin marginal de Y, calcular media, varianza y desviacin estndar

IMPORTANTE: Cuando las variables son cualitativas la tabla resultante se denomina tabla de contingencia Una tabla de contingencia es una tabulacin cruzada, que resume simultneamente dos variables de inters por ejemplo: Los estudiantes en una universidad se clasifican por gnero y carrera Un producto se clasifica como aceptable o rechazado de acuerdo con el turno (matutino, vespertino, nocturno) en el que se fabrica. Ejemplo: Un fabricante de ventanas produjo 50 ventanas el da de ayer. Esta maana, el inspector de control de calidad revis cada ventana y las clasific como aceptable o inaceptable y de acuerdo con el turno en que se fabric. Observemos que hay dos variables en este estudio: El turno de fabricacin y La calidad de las ventanas. Los resultados se muestran en la siguiente tabla: Matutino 17 3 20 TURNO Vespertino 13 2 15 Nocturno 14 1 15 Total 44 6 50

Aceptable Defectuoso Total

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

41

El organizar la informacin en una tabla de contingencia permite comparar la calidad de los tres turnos. Por ejemplo, en el turno matutino, 3 de 20 ventanas, o 15%, estn defectuosas. En el turno vespertino, 2 de 15, o 13%, estn defectuosas y en el turno nocturno, 1 de 15, o 7% se encuentran defectuosas. En total, el 12% de las ventanas estn defectuosas. Observemos tambin que el 40% de las ventanas se fabrican en el turno matutino. COVARIANZA Y CORRELACIN Al analizar dos variables cuantitativas de forma conjunta, el objetivo que se pretende es, por lo general, determinar si existe o no algn tipo de variacin conjunta o covariacin entre ellas: si una variable aumenta, la otra tambin, o lo contrario. Una medida de asociacin lineal entre dos variables es la covarianza , se denota por S XY y se define como:

S XY

1 N

xi
i 1

yi

La cantidad que hemos denominado covarianza, S XY , ayuda a cuantificar la covariacin entre dos variables del siguiente modo: Cuando S XY

0 , hay una tendencia a que a mayores observaciones de X correspondan mayores observaciones de Y . Por ejemplo, a mayor cantidad de agua de lluvia en un ao, suele corresponder
una mejor cosecha. Cuando S XY

0 , la tendencia resulta contraria; es decir, a mayor valor de X solemos encontrar menores valores de Y . Por ejemplo, a mayor renta per cpita en los pases suele corresponder una
menor mortalidad infantil. Si S XY
5

0 no se puede concluir que no exista relacin entre ambas variables (Figura siguiente).
Nube de puntos de Y vs X

1 1,0 1,5 2,0 X 2,5 3,0 3,5

La Covarianza Si S XY

0 las dos variables crecen o decrecen a la vez (nube de puntos creciente).

Si S XY 0 cuando una variable crece, la otra tiene tendencia a decrecer (nube de puntos decreciente). Si los puntos se reparten con igual intensidad alrededor de x , y , entonces S XY

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

42

(no hay relacin lineal).

IMPORTANTE: Si dos variables son estadsticamente independientes su covarianza vale cero. El recproco no es cierto: existen variables que no son estadsticamente independientes y sin embargo su covarianza es nula. De este modo podemos utilizar la covarianza para medir la variacin conjunta covariacin de las variables X e Y . Esta medida no debe ser utilizada de modo exclusivo para medir la relacin entre las dos variables, ya que es sensible al cambio de escala. Por ello, es necesario definir una medida de relacin entre dos variables, y que no est afectada por los cambios de unidad de medida. Una forma posible de conseguir este objetivo es dividir la covarianza por el producto de las desviaciones estndar de cada variable, ya que as se obtiene un coeficiente adimensional, r , que se denomina coeficiente de correlacin lineal de Pearson:

S XY S X SY

El coeficiente de correlacin
Carece de unidades de medida (adimensional). Es invariable en transformaciones lineales (cambio de origen y escala) de las variable. Slo toma valores comprendidos entre 1 y 1. Cuando r est prximo a uno, existir una relacin lineal muy fuerte entre las variables. Cuando r

0 , puede afirmarse que no existe relacin lineal entre ambas variables.

El esquema que sigue representa adecuadamente la intensidad y la direccin del coeficiente de correlacin.
r = -1 - 1 < r < -0.8 Corr. Corr. Negativa Negativa perfecta intensa r = -0.8 Corr. Negativa moderada -0.8 < r < 0 Corr. Negativa dbil r=0 No hay Corr. 0 < r < 0.8 Corr. positiva dbil r = 0.8 Corr. positiva moderada 0.8 < r < 1 Corr. positiva intensa r=1 Corr. positiva perfecta

CORRELACION NEGATIVA

CORRELACION POSITIVA

En resumen: Si r 1 el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de X y viceversa). Si r 0 las variables X e Y no estn relacionadas (linealmente al menos), por tanto no tiene sentido hacer un ajuste lineal. Sin embargo, no es seguro que las dos variables no posean ninguna relacin en el caso r = 0, ya que si bien el ajuste lineal puede no ser procedente, tal vez otro tipo de ajuste s lo sea. Las representaciones grficas siguientes ilustran este tipo de situaciones.

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

43
Figura 1.a: coeficiente de correlacin cercano a 1

6
4,0

Figura 1.b: coeficiente de correlacin cercano a -1

5
3,5

4 3
Y

3,0 2,5 2,0 1,5 1,0


Y

2 1 0

-2

-1

1 X

-3

-2

-1 X

Figura 1.c: Nube de puntos para X versus Y 2,9 2,8 2,7 2,6 2,5
Y
Figura 1.d: Nube de puntos para X versus Y 0 -100000 -200000 -300000 -400000

2,4 2,3 2,2 2,1 2,0 3,0 3,2 3,4 3,6 X 3,8 4,0 4,2

Y
-500000 -600000 -700000 -800000 -900000 3,0 3,2 3,4 3,6 X 3,8 4,0 4,2

Figura 1 Cuando el coeficiente de correlacin se encuentra prximo a 1 o 1, la nube de puntos est muy prxima a una recta (Figura 1.a y 1.b). El signo de la pendiente de la recta coincide con el de r. Cuando r 0, no procede realizar un ajuste lineal. Lo que puede deberse a que las dos variables no estn relacionadas (independencia), como ocurre con la figura 1.c; o tal vez s lo estn, pero el tipo de ajuste que debe realizarse es de otra naturaleza (figura 1.d).

Ejercicio Para el siguiente conjunto de datos, se pide: hacer un diagrama de dispersin, calcular x , y , varianza de X, varianza de Y, covarianza de X e Y y coeficiente de correlacin de X e Y X Y 1 2 3 4 5 3 7 6 9 5

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

44

Bibliografa: Estadstica para Administracin y Economa Mason y Lind 8va. Edicin Alfaomega Estadstica Bsica en Administracin y Economa. Conceptos y Aplicaciones. Mark L. Berenson David M. Levine Cuarta Edicin Prentice Hall Probabilidad y Estadstica aplicadas a la Ingeniera Douglas C. Montgomery y George C. Runger Mc Graw-Hill Probabilidad y Estadstica para Ingeniera y Ciencias William Mendenhall Terry Sincich Cuarta Edicin Prentice Hall

Estadstica 220015 / 1ro_2013

Prof. Nelly Gmez F.

Potrebbero piacerti anche