Sei sulla pagina 1di 53

UNIVERSIDAD DE ATACAMA

FACULTAD DE INGENIER

IA
Departamento de Matematica
ESTAD

ISTICA DESCRIPTIVA
por
Dr. David Jorge Elal Olivero
COPIAP

O - CHILE
2006
Copyright c 2006 by David Jorge Elal Olivero

Indice general
1. Introduccion 1
1.1. Panorama General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2. Distribucion de la informacion y tipos de datos 3
2.1. Introduccion a las tablas de frecuencias . . . . . . . . . . . . . . . . . . . . . . . 3
2.2. La naturaleza de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3. Tabla de distribucion y gracos . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.1. Determinacion del n umero de clases . . . . . . . . . . . . . . . . . . . . . 9
2.3.2. Determinacion de la amplitud de cada clase . . . . . . . . . . . . . . . . 9
2.3.3. Construccion de la tabla de distribucion de frecuencia . . . . . . . . . . 11
2.3.4. Graco, histograma y polgono de frecuencia . . . . . . . . . . . . . . . . 13
2.3.5. Construccion de la tabla de distribucion de frecuencia acumulada . . . . 16
2.3.6. Graco, Ojiva porcentual . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.7. Calculo de percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3. Estudio de Parametros de una Poblacion 19
3.1. Medidas de tendencia central:promedio . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.1. Propiedades del promedio y la varianza . . . . . . . . . . . . . . . . . . . 23
3.2. Medidas de tendencia central: mediana y otras cuantiles . . . . . . . . . . . . . . 26
3.3. Medidas de tendencia central: moda . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4. Medidas de variabilidad: desviacion estandar . . . . . . . . . . . . . . . . . . . . 29
3.5. Estandarizacion y coeciente de variacion . . . . . . . . . . . . . . . . . . . . . . 32
3.5.1. Estandarizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5.2. Coeciente de variacion . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.6. Introduccion a los n umeros ndices . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.6.1. Indices de frecuencia y gravedad en prevencion de riesgo . . . . . . . . . 38
4. Estadstica descriptiva bivariada 42
4.0.2. Distribucion condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.0.3. Marca de clase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.0.4. Distribucion marginal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.0.5. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Bibliografa 49
Captulo 1
Introduccion
1.1. Panorama General
Denicion 1.1 Estadstica es la ciencia que trata de los metodos y medios para recopilar,
organizar, presentar, analizar e interpretar datos estadsticos, con el objeto de tomar decisiones
mas ecaces.
El problema de describir, resumir y analizar datos de censos condujo a la creacion de metodos
que, hasta hace poco, constituan casi todo lo que haba sobre el tema de la estadstica. Estos
metodos, que en un principio consistan sobre todo en la presentacion de datos en forma de
tablas y diagramas, constituyen lo que ahora se denomina la estadstica descriptiva. Esta
comprende cualquier cosa que se haga con los datos y que este dise nada para resumirlos o
describirlos, sin tener que ir mas lejos, o sea, sin intentar deducir nada que escape de los datos
mismos. Por ejemplo un anuario informa que los accidentes en faenas mineras en chile, durante
el a no 2004, fueron de 21.567 mientras que en el a no 2005 fueron de 25.469 y se realizan los
calculos necesarios para demostrar que hubo un incremento de los accidentes, en dicho perodo,
de un 18,09 %, este trabajo pertenece al campo de la estadstica descriptiva. Sin embargo, este
no sera el caso si se utilizaran los datos para predecir el n umero de accidente, por ejemplo,
para el 2006.
A pesar que la estadstica descriptiva es una rama importante de la estadstica y se sigue uti-
lizando ampliamente, la informacion estadstica suele emanar de muestras (de observaciones
hechas solo en parte de un conjunto grande de elementos), y esto quiere decir que su anali-
sis requerira generalizaciones que van mas alla de los datos mismos. Como resultado, una
CAP

ITULO 1. INTRODUCCI

ON
caracterstica importante del reciente desarrollo de la estadstica ha sido el paso de metodos
meramente descriptivos a metodos que sirven para hacer generalizaciones, es decir el paso de
la estadstica descriptiva a los metodos de la estadstica inferencial .
En estos apuntes nos ocuparemos de desarrollar solamente aspectos de la estadstica descriptiva
Captulo 2
Distribucion de la informacion y tipos
de datos
2.1. Introduccion a las tablas de frecuencias
El poder resumir una gran masa de datos en forma utilizable siempre ha sido importante,
pero se ha multiplicado considerablemente en las ultimas decadas. Esto se ha debido en parte
al desarrollo computacional que han hecho posible realizar en minutos lo que antes se tena
que dejar de hacer debido a que se llevara meses o a nos, y en parte por el torrente de datos
generados por el enfoque cada vez mas cuantitativo de las ciencias.
El metodo mas com un de resumir datos consiste en presentarlos en forma condensada en tablas
o gracas, y aqu la palabra clave es: Distribuci on
Denicion 2.1 Una tabla compuesta de las y columnas donde todos los datos de la poblacion
en estudio se distribuyen seg un un criterio denido en las celdas generadas por la interseccion
de las las y culumnas se conoce con el nombre de Tabla de Frecuencias.
Para ilustrar la importancia de presentar una gran masa de datos en una tabla de frecuencia
analicemos los siguientes ejemplos
Ejemplo 2.1 Un sociologo esta interesado en estudiar las edades de las personas de un de-
terminado Pais que tienen un ingreso menor al mnimo. No nos pongamos en el caso de las
grandes dicultades que tendra para recolectar la informacion, y para simplicar la situacion,
CAP

ITULO 2. DISTRIBUCI

ON DE LA INFORMACI

ON Y TIPOS DE DATOS
supongamos que logra que un organismo gubernamental generosamente lo provea de gran infor-
macion.
Con respecto a grandes conjuntos de datos, con frecuencia se pueden transmitir a menudo una
buena representacion total y la informacion suciente mediante la clasicacion de los datos en
una tabla de fecuencia y el sociologo descubre que la informacion que busca se presenta como
se indica para el a no 2005
Cuadro 2.1: Personas con ingreso menor que el mnimo.
Edad N umero de personas
(en a nos) (en miles)
Menores de 16 1.233
de 16 a 21 932
de 22 a 44 779
de 45 a 64 175
de 65 y mas 863

3.982
Esta tabla de frecuencia muestra como se distribuyen, aproximadamente, 4 millones de
personas de acuerdo a su edad. Observe que la clasicacion se hace bajo un criterio (Edad)
que es una magnitud numerica, y por ejemplo la clase de 16 a 21 comprende los valores
16,17,18,19,20 y 21. Cada clase tambien puede abarcar un solo valor; como se ilustra en el
siguiente ejemplo.
Ejemplo 2.2 La tabla siguiente muestra la distribucion del n umero de accidentes laborales de
un pais Z entre los a nos 2001 hasta 2005.
Observe que cada clase considera solo un valor asi la primera es solo el valor 2001, la segunda
2002, la tercera 2003, la cuarta 20004 y por ultimo la quinta clase contempla solo el valor 2005
Por otra parte observe que el n umero de accidentes en el a no 2005 disminuyo en un 4.17 %
respecto al a no 2004, sin embargo El n umero de accidentes In Itinere aumento en un 2,87 %
en el mismo perodo.
Como se calculan los ndices (porcentajes) 4.17 % y 2,87 %? Desarrollelo
CAP

ITULO 2. DISTRIBUCI

ON DE LA INFORMACI

ON Y TIPOS DE DATOS
Cuadro 2.2: Accidentabilidad laboral
A no N

de accidentes Accidentes
Totales Itinere
2001 486.109 5.196
2002 671.004 5.933
2003 801.416 6.918
2004 821.458 7.339
2005 787.182 7.550

3.567.169 32.936
En el siguiente ejemplo los datos se distribuyen, en la tabla de frecuencia, seg un un criterio de
acuerdo a si cumple o no ciertas condiciones dadas por una cualidad.
Ejemplo 2.3 La tabla de distribucion siguiente muestra como se movilizan al trabajo los
obreros de la empresa XY
Cuadro 2.3: Medios de transporte de los obreros de la empresa XY
Medios de Porcentaje
Transporte %
En auto propio 42
Solo en tren 14
Solo en bus 32
Combina bus y tren 8
Caminando (generalmente) 4

100 %
Ejemplo 2.4 La siguiente tabla de frecuencia ilustra el nivel de colesterol en la sangre de
ciudadanos de la ciudad de Calama entre 25 a 34 a nos de edad, registrados durante el primer
semestre del a no 2006.
.
CAP

ITULO 2. DISTRIBUCI

ON DE LA INFORMACI

ON Y TIPOS DE DATOS
Cuadro 2.4: Distribucion de ciudadanos de La Serena seg un nivel de colesterol en la sangre.
Nivel de frecuencia
Colesterol(
mg
100ml
) f
80 - 119 13
120 - 159 150
160 - 199 442
200 - 239 299
240 - 279 115
280 - 319 34
320 - 359 9
360 - 399 5

1067
Convencidos de la importancia de distribuir la informacion en una tabla de frecuencia amerita
una construccion y analisis mas detallada, situacion que hemos reservado para tratarla mas
adelante. Sin embargo podemos rescatar, que en el analisis hecho de las tablas de frecuencia,
nos hemos enfrentado a diferentes tipos de datos (que representan n umeros o cualidades) que
pasamos a precisar en la siguiente seccion.
2.2. La naturaleza de los datos
Algunos conjuntos de datos consisten en n umeros y otros son no numericos. Suelen utilizarse
los terminos datos cuantitativos y datos cualitativos para distinguir entre estos dos tipos.
Denicion 2.2 Los datos cuantitativos consisten en n umeros que representan conteo o medi-
ciones.
Los datos cualitativos (o categoricos o de atributos) se caracterizan por ser reconocidos por una
cualidad y son no numericos
Ejemplo 2.5 De datos cuantitativos:
1. N umero de hijos en familias
2. N umero de accidentes ocurridos durante un determinado mes, en una empresa X
CAP

ITULO 2. DISTRIBUCI

ON DE LA INFORMACI

ON Y TIPOS DE DATOS
3. Sueldos de funcionarios de una determinada organizacion
4. Tiempo de vida util de una maquinaria
5. Distancia recorrida por un movil
Ejemplo 2.6 De datos cualitativas:
1. Estado Civil (soltero, casado, divorciado, viudo)
2. Genero (masculino o femenino)
3. Religion
4. Color de los ojos
5. Marca de cigarrillos
Podemos describir con mayor detalle los datos cuantitativo distinguiendo entre los tipos discre-
tos y continuos
Denicion 2.3 Los datos discretos se obtienen de un n umero nito de posibles valores o bien
de un n umero de posibles valores que puede contarse. (Esto es el n umero de posible valores es
0, 1, 2, etc.)
Los datos continuos se obtienen de un n umero innito de posibles valores que pueden asociarse
a puntos de una escala continua, de tal manera que no haya hueco e interrupciones
Ejemplo: Considerando el ejemplo de datos continuos, antes mencionado, se puede apreciar
que los casos 1 y 2 son datos discretos mientras que los casos 3,4 y 5 son datos continuos.
Hasta ahora hemos aprendido a distinguir las diferentes formas en que podramos enfrentar
a un conjunto de datos. Para realizar un analisis o estudio descriptivo acusioso de ellos apren-
deremos a continuacion a construir tablas de distribuciones.
2.3. Tabla de distribucion y gracos
En esta seccion se analizara la forma de organizar un conjunto de datos, sin procesar, en
una tabla de distribucion de frecuencia y como representar esta distribucion de manera graca
CAP

ITULO 2. DISTRIBUCI

ON DE LA INFORMACI

ON Y TIPOS DE DATOS
en un histograma, un polgono de frecuencia, y una ojiva porcentual. Luego se resumiran y
presentaran otros tipos de informacion numerica en forma de graca de linea, de barras o de
alg un otro tipo.
Cuando las observaciones se agrupan o condensan en tablas de distribucion de frecuencia, el
proceso de analisis e interpretacion de los datos se hace mucho mas manejable y signicativo. Al
clasicar la informacion en clases o intervalos la informacion inicial referente a las observaciones
que se dispona se pierde a traves del proceso de agrupamiento, es decir, se esta perdiendo
precision de la informacion pero se esta ganando en interpretacion y comprobare-
mos que bien vale la pena, ya que lo que se gana, es mucho mas de lo que se pierde.
Los pasos a seguir para elaborar una tabla de distribucion de frecuencia se explican mejor
utilizando un ejemplo.
Ejemplo 2.7 La siguiente tabla muestra los sueldos lquidos (en miles)de 120 ejecutivos de la
empresa X
1170 1207 1581 1277 1305 1472 1077 1319 1537 1849
1332 1418 1949 1403 1744 1532 1219 896 1500 1671
1471 1399 1041 1379 821 1558 1118 1533 1510 1760
1826 1309 1426 1288 1394 1545 1032 1289 695 803
1440 1421 1329 1407 718 1457 1449 1455 2051 1677
1119 1020 1400 1442 1593 1962 1263 1788 1501 1668
1352 1340 1459 1823 1451 1138 1592 982 1981 1091
1428 1603 1699 1237 1325 1590 1142 1425 1550 913
1470 1783 1618 1431 1557 896 1662 1591 1551 1612
1249 1419 2162 1373 1542 1631 1567 1221 1972 1714
949 1539 1634 1637 1649 1607 1640 1739 1540 2187
1752 1648 1978 640 1736 1222 1790 1188 2091 1829
Es importante tener presente los siguientes consideraciones para confeccionar una tabla de
frecuencia:
1. Seleccionar el n umero apropiado de clases o intervalo
2. Obtener la amplitud de cada clase o intervalo
CAP

ITULO 2. DISTRIBUCI

ON DE LA INFORMACI

ON Y TIPOS DE DATOS
3. Establecer los lmites de cada clase o intervalo para evitar los traslapes y asi impedir que
un dato pueda ser clasicado en dos o mas clases.
.
2.3.1. Determinacion del n umero de clases
Nos proponemos clasicar la informacion en una tabla de distribucion de frecuencia, para ello
debemos primeramente ponernos de acuerdo en el n umero de clases o intervalos a utilizar. Sobre
este punto es importante que exista acuerdo entre el equipo que esta realizando la investigacion
y prevalecera, por supuesto, las razones tecnicas para decidirlo. Dado que este es un ejemplo
academico resolveremos esta situacion recurriendo a la regla de Sturges que nos dice lo siguiente:
Si N representa el n umero de intervalos a encontrar, entonces la regla de Sturges propone
calcularlo as:
N = 1 + 3, 3 log n
donde n es el n umero total de datos.
En nuestro caso n=120, luego N = 1 + 3, 3 log120 = 1 + 3, 3 2, 0792 = 7, 86 8
As el n umero de intervalos (o clases) es N = 8.
2.3.2. Determinacion de la amplitud de cada clase
Siguiendo las recomendaciones para confeccionar una tabla de frecuencia y en relacion a
la amplitud que debe tener cada intervalo tambien es tratado entre el grupo interesado en
la investigacion aunque es recomendable que todos tengan la misma amplitud. Siguiendo este
ultimo argumento la amplitud de un intervalos, que sera igual para todos, se obtiene de la
siguiente manera:
1. Se selecciona el dato mayor y el dato menor
2. Si denotamos por a la amplitud del intervalo, entonces, a se calcula as:
a =
dato mayor - datos menor
8
CAP

ITULO 2. DISTRIBUCI

ON DE LA INFORMACI

ON Y TIPOS DE DATOS
En nuestro caso se tiene que el dato mayor es 2187 y el menor es 640, por lo tanto
a =
2187 640
8
= 193, 375
Observacion 2.1 La verdad es que el valor 193, 375 es muy feo para considerarlo como una
amplitud de intervalo(aunque se puede trabajar con el), ya que se va a usar mucho para realizar
c alculos y sumara bastante complejidad al problema. C omo resolver la situacion?
Pareciera que una amplitud de 194, 195 o 196, que estan por sobre 193, 375, seran bastante
comodo ya que son n umero entero y muy proximo a 193, 375. Es importante destacar, que
cualquiera de ellos que usemos, sus efectos seran realmente insignicante tanto en las diferencias
de los resultados como sus interpretaciones, recuerde que estamos perdiendo precision pero
ganando en interpretacion, a un as es recomendable considerar el entero, superior, mas proximo
que en nuestro caso es 194. Veamos gracamente la situacion:
Se observa que la amplitud de cada clase se obtiene al dividir por 8 la diferencia 2187640 =
1547 lo que resulta el n umero feo 193, 375 (observe que esta diferencia representa la longitud
del intervalo [640 2187]). Pero lo que queremos es que la amplitud sea el n umero bonito 194,
esto obliga a que la diferencia ?? = 1552. Esto nos lleva a aumentar en 5 unidades la
diferencia 2187 640 = 1547. y por consiguente a ampliar en 5 unidades la longitud del
intervalo [640 2187]).
Observacion 2.2 1. Si el aumento de la longitud del intervalo hubiese sido un n umero par,
por ejemplo 4, entonces se resta 2 unidades al lado izquierdo (640) y se suman 2 unidades
al lado derecho (2187)
2. En nuestro caso hay que aumentar en un n umero impar, que es 5, la longitud del intervalo
- en tal caso - se elige en forma arbitraria la distribucion de 2 unidades a la izquierda
y 3 a la derecha o viceversa. Si la eleccion es restar 3 unidades a la izquierda y sumar
CAP

ITULO 2. DISTRIBUCI

ON DE LA INFORMACI

ON Y TIPOS DE DATOS
2 unidades a la derecha, el intervalo quedara [637 2189]). y en tal caso se conrma la
amplitud a = 194, es decir:
a =
2189 637
8
=
1552
8
= 194
2.3.3. Construccion de la tabla de distribucion de frecuencia
Una vez que hemos determinado el n umero de clases o intervalos y la amplitud de cada uno
de ellos la tabla de distribucion de frecuencia quedara:
Intervalos frecuencia
- (f)
637 831
831 1025
1025 1219
1219 1413
1413 1607
1607 1801
1801 1995
1995 2189
Para seleccionar los datos dentro de la tabla de distribuci on, ya confeccionada, podramos
tener el problema de que un dato pueda estar en dos intervalos, por ejemplo Donde clasicara
usted el dato 1219? como respuesta podramos decir que estara en el 3er intervalos o en el 4to
intervalo. Para evitar esta ambig uedad consideraremos el intervalo [1025 1219[ es decir cerrado
en 1025 y abierto 1219 lo que implica que el extremo derecho no se considera en dicho intervalo.
Con esta aclaracion la respuesta a la pregunta sera El dato 1219 estara en el 4to intervalo.
Con esta consideracion la tabla de distribucion la podramos presentar as:
CAP

ITULO 2. DISTRIBUCI

ON DE LA INFORMACI

ON Y TIPOS DE DATOS
Intervalos frecuencia
- (f)
[637 831[
[831 1025[
[1025 1219[
[1219 1413[
[1413 1607[
[1607 1801[
[1801 1995[
[1995 2189]
Ahora estamos en condiciones de completar la tabla de distribucion de frecuencia clasicando
los datos en los respectivos intervalos y no estaramos expuestos a ning un tipo de problema.
Clasicados los datos la tabla quedara:
Intervalos frecuencia
- (f)
637 831 5
831 1025 6
1025 1219 11
1219 1413 24
1413 1607 38
1607 1801 23
1801 1995 9
1995 2189 4
Observacion 2.3 Haremos algunas interpretaciones de algunos datos de la tabla de frecuencia
como tambien combinando alguno de ellos.
1. El datos 24 signica que: 24 ejecutivos de la empresa tienen un sueldo lquido entre
$1.219.000 y $1.413.000.
CAP

ITULO 2. DISTRIBUCI

ON DE LA INFORMACI

ON Y TIPOS DE DATOS
2. 11 ejecutivos de la empresa tienen un sueldo entre $1.2025.000 y $1.219.000. Observe
tambien que el mismo n umero, es decir 11, de los ejecutivos tienen un sueldo inferior
$1.025.000
3. observe que 36 ejecutivos de la empresa tienen un sueldo lquido superior (o igual) a
$1.607.000
2.3.4. Graco, histograma y polgono de frecuencia
Considerando la tabla de distribucion de frecuencia, recien construda, podemos tener un
efecto visual de ella a traves de un graco denominado histograma, que pasamos a mostrar:
La altura de los rectangulos del histograma muestran la frecuencia de ejecutivos mientras
que los extremos de la base de los rectangulos muestran donde ut uan los sueldos lquidos de
ellos.
Uniendo los puntos medios de las alturas de cada reactangulo se consigue un nuevo graco que
se denomina Polgono de frecuencia quedando como se muestra:
CAP

ITULO 2. DISTRIBUCI

ON DE LA INFORMACI

ON Y TIPOS DE DATOS
Observacion 2.4 Para gracar el polgono de frecuencia se tomaron las siguientes considera-
ciones
1. Las lneas que unen los puntos de los techos de los rectangulos dan una aspecto tosco y se
ha preferido suavizarla dandole una forma mas acampanada.
2. Para cerrar la campana(polgono de frecuencia) se han considerados los puntos medios de
los intervalos (imaginarios) que no estan contemplados en la tabla de frecuencia y que
son [443 637[ a la izquierda y [2189 2383[ a la derecha, siendo los puntos medios de cada
uno de ellos 540 y 2286 respectivamente.
La tabla de distribucion de frecuencia se puede complementar agregando una nueva columna
que no es otra cosa que la columna de frecuencia pero expresada en porcentaje. Considerando
esta nueva columna se puede mostrar un histograma y su polgono de frecuencia y los gracos
seran practicamente los mismos que hemos visto solo que sufriran un cambio de escala.
La tabla quedara como se muestra a continuacion:
CAP

ITULO 2. DISTRIBUCI

ON DE LA INFORMACI

ON Y TIPOS DE DATOS
Intervalos frecuencia frecuencia ( %)
- (f) relativa h
637 831 5 4,2
831 1025 6 5
1025 1219 11 9,1
1219 1413 24 20
1413 1607 38 31,7
1607 1801 23 19,2
1801 1995 9 7,5
1995 2189 4 3,3

120 100 %
El histograma con el polgono de frecuencia relativa quedaran as
CAP

ITULO 2. DISTRIBUCI

ON DE LA INFORMACI

ON Y TIPOS DE DATOS
2.3.5. Construccion de la tabla de distribucion de frecuencia acu-
mulada
Ahora completaremos la tabla de distribucion agregando dos nuevas columnas que se logran
acumulando las frecuencias y frecuencias relativas como se muestra a continuacion:
Intervalos frecuencia frecuencia frecuencia frecuencia
- relativa acumulada acumulada
- f h F relativa( %) H
637 831 5 4,2 5 4,2
831 1025 6 5 11 9,2
1025 1219 11 9,1 22 18,3
1219 1413 24 20 46 38,3
1413 1607 38 31,7 84 70
1607 1801 23 19,2 107 89,2
1801 1995 9 7,5 116 96,7
1995 2189 4 3,3 120 100

120 100 % - -
Observacion 2.5 A continuacion interpretaremos algunos datos de esta ultima tabla
1. El valor 46 ubicado en la 4a columna se interpreta como: 46 ejecutivos de la empresa
tienen un sueldo inferior a $1.413.000.
2. El valor 89,2 ubicado en la 5a columna se interpreta como: El 89,2 % de los ejecutivos,
de la empresa, tienen un sueldo inferior a $1.801.000.
3. El valor 38,3 ubicado en la 5a columna se interpreta como: El 38, 3 % de los ejecutivos
de la empresa tienen un sueldo inferior a inferior a $1.413.000
4. Observe que: El 60, 8 % (obtenido de 70 % - 9, 2 %)de los ejecutivos de la empresa tienen
un sueldo entre $1.025.000 y $1.607.000
CAP

ITULO 2. DISTRIBUCI

ON DE LA INFORMACI

ON Y TIPOS DE DATOS
2.3.6. Graco, Ojiva porcentual
La ojiva porcentual es un graco que se construye uniendo los puntos (831; 4,2), (1025; 9,2),
(1219; 18,3), (1413; 38,3), (1607;70), (1801; 89,2), (1995; 96,7), (2189; 100) y queda asi:
2.3.7. Calculo de percentiles
Aprovechando el graco de la ojiva porcentual creemos oportuno introducir el concepto de
percentil y sus derivados, aprovechamos, a la vez, de realizar algunos calculos de ellos.
Denicion 2.4 Dado un conjunto de datos perteneciente a una poblacion y suponiendo orde-
nada de menor a mayor, se dene el percentil(k), y se denota por P
k
a aquel valor que deja a
su izquierda el k % de los datos y a su derecha (100-k) %
Ejemplo 2.8 Una vez ordenado los datos, P
30
es el valor que deja a su izquierda el 30 % de
los datos y a su derecha el 70 %.
Resuelva el siguiente ejercicio
1. Encuentre P
70
de los datos correspondientes a los sueldos de los 120 ejecutivos de la
empresa X (con solo observar la ojiva porcentual)
CAP

ITULO 2. DISTRIBUCI

ON DE LA INFORMACI

ON Y TIPOS DE DATOS
2. Encuentre P
80
y P
50
de los datos correspondientes a los sueldos de los 120 ejecutivos de
la empresa X, utilizando la siguiente formula:
P
k
= liminf +
_
k
100
n F

a
_
a
f
donde
a) liminf : corresponde al extremo izquierdo del intervalo donde se encuentra el percentil
buscado P
k
b) F

a
: corresponde a la frecuencia acumulada hasta antes del intervalo donde se en-
cuentra el percentil buscado P
k
c) f: corresponde a la frecuencia del intervalo donde se encuentra el percentil buscado
P
k
d) a: representa la amplitud del intervalo donde se encuentra el percentil buscado P
k
Observacion 2.6 Como saber en que intervalo se encuentra P
k
?
Primero se calcula la siguiente expresion
k
100
n
como resultado nos dara un n umero que debemos ir comparandolo con la columna de la fre-
cuencia acumulada y con el primer valor que supere al n umero nos detenemos en dicho valor y
observamos en que intervalo se encuentra el que nos dara precisamente el intervalo que andamos
buscando. As por ejemplo Donde se encuentra el percentil P
40
?. Primero calculamos:
40
100
120 = 48
Recorriendo la columna de frecuencia acumulada vemos que el primer valor que supera al
n umero 48 es 84 el que se encuentra precisamente en el intervalo 1413 1607.
Captulo 3
Estudio de Parametros de una
Poblacion
En estadstica es com un usar los terminos poblacion y muestra. Estos terminos son un centro
de atencion en la estadstica, asi que los pasamos a precisar en la siguiente denicion.
Denicion 3.1 Una poblacion es la coleccion completa de todos los elementos (puntajes, per-
sonas, mediciones, etc.)que se van a estudiar
Un Censo es la coleccion de datos de cada elemento de la poblacion.
Una muestra es una porcion, o parte de una poblacion.
El estudio de una muestra de la poblacion para proyectar resultados conables a toda ella,
como hemos visto, corresponde a la estadstica inferencial.
Intimamente relacionado con los conceptos de poblacion y muestra esta el de parametro
Denicion 3.2 Un parametro es una medicion numerica que describe alguna caracterstica de
una poblacion
Observacion 3.1 Cuando la medicion numerica describe alguna caracterstica de una muestra
de la poblacion el parametro toma el nombre de estadstico
Consideremos algunos ejemplos.
Ejemplo 3.1 1. Una encuesta aplicada a 348 due nas de casa, en la ciudad de La Serena,
arrojo que 75 (21,55 %) de ellas tienen mas de dos hijos. Dado que la cifra 21,55 % se
basa en una muestra(no en toda la poblacion) es un estadstico(no un parametro)
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
2. Una encuesta aplicada a los 120 diputados de Chile muestra que 75 (62,5 %) de ellos
superan los 65 a nos de edad. La cifra 62,5 % sera un parametro porque se basa en la
poblacion de todos los diputados.
3. Una encuesta aplicada a los 258 funcionarios de la empresa XYZ arrojo que el suel-
do promedio imponible era de $458.650. La cifra promedio sera entonces tambien un
parametro.
4. Una encuesta aplicada a la cadena de empresas ABC entrego la siguiente informacion:
De los 53.576 accidentes ocurridos durante el a no 2005; 86 resultaron fatales. Si deni-
mos un indicador que mida la gravedad de los accidentes podramos pensar en la expresion:
IL =
N

de Fallecidos
Total de Accidentes
100000
En tal caso tenemos que:
IL =
86
53.576
100000 = 162, 39
Observacion 3.2 1. El ndice IL: Se conoce como ndice de letalidad y es un parametro
ya que se calcula sobre el total de accidentados y por otra parte nos indica el n umero de
accidentes fatales por cada 100000 accidentados. En nuestro caso la cadena de empresas
ABC registra 162 accidentes fatales por cada 100000 accidentados. El ndice de letalidad
es muy util cuando se quiere conocer globalmente la gravedad (letalidad) que tienen los
accidentes en una determinada area.
2. Podramos haber multiplicado la proporcion
86
53.576
por el factor 1000, por 10000, o por
1000000 etc. y la interpretacion seria facilmente adaptable. Para nes comparativos con
el comportamiento de otras empresas es conveniente establecer acuerdos, para denir el
factor a utilizar.
3.1. Medidas de tendencia central:promedio
Las medidas de tendencia central pueden describirse rgidamente como promedios en
el sentido de que son indicativas del centro o alrededor del centro. En realidad uno de los
parametros, con esta caracterstica, que goza de mayor popularidad en la estadstica es la media
o Promedio
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
Denicion 3.3 Sean x
1
, x
2
, x
3
, ..., x
n
n datos reales, se dene el promedio de los n datos, y se
denota por X, como
X =

x
i
n
Observacion: El promedio tiende a ubicarse alrededor del centro de los datos por lo que se le
conoce como una medida de tendencia central
Ejemplo 3.2 Considere el siguiente conjunto de datos
x
1
= 2, x
2
= 6, x
3
= 4, x
4
= 2, x
5
= 2, x
6
= 3, x
7
= 4, x
8
= 3, x
9
= 2, x
10
= 4
entonces
X =

x
i
n
=
x
1
+ x
2
+ x
3
+ ... + x
10
10
=
2 + 6 + 4 + ... + 4
10
=
32
10
= 3, 2
Observacion 3.3 En ejemplo anterior se puede observar que realmente hay cuatro datos que
son el 2,3,4 y 6: ocurre que el 2 se repite 4 veces, el 3 se repite 2 veces, el 4 se repite 3 veces
y por ultimo el 6 aparece solo una vez. Podriamos mostar mejor esta observacion disponiendo
los datos en una tabla de frecuencia como se ilustra a continuacion:
Tabla de frecuencia para calculo del promedio
x f fx
2 4 8
3 2 6
4 3 12
6 1 6

10 32
Si sumamos los datos de la columna encabezada por fx nos da 32
Si sumamos los datos de la columna encabezada por f nos da 10
Ahora si realizamos el cuociente
32
10
= 3, 2 nos da el promedio ya conocido, situacion que
podemos formalizar mediante la siguiente formula:
X =

fx

f
=
32
10
= 3, 2
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
Esta formula se conoce como Promedio para datos tabulados
Existe un concepto que generaliza al del promedio que se conoce como promedio ponderado y
en ocasiones es muy util recurrir a el para realizar calculos mas realistas.
Denicion 3.4 Sean x
1
, x
2
, x
3
, ..., x
n
n datos reales, se dene el promedio ponderado de los n
datos, y se denota por X
p
, como
X
p
=

x
i
p
i
donde

p
i
= 1
Ejemplo Un estudiante tiene las siguientes cuatro calicaciones en la asignatura de Estadsti-
ca 63, 39, 40 y un 50 en la escala de 1 a 100 y la nota de aprobacion es un 50. La importancia
de los topicos contemplado en cada prueba son distintos y el profesor, conciente de esto, tiene
la duda en elegir entre tres alternativas de ponderacion que se ilustran en la siguiente tabla:
Tres alternativas de ponderacion para cuatro notas en la asignatura de Estadstica
- Alternativa1 Alternativa2 Alternativa3
Nota1 0, 25 0, 2 0, 3
Nota2 0, 25 0, 3 0, 2
Nota3 0, 25 0, 2 0, 2
Nota4 0, 25 0, 3 0, 3

1 1 1
Observe que la Alternativa1 corresponde al promedio normal en que cada nota tiene el
mismo peso o ponderacion y el alumno estara reprobando la asignatura con nota 48 como se
ilustra:

x
i
p
i
= x
1
p
1
+x
2
p
2
+x
3
p
3
+x
4
p
4
= 630, 25+390, 25+400, 25+500, 25 = 48
Bajo la Alternativa2 el estudiante tambien reprueba la asignatura con nota 47 y la pon-
deracion dada le perjudica en relacion a la alternativa1 (Promedio normal).

x
i
p
i
= x
1
p
1
+x
2
p
2
+x
3
p
3
+x
4
p
4
= 63 0, 2 + 39 0, 3 + 40 0, 2 + 50 0, 3 = 47
y por ultimo bajo la alternativa3 el estudiante estara aprobando la asignatura con nota 50,
ponderacion que obviamente le favorecera

x
i
p
i
= x
1
p
1
+x
2
p
2
+x
3
p
3
+x
4
p
4
= 63 0, 3 + 39 0, 2 + 40 0, 2 + 50 0, 3 = 50
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
Estrechamente relacionado con el promedio esta el importante parametro que se denomina
desviacion estandar. Aunque no es una medida de tendencia central lo veremos a continuacion
en un modo supercial dado el grado de acercamiento mencionado, sin embargo lo veremos con
mucho detalle cuando abordemos, mas adelante, las medidas de variabilidad.
Tenemos, por obligacion, que pasar previamente por el concepto de varianza para comprender
el de desviacion estandar.
Denicion 3.5 Sean x
1
, x
2
, x
3
, ..., x
n
n datos reales. Se dene la Varianza de los datos, y se
denota por S
2
, como:
S
2
=

(x
i
X)
2
n
Denicion 3.6 Sean x
1
, x
2
, x
3
, ..., x
n
n datos reales. Se dene la Desviacion estandar de los
datos como la raiz cuadrada de la varianza, y se denota por S: as
S =

S
2
=

(x
i
X)
2
n
3.1.1. Propiedades del promedio y la varianza
Dado el acercamiento entre promedio y varianza mostraremos a continuacion algunas propiedades
que los relacionan.
1. S
2
X
= X
2
X
2
con X
2
=

x
2
i
n
2. x
1
= k, x
2
= k, x
3
= k, ..., x
n
= k, k entonces
X = k y S
2
X
= 0
3. Si y
i
= ax
i
+ b, a , b entonces:
Y = aX + b
y
S
2
Y
= a
2
S
2
X
Demostracion:
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
1.
S
2
=

(x
i
X)
2
n
=
1
n

(x
i
X)
2
=
1
n

(x
2
i
2x
i
X + X
2
)
=
1
n
_

x
2
i

2x
i
X +

X
2
)
_
=

x
2
i
n
2X

x
i
n
+
nX
2
n
=

x
2
i
n
2X
2
+ X
2
=

x
2
i
n
X
2
deniendo
X
2
=

x
2
i
n
se tiene la propiedad se nalada
S
2
= X
2
X
2
2. X =
1
n

x
i
=
1
n

k =
1
n
nk = k
por otra parte:
X
2
=
1
n

x
2
i
=
1
n

k
2
=
1
n
nk
2
= k
2
S
2
= X
2
X
2
= k
2
k
2
= 0
3.
S
2
= Y
2
Y
2
=
1
n

y
2
i
(aX + b)
2
=
1
n

(ax
i
+ b)
2
(aX + b)
2
=
1
n

(a
2
x
2
i
+ 2abx
i
+ b
2
) (aX + b)
2
= a
2

x
2
i
n
+ 2ab

x
i
n
+
nb
2
n
(aX + b)
2
= a
2
X
2
+ 2abX + b
2
(a
2
X
2
+ 2abX + b
2
)
= a
2
X
2
a
2
X
2
= a
2
S
2
X
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
En el siguiente ejemplo ocuparemos esta importante propiedad para calcular la desviacion
estandar y aprovecharemos tambien de calcular este parametro tabulando la informacion
Ejemplo 3.3 Considerando los datos del ejemplo 3.2 en la pagina 21 podemos calcular la
desviacion estandar sabiendo que
X = 3, 2 y entonces X
2
= 10, 24
por otra parte:
X
2
=

x
2
i
10
=
1
10
(2
2
+ 6
2
+ 4
2
+ 2
2
+ 2
2
+ 3
2
+ 4
2
+ 3
2
+ 2
2
+ 4
2
) = 11, 8
de esta manera
S
2
= X
2
X
2
= 11, 8 10, 24 = 1, 56
Por lo que la desviacion estandar queda como:
S =
_
X
2
X
2
=
_
1, 56 1, 25
Aprovecharemos ahora el hecho de que muchos datos se repiten para calcular la desviacion
estandar recurriendo a una tabla de frecuencia: Observe que:
Tabla de frecuencia para calculo de la desviacion estandar
x f fx x
2
fx
2
2 4 8 4 16
3 2 6 9 18
4 3 12 16 48
6 1 6 36 36

- 10 32 - 118
S
2
= X
2
X
2
=

fx
2

f

_
fx

f
_
2
=
118
10

_
32
10
_
2
= 11, 8 3, 2
2
= 11, 8 10, 24 = 1, 56
por lo que
S =
_
1, 56 1, 25
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
Vamos a continuar con el estudio de otros parametros, pero para seguir un orden vamos a
seguir con parametros que tienen una caracterstica com un y en particular aquellos conocidos
como de tendencia central como lo es el promedio (o media). Cabe hacer notar que la
desviacion estandar no es una medida de tendencia central pero como tiene una gran relacion
con el promedio se aprovecho la oportunidad para mostarlo, sin embargo, se volvera a retomar
esta medidad para estudiarla con mayor profundidad mas adelante por la importancia que ella
tiene.
3.2. Medidas de tendencia central: mediana y otras cuan-
tiles
Asi como el promedio tiende a ubicarse alrededor del centro de la informacion tambien existe
otro parametro que tiene esta misma caracterstica y se llama mediana que pasamos a denir.
Denicion 3.7 La mediana de un conjunto de datos es aquel valor (no necesariamente pertenece
al conjunto de los datos) que una vez ordenada la informacion se ubica de tal manera que deja
a su izquierda el 50 % de los datos y el otro 50 % a su derecha
Esta denicion adolece de algunas debilidades y precisamente se presenta en el caso discreto,
que ha sido nuestro principal foco de atencion, por lo que la reforzaremos con algunos ejemplos
para dicipar ambig uedades.
Antes de ejemplicar tomaremos en cuenta el siguiente consejo, teniendo presente que previa-
mente se han ordenado los datos (ya sea de menor a mayor o viceversa)
Cuando el n umero de datos es impar (n impar), la mediana, es el valor del dato que esta en la
mitad
Cuando el n umero de datos es par (n par), la mediana, es el valor que toma el promedio de los
dos datos centrales
Ejemplo 3.4 El n umero de accidentes, de la empresa Royal & Anderson, en los primeros 5
meses del a no 2005 fueron respectivamente: 12,8,15,9,12.
La mediana no es 15, ya que previamente se debe ordenar la muestra (de menor a mayor o
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
de mayor a menor). Si se considera como criterio ordenarlo de menor a mayor se tiene:
8 9 12 12 15
y se puede apreciar que la mediana es 12. Observe que en este ejemplo hay dos datos 12, pero
como la mediana es un valor y no un dato, hay que tomar al 12 como un valor que toma la
mediana
Ejemplo 3.5 Si la informacion, dada en ejemplo anterior, es mas completa y se obtiene el
n umero total de accidentes por mes, del a no 2005, de la empresa Royal & Anderson, la que se
ilustra en la siguiente tyabla
Distribucion del n umero de accidentes de la empresa Royal & Anderson, durante el a no 2005
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
12 8 15 9 12 16 10 9 7 8 15 17
que al ordenar la informacion se tiene: 7 8 8 9 9 10 12 12 15 15 16 17
donde se observa que 10 y 12 son los datos centrales y asi le mediana sera
Mediana =
10 + 12
2
= 11
La mediana no es sino uno de los muchos cuantiles diferentes que dividen un conjunto de
datos en dos o mas partes iguales. Tambien de importancia en la estadstica son los cuartiles,
quintiles y percentiles, pero como estos ultimos se utilizan principalmente con respecto a grandes
masas de datos, los analizaremos en detalle en el proximo captulo. Por tanto, mostraremos aqui
los tres cuartiles Q
1
, Q
2
, y Q
3
. Para comprender mejor el concepto ordenamos la informaci on
( de menor a mayor) e imaginemos que se disponen en la siguiente recta
Observacion 3.4 Considerando la ilustracion anterior se tiene que:
1. El primer cuartil Q
1
deja a su izquierda el 25 % de los datos y a su derecha el 75 %.
2. El segundo cuartil Q
2
coincide con la mediana y deja a ambos lados el 50 % de los datos
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
3. El tercer cuartil Q
3
deja a su izquierda el 75 % de los datos y a su derecha el 25 %
Ejemplo 3.6 Los que siguen son los n umeros de minutos que una persona, en su camino al
trabajo, tuvo que esperar el bus en 14 das de trabajo.
10, 2, 17, 6, 8, 3, 10, 2, 9, 5, 9 13, 1 y 10
Para encontrar los valores de Q
1
, Q
2
y Q
3
debemos de ordenar los datos quedando asi:
1, 2, 2, 3, 5, 6, 8, 9, 9, 10, 10 10, 13 17
y se tiene que:
Mediana = Q
2
=
8 + 9
2
= 8, 5 Q
1
= 3 y Q
3
= 10
3.3. Medidas de tendencia central: moda
La moda es otra medida de tendencia central que a veces se utiliza para describir la mitad
de un conjunto de datos. Se dene de la manera siguiente:
Denicion 3.8 La moda es el valor que aparec con la mas alta frecuencia
En este sentido es el mas com unde un conjunto de datos; sus dos ventajas principales son que
no requieren calculos y que se puede determinar para datos cualitativos y cuantitativos. Por
otra parte al igual que la mediana, la moda no se encuentra afectada por los valores extremos
Ejemplo 3.7 Las temperatura, en grados celsius, durante las dos primeras semanas del mes
de marzo del 2006 en la ciudad de La Serena fueron:
25

, 28

, 27

, 25

, 26

, 27

, 25

, 26

, 27

, 25

, 27

, 22

, 27

y 27

Claramente la medicion de mas alta frecuencia (se repite seis veces) es 27

y por lo tanto
corresponde a la moda.
Observacion 3.5 No deja de ser importante la frecuencia presentada por la medicion 25

que
se repite 4 veces como agregando una nueva moda en un segundo lugar de preferencia. En el
vaso de variables continuas no es extra no encontrar comportamiento bimodal (dos modas).
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
Ejemplo 3.8 Cuando se les pidio mencionaran al mejor equipo del futbol Chileno, 20 periodis-
tas deportivos nombraron a los siguientes clubes:
Dep. La Serena, U. de Chile, Colo Colo, Dep. La Serena, U. Catolica, Dep. La Serena, U. de
Chile, U. Catolica, Dep. La Serena, Huachipato, Colo Colo, Dep. La Serena, Colo Colo, Colo
Colo, U. Catolica, U. de Chile, U. de Chile, Dep. La Serena, Dep. La Serena, Colo Colo.
Dado que Cobrelos se repite con mayor frecuencia, 7 veces, entonces Cobreloa corresponde a la
moda.
Observacion 3.6 La informacion dada por los 20 periodista del ejemplo anterior puede pre-
sentarse en una tabla de distribucion como sigue:
Clubes frecuencia
U. de Chile 4
U. Catolica 3
Dep. La Serena 7
Colo Colo 5
Huachipato 1
20
3.4. Medidas de variabilidad: desviacion estandar
Una caracterstica importante de casi todos los tipos de datos es que los valores no son todos
iguales, y el grado al cual sean desiguales o varen entre ellos mismos es de importancia basica
en la estadstica. Una de las medidas mas populares e importante que miden variabilidad es la
desviacion estandar, ya denida con anterioridad y lo que aprendimos solo fue calcularla sin
tener una clara interpretacion de ella.
Para conocer mejor la desviacion estandar, observe que la dispersion de un conjunto de datos es
peque na si los valores se agrupan en forma cerrada junto a us media, y que es grande si los valores
se dispersan ampliamente en torno a su media. Para comprender mejor lo anterior consideremos
la siguiente tabla, donde se consideran las calicaciones de 4 alumnos en una determinada
asignatura y donde cada uno tiene 4 evaluaciones. Para simplicar la interpretacion de la
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
Alumnos A1 A2 A3 A4
nota1 50 60 90 100
nota2 50 40 10 0
nota3 50 40 80 100
nota4 50 60 20 0

200 200 200 200


desviacion estandar hemos considerado que el promedio de los 4 alumnos es de 50 (verifquelo)
Si calculamos la desviacion estandar de las calicaciones de los 4 alumnos, y las denotamos por
S
A1
, S
A2
, S
A3
, S
A4
tenemos que:
X
2
A1
= 50
2
= 2500 y X
2
A1
=
50
2
+ 50
2
+ 50
2
+ 50
2
4
= 2500
asi se tiene que la desviacion estandar para las calicaciones del alumnoA1 esta dada por:
S
A1
=
_
X
2
A1
X
2
A1
= 0
Como era de esperar, al coincidir las cuatro calicaciones del alumno A1, las desviaciones de
cada una de ellas respecto al promedio es nula y es la razon por la cual la desviacion estandar
es cero, podemos asegurar en este caso entonces que el promedio es un muy buen representante
de las 4 calicaciones por estar muy cerca de cada una de ellas.
Por otra parte, se tiene que:
X
2
A2
=
60
2
+ 40
2
+ 40
2
+ 60
2
4
=
10400
4
= 2600
por lo que la desviacion estandar de las calicaciones del alumno A2 es:
S
A2
=
_
X
2
A2
X
2
A2
=

2600 2500 =

100 = 10
Ahora
X
2
A3
=
90
2
+ 10
2
+ 80
2
+ 20
2
4
=
15000
4
= 3750
por lo que la desviacion estandar de las calicaciones del alumno A3 es:
S
A3
=
_
X
2
A3
X
2
A3
=

3750 2500 =

1250 34,35
y por ultimo
X
2
A4
=
100
2
+ 0
2
+ 100
2
+ 0
2
4
=
20000
4
= 5000
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
asi la desviacion estandar de las calicaciones del alumno A4 es:
S
A4
=
_
X
2
A4
X
2
A4
=

5000 2500 =

2500 = 50
En resumen podemos apreciar que en la medida en que las calicaciones de los alumnos se
alejan mas del promedio la desviacion estandar aumenta y en consecuencia el promedio pierde
representatividad del conjunto de notas.
Observacion 3.7 Lo anterior se resume en:
1. Mientras mas se alejan los datos del promedio mas aumenta la desviacion estandar
2. Mientras mas aumenta la desviacion estandar menos representativo es el promedio del
conjunto de datos
Para tener una una nocion mas exacta de lo que mide en realidad una desviacion estandar,
dedicaremos esta seccion a algunas aplicaciones.
En el argumento que nos llevo a la denicion de la desviaci on estandar, se observo que la disper-
sion de un conjunto de datos es peque na si los valores se agrupan en torno al promedio y que es
grande si los se dispersan ampliamente en torno al promedio. En forma correspondiente, ahora
podemos decir que si la desviacion estandar de un conjunto de datos es peque na, los valores se
concentran en la proximidad del promedio y si es grande los valores se dispersan ampliamente
en torno al promedio.
Esta idea es expresada de manera formal por el siguiente teorema, llamado teorema de Cheby-
shev en honor al matematico ruso P. L. Chevyshev (1821 - 1894)
Teorema 3.1 teorema de Chebyshev
Para un conjunto de datos cualquiera y una constante k cualquiera pero mayor que uno, cuando
menos 1
1
k
2
de los datos estan dentro de k desviaciones estandar en uno u otro lado del promedio
Observacion 3.8 Aplicaremos el teorema de Chevyshev para el caso en que k = 2 y k = 3
1. si k=2 se tiene que:
1
1
x
2
= 1
1
2
2
= 1
1
4
=
3
4
= 0,75
La interpretacion es la siguiente: Podemos estar seguro de que aproximadamente el 75 %,
de los datos se encuentran dentro de dos desviaciones estandar en torno al promedio, es
decir se encuentran en el intervalo [X 2S X + 2S]
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
2. si k = 3 se tiene que:
1
1
x
2
= 1
1
3
2
= 1
1
9
=
8
9
0,89
La interpretacion es la siguiente: Podemos estar seguro de que aproximadamente el 89 %,
de los datos se encuentran dentro de tres desviaciones estandar en torno al promedio, es
decir se encuentran en el intervalo [X 3S X + 3S]
Observacion 3.9 El teorema de chevyshev es valido para cualquier conjunto de datos, pero
si los datos tienden a distribuirse en forma simetrica alrededor del promedio, entonces la dis-
tribucion de los porcentajes de dichos datos considerando una, dos y tres desviaciones estandar
quedan como muestra el siguiente graco:
3.5. Estandarizacion y coeciente de variacion
Comenzaremos esta seccion con un ilustrativo ejemplo que nos reforzara la importancia que
tienen los parametros: Promedio y desviacion estandar para luego presentar la estandarizacion
y nalizar con el coeciente de variacion.
Ejemplo 3.9 Supongamos que un estudiante es sometido a tres axamenes, en tres asignaturas
diferentes, y obtiene las siguientes calicaciones.
Ingles Matematica Psicologa
Notas(x) 80 65 75
Aparentemente podra parecer que la mejor calicacion del estudiante es la de ingles y la mas
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
pobre la de matematicas. Sin embrago, sera poco inteligente apresurarse a tal conclusion, pues
existen varias razones por la que las calicaciones puras pueden no ser comparables. Por ejem-
plo, puede que el examen de ingles haya sido muy facil, con abundancia de calicaciones abul-
tadas, mientras que el de matematica resulto demasiado difcil. O bien, que el examen de ingles
se ha calicado sobre un total de 100 puntos y el de matematica sobre 80 puntos etc.
Las calicaciones en s suministran informacion sobre el n umero absoluto de puntos obtenidos,
pero ninguna indicacion acerca de la bondad del rendimiento en comparacion con el de los
demas. Supongamos que ahora se nos agrega una nueva informacion y nos dan el promedio de
las calicaciones de cada asignatura las que se reejan en la siguiente tabla:
Ingles Matematica Psicologa
Notas(x) 80 65 75
Promedio 85 55 60
Esta informacion adicional cambia considerablemente el panorama. Si observamos los prome-
dios, podemos ver que las calicaciones en ingles fueron muy elevadas, pues los 80 puntos son
inferiores a la media. Es decir, el resultado mas pobre del estudiante es precisamente en ingles.
Un observador poco reexivo podra ahora deducir que la mejor calicacion del estudiante es ls
de psicologa, puesto que esta 15 puntos por encima del promedio, mientras que en matematica
solo la ha superado en 10 puntos.
Ahora se nos agrega una nueva informacion que tiene que ver con la desviacion estandar, la que
se exhibe en la siguiente tabla: Gracaremos la situacion del alumno considerando la asignatura
Ingles Matematica Psicologa
Notas(x) 80 65 75
Promedio 85 55 60
Desviacion estandar 10 5 15
de matematica y sociologa para confrontarlo y para ello vamos a anlizar toda la informacion,
es decir, consideraremos la nota, el promedio y la desviaci on estandar:
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
La desviacion estandar muestra que la dispersion de los datos en las notas de psicologa fue de
15 puntos por lo que la calicacion 75 se encuentra a una distancia de una desviacion estandar
respecto al promedio y se puede deducir que aproximadamente existe un 16 % de alumnos sobre
dicha nota.
Por otra parte la desviacion estandar de las notas de matematica es de 5 y la calicacion 65
se encuentra a dos desviaciones estandar respecto al promedio por lo que sobre ella solo hay
aproximadamente un 2,5 %, lo que habla de que debe ser una de las mejores notas del curso.
Podemos resumir enfatizando la importancia que tiene hacer un analisis considerando el com-
portamiento del promedio y la desviacion estandar. Hemos cambiado radicalmente de opinion
al conocer los parametros mencionados y la asignatura de matematica paso a ser la mejor cal-
icacion del alumno y la de ingles la peor y antes de este conocimiento la opinion era todo lo
contrario.
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
3.5.1. Estandarizacion
Hemos aprendido que las calicaciones, por si sola, no son comparables y todo pasa por
considerar el comportamiento del promedio y la desviacion estandar. Una forma de establecer
un mecanismo que permita la comparacion directa de las calicaciones, pasa por el concepto
de estandarizacion, que consiste en convertir las calicaciones originales en unas nuevas con la
importante propiedad de que estas tienen promedio igual a cero y desviacion estandar igual
a uno. Al estandarizar todas las calicaciones de cada asignatura entonces quedan en iguales
condiciones (igual promedio e igual desviacion estandar) para ser comparadas.
Denicion 3.9 Estandarizar el siguiente conjunto de datos reales x
1
, x
2
, x
3
, ..., x
n
, consiste
en generar nuevos n umeros reales z
1
, z
2
, z
3
, ..., z
n
donde:
z
i
=
x
i
X
S
donde X y S es el promedio y la desviacion estandar, de los datos x
1
, x
2
, x
3
, ..., x
n
,
respectivamente.
Ejemplo 3.10 Considerando el ejemplo de las calicaciones del estudiante en las asignaturas
de ingles, matematica y psicologa y procediendo a la estandarizacion de cada una de sus notas
se tiene lo siguiente: .
Ingles Matematica Psicologa
Notas(x) 80 65 75
Promedio 85 55 60
Desviacion estandar 10 5 15
Nota estandarizada z
8085
10
= 0,5
6555
5
= 2
7560
15
= 1
Ahora se pueden comparar los datos estandarizados(z) y observamos que la mejor es matematica(z =
2) luego psicologa(z = 1) y ultimo ingles(z = 0,5)
3.5.2. Coeciente de variacion
El coeciente de variacion es una medicion relativa de variacion: Se expresa como un por-
centaje antes que en terminos de las unidades de los datos particulares.
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
El coeciente de variacion mide la dispersion en los datos relativo al promedio y se dene de la
siguiente manera:
Denicion 3.10 El coeciente de variacion se denota por CV , y se dene como:
CV =
S
X
100 %
Como una meducion relativa, el coeciente de variacion es particularmente util al comparar la
variabilidad de dos o mas series de datos que se expresan en distintas unidades de medicion.
Ejemplo 3.11 Durante los meses pasados, un corredor promedio 12 km. por semana con una
desviacion estandar de 2 km., mientras que otro corredor promedio 25 km. por semana con una
desviacion estandar de 3 km.Cual de los dos corredores es relativamente mas consistente en
sus habitos de correr todas las semanas?
Soluci on
Sea CV
1
y CV
2
los coecientes de variacion del primer y segundo corredor rspectivamente,
entonces:
CV
1
=
2
12
100 % = 16, 7 % y CV
2
=
3
25
100 % = 12 %
Por lo tanto el segundo corredor es relativamente mas consistente en sus habitos de correr todas
las semanas
3.6. Introduccion a los n umeros ndices
En esta seccion se examinara, a nivel introductorio, un medio estadstico muy util denom-
inado ndice. Muchos ndices, tales como el indice de precios al consumidor, el de una bolsa
de valores y uno de indicadores economicos avanzados, compilados y publicados por gobier-
nos reciben considerable atencion en los noticiarios de television y en las primeras planas de
periodicos.
Todos los pases estan preocupados por la variacion de ciertos ndices y la consideracion de ellos
son determinantes, de una u otra manera, en tomas de decisiones.
Denicion 3.11 Un n umero ndice es una relacion en porcentaje que mide el cambio de un
tiempo a otro en precio, cantidad, valor o alg un otro elemento de interes
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
Observacion 3.10 As como el promedio o cualquier otro promedio resume un conjunto de
valores, un n umero ndice se utiliza para determinar la variacion en porcentaje (o en 1000,
10000, 100000 o 1000000 etc.) en una sola cifra, del precio, valor o cantidad de un conjunto
de datos estadsticos de un perodo a otro.
. Es importante destacar que existe una gran variedad de ndices y muchos de ellos obedecen a
una estructura general y otros tienen un tratado especial. En estos apuntes veremos una forma
muy elemental, de este concepto, y que obedecen a una patron de comportamiento y luego
veremos algunos ndices especiales que estan ya estandarizados y normados por el Sernageomin
basados en estandares internacionales.
Ejemplo 3.12 Suponga que el precio de un artculo cualquiera entre 1990 1995 fue como sigue:
.
A no Precio
1990 400
1991 600
1992 550
1993 275
1994 350
1995 700
Para el calculo de un ndice se debe considerar un perodo base para nes comparativos. En el
caso del ejemplo consideraremos, como perodo base, el a no 1990 y luego procederemos a calcular
el ndice de variacion de los a nos siguientes y nalemente estableceremos la comparaciones e
interpretacion.
I
90
=
precio 1990
precio 1990
100 =
400
400
100 = 100
I
91
=
precio 1991
precio 1990
100 =
600
400
100 = 150
I
92
=
precio 1995
precio 1990
100 =
550
400
100 = 137,5
I
93
=
precio 1993
precio 1990
100 =
275
400
100 = 68,75
I
94
=
precio 1994
precio 1990
100 =
350
400
100 = 87,5
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
I
95
=
precio 1995
precio 1990
100 =
700
400
100 = 175
Podemos resumir los calculos hechos en una tabla como sigue: .
A no Precio Indice
1990 400 100
1991 600 150
1992 550 137.5
1993 275 68.8
1994 350 87.5
1995 700 175
Observacion 3.11 Podemos realizar la siguientes interpretaciones de los ndices calculados en
el ejemplo: As para el perodo 1991 el ndice 150 signica que el precio del artculo en estudio,
en este perodo, es el 50 % mayor que en el perodo 1990. El ndice de precios para 1992 de
137.5 indica que el precio, en este perodo, es de 37.5 % mas alto que en el perodo 1990. Para
los perodos 1993 y 1994 los ndices son respectivamente 68.8 y 87.5 quiere decir que el precio
del a no 1993 fue el 31.2 % menor que el perodo base (1990) y que en el perodo 1994 fue el
12.5 % menor que en 1990.
Cuando se calcula un n umero ndice la base puede permanecer ja, como en el caso del ejemplo,
en este, el precio de cada perodo de la serie se comparo con el precio del perodo 1990 (base
ja).Otra forma de calcular los ndices consiste en variar la base de un perodo a otro, cuando
este es el caso, se dice que los ndices se calcularon con base variable.
Lo que hemos visto sobre, n umeros ndices, ha sido a nivel introductorio sin profundizar en otras
forma de generar indicadores. Nos proponemos ahora analizar, en particular, algunos ndices
que han sido estandarizados y reconocidos por Sernageomin para establecer comparaciones con
estandares tanto nacionales como internacionales.
3.6.1. Indices de frecuencia y gravedad en prevencion de riesgo
Indice de frecuencia
Denicion 3.12 LLamamos ndice de frecuencia al n umero de accidentes con tiempo perdido
por millon de horas hombres de exposicion al riesgo, entendiendo por
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
1. Accidente con tiempo perdido
Aquella lesion que hace perder al trabajador mas de una jornada de trabajo y los fatales.
2. Horas hombre de exposicion al riesgo
Es el n umero total de hombres trabajando multiplicado por el n umero total de horas en
trabajo de todo el personal en el perodo considerado.
3. Factor 1000000
Es una constante para facilitar los calculos.
Podemos resumir lo anterior en la siguiente formula:
IF =
N

accidentes con tiempo perdido


Total horas hombres
1000000
donde IF es el ndice de frecuencia
Observacion 3.12 En el analisis de este ndice se debe dejar constancia que el calculo de
las horas hombres debe ser lo mas exacto posible y regirse por las normas emanadas por el
Sernageomin.
Ejemplo 3.13 En una faena minera laboran 1000 trabajadores en jornadas de trabajo de 52
con 9 horas de trabajo diario.
En un mes ocurrieron 150 accidentes que se descomponen como sigue:
Tipo de accidentes frecuencia (f)
con incapacidad laboral 1
con incapacidad parcial temporal 56
con incapacidad permanente parcial 9
sin tiempo perdido 84

150
Se pide calcular el ndice de frecuencia
Solucion
Cada trabajador esta expuesto al riesgo 9 horas diarias y dado que labora en turnos de 5 2,
entonces hay 2 das a la semana que descansa pr lo tanto en el mes no trabaja 8 das, lo que
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
se desprende que durante el mes trabaja 22das.
Por lo anterior podramos asegurar que el n umero total de horas expuestas al riesgo por traba-
jador es de:
N

horas expuestas al riesgo por trabajador = 9 22 = 198 horas


Ahora si consideramos los 1000 trabajadores se tiene que:
N

total de horas expuestas al riesgo = 1000 198 = 198000 horas


Por otra parte el n umero total de accidentes con tiempo perdido es de 66. De esta manera el
ndice de frecuencia es de:
IF =
66
198000
1000000 = 333,33 333
Signica que por cada millon de horas hombres con exposici on al riesgo, ocurriran 333 acci-
dentes con tiempo perdido.
Indice de gravedad
La importancia del ndice de gravedad radica no solo en las consecuencias de las lesiones,
sino en el tiempo perdido y el mayor o menor costo que estas acarrean. La forma mas practica
de obtener el ndice de gravedad es relacionar los das perdidos debido a accidentes, con el
n umero total de horas hombres expuestas al riesgo.
Denicion 3.13 El ndice de gravedad es la relacion que existe entre el total de das perdidos
debido a los accidentes del trabajo y el total de horas hombres de exposicion al riesgo, multipli-
cado por 1000000.
Si llamamos IG al ndice de gravedad se tiene que:
IG =
N

de das perdidos
Total horas hombres
1000000
Ejemplo 3.14 En una industria de 1500 trabajadores con jornada completa, se produjeron en
un mes 50 accidentes distribuidos como se muestra en la siguiente tabla:
CAP

ITULO 3. ESTUDIO DE PAR

AMETROS DE UNA POBLACI

ON
N

de accidentes incapacidad das perdidos


43 parcial temporal 500
6 permanente parcial 500
1 permanente total 6000

50 - 7000
Se pide calcular el ndice de gravedad
Solucion
Cada trabajador trabaja a tiempo completo y en la semana debe cumplir con 45 horas por lo
que el n umero de horas mensuales expuesto al riesgo es de:
N

horas expuestas al riesgo por trabajador = 45 4 = 180 horas


asi el total de horas hombres expuestas al riesgo es de
N

total de horas expuestas al riesgo = 180 1500 = 270000 horas


se tiene entonces que el ndice de gravedad es de:
IG =
7000
270000
1000000 = 25925, 925 25926
Signica que por cada millon de horas hombres expuestas al riesgo se pierden 25926 das de
trabajo.
Captulo 4
Estadstica descriptiva bivariada
Cuando los datos de una determinada poblacion estan relacionados con dos variables es muy
util recurrir a una tabla de doble entrada para distribuir en ella todos los datos que cumplan
obviamente con los dos criterios denidos por las variables mencionadas. En general, una tabla
de doble entrada tiene la siguiente forma.
Tabla de doble entrada
Y y
1
y
2
y
j
y
n

X
x
1
f
11
f
12
f
1j
f
1n
f
1
x
2
f
21
f
22
f
2j
f
2n
f
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
i
f
i1
f
i2
f
ij
f
in
f
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
m
f
m1
f
m2
f
mi
f
mn
f
m

f
1
f
2
f
i
f
n
f

donde f
ij
representa el n umero de observaciones (frecuencia) que cumplen la condicion de
pertenecer a la clase x
i
y tambien a la clase y
j
f
i
=
n

j=1
f
ij
= f
i1
+ f
i2
= + f
in
f
j
=
m

i=1
f
ij
= f
1j
+ f
2j
+ + f
mj
CAP

ITULO 4. ESTAD

ISTICA DESCRIPTIVA BIVARIADA


f

=
m

i=1
n

j=1
fij =
m

i=1
f
i
+
n

j=1
f
j
Recurriremos a un ejemplo para interpretar los valores que se encuentran en las celdas de
una tabla de doble entrada. Aprovecharemos, al mismo tiempo, de denir conceptos como:
Distribuciones marginales, distribuciones condicionales y covarianza:
Ejemplo 4.1 Considere la siguiente tabla de doble entrada que muestra a trabajadores de la
empresa W distribuidos seg un sus edades y a nos de experiencia.
Distribucion de trabajadores de acuerdo a su edad (X) y a nos de experiencia(Y).
A nos Exp. Y 0 - 5 5 - 10 10 - 15 15 - 20 20 - 25
Edad X
20 25 1
25 30 2 4
30 35 5 10 15
35 40 1 20 30
40 45 6 5 10 15
Responderemos las siguientes preguntas como una manera de ilustrar diferente deniciones
como tambien apreciar las bondades que tiene una tabla de doble entrada
1. Interpretar los siguientes valores f
33
, f
4
y f
3
2. Calcular la edad promedio y la desviacion estandar de los trabajadores con una experiencia
entre 5 y 10 a nos.
3. El 25 % de los trabajadores con mas a nos de servicios recibiran un bono extra de $180000
pesos. Si Juan Perez tiene 14 a nos de servicio. Tiene derecho el Sr. Perez al bono?.
Respuestas
1. f
33
= 15; Signica que 15 trabajadores tienen entre 30 y 35 a nos de edad y entre 10 y 15
a nos de experiencia.
f
4
= 51;Signica que 51 trabajadores tienen entre 35 y 40 a nos.
f
3
= 50; Signica que 50 trabajadores tienen entre 10 y 15 a nos de experiencia.
CAP

ITULO 4. ESTAD

ISTICA DESCRIPTIVA BIVARIADA


4.0.2. Distribucion condicional
Vamos a introducir el concepto de distribucion condicional, observe que la pregunta, del
ejercicio 2, condiciona la respuesta a aquellos trabajadores que tienen una experiencia entre 5
y 10 a nos. Esto nos lleva a extraer la informacion de la siguiente tabla condicionada:
Distribucion condicional de la edad de los trabajadores
con a nos de experiencia entre 5 y 10 a nos.
Edad N

de trabajadores
X f
i2
20 25 1
25 30 4
30 35 10
35 40 20
40 45 6

41
4.0.3. Marca de clase
Para calcular el promedio y la desviacion estandar debemos incorporar una nueva colum-
na con las marcas de clase que corresponden a los puntos medios de las clases (o intervalos),
quedando de la siguiente manera:
Edad Marca de clase N

de trabajadores
X x
i
f
i2
20 25 22, 5 1
25 30 27, 5 4
30 35 32, 5 10
35 40 37, 5 20
40 45 42, 5 6

41
CAP

ITULO 4. ESTAD

ISTICA DESCRIPTIVA BIVARIADA


Edad Marca de clase N

de trabajadores
X x
i
f
i2
x
i
f
i2
20 25 22, 5 1 22, 5
25 30 27, 5 4 110
30 35 32, 5 10 325
35 40 37, 5 20 750
40 45 42, 5 6 255

41 1462, 5
Hemos introducido la columna marca de clase con la nalidad de calcular un promedio (aprox-
imado) para datos tabulados. Con el objeto de aclarar esto interpretaremos la marca de clase
37, 5 (que corresponde al intervalo 35 40) diciendo que: 20 trabajadores tienen una edad de
37, 5 a nos. Lo que quiere decir que la edad 37, 5 a nos se repite 20 veces. Asi, tenemos que:
X/y [5, 10] =

5
j=1
x
i
f
i2

5
j=1
f
i
=
1462, 5
41
= 35, 67
donde la notacion X/y [5, 10] se interpreta como el promedio de edad condicionado a los
valores de y entre 5 y 10, es decir a los trabajadores que tienen entre 5 y 10 a nos de servicio.
Buscaremos ahora la deviacion estandar(datos tabulados), para ello completaremos la tabla
para realizar los calculos necesarios:
Edad M. de clase N

de trab.
X x
i
f
i2
x
i
f
i2
x
2
i
x
2
i
f
i2
20 25 22, 5 1 22, 5 506, 25 506, 25
25 30 27, 5 4 110 756, 25 3025
30 35 32, 5 10 325 1056, 25 10562, 5
35 40 37, 5 20 750 1406, 25 28125
40 45 42, 5 6 255 1806, 25 10837, 5

41 1462, 5 53056, 25
Recuerde que:
S
2
= X
2
X
2
=

fx
2

f

_
fx

f
_
2
=
53056, 25
41

_
1462, 5
41
_
2
= 21, 706
CAP

ITULO 4. ESTAD

ISTICA DESCRIPTIVA BIVARIADA


As, la desviacion estandar sera:
S =
_
21, 706 = 4, 66
4.0.4. Distribucion marginal
Observe que nos estan preguntando por el percentil 75 (P
75
)y la variable que se esta con-
siderando son los a nos de servicio de los trabajadores. Por esta razon vamos a construir una
tabla que se llama Tabla marginal, que pasamos a mostrar.
Distribucion marginal de los a nos de servicio de los trabajadores
A nos Exp. N

de trabajadores Frec. Acumulada


Y f
j
F
j
0 5 8 8
5 10 41 49
10 15 50 99
15 20 10 109
20 25 15 124

124
calculamos la expresion
75
100
124 = 93
comparamos el valor 93 con la columna de la frecuencia acumulada(F
j
), partiendo de la primera
celda, y con el primer valor que lo supere nos detenemos en dicho valor e inspeccionamos en
que intervalo se encuentra y concluimos que corresponde a 1015. Conocido el intervalo donde
se encuentra el P
75
, podemos aplicar la formula:
P
75
= liminf +
_
75
100
n F

a
_
a
f
reemplazando los datos liminf = 10, n = 124, F

a
= 49, a = 5 y f = 50 tenemos que:
P
75
= 10 +
_
75
100
124 49
_
5
50
= 14, 4
El se nor Perez por tener 14 a nos de servicio no logra ser beneciado por el bono.
CAP

ITULO 4. ESTAD

ISTICA DESCRIPTIVA BIVARIADA


4.0.5. Covarianza
Cuando se trabaja con dos variables, un parametro que permite decidir que tipo de aso-
ciacion existe entre ellas, es la covarianza que se denota por Cov(X, Y ) y que pasamos a denir:
Denicion 4.1
Cov(X, Y ) = XY X Y
donde
XY =

xy
n
y X Y =

x
n

y
n
n representa el total de casos (suma de las frecuencias)
Observacion 4.1 De acuerdo al signo de Cov(X,Y) se distingue lo siguiente:
1. Si Cov(X, Y ) > 0, X e Y se relacionan en forma directamente proporcional
2. Si Cov(X, Y ) < 0, X e Y se relacionan en forma inversamente proporcional
3. Si Cov(X, Y ) = 0, No existe relacion entre X e Y.
Ejemplo 4.2 Al calcular la Cov(X,Y) de la tabla de doble entrada del ejercicio en que la vari-
able X representa la edad de los trabajadores y la variable Y representa los a nos de experiencia
de ellos, se tiene que:
La siguiente tabla marginal permite calcular X
Edad M. de clase N

de trab.
X x
i
f
i
x
i
f
i
20 25 22, 5 1 22, 5
25 30 27, 5 6 165
30 35 32, 5 30 975
35 40 37, 5 51 1912,5
40 45 42, 5 36 1530

124 4605
X =

fx

f
=

x
i
f
i

f
i
=
4605
124
= 37, 137
CAP

ITULO 4. ESTAD

ISTICA DESCRIPTIVA BIVARIADA


La siguiente tabla permite calcular Y
A nos Exp. M. de clase N

de trabajadores
Y y
j
f
j
f
j
y
j
0 5 2,5 8 20
5 10 7,5 41 307,5
10 15 12,5 50 625
15 20 17,5 10 175
20 25 22,5 15 337,5

124 1465
Y =

fy

f
=

f
j
y
j

f
j
=
1465
124
= 11, 814
La siguiente tabla permite calcular XY
y
j
2,5 7,5 12,5 17,5 22,5
x
i
22,5 0 1 0 0 0
27,5 2 4 0 0 0
32,5 5 10 15 0 0
37,5 1 20 30 0 0
42,5 0 6 5 10 15
XY =

xy
n
=

x
i
y
j
f
ij

f
ij
=
56200
124
= 453, 225
As:
Cov(X, Y ) = XY X Y
= 453, 225 37, 137 11, 814
= 14, 488 > 0
Podemos decir, que existe una relacion directamente proporcional entre los a nos de experiencia
y la edad de los trabajadores.
Bibliografa
[1] MASON y LIND. Estadstica para Administracion y Economa.
[2] TRIOLA, M. Estadstica elemental.
[3] BERENSON y LEVINE. Estadstica basica en administracion.
[4] RUBILAR CORTES R. Estadstica aplicada a la accidentabilidad.
[5] AGUIRRE VERGARA, C. Estadstica aplicada.
[6] LEVIN Y RUBIN Estadstica para administradores.
[7] FREUND SMITH Estadstica.

Potrebbero piacerti anche