Sei sulla pagina 1di 75

ESTADSTICA

Walter Luna
Sergio Pavletich
Ana Valdivia

Presentacin
La presente gua del curso Estadstica (EST145) de Estudios Generales
Ciencias de la Pontificia Universidad Catlica del Per ha sido elaborada con la finalidad de brindar a los alumnos un material que apoye el proceso educativo y
una herramienta que colabore en el dictado de las clases. Es muy importante indicar que este material no sustituye la clase del profesor y tampoco equivale a un libro de texto.
Los autores agradeceremos que los usuarios de esta gua nos hagan llegar
sus crticas y comentarios a esta publicacin a fin de contar con una retroalimentacin importante para la mejora de las siguientes ediciones.

Ana Valdivia L.
Walter Luna F.
Sergio Pavletich S.

Pando, agosto de 2015

Contenido
Captulo 1. Nociones de Estadstica Descriptiva ................................................................. 5
1.1. Conceptos bsicos ...................................................................................................................5
1.2. Organizacin y tratamiento de datos ....................................................................................13
1.3. Grficos y tablas estadsticas .................................................................................................16
1.4. Estadsticos de posicin .........................................................................................................26
1.5. Medidas de tendencia central ...............................................................................................31
1.6. Medidas de dispersin ..........................................................................................................40
1.7. Indicadores de asimetra .......................................................................................................48
1.8. Estadstica bivariada para datos categricos .........................................................................54
1.9. Estadstica descriptiva bidimensional: Regresin lineal simple .............................................67

Captulo 2. Nociones de probabilidad .............................................................................. 77


2.1. Conceptos bsicos .................................................................................................................77
2.2. Definicin axiomtica de probabilidad ..................................................................................83
2.3. Definicin clsica de probabilidad .........................................................................................85
2.4. Probabilidad condicional .......................................................................................................91
2.5. Eventos independientes ........................................................................................................97

Captulo 3. Variables aleatorias y modelos o distribuciones de probabilidad ...................103


3.1. Variable aleatoria ................................................................................................................103
3.2. Variable aleatoria discreta...................................................................................................104
3.3. Variable aleatoria continua .................................................................................................106
3.4. Funcin de distribucin acumulada de una variable aleatoria.............................................108
3.5. Esperanza y varianza de una variable aleatoria ...................................................................111
3.6. Algunos modelos discretos importantes .............................................................................120
3.7. Algunos modelos continuos importantes ............................................................................131

Captulo 4. Introduccin a la estadstica inferencial ........................................................145


4.1. Muestra aleatoria ................................................................................................................145
4.2. Teorema central del lmite ..................................................................................................146
4.3. Estimacin de parmetros ...................................................................................................148
Tablas estadsticas......................................................................................................................176

Estadstica EEGGCC

Captulo 1. Nociones de Estadstica Descriptiva


1.1. Conceptos bsicos
Definicin de Estadstica
La Estadstica se ocupa de la recoleccin, organizacin, presentacin y anlisis de datos que corresponden a fenmenos o situaciones en donde est presente la variabilidad.

Estadstica Descriptiva
Son mtodos y tcnicas de recoleccin, caracterizacin y presentacin que permiten describir, apropiadamente, las caractersticas de un conjunto de datos. Comprende el uso de grficos, tablas y medidas resumen adems de otras tcnicas.

Estadstica Inferencial
Son mtodos y tcnicas que hacen posible estudiar una o ms caractersticas de una poblacin o
tomar decisiones sobre la poblacin basados en el resultado de muestras. La generalizacin de los
resultados muestrales a toda la poblacin cae en el dominio de la Estadstica Inferencial; en dicha
generalizacin juega un papel muy importante la probabilidad.

Ejemplo 1
Indique si las siguientes afirmaciones son de tipo descriptivo o inferencial:
a) El 32% de los encuestados cuenta con servicio de internet en casa. _______________________
b) La edad media de los estudiantes seleccionados es 19 aos. _____________________________
c) Sueldos de profesionales peruanos estn estancados en S/.2300 desde 2004. _______________
d) El 47% de las personas encuestadas es de sexo femenino. _______________________________
e) El 23% de los peruanos ha visitado Machu Picchu por lo menos una vez. ____________________

Poblacin
Es el conjunto de todos los elementos de inters en determinado estudio.
Los elementos que forman la poblacin pueden ser personas, cosas, animales, instituciones, etc.
A cada elemento de la poblacin se le llama unidad estadstica.

Muestra
Es un subconjunto de elementos de la poblacin.
Cuando el objetivo es hacer inferencia estadstica es necesario que la muestra sea seleccionada
de acuerdo a un diseo aleatorio, es decir, que sus elementos sean escogidos al azar.

Notas

Estadstica EEGGCC

Ejemplo 2
El Programa para la Evaluacin Internacional de Alumnos de la OCDE (PISA, por sus siglas en ingls)
es el estudio internacional en educacin de mayor escala del mundo. Evala estudiantes de 15 aos
de edad que estn cursando algn grado de secundaria en comprensin lectora, matemtica y ciencias. El Per se reintegr a este programa para la evaluacin del 2009. Defina la poblacin del estudio
para el caso peruano.
Resultados del estudio PISA 2013 por pases
Puesto

1
2
3
4
M
65
66

Pas

Shanghai-China
Singapur
Hong Kong-China
Taipei
M
Indonesia
Per

Comprensin lectora

Matemtica

Ciencias

613
573
561
560
M
375
368

570
542
545
523
M
396
384

580
551
555
523
M
382
373

Fuente: OECD PISA 2013 database

Ejemplo 3
Se desea determinar el porcentaje de choferes de transporte pblico en Lima Metropolitana que
tiene al menos una multa de trnsito pendiente de pago. Defina la poblacin para este estudio.

Ejemplo 4
Se desea determinar el porcentaje de agencias del Banco de Crdito con menos de 25 trabajadores.
Defina la poblacin.

Notas

Estadstica EEGGCC

Variable estadstica
Una variable es una caracterstica que interesa observar o medir en las unidades estadsticas de la
poblacin de inters y que puede asumir al menos dos valores diferentes.
Una variable estadstica es una funcin que a cada elemento de la poblacin le asigna un nmero.
Los nmeros se asignan de acuerdo con una escala y representan la medicin de una determinada caracterstica en cada unidad estadstica.
En una poblacin se pueden definir muchas variables estadsticas.

Rango de la variable estadstica


Es el conjunto formado por todos los valores que puede asumir la variable estadstica.

Dato
Es el valor de la medicin de una variable, realizada en una unidad estadstica.
Ejemplo 5
En una investigacin, se quiere estimar el porcentaje de personas, por sexo y por grupos de edades,
que votaran por cierto candidato a la presidencia del Per. Indique la poblacin, las variables a medir y sus rangos.

Ejemplo 6
En una investigacin, se quiere estimar el tiempo promedio diario de conexin a Facebook para un
grupo de adolescentes de 12 a 15 aos. Indique la poblacin y la variable a medir.

Ejemplo 7
En una investigacin, se quiere estimar el porcentaje de peruanas, en edad frtil, que usan mtodos
anticonceptivos no naturales. Indique la poblacin y la variable a medir.

Notas

Estadstica EEGGCC

Parmetro
Es un valor que describe una caracterstica de la poblacin.
Para calcular un parmetro se requiere medir la caracterstica de inters en todos los elementos que
conforman la poblacin.

Estadstico
Es un valor que describe una caracterstica de la muestra.
Para calcular el estadstico se usan las mediciones de la caracterstica de inters en los elementos
que conforman la muestra de estudio.
Ejemplo 8
Poblacin: Alumnos regulares matriculados en EEGGCC en el semestre 201502.
Parmetro: Edad media, en aos, calculada con todas las edades de los alumnos en la poblacin.
Parmetro: ______________________________________________________________________
Muestra: Un conjunto de 100 alumnos regulares matriculados en EEGGCC en el semestre 201502,
seleccionados al azar.
Estadstico: Edad media, en aos, calculada con las edades de los alumnos en la muestra.
Estadstico: _________________________________________________________________________
Ejemplo 9
Segn los Censos Nacionales X de Poblacin y V de Vivienda 2007 ejecutados por el INEI, el 50,06%
de los peruanos es mujer. Indique si este valor es un parmetro o un estadstico.

Ejemplo 10
Segn una encuesta reciente realizada por Ipsos Per, el 54% de los encuestados opin que el alcalde
de Lima, Luis Castaeda, debe continuar con la reforma del transporte. Indique si este valor es un
parmetro o un estadstico. (Fuente: http://www.rpp.com.pe/2015-02-16-ipsos-limenos-pasan-1-hora-y-45-minutos-por-dia-entransporte-publico-noticia_769867.html)

Ejemplo 11
En una muestra de viviendas del rea urbana de Ica se observ que en el 35% de los casos, el material predominante de las paredes exteriores era adobe. Indique si este valor es un parmetro o un
estadstico.

Notas

Estadstica EEGGCC

Tipos de variables
Las variables se pueden clasificar en cualitativas o cuantitativas.

Variables cualitativas
Son las variables que miden una cualidad. Son de carcter no numrico y por lo general clasifican a
las unidades estadsticas en categoras.
Algunos ejemplos de variables cualitativas son: gnero de una persona, sector industrial al que pertenece una empresa, tipo de material de construccin de una vivienda.

Variables cuantitativas
Son variables que miden una cantidad. Son de carcter numrico.
A su vez, las variables cuantitativas se pueden clasificar en discretas y continuas.

Variable cuantitativa discreta


Es una variable cuyo rango es un conjunto finito o infinito numerable, es decir, que en un intervalo
determinado, slo puede tomar ciertos valores.
Ejemplos de variables discretas: nmero de llamadas que ingresan a una central telefnica por minuto, nmero de veces que un alumno lleva el curso de Estadstica, nmero de trabajadores de una
agencia de banco, nmero de accidentes laborales mensuales en una empresa.

Variable cuantitativa continua


Es una variable cuyo rango es un conjunto continuo y puede asumir un nmero infinito no numerable
de valores diferentes; es decir, que en un intervalo determinado, pueden tomar cualquier valor.
Ejemplos de variables continuas: tiempo, en minutos, que demora un estudiante en resolver un examen; peso, en gramos, de un telfono celular; rea de terreno construida de una vivienda en Lima,
en metros2.
Ejemplo 12
Indique el tipo de las siguientes variables.
Variable
Nombre o razn social de una empresa
Nivel socioeconmico de una persona (bajo, medio, alto)
rea, en metros cuadrados, de jardn de una casa
Nmero de fotos almacenadas en la memoria de un telfono
Ingresos por ventas diarias de gas en cierto grifo, en nuevos soles
Capacidad neta de una refrigeradora, en metros cbicos.
Color de un automvil
Escala de pagos de un alumno de la PUCP
Tipo de empresa (privada, pblica, otro)
Nmero de RUC de un contribuyente
Notas

Tipo de variable

Estadstica EEGGCC

10

Escalas de medicin de las variables


Medicin
Proceso de observacin de una caracterstica de inters (variable) sobre una unidad estadstica con la
finalidad de asignarle un nmero de acuerdo a ciertas reglas.

Escala de medicin
Regla de asignacin de nmeros para las mediciones realizadas en cada unidad estadstica respecto a
una variable de inters.

Tipos de escalas de medicin


Stanley Smith Stevens (1906 1973), en la revista Science de junio de 1946, present su artculo Sobre la Teora de las Escalas de Medicin. La clasificacin de Stevens considera cuatro tipos de escala:
nominal, ordinal, de intervalo y de razn.
Las variables de tipo cualitativo se miden en escalas nominal u ordinal; las variables de tipo cuantitativo se miden en escalas de intervalo y de razn.

Nominal
Los nmeros asignados segn una escala nominal clasifican a las unidades estadsticas en categoras
iguales o diferentes. Estos nmeros solamente se usan como etiquetas que identifican a cada unidad
estadstica como perteneciente a una determinada categora de la variable de inters; por lo tanto,
con estos valores no debe realizarse comparaciones de orden u operaciones aritmticas.
Ejemplos: Sexo: 1 = femenino; 2 = masculino.
Estado civil: 1 = casado; 2 = soltero; 3 = viudo; 4 = otro.

Ordinal
Una escala ordinal funciona como una escala nominal pero los nmeros asignados a las unidades
estadsticas tienen la propiedad adicional de reflejar el orden existente entre las diferentes categoras de la variable medida. Los valores de una escala ordinal se asignan segn el mayor o menor grado en el que se encuentre presente la caracterstica de inters en cada unidad estadstica, por lo
tanto, con estos valores s se pueden realizar comparaciones de orden pero no operaciones aritmticas.
Ejemplos: Escala de pagos de un alumno de la PUCP: 1, 2, 3, 4, 5.
Grado de instruccin: 1 = primaria completa; 2 = secundaria completa; 3 = superior completa.
Grado de satisfaccin de un cliente: 1 = muy insatisfecho; 2 = insatisfecho; 3 = satisfecho; 4 = muy
satisfecho.

Notas

11

Estadstica EEGGCC

Intervalo
Una escala de intervalo tiene las propiedades de una escala ordinal pero adems cuenta con una
unidad de medida y por lo tanto tiene sentido medir e interpretar las distancias entre los valores de
la escala. En una escala de intervalo, las diferencias entre los valores asignados a las unidades estadsticas proporcionan informacin acerca de la diferencia en el grado en que se presenta la caracterstica observada. Por ejemplo, la diferencia de temperatura entre 10 C y 15C es la misma que entre
30C y 35C; en ambos casos se observa un incremento de cinco grados centgrados.
Una escala de intervalo no tiene un cero real o absoluto sino un cero relativo, definido arbitrariamente y que no indica ausencia de la caracterstica medida, por esta razn, es incorrecto afirmar, por
ejemplo, que 20C representa el doble de temperatura que 10C ya que si empleamos una escala
diferente para medir temperatura esta relacin no se mantiene (10C = 50F, 20C = 68F pero 68 no
es el doble de 50).
Ejemplos: Temperatura, en grados centgrados.
Altura de una ciudad, en metros sobre el nivel del mar.

Propiedad: Si la medida de un elemento en una escala de intervalo es X y en otra escala de intervalo


es Y, entonces existen dos constantes reales m y b tales que se cumple la siguiente ecuacin Y=mX+b.

Ejemplo 13
Calcular cuntos grados Fahrenheit corresponden a X grados centgrados, si se sabe que las temperaturas 10C y 20C equivalen a 50F y 68F respectivamente.
Solucin
De los datos, podemos plantear de la siguiente ecuacin

X 10 Y 50
9
, de donde Y = X + 32
=
20 10 68 50
5

Notas

12

Estadstica EEGGCC

Razn
Una escala de razn tiene las caractersticas de una escala de intervalo y, adems, cuenta con un cero
absoluto que indica ausencia total de la propiedad medida; por ello, los nmeros asignados a las
unidades estadsticas reflejan las cantidades de la caracterstica que se mide. La proporcin entre dos
valores de una escala de razn corresponde a la misma proporcin entre las cantidades de la caracterstica medida.
Ejemplos: Sueldo bruto mensual, en nuevos soles, de los empleados de una empresa.
Tiempo, en minutos, que tarda un alumno en terminar una prueba de agilidad mental.
Peso, en kilogramos, de una persona.

Propiedad: Si la medida de un elemento en una escala de razn es X y en otra escala de razn es Y,


entonces existe una constante real m tal que se cumple la siguiente ecuacin Y = mX.

Ejemplo 14
Indique el tipo y la escala de medicin adecuada para las siguientes variables.
Variable
Cdigo de una alumna o alumno
de la PUCP
Distancia recorrida por un taxista
en un da (en km.)
Nmero de servidores de un centro de cmputo
Material de una tubera (cobre,
bronce, pvc, etc.)
Ao de nacimiento de una persona
Facultad (Letras y CCHH; Ciencias
Sociales, Derecho, Gestin y Alta
Direccin, otras)
Nota en la primera prctica de
Estadstica

Notas

Tipo de variable

Escala de medicin

13

Estadstica EEGGCC

Ejemplo 15
Se define como poblacin de inters al conjunto de todas las pelculas estrenadas en los cines de
Lima durante el ao 2014. De dos ejemplos de variables cualitativas y dos ejemplos de variables
cuantitativas en esta poblacin, indique el tipo de cada variable y la escala adecuada para medirla.

Variable

Tipo de variable

Escala de medicin

1.2. Organizacin y tratamiento de datos


Dato
Un dato es el valor de la medicin de una variable, realizada en una unidad estadstica.

Distribucin de frecuencias
Es la representacin estructurada, en forma de tabla, de los datos que se han recolectado sobre una
variable en estudio.
Es til para resumir grandes volmenes de datos.
Permite que quienes toman decisiones puedan extraer directamente la informacin relevante.

Frecuencias simples
La frecuencia absoluta de la clase i se denota ni y representa el nmero de datos que pertenecen a
esa clase.
La frecuencia relativa de la clase i se denota fi y representa la proporcin de datos que pertenecen a
esa clase.
frecuencia relativa ( fi ) =

frecuencia absoluta de la clase i ni


=
nmero total de datos
n

La frecuencia porcentual de la clase i se denota pi y representa el porcentaje de datos que pertenecen a esa clase.
frecuencia porcentual

Notas

(p i ) =

fi * 100 %

14

Estadstica EEGGCC

Frecuencias acumuladas
Dado un conjunto de n datos cuantitativos, organizados en k clases ordenadas de menor a mayor, se
define:
La frecuencia acumulada absoluta de la clase i se denota Ni y es la suma de las frecuencias absolutas
desde la clase 1 hasta la clase i, es decir, es el nmero total de datos que pertenecen a la clase i o a
alguna clase anterior.
Se tiene que Ni = n1 + n2 + ... + ni =

, i = 1, 2,..., k

j =1

Luego N1 = n1 y Ni = Ni 1 + ni , i = 2, 3,..., k
La frecuencia acumulada relativa de la clase i se denota Fi y es la proporcin de datos que pertenecen hasta esa clase.
frecuencia relativa acumulada (Fi ) =

frecuencia absoluta acumualda i N i


=
nmero total de datos
n

La frecuencia acumulada porcentual Pi de una clase es el porcentaje de datos que pertenecen hasta
esa clase. Se cumple que Pi = Fi x 100%.
Ejemplo 16
Como parte de un estudio se seleccion una muestra de personas y se les solicit que mencionen la
primera marca de televisores que recuerden. Los resultados se muestran en la siguiente tabla. Construya la distribucin de frecuencias de la variable en estudio.
Sony

LG

Sony

Panasonic

Philips

LG

Sony

Panasonic

Sony

LG

Sony

Samsung

Sony

Samsung

Philips

Panasonic

Samsung

Philips

Sony

Sony

Panasonic Otra marca

LG

Sony

Samsung

LG

Samsung

Samsung

LG

Panasonic Otra marca

Samsung

Sony

Philips

Sony

Samsung

Samsung

Panasonic

Otra marca

LG

Samsung

Philips

Marca de televisor

Sony

ni : Nmero de
personas

fi: Proporcin de personas

Total
A partir de la informacin de la tabla complete las siguientes afirmaciones.

El tamao de muestra en este estudio es n = _________.

Notas

Otra marca Panasonic

pi: Porcentaje de
personas

15

Estadstica EEGGCC

_________________ fue la marca de televisores mencionada con ms frecuencia por las personas de la muestra; el ______% de los entrevistados mencionaron esta marca

La segunda marca ms mencionada por las personas entrevistadas fue ____________________ .

Las marcas ___________________ y ____________________ fueron mencionadas por el mismo


nmero de personas.

Slo cuatro entrevistados respondieron que _____________ es la primera marca de televisores


que recordaron.

Ejemplo 17
A un grupo de 64 alumnos de Estudios Generales Ciencias se les pregunt acerca del nmero de veces que fueron al cine durante el ltimo mes. Las respuestas de estos alumnos fueron las siguientes:
1

Construya la tabla de distribucin de frecuencias de la variable y complete las afirmaciones.


Nmero de veces
que fue al cine el
ltimo mes

ni: Nmero de
alumnos

pi: Porcentaje de
alumnos

Ni: Nmero acumulado de alumnos

Pi: Porcentaje acumulado de alumnos

Total
A partir de la informacin de la tabla complete las siguientes afirmaciones.

___________________ alumnos entrevistados respondieron que no fueron al cine el ltimo mes.

El __________% de los alumnos entrevistados fueron al cine al menos una vez en el ltimo mes.

EL nmero de veces que fueron al cine el ltimo mes los alumnos entrevistados vari entre ____
y ____ veces.

Solamente _______% de los alumnos de la muestra respondi que fue ocho veces al cine durante el ltimo mes. Los dems alumnos respondieron que fueron ___________ o menos veces al
cine el ltimo mes.

El ___________% de los alumnos entrevistados fueron al cine dos o menos veces el ltimo mes.

Notas

Estadstica EEGGCC

16

1.3. Grficos y tablas estadsticas


Todo grfico debe tener, por lo menos, lo siguiente:
un ttulo que lo describa lo mejor posible
unidades y rtulos en todos los ejes
fuente de los datos.
A continuacin se presenta el esquema de un grfico estadstico extraido de la Gua de presenatacin
de grficos estadsticos, elaborada por el Instituto Nacional de Estadstica e Informtica, disponible
en: http://www.inei.gob.pe/media/MenuRecursivo/metodologias/libro.pdf

Grficos para datos de variables cualitativas


Grfico de barras
Se usa para representar grficamente
la distribucin de un conjunto de datos cualitativos.
En uno de los ejes, se representan las
categoras o clases de la variable; para
el otro eje, se puede usar una escala
de frecuencias absolutas, relativas o
porcentuales. Se traza una barra sobre cada indicador de clase de una altura proporcional a la frecuencia correspondiente.
Las barras deben ser del mismo ancho
y deben estar separadas para enfatizar el hecho de que cada clase es diferente de otra.
Notas

17

Estadstica EEGGCC

Grfico circular o de pastel


Cuando se utiliza el grfico circular, cada sector circular representa la frecuencia observada de una clase o categora.
El sector circular que representa a una determinada clase o
categora de la variable tiene un
ngulo en el centro proporcional a la frecuencia relativa de
dicha clase. El ngulo que le corresponde a cada clase se obtiene multiplicando 360 por la
respectiva frecuencia relativa.

Ejemplo 18
En el aula hay presentes _________ alumnas mujeres y ___________ alumnos hombres. Si queremos
presentar esta informacin en un grfico circular primero debemos calcular el ngulo en el centro
para cada sector circular:

Sexo

ni: Frecuencia absoluta

fi: Frecuencia relativa

ngulo en el centro (fi*360)

Femenino
Masculino
Total

Ttulo: __________________________________________________________________

Femenino
Masculino

Notas

18

Estadstica EEGGCC

Grficos para datos de variables cuantitativas discretas


Grfico de bastn
Es un grfico que muestra la frecuencia de ocurrencia de cada valor observado de la variable discreta
mediante un segmento (bastn) cuya altura es proporcional a la frecuencia correspondiente.

Ejemplo 19
Los siguientes datos muestran el nmero de veces que fueron al cine el ltimo mes un grupo de
alumnos de Estudios Generales Ciencias.
1
1
2
1

3
0
1
4

4
0
2
0

0
1
1
1

0
1
0
1

8
1
1
5

1
2
4
1

0
0
0
2

5
0
1
1

3
3
0
0

2
2
0
0

1
1
2
0

2
5
2
2

1
1
3
2

2
1
1
3

3
4
4
0

Construya el grfico de bastones correspondiente, (recuerde que ya construy la distribucin de frecuencias para estos datos en el ejemplo 17). Comente la distribucin de los datos.

Notas

19

Estadstica EEGGCC

Distribucin de frecuencias por intervalos para datos cuantitativos continuos


Cuando se realiza mediciones de una variable continua, por lo general, los datos observados tienen
muchos valores diferentes, por ello, para presentarlos en una tabla de forma tal que se facilite su
anlisis, estos datos deben agruparse primero en clases o intervalos.
Tres pasos previos para la construccin de una distribucin de frecuencias por intervalos son los siguientes:
Determinar la cantidad de intervalos o clases.
Determinar el ancho o amplitud de cada intervalo o clase.
Determinar los lmites de cada intervalo o clase.

Cantidad de clases: k
Se recomienda usar entre 5 y 20 intervalos o clases.
La idea es emplear suficientes clases para mostrar la variacin de los datos, pero no tantas que
varias contendran muy pocos o ningn elemento.
Hay algunas reglas que sugieren el nmero de clases o intervalos que se deben usar que dependen del nmero de datos disponibles, sin embargo en la prctica la decisin generalmente se
toma atendiendo a una necesidad especfica o por experiencia.

Amplitud de cada clase: A


Por lo general, se usa la misma amplitud o ancho para todas las clases.
Si se ha decidido construir una distribucin de frecuencias con k intervalos del mismo tamao,
entonces la amplitud de cada intervalo se calcula de la siguiente manera:

A = Amplitud =

x
x mn
dato mximo dato mnimo
Rango
= mx
=
k
k
k

La amplitud se aproxima por exceso de acuerdo con la cantidad de decimales que tienen los datos o segn la precisin con la que se desea trabajar.
Se usa la aproximacin por exceso para asegurar que el mayor de los datos pertenezca a alguna
de las clases.

Lmites de cada clase o intervalo


Los intervalos deben ser disjuntos y deben cubrir todo el rango de variacin de los datos.
Los lmites de cada clase se escogen de tal manera que cada dato pertenezca a una clase y slo a
una.
Por lo general, el lmite inferior de la primera clase es el valor del dato mnimo observado.

Notas

20

Estadstica EEGGCC

Marca de clase
La marca de clase es el punto medio de cada intervalo. Se obtiene calculando la semi suma de los
lmites de cada intervalo o clase.
Cuando los datos se presentan organizados en una distribucin de frecuencias por intervalos, ya
no es posible determinar el valor exacto de cada dato. La marca de clase se usa como el valor
que representa a cada uno de los datos que pertenecen al intervalo o clase correspondiente.
Es importante que los intervalos no sean demasiado grandes, porque la marca de clase no sera
un buen representante, ni demasiado pequeos como para complicar la construccin de la tabla
o como para que hayan varias clases sin datos.
La marca de clase del intervalo i se denota mi
Ejemplo 20
Construya una distribucin de frecuencias de siete intervalos o clases para los siguientes datos que
representan los tiempos (en minutos), que demoraron 48 alumnos en resolver una prueba.
8,8
8,9
12,7

8,7
12,4
8,4

10,2
9,6
10,5

10,3
10,1
10,9

8,2
9,6
11,9

11,7
9,7
9,9

7,8
9,6
9,5

9,8
11,3
10,7

11,1
10,9
12,6

8,9
9,8
10,8

9,3
9,5
8,6

8,3
12,0
9,2

8,2
10,9
8,5

9,0
12,4
9,6

9,2
9,3
10,0

8,5
9,4
9,8

Solucin
El rango R se calcula con: R = dato mximo dato mnimo = xmax xmin = 12,7 - 7,8 = 4,9
De acuerdo a lo indicado, el nmero de clases o intervalos a usar es k = 7.
La amplitud de cada intervalo es:

A=

R 4 ,9
=
= 0,7
k
7

En el curso usaremos intervalos abiertos a la izquierda, pero tambin puede usarse intervalos abiertos a la derecha. Los intervalos o clases para los datos de este ejemplo son:
I1: [xmin ; xmin + A] = [7,8 ; 7,8 + 0,7] = [7,8 ; 8,5]
I2: ]xmin + A ; xmin + 2A] = ]7,8 + 0,7;7,8 + 1,4] = ]8,5 ; 9,2]
...
I7: ]xmin + 6A ; xmin + 7A] = ]12,0 ; 12,7]
Distribucin de frecuencias
Tiempo (min.)

Marca de clase
(mi)

ni: nmero de
alumnos

fi: proporcin
de alumnos

Ni: No. acum.


de alumnos

Fi: prop. acum.


de alumnos

[7,8

8,5]

8,15

0,1458

0,1458

]8,5

9,2]

8,85

0,1667

15

0,3125

]9,2

9,9]

9,55

14

0,2917

29

0,6042

]9,9

10,6]

10,25

0,1042

34

0,7083

]10,6

11,3]

10,95

0,1458

41

0,8542

]11,3

12,0]

11,65

0,0625

44

0,9167

]12,0

12,7]

12,35

0,0833

48

1,0000

Notas

21

Estadstica EEGGCC

Distribucin de frecuencias por intervalos para datos de una variable cuantitativa discretas
Si los datos que se quiere organizar en una distribucin de frecuencias corresponden a mediciones de
una variable discreta pero se han observado muchos valores diferentes, entonces tambin podemos
utilizar una distribucin de frecuencias por intervalos para facilitar el anlisis de estos datos.

Ejemplo 21

La manzana delicia (manzana Red Delicious), tiene piel o cscara color rojo brillante, pulpa blanquecina, es algo arenosa y con un sabor algo cido, de esta variedad procede la variedad Royal Red Delicious. Se ha tomado una muestra de estas manzanas obtenindose los siguientes pesos, en gramos.
130

158

163

166

168

170

171

174

178

180

183

185

186

187

189

190

190

192

192

193

193

193

193

194

195

196

198

198

199

203

205

211

214

215

217

218

222

224

226

227

233

235

238

239

305

Construya una distribucin de frecuencias usando seis intervalos para los pesos de las manzanas de
la muestra.

Ttulo: _____________________________________________________________________________

mi:

]
Total

Notas

ni:

pi :

Ni:

Pi:

22

Estadstica EEGGCC

Interprete el valor de n4

Interprete el valor de p2

Interprete el valor de P3

Escriba dos comentario acerca de la distribucin de los datos

Grficos para variables cuantitativas continuas


Para presentar estos grficos usaremos el ejemplo
siguiente. Los datos corresponden a la experiencia
laboral de los obreros de una fbrica que han sido
organizado previamente en la siguiente distribucin de frecuencias por intervalos.

Experiencia
laboral
(en aos)

mi: marca
de clase

ni: nmero de
obreros

fi: proporcin de
obreros

Ni: Nmero acumulado de obreros

Fi: proporcin
acumulada de
obreros

[0;4]

57

0,2780

57

0,2780

]4;8]

78

0,3805

135

0,6585

] 8 ; 12 ]

10

43

0,2098

178

0,8683

] 12 ; 16 ]

14

25

0,1220

203

0,9903

]16 ; 20 ]

18

0,0098

205

Total

205

Notas

Estadstica EEGGCC

23

Histograma
Se construye a partir de una distribucin de frecuencias por intervalos.
Los datos de cada clase se representan con un rectngulo, cuya base es el intervalo de clase y
cuya altura es proporcional a la frecuencia correspondiente (absoluta, relativa o porcentual).
Los rectngulos adyacentes se tocan entre s.
El histograma muestra la forma de la distribucin de los datos. Se observa: la simetra y dispersin de los datos; los intervalos con alta concentracin, las brechas (intervalos sin observaciones), as como la existencia de datos muy alejados de los dems.

Polgono de frecuencias
Es la representacin por medio de una figura
poligonal cerrada de una distribucin de frecuencias absolutas, relativas o porcentuales.
Se obtiene uniendo con segmentos de
recta los puntos con la marca de clase como abscisa y la correspondiente frecuencia
absoluta o relativa como ordenada.
Los polgonos de frecuencias se cierran en
los puntos del eje horizontal correspondientes al lmite inferior del primer intervalo y al lmite superior del ltimo intervalo.

Ojiva
Es la grfica de una distribucin de frecuencias
acumuladas (absolutas, relativas o porcentuales).
La ojiva parte del punto que tiene al lmite
inferior del primer intervalo como abscisa
y a cero como ordenada.
Se obtiene uniendo con segmentos de
recta los puntos con el lmite superior de
cada intervalo como abscisa y la frecuencia
acumulada respectiva como ordenada.
Con la ojiva se puede estimar el nmero o
porcentaje aproximado de observaciones
que corresponden a un intervalo determinado.

Ejemplo 22

La anchoveta es el pez ms importante del ecosistema de la Corriente de Humboldt. Su abundancia


ha permitido el desarrollo y sustento de muchas otras especies de peces, aves, mamferos e invertebrados que hoy en da habitan en nuestro mar. Una muestra de 250 anchovetas de un ao de edad
ha dado una longitud mnima de 6 cm. Los datos se muestran organizados en la tabla siguiente.
Notas

24

Estadstica EEGGCC

Ttulo: _______________________________________________________________________
Tamao

mi:

(centmetros)

Marca de clase

ni:

f i:

Ni:

Fi:

0,10
65
180
30
0,96
17

0,04

Total

a) Complete la distribucin de frecuencias por intervalos de las longitudes de las anchovetas.

b) Grafique el histograma de frecuencias relativas y escriba dos comentarios respecto a la distribucin de los datos.

c) Grafique la ojiva de frecuencias relativas acumuladas.

Notas

Estadstica EEGGCC

25

d) Calcule el porcentaje aproximado de anchovetas de la muestra que midieron 13 cm. o menos.

e) Determine aproximadamente la longitud mnima que debera tener una de estas anchovetas para
estar considerada dentro de las 10% ms grandes.

Notas

26

Estadstica EEGGCC

1.4. Estadsticos de posicin


Percentil
El k-simo percentil, denotado Pk, es un valor tal que por lo menos el k% de los datos son menores o
iguales que este valor.

Cuartil
Se denomina as a cada uno de los tres percentiles: P25, P50, P75 y se les denota como Q1, Q2 y Q3 respectivamente.
Ejemplo 23

Evaluacin de postulantes a puestos de trabajo en una empresa de telecomunicaciones.

Percentiles

Edad

Conocimientos generales

Neuroticismo

25 (Primer cuartil)

29,0

26,0

48,0

50 (Segundo cuartil)

31,0

30,0

63,0

75 (Tercer cuartil)

36,0

34,0

77,5

El primer cuartil de la variable Edad es 29, esto quiere decir que al menos el 25% de los postulantes tiene 29 aos o menos.

El segundo cuartil de la variable Conocimientos generales es 30, esto quiere decir que al menos
el 50% de los postulantes obtuvieron 30 o menos puntos en la prueba de conocimientos generales.

El tercer cuartil de la variable Neuroticismo es 77,5, esto quiere decir que al menos el 75% de los
postulantes obtuvieron 77,5 o menos puntos en la evaluacin de Neuroticismo.

Ejemplo 24

En los ltimos 150 aos, los holandeses han pasado a ser los habitantes ms altos del mundo, y segn los expertos siguen creciendo. El estudio de la altura de los holandeses a lo largo de los siglos
ofrece un panorama sobre la salud y riqueza de la nacin. No siempre fue as, en 1848, uno de cada
cuatro varones era rechazado del servicio militar porque no alcanzaba la estatura de 1,57 metros.
Actualmente, el percentil 1 de la estatura de los varones holandeses es 1,57 metros y el percentil 70
es 1,88 metros. Indique el significado de estos percentiles. Fuente http://www.ap.org/ Associated Press.

Clculo del percentil k para un conjunto de n datos cuantitativos


Existen varias propuestas diferentes para calcular el k-simo percentil de un conjunto de datos.
Algunas de ellas se pueden usar tanto para datos cuantitativos como para datos cualitativos medidos en escala ordinal. En el curso usaremos la propuesta siguiente que slo debe aplicarse a
datos cuantitativos.
Notas

27

Estadstica EEGGCC

Ordene los n datos de manera ascendente, es decir, de menor a mayor: x1 x2 x3 xn (de


esta manera, el dato xi es el dato en la i-sima posicin).
Calcule la posicin i del percentil k-simo, Pk.
k
i =
n
100

0 < k < 100

Si el valor calculado de i es un nmero entero, el percentil k-simo, Pk, es igual a la semi suma de
los datos en las posiciones i e (i+1), es decir, Pk = ( xi+ xi+1)/2
Si el valor calculado de i no es entero,el percentil k-simo Pk es el dato que tiene la posicin del
entero inmediato superior a i, es decir, Pk = x i + 1
Ejemplo 25

Dadas las siguientes edades de una muestra de personas asistentes al Tnel de la Ciencia, calcule e
interprete el percentil 50 y el percentil 20.
10

12

15

14

25

19

10

14

12

18

13

11

15

13

15

16

14

13

Ejemplo 26
En la tabla siguiente se muestra la distribucin de los trabajadores de una empresa segn el nmero de
tardanzas en el mes pasado. Calcule e interprete el percentil 30 y el percentil 75 de los datos.
xi : Nmero de
tardanzas

ni: Nmero de trabajadores

48

80

57

15

Total

Notas

fi: Proporcin de
trabajadores

Ni :

Fi :

15

28

Estadstica EEGGCC

Percentil de datos organizados en una distribucin de frecuencia por intervalos


Cuando no conocemos los valores exactos de cada uno de los datos y slo los tenemos organizados en una distribucin de frecuencias por intervalos, no es posible calcular el valor exacto del
percentil k-simo, Pk, en ese caso, hallaremos un valor aproximado de este percentil usando la informacin contenida en la tabla.
Primero, identificamos el intervalo Ii = ]Li ; Ui] en el que se encuentra el percentil Pk mirando en la
k
columna de frecuencias relativas acumuladas. Se debe cumplir que: Fi 1 <
Fi .
100
El valor del percentil Pk se determina por la siguiente expresin:
Pk = Li +

A k

Fi 1

fi 100

donde:

Li = lmite inferior del intervalo Ii que contiene al percentil k


fi = frecuencia relativa del intervalo Ii que contiene al percentil k
Fi-1 =Frecuencia relativa acumulada del intervalo anterior al Ii, que contiene al percentil k
A = Amplitud del intervalo (en este caso suponemos que la amplitud es constante)
Para deducir la frmula para percentiles de datos agrupados en intervalos, podemos establecer
una semejanza de tringulos usando la ojiva de frecuencias relativas acumuladas.

Ui Li
F F
= i i 1
k
Pk Li
Fi1
100
De donde se tiene que:
A
fi
=
k
Pk Li
Fi1
100
Despejando se obtiene la frmula del percentil k.

Pk = Li +

Notas

A k

Fi 1

fi 100

29

Estadstica EEGGCC

Cuartiles
Primer cuartil:

Q1 = P25

Segundo cuartil:

Q2 = P50

Tercer cuartil:

Q3 = P75

Ejemplo 27

A continuacin, se presenta la distribucin de los tiempos totales, en minutos, que diferentes estaciones de radio dedicaron a los avisos comerciales entre las 8:00 a. m. y las 12:00 m. de un da de la
semana pasada. Calcule e interprete el primer cuartil de la distribucin.
Tiempo

[0 - 6]

ni: Nmero
de emisoras

]6 - 12] ]12 - 18] ]18 - 24] ]24 - 30] ]30 - 36] ]36 - 42] ]42 - 48] ]48 - 54] ]54 - 60]
3

17

10

14

fi :
Fi :

Ejemplo 28

Segn la definicin oficial de la Organizacin Meteorolgica Mundial, la lluvia es la precipitacin de


agua en forma de gotas, cuando stas alcanzan un dimetro superior a los 0,5 mm. La cantidad de
lluvia que cae en un lugar se mide con pluvimetros. La intensidad de la precipitacin es medida en
milmetros por hora (mm/h), es decir, la altura medida en milmetros, del agua cada en una hora en
una superficie plana de un m2.
Las lluvias se categorizan en:

dbiles: cuando su intensidad es menor o igual a 2 mm/h,

moderadas: intensidad mayor a 2 mm/h y menor o igual a 15 mm/h,

fuertes: intensidad mayor a 15 mm/h y menor o igual a 30 mm/h,

muy fuertes: intensidad mayor a 30 mm/h y menor o igual a 60 mm/h

torrenciales: intensidad mayor a 60 mm/h

En la ciudad A se realizaron 120 mediciones de una hora de la cantidad de lluvia, en una muestra de
120 das del ao pasado, obtenindose los siguientes resultados.

Notas

30

Estadstica EEGGCC
Ciudad A: Distribucin de precipitaciones segn su intensidad (en mm/h)
Intensidad (mm/h)

mi: marca de
clase

ni: Nmero de fi:


precipitaciones

Ni:

Fi:

[0

16]

30

0,2500

30

0,2500

]16

32]

24

55

0,4583

85

0,7083

]32

48]

40

21

0,1750

106

0,8833

]48

64]

56

0,0750

115

0,9583

]64

80]

72

0,0417

120

1,0000

Fuente: Direccin de Saneamiento Ambiental. Ciudad A.

a. Calcule e interprete el P80 de las mediciones.

b. Calcule la cantidad de precipitacin mxima para estar en el 15% de las precipitaciones ms bajas
de las 120 medidas.

c. Calcule el porcentaje de mediciones que fueron clasificadas como lluvia dbil o moderada.

d. Calcule el porcentaje de mediciones que fueron clasificadas como lluvia fuerte o muy fuerte.

Notas

31

Estadstica EEGGCC

1.5. Medidas de tendencia central


Las medidas de tendencia central son medidas resumen que se usan como valores que representan
al conjunto de datos de una variable.

Moda
La moda de un conjunto de datos o mediciones de una variable es el valor que se presenta con mayor frecuencia.
Caractersticas de la moda

La moda se puede calcular para datos medidos en cualquier escala de medicin.


El valor de la moda no se ve afectado por valores extremos.
La moda no siempre es un valor nico. Una serie de datos puede tener dos modas (bimodal) o
ms modas (multimodal).

Moda de un conjunto de n datos

Agrupe los datos de acuerdo con sus frecuencias, el dato con mayor frecuencia es la moda.

Ejemplo 29

Determine e interprete la moda de los siguientes datos, que representan las escalas de pago de una
muestra de 20 alumnos de la PUCP.
3

Notas

32

Estadstica EEGGCC

Calcule e interprete la moda de los siguientes datos, que representan el sexo de los postulantes a un
puesto de Gerente de Logstica de una empresa. La escala usada es 1: Femenino y 2: Masculino
2

Ejemplo 30

En la empresa A, se midi el nmero de errores por da que cometieron 158 obreros al ensamblar un
determinado producto. Calcule e interprete la moda del nmero de errores diarios por obrero.

Empresa A. Distribucin de obreros por el nmero de errores al ensamblar el producto


xi : Nmero de errores

ni : Nmero de obreros

25

45

60

28

Fuente: Gerencia de Produccin. Empresa A

Notas

33

Estadstica EEGGCC

Mediana
La mediana es el percentil 50, tambin llamado segundo cuartil.
Caractersticas de la mediana

Se puede calcular para variables medidas en escala de ordinal, intervalo o razn.


La mediana es un estadstico robusto que no depende de todos los datos y por lo tanto su valor
no se ve afectado por la presencia de datos inusualmente grandes o pequeos.
La mediana resulta til como representante del conjunto de datos cuando hay datos atpicos o el
polgono de frecuencias presenta una asimetra considerable.
Dados n datos cuantitativos x1, x2,, xn, sea S (c ) =

c , entonces S (c ) tiene mnimo abso-

i =1

luto cuando c es igual a la mediana del conjunto de datos.

Ejemplo 31

El tiempo, en horas, que tard cada uno de 17 obreros para realizar una tarea se muestra en la siguiente tabla. Entre los obreros evaluados algunos recibieron una capacitacin previa y otros no.
Capacitados

4,5

4,3

2,7

8,2

8,3

6,4

5,4

No capacitados

8,3

7,4

8,5

8,5

9,0

8,4

18

3,4

2,7

Calcule e interprete la mediana para cada grupo. Compare los valores hallados y comente.

Notas

5,6

34

Estadstica EEGGCC

Ejemplo 32

En la empresa A se tom una muestra aleatoria de 560 trabajadores y se les pregunt por su sueldo
mensual, en dlares, obtenindose los siguientes resultados.
Distribucin de trabajadores por sus sueldos mensuales (en US$)
mi: Marca de
clase

Sueldo
[

275

275

275

325

325

325

ni: Nmero de
f
trabajadores i

Ni

Fi
30

77170000

0,1339
190
130

22500

25

Fuente: Gerencia de Recursos Humanos. Empresa A

Complete la tabla de distribucin de frecuencias y calcule aproximadamente la mediana de los ingresos de los trabajadores de la muestra. Interprete.

Grafique el histograma y ubique en el grfico la posicin de la mediana dira que este valor es un
buen representante del conjunto de datos?

Notas

35

Estadstica EEGGCC

Media aritmtica
La media aritmtica (o simplemente media) de n datos es el valor que se obtiene al dividir la suma
total de los datos entre el nmero de datos:
Media aritmtica = x =

x1 + x 2 + .... + x n
n

Caractersticas de la media

Solamente se puede calcular para datos cuantitativos, medidos en escala de intervalo o razn.
El clculo de la media es sencillo y es la medida de tendencia central ms conocida.
El valor de la media depende de todos los datos, por lo que la presencia de valores muy grandes
o muy pequeos con respecto a los dems pueden cambiar drsticamente su valor.

= nx

i =1
n

(x x ) = 0
i

i =1

Dados n datos cuantitativos x1, x2,, xn, sea S (c ) =

(x c )

, entonces S (c ) tiene mnimo abso-

i =1

luto cuando c es igual a la media del conjunto de datos x .


Si cada uno de n datos cuantitativos xi es transformado en: yi = a xi + b, siendo a y b constantes,
entonces, la media de los n valores yi es:
y = ax + b

Ejemplo 33

Un comerciante ha comprado 30 computadores a un distribuidor y ha pagado un precio medio de


450 dlares por cada computadora. El comerciante planea revender estas computadoras para obtener ganancias.
a. Si decide fijar el precio de venta de tal manera que gane 80 dlares sobre el costo de cada
computadora, cul sera el precio medio de venta de las computadoras?

Notas

36

Estadstica EEGGCC

b. Si decide fijar el precio de venta de tal manera que gane 20% sobre el costo de cada computadora, cul sera el precio medio de venta de las computadoras?

c. Si decide fijar el precio de venta aumentando un 10% sobre el costo de cada computadora ms
un monto fijo de 50 dlares, cul sera el precio medio de venta de las computadoras?, cul sera el monto total de los ingresos obtenidos por la venta de las 30 computadoras?

Media aritmtica para un conjunto de n datos no agrupados

Sean x1, x2, xn un conjunto de n datos de una variable cuantitativa X. La media aritmtica de estos n
datos es:
n

x + x + .... + x n
=
Media = x = 1 2
n

i =1

Ejemplo 34

Calcule la media de los siguientes datos que representan el nmero de papeletas pendientes de pago
de cada uno de 11 choferes de vehculos de transporte pblico seleccionados al azar.
12

Notas

13

25

20

17

19

15

14

28

37

Estadstica EEGGCC

Media aritmtica para datos en una distribucin de frecuencias para variable discreta

Sean x1, x2, , xk los valores observados de una variable discreta X con frecuencias absolutas respectivas n1, n2, , nk y frecuencias relativas respectivas f1, f2, , fk La media aritmtica de estos datos es:
k

Media = x =

x 1 n 1 + x 2 n 2 + ... + x k n k
=
n 1 + n 2 + ... + n k

xn
i

i =1

i fi

i =1

Ejemplo 35

En la empresa A, se cont el nmero de errores que cometieron 158 obreros al ensamblar un determinado producto. Calcule la media y la mediana del nmero de errores por obrero. Cul de estas
dos medidas le parece ms adecuada para representar al conjunto de datos?
Empresa A. Distribucin de errores al ensamblar un producto
xi: Nmero de errores

ni: Nmero de obreros

25

45

60

28

fi: Proporcin de obreros

Fi: Proporcin acumulada de


obreros

Fuente: Gerencia de Recursos Humanos. Empresa A

Media aritmtica para datos en una distribucin de frecuencias por intervalos

Cuando solamente se cuenta con los datos organizados en una distribucin de frecuencias por intervalos no es posible calcular la media aritmtica usando la definicin porque no se conoce el valor
exacto de cada dato. En ese caso, se obtiene un valor aproximado de la media usando las marcas de
clase de los intervalos.
El valor aproximado de la media aritmtica para n datos organizados en una distribucin de frecuencias con k intervalos o clases, con marcas de clase m1, m2, mk; fercuencias absolutas n1, n2, , nk y
frecuencias relativas f1, f2, , fk respectivamente es:
k

m n + m 2 n 2 + ... + m k n k
Media = x = 1 1
=
n 1 + n 2 + ... + n k

Notas

mn
i

i =1

m
i =1

i fi

38

Estadstica EEGGCC

Ejemplo 36

En el distrito A se seleccion una muestra aleatoria de jvenes y se determin la estatura, en centmetros, de cada uno obtenindose los siguientes resultados.

Distrito A. Distribucin de jvenes segn estaturas de una muestra de 800 jvenes


mi: Marca de

Estatura (en centmetros)

ni:

fi:

Ni :

Fi:

clase

150

158

158

166

166

174

174

182

0,48
0,32
0,95
800

Fuente: Gerencia de Desarrollo Humano. Municipalidad del distrito A

Complete la tabla de distribucin de frecuencias y calcule aproximadamente el porcentaje de jvenes


de la muestra con altura mayor a la media del grupo. Dira usted que la media es un buen representante de este conjunto de datos?

Ejemplo 37

En los reportes estadsticos de una empresa, correspondientes al perodo de los ltimos 200 das, se
lee la siguiente informacin sobre el nmero de facturas diarias emitidas por la empresa en dicho
perodo.
Nmero de facturas

Nmero de das

Proporcin de das

[30 ; 60]

0,30

]60 ; 90]

0,40

]90 ; 120]

0,20

]120 ; 150]

0,06

]150 ; 180]

0,04

Proporcin acumulada de das

Calcule el valor aproximado de la media y la mediana del nmero de facturas diarias emitidas por la
empresa en dicho perodo, compare los valores y comente cul le parece ms adecuado para representar este conjunto de datos.
Notas

39

Estadstica EEGGCC

Media aritmtica ponderada


Dados n datos x1, x2,, xn con pesos w1, w2,, wn la media aritmtica ponderada de estos datos es:
n

w x + w2 x2 + ... + wn x n
Media ponderada = x p = 1 1
=
w1 + w2 + ... + w n

w x
i

i =i
n

i =1

Si todos los pesos son iguales, entonces el valor de la media ponderada es igual al de la media:
xp = x .

Ejemplo 38

Calcule la nota final de un alumno del curso de Estadstica de Estudios Generales Ciencias que tiene
las siguientes notas: prctica calificada 1 = 17, prctica calificada 2 = 10, prctica calificada 3 = 14,
prctica calificada 4 = 18, examen parcial = 12 y examen final = 15. Los pesos del promedio de prcticas, examen parcial y examen final son 3, 3 y 4, respectivamente. La prctica con menor nota se anula.

Notas

40

Estadstica EEGGCC

1.6. Medidas de dispersin


Las medidas de tendencia central nos proporcionan valores que podemos usar como datos tpicos, es decir, valores que representan a todo el conjunto de datos, sin embargo, si caracterizamos al conjunto de datos nicamente por su centro, no contamos con informacin acerca de qu
tan parecidos son los dems datos respecto al valor central.
Si debemos describir la distribucin de un conjunto de datos cuantitativos nos interesara evaluar
qu tan parecidos son los datos entre s? o qu tan prximos del valor central estn los datos
del conjunto?, esta informacin la proporcionan las medidas de dispersin.
Ejemplo 39

Calcule la media, mediana y moda de los siguientes grupos de datos:


Grupo 1
1

-20

30

Grupo 2
Grupo 3
Qu conclusin deduce de los clculos?

Rango
El rango de un conjunto de datos se define como:
Rango = R = dato mximo dato mnimo

Caractersticas del rango

El rango se puede calcular para datos cuantitativos, medidos en escala de intervalo o de razn.
Solo depende del valor mximo y mnimo de los datos e ignora cmo estn distribuidos los dems datos.
Se ve afectado por datos extremos, es decir, por datos muy grandes o muy pequeos respecto a
los dems.
El rango mide la longitud del intervalo de variacin de los datos.

Notas

41

Estadstica EEGGCC

Rango intercuartil
Es la diferencia entre el tercer y primer cuartil.
Rango intercuartil = RIC = Q3 Q1= P75 P25

Caractersticas del rango intercuartil

Se puede calcular para datos cuantitativos, medidos en escala de intervalo o de razn.


No se ve afectado por valores extremos.
El rango intercuartil mide la longitud del intervalo de variacin del 50% de los datos centrales

Desviacin absoluta
Dados n datos x1, x2,, xn, la desviacin absoluta de estos datos se define como:
n

x x

i
x1 x + x2 x + ... + xn x
= i =1
n
n
La desviacin absoluta es la media de las distancias de cada dato a la media aritmtica

Desviacin absoluta = DA =

Se calcula para datos medidos en escala de intervalo o de razn.

Varianza
Dados n datos cuantitativos x1, x2,, xn la varianza de estos datos se define como la media de las distancias al cuadrado de cada dato a la media aritmtica.
n

Varianza = S 2 =

(x1 x ) + (x2 x )
2

+ ... + (x n x )

(x

x )2

i =1

2
i

i =1

2
x

Si los n datos son una muestra aleatoria de una poblacin mayor y se requiere estimar la varianza
poblacional que es desconocida, entonces se usa la varianza muestral que se calcula:
n

(x x ) + (x2 x )
Varianza muestral = s 2 = 1
2

n 1

Notas

+ ... + (x n x )

(x x )

i =1

n 1

42

Estadstica EEGGCC

Desviacin estndar
Dados n datos cuantitativos x1, x2,, xn la desviacin estndar de los datos se define como la raz cuadrada de la varianza:

Desviacin estndar = s = s2
La desviacin estndar representa el alejamiento tpico de un dato respecto a la media.
La desviacin estndar es la medida de dispersin ms utilizada, sin embargo, resulta realmente til
e informativa para distribuciones simtricas o aproximadamente simtricas.

Ejemplo 40
Calcule e interprete la media y la desviacin estndar de los siguientes datos que representan el nmero de personas atendidas por da en la caseta de informacin de un proyecto inmobiliario, en una
muestra de 15 das.
18

10

11

Varianza de datos agrupados. Variable cuantitativa discreta


Sean x1, x2, , xk los valores observados de una variable discreta X con frecuencias absolutas respectivas n1, n2, , nk (n = n1 + n2 + + nk) y frecuencias relativas respectivas f1, f2, , fk la varianza de
estos datos es:
k

n (x x )

Varianza = S 2 =

i =1

n
i

Varianza muestral = s 2 =

i =1

f (x x )

i =1

n (x

x )2

n 1

k
n
2
=
fi (x i x )
n 1 i =1

Ejemplo 41
Calcule la varianza y la desviacin estndar de los siguientes datos que representan el nmero artculos defectuosos encontrados en cada uno de 122 lotes recibidos la semana pasada. Cada lote tiene
1000 artculos.

Notas

xi: nmero de defectuosos

ni: nmero de lotes

58

26

10

30

43

Estadstica EEGGCC

Varianza de datos organizados en una distribucin por intervalos


As como en el caso de la media aritmtica, cuando solamente se cuenta con los datos organizados
en una distribucin de frecuencias por intervalos no es posible calcular la varianza usando la definicin porque no se conoce el valor exacto de cada dato, pero si se puede obtener una aproximacin
usando las marcas de clase de los intervalos.
El valor aproximado de la varianza para n datos organizados en una distribucin de frecuencias con k
intervalos o clases, con marcas de clase m1, m2, , mk; frecuencias absolutas n1, n2, , nk y frecuencias relativas f1, f2, , fk respectivamente es:
k

n (m x )

Varianza = S 2 =

i =1

f (m x )

i =1

Tambin se puede calcular aproximadamente la varianza muestral:


k

n (m x )

Varianza muestral = s2 =

i =1

n 1

k
n
2
=
fi (mi x )
n

i =1

Ejemplo 42
Calcule la media y la desviacin estndar de los siguientes datos que corresponden a los pesos de los
equipajes de los pasajeros de un vuelo Lima a Arequipa.
Peso (kilos)
[10,0

15,0]

ni: nmero de pasajeros


9

75

56

Total

Notas

Marca de clase

Estadstica EEGGCC

44

Propiedades de la varianza y la desviacin estndar


La varianza y la desviacin estndar son nmeros no negativos.
Se calculan para datos medidos en escala de intervalo o de razn.
Son sensibles a la existencia de valores atpicos, es decir, muy grandes o muy pequeos respecto
a los dems datos.
La varianza se expresa en las unidades de los datos elevadas al cuadrado. La desviacin estndar
en las mismas unidades que los datos. Por ejemplo, si los datos estn medidos en metros (m), la
varianza estar expresada en metros al cuadrado (m2) y la desviacin estndar en metros (m).
Si cada uno de los n datos cuantitativos xi es transformado en yi = a xi + b, siendo a y b constantes, entonces, la varianza de los n valores y1 , y2, y3, ., yn es: sy2 = a 2 s 2x y por lo tanto, la desviacin
de estos valores es: s y = a s x .

Ejemplo 43
En una muestra de ferreteras se ha registrado el precio de las varillas de acero de 12 mm, encontrndose un precio medio de 19,80 nuevos soles y una desviacin estndar de 0,85 nuevos soles.
a.

Si los precios se redujeran en un 5% en todas las tiendas, calcule el nuevo precio medio y la nueva desviacin estndar de los precios.

b.

Si los precios de las varillas se aumentaran en un 2% del precio inicial ms un monto fijo de 0,80
nuevos soles en todas las ferreteras de la muestra, calcule el nuevo precio medio y la nueva
desviacin estndar de los precios.

Desigualdad de Chebyshev
Sea k > 1, entonces el porcentaje de datos en el intervalo [ x k sd x , x + k sd x ] es mayor o igual que
1

1 2 % . Particularmente:
k

Notas

En el intervalo [ x 2 sd x , x + 2 sd x ] estn por lo menos el 75% de los datos.

En el intervalo [ x 3 sd x , x + 3 sd x ] estn por lo menos el 88,89% de los datos.

45

Estadstica EEGGCC

Ejemplo 44
Dados los siguientes datos, compruebe que se cumple la desigualdad de Chebyshev para k = 2,5.

12

18

12

Ejemplo 45
Si el ingreso de 120 obreros tiene una media de 300 dlares y una desviacin estndar de 30 dlares.
a. Cuntos obreros, por lo menos, tienen sueldos comprendidos en el intervalo de 240 a 360 dlares?

b. Si el mnimo sueldo es 210 dlares, en qu porcentaje se puede afirmar que los ingresos son
superiores a 390 dlares?

Coeficiente de variacin
El coeficiente de variacin (CV) de un conjunto de datos no negativos es una medida de dispersin
relativa e indica qu proporcin de la media es la desviacin estndar.
El coeficiente de variacin se determina calculando el cociente de la desviacin estndar de los
datos entre la media de los datos

Coeficiente de variacin = CV =

desviacin stndar sx
=
media
x

Es til al comparar la variabilidad de dos o ms series de datos medidas en distintas unidades o


en iguales unidades pero que difieren a tal punto que una comparacin directa de las respectivas
desviaciones estndar no es muy til, por ejemplo, cuando las medias estn muy distantes.
Un valor mayor del coeficiente de variacin indica mayor dispersin del conjunto de datos.

Notas

46

Estadstica EEGGCC

Ejemplo 46
En una tienda de ropa, el precio medio y la desviacin estndar del precio de los pantalones tipo jean
son 74 y 15,4 nuevos soles, respectivamente. Si se rebaja 10 nuevos soles a todos los precios, calcule
la desviacin estndar y el coeficiente de variacin de los precios luego de la rebaja. Comente.

Ejemplo 47
El coeficiente de variacin de los salarios un grupo de trabajadores es 0,12. Si se aprueba un aumento del 20% ms una bonificacin especial fija de S/.115 para cada trabajador, el nuevo coeficiente de
variacin ser igual a 0,06. Si el objetivo del aumento aprobado era lograr homogenizar los salarios,
se ha logrado este objetivo?

Ejemplo 48
El siguiente cuadro muestra la distribucin los empleados de las empresas A y B de acuerdo a sus
sueldos mensuales en el mes de julio del 2014.
Empresas A y B. Sueldos mensuales en julio del 2014 (en nuevos soles)
Sueldos

Marca de clase

Empleados de la empresa A

[2 500 3 500]

14

]3 500 4 500]

25

25

]4 500 5 500]

35

83

]5 500 6 500]

15

Fuente: Gerencias de Recursos Humanos Empresas A y B.

Cul de los grupos presenta mayor variabilidad de sueldos?

Notas

Empleados de la empresa B

47

Estadstica EEGGCC

Puntuacin estandarizada Z
Dado un conjunto de datos: x1 x2, . , xn, con media x y desviacin estndar sx, entonces cada uno de
estos datos puede transformarse en puntaje estandarizado o puntaje Z mediante:

zi =

xi x
sx

i = 1, 2,, n

Se cumple que el conjunto de datos o puntajes estandarizados (z1, z2, , zn) tiene media cero y
varianza uno, es decir: z = 0 y sz 2 = 1
El valor zi mide a cuntas desviaciones estndar, por arriba o por debajo de la media de los datos
se encuentra el dato xi. Por ejemplo, si x1 representa la nota final de un alumno en un curso y
luego de estandarizar su nota se obtiene un puntaje z1=1,2, esto significa que la nota final de este
alumno es 1,2 desviaciones estndar mayor que la media de las notas finales de todos los alumnos del curso.
Es comn utilizar el puntaje z para evaluar si un dato es inusualmente grande o pequeo respecto a los dems. Por ejemplo, un dato cuyo puntaje estandarizado es menor que -3 o mayor que 3
se considera un dato extremo o atpico.

Ejemplo 49
Segn los resultados de un estudio realizado por encargo de una aerolnea comercial, el peso medio
y la desviacin estndar de los equipajes de mano de los pasajeros de los vuelos Lima - Miami son 6,5
kg y 2kg respectivamente. Este estudio tambin reporta que en los vuelos de regreso de Miami a
Lima, la media y la desviacin estndar de los pesos de los equipajes de mano son 8,6 kg y 4,1 kg
respectivamente.
Julio estuvo en Miami el mes pasado y su equipaje de mano pes 7,2 kg en el vuelo de ida y 9,4 kg en
el vuelo de regreso, en cul de los dos vuelos su equipaje tuvo un mayor peso relativo?

Si se ha establecido que en los vuelos Miami - Lima cualquier pasajero que porte un equipaje de
mano con peso estandarizado mayor que 0,35 deber pagar por el exceso, hasta cunto puede pesar el equipaje de mano de un pasajero de esta ruta para que no le cobren por el exceso de peso?

Notas

48

Estadstica EEGGCC

1.7. Indicadores de asimetra


Son medidas resumen que proporcionan informacin acerca de la forma como se distribuyen los
datos alrededor de una medida de tendencia central.

Distribucin de frecuencias simtrica


Una distribucin de frecuencias de k clases o intervalos es simtrica, si se cumple que f1 = f k ,
f2 = fk 1 , f3 = fk 2 , ...
La simetra o asimetra de la distribucin de un conjunto de datos se puede observar en diversos
grficos: histograma, polgono de frecuencias, diagramas de cajas.

Coeficiente de asimetra de Pearson


El coeficiente de asimetra de Pearson se calcula con la siguiente frmula:

x Q2

As = 3
sx

Usualmente, en distribuciones unimodales, se observa que si el coeficiente de asimetra de Pearson


(As) es:
igual a cero, la distribucin es simtrica alrededor de la media.
positivo, indica sesgo a la derecha (cola derecha).
negativo, indica sesgo a la izquierda (cola izquierda).

Notas

49

Estadstica EEGGCC

Ejemplo 50
El siguiente cuadro muestra la distribucin del sueldo mensual de los empleados de dos empresas A y
B en julio del 2013.
Empresas A y B: Sueldos mensuales en julio del 2011
Empresa A

Empresa B

Nmero de trabajadores

Nmero de trabajadores

[1 500 2 500]

]2 500 3 500]

40

]3 500 4 500]

12

25

]4 500 5 500]

]5 500 6 500]

Sueldos (en nuevos soles)

Marca de
clase

Fuente: Gerencias de Recursos Humanos Empresas A y B.

a) En un solo grfico muestre los dos polgonos de frecuencias para los sueldos de los trabajadores
de las empresas A y B..
b) Compare la simetra de las distribuciones de los sueldos en las empresa A y B grficamente (use el
grfico de la parte a) y usando el coeficiente de asimetra de Pearson. Comente.

Notas

Estadstica EEGGCC

50

Diagrama de cajas
Es una grfica que describe la distribucin de un conjunto de datos tomando como referencia los
valores de los cuartiles como medidas de posicin, la mediana como medida de tendencia central y el
valor del rango intercuartil (RIC) como medida de dispersin. Adems, permite apreciar la forma de
la distribucin de los datos (simtrica o asimtrica).

Dato atpico
Es un dato inusualmente grande o pequeo con respecto a los otros datos. Se considera atpico a
cualquier dato que cumpla una de las dos siguientes condiciones:
El dato es ms de 1,5*(RIC) unidades menor que el primer cuartil
El dato es ms de 1,5*(RIC) unidades mayor que el tercer cuartil

Pasos para trazar un diagrama de cajas


Determinar los cuartiles Q1, Q2, y Q3
Calcular el rango intercuartil RI = Q3 - Q1
Calcular los lmites mximo y mnimo para las longitudes de los bigotes:

Lmite inferior = Linf = Q1 1,5*RI

Lmite inferior = Lsup = Q3 + 1,5*RI

Detectar los datos atpicos que son aquellos que no pertenecen al intervalo [Linf ; Lsup]. A los datos
que s pertenecen al intervalo anterior se les llama datos tpicos.
Sobre un eje horizontal, se traza un rectngulo con los extremos en el primer cuartil (Q1) y tercer
cuartil (Q3).
En la caja rectangular se traza un segmento vertical en el lugar de la mediana.
Se traza el bigote izquierdo desde el primer cuartil hasta el mnimo de los datos tpicos y el bigote
derecho desde el tercer cuartil hasta el mximo de los datos tpicos.
Se marcan con un asterisco (*) las localizaciones de los datos atpicos.
La siguiente figura presenta un diagrama de cajas con datos hipotticos.

Notas

Estadstica EEGGCC

51

Diagramas de caja comparativos


Una ventaja de los diagramas de cajas es que
se pueden presentar varios juntos, ello permite una fcil comparacin visual de las caractersticas de varios conjuntos de datos.
Los diagramas de caja permiten comparar las
distribuciones de los valores de una variable
cuantitativa en los diferentes niveles de otra
variable cualitativa. Por ejemplo, en el siguiente grfico se muestra la distribucin de
los alumnos de cuatro horarios diferentes de
un curso de Estadstica de acuerdo a su promedio estandarizado de notas (CraEst).

Ejemplo 51
Se seleccion una muestra de 45 viviendas y se registr el monto (en nuevos soles), cobrado por la
empresa proveedora, por consumo de luz en el ltimo mes. Elabore un diagrama de caja. A partir de
lo observado en el grfico escriba una descripcin de la distribucin de los datos.
10,7 45,0 59,8 65,7 87,4 97,1 98,1 98,8 99,2 99,5 99,6 99,7 102,4 106,3 107,3
108,2 108,7 109,2 109,3 109,9 111,4 112,1 112,6 112,9 115,0 115,4 116,4 116,5 119,1 119,2
119,6 120,4 120,6 121,5 122,1 122,7 124,0 124,5 124,9 125,1 125,2 127,1 128,1 129,0 200,8

Notas

52

Estadstica EEGGCC

Ejemplo 52
Se desea comparar los resultados de un examen sobre el Reglamento Nacional de Trnsito, aplicado
a los choferes de tres empresas de taxi. Las notas obtenidas por los choferes evaluados se muestran
a continuacin:
Empresa A

11 11 12 12 12 12 12 12 12 13 13 13 14 14 15 15 15 15 15 15 20 20

Empresa B 11 12 12 12 13 13 14 14 14 14 14 14 15 15 16 16 16 16 16 17 17 18 18 18 18
Empresa C

10 10 11 11 12 12 13 13 13 14 15 15 16 16 16 17 17 17

Construya un diagrama de cajas que permita comparar las distribuciones de notas obtenidas por los
choferes de las tres empresas.

Ttulo: ...

Notas

Estadstica EEGGCC

53

a. A partir del grfico complete las oraciones siguientes:

i. La mayor mediana de notas la obtuvieron los choferes de la empresa ..


ii. El mayor rango intercuartil corresponde a las notas de los choferes de la empresa ..
iii. La distribucin de notas de los choferes de la empresa A tiene asimetra
iv. Se observaron . notas atpicas en la distribucin correspondiente a la empresa ..

b. Escriba una descripcin comparativa de las distribuciones de notas obtenidas por los choferes
de las tres empresas.

Notas

54

Estadstica EEGGCC

1.8. Estadstica bivariada para datos categricos


Tablas de contingencia
Tambin llamadas tablas cruzadas o tablas de doble entrada.
Se usan para resumir de manera simultnea los datos correspondientes a dos variables.

Ejemplo 53
Como parte del estudio que se est realizando a fin de resolver un antiguo problema limtrofe entre dos
distritos vecinos A y B, se ha seleccionado una muestra aleatoria de 120 edificios del distrito A y 180 del
distrito B. En la siguiente tabla se muestra la distribucin de la muestra edificios de acuerdo al distrito en
que estn ubicados y al nmero de pisos.
Tabla 1. Distribucin de edificios por distrito de ubicacin y nmero de pisos
De 3 a 5 pisos

De 6 a 10 pisos

Ms de 10 pisos

Total

Distrito A

50

40

30

120

Distrito B

70

20

90

180

120

60

120

300

Total

Tabla 2. Distribucin porcentual de edificios por distrito de ubicacin y nmero de pisos


De 3 a 5 pisos

De 6 a 10 pisos

Ms de 10 pisos

Total

Distrito A
Distrito B
Total

100%

Evale la verdad o falsedad de las siguientes afirmaciones respecto a los edificios de la muestra:
i. El 50% de los edificios ubicados en el distrito B tienen ms de 10 pisos ( )

ii. La proporcin de edificios que tienen menos de cinco pisos es 0,4 ( )

iii. El 33,3% de los edificios estn ubicados en el distrito A y tienen entre 6 y 10 pisos ( )

iv. En la muestra hay 230 edificios que estn en el distrito B o tienen menos de 6 pisos ( )

v. El 25% de los edificios de ms de 10 pisos estn en distrito A (

Notas

55

Estadstica EEGGCC

Considerando la situacin planteada en el ejemplo anterior, podra interesar presentar comparativamente las distribuciones de los edificios segn el nmero de pisos en los dos distritos, A y B. Para
ello se construye una tabla que muestre la distribucin porcentual de los edificios segn el nmero
de pisos, para cada distrito.
Tabla3. Distribucin porcentual de edificios por distrito segn nmero de pisos por distrito de ubicacin
De 3 a 5 pisos

De 6 a 10 pisos

Ms de 10 pisos

Total

Distrito A

100%

Distrito B

100%

Notemos que la informacin presentada en la tabla 3 nos permite observar claramente que en la
muestra seleccionada, la distribucin de los edificios segn el nmero de pisos es muy diferente en el
distrito A que en el distrito B. es importante sealar que esta comparacin es posible porque se han
presentado frecuencias porcentuales y no frecuencias absolutas. La comparacin directa de frecuencias absolutas no es adecuada porque el nmero total de edificios del distrito A es diferente al total
de edificios del distrito B.

Grfico de barras agrupadas


Un grfico de barras agrupadas muestra la distribucin de frecuencias para dos variables cualitativas
que han sido observadas en el mismo conjunto de unidades estadsticas. En este tipo de grfico, las
barras que representan las frecuencias observadas en las categoras de una variable se presentan
agrupadas una junto a la otra y en grupos separados para cada categora de la otra variable.
La informacin presentada en la Tabla 3 se muestra en el siguiente grfico de barras agrupadas. En
este grfico se observa claramente que, para la muestra observada, la distribucin de los edificios
segn el nmero de pisos en el distrito A es muy diferente a la del distrito B. Por ejemplo, slo el 25%
de los edificios del distrito A tiene ms de 10 pisos en cambio en el distrito B un 50% de los edificios
tienen ms de 10 pisos. En este caso y para esta muestra, los datos indican que la forma como se
distribuyen los edificios de acuerdo a su nmero de pisos depende del distrito de ubicacin.

Notas

Estadstica EEGGCC

56

Grfico de barras apiladas


Un grfico de barras apiladas muestra todas las series apiladas en una sola barra para cada categora.
El alto de cada barra es proporcional a la frecuencia de cada categora.

Grfico de barras apiladas al 100%


Un grfico de barras apiladas al 100% muestra todas las series apiladas en una sola barra para cada
categora. El alto de las barras es el mismo para todas las categoras ya que cada barra representa al
100% de los datos de una categora.

Notas

57

Estadstica EEGGCC

Ejemplo 54
En el II Censo Nacional Universitario del ao 2010 realizado por el INEI se pregunt a los alumnos de
pregrado de todo el Per por su tipo de universidad y su gnero. Los datos se muestran en los siguientes cuadros.

Per. Alumnos censados en pregrado por gnero y tipo de universidad. 2010


Gnero

Pblica

Privada

Total

Femenino

135 082

247 743

382 825

Masculino

174 093

226 052

400 145

Total

309 175

473 795

782 970

Fuente: INEI. Censo Universitario. 2010

a) Elabore un grfico de barras apiladas que permita ver la composicin porcentual por gnero y
tipo de universidad.
Ttulo ....

Gnero

Pblica

Privada

Total

Femenino
Masculino
Total

100%

Fuente:
Ttulo ....

Notas

58

Estadstica EEGGCC

b) Elabore un grfico de barras agrupadas o apiladas al 100% que permita ver la composicin porcentual segn gnero por tipo de universidad.
Gnero

Pblica

Privada

100%

100%

Femenino
Masculino
Total

Fuente: INEI. Censo Universitario. 2010

Ttulo ....

Parece haber relacin entre el gnero del estudiante y el tipo de universidad en que estudia?

Ejemplo 55
Se seleccion una muestra de 3300 clientes de un banco que tienen prstamos con el banco hace al
menos dos aos. En esta muestra se encontr que:
- 600 de los clientes tienen sueldos de S/.3000 o menos y de ellos 400 son buenos pagadores.
- 2700 de los clientes tienen sueldos mayores a S/.3000
- 1100 clientes son malos pagadores.
Use la informacin anterior para completar la tabla siguiente:

Sueldo de S/.3000 o
menos
Buen pagador
Mal pagador
Total

Notas

Sueldo mayor a
S/.3000

Total

Estadstica EEGGCC

59

Tomando como referencia la informacin de la tabla, un ejecutivo del banco afirma que los que
ganan ms son mejores pagadores, est usted de acuerdo con esta afirmacin?

Ejemplo 56
Interprete el siguiente grfico de barras agrupadas extrado del documento Per: Perfil del productor
agropecuario, 2008, publicado por el INEI y disponible en:
http://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib0851/Libro.pdf

Notas

Estadstica EEGGCC

60

Ejercicios
1.

Un auditor, luego de revisar las declaraciones juradas de impuesto a la renta de 50 personas


naturales, hace un informe de los montos omitidos. El informe lo presenta con una distribucin
de frecuencias de 6 intervalos de la misma longitud. Los montos omitidos varan de 0 soles a
3000 soles, y las frecuencias acumuladas del primero al sexto intervalo son respectivamente: 5,
15, 35, 43, 48, 50.
a) Encuentre e interprete la mediana y el coeficiente de variacin.
b) Halle el porcentaje de declaraciones en las que el monto omitido supera la media.

2.

Hay 10 personas en un ascensor, 4 mujeres y 6 hombres. El peso medio de las mujeres es de 60


kilos con una desviacin estndar de 8 kilos y el peso medio de los hombres es de 80 kilos con
una varianza de 25 kilos2.
a) Cul es el peso medio de las 10 personas en el ascensor?
b) Si el peso de cada una de las mujeres aumentara al doble cules seran el nuevo peso medio y la nueva varianza de los pesos de las mujeres?
c) Suponga que cada uno de los hombres se pesa en una balanza que no est bien calibrada y
que aumenta 2,5 kilos en cada medicin. Cul sera el coeficiente de variacin que se obtendra con esas mediciones de los pesos de los hombres?

3.

A continuacin, se presenta la distribucin de los tiempos totales, en minutos, que diferentes


estaciones de radio dedicaron a los avisos comerciales entre las 8:00 a. m. y las 12:00 m. de un
da de la semana pasada.

Tiempo (minutos) [0 - 6] ]6 - 12] ]12 - 18] ]18 - 24] ]24 - 30] ]30 - 36] ]36 - 42] ]42 - 48] ]48 - 54] ]54 - 60]
Nmero de radios
1
3
17
2
1
10
0
0
2
14

a) Calcule e interprete el coeficiente de variacin del tiempo dedicado a los avisos comerciales.
b) Halle e interprete los cuartiles de la distribucin.
c) Grafique el histograma, el polgono de frecuencias y la ojiva de la distribucin. Comente la
simetra de la distribucin de tiempos.
4.

Los salarios que ofrece una empresa a los practicantes varan entre $180 y $300. Si los salarios
se agrupan en cuatro intervalos de clase de longitudes iguales de manera que el 40% de los
practicantes tienen salarios menores o iguales que $225, el 80% tienen salarios menores o iguales que $255 y el 15% tiene salarios mayores que $262,50.
a) Hallar el porcentaje de practicantes en cada intervalo.
b) Si el ingreso mnimo se fija en $265 y la empresa aumenta una misma cantidad a todos los
practicantes de modo que el 25% supere el ingreso mnimo, cunto sera el aumento?

5.

El porcentaje de grasa corporal es el mtodo ms fiable para establecer el peso ideal de una
persona pero es el ms difcil y complicado de medir. En un grupo de hombres adultos se midi
el porcentaje de grasa corporal obteniendo la tabla siguiente.
Porcentaje de grasa [ 3 , 7 ] ]7 , 11] ]11,15] ]15,19] ]19,23] ]23,27]
Frecuencia absoluta
16
66
44
60
10
4

a) Grafique el polgono de frecuencias y la ojiva de la distribucin.


b) Calcule e interprete el coeficiente de variacin y los cuartiles.
c) Se considera que un hombre tiene sobrepeso si tiene un porcentaje de grasa corporal mayor a 18%. Qu porcentaje de entrevistados tuvo sobrepeso?
Notas

61

Estadstica EEGGCC

6.

La anchoveta es el pez ms importante del ecosistema de la Corriente de Humboldt. Su abundancia ha permitido el desarrollo y sustento de muchas otras especies de peces, aves, mamferos e invertebrados que hoy en da habitan en nuestro mar. Una muestra de 250 anchovetas de
un ao de edad ha dado una longitud media de 11,24 cm. Los datos se muestran en la tabla.

Tamao (centmetros)

Marca de
clase

Frecuencia
absoluta

Frecuencia
relativa
0,10

Frecuencia absoluta
acumulada

Frecuencia relativa
acumulada

65
180
30
0,96
17

0,04

a) Determine de manera aproximada el porcentaje de anchovetas que miden entre 11 y 13


centmetros.
b) Calcule e interprete la mediana y el rango intercuartil de los tamaos de las anchovetas.
c) Realice el diagrama de cajas del tamao de las anchovetas.
7.

El porcentaje de germinacin es uno de los principales factores para decidir la calidad de las
semillas. Un fabricante afirma que el porcentaje de germinacin de sus semillas de maz es del
85%. Para verificar tal afirmacin, una cooperativa de agricultores seleccion 120 muestras de
100 semillas cada una y anot el porcentaje de germinacin en cada muestra. Los valores observados se organizaron en la siguiente tabla.

Germinacin
(%)
[ 70 ; ]

Frecuencia absoluta

Frecuencia relativa

Frecuencia absoluta
acumulada
10

Frecuencia relativa
acumulada

0,20
0,70
22
] ; 95 ]
2

a) Complete la tabla y construya el histograma, el polgono y la ojiva correspondiente.


b) Calcule la media, la mediana, y el coeficiente de variacin de los porcentajes observados.
c) Comente la afirmacin del fabricante.
8.

En dos ros de determinada regin se han soltado cras de truchas marcadas y se han recogido
muestras de las mismas despus de cierto periodo de tiempo. Se ha medido el peso (en gramos)
de esos ejemplares resultando la tabla siguiente:
Peso (en gramos)
[0 , 50]
]50 , 100]
]100, 150]
]150, 200]
]200, 250]

Nmero de peces del ro 1


14
31
25
18
12

Nmero de peces del ro 2


11
23
29
22
15

a) En qu ro la distribucin del peso resulta ms homognea?


b) Calcule la mediana de los pesos de las truchas del ro 1. Interprete el resultado.
Notas

62

Estadstica EEGGCC

9.

En los reportes estadsticos de una empresa, correspondientes al perodo de los ltimos 100
das, se lee la siguiente informacin sobre el nmero de facturas diarias emitidas por la empresa
en dicho perodo.
Nmero de facturas
[30 ; 60]
]60 ; 90]
]90 ; 120]
]120 ; 150]
]150 ; 180]

Frecuencia relativa
0,25
0,40
0,20
0,10
0,05

a) Graficar el polgono y la ojiva de la distribucin. Adems, calcule la media y la desviacin


estndar del nmero de facturas diarias emitidas por la empresa en dicho perodo.
b) Calcule aproximadamente el porcentaje de das en los que fueron emitidas ms facturas
que la media.
10. En agosto del 2005, la empresa LibroOnLine dict un curso sobre redes en computadoras mediante dos sistemas: presencial y a distancia. Con el objetivo de comparar las notas promedio, la
variabilidad de los datos y la forma de la distribucin de las notas, se tom un examen final y se
registr los resultados en la siguiente distribucin de frecuencias.
Notas del examen final
[ ; 3,5] ] ; ]
Frecuencia relativa (Sistema presencial)
0,14
0,10
Frecuencia relativa (Sistema a distancia)
0,19
0,26

] ; ]
0,12
0,24

];]
0,23
0,15

]9,5; ]
0,27
0,13

] ; ]
a
b

a) Realizar un grfico que permita llegar al objetivo deseado y escribir dos conclusiones a partir del grfico.
b) Encontrar, en cada uno de los dos sistemas, el porcentaje de notas que son mayores que su
respectiva media.
11. Los pesos (en kilogramos) de una muestra de estudiantes se organizan en una distribucin de
frecuencias simtrica:
Pesos (kg.)

ni: Nmero de estudiantes Fi: Prop. Acum. de estudiantes

0,96

]60 ; 70]
n = 50

a)
b)
c)
d)

Graficar el histograma y el polgono de frecuencias. Comente.


Calcular e interpretar la media, la mediana, la moda y la desviacin estndar.
Calcule e interprete el percentil 90 de los datos.
Determine aproximadamente el porcentaje de estudiantes con pesos superiores a 52 kilogramos.
e) Si se detecta que la balanza usada para pesar a los estudiantes estaba mal calibrada y que
los pesos realmente son 250 gramos menores que los registrados, cambiara el valor del
peso medio y de la desviacin estndar de los pesos?, en caso afirmativo, indique los valores corregidos. Justifique su respuesta.

Notas

63

Estadstica EEGGCC

12. Se ha encuestado a un grupo de alumnos de una facultad de ingeniera sobre el tiempo, en minutos, que usan al da la Internet obtenindose los siguientes resultados.
Tiempo
(min)

fi :

[0 ; 45]

0,0548
0,1905
0,2500
0,2857
0,1071
0,0762
0,0357

a) Calcule el tiempo mnimo para estar en el quinto superior de los que usan la Internet.
b) Calcule el porcentaje de alumnos que usan una hora o menos la Internet.
c) Encuentre la media y la varianza del nmero de minutos diarios que usan la Internet.
13. Se aplic un cuestionario a 16 trabajadores de una gran empresa y se obtuvieron los datos presentados en la siguiente tabla:
Cdigo del
Ao de naciGnero
trabajador
miento
9534
F
1966
2041
F
1960
1187
F
1952
1842
F
1980
1813
F
1960
2519
F
1979
3338
F
1985
3012
F
1973
1056
M
1980
2087
M
1960
1004
M
1967
6589
M
1975
1723
M
1962
2013
M
1968
1096
M
1981
2873
M
1979
(Gnero: F = Femenino, M = Masculino)

Nivel educativo
(aos)
10
12
16
12
12
12
16
12
8
19
12
12
20
16
12
16

Categora
laboral
Empleado
Empleado
Ejecutivo
Empleado
Empleado
Empleado
Ejecutivo
Empleado
Empleado
Directivo
Empleado
Empleado
Directivo
Directivo
Empleado
Ejecutivo

Salario anual
actual en S/.
27,900
26,250
41,500
24,000
27,450
23,100
37,050
24,450
28,350
95,000
30,900
26,700
69,250
48,200
27,900
40,350

Salario anual
inicial en S/.
12,750
11,550
18,750
12,750
10,200
11,250
18,000
12,450
12,000
56,980
15,000
14,500
42,800
21,000
16,500
19,500

a) Clasifique cada una de las variables e indique la escala de medicin adecuada para cada caso.
b) Presente grficamente los datos correspondientes a las variables gnero y categora laboral.
c) Calcule la moda, la media y la mediana de la variable nivel educativo y comente su simetra.
d) Organice los datos correspondientes a los salarios anuales actuales en una distribucin de
frecuencias de cinco intervalos y grafique el histograma de frecuencias porcentuales. Comente.
e) Haga un grfico que permita comparar el rango y los cuartiles de los salarios iniciales de los
hombres y mujeres. Comente el grfico.
Notas

64

Estadstica EEGGCC

14. En la siguiente tabla se muestra la distribucin de frecuencias del nmero de hojas impresas por
un grupo de impresoras durante un da:
Nmero de
hojas
[20 ; ]

Marca de clase

Frecuencia relativa

Frecuencia relativa acumulada

0,20
0,45
0,60
125
0,10

a) Complete la tabla de distribucin de frecuencias y presente grficamente la distribucin de


frecuencia relativa y de frecuencia relativa acumulada.
b) Encontrar la media, mediana, la moda y la desviacin estndar de la distribucin.
c) Hallar el porcentaje de impresoras que imprimen entre 70 y 115 hojas.
15. Los siguientes datos representan la cantidad de bebida gaseosa en una muestra de 25 botellas
de dos litros.
1,928
1,928
1,938
1,941
1,941

1,946
1,957
1,969
1,971
1,973

1,984
1,996
1,997
1,999
2,003

2,013
2,014
2,014
2,015
2,034

2,045
2,066
2,075
2,086
2,088

a) Las especificaciones del proceso de llenado de las botellas establecen que el contenido
medio debe estar entre 1,950 y 2,050 litros y que la desviacin estndar del contenido debe ser menor a 0,050 litros. A partir de los datos de la muestra, dira usted que el proceso
cumple las especificaciones?
b) Determine e interprete el rango y los cuartiles para la muestra de contenidos de gaseosa.
c) Construya un diagrama de cajas y comente la simetra de la distribucin de los contenidos
de gaseosa observados.
16. En un estudio sobre consumo de petrleo en una gran ciudad se eligi dos grifos y se tom una
muestra de 100 camiones en cada uno de ellos y se observ el nmero de galones que consuman en un da, obtenindose la siguiente distribucin de frecuencias.
Grifo A
Nmero de galones Nmero de camiones
4
[1 ; 5]
8
]5 ; 9]
35
]9 ; 13]
30
]13 ; 17]
20
]17 ; 21]
3
]21 ; 25]

Grifo B
Nmero de galones Nmero de camiones
10
20
15
37
20
25
25
10
30
8

a) En cul de los dos grifos el consumo de petrleo presenta mayor variabilidad?


b) Realice un diagrama de cajas que permita comparar el consumo de petrleo de los dos grifos.

Notas

65

Estadstica EEGGCC

17. Se tom una muestra aleatoria de 80 viajes de la empresa de transporte interprovincial A y una
muestra aleatoria de 20 viajes de la empresa B. Las tablas siguientes muestran los datos del
nmero de pasajeros por viaje de esas muestras.
Nmero de pasajeros por viaje
[10 ; 14]
]14 ; 18]
]18 ; 22]
]22 ; 26]
]26 ; 30]

Empresa A
20
30
15
10
5

Nmero de pasajeros por viaje en la empresa B


12 13 14 17 17 18 19 23 23 25
26 26 27 27 30 31 32 32 34 34

a) Grafique el polgono y la ojiva de las frecuencias relativas de la distribucin del nmero de


pasajeros por viaje de la empresa A.
b) Cul empresa presenta mayor variabilidad en el nmero de pasajeros por viaje?
18. La ojiva de los ingresos mensuales, en miles de nuevos soles, de una empresa se muestran en el
siguiente grfico.
Ojiva de ingresos mensuales
1
0.9
0.8
0.7

Fi

0.6
0.5
0.4
0.3
0.2
0.1
0
0

1000

2000

3000

4000

5000

6000

7000

8000

Ingresos

a) Grafique el polgono de frecuencias relativas de los ingresos mensuales.


b) Hallar la mediana y coeficiente de variacin de los ingresos mensuales.
c) Calcule e interprete el tercer cuartil de los ingresos mensuales.
19. En la siguiente tabla se muestra la distribucin de los asistentes a una charla informativa sobre
un nuevo programa de especializacin ofrecido por cierta escuela de posgrado, segn su profesin.
Profesin

Notas

Nmero de asistentes

Ingeniera

24

Administracin

Contabilidad

10

Economa

15

Derecho

66

Estadstica EEGGCC

a) Construya un grfico que permita observar la composicin porcentual de los asistentes, segn sus profesiones, a la charla informativa. El grfico debe tener un ttulo adecuado.
b) Calcule una medida de tendencia central para la variable cualitativa.
20. Una urbanizadora ha comprado una serie de terrenos a un precio medio de 750 dlares por
metro cuadrado.
a) Si los vende con una ganancia del 25%, calcule el precio de venta medio por metro cuadrado.
b) Si fija el precio de venta por metro cuadrado estableciendo un incremento fijo de 60 dlares y un incremento variable de 10% sobre el precio de compra, calcule el precio medio de
venta por metro cuadrado de terreno.
21. Una compaa requiere los servicios de un tcnico especializado. De los expedientes presentados, se han seleccionado 2 candidatos: A y B, los cuales renen los requisitos mnimos requeridos. Para decidir cul de los 2 se va a contratar, los miembros del jurado deciden tomarles 7
pruebas. Todas las pruebas se calificaron utilizando una escala de 0 a 80, donde 80 es el mximo
puntaje posible. Los resultados se dan a continuacin:

Puntaje obtenido por A


Puntaje obtenido por B

1
57
80

2
55
40

3
54
62

Prueba
4
52
72

5
62
46

6
55
80

7
59
40

a) Calcule e interprete la media y mediana de los puntajes de los dos candidatos.


b) Calcule e interprete las desviaciones estndar y los coeficientes de variacin.
c) Si usted fuese el gerente de Recursos Humanos, a cul de los candidatos contratara?
Fundamente su respuesta.
22. El gerente de una agencia bancaria recibe la siguiente informacin respecto a las 500 nuevas
cuentas de ahorros abiertas en la agencia en el ltimo trimestre.
- Solamente se abrieron cuentas de ahorros de dos tipos: Costo cero y Clsica.
- El 60% de los titulares de las nuevas cuentas de ahorros son hombres.
- 120 mujeres son titulares de cuentas del tipo Costo cero.
- 180 de las nuevas cuentas de ahorro son del tipo Clsica.
a) Presente grficamente la distribucin de las nuevas cuentas de ahorros segn su tipo.
b) Muestre en una tabla de contingencia la distribucin de las cuentas de ahorros abiertas en
la agencia en el ltimo trimestre, segn el sexo del titular y el tipo de cuenta de ahorro elegida.
c) El gerente de la agencia afirma que el tipo de cuenta de ahorro elegido no depende del sexo del titular de la cuenta. Evale si los datos del ltimo trimestre respaldan esta afirmacin. Justifique su respuesta.

Notas

67

Estadstica EEGGCC

1.9. Estadstica descriptiva bidimensional: Regresin lineal simple


Correlacin
La correlacin entre las variables X e Y mide el grado en el que estas dos variables tienden a variar de
manera conjunta, se usa para medir el grado de asociacin lineal entre las variables.

Regresin
La regresin encuentra una relacin funcional entre las variables cuantitativas X e Y.

Diagrama de dispersin
Dado un conjunto de n observaciones de las variables cuantitativas X e Y: (x1, y1), (x2, y2),, (xn, yn), el
primer paso para evaluar la posible asociacin entre estas variables es construir una grfica de los
datos en un plano bidimensional. Esta grfica se denomina diagrama de dispersin o scatter plot.

Fuente: Notas de clase de EST103 del profesor Arturo Caldern

Covarianza
Dada una muestra de n pares de observaciones de las variables cuantitativas X e Y, (x1 , y1), (x2 ,
y2),, (xn , yn), la covarianza muestral se define como:
n

(x
cov( X ,Y ) = s xy =

Notas

i =1

x )(y i y )

=
n 1

nx y

n 1

x y

i i

i =1

68

Estadstica EEGGCC

Coeficiente de correlacin lineal de Pearson


Dados n pares de datos (x1 , y1), (x2 , y2),, (xn , yn), el coeficiente de correlacin lineal de Pearson se
determina dividiendo la covarianza entre X e Y entre el producto de las desviaciones estndar de X e
Y.
Correlacin ( X ,Y ) = r =

sxy
sx sy

Este coeficiente de correlacin mide el grado de asociacin lineal que existe entre las variables X e Y.
El coeficiente de correlacin r es mayor o igual a -1 y menor o igual a 1.
Si r = 0 entonces indica que no existe una asociacin lineal entre las variables (pero puede existir
otro tipo de asociacin entre ellas).
Si r se acerca a 1 o a -1 indica que existe una asociacin lineal fuerte entre las variables, directa si
r = 1 e inversa si r = -1.
|r| = 1 solamente cuando todos los datos observados pertenecen a una recta, es decir, cuando la
asociacin lineal es perfecta.

Observaciones
Una correlacin alta no indica que una variable dependa de la otra o que sea causa de las variaciones en la otra. La asociacin entre ellas no necesariamente es causal.
Una correlacin alta indica que el modelo lineal podra ser adecuado para hacer predicciones en
el intervalo de variacin de los datos; fuera de l, el tipo de relacin entre las variables puede
cambiar o no existir.
Podemos obtener valores de correlacin muy altos si usamos una muestra de dos o tres pares de
datos pero en ese caso es claro que la conclusin acerca de la asociacin entre las variables puede no ser vlida.
Diversos grupos de datos pueden tener el mismo coeficiente de correlacin (como se observa en
el grfico siguiente); sin embargo, el tipo de relacin entre las variables es distinta, lo que muestra la importancia de realizar el diagrama de dispersin. El coeficiente de correlacin slo se debera calcular interpretar para nubes de puntos de tipo franja, ya sea creciente o decreciente.

Ejemplo 57
En la figura se muestran cuatro conjuntos de datos
bivariados, en todos los casos se cumple que:
Nmero de datos n = 11
Media de los xi = 9,0
Media de los yi =7,5
Corr(x, y) = rxy =0,82

Fuente: http://www.itl.nist.gov/div898/handbook/eda/section1/eda16.htm

Notas

69

Estadstica EEGGCC

Regresin lineal simple


El anlisis de regresin lineal simple estudia la relacin lineal entre dos variables numricas y da como resultado una ecuacin matemtica y = a + bx que describe dicha relacin.
La regresin lineal simple encuentra una recta L: y = a + bx que modela los datos y que permite estimar un valor de la variable Y dado un valor de la variable X.

Mtodo de mnimos cuadrados


Dados n datos (x1 , y1), (x2 , y2),, (xn , yn), donde: xi (i = 1, 2,, n) son los valores observados de la
variable independiente X e yi (i = 1, 2,, n) son los valores observados de la variable dependiente Y.
Si la recta L: y = a + bx es la recta de regresin, entonces, denotamos y i = a + bx i (i = 1, 2,, n) al
valor estimado de Y cuando X = xi.
En general, el valor observado yi es diferente al valor estimado con la recta de regresin, es decir, se
comete un error de estimacin. El i-simo error de estimacin es: ei = y i yi (i = 1, 2,, n).
La suma de los cuadrados de los errores (SCE) es:
SCE =

2
i

i =1

(y

yi ) =
2

i =1

(y

(a + bx i ))2

i =1

La recta de regresin de mnimos cuadrados de Y sobre X, es L: y = a + bx; sus coeficientes son los
valores a y b que minimizan la suma de los cuadrados de los errores.
Los valores de b y a que minimizan SCE son:

b=r

sy
sx

s xy
sx

a = y bx

Interpretacin de los coeficientes de regresin


a es igual al valor estimado de la variable dependiente Y cuando la variable independiente X es
igual a cero.
b es la variacin estimada del valor de la variable dependiente Y cuando la variable independiente X se incrementa en una unidad.

Propiedad de la recta de regresin


Si la recta L: y = a + bx es la recta de regresin de mnimos cuadrados de Y sobre X.
El punto ( x , y ) pertenece a la recta de regresin.
La media de los errores es igual a cero, es decir, e = 0

y = y , la media de los valores estimados con la recta es igual a la media de los valores observados.

Prediccin
Para predecir el valor de la variable dependiente para un valor dado de la variable independiente,
basta con reemplazar el valor dado en la frmula de la recta de mnimos cuadrados.
Notas

70

Estadstica EEGGCC

Coeficiente de determinacin
Se puede demostrar que:

Var(Y ) = Var(Y) + Var(e)


donde:
n

(y
Var(Y) es la varianza de los valores observados de la variable dependiente: sy 2 =

i =1

y )2

n 1

(y y )

Var( Y ) es la varianza de los valores estimados con la recta de regresin: sy 2 =


n

(e e ) (y
2

Var (e) es la varianza de los errores de estimacin: se =


2

i =1

n 1

i =1

i =1

n 1

yi )2

n 1

El coeficiente de determinacin es:


R=

Var (Y)
Var (Y )

R mide qu proporcin de la varianza de los valores observados de Y representa la varianza de los


valores estimados por la recta de regresin. Es decir, la proporcin de la varianza total, Var(Y),
que es explicada por la recta de regresin de mnimos cuadrados.
Se cumple que R = r 2 , es decir, el coeficiente de determinacin es el cuadrado del coeficiente de
correlacin lineal de Pearson.
Se cumple que 0 R 1 .
Mientras ms prximo a 1 sea el coeficiente de determinacin, mejor ser el ajuste de los datos
al modelo lineal.

Ejemplo 58
Durante ocho semanas se observ la relacin, entre el nmero de comerciales contratados y el valor
de las ventas, en miles de soles, de un artculo.
X: Comerciales

58

51

85

35

62

70

98

104

Y: Ventas

208

171

253

126

206

220

275

281

a. Grafique el diagrama de dispersin, evale si las variables en estudio parecen estar asociadas.
b. Calcule e interprete el coeficiente de correlacin lineal de Pearson.
c. Determine la ecuacin de la recta de regresin de las ventas sobre el nmero de comerciales.
d. Si en una semana se contratan 75 comerciales, estimar las ventas en esa semana.
e. Calcule e interprete el coeficiente de determinacin.

Notas

Estadstica EEGGCC

71

Solucin
a. El diagrama de dispersin muestra un comportamiento de franja creciente, esto nos sugiere asociacin lineal directa entre las variables.

b. El coeficiente de correlacin es r = 0 ,981 , este valor indica una asociacin lineal fuerte y directa
entre el nmero de comerciales contratados por semana y el valor de las ventas semanales.
c. Calculemos los coeficientes de la recta de regresin.
x = 70,375 y = 217,5 sx = 22,242 sy = 49,196 sxy = 1074,187

De donde b = 2,1712, a = 64 ,699


Por lo tanto, la recta de regresin es L : y = 64 ,699 + 2 ,171 x

d. Si x es igual a 75, entonces, y = a + b (75) = 227,5 ; entonces, en una semana en que se contratan
75 comerciales se estima que el valor de las ventas sera 227 500 soles.
e. El coeficiente de determinacin es R = r 2 = 0 ,96 = 96 % . La varianza explicada por la recta de
regresin es el 96% de la varianza de la variable valor de las ventas semanales. El ajuste de los
datos al modelo lineal es muy bueno.
Notas

72

Estadstica EEGGCC

Ejemplo 59
Las notas siguientes corresponden a la primera prctica de un horario de un curso de Estadstica y la
cantidad de horas dedicadas a estudiar para dicha prctica.
Horas

5,0

6,0

12,0

10,0

8,0

8,5

4,5

5,0

2,0

2,5

4,0

5,0

6,0

3,0

4,0

6,0

12,5

Notas

15

12

17

14

15

15

13

13

10

10

10

14

12

12

13

11

17

a. Grafique el diagrama de dispersin y evale si parece existir relacin lineal entre el tiempo de
estudio y la nota obtenida en el examen de Estadstica.

b. Calcule e interprete el coeficiente de correlacin.

c. Determine la ecuacin de la recta de regresin de mnimos cuadrados e interprete sus coeficientes.

Notas

Estadstica EEGGCC

73

d. Estime la nota de un alumno que estudi nueve horas.

e. Calcule e interprete el coeficiente de determinacin.

Ejemplo 60
Se llev a cabo un estudio para investigar la relacin entre Y: el precio de reventa (en cientos de dlares) y X: la antigedad (en aos) de automviles compactos de lujo. Se determin que la ecuacin
de la recta de regresin de mnimos cuadrados fue y = 192,7 + bx. Tambin se determin que por
cada mes adicional de antigedad del automvil, la estimacin del precio de reventa baja en 153,50
dlares. Con esta informacin estime el precio de reventa de un automvil compacto de lujo con
cuatro aos de antigedad.

Notas

74

Estadstica EEGGCC

Ejercicios
23. A continuacin, se muestran los datos recogidos del valor en dlares de dos acciones, una de un
mercado externo cuya cotizacin termina a las 9 am. hora peruana, y otra de la Bolsa de Valores
de Lima cuya cotizacin concluye a las 3 pm.

Da

Accin del mercado externo

Accin de la BVL

2-Feb-2009

14,29

16,24

3-Feb-2009

14,32

16,28

4-Feb-2009

14,33

16,33

5-Feb-2009

14,28

16,32

6-Feb-2009

14,36

16,47

9-Feb-2009

14,43

16,52

10-Feb-2009

14,35

16,38

11-Feb-2009

14,41

16,45

12-Feb-2009

14,43

16,47

13-Feb-2009

14,36

16,33

a) Encuentre la recta de regresin que mejor se ajuste a los datos y que permita predecir el
precio de la accin que cotiza en la BVL cuando se conoce el precio de la accin del mercado externo.
b) Estime el precio de la accin que cotiza en la BVL cuando el precio de la accin del mercado
externo es de 14,25 soles.
c) Calcule el coeficiente de determinacin y comente sus resultados.
24. Los datos de la siguiente tabla muestran el rea construida (en metros cuadrados) y el precio de
venta (en miles de dlares) de 10 departamentos nuevos ubicados en el mismo distrito.

Notas

Departamento

rea (metros cuadrados)

Precio (miles de US$)

126

78,5

180

175,7

162

139,5

144

129,8

166

95,6

163

110,3

207

260,5

149

105,2

134

88,6

10

174

165,7

75

Estadstica EEGGCC

a) Calcule e interprete el coeficiente de correlacin entre el rea del departamento y el precio


de venta.
b) Determine la ecuacin de la recta de regresin de mnimos cuadrados e interpretar sus
coeficientes.
c) Use la recta de regresin hallada en (b) para estimar el precio de un departamento de 150
metros cuadrados.
d) Calcule e interprete el coeficiente de determinacin.

25. En un estudio para determinar la relacin entre la edad y la presin sangunea en mujeres se
tom una muestra aleatoria de 9 mujeres dando los siguientes resultados:

Edad (aos)
Presin sangunea
(mm Hg)

56

41

70

37

63

46

57

50

39

146

125

153

117

151

124

151

142

118

a) Grafique el diagrama de dispersin y evale la posible asociacin entre las variables edad y
presin sangunea.
b) Calcule e interprete el coeficiente de correlacin lineal.
c) Determine la ecuacin de la recta de regresin lineal y estime la presin sangunea de una
mujer de 65 aos.

26. Se lleva a cabo un estudio, por medio de detectores radioactivos, de la capacidad corporal para
absorber hierro y plomo. A cada participante del estudio se le da una dosis oral idntica de hierro y plomo. Despus de 12 das se mide la cantidad de cada componente retenida en el sistema
corporal y, a partir de sta, se determina el porcentaje absorbido por el cuerpo. Se obtienen los
siguientes resultados:

Notas

Sujeto

10

Porcentaje de hierro

17

22

35

43

80

85

91

92

96

99

Porcentaje de plomo

17

18

25

58

59

62

65

70

72

a)

Grafique el diagrama de dispersin. Parece haber asociacin entre las variables estudiadas?

b)

Prediga el porcentaje de hierro absorbido por un individuo cuyo sistema corporal absorbe
el 20% del plomo ingerido. Le parece adecuado un modelo de regresin lineal para hacer esta prediccin?

c)

Calcule e interprete el coeficiente de determinacin. Considerado el valor calculado, evale nuevamente su respuesta a la pregunta de la parte b.

Potrebbero piacerti anche