Sei sulla pagina 1di 107

1

REGRESIN Y MUESTREO

Prediccin de los tiempos de entrega


f(x) = 0.14x + 25.57
R = 1

ALONSO ARROYO

PROLOGO

En estas notas encontrara dos de los temas ms importantes de la Estadstica en general: los modelos de
regresin y el muestreo. Las razones de su importancia radican principalmente en la necesidad que tienen
todas las reas del conocimiento de generar modelos (matemticos, estadsticos, logsticos, econmicos,
etc.) para predecir comportamientos y/o resultados y, por otro lado, el muestreo suministra las
herramientas necesarias para que un estudio estadstico tenga la validez y confiabilidad requeridos.

El documento se ha dividido en captulos, el primero de ellos explica la metodologa a seguir por el lector
para lograr un ptimo aprendizaje de los temas tratados y es de obligatoriedad su lectura. Los captulos
iniciales tratan del tema de regresin lineal simple y mltiple. Muchos de los casos y ejercicios presentados
corresponden a proyectos de investigacin realizados por estudiantes en el curso de Regresin y muestreo
as como tambin a la consulta de bases de datos disponibles por El Dane y El Banco de la Republica. El
captulo 8 hace referencia a la teora del muestreo abordando temas como el error estadstico, los mtodos
de muestreo, el clculo del tamao de muestra y las tcnicas para tomar muestras aleatorias.

Los captulos 5 y 9 traen evaluaciones de los temas tratados con el propsito que el lector mida que tanto
ha cumplido con los objetivos de aprendizaje propuestos.

Se elabor un anexo con el tema del tamao de muestra en la regresin con el propsito que el lector lo
consulte sin necesidad de leer captulo de muestreo y lo puede aplicar ante una necesidad manifiesta.
Tambin se hizo un pequeo resumen de la Regresin Logstica ya que este tema puede necesitarse
cuando se tenga una variable dependiente dicotmica y no se pueda emplear la regresin lineal.

Finalmente el autor agradece a todos los estudiantes cuyas investigaciones de clase han servido para
elaborar ejemplos, casos y ejercicios incluidos en este documento.

TABLA DE CONTENIDO

CAPTULO 1. INTRODUCCIN.. 3
CAPTULO 2. REGRESIN LINEAL SIMPLE
2.1 Introduccin.
2.2 Condiciones para construir el modelo.
2.3 Estimacin del modelo..
2.4 Evaluacin del modelo (I): Anlisis de varianza (Anova)
2.5 Evaluacin del modelo (II): Prueba de linealidad.
2.6 Correlacin lineal
2.7 Supuestos en la regresin lineal simple
2.8 Prediccin
2.9 Intervalos de Confianza para

8
8
9
10
13
13
14
18

0 y 1 18

2.10
Programa SPSS..
2.11
.

Uso del
19
Taller
19

CAPTULO 3. TRANSFORMACIONES MATEMTICAS EN LA REGRESIN


3.1 Introduccin........... 26
3.2 Principales transformaciones... 26
3.3 Taller. 27
CAPTULO 4. MODELO POLINOMICOS
4.1 Introduccin. 30
4.2 El modelo cuadrtico.. 30
CAPTULO 5. EVALUCIN I 32
CAPTULO 6. REGRESIN LINEAL MLTIPLE
6.1 Introduccin
6.2 El modelo de Regresin Lineal Mltiple.
6.3 Evaluacin de la significancia del modelo.
6.4 Definiciones
6.5 Evaluacin de la significancia de cada variable en el modelo de regresin
6.6 Supuestos en la regresin lineal mltiple..
6.7 Validacin del supuesto de multicolinealidad (o colinealidad en SPSS).
6.8 Prediccin de nuevas observaciones............
6.9 Intervalos de Confianza para los Coeficiente de Regresin..............
6.10
de Hiptesis sobre los Coeficientes de Regresin

33
33
35
36
37
37
37
38
39
Pruebas
39

6.11
con variables Cualitativas (Variables Indicadoras)
6.12
..

Modelos
40
Taller
41

CAPTULO 7. CONSTRUCCIN DE MODELOS DE REGRESIN


7.1 Introduccin..
7.2 Introduccin de todas las variables (Mtodo: Introducir)
7.3 Mtodo de Introduccin Progresiva (Mtodo: Pasos Sucesivos).
7.4 Mtodos de atrs y adelante
7.5 Criterios de eleccin de Variables
7.6 Validacin Externa del Modelo.

49
49
49
51
51
51

CAPTULO 8. MUESTREO
8.1 Introduccin..
8.2 Razones para hacer Muestreo..
8.3 Definiciones .....
8.4 Mtodos para la toma de Informacin.
8.5 Los mtodos de muestreo..
8.6 Muestreo no Probabilstico........
8.7 Representatividad de la Muestra
8.8 Tipos de Errores
8.9 Error de Muestreo..
8.10
de Muestreo Probabilsticos.

52
52
52
54
54
54
55
55
56
Mtodos
56

8.11
o Aleatorio simple (MAS)

Muestre

8.11.1 Caractersticas del MAS. 57


8.11.2 Cmo generar una muestra aleatoria simple.. 57
8.11.3 Tamao de muestra segn la Estimacin de la Media y Totales 58
8.12 Determinacin del tamao de muestra para la estimacin de un intervalo de
confianza de la proporcin . 60
8.13
Muestre
o Aleatorio Sistemtico..
61
8.14
o Aleatorio Estratificado.
8.14.1 Caracterstica del Muestreo Aleatorio estratificado
8.14.2 Tamao de muestra segn la Estimacin de la Media y Totales..

Muestre
62
62
64

8.15 Muestreo por Conglomerados........... 65


8.15.1 Caractersticas del muestreo por conglomerados........... 65
8.15.2 Tamao de muestra en los conglomerados...... 66

8.16 Muestreo de Aceptacin 68


8.17 Taller. 68
CAPTULO 9. EVALUACIN FINAL...... 73
ANEXO 1: Elementos metodolgicos para desarrollar una investigacin .. 78
ANEXO 2: Caso de estudio de Calimuebles: Modelar el ausentismo laboral en la empresa
Calimuebles...... 85
ANEXO 3: Tamao de muestra en la regresin . 87
ANEXO 4: Prueba de Kolmogorov 88
ANEXO 5: Regresin Logstica90
ANEXO 6: Tabla de nmeros aleatorios 92
BIBLIOGRAFA.. 93

CAPTULO 1
INTRODUCCIN

En la actualidad existe una variedad de tcnicas estadsticas dentro de la literatura disponibles para
analizar un problema dado. La clave para determinar cul de ellas usar depende de muchos factores, por
mencionar algunos esta, el tipo de datos que el problema genere, el software disponible para procesar la
informacin, el tipo de solucin buscada (aproximada u ptima), entre otros factores. Dnde ubicar la
Regresin dentro de este conjunto de tcnicas? En el anlisis estadstico de datos se identifican
fundamentalmente tres grandes grupos que se resumen en los siguientes:
i.

Mtodos de reduccin de variables. Aqu se clasifican los mtodos de anlisis de componentes


principales, anlisis factorial, anlisis de correspondencias, escalonamiento optimo, anlisis
conjunto, etc. Estas tcnicas tienen el propsito de combinar muchas variables observadas en unas
pocas variables ficticias (variables no observadas) que las representan.

ii.

Mtodos de clasificacin. Estos corresponden al anlisis clster, anlisis discriminante, arboles


de decisin, entre otros. Aqu se estudian las caractersticas comunes de los individuos para
clasificarlos por grupos.

iii.

Tcnicas de dependencia. Se clasifican en: Regresin lineal simple, regresin lineal mltiple,
regresin no lineal, regresin logstica, anlisis de varianza y series de tiempo. Estas tcnicas
consisten en predecir con un cierto margen de error el valor de una variable en trminos de una o
ms variables a travs de una relacin no funcional.

No sobra aclarar que para un problema dado se puedan mezclar varias de estas tcnicas, por ejemplo, en
una situacin dada se pueden hacer anlisis factorial para reducir variables y con las variables resultantes
hacer regresin para predecir algunos valores.
En estas notas el inters se centra en las tcnicas de regresin debido a su amplio uso en problemas de
prediccin y relacin de variables en la administracin y el mercadeo.
La regresin se ubica en las tcnicas de dependencia. En un anlisis de regresin se tienen: una variable
dependiente, un conjunto de variables independientes y un modelo estadstico que las agrupa. El objetivo
principal de un anlisis de regresin es predecir los valores de la variable dependiente con base en las
variables independientes a travs del modelo estadstico.
Se aborda inicialmente el tema de la regresin lineal simple buscando profundizar en las habilidades
formalizar un modelo estadstico con todas las implicaciones terico-prcticas que exige adecuar
modelo estadstico a una situacin dada; se continua con dos captulos cortos sobre los temas
transformacin de variables y modelos polinmicos, se trata aqu de aproximar al estudiante al manejo

de
un
de
de

problemas ms cercanos a la realidad; seguidamente se hace el tratamiento de la regresin lineal mltiple


donde se construye un modelo con dos o ms variables explicativas. Se termina el documento con el tema
de muestreo donde se tratan formalmente los temas de tamao de muestra y los mtodos de muestreo. Al
final del texto se encontraran anexos sobre temas tericos de mayor complejidad como son los de tamao
de muestra en la regresin y la regresin logstica.
Una segunda dimensin no menos importante que la regresin y el muestreo es la metodologa a seguir en
el anlisis y posible solucin de un problema usando cualquiera de las tcnicas estadsticas mencionadas
para lo cual se ha diseado un anexo (anexo 5) donde se hace claridad de los principales pasos a seguir.
Estos pasos se resumen a continuacin para que el lector los tenga presentes desde ya en una situacin
problema que implique la aplicacin del tema de regresin.
a. Identificar y plantear el problema.
b. Definir los objetivos del problema a resolver.
c. Identificar las variables implicadas en los objetivos propuestos. Es aqu donde se debe decidir en la
regresin como la tcnica a usar en el anlisis de datos.
d. Recoleccin de datos. Esto implica varios procedimientos: establecer el tamao de muestra
apropiado, diseo de instrumentos de recoleccin de informacin y tipo de muestreo a aplicar.
e. Adecuacin y/o transformacin de variables.
f. Generacin del modelo de regresin.
g. Validacin del modelo. Esta validacin corresponde a la evaluacin de los supuestos sobre la
variable dependiente o sobre los errores (supuestos de linealidad, homocedasticidad, normalidad e
independencia) y el supuesto sobre las variables independientes (supuesto de multicolinealidad).
h. Prediccin de valores. Si el modelo pasa todas las pruebas de validacin (paso f) est listo para su
objetivo principal que es predecir valores.
A continuacin se explica la manera de abordar los temas presentados en este documento, se hace
nfasis en la metodologa de aprendizaje activo y el uso de herramientas computacionales.
Los temas se deben desarrollar mezclando la lectura de los conceptos tericos presentados con la
ejecucin de tareas especficas que se identificaran a lo largo del documento como Actividades. Estas
Actividades pueden variar en sus propsitos, en algunos casos ser la adquisicin y aplicacin de un
concepto expuesto, en otras se plantean como una opcin de complemento para profundizar en un tema
en particular. A modo de ejemplo se plantea la primera actividad a ejecutar a continuacin.
Actividad 1: Consulte una publicacin donde se aplique alguna de las tcnicas mencionadas: Mtodos de
reduccin de variables, Mtodos de clasificacin y Tcnicas de dependencia. Presente el Abstract o
resumen correspondiente e indique la tcnica utilizada.
Para una profundizacin en las distintas temticas abordadas se puede consultar la bibliografa expuesta al
final de este documento y/o consultando la internet. El software que se utilizar a travs de todo el curso
alternara entre el Excel de Microsoft y el programa estadstico SPSS.

CAPTULO 2
REGRESIN LINEAL SIMPLE

2.1 Introduccin
El propsito de un anlisis de regresin es modelar la relacin entre variables estableciendo las
condiciones bajo las cuales dicho modelo es vlido. En el mbito empresarial o de negocios son muchas
las situaciones a las cuales se les pueden aplicar los conceptos de regresin y correlacin, por ejemplo,
analice la siguiente situacin: Un comerciante desea elevar las ventas de su producto para lo cual lanza
una campaa de publicidad en varios medios de comunicacin locales. Despus de cierto tiempo de
invertir en la campaa publicitaria el comerciante se hace las siguientes preguntas: i. Existe una relacin
significativa entre Ventas y Publicidad? ii. Qu tipo de relacin es, lineal, exponencial, parablica?, iii.
Durante cunto tiempo permanece esta relacin?, iv. Hay una relacin de causa a efecto en la relacin
encontrada? La capacidad para responder a estas preguntas es el objetivo del tema de regresin y
correlacin.
Actividad 2: Investigue el origen de los modelos de regresin. Indique los tipos de estudios que dieron
origen a esta tcnica, destaque fechas y autores importantes.
2.2 Condiciones para construir el modelo

Se busca un modelo donde se tenga una variable dependiente

razn)1 y una variable independiente


prediga a

(media en escala de intervalo o

(media en escala de intervalo o razn) de tal forma que

a travs de una relacin no funcional:

Y X +

donde

es una perturbacin

aleatoria (o error aleatorio).


El modelo se formula mediante la expresin:

Y = 0 + 1 X+

Ec. 2.1

1 Otras situaciones diferentes a estas escalas reciben un tratamiento distinto, tal es el caso del modelo de
regresin logstico donde la variable
anexo 5).

es medida en una escala cualitativa nominal dicotmica (ver

La Ec. 2.1 se denomina Modelo General de Regresin Lineal simple. Se debe suponer que la relacin

principal entre
como

es de tipo lineal y que otros tipos de relaciones, por ejemplo, polinmicas

Y = 0 + 1 X+ 2 X 2 + no son de inters por el momento.

Para un par de valores de

X e Y , es decir, para ( x i , y i
y i=b 0+ b1 x i +e i

se tiene:
Ec. 2.2

el cual se denomina Modelo Observado de Regresin Lineal Simple.

Para que el modelo de regresin

Y = 0 + 1 X+

sea vlido se deben cumplir una serie de condiciones.

En primer trmino, si se quiere generalizar sus resultados a una poblacin especifica debe cumplir con los
requerimientos del muestreo aleatorio, es decir, debe haber una tamao de muestra adecuado y un
mtodo de muestreo representativo. En segunda instancia, la variable a predecir

debe presentar

unas condiciones de aleatoriedad que den garanta de una buena toma de datos, estas condiciones se
reflejan en las perturbaciones o errores

( )

y se reconocen como los supuestos en la regresin lineal

simple. Estos supuestos son:


a.

El valor esperado de las perturbaciones (

i ) debe ser cero:

E( i)=0

Actividad 3: Investigar bajo qu condiciones no se cumple este supuesto. Respuesta: No se cumple


cuando existen observaciones tomadas en condiciones heterogneas con el resto.
b.

La varianza de los

debe ser constante y no depende de

X :

Var ( i ) = 2
Ejemplo de no cumplimiento de este supuesto: Suponga un modelo que prediga el Ahorro de las
familias caleas en funcin del Ingreso familiar. En estratos bajos el ahorro es bajo y tendr poca
variabilidad, y en estratos altos donde la capacidad de ahorro es alta es posible que la disponibilidad de
ahorro vare mucho de una familia a otra.

c.

Los

tienen distribucin normal.

10

d.

Los

son independientes entre s, es decir:

E ( i j )=0 para i j

Actividad 4: Investigar las condiciones bajo las cuales no se cumple el supuesto de independencia.
Actividad 5: Exprese cada uno de los anteriores supuestos en trminos de la variable

Y . Construya

una grfica que modele tal situacin.

2.3 Estimacin del modelo

Y = 0 + 1 X+

El modelo:

nunca se conocer con exactitud, ser necesario estimar los parmetros

0 y 1 . Las estimaciones de estos parmetros se denominan

b0 y b1

que generan el modelo

estimado:

^y i=b 0+ b1 x i

La Ec. 2.3 estima el valor medio de

para cada valor de

El mtodo que estima a los parmetros


consiste en encontrar los valores de
n

i=1

i=1

i=1

Ec. 2.3

0 y 1

X :

E ( y|x ) .

se denomina Mtodo de los mnimos cuadrados y

b0 y b1 que miniminizan la funcin f (b0 , b1)

definida como:

f ( b 0 ,b 1 )= e 2i = ( y i ^y i )2= ( y ib0 b1 xi )2

Actividad 6: Aplique el clculo diferencial para obtener los valores

f ( b 0 ,b 1 ) .
n

( x i x ) ( y i y )

Respuestas:

b0 = y b 1 x

b1= i=1

( x ix )2
i=1

b0

b1

que minimizan la funcin

11

Actividad 7: Analice las interpretaciones de


original

bo

b1 . Note que

bo

tendr sentido si la variable

puede tomar el valor cero.


( Y :

Actividad 8: Se quiere encontrar un modelo estadstico que prediga el Rendimiento Acadmico

promedio de notas) con base en el Nmero de horas de estudio fuera de clase por da ( X ) para un
curso de Estadstica en una universidad local. Se tom la siguiente muestra aleatoria:

X :

Horas

de

Promedio

de

2.8

3.6

4.0

2.3

4.8

3.8

4.5

3.0

4.0

1.5

estudio

Y :
notas

Fuente: datos simulados

a. Construya una grfica de

versus

Y , Cmo se llama esta grafica? Qu tipo de relacin se

presenta entre estas variables? es posible establecer una relacin lineal?


b. Encuentre las estimaciones de

0 y 1 y escriba el modelo de regresin lineal simple. Respuesta:

^
Promedio notas=1.53+ 0.64Horasestudio
c. Interprete cada uno de los coeficientes del modelo encontrado en b).
d. Prediga la nota promedio de un estudiante que realice tres horas de estudio por da.

2.4 Evaluacin del modelo (I): Anlisis de varianza (Anova)


Para evaluar la bondad de ajuste de un modelo de regresin lineal simple se recurre a un procedimiento
llamado Anlisis de Varianza, en forma simplificada Anova. Este consiste en comparar la variacin del
modelo de regresin ajustado
2.1 a continuacin:

Y^ =b 0 +b1 X

con el modelo

Y^ = y . La situacin es ilustrada en la figura

12

Figura 2.1 Comparacin de

Y^ =b 0 +b1 X

con

Y^ = y

( x i , y i ) se puede establecer la relacin de distancias:

De la figura 2.1 para el dato

y i y = ( ^y i y ) +( y i^y i )
Y para los

n datos de la muestra se tiene:

i=1

i=1

i=1

( y i y )2= ( ^y i y )2 + ( y i^y i )2
De esta expresin se deduce que la variacin total con respecto a la media muestral es igual a la variacin
determinada por el modelo de regresin mas una variacin no explicada por el modelo de regresin, es
decir,
Variacin
Total

SST

Variacin
explicada
por la
Regresin

Variacin no
explicada
por la
regresin

En forma simplificada:
SSR

A SST se denomina Suma de Cuadrados Total y se le asocian


que se tienen

n datos y una restriccin impuesta por

y .

SSE

n1 grados de libertad, esto debido a

13

A SSR se denomina Suma de cuadrados de la Regresin y se le asocia un grado de libertad por implicar

X .

una variable independiente

A SSE se le llama Suma de Cuadrados del Error y se le asocian


de datos de

n2

grados de libertad por el nmero

0 y

n y dos restricciones impuestas por las estimaciones de los parmetros:

1 .

Con las sumas de cuadrados y los grados de libertad se construye la tabla de Anlisis de Varianza que se
presenta en la tabla 2.1.

Fuente de
Variacin

Grados de
Libertad

Regresin

Error
(residuos)

n2

Total

n1

Suma de
Cuadrados

Promedio
De los
Cuadrados

SSR

SSR 1

SSE

S=

f c=

Valor p

SSR 1
S2

P( f > f c )

SSE
n2

SST

Fuente: elaboracin propia

Tabla 2.1 de Anlisis de Varianza (Anova)

Observe de la tabla 2.1 que al dividir la Suma de Cuadrados entre los grados de libertad se obtienen
frmulas de varianza (columna de los Promedios de los cuadrados), y al dividir estas varianzas entre s se
obtiene el estadstico de prueba

f c el cual sigue la distribucin F (F de Fisher).

Actividad 9: Explique el origen de los valores de los grados de libertad en la tabla Anova.
Del Anlisis de Varianza se deducen varios indicadores que determinaran qu tan bueno es el modelo de
regresin encontrado con los datos, estos son: el Coeficiente de Determinacin:

R2

y el Error estndar

de estimacin: S . En la prxima seccin se presentara un procedimiento de prueba de hiptesis para


determinar la linealidad del modelo.
Definicin 2.1: El coeficiente de determinacin:

R2

14
n

R2=

( ^y i y )2

SSR i=1
= n
SST

100

( y i y )

Ec. 2.4

i=1

El coeficiente de determinacin

R2 expresa la proporcin de la variacin total en Y explicada por la

variable independiente X a travs del modelo de regresin estimado.

Actividad 10: Calcule e interprete el

R2 para el modelo encontrado en la actividad 8.

Definicin 2.2: Error Estndar de Estimacin:

S=

SSE
n2

El cuadrado del Error estndar de estimacin,

Ec. 2.5

S2

es un estimador de

2 , la varianza de los errores

o residuales.

El estimador

S2

sirve para comparar la calidad del ajuste del modelo con respecto a otros modelos

alternativos.

Actividad 11: Obtenga el error estndar de estimacin para el modelo encontrado en la actividad 8.

2.5 Evaluacin del modelo (II): Prueba de linealidad


Cuando se present el modelo de regresin lineal simple para establecer la relacin entre

se

supuso que la relacin principal entre estas variables era de tipo lineal, es hora de probar dicha relacin a
travs de procedimientos de prueba de hiptesis y utilizando la tabla Anova.
Actividad 12: Ponga a prueba la linealidad del modelo de regresin
concepto de hiptesis estadstica, es decir, complete las hiptesis:

Y = 0 + 1 X+

mediante el

15

(El modelo no es lineal)

H 0 :

(El modelo es lineal)

H 1 :
Actividad 13: De la tabla Anova proponga un procedimiento para probar las hiptesis planteadas en el

f c=

ejercicio anterior. AYUDA: Pruebe que

H 0 : 1=0 y

SSR 1
S2

es el estadstico de prueba para la hiptesis

H 1: 1 0

Actividad 14: Pruebe la linealidad del modelo encontrado en la actividad 8. Use

=0.05

2.6 Correlacin lineal


La fuerza de la relacin lineal entre
muestral) o

X eY

se mide por el coeficiente de correlacin lineal: r (si es

(si es poblacional)

Definicin 2.3: Coeficiente de correlacin muestral r


La correlacin muestral entre dos variables

X yY

con distribucin de probabilidad conjunta

se calcula as:

( x x ) ( y y )
r=

Sx Sy

Si

X eY

son discretas

Ec. 2.6

f (x , y)

16

( xx )( y y ) f ( x , y ) dxdy
r=

Si

Sx S y

X eY

son continuas

Ec. 2.7

En un anlisis de regresin, la correlacin se obtiene calculando la raz cuadrada del coeficiente de


determinacin:

r= R2 .

El resultado de r se interpreta as: si

X eY

estn relacionadas, un cambio en una implica un cambio en

la otra variable, de esta manera a medida que una variable cambia se sabr cmo cambia la otra.
Las ecuaciones 2.6 y 2.7 solo aplican para variables cuantitativas medidas en escala de intervalo o razn.
Para variables cualitativas (dicotmicas o en escala Likert) se debe recurrir a otro tipo de correlaciones
estimadas mediante el mtodo de mnimos cuadrados generalizados, estas correlaciones se denominan:
correlaciones biserial, policrica y poliserial.
Los valores que toma r segn la definicin estn entre -1 < r < +1. Valores cercanos a + 1 indican una
fuerte relacin lineal directa, valores cercanos a -1 sugieren una fuerte relacin lineal inversa. Valores
cercanos a 0 indican que no hay relacin lineal.
Actividad 15: Construya representaciones graficas de: 1. r cercanos a
cercanos a

+1 , 2. r cercanos a -1, 3. r

0 .

Actividad 16: Calcule e interprete el coeficiente de correlacin r para las variables implicadas en la
actividad 8.
Nota: Se debe tener precaucin con la interpretacin de la correlacin. El valor de r = 0.95 obtenido para
las variables implicadas en la actividad 8 indica una asociacin fuerte entre Nota promedio y Horas de
estudio, pero no necesariamente implica que las Horas de estudio sea la causa de notas altas o bajas,
aqu no se ha demostrado una relacin de causa a efecto.
Hasta dnde el coeficiente de correlacin muestral r es un valor representativo del coeficiente de
correlacin poblacional? Para responder a esta pregunta se plantean las hiptesis:

H 0 : =0

(La correlacin entre

X eY

es cero)

H1: 0

(La correlacin entre

X eY

es diferente de cero)

El estadstico de prueba se define como:

t=

r n2
1r 2

con

n2

grados de libertad.

Actividad 17: Pruebe que la correlacin poblacional es diferente de cero para las variables implicadas en
la actividad 8.

17

2.7 Supuestos en la regresin lineal simple


En la definicin del modelo de regresin lineal simple

: Distribucin normal con

sobre los errores


los

Y = 0 + 1 X+

E ( ) =0 y Var ( )= 2 . Como los

e i resultantes de la diferencia entre los datos observados

) Cmo estar seguros de que los errores (


entre las variables
interrogante los

X eY

ei

y i y los estimados

se estiman con

^y i ( e i= y i ^y i

e i ) son el resultado de una falta de relacin lineal efectiva

o son provocadas por una manipulacin de los datos? Para responder a este

deben cumplir con los siguientes supuestos:

i ) debe ser cero, es decir:

a. La media de los errores (

E( i)=0
X , si se toman varias mediciones

Este supuesto establece, por ejemplo, para un valor particular de


de

se establecieron los supuestos

Y , el valor esperado de los errores debe ser cero, es decir:

E ( i|x i )=0

implicando

E ( Y |X )= 0 + 1 X .
La violacin de este supuesto determina una mala especificacin del modelo (en este caso una falta de
linealidad) y se refleja en una situacin tal como se observa en la figura 2.2.
b. La varianza de los errores (

i ) debe ser constante, se dice que es homocedstica:

Var ( )= 2 .
La falta de homocedasticidad (heterocedasticidad) se indica en la figura 2.3.

ei

^y

18

Figura 2.2 Falta de linealidad del modelo de regresin lineal simple


La falta de homocedasticidad en algunas ocasiones puede deberse a cambios en la varianza en la variable
dependiente o a variaciones marcadas en los datos debido, por ejemplo, a cambio de condiciones con el
tiempo.
Existen varios mtodos para detectar la heterocedasticidad, estos dependen si: 1. La varianza del error
cambia en dos partes de la muestra (Test de Goldfeld-Quandt), 2. Una relacin no lineal desconocida
entre los errores y la variable independiente del modelo de regresin (Test de White), 3. Otras posibles
causas de falta de homocedasticidad son: especificacin errnea del modelo, la existencia de cambios
estructurales en el modelo (por ejemplo, un cambio estacional en una serie temporal).

ei

^y
Figura 2.3 Varianza no constante
El Test de White tiene el siguiente sustento terico:
Se tiene el modelo de regresin lineal general
del error ( Var ( )=

Y = 0 + 1 X+ , una posible dependencia de la varianza

) con la variable explicativa

permite especificar el modelo de regresin:

= 0 + 1 X +
Bajo el supuesto de que los errores ( ) tienen media cero, se tiene:

19

E ( 2 ) = 0+ 1 X
Lo que conlleva a detectar una heterocedasticidad entre la relacin de

2 y la variable explicativa

X .

El procedimiento de estimacin es el siguiente:


1. Planteamiento de las hiptesis:

H 0 :Var ( )=

H 1 :Var ( )

(Homocedasticidad)
(Heterocedasticidad)

2. Obtener una estimacin de los residuos (


observados (

e i ) mediante la regresin lineal con los datos

y i=b 0+ b1 x i +e i )

3. Realizar la regresin auxiliar:

e^ 2i =a0 + a1 x i +a2 x 2i
4. Calcular el estadstico de prueba:
regresin auxiliar y
5. El estadstico

nR

donde

es el coeficiente de determinacin de la

n el total de datos de la muestra.

n R2 sigue una distribucin ji-cuadrado con k 1 grados de libertad, donde

es el nmero de parmetros estimados con la regresin auxiliar.

6. Calcular el Valor_p y tomar la decisin correspondiente:

Valor p =P ( ,k1 >n R2 )


Observe que si se rechaza

H 0 y se acepta

H 1 se comprueba que la varianza 2 es no constante.

Actividad 18: Investigue otros mtodos para identificar la falta de homocedasticidad.


c.

Los errores (

i ) se distribuyen en forma normal. Ver grafica 2.4.

Actividad 19: Investigue por qu es necesaria la validacin de la hiptesis de normalidad. Respuesta.


Para poder validar las pruebas de hiptesis y estimar los intervalos de confianza sobre los parmetros.

20

Actividad 20: Investigue posibles causas de falta de normalidad. Respuesta. Puede ser debido a
presencia de datos atpicos.
Actividad 21: Investigue cuales seran los posibles tratamientos para corregir la falta de normalidad.
Respuesta. Eliminar datos atpicos, transformar las variables o descartar el anlisis de regresin.
Actividad 22: Investigue la prueba de Kolmogorov para probar normalidad y aplquela a los datos de la
actividad 8 (Ayuda: leer anexo 4).

ei

y
Figura 2.4 Distribucin normal de los errores

d. Los errores (

i ) son independientes entre s, es decir:


E ( i j )=0

Este supuesto implica que los

para

yi

i j .

(valores observados de Y) son independientes entre s (no hay

autocorrelacin entre los errores).

Existe una prueba estadstica para determinar la independencia de los errores, esta es denominada prueba
de hiptesis de Durbin-Watson. La prueba consiste en plantear inicialmente las siguientes hiptesis:

H 0 :los i sonindependientes
H 1 :los i son dependientes

El estadstico de prueba es el propuesto por Durbin-Watson:

21
n

( et e t 1 )

d= t=2

e2t
t =1

t =1

t =2

t=2

e 2t e2t e 2t1

Haciendo la aproximacin

y desarrollando el cuadrado del numerador se llega a

la expresin:

d 2(1r )
Donde

es la autocorrelacion en los residuos, suponiendo

H 0 como cierta el valor esperado de

debe aproximarse a 2.

Actividad 23: Pruebe que el estadstico de prueba de Durbin-Watson es

d 2(1r )

Actividad 24: Investigue la regla de decisin para la prueba de hiptesis de Durbin-Watson y aplique la
prueba a los datos de la actividad 8. Respuesta.

d=2.618

Actividad 25: Utilice la prueba de hiptesis de Durbin-Watson para probar la independencia en los errores
(no autocorrelacin) en los datos adjuntos:

X 1
0
Y 1
5

1
2
1
7

8
1
3

1
7
2
3

1
0
1
6

1
5
2
1

1
0
1
4

1
4
2
0

1
9
2
4

1
0
1
7

11 1
3
1 1
6 8

1
6
2
3

1
0
1
5

1
2
1
6

2.8 Prediccin
El propsito de obtener un modelo de regresin es predecir valores. Esta prediccin solo es vlida dentro
del rango de valores obtenidos en la muestra, fuera de este rango se debe recurrir a modelos ms
elaborados.

Actividad 26: Obtenga una prediccin para Y (nota promedio) cuando las horas de estudio sean de 3.0
para el modelo propuesto en la actividad 8.
Toda prediccin debe darse con un intervalo de prediccin, este intervalo se obtiene mediante la frmula:

22

1 ( X X)
S x . y 1+ +
,n2
n (X X )2
2

Y^ t

Ec. 2.8

S x . y es el error estndar de estimacin del modelo (error tpico en los resultados de Excel)

Donde

Actividad 27: obtenga un intervalo de prediccin al 95% para el valor estimado en el actividad 26.
De igual forma se puede obtener un intervalo de confianza con la frmula:

Y^ t
2

,n2

2.9 Intervalos de confianza para

Sx . y

2
1 ( X X)
+
n ( X X )2

Ec. 2.9

0 y 1 .

Las formulas son:

b0 t
2

b1t
2

, n2

,n2

[ ]
s2

[ ]

1 x 2
1 x 2
+
0 b 0 +t
s2 +
, n2
n S xx
n S xx
2

s
s
1 b 1+ t
,n
2
S xx
S xx
2

Ec. 2.10

Ec. 2.11

Actividad 28: Determine la importancia de las ecuaciones 2.10 y 2.11.


2.10 Uso del programa SPSS
El programa estadstico SPSS permite desarrollar de una manera ms eficiente todos los procedimientos
del anlisis de regresin, de una manera automtica se estiman los intervalos de confianza y de
prediccin. Se realizan todas las transformaciones posibles adems de los procedimientos de estimacin
del modelo y su validacin.
Actividad 29: Ingrese al programa SPSS y explore las opciones para estimar la ecuacin de regresin, la
validacin del modelo y la obtencin de los intervalos. Aplique estas opciones y resuelva nuevamente las
actividades 8, 10, 11, 12, 14, 16, 22, 24, 26 y 27. Ayuda: use la salida siguiente:

23

2.11

Taller

1. Un distribuidor de automviles quiere determinar la relacin entre La Cantidad de unidades


vendidas y El Precio de venta de diez modelo de autos. Para el mes pasado se obtuvieron los
siguientes datos:
Precio (en millones de $)
Cantidad vendada
unidades por mes)

(en

17.5
45

19.0
42

20.5
40

22.0
35

24.0
32

26.0
30

28.0
29

30.5
28

33.5
26

37.0
20

a. Construya la grfica de dispersin entre El Precio y La Cantidad vendida y comente sobre el tipo de
relacin que hay entre las dos variables.
b. Obtenga un modelo de regresin lineal simple que permita explicar La Cantidad vendida en funcin de
los Precios de venta de los autos.
c. Interprete los coeficientes del modelo encontrado en b)
d. Obtenga el coeficiente de correlacin entre las variables Precio y Cantidad vendida e intrprete su
valor.
e. Pruebe que el coeficiente de correlacin es diferente de cero. Use

=0.03 .

f. Obtenga el coeficiente de determinacin las variables Precio y Cantidad vendida e intrprete su valor.
g. Si un modelo auto tiene un precio unitario de 23 millones, es posible determinar cuntos autos de este
modelo se vendern? Si su respuesta es afirmativa, cunto es este nmero? D los intervalos de
prediccin y confianza respectivos para un

=0.03 .

h. Plantee las hiptesis de linealidad del modelo propuesto en b) y valdelas. Use


i.
j.

=0.03 .

Obtenga el error estndar de estimacin para el modelo encontrado en b)


Construya una grfica de dispersin entre Los residuos y El Precio de venta. Comente el resultado

24

k. Aplique las pruebas de normalidad, varianza constante e independencia a Los residuos del modelo
encontrado en b) y Comente los resultados.
l. Concluya sobre la conveniencia de usar el modelo encontrado en b) para predecir La Cantidad de
autos vendida con base en El Precio de venta para este distribuidor de automviles.
2. El gerente de una compaa de aviacin desea establecer la relacin entre Los costos de

mantenimiento de los aviones ( Y ) y su Antigedad, en aos ( X ), para lo cual recopil los


siguientes datos:

10

10

460

720

2000

1500

1800

15000

12000

25000

40000

a. Obtenga el modelo de regresin lineal: Y (costo de mantenimiento anual) y


funcionamiento)
b. Pruebe la linealidad del modelo obtenido en a)
c. Pruebe las hiptesis

H 0 : 0 =0

implicaciones tendra eliminar

versus

(tiempo de

=0.05

H 1 : 0 0

para el modelo propuesto en a). Qu

del modelo? Ayuda: construya la grfica de dispersin entre

y determine qu sentido tiene un valor de

X =0

d. Calcule el coeficiente de correlacin e interprtelo.


e. Haga un anlisis de los residuos. Qu supuesto no se cumple?
3.

Cmo afectan los Precios a las Ventas? Se tienen los siguientes datos reportados por
Ecopetrol para el ao 2008 en la ciudad de Bogot sobre el Precio de la gasolina Extra y las Ventas de
gasolina Extra:

PERIODO
2008-01
2008-02
2008-03
2008-04
2008-05
2008-06
2008-07
2008-08
2008-09
2008-10
2008-11
2008-12
Fuente: Ecopetrol

PRECIO
(en $)
8,916.68
9,000.68
9,512.00
9,078.42
9,170.45
9,246.29
9,422.86
9,567.91
9,710.30
9,833.19
9,904.83
9,200.00

VENTAS
(en galones)
17,313.53
17,518.09
17,827.15
17,244.26
17,513.21
14,748.02
15,294.88
14,094.41
13,909.82
14,838.86
12,753.17
16,761.26

25

a. Obtenga el diagrama de dispersin para el Precio(X) y las Ventas (Y). Comente sobre el tipo de
relacin presente con estas variables.
b. Estime el modelo de regresin lineal simple
c. Interprete

b0

^y i=b 0+ b1 x i suponiendo que ste es apropiado.

b1 .

d. Qu proporcin de la variacin observada en las Ventas se puede explicar por la variacin en los
Precios a travs del modelo de regresin?
e. Pruebe que hay una relacin lineal significativa entre el Precio y las Ventas (use

=0.05

f. Calcule e intrprete el coeficiente de correlacin entre el Precio y las Ventas.


g. Pronostique las Ventas
cuando el Precio sea 9.200,00 calcule el valor del residuo
correspondiente, obtenga los intervalos de prediccin y confianza correspondientes. Use

=0.05

h. Haga un anlisis de los residuos. Qu supuesto no se cumple?

t=
4.

Use el estadstico

.Respuesta.

b1 t
2

,n2

b1 1
S
SS
xx

para obtener un intervalo de confianza para

S
SS xx

5.

Investigue los conceptos de correlacin biserial, correlacin policrica y correlacin


poliserial, es decir, investigue: cundo se usan, tipo de variables implicadas y cmo se calculan.

6.

Investigue por qu una regresin lineal no implica necesariamente una relacin de causaefecto entre las variables relacionadas. Presente ejemplos.

7.

Prediccin de los precios de las acciones. Analizar el comportamiento de los precios de las
Acciones de Ecopetrol segn la variacin del precio del barril de petrleo WTI producido en Colombia.
Se tienen los siguientes precios promedio por mes:

Mes
jul-2012
ago-2012
sep-2012
oct-2012
nov-2012
dic-2012
ene-2013
feb-2013

Precio de las
Acciones de
Ecopetrol (en
pesos)
5006,50
5303,50
5250,48
5533,64
5274,50
5325,79
5510,95
5403,00

Precio del Petrleo


WTI en dlares por
barril
87,450
99,375
94,884
89,562
86,857
88,131
94,924
95,369

26

mar1203
abr-2013
may2013
jun-2013
jul-2013
ago-2013
sep-2013
oct-2013
nov-2013

5070,00
4550,00

92,781
92,045

4148,10
4018,06
4169,79
4362,75
4432,62
4458,86
4116,00

94,888
95,882
104,956
106,637
106,119
100,317
93,826

Fuente: Ecopetrol y Bolsa de valores de Nueva York

a. Proponga un modelo de regresin lineal simple que permita predecir el valor de las Acciones de
Ecopetrol con base en el Precio del barril de petrleo en Colombia. Indique la ecuacin de regresin
y el valor del

b. Pruebe la significancia del modelo propuesto en a) plantee las hiptesis respectivas y use el
concepto de Valor _p para tomar la decisin sobre las hiptesis. Use = 0.05
c. Interprete los coeficientes del modelo propuesto en a)
Respuesta:

b0 = 9128.21: Si el precio del petrleo es $ 0.00 el precio de las acciones en promedio sern $
9128.21. Como el precio del petrleo nunca ser $ 0.00 se dice que el valor de
9128.21 es un valor de ajuste al modelo.

b1= -45.10: Por cada peso que aumente el precio del petrleo, el precio promedio de las
acciones disminuyen en $ 45.10.

d.

Obtenga intervalos de confianza para

0 y 1 . Use = 0.05

e. Obtenga intervalos de prediccin para una observacin futura (por ejemplo: 80 dlares por barril).
f.

Haga un anlisis de los residuos. Qu supuesto no se cumple?


Respuesta:
Primero se construye la grfica de residuales como se indica a continuacin:

27

Se observa un patrn creciente en los residuos lo que es sintomtico de dependencia en los residuos, es
decir, el supuesto de independencia no se cumple. Este anlisis cualitativo se comprueba con la prueba de
independencia de Durbin-Watson.
Prueba de independencia:

H 0 :los i sonindependientes
H 1 :los i son dependientes
Durbin-Watson
,720

Como el estadstico d = 0.72 est muy lejos del valor de referencia d = 2.0 se rechaza

H 1 , luego los residuos son dependientes.


Prueba de normalidad:

H 0 :los i son normales


H 1 :los i no son normales

H0

y se acepta

28

Prueba de Kolmogorov-Smirnov para una muestra


Standardized
Residual
N

17

Parmetros normales

a,b

Media

,0000000

Desviacin estndar
Mximas diferencias extremas

,96824584

Absoluta

,125

Positivo

,106

Negativo

-,125

Estadstico de prueba

,125
,200c,d

Sig. asinttica (bilateral)

El valor p es igual a 0.200 por lo que se acepta la hiptesis de normalidad.

g. Concluya sobre la validez del modelo propuesto en a)


Respuesta:
Como el coeficiente de determinacin es muy bajo, 25.7% y no se cumple el supuesto de
independencia el modelo no es vlido para predecir los precios de las acciones de Ecopetrol.
8.

Los siguientes datos corresponden a la INFLACION y al SALARIO


MENSUAL (SMLM) desde el ao 1990 para Colombia.
AO
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999

INFLACIO
N
32,37
26,82
25,13
22,61
22,59
19,47
21,60
17,68
16,70
9,23

SMLM
41.025,0
51.720,0
65.190,0
81.510,0
98.700,0
118.933,0
142.125,0
172.005,0
203.826,0
236.460,0

MINIMO LEGAL

29

2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013

8,75
7,65
6,99
6,49
5,50
4,85
4,48
5,69
7,67
2,00
3,17
3,73
2.44
1.94

260.100,0
286.000,0
309.000,0
332.000,0
358.000,0
381.500,0
408.000,0
433.700,0
461.500,0
496.900,0
515.000,0
535.600,0
566.700,0
616.000,0

Fuente: EL DANE

La idea es establecer un modelo de regresin que ayude a determinar el comportamiento de estas dos
variables tomando como variable dependiente SALARIO MINIMO LEGAL MENSUAL (SMLM) y como
variable independiente INFLACION obtenga un modelo de regresin lineal simple (modelo 1) y
resuelva:
a.
b.
c.
d.
e.
f.
g.

Escriba la ecuacin del modelo 1,


plantee y valide las hiptesis correspondientes a la linealidad general del modelo 1
indique e interprete el coeficiente de correlacin del modelo 1
Interprete cada uno de los coeficientes del modelo 1
Construya una grfica de residuales y haga un anlisis cualitativo de los supuestos del modelo 1
Evale el supuesto de normalidad en los residuales planteando y validando las hiptesis respectivas
Evale el supuesto de independencia en los residuales planteando y evaluando las hiptesis
respectiva
h. Evale el supuesto de varianza constante planteando y evaluando las hiptesis respectiva
i. Prediga el SMLM para una inflacin de 4.0. De su estimacin con intervalos de prediccin del 90%
j. Comente sobre la conveniencia de usar el modelo 1 para predecir el SMLM para Colombia.

30

CAPTULO 3
TRANSFORMACIONES MATEMTICAS EN LA REGRESIN

3.1 Introduccin
No siempre la relacin entre dos variables es lineal, en la vida real se pueden presentar muchos
comportamientos no lineales, por ejemplo, en mercadeo es bien conocida la relacin entre Inversin en
publicidad y Cantidad demanda de un producto (resolver la actividad 30), pero mediante una
transformacin matemtica se pueden llevar las variables al plano lineal y aplicar los conceptos de la
regresin lineal simple. El propsito de una transformacin es, en lo posible, asociar una frmula
matemtica al comportamiento de los datos y mediante operaciones matemticas lograr un modelo de
regresin lineal.
Las transformaciones matemticas tambin se aplican a casos donde el modelo de regresin lineal no
cumple alguno de los supuestos, tal es el caso de la normalidad en los residuos, realizando la
transformacin apropiada se logra corregir esta situacin.
El procedimiento a seguir es: i. identificar ecuacin matemtica apropiada (ecuacin del modelo), ii.
Linealizar la ecuacin matemtica (modelo linealizado), iii. Adecuar las variables al modelo linealizado, y
iv. Con las variables transformadas se debe construir un nuevo modelo de regresin lineal simple
estimando sus coeficientes, se le realiza la prueba de linealidad (tabla anova) y se calcula el coeficiente de
determinacin R2

31

Actividad 30: Investigue las relaciones entre las variables planteadas para cada caso y construya las
grficas correspondientes:

i.

Inversin en Publicidad y Cantidad demandada,

nios sanos entre edades de 1 a 12 aos,

ii .

Peso y talla en

iii . Precio de un vehculo y tiempo de uso en aos.

3.2 Principales transformaciones


La transformacin a aplicar depende del comportamiento de los datos, por ejemplo, si se tienen unos datos
con
la
apariencia
exponencial
se
recurre
a
la
ecuacin
exponencial

Y = e X , esta expresin se puede transformar en un modelo lineal aplicando logaritmo natural a


ambos lados como se indica en la tabla 3.1, resultando el modelo

Y ' = ' + X .

Actividad 31: Complete la tabla 3.1 realizando las operaciones matemticas adecuadas.
Actividad 32: Una empresa comercial tiene registrados los gastos en publicidad (en millones de $) y los
beneficios (en millones de $) obtenidos durante los ltimos 10 aos:
Publicida
d

2.0

2.5

2.5

3.0

4.0

4.5

5.5

7.0

4.5

8.0

Beneficio
s

6,59
3

7,05
3

7,13
7

7,29
5

8,22
7

8,45
1

12,30
3

25,69
8

10,48
5

46,62
1

a. Haga un anlisis exploratorio de regresin lineal simple para estimar los beneficios de acuerdo a los
gastos en publicidad, Qu tan bueno es el modelo?
b. Aplique las transformaciones matemticas necesarias para lograr el mejor modelo de regresin
lineal simple. Ayuda: use la opcin de transformacin de variables del SPSS.
c. Pronostique los beneficios si se invierte en publicidad 6 millones de pesos.

Nombre del modelo


Exponencial

Ecuacin del modelo

Y = e

Transformacin

LnY =Ln + X

Modelo Linealizado

Y ' =Ln + X
donde

Logartmico

Y = + LnX

Y = + X
donde

Potencia
Reciproco x

Y ' =LnY
'

'

X =LnX

Y = X
Y = +

Y = + X '

32

Donde
Reciproco doble

= +
Y
X

Raz cuadrada

Y = + X

X'=

1
X

Fuente: elaboracin propia

Tabla 3.1: Transformaciones matemticas

3.3 Taller
1. Considere los siguientes datos:
X
Y

76
72

80
70

92
68

67
86

69
89

70
85

75
70

86
68

87
70

102
70

98
68

67
80

Realice todas las transformaciones posibles hasta obtener el mejor modelo (R2=69% aproximadamente)
2.

A continuacin se indican los Costos promedio por parqueo en centros de negocio segn la cantidad
de poblacin urbana en 15 ciudades de los Estados Unidos (datos indicados por Wynn, 1969).

Ciudad
Poblacin
(en miles)
Costos (en
dlares)

1
190

2
310

3
270

4
320

5
460

6
340

7
380

8
520

9
310

10
400

11
470

12
840

13
1910

14
3290

15
3600

0.50

0.48

0.53

0.58

0.60

0.67

0.69

0.75

0.80

0.80

0.81

0.92

0.92

1.40

1.12

a. Construya un diagrama de dispersin y proponga el tipo de curva que mejor se ajusta a los datos
(lineal, exponencial, logartmica, polinmicas, etc.)
b. Realice una transformacin matemtica y ajuste un modelo de regresin lineal simple. Obtenga el
modelo y evale la linealidad.
3. Los empleados de muchas industrias experimentan lo que se llama curva de aprendizaje, es decir,
que al fabricar un nuevo producto el tiempo requerido para producir una unidad se reduce en alguna
proporcin fija al duplicarse el nmero total de unidades. Una industria de este tipo es la aviacin. El
tiempo de fabricacin por unidad en una nueva aeronave tiende a disminuir un 20% cada vez que se
duplica el nmero de nuevos aviones terminados. Los siguientes datos corresponden a la produccin
de aviones en la industria aeronutica USA:
Nmero de aviones
producidos (X)
Nmero de horas de
trabajo por avin (Y)

4
1,000

8
800

16
640

32
512

33

a. Construya un diagrama de dispersin y proponga el tipo de curva que mejor se ajusta a los datos
(lineal, exponencial, logartmica, polinmica, etc.)
b. Realice una transformacin matemtica y ajuste un modelo de regresin lineal simple. Obtenga el
modelo y evale la linealidad.
4. Considere los datos del ejercicio 7 del taller 2.11. Realice todas las transformaciones necesarias para
mejorar el modelo lineal propuesto en dicho ejercicio.
5. El gerente del Banco de la Repblica de Colombia quiere desarrollar un modelo de regresin para
determinar el impacto que tiene el sector de la construccin y la produccin industrial manufacturera
colombiana sobre el desempleo. Para desarrollar este modelo se tienen los datos correspondientes a
tres aos en lo referente a la Cantidad de Cemento Gris (en miles de toneladas) vendidos en
Colombia, el ndice de Produccin real de la industria manufacturera colombiana (IPIM) y el ndice de
desempleo para igual periodo de tiempo. Datos suministrados por el Banco de la Repblica. El gerente
quiere determinar un modelo de regresin lineal simple que prediga el ndice de desempleo (% de
desempleo) en funcin del ndice de produccin real de la industria manufacturera colombiana (IPIM):
Resuelva:
a.
b.
c.
d.

Escriba el modelo de regresin lineal simple.


Interprete cada uno de los coeficientes del modelo.
Calcule el coeficiente de correlacin e interprtelo.
Calcule el coeficiente de determinacin e interprtelo.

e. Pruebe la linealidad del modelo. Use


f.

=0.05.

Prediga el ndice de desempleo ( desempleo ) para un ndice de produccin de 140.5.

g. Transforme la variable del ndice de desempleo ( desempleo ) de la siguiente manera:

desempleo ' =ln( desempleo) , construya una grfica de dispersin entre

desempleo '

y el

ndice de produccin real (IPIM). Qu tipo de relacin se presenta? Construya el modelo de


regresin lineal transformado y comprelo con el obtenido en el punto a. Cul es mejor?

h. Prediga el ndice de desempleo ( desempleo ) para un ndice de produccin de 140.5 utilizando el


modelo transformado.

Ao

Mes

CEMENTO
(en miles de
toneladas)

2006

Ene.

788,498

13.4

105.1

Feb

786,423

13.0

110.8

Mar

806,570

11.3

122.2

Abr

799,004

12.0

111.2

May

803,080

11.9

123.7

( desempleo )

IPIM

34

2007

2008

Jun

804,373

10.5

122.6

Jul

877,410

12.4

125.4

Ago

829,044

12.8

135.0

Sep

882,250

12.9

136.9

Oct

881,057

11.4

139.5

Nov

874,313

10.9

140.9

Dic

856,167

11.8

131.0

Ene.

786,328

13.9

120.9

Feb

756,627

12.8

127.4

Mar

894,374

11.9

140.1

Abr

853,612

10.9

127.5

May

929,634

11.5

138.4

Jun

912,472

11.2

138.0

Jul

900,510

11.2

138.1

Ago

917,732

10.7

145.4

Sep

886,807

10.8

144.8

Oct

969,913

10.1

150.4

Nov

903,366

9.4

151.5

Dic

1027,843

9.9

142.2

Ene.

835,772

13.1

128.6

Feb

900,435

12.0

138.6

Mar

871,069

11.2

127.5

Abr

905,590

11.1

139.7

May

866,633

10.8

133.1

Jun

852,482

11.2

129.7

Jul

878,123

12.1

139.3

Ago

845,128

11.2

131.3

Sep

819,470

11.0

140.0

35

Oct

840,088

10.1

139.9

Nov

790,539

10.8

131.4

Dic

800,698

10.6

129.4

Fuente: Banco de la Republica de Colombia

CAPTULO 4
MODELO POLINOMICOS

4.1 Introduccin
En un modelo de regresin lineal simple se supone apropiada una relacin considerando solo a
su expresin bsica, pero existen relaciones de orden superior tales como
ajuste de los datos. Un modelo expresado en trminos de
orden

Xp

en

que pueden mejorar el

es denominado modelo de polinomico de

p . El moldeo general es presentado en la ecuacin 4.1.


2

Y = 0 + 1 X+ 2 X + 3 X + + p X +

Ec. 4.1

En la prctica modelos de orden superior a tres ( p>3 ) son muy raros por lo que solo se consideraran
en este documento los modelos cuadraditos ( p=2 ) y cbicos ( p=3 )
4.2 El modelo cuadrtico
El modelo cuadrtico o parablico es expresado en la Ec. 4.2 y su correspondiente estimacin en la Ec.
4.3.

Y = 0 + 1 X+ 2 X 2 +
Y^ =b 0 +b1 X +b 2 X 2
Para calcular los coeficientes

b0 , b1 y b 2

Ec. 4.2
Ec. 4.3

del modelo cuadrtico estimado, Ec. 4.3, se recurre al mtodo

de los mnimos cuadrados a travs del programa SPSS mediante la opcin Estimacin Curvilnea.
El anlisis para una situacin dada es igual al que se hace para la regresin lineal simple: i. Grfica de
dispersin, ii. Significancia general del modelo (tabla anova), iii. Prueba de la significancia del termino
cuadrtico y iv. Interpretacin de cada uno de los coeficientes del modelo.

36

X ,

Cuando se introducen en un modelo de regresin trminos como

, etc. Se corre el riesgo de

introducir problemas de multicolinealidad, problema que se analizar en el captulo de regresin lineal


mltiple.
Actividad 33: Considere el siguiente caso y responda cada una de las preguntas a continuacin:
El departamento de mercadeo de una gran cadena de supermercados quiere estudiar el efecto de los
Precios sobre las Ventas de paquetes de mquinas de afeitar desechables. Se formaron paquetes de tres
cantidades diferentes con precios de $ 7,900, $9,900 y $11,900. A continuacin se muestran los resultados
Precios
(por 100 $)

79

79

79

79

79

9
9

99

99

99

99

119

119

119

119

119

Nmero de
paquetes
Vendidos

14
2

15
1

16
3

16
8

17
6

9
1

10
0

10
7

115

12
6

77

86

95

10
0

10
6

Suponga que hay una relacin cuadrtica entre precio y ventas.

a. Elabore un diagrama de dispersin para precio y ventas.

b. Estime la ecuacin de regresin cuadrtica. Respuesta:


^
Nmero paquetes=729.86710.887 Precio+0.047 Precio2

c. Elabore un pronstico de las ventas semanales para un precio de $ 7,900.


d. Efecte un anlisis residual de los resultados y determine la idoneidad del modelo.
e. Con un nivel de significancia de 0.05. Existe una relacin cuadrtica significativa entre ventas y
precio?
f.

Con un nivel de significancia de 0.05, determine si el modelo cuadrtico es ms adecuado que el


modelo de regresin lineal simple.

g. Calcule e interprete el

ajustado.

Actividad 34: Considere el siguiente caso y responda cada una de las preguntas a continuacin:
Los directivos de bsculas Reynolds, Inc. desean investigar la relacin entre la duracin de sus agentes de
ventas en su puesto y la cantidad de bsculas vendidas. La tabla adjunta muestra la cantidad de bsculas
vendidas por 15 agentes seleccionados aleatoriamente para el perodo ms reciente de ventas y la
antigedad, en meses, de cada agente en la empresa.
Antigedad,

41

10

76

10

22

12

85

111

40

51

12

56

19

37
meses

Bsculas
vendidas

37
5

29
6

31
7

37
6

16
2

15
0

36
7

30
8

18
9

23
5

8
3

112

6
7

32
5

18
9

a. Elabore un diagrama de dispersin para antigedad y bsculas vendidas.


b. Obtenga un modelo de regresin lineal simple que prediga las ventas de las bsculas.
c. Haga un anlisis de los residuales para el modelo obtenido en b. Analice el supuesto de linealidad.
d. Determine la ecuacin de regresin cuadrtica.
e. Evale la significancia del trmino cuadrtico en el modelo obtenido en d.
f.

Prediga el nmero de bsculas vendidas para una antigedad de 100 meses.

g. Compare los residuales obtenidos para los modelos lineal y cuadrtico, Cul es su
comportamiento?

CAPTULO 5
EVALUACIN I

El siguiente caso tiene como propsito evaluar la mayora de los conceptos desarrollados hasta el
momento. Responda cada una de las preguntas en el orden dado y formalice un informe usando el
programa Word.
Una firma comercial tiene actualmente 180 puntos de venta, con deseo de ampliar su cobertura a 300
puntos en total. Para decidir, desarrolla una encuesta a 15 de los puntos de venta seleccionados al azar.
Entre las varias caractersticas investigadas, se encuentran: Ventas diarias (millones de $) y Costos en
servicios pblicos (miles de $), la informacin se presenta a continuacin:
Costos
Ventas

12
130

18
185

20
190

16
172

15
165

12
128

26
165

20
165

18
180

23
170

26
184

20
174

30
200

25
170

22
190

A partir de estos datos se pide:


1. Encuentre un modelo de regresin lineal simple que prediga las Ventas en funcin del Costos en
servicios pblicos. Escriba el modelo en trminos de las variables indicadas. Calcule y exprese su R2.

38

2. Evalu la linealidad del modelo usando hiptesis estadsticas. Use


3. Interprete los coeficientes

=0.05

b0 y b1 en el modelo encontrado en 1)

4. Prediga las Ventas para unos Costos de $ 18,000. De su respuesta con un intervalo de prediccin del
90%
5. Construya el grafico de residuales: Residuos versus Ventas. Comente sobre la validez de los
supuestos en la regresin lineal simple
6. Plantee las hiptesis correspondientes al supuesto de independencia en los residuos y prubelas. Use

=0.05
7. Plantee las hiptesis correspondientes al supuesto de normalidad en los residuos y prubelas. Use

=0.05
8. Escriba los modelos: Logartmico, Inverso X y cuadrtico, para cada uno de ellos indique su R2 y su
error estndar de estimacin.
9. Elija el mejor modelo y recalcule la prediccin realizada en 4)
10. Concluya sobre la conveniencia de usar el mejor modelo para predecir las Ventas

CAPTULO 6
REGRESIN LINEAL MLTIPLE

6.1 Introduccin
En la vida real una variable se relaciona no slo con una sino con muchas ms variables, por ejemplo, un
agente de bienes races est interesado en determinar el Valor Comercial de un inmueble con base en el
rea construida (en m2), el Nmero de habitaciones, el Valor comercial de las casas vecinas, el tipo de
inmueble (casa o apartamento) y la Antigedad de la construccin. En este tipo de relaciones se pueden
analizar situaciones como: i. La dependencia lineal del Valor comercial con dos o mas de estas variables, ii.
El Nmero de habitaciones es mejor predictor que el Valor comercial de las casas vecinas, entre otras
varias situaciones que se irn tratando a travs del texto.
Los procedimientos de regresin lineal mltiple son ampliamente usados en investigacin de tipo
transversal (observaciones referidas en un mismo instante de tiempo, por ejemplo: anlisis de una
encuesta realizada a un grupo de empresarios para determinar las implicaciones del tratado de libre
comercio con los Estados Unidos) y en datos de serie de tiempo. Por lo general, el investigador est
interesado en determinar Cual es el mejor predictor de.. Ejemplo: Un cientfico en Educacin estara
interesado en determinar cul es el mejor predictor del rendimiento acadmico en los estudiantes
universitarios.

39

El objetivo es buscar un modelo de regresin que explique a una variable dependiente (variable Y) a travs
de varias variables independientes (variables

X 1 , X 2 , , X k ) relacionadas linealmente mediante la

expresin:

Y = 0 + 1 X 1+ 2 X 2 ++ k X k +
La validez de este modelo requiere del cumplimiento de varias hiptesis sobre los parmetros

0 , 1 , 2 , , k

y sobre el error

La estimacin de los parmetros

0 , 1 , 2 , , k

se hace mediante el uso del lgebra matricial y del

clculo diferencial que se puede consultar en cualquier libro de inferencia estadstica. Una forma de
hacerlo menos costosa es a travs de un software estadstico tal como SPSS, Minitab, Startgraphics o
incluso el mismo Excel.

6.2 El modelo de regresin lineal mltiple


El modelo de regresin lineal mltiple se construye con una variable aleatoria Y, medida en escala de
razn o de intervalo y

k variables no necesariamente aleatorias,

X 1 , X 2 , , X k

, medidas en escalas

de razn, de intervalo o dicotmicas.


La variable Y es la variable explicada o variable dependiente, mientras que las variable X son las variables
explicativas o variables independientes (tambin llamadas regresoras).
El modelo general de regresin lineal mltiple ser:

Y = 0 + 1 X 1+ 2 X 2 ++ k X k +
Donde cada coeficiente

Ec, 6.1

i mide el efecto marginal por cada cambio unitario en

Xi

sobre Y dejando

las dems variables explicativas constantes.


El modelo representado en la Ec. 6.1 asume que se consideraran solo los efectos lineales de las

variables despreciando influencias de otras variables no tenidas en cuanta, comportamientos de orden no


lineal, por ejemplo:

X 21 o interacciones entre variables, por ejemplo:

X1 X2 .

El modelo de regresin lineal mltiple implica la consecucin de una muestra, de la cual se determina el
modelo de valores observados:

y i=b 0+ b1 x i 1 +b2 xi 2 ++ bk xik +e i

con

i=1,2, , n y n> k

Ec. 6.2

40

Donde

b0 , b1 , b2 , ,b k

son

los

valores

estimar

de

los

parmetros

0 , 1 , 2 , , k

respectivamente.
El modelo estimado ser:

Y^ =b 0 +b1 X 1 +b2 X 2 ++ bk X k
Los valores

b0 , b1 , b2 , ,b k

Ec. 6.3

se obtienen mediante el mtodo de los mnimos cuadrados tal como se hizo

para el modelo de regresin lineal simple.


Actividad 35: Investigue el mtodo de los mnimos cuadrados para estimar los parmetros

0 , 1 , 2 , , k

de la regresin lineal mltiple.

Se puede establecer una notacin matricial para las

variables regresoras y las

observaciones

representadas en la ecuacin 6.2 como se indica a continuacin:

y= Xb+ e

Ec. 6.4

donde

[] [ ] [] []

y1
y2
y= .
.
.
yn

1 x 11 x 12 . .. x 1 k
1 x 21 x 22 . .. x 2 k
. .. .
X=
. .. .
. .. .
1 x n 1 x n 2 .. . x nk

b0
b1
b= .
.
.
bk

e1
e2
e= .
.
.
en

Aplicando el mtodo de mnimos cuadrados a la forma matricial se encuentran las estimaciones a los

^ ( X ' X )1 X ' y
b=

Ec. 6.5

con varianzas:

Var ( b^ j )= 2

El termino
es decir:

Rj

1
1R2j

Ec. 6.6

es el coeficiente de correlacin entre la variable independiente

R2j =R2X |X
j

, X2 , . , X j1 , X j+1 , . , Xk

j=1,2, , k

Xj

y todas las dems,

41

Actividad 36: Ajuste un modelo de regresin lineal mltiple a los datos del Caso de estudio de
Calimuebles (ver anexo 2) con variable dependiente: Ausentismo (ausen) y variables explicativas: Edad (

X 1 ), antigedad ( X 2 ), Salario ( X 3 ) y Nmero de hijos ( X 4 ) y responda:


a. Escriba el modelo de regresin lineal mltiple. Respuesta:

^
Ausentismo=10.3210.051Edad0.149Antiguedad0.271Salario+1.054Nohijos
b. Interprete cada uno de los coeficientes del modelo.

6.3 Evaluacin de la significancia del modelo


Para estimar un modelo de regresin se recurre a una muestra, y de ella surgen las siguientes preguntas:
Cmo estar seguros de que el modelo no cambiar si se toma otra muestra?, Qu tan representativo es
el modelo obtenido? Para responder estas preguntas se debe recurrir a un procedimiento de prueba de
hiptesis acerca de los parmetros

i .

Actividad 37: Plantee las hiptesis nula y alternativa acerca de la linealidad general del modelo obtenido
para la empresa Calimuebles (Ayuda: use los

i de la Ec. 6.1).

Para probar las hiptesis planteadas en la actividad 36 se construye la tabla de anlisis de varianza
ANOVA. Ver tabla 6.1.
Fuente de
Variacin

Grados
Suma de
de
Cuadrados
Libertad

Regresin

SSR

Residuos

n - (k +
1)

SSE

Total

n-1

Total

Promedio de los
Cuadrados

MSR=

SSR
k

MSE=

SSE
n( k +1)

f c=

Valor P

MSR
MSE

Valor p=P( f > f c )

Fuente: elaboracin propia

Tabla 6.1: Anlisis de Varianza


La tabla de anlisis de varianza se obtiene de la misma manera que se hizo para la regresin lineal simple
recurriendo a la identidad:

42
n

( y i y )2= ( ^y i y )2+ ( y i ^y i )2
i=1

i=1

i=1

Donde:
n

SST = ( y i y )2 : Suma de cuadrados Total


i =1
n

SSR= ( ^y i y ) : Suma de Cuadrados de la Regresin


i=1
2

SSE= ( y i^y i )2 : Suma de Cuadrados del Error


i=1
Los grados de libertad se obtienen de la siguiente manera:
Para la regresin:

k , numero de variables independientes.

Para los residuos:

n(k + 1) , numero de datos menos el nmero de parmetros estimados.

El valor del estadstico F se obtiene mediante la razn:

F=

SSR/ k
SSE/( nk1)

El punto crtico para la hiptesis

H0

ser

f ; k ,nk1

, con el cual se obtiene el Valor p:

Valor p=P(f > f ;k ,nk1 )

Actividad 38: Obtenga la tabla de anlisis de varianza para el modelo ajustado en la actividad 36 y
determine si el modelo de regresin lineal mltiple obtenido para la empresa Calimuebles es significativo.

Otro criterio para determinar si un modelo es adecuado es el coeficiente de determinacin mltiple:


6.4 Definiciones.

R2 .

43

Definicin 6.1: El coeficiente de determinacin mltiple:

R 2=

Variacion explicada por laregresion SSR ( ^y i y )


=
=
Variacion total
SST ( y i y )2

R2 toma valores entre 0 y 1, se acostumbra a expresar en porcentaje.


Actividad 39: Analizar el coeficiente de determinacin

para el modelo estimado en la actividad 36

para la empresa Calimuebles.


El coeficiente de determinacin tiene problemas ya que su valor aumenta introduciendo nuevas variables
en el modelo aunque su efecto no sea significativo, por lo que siempre se puede aumentar artificialmente

R2 , lo que llevara a malas interpretaciones.


Por esta razn se define el coeficiente de determinacin ajustado que tiene en cuenta los grados de
libertad implicados en el modelo.

Definicin 6.2: Coeficiente de determinacin ajustado.


2

Rajus =R (1R )

R2 ajustado

k
nk1

Actividad 40: Obtenga el coeficiente de determinacin ajustado para el modelo de la empresa


Calimuebles.

6.5 Evaluacin de la significancia de cada variable en el modelo de regresin mltiple


El aporte de cada variable al modelo se puede evaluar planteando las hiptesis:

H 0 : i=0 (La contribucin de la variable i no es significativa)


H 1: i 0

(La contribucin de la variable

i es significativa)

Para la prueba de estas hiptesis se recurre al anlisis de varianza dada las estadsticas de prueba o los
valores de probabilidad (Valores_p) respectivos a cada hiptesis.
Actividad 41: Evalu la contribucin al modelo de regresin del ausentismo laboral de cada una de las
variables

X1 , X2 , X3 y X4

introducidas para el modelo de la empresa Calimuebles.

44

Cuando una variable resulta no significativa, se debe eliminar del modelo de regresin y ajustar un nuevo
modelo con las variables restantes.
Actividad 42: Proponga un modelo de regresin lineal mltiple ajustado a las variables significativas para
el modelo de la empresa Calimuebles.

6.6 Supuestos en la regresin lineal mltiple


El modelo de regresin lineal mltiple debe cumplir los mismos supuestos planteados para la regresin
lineal simple, pero adems debe cumplir el supuesto de multicolinealidad, el cual establece que las
variables

no deben estar correlacionadas entre s.

6.7 Validacin del supuesto de multicolinealidad (o colinealidad en SPSS)


Este supuesto consiste en analizar la posible relacin que pueda haber entre las variables independientes.
El problema se presenta cuando una de las variables independientes es una combinacin lineal de otra u
otras variables independientes (por ejemplo, para predecir el Producto Interno Bruto (PIB) se tienen las
variables

X1 :

X2 :

Cantidad de azcar exportada,

Exportaciones totales. Debe ser evidente que

X3

Cantidad de caf exportado y

puede ser una combinacin lineal de

X3 :

X1 y X2 ) o

cuando la correlacin entre dos variables independientes es alta (ejemplo: para predecir el ausentismo en
una empresa se tienen entre otras variables La Edad del empleado y La Antigedad en la organizacin, es
muy posible que estas variables se relacionen directamente y tengan un coeficiente de correlacin alto).
Diagnstico de la multicolinealidad:
1. En algunos casos se presenta que la significancia de la tabla ANOVA nos dice que hay relacin
lineal pero al evaluar la significancia de cada variable ninguna resulta significativa. Esto puede ser
evidencia de problemas de multicolinealidad.
2. Evaluando la correlacin entre variables independientes. Valores altos de correlacin significan que
hay dependencia entre las variables implicadas.

Actividad 43: Investigue el procedimiento para obtener las correlaciones en el programa SPSS.
La matriz de correlacin entre las variables X determina las posibles relaciones de dependencia.

3. Utilizando el indicador el nivel de tolerancia:


Donde

T i =1R2i

R2i es el coeficiente de correlacin entre cada variable independiente con todas las
2

dems, es decir:

Ri =R X |X
i

, X 2 ,. , X i1 , X i+1 , . , X k

i=1,2, , k

45

Valores altos de

R2i , por ejemplo, 0.90 son indicios de fuerte dependencia en las variables

independientes, esto implica valores bajos de tolerancia.

4. Factor de Influencia de la Varianza:

La expresin

1
1R2i

FIV i=

1
1R2i

es un factor que incide en la variacin de la estimacin del parmetro

(ver ecuacin 6.6) por lo que recibe el nombre de Factor de Influencia de la Varianza. Valores
prximos a 1 indican ausencia del problema de multicolinealidad ya que
es decir, debe haber ausencia de correlacin entre la variable
Por lo contrario, un valor de

FIV i >10

es indicio de

R2i

Xi

R2i

debe tender a cero,

y el resto de variables

X. .

mayores a 0.90 luego debe hay

problemas de multicolinealidad.
5. Otra tcnica mucho ms completa y compleja es el NDICE DE CONDICIN. Este ndice se obtiene
utilizando el mtodo de componentes principales. Esta tcnica es matemticamente compleja y se
sale de los alcances del curso. Aqu aceptaremos que valores altos de ndice de condicin
(mayores a 30) son indicios de colinealidad de modera a fuerte.
Para obtener el

T i , el FIV i y el NDICE DE CONDICIN en el programa SPSS se recurre a las

opciones del men: Estadsticos - Diagnostico de colinealidad.

Corregir la multicolinealidad
1. Eliminar la variable causante de la multicolinealidad. Por ejemplo, si las variables

X1 y X2

presentan problemas de multicolinelidad se debe eliminar una de las dos variables. Cul eliminar?
Se debe eliminar la que tenga menor correlacin lineal con la variable dependiente Y.
2. Evitar el sesgo de especificacin. El sesgo de especificacin ocurre cuando se elimina una variable
de un modelo pero esta operacin va en contrava del modelo terico, por ejemplo, si se tiene un
modelo para explicar la Demanda de los consumidores y resulta que la variable Ingreso presenta
problemas de multicolinealidad, eliminarla va en contra de la teora econmica ya que la Demanda
depende de los Ingresos de los consumidores, si se elimina ocurre el sesgo de especificacin.
Par evitar el sesgo de especificacin se puede recurrir a una transformacin matemtica.
Actividad 44: Valide el supuesto de multicolinealidad para el caso de estudio de Calimuebles.

6.8 Prediccin de nuevas observaciones

46

El propsito principal de un modelo de regresin lineal mltiple es predecir observaciones futuras de la

variable de respuesta

y 0 para los valores de

queremos predecir a

El intervalo de prediccin del

^y 0t
2

Donde:

se=

,nk1

en base a los valores de las variables regresoras

100 (1 )

s e 1+ hi y 0 ^y 0 +t
2

( y ^y )2
nk1

x 01 , x02 , , x ok .
y 0 es:

para una observacin futura

,nk1

X s. Suponga que

s e 1+hi

es el error estndar de estimacin. En el programa SPSS el valor de

se

se

muestra como el Error tpico de la estimacin en el Resumen del modelo:


RESUMEN DEL MODELO
Modelo

R Cuadrado

R Cuadrado
Corregida

.992a

0.983

0.975

Error Tpico
de la
Estimacin
0.286

a. Variables predictoras: (Constante), X3, X1, X2


'

X X x0
hi=x '0

En el SPSS estos intervalos se obtienen con las opciones Save y Prediction Intervals.
Actividad 45: Obtenga un intervalo de prediccin del 90% para el Ausentismo cuando la Edad sea igual a
30 aos, la Antigedad de 8 aos, el Salario de ocho millones y el Nmero de hijos sean dos para el
modelo creado en la actividad 35.

6.9 Intervalos de confianza para los coeficientes de regresin


Los intervalos para los

donde

Cii

i se construyen con la formula bit ,n k1 s e C ii i b i+ t ,n k1 s e C ii


2
2

es el elemento de la diagonal de

X ' X 1

que corresponde a

bi . En el SPSS estos

intervalos se obtienen activando la opcin Confidence Intervals en la opcin statistics.


Actividad 46: Obtenga intervalos de confianza del 90% para los coeficientes que resultaron significativos
en modelo de regresin de la empresa Calimuebles.

47

6.10

Pruebas de hiptesis sobre los coeficientes de regresin

Se plantean las hiptesis:

H 0 : i = i 0
H 1: i i 0
t=
Use el estadstico de prueba

b1 1
sb

sb

es el error estndar de estimacin del parmetro

, error tpico en el SPSS) para calcular el Valor_p con los grados de libertad asociados a la regresin lineal
mltiple ( g .l .=nk 1 )

6.11

Modelos con variables explicativas cualitativas (variables indicadoras)

Variables cualitativas tales como Gnero, Estado civil, Tipo de empleado, etc. Son tratadas con valores 0 y
1 para determinar su ausencia o presencia de influencia en el modelo de regresin lineal, por ejemplo, en
el caso del Ausentismo Laboral, el modelo ser el mismo para dos grupos diferentes como Hombres y
Mujeres?. Para resolver este interrogante se plantea el modelo general teniendo en cuenta la variable
cualitativa y su interaccin con cada una de las variables regresoras. Por ejemplo, para un modelo con
variables

X 1 y X 2 donde

X 2 toma solo los valores

X 2=0 y

Y = 0 + 1 X 1+ 2 X 2 + 3 X 1 X 2+
Para analizar el efecto de la cualitativa (
regresora principal (

X 2=1 el modelo general es:

Ec. 6.7

X 2 ) se evala la significancia de la interaccin con la variable

X 1 ) planteando las hiptesis:

H 0 : 3=0 versus

resulta significativa se plantean los modelos:


Si

X 2=1 entonces

3
1+ X

Y =( 0 + 2 ) +

Si

X 2=0 entonces

Ec. 6.8

H 1 : 3 0 . Si esta interaccin

48

Y = 0 + 1 X 1+

Ec. 6.9

Observe en la ecuacin 6.8 el efecto incremental en los coeficientes, situacin que no ocurre en la
ecuacin 6.9.
Si la interaccin resulta no significativa se plantea el modelo:

Y = 0 + 1 X 1+ 2 X 2 +
Si se rechaza
Si

H 0 : 2=0 y se acepta

H 1: 2 0

Ec. 6.10
se plantean los modelos:

X 2=1 entonces
Y = ( 0 + 2 ) + 1 X 1+

Si

Ec. 6.11

X 2=0 entonces
Y = 0 + 1 X 1+

Ec. 6.12

Actividad 47: Determine la influencia de las variables Tipo de empleado y Gnero en el modelo del
ausentismo para la empresa Calimuebles. Interprete los coeficientes resultantes para cada variable
incluida en el modelo. Ayuda: primero evale la significancia de cada variable solo planteando el modelo
con efectos principales sin interaccin, elimine las variables no significativas y construya el nuevo modelo
con las variables restantes.

6.12 Taller
1. Una empresa ha registrado las utilidades (Y) durante diez aos de operacin, tambin ha estimado la
participacin en el mercado (X1) y los descuentos concedidos(X2). Los siguientes son los datos
registrados:
Utilidad ( Y)
(en millones de $)

Participacin
En el mercado ( X1)
%

Descuento
Concedido ( X2)
%

270
250
280
260
310
330
350
320
360
330

5
9
12
8
16
18
19
20
18
27

20
18
16
10
14
16
16
17
17
20

49

a. Construya graficas de dispersin y determine grficamente si existe relacin lineal entre la utilidad
(Y) y las variables regresoras: Participacin en el mercado (X1) y Descuento concedido (X2).
b. Estime un modelo de regresin lineal mltiple entre Y y X1 y X2.
c. Interprete cada coeficiente del modelo encontrado en b.
d. Evale la significancia del modelo propuesto en b, es decir pruebe que el modelo es lineal. Use

=0.05 .

e. Evale la significancia de cada variable en el modelo propuesto en b. Qu variable se debe


eliminar? Use
f.

=0.05 .

Obtenga el coeficiente de correlacin mltiple e interprtelo en el modelo propuesto en b.

R2 e interprtelo en el modelo propuesto en b.

g. Obtenga el coeficiente de determinacin

h. De acuerdo a lo encontrado en la pregunta e, obtenga el modelo de regresin lineal final.


i. Prediga las utilidades (Y) para una participacin en el mercado del 24% y un descuento del 35%.
j. Evale todos los supuestos del modelo de regresin final obtenido.
2. Cunto tiempo por semana invierte un estudiante de una universidad local en alguna prctica
deportiva? El rendimiento acadmico afecta esta prctica? Para resolver estos interrogantes, el
director de bienestar de esta universidad hace un seguimiento a una muestra aleatoria de 20
estudiantes escogidos de la jornada diurna. Se consideraron las siguientes variables: Y: Tiempo, en
horas, que un estudiante realiza alguna actividad deportiva,
por semestre,

X 2 : Promedio acumulado,

X 1 : Numero de crditos matriculados

X 3 : tiempo, en horas que dedica al ocio. Los datos son

los siguientes:
Y

4.0
18

3.0
18

5.5
15

0
18

2
18

2
18

4
18

10
15

0
18

2
19

5
15

5
15

4
18

2
18

8
15

6
15

2
18

2
19

4
18

2
18

X2

4.2

4.0

3.5

4.6

4.3

4.0

3.5

3.4

4.5

4.4

3.9

3.8

3.4

3.5

3.5

3.6

4.5

4.0

3.7

3.9

X3

10

15

10

10

10

10

X1

a. Ajuste un modelo de regresin lineal mltiple para la variable dependiente Y: Tiempo, en horas, que
un estudiante realiza alguna actividad deportiva y las variables

X i indicadas.

b. Evale la significancia general del modelo encontrado en a) y la significancia de cada variable

X i , Qu explicacin le puede dar a este resultado?

c. Estime las correlaciones entre las variables

Xi

y comente sobre las causas de multicolinealidad

en el modelo propuesto en a)
d. Ajuste un modelo de regresin lineal mltiple sin problemas de variables no significativas y
multicolinealidad. Use

=0.05 .

50

e. Prediga la cantidad de tiempo que un estudiante de esta universidad dedica a realizar alguna
prctica deportiva si ha matriculado 18 crditos, tiene un promedio acumulado de 3.8 y
semanalmente tiene 10 horas de ocio.
f.

Evale todos los supuestos del modelo de regresin final encontrado.

g. De respuestas a los interrogantes planteados por el director de bienestar de esta universidad y


comente sobre la posibilidad de usar el modelo encontrado para predecir el tiempo semanal que un
estudiante dedica a realizar alguna prctica deportiva.
3. En una planta industrial dedicada a la produccin de cierto tipo de material se ha observado el
rendimiento de 5 obreros experimentados y no experimentados que han recibido entrenamiento previo
en dicha tarea, obteniendo los siguientes resultados (use un
Horas de entrenamiento
recibido
Tipo
de
obrero
(experimentado=1;
no
experimentado=0)
Minutos que tarda en
producir 1Kg. de material

=0.08 :

10

13

20

25

26

19

14

10

a. Proponga un modelo de regresin lineal mltiple (modelo 1) que permita estimar la cantidad de
minutos que tardar un obrero en producir un Kg. de material
b. Evale la significancia de cada una de las variables implicadas en el modelo 1.
c. Interprete el coeficiente de la variable Tipo de obrero en el modelo 1.
d. Interprete el coeficiente de la variable Horas de entrenamiento en el modelo 1.
e. Evale el supuesto de multicolinealidad en el modelo 1. Use todos los indicadores posibles.
f. Proponga el mejor modelo (modelo 2) que permita estimar la cantidad de minutos que tardar un
obrero en producir un Kg. de material.
g. Estimar la cantidad de minutos que tardar en producir un Kg. de material un obrero experimentado
que recibi 7 horas de entrenamiento. De su respuesta con intervalo de prediccin.
h. Valide todos los supuestos del modelo 2.
4. El Administrador de un reconocido negocio de comidas rpidas en la ciudad de Cali quiere desarrollar

un modelo de regresin que le permita estimar los Tiempos de entrega, en minutos ( Y ) de los
pedidos a domicilio para una cierta zona de la ciudad la cual es atendida por su negocio. Las variables
a considerar son las siguientes:
de ubicacin del cliente,

X 1 : Distancia (en kilmetros) entre la ubicacin del negocio y el sitio

X 2 : Experiencia del domiciliario o repartidor (en meses),

entrega (1: si es hora pico, 0: si no es hora pico) y

X 4 : Tiempo de preparacin del pedido (en

minutos). De tomaron los siguientes datos aleatoriamente:

X2

5,2

80

X3 :
1

X 3 : Hora de

X4 :

15

25

51

8,5
7,6
3,6
4,3
3,4
9,5
0,3
4,2
1,1
2,3
7,3
4,7
5,6
1,8
0,6
4,2
2,6
3,7
1,1

80
36
36
16
36
80
16
36
16
16
80
36
80
16
16
36
36
36
16

1
1
0
0
1
1
1
0
0
0
1
1
1
0
0
1
0
1
0

25
20
20
20
15
25
25
15
15
20
25
20
25
25
25
25
25
25
20

37
34
27
28
35
49
30
25
20
28
42
40
35
30
30
35
32
36
25

Resuelva:
a. Estime un modelo de regresin lineal mltiple que le permita estimar los Tiempos de entrega de
los pedidos a domicilio Tomando TODAS las dems variables consideradas (modelo 1). Escriba el
modelo, plantee y valide las hiptesis correspondientes a la linealidad general del modelo e indique
el coeficiente de determinacin mltiple.
Respuesta: el modelo es:

^
Tiempo entrega=9.7+ 1.5 Distancia0.06 Experiencia+ 4.8 Hora entrega+ 0.7 Tiempo preparacion

Las hiptesis de linealidad son:

H 0 : 1= 2= 3 = 4=0
H 1 : i 0, i=1,2,3,4
De acuerdo a la tabla ANOVA el Valor_p es 0.000, muy significativo por lo que se concluye que el modelo
es lineal en por lo menos una de las variables regresoras.
b. Haga un anlisis de la variable Hora de entrega, es decir, evale su significancia e interprete su
coeficiente en el modelo 1.

52

Respuesta: primero se analiza la significancia de la variable validando las hiptesis:

H 0 : Horaentrega =0
H 1 : Horaentrega 0
El valor p = 0.044 <

=0.05

por lo que se rechaza

H0

y se acepta

H 1 , es decir, la variable

Hora de entrega tiene relacin lineal con la variable Tiempo de entrega. A continuacin se procede a
interpretar su coeficiente.
4.8: En las horas pico

(x 3=1) los tiempos de entrega se demoran en promedio 4.8 minutos mas que

los tiempos de entrega en las horas no pico.


c. Indique y analice el ndice de Tolerancia correspondiente a la variable Experiencia del domiciliario o
repartidor en el modelo 1.
Respuesta:

T experiencia=0.297

: como este valor tiende a cero se diagnostica problemas de

multicolinealidad con la variable Experiencia (

X2 )

d. Indique y analice la correlacin lineal entre las variables Distancia y Tiempo de preparacin. Qu
implicaciones tiene esta correlacin en el modelo 1?.
e. Construya un nuevo modelo de regresin (modelo 2) que no tenga problemas de variables no
significativas y problemas de multicolinealidad. Indique la ecuacin del modelo y su coeficiente de
determinacin.
f.

Prediga los Tiempos de entrega de los pedidos a domicilio para un cliente determinado que resida
a una distancia de 6.5 kilmetros, que el pedido sea llevado por un domiciliario de 36 meses de
antigedad, que el pedido sea en hora pico y cuyo tiempo de preparacin sea 25 minutos.

Respuesta:

^
Tiempo entrega ( distancia=6.5 km, tiempo preparacion=25 ) = 38,9 minutos con un intervalo (29,9;
47,8)

g. Evale cada uno de los supuestos del modelo de regresin mltiple (modelo 2). Debe mostrar los
indicadores correspondientes a cada prueba y analizar la grfica de residuales.
h. Escriba un informe sobre la importancia del modelo obtenido para predecir los Tiempos de entrega
de los pedidos a domicilio para un cliente de un negocio de comidas rpidas en la ciudad de Cali.
Indique el factor ms relevante y el menos relevante de los propuestos en la investigacin. Justifique
su respuesta.

53

Respuesta: El modelo encontrado resulto significativo en las variables distancia y tiempo de


preparacin para predecir los tiempos de entrega por lo que este negocio debe optimizar el manejo de
estas variables. El factor ms relevante es distancia y el menos significativo es la experiencia del
repartidor.
Estos resultados deben tomarse con precaucin porque el modelo final no cumple con varios
supuestos.
5. El jefe de recursos audiovisuales de una institucin universitaria desea estimar el Nmero de
solicitudes de adecuacin y/o habilitacin de recursos (Y) y las variables: Nmero de cursos
programados (X1), Numero de estudiantes matriculados (X2) y Periodo acadmico (0:Enero-Junio,
1:Julio-Noviembre) (X3). Se hizo un seguimiento de diez periodos encontrando los siguientes
resultados:
Periodo

X1

X2

X3

1
2
3
4
5
6
7
8
9
10

250
250
270
200
275
220
289
200
310
250

250
200
200
150
230
170
260
140
240
210

4500
6800
5210
5000
5300
5500
5230
4800
4990
6700

1
0
1
0
1
0
1
0
1
0

a. Ajuste a un modelo de regresin lineal mltiple que incluya las tres variables.

b. Evale la significancia del modelo obtenido. Use = 0.10


c. Evale la influencia del periodo acadmico (X3) en la prediccin del nmero de solicitudes (Y).
d. Adecue el mejor modelo de regresin lineal para predecir el nmero de solicitudes (Y).
e. Concluya sobre la posibilidad de utilizar el modelo para predecir el nmero de equipos solicitados
en un da cualquiera.
6. Un inversionista en ropa para dama ha aumentado su participacin en el mercado incrementando el
nmero de locales en centros comerciales. Nunca se ha utilizado un planteamiento sistemtico para la
eleccin del lugar; sta se basa principalmente en lo que se considera ser un buen lugar o un buen
arrendamiento. Este ao, con un plan estratgico para abrir varias tiendas, se le pidi al director de
proyectos especiales y de planeacin que desarrollara una propuesta para predecir las ventas anuales
de las nuevas tiendas que se han abierto.
En la tabla adjunta se indica las variables: Superficie en m 2 de la tienda, Ubicacin: 1: pasillo principal;
0: pasillo marginal y Ventas mensuales (millones de $).
a. Estime la ecuacin de regresin. Respuesta.

^
Ventas=1.300+0.074 Superficie+0.450 Ubicacion

b. Interprete el significado de las pendientes en este problema. Respuesta: Una tienda ubicada en
pasillo principal (ubicacin=1) incrementa sus ventas en 0.450 millones de pesos

54

c. Prediga las Ventas mensuales para una tienda con una superficie de 20 m 2 ubicada en pasillo
principal. De su respuesta con un intervalo de confianza del 98%. Respuesta: (2.8496; 3.61040)
d. Determine si existe una relacin significativa entre Ventas y las dos variables explicativas a un nivel
de significancia del 2%. Respuesta: Valor_p = 0.000 si hay relacin lineal
e. Establezca estimaciones de intervalos de confianza del 98% para la pendiente de poblacin, para la
relacin entre Ventas y Superficie, y entre Ventas y Ubicacin en pasillo. Respuesta: (0.043; 0.105)
y (0.082; 0.818)
f. Analice la influencia en las Ventas de la Ubicacin en pasillo.
g. Analice el efecto de interaccin entre superficie y Ubicacin en pasillo. Qu modelo debera
usarse? Ayuda: Cree la variable Interaccin = Superficie * Ubicacin y analice su significancia
h. Efecte un anlisis de residuos en los resultados obtenidos y determine la conveniencia del ajuste
del modelo.
Tienda

Superficie
m2

Ubicacin:
1: pasillo principal
0: pasillo marginal

Ventas
(millones de $)

1.6

2.2

1.4

10

1.9

10

2.4

10

2.6

15

2.3

15

2.7

15

2.8

10

20

2.6

11

20

2.9

12

20

3.1

7. Un profesor de Estadstica quiere encontrar un modelo estadstico que permita predecir el rendimiento
de sus estudiantes en funcin de las Notas promedio de los Parciales (Y) con base en las variables:
Horas de estudio diarias fuera de clase (X1), nmero de cursos matriculados por estudiante (X2),
Trabaja Si=1/No=0 (X3), Numero de faltas a clase (X4) y Promedio acumulado del estudiante (X5).
Los datos estn al final de las preguntas.
Use un nivel de significancia del 10% para todas las preguntas a continuacin.
a. Escriba el modelo (modelo 1) de regresin lineal mltiple que prediga las Notas promedio de los
Parciales (Y) en funcin de las dems variables propuestas.

55

b. Interprete los coeficientes de las variables X1 y X4 en el modelo 1.


c. Indique e interprete el coeficiente de determinacin mltiple para el modelo 1.
d. Analice la influencia de la variable X3 Qu importancia tiene para el modelo de regresin?
e. Prediga a Y segn los siguientes valores: X1= 3, X2=4, X3=1, X4=3 y X5=4.0. De su respuesta con
un intervalo de prediccin.
f.

Evale los supuestos de Multicolinealidad e independencia del modelo 1. Use todos los indicadores
y procedimiento disponibles para ello.

g. Evale la linealidad general de modelo 1. Plantee y valide las hiptesis correspondientes.


h. Evale la significancia de cada variable incluida en el modelo 1.
i.

Proponga un modelo (modelo 2) que prediga Notas promedio de los Parciales (Y) solo con las
variables explicativas significativas y sin problemas de multicolinealidad.

j.

Obtenga e interprete el coeficiente de determinacin mltiple para el modelo 2.

k. El valor del coeficiente de X5 en el pasado era de 2.5, con el nuevo modelo (modelo 2) sigue
siendo vlido? Justifique su respuesta con un procedimiento estadstico.
l.

De un conclusin general sobre la conveniencia o no de usar el modelo 2 para predecir Notas


promedio de los Parciales de los estudiantes. Ayuda: valide todos los supuestos del modelo 2 y
luego si concluya.
Estudiante
Arango J.
Arbelez P.
Bolaos C.
Bueno M.
Burbano M.
Cadavid J.
Castro K.
Celiz M.
Centurion U.
Cortzar A.
Duque N.
Enrquez W.
Mantilla M.
Nio B.
Zapata A.

X1
4
4
1
2
1
6
5
5
4
4
4
2
1
5
3

X2
5
5
5
6
6
5
5
5
6
7
4
6
6
5
4

X3
0
1
1
1
1
0
0
0
1
0
0
0
0
0
0

X4
0
1
5
4
2
1
0
0
1
0
1
6
4
1
0

X5
4.25
4.00
3.75
3.84
4.00
4.50
4.60
4.40
4.00
4.20
4.30
3.50
3.80
4.50
4.00

Y
4.0
3.5
2.5
2.8
3.0
4.8
4.5
4.5
3.8
3.8
4.0
1.5
2.0
4.5
3.8

8. El gerente del Banco de la Repblica de Colombia quiere desarrollar un modelo de regresin para
determinar el impacto que tienen algunas de las variables de produccin ms importantes en el pas
sobre el Producto Interno Bruto (PIB). Este modelo servira para que el estado tome acciones sobre el

56

sector que ms influencia tiene en el PIB. Las variables a considerar son: Produccin total de azcar,
Produccin de cemento gris, Produccin de lingotes de acero y Vehculos ensamblados. Los datos
correspondientes a estas variables y al PIB se encuentran al final de las preguntas.
a. Estime un modelo de regresin lineal mltiple que permita predecir el PIB con base al resto de
variables indicadas en la tabla.
b. Interprete cada uno de los coeficientes del modelo estimado en a).
c. Calcule el coeficiente de correlacin mltiple e interprtelo.
d. Calcule el coeficiente de determinacin e interprtelo.
e. Pruebe la linealidad general del modelo encontrado en a).. Use
f.

=0.10.

Pruebe la significancia de cada variable incluida en el modelo estimado en a). Use

=0.10.

g. Elimine las variables no significativas y construya un nuevo modelo para predecir el PIB.
h. Evale el supuesto de multicolinealidad (si da lugar) en el modelo propuesto en g).
i. Construya los grficos de residuos con respecto a cada variable X y comente la validez de cada
uno de los supuestos en el modelo de regresin obtenido en g).
j. Plantee y pruebe las hiptesis correspondientes a la normalidad en los residuos.
k. Plantee y pruebe las hiptesis correspondientes a la independencia o no autocorrelacin de los
residuos.
l. Realice operaciones sobre cada una de las variables tenidas en cuenta en el modelo en g) y
construya un nuevo modelo. Ayuda: analice datos atpicos, realice transformaciones tipo Ln, 1/x,
etc.)
m. Comente sobre la posibilidad de usar el modelo encontrado en l) para predecir el PIB.

Azcar

Lingotes Produccin
Vehculos
de
de
ensamblados A precios
Perodo
acero
carbn
Unidades 1/ corrientes2/
Toneladas
2000
199271,5
595277,5
23871,7
1535,8
4213,7
2001
186796,8
564625,0
27632,3
1617,1
5424,3
2002
210944,3
552714,8
26238,4
1295,3
5719,7
2003
220525,5
597365,5
24320,6
1836,9
5058,0
2004
228398,0
637159,6
30025,3
1978,1
7471,3
2005
223604,8
820783,8
32048,3
2163,9
8906,4
2006
201144,8
832349,1
35501,5
2369,4
10748,3
2007
189799,5
894934,8
34372,9
2468,8
12891,1
2008
169633,3
850502,3
31329,9
2602,5
8460,0
2009
216439,6
760221,4
27247,1
2547,3
7365,1
2010
173202,4
789116,9
29277,9
2514,9
10292,8
2011
194980,3
898069,2
28955,3
2687,9
12474,1
2012
183235,9
913096,8
31328,4
2887,2
12052,6
1/ Incluye automviles y vehculos industriales.
2/ Miles de millones de pesos
Fuente: Banco de la Republica.

Cemento
Gris

57

CAPTULO 7
CONSTRUCCIN DE MODELOS DE REGRESIN

7.1 Introduccin
El propsito de encontrar el mejor modelo que permita hacer las predicciones mas cercanas a la realidad
requiere de un examen de varios factores cada uno de ellos no menos importante. A continuacin se
mencionaran los principales.

X 1 , X 2 , , X k )

El numero apropiado de variables predictoras (

Las transformaciones posibles de las variables, por ejemplo:

Potencias de orden superior de los predictores bsicos:

Interacciones entre los predictores bsicos, por ejemplo:

El tamao de muestra:

ln ( X 1 ) ,

X2 y

1
, etc.
X

X3 .

X 1X 2 .

n .

Actividad 48: Analizar las implicaciones de tener en cuenta cada uno de los factores mencionados en el
tamao de muestra. Ayuda: recuerde que un modelo de regresin lineal mltiple no puede tener grados de
libertad negativos.

7.2 Introduccin de todas las variables (Mtodo: Introducir)


Es la opcin por defecto y en ella se tienen en cuenta todas las variables independientes seleccionadas. El
SPSS informa de las variables seleccionadas y del mtodo empleado en el siguiente recuadro:

58
Variables introducidas/eliminadasb
Modelo

1
dim
ensi
on0

Variables
introducidas

Variables
eliminadas

nu_hijos, edad, .
genero, tipo,
salario, antiguea

Mtodo
Introducir

a. Todas las variables solicitadas introducidas.


b. Variable dependiente: ausen

Este mtodo le deja la responsabilidad al investigador de eliminar las variables no significativas.

7.3 Mtodo de introduccin progresiva (Mtodo: Pasos sucesivos)


Se inicia con una nica variable X y luego se incluyen al resto dependiendo de los valores de probabilidad
de la F (Valores_p) establecidos en Opciones, como se ilustra en el recuadro adjunto. Valores_p menores
de 0.05 se incluye la variable en el modelo, Valores_p mayores de 0.07 excluyen a la variable en
consideracin en el modelo.

En el caso de estudio de Calimuebles, la primera variable a considerar es Antigedad, generando el


modelo 1. Esta variable se eligi por tener la correlacin ms alta con la variable Y (ausentismo), luego se
introdujo la variable Salario generando el modelo 2 y as sucesivamente.

59

Variables introducidas/eliminadasa
Modelo

Variables
introducidas

Variables
eliminadas

Mtodo

antigue

Por pasos (criterio: Prob. de F para entrar <= ,050,


Prob. de F para salir >= ,070).

salario

Por pasos (criterio: Prob. de F para entrar <= ,050,


Prob. de F para salir >= ,070).

genero

Por pasos (criterio: Prob. de F para entrar <= ,050,


Prob. de F para salir >= ,070).

nu_hijos

Por pasos (criterio: Prob. de F para entrar <= ,050,


Prob. de F para salir >= ,070).

a. Variable dependiente: ausen

En el Resumen del modelo se indican cmo van variando los

R2corregidos

y los Errores tpicos de

estimacin para cada modelo.


Resumen del modelo
Modelo
R

R cuadrado

R cuadrado
corregida

Error tp. de la
estimacin

,715a

,512

,501

2,675

,822b

,676

,661

2,204

,867c

,751

,735

1,951

,894d

,799

,781

1,774

a. Variables predictoras: (Constante), antigue


b. Variables predictoras: (Constante), antigue, salario
c. Variables predictoras: (Constante), antigue, salario, genero
d. Variables predictoras: (Constante), antigue, salario, genero, nu_hijos

7.4 Mtodos de atrs y adelante

Actividad 49: Investigue la operatividad de estos mtodos

7.5 Criterios de eleccin de variables

60

Elegir al mejor modelo depende de los indicadores

Cp

Rajus

, del error tpico de estimacin, del

de Mallows y de que el modelo cumpla los supuestos de normalidad, independencia y

homocedasticidad (varianza constante).


a. El coeficiente de determinacin:
Es un mal criterio ya que el

R2
aumenta al introducir variables asi sean no relevantes para el

modelo.

R2ajus

b. El coeficiente de determinacin corregido:


Este coeficiente evita el inconveniente del

c. Error tpico de estimacin (varianza de los residuos)


El modelo de menor error tpico de estimacin es el mejor
d. El estadstico del

Cp

de Mallows

Actividad 50: Investigar el efecto del

Cp

de Mallows

7.6 Validacin externa del modelo


Utilizar una segunda muestra independiente a la muestra con la cual se dedujo el modelo y realizar el test
de Chow.

CAPTULO 8
MUESTREO

8.1 Introduccin

61

La Inferencia Estadstica y en muchos estudios de anlisis de datos se recurre al muestreo para la


obtencin de la informacin. La validez del estudio y la calidad del mismo dependen de la correcta
aplicacin de las tcnicas establecidas por la teora del muestreo. Estas tcnicas hacen referencia a la
manera de seleccionar una muestra aleatoria, establecer marcos de muestreo apropiados y la asignacin
del tamao de la muestra. En este captulo se tratan todos estos temas con ejemplos, actividades y
ejercicios muchos de ellos tomados de casos de la vida real.
Dada la complejidad del tema, para una profundizacin mayor a la presentada se recomienda la lectura de
libros especializados en muestreo (algunos de ellos aparecen referenciados en la bibliografa expuesta al
final de este documento) y/o consultas en la internet.

8.2 Razones para hacer muestreo


Antes de revisar las razones de hacer muestreo, se debe responder a la pregunta: Es realmente
necesaria la muestra? o equivalentemente La informacin obtenida por la muestra habr de ayudar a
resolver el problema objeto de estudio?
Actividad 51: Proponga casos que conozca donde sea necesario hacer muestreo. Presente mnimo tres
casos.
Ayuda: consulte medios de informacin masivos tales como CM&, El Tiempo, El Pas, etc.
Actividad 52: Proponga casos donde NO sea necesario hacer muestreo (ejemplo: un inventario de libros
en la biblioteca de una universidad local).
Actividad 53: Construya una lista de razones por las cuales es necesario hacer muestreo.
Actividad 54: Proponga algunas desventajas de hacer muestreo.

8.3 Definiciones
Definicin 8.1: Poblacin o Universo
La poblacin es el conjunto de todos los individuos o elementos sobre los cuales se desea extender los
resultados de una investigacin.
En muchas ocasiones se hace referencia a Poblacin Objetivo para referirse solo a los elementos de la
poblacin que estarn disponibles.
Definicin 8.2: Marco Muestral
El marco muestral es un listado o medio fsico donde se ubican los elementos de la poblacin. Ejemplos:
Base de datos donde estn registrados todos los empleados de una fbrica, mapa de la ciudad de Cali
para investigar el empleo en sector de la construccin, lista del curso de Estadstica.
Para la muestra, se tienen dos definiciones, la primera para el caso de poblaciones discretas y la segunda
en el caso de poblaciones continuas.
Definicin 8.3: Muestra 1

62

Muestra es una parte de una poblacin que se espera provea los datos estadsticos necesarios para
estimar las caractersticas de la poblacin objeto de estudio.

Definicin 8.4: Muestra 2


Muestra es una parte de un material o sustancia que se obtiene buscando que contenga las propiedades
fsicas y qumicas del material.

Definicin 8.5: Unidad de Muestreo


La unidad de muestreo es cada elemento que aparece en el marco muestral.

Definicin 8.6: Parmetro


Parmetro es un indicador que hace referencia a la poblacin.

Definicin 8.7: Estadstico


Estadstico es un indicador que hace referencia a la muestra.

Definicin 8.8: Diseo Muestral


Diseo muestral es el procedimiento que permite obtener una muestra probabilstica (en algunos casos no
probabilstica). Aqu se establecen los tamaos de muestra y la metodologa de recoleccin de los datos.
Los tamaos de muestra se determinan de acuerdo al tema de la inferencia estadstica a aplicar
(estimacin, hiptesis, diseo de experimentos, regresin, etc.) pero nunca ser un porcentaje de la
poblacin. La recoleccin de los datos se hace bajo los conceptos de los mtodos de muestreo descritos a
continuacin.

Actividad 55: Considere el siguiente caso:


Un distribuidor de licores maneja una bodega que tiene una capacidad de almacenar hasta 1,200 unidades
de 1,000 cc por semana. Estas se apilan en cajas de 12 unidades en cinco filas separadas un metro de
distancia para permitir el aireamiento del producto y agilizar la carga y descarga. Por problemas de calor,
humedad, roedores, etc. se maneja un 2% de unidades averiadas por semana. Se hace una inspeccin
aleatoria de 20 unidades tomando una unidad de cada diez cajas tomando la primera caja aleatoriamente.
En la ltima revisin realizada se encontr un 1% de producto en mal estado.
Determine: La poblacin, la muestra, un parmetro, un estadstico, la unidad de muestreo y el plan de
muestreo

63

8.4 Mtodos para la toma de informacin


Existen muchos mtodos para la toma de datos, a continuacin se listan algunos de ellos, se deja al lector
investigar las razones para elegir el ms adecuado a sus necesidades.

Medicin directa

Observacin

Entrevista personal

Entrevista Telefnica

Encuesta va correo electrnico

Otros: correo, telefax, etc.

Actividad 56: Investigar cada uno de los mtodos para la toma de informacin especificando: i. cuando se
debe usar, ii. Ventajas y desventajas, iii presentar ejemplos.

8.5 Los mtodos de muestreo


Actividad 57: Retome el caso de Calimuebles (ver anexo 2) y proponga un mtodo para obtener una
muestra de 5 empleados para estimar el promedio de das de ausencia en esta empresa. Compare su
resultado con la de sus compaeros y responda la actividad 58.
Actividad 58: Clasifique los mtodos de muestreo utilizados en la actividad 57 teniendo en cuenta si
usaron o no alguna tcnica probabilstica.
Actividad 59: Identifique casos de la vida real donde se recurra a muestreos no probabilsticos.

8.6 Muestreos no probabilsticos


Se definen como aquellos muestreos en los cuales no se usa el azar para seleccionar los elementos. Los
criterios de seleccin son circunstanciales y se dejan a quien est a cargo de la investigacin.
Los principales tipos de muestreos no probabilsticos son: i. Muestreo por Juicio, Seleccin Experta o
Seleccin Intencional, ii. Muestreo casual o fortuito, iii. Muestreo de cuota, iv. Muestreo de poblaciones
mviles, v. Muestreo bola de nieve, entre otros.
Actividad 60: Investigue cada una de las caractersticas de los tipos de muestreos no probabilsticos
listados en el prrafo anterior.
Actividad 61: Identifique el tipo de muestreo en cada uno de los casos siguientes:
a. El jefe de mercadeo de un hipermercado encuesta a varios clientes que salen del negocio para
conocer la opinin sobre un determinado producto.
b. En el diario El Pas de Cali se pide la opinin de los lectores sobre si considera justa la condena de 17
aos contra Andrs Felipe Arias por el escndalo de Agro Ingreso Seguro.

64

c. Un investigador toma muestras del carbn extrado de una mina, tomando intencionalmente trozos de
carbn de la parte superior de cada carro.
d. La cooperativa Coomeva desea dar a conocer un nuevo plan vacacional para lo cual rifa un BMW
entre las personas que lleven cinco personas ms a una charla sobre el nuevo plan vacacional.
8.7 Representatividad de la muestra
Actividad 62: Considere los siguientes casos:
a. Una empresa productora de un comestible produce en un turno de ocho horas 10,000 unidades. Un
procedimiento de control de calidad consiste en revisar 10 unidades extradas aleatoriamente cada
hora y determinar el peso de cada unidad. Con esta revisin el ingeniero de control decide si el
proceso funciona bien o mal.
b. Doa Ramona produce un rico sancocho valluno. Este se considera que est llegando a su punto
de sabor cuando Doa Ramona lo prueba extrayendo una porcin en una cuchara pequea.
c. Para determinar la calidad de la produccin de azcar con base en caa verde, un ingenio
azucarero realiza el siguiente procedimiento en la planta: De un depsito de meladura se extraen
10 centmetros cbicos y se determinan los contenidos de potasio, calcio, magnesio y sodio.
Responda las siguientes preguntas:
1. Qu tan variables son cada una de las poblaciones indicadas?
2. Qu tienen en comn las tres muestras seleccionadas?
3. Comente sobre lo adecuado del procedimiento de muestreo en cada caso
4. Defina el significado de muestra representativa.
5. Cmo se logra una muestra representativa?

8.8 Tipos de errores


Estos errores pueden provenir de diferentes fuentes:

Error de cobertura

Datos faltantes

Error de medicin: equipos mal calibrados, temperaturas o presiones inestables

Error de muestreo

Otros errores: Recipientes contaminados o con deficiencias, el personal no cumple con las normas
de aplicacin, eleccin de unidades de difcil acceso

65

Actividad 63: Cules son las diferencias entre el Error de muestreo y los otros tipos de errores? Ayuda:
analice cuales de estos errores se pueden controlar y cules no.
Dada la importancia del error de muestreo se da su definicin a continuacin.

8.9 Error de muestreo


El error de muestreo es el error presente en el proceso de muestreo, por ms control que se tenga de las
variables y/o de la poblacin en cuestin nunca dos muestras sern iguales. Las causas del error de
muestreo pueden ser:

El azar en el proceso de muestreo, y

El diseo del plan de muestreo.

La primera se refiere al hecho de que por azar entran en la muestra elementos atpicos (elementos
demasiados grandes o demasiados pequeos), el segundo tiene que ver con los mtodos de muestreo, un
mal mtodo puede llevar a seleccionar ms elementos de una caracterstica que de otra.

8.10

Mtodos de muestreo probabilsticos

Los mtodos de muestreo probabilsticos garantizan la representatividad de la muestra para la poblacin


objeto de estudio. A continuacin se listan los principales mtodos de muestreo, luego se describen cada
uno de ellos indicando las condiciones de su aplicacin.

Muestreo Aleatorio Simple (MAS)

Muestreo Aleatorio Estratificado

Muestreo Aleatorio de Conglomerados

Muestreo Sistemtico

Muestreo aleatorio Multi-etpico

Muestreo de aceptacin

8.11Muestreo aleatorio simple (MAS)


8.11.1 Caractersticas del MAS
Las caractersticas que se deben cumplir para poder utilizar este mtodo de muestreo son:

La poblacin debe ser homognea en la caracterstica de inters.

Debe definirse un marco de muestreo.

66

Cada elemento de la poblacin tiene la misma probabilidad de seleccin.

Cada elemento se elige independiente de los dems.

La muestra se toma mediante un procedimiento aleatorio.

8.11.2 Como generar una muestra aleatoria simple


Existen varios procedimientos para obtener muestras aleatorias simples, algunos de estos mtodos son: i.
Seleccin por sorteo usando una balotera o una bolsa, ii. Seleccin a intervalos regulares o sistemtico, iii.
Usando nmeros aleatorios, etc.
El procedimiento de nmeros aleatorios en Excel es el siguiente:

Ubicar en una columna el nmero de registro de la poblacin (nmeros del 1 hasta N, donde el
nmero 1 es el primero de la lista, el 2 el segundo y as sucesivamente hasta el final de la lista).

Del men seleccionar la opcin Anlisis de datos y luego la opcin Muestra, indicar en el Rango
de entrada la columna donde esta numera las poblacin y finalmente, en Numero de muestras indicar
el tamao de muestra a extraer ( n ).

Tambin se puede usar la tabla de nmeros aleatorios (ver anexo 6) de la siguiente manera: se numera la
poblacin con los nmeros 01, 02, 03, , 99. Ubicndose en la primera columna y en la primera fila y solo
tomando en cuenta los dos primeros dgitos de los nmeros de la tabla se seleccionan los elementos 63,
43, 88 hasta completar la muestra.
Actividad 64: De un curso de Estadstica (ver listado adjunto) obtenga una muestra aleatoria de tamao 5
usando:
a) La opcin muestra del programa Excel
b) La tabla de nmeros aleatorios

67

8.11.3 Tamao de muestra segn la estimacin de la media


Definicin 8.9: PRECISION
La precisin se define como la distancia mxima tolerable entre el parmetro y su estimacin:
donde

^ es el estimador de

es el error absoluto de muestreo (error de precisin)

^ | e
|

68

Definicin 8.10: CONFIABILIDAD

( 1 )100 , con

La confiabilidad

0< <1 , est definida como la seguridad de que se cumpla la

precisin estipulada y est medida en trminos de probabilidad:

^ | e ) =1
P (|

Actividad 65: Caso cuando la poblacin sea normal y varianza poblacin

conocida. Asuma el

supuesto de normalidad en la poblacin objetivo y aplique los conceptos de precisin y confiabilidad para

Z=

determinar la frmula de tamao de muestra. Ayuda: despeje n de la expresin:

Respuesta: n=

Z /2
e

x
/n

Actividad 66: El cobro de valorizacin de las 21 mega obras en la ciudad de Cali se hizo con base en la
capacidad de pago de las familias propietarias Cul es el ingreso promedio de las familias en los estratos
III y IV (la clase media) en la ciudad de Cali? Para resolver este interrogante se debe recurrir a una
muestra debido a que el nmero de familias en estos estratos es muy grande Cul debe ser el tamao de
la muestra apropiado si se quiere un nivel de confianza de 95% y un error en la estimacin no mayor a $
100,000? En un estudio similar se estim una desviacin estndar de los ingresos por familia de 500,000
pesos. Respuesta: 96
Actividad 67: Caso cuando la poblacin sea normal, varianza poblacin
muestra pequea. En la situacin que no se conozca la varianza poblacional (

2 ) se debe recurrir a

procedimientos de estimacion para obtener un valor aproximado de dicho valor. Como

S2

se debe recurrir a la formula

de libertad. La frmula resultante es

t /2, v

x
S / n

que sigue una distribucin t-student con

2 se estima con
v =n1

grados

t
S
n= /2, v
.
e

desconocida y

Este procedimiento tiene el inconveniente de que

depende del tamao de muestra por lo que se tiene que hacer un procedimiento de aproximacin

para obtener el tamao de

n como se indica en el siguiente ejemplo.

Ejemplo: Un estudio sobre colas, se quiere estimar el tiempo promedio de espera en una fila de una caja
registradora en un negocio de abarrotes. Para realizar esta estimacin se va a recurrir a una muestra
aleatoria con una precisin no mayor a 1.5 minutos/cliente y un nivel de confianza del 95%. Una muestra
piloto mostro los siguientes resultados en minutos/cliente: 10, 6, 14, 13, 5, 19, 10, 9, 9, 10. Estime el
tamao de muestra

n .

69

Solucin:
Se propone inicialmente un tamao de muestra tentativo, por ejemplo 41 y se obtiene

se estima de la muestra piloto resultando

n=

2.0214.0 2
=29
1.5

t 0.025,40 =2.021 ,

S=4.0 , para luego calcular el tamao de muestra:

. Obtenido este valor inicial se procede a recalcular el tamao de muestra con

2
t 0.025,28 =2.048 resultando: n= 2.0484.0 =30 . Como este valor no va a cambiar en lo sucesivo, se
1.5

acepta que es el tamao de muestra indicado para estimar el tiempo promedio de espera en una fila del
negocio de abarrotes considerado.

Actividad 68: Analice la relacin entre costos de la obtencin de la informacin muestral y tamao de
muestra.
Ayuda: defina una funcin de costos proporcional al tamao de muestra y la variabilidad de la poblacin a
investigar.

8.12 Determinacin del tamao de muestra para la estimacin de un intervalo de confianza de la


proporcin.
La proporcin poblacional se define como
estimacin de un intervalo de confianza para

X
N donde

tamaos de muestra grandes, es decir, si se cumple

sigue una distribucin Binomial. La

tiene una variante muy usada que corresponde a

n 10 y n(1 ) 10

implica que

se pueda

aproximar a una distribucin normal.


Actividad 69: De acuerdo a la aproximacin de

Z=

a la distribucin normal, use la expresin

P s

( 1) , donde
n

Ps

es la proporcin muestral, para deducir el tamao de muestra


2

estimar un intervalo de confianza para la proporcin. Respuesta:

n=

Z / 2 (1 )
e

para

70

Actividad 70: Como

(1 )

son parmetros desconocidos proponga tres estrategias para

obtener valores aproximados de estos parmetros (Ayudas: i. investigue el concepto de muestra piloto, ii.
Asigne valores a

y considere el tamao de muestra mas grande).

Actividad 71: Una compaa grande quiere estimar la proporcin de empleados que estn a favor de un
cambio en la jornada laboral. Cul debe ser el tamao de la muestra apropiado si se quiere tener un 90
% de confianza y un error no mayor del 8% en la estimacin? Respuesta: 106
Actividad 72: Cmo se afecta el tamao de muestra si se vara el nivel de confianza?, Y si se vara el
error de precisin?, Y si la poblacin es muy variable?. Construya graficas ilustrativas de cada situacin.
Actividad 73: Cmo se afectan las frmulas de tamao de muestra si la poblacin es finita de tamao N?
Actividad 74: La empresa Gallup realiz una encuesta en abril del 2006 para medir la intencin de voto en
la primera vuelta en las elecciones presidenciales en Colombia. Las condiciones para realizar la encuesta
fueron: Marco muestral: Habitantes mayores de edad ubicados en los cascos urbanos de los diferentes
municipios del pas, Tipo de muestreo: Aleatorio sistemtico cuoteado por sexo, error mximo de
estimacin 4%, Nivel de confianza: 95%, Tamao de la poblacin: Aproximadamente 10 millones, obtenga

n0 y n

. Respuesta: 600

Actividad 75: El administrador de una tienda de ropa en un gran centro comercial ha recogido informacin
de las compras realizadas por sus clientes en la primera semana de temporada de fin de ao con el
propsito de evaluar la campaa publicitaria empleada para la poca. Las variables de mayor inters son:
Consumo en pesos por cliente y si es cliente nuevo o antiguo. Para una muestra aleatoria de 120 clientes
de los 5,000 registrados en la base de datos se encontraron los siguientes resultados:
Consumo promedio:

$ 195,630

Desviacin estndar del consumo:

$ 125,980

Un total de 75 son clientes nuevos


a.

Estime intervalos de confianza del 90% para el consumo promedio y la desviacin estndar por
cliente para este negocio. Respuesta: 176,769

b.

214490

Estime un intervalo de confianza del 90% para la proporcin de clientes nuevos para la tienda.
Respuesta:

0.55 0.70

El Administrador de la tienda no contento con estos resultados opto por un nuevo estudio, esta vez
considerando por separado las estimaciones.
2 Fuente: www.elcolombiano.com/debuenafuente/Encuestas%202006/encuestaabril27.

71

c.

Qu tamao de muestra se necesitara para estimar el consumo promedio si el nivel de confianza


deseado es del 98%, un error de precisin de $ 15,000 y una desviacin estndar de $ 100,000?
Respuesta: 241

d.

Qu tamao de muestra se necesitara para estimar la proporcin verdadera de clientes nuevos si


se desea un nivel de confianza del 98% y una margen de error del 5%. Respuesta: 543

e.

Si se tiene que elegir un solo tamao de muestra, Qu tamao de muestra se tomara segn los
resultados de c) y d)?

Actividad 76: Suponga que se tiene la lista de los 120 empleados de una empresa, de los cuales se
seleccionar una muestra aleatoria de

n=20 . Proponga un procedimiento con base en la tabla de

nmeros aleatorios para seleccionar la muestra.

8.13

Muestreo aleatorio sistemtico

Se caracteriza por lo siguiente:

Se puede identificar una secuencia ordenada en la poblacin tal como una base de datos, una lista
o una ruta de tal manera que la muestrea se puede tomar a intervalos constantes
Si la poblacin es de tamao N y la muestra n, se define un nmero

k=

N
n

que determina un

intervalo de seleccin de acuerdo al orden del marco muestral.

Se genera un solo nmero aleatorio entre 1 y

k , al que se denominar L. L ser el primer

elemento de la muestra.

Los (n-1) elementos restantes de la muestra seguirn la secuencia:


L + k ; L+ 2 k ; L + 3 k ;................L+(n-1) k

Nota 1: si el ordenamiento identificado en la poblacin es aleatorio (es decir los elementos de la poblacin
estn ordenados al azar) el muestreo sistemtico se puede considerar equivalente al muestreo aleatorio
simple, y por lo tanto todas las formulas (inclusive las de tamao de muestra) del MAS son equivalentes
para el sistemtico.

Nota 2: Si el esquema de ordenamiento en la poblacin sigue un orden de magnitud de acuerdo a la


caracterstica analizada, el muestreo sistemtico es ms conveniente que el muestreo aleatorio simple.

72

Actividad 77: Las directivas de una institucin universitaria compuesta de 510 empleados quiere consultar
la opinin de sus empleados con respecto a las jornadas de salud implementadas en el ltimo ao, mas
concretamente se quiere determinar si estas jornadas cumplen con las expectativas de la mayora de los
empleados. Para conocer la opinin de los empleados se recurre a una encuesta la cual ser aplicada a
una muestra aleatoria de empleados. Indique el procedimiento para seleccionar una muestra aleatoria
sistemtica de 30 empleados. Realice una simulacin del proceso de seleccin de la muestra con el
programa Excel.

8.14

Muestreo Aleatorio Estratificado

Cuando la poblacin se divide en grupos relativamente homogneos con relacin a la caracterstica


principal del estudio.
8.14.1 Caractersticas del Muestreo Aleatorio Estratificado

En la poblacin se identifican grupos denominados Estratos, cada grupo debe ser homogneo
internamente y claramente diferenciable de los otros grupos.

Se debe definir una variable de estratificacin para identificar los estratos.

Los estratos pueden o no estar compuestos del mismo nmero de unidades, por tal razn la
fraccin de muestreo ( f =n/ N ) puede variar de un estrato a otro.

Existen tres formas alternativas de realizar la estratificacin:

Asignacin igual: Muestras de tamao igual en todos los estratos


Asignacin proporcional: Los tamaos de muestra en cada estrato son proporcionales a los tamaos
de los estratos poblacionales
Asignacin ptima: Cada tamao por estrato es determinado de acuerdo a los costos y al grado de
variabilidad, de tal forma que el error de estimacin sea mnimo para un costo total dado.

Se usar la siguiente notacin para el muestreo aleatorio estratificado haciendo referencia a la poblacin:
L: Nmero de estratos.
Ni: Nmero de unidades muestrales en el estrato i.
N: nmero de unidades muestrales en la poblacin.
N = N1 + N2 + . . .+ NL

Estrato h
1
2
3

Elementos

Y 11 , Y 12 , , Y 1 N

Nh

Wh

Y h

S 2h

N1
N2

W1
W2

Y 1

S 21

WL

73

Y 21 , Y 22 , , Y 2 N

4
5
.
.
.L

Y 2

S 22

.
.
.
.
.

.
.
.
.

NL

Y L 1 , Y L2 , ,Y ln

.
.
.
.

Y L

SL

La siguiente notacin ser utilizada para el muestreo aleatorio estratificado haciendo referencia a la
muestra:
L: Nmero de estratos
ni: Nmero de unidades muestrales en el estrato i

Estrato h

1
2
3
4
5
.
.
.L

Elementos

y 11 , y 12 , , y 1 N

y 21 , y 22 , , y 2 N

nh

wh

y h

sh

y
V ( h)

n1
n2

w1
w2

y 1

s 21

y 2

s2

y
V ( 1)

.
.

.
.
.
.
.

.
.

nL

y L 1 , y L2 , , y ln

wL
.
.
.
.

y
V ( 2)

y L

.
.
.
2

sL

.
.
.
.
.

y
V ( L)

Actividad 78: Una entidad de investigacin socioeconmica est interesada en establecer los ingresos
promedio en un determinado municipio, y decide realizar una encuesta por muestreo para estimar los
ingresos promedio por familia en los hogares del mismo. El municipio se compone de una cabecera
municipal (estrato 1), una zona rural (estrato 2) y una zona industrial (estrato 3). La cabecera municipal
obtiene ingresos principalmente del comercio, la zona rural es fundamentalmente cultivadora de caf y la
zona industrial corresponde a una gran fbrica productora de azcar y alcohol carburante. El estrato 1 est
compuesto de 155 hogares, el 2 de 62 y el 3 de 93. Analice los mritos de usar muestreo estratificado en
esta situacin.

74

8.14.2 Tamao de muestra segn la Estimacin de la Media y la proporcin.


Retomando la expresin:
tiene la expresin:

^ | e ) =1
P (|
, asumiendo normalidad y una probabilidad igual a 0.95 se

e=2 V ( y )

y 2 V ( y )

(debido a

ecuacin contiene la varianza poblacional de

de la cual se obtiene:

e
V ( y )=
4

. Esta

que se estima de la siguiente manera:

Sea

1
y = N i y i entonces la varianza de
N i=1

V ( y )=

ser:

1
2
2
2
N V ( y 1 ) + N 2 V ( y 2) + + N L V ( y L ) ]
2[ 1
N

N n
1
N 21 1 1
2
N1
N

S21
N n
++ N 2L L L
n1
NL

)( )

L
N n
1
2 N 2i i i
Ni
N i=1

)( )]

)( )
Si
ni

Por el supuesto de que


observaciones

S2L
nL

n=n1 +n2 + ..+n L . hay muchas maneras de asignar el nmero de

ni al estrato i-simo, esto se denota mediante la ecuacin:

ni=n wi , con i=1,2, .. , L

Reemplazando esta expresin en la frmula de

V ( y )

tamao de muestra para una poblacin estratificada:

N 2i S2i
w
i=1
i
L

n=

e2 N 2
+ N i S2i
4
i=1

Formas de manejar

wi :

e igualando a

e2
4

se obtiene la frmula para

75

1. Fracciones iguales en cada estrato:

w 1=w 2==w=

1
L

2. Asignacin proporcional. Los tamaos de muestra son proporcionales a los tamaos de los

ni=n

estratos:

( NN )
i

resultando la frmula:

N i S 2i
n=

i=1

e 1
N + N i S2i
4 N i=1

Actividad 79): Retomando la actividad 78, se tienen las desviaciones estndar de los ingresos de cada
uno de los como

S 1=$ 195,000, S2 =$ 72,000 y S 3=$ 234,000,

y un error de estimacin de $50,000,

seleccione los tamaos de muestra en cada caso:


1. Fracciones iguales en cada estrato. Respuesta: 15 individuos por estrato
2. Con asignacin proporcional al tamao del estrato. Respuesta: 25, 10 y 15 individuos por cada
estrato.
Para el caso de la proporcin,

, la frmula para el tamao de muestra es:

N 2i pi qi /wi
n=

i=1
2 2

pi es la proporcin poblacional del estrato i que se puede estimar con la proporcin muestral del

Donde
estrato i

8.15

N e
+ N i pi qi
4
i=1

^pi con una muestra piloto.

Muestreo por conglomerados

Los conglomerados son agrupaciones con caractersticas similares entre ellos pero con una variacin
importante dentro de cada grupo, se puede pensar que cada conglomerado representa las caractersticas
de la poblacin. Las agrupaciones (o los conglomerados) se forman frecuentemente por zonas
geogrficas. A modo de ejemplo, suponga que se quiere investigar la acogida de una nueva marca de
bebida gaseosa en la ciudad de Cali, una manera de hacerlo sera identificar agrupaciones naturalmente
formadas como son los grandes centros comerciales, cada centro sera un conglomerado, se
seleccionaran algunos de ellos y se hara la encuesta a los clientes que se encuentren all.

76

8.15.1 Caractersticas del muestreo por conglomerados


Las principales caractersticas son:

En la poblacin se identifican grupos que, a diferencia de los del muestreo estratificado, se espera
que internamente sean heterogneos en la variable de agrupacin
Generalmente los conglomerados los forman unidades cercanas geogrficamente
Se usa un muestreo por conglomerado principalmente para reducir costos y comodidad en la toma
de datos ms que por lograr mrgenes de error menores que otros mtodos de muestreo.

Existen dos formas de hacer muestreo por conglomerados:


1) Una sola etapa: Se identifican los conglomerados y se hace una seleccin aleatoria de ellos. De cada
conglomerado seleccionado se investigan todos sus elementos.
Ejemplo: Se desea estimar el costo promedio por paciente en las urgencias de los hospitales pblicos en
el Valle del Cauca. Aqu los hospitales son los conglomerados, se hara una seleccin aleatoria de
hospitales y para cada hospital se calculara el costo promedio de atencin por paciente.
2) Multietapico: Se identifican los conglomerados y se seleccionan aleatoriamente alguno de ellos, luego
de cada conglomerado seleccionado se hace otra seleccin aleatoria y as sucesivamente hasta que
se seleccionen los elementos a los que se les va a tomar la informacin.
Ejemplo: Se quiere determinar las caractersticas de un estudiante universitario en la ciudad de Cali, es
decir, se quiere medir tipo de carrera preferida, porcentaje de uso diario del internet, nmero de horas de
estudio fuera de clase, etc. Un marco de muestreo que contenga a todos los estudiantes universitarios de
Cali no existe y es demasiado costoso generarlo, luego la manera ms apropiada para levantar los datos
es recurrir a la agrupacin natural de estudiantes universitarios por universidades, identificndose los
siguientes grupos o conglomerados: conglomerado del sur compuestos de las universidades del Valle,
Javeriana, Autnoma, Icesi, San Buenaventura, etc., conglomerado del oeste donde estn las
universidades Libre y Santiago de Cali y el conglomerado del norte donde se ubican la universidad
Cooperativa de Colombia, Emavi, entre otros centros de educacin superior. Se seleccionan las
universidades y de cada universidad seleccionada se hace una estratificacin por facultades, de cada
facultad seleccionada, se identifican agrupaciones de estudiantes por cursos donde fcilmente se pueden
obtener listas de clase para hacer la seleccin final de estudiantes de una manera aleatoria.
Actividad 80: Investigue un caso de muestreo por conglomerado. Ayuda: consulte la pgina web del Dane
en la opcin Bsqueda de investigacin Encuesta.

8.15.2 Tamao de muestra en los conglomerados


Para el caso de muestreos por conglomerados de una sola etapa, el tamao de muestra depende de la
estimacin a realizar (promedio, total, proporcin), de la cantidad de conglomerados de la poblacin, de la
variacin del estimador a obtener y la precisin desea en dicho estimador. La frmula propuesta por

77

Scheaffer R. para el problema de tamao de muestra para estimar el promedio

y la proporcin

es:

N 2c
n=
2 2
N B2 M
+ c
4
Donde:

: Nmero de conglomerados en la poblacin

n : Nmero de conglomerados seleccionados en la muestra

mi : Nmero de elementos del conglomerado i, i=1, , N


N

: Nmero de elementos en la poblacin ( M = m i )


i=1

: Tamao promedio del conglomerado en la poblacin (

: Error de estimacin de

M
M=
N )

y i : Total de observaciones en el conglomerado i


z i : Total de observaciones del conglomerado i que poseen la caracterstica de inters
2c

: Varianza del estimador poblacional (si no se conoce se puede estimar con

s 2c

la varianza del

estimador en una muestra piloto)


Para estimar la varianza del estimador
n

yi

2
c

s=

( y i y mi )2
i=1

n1

con

y = i=1
n

mi
i=1

y para el caso de la proporcin:

s c , en el caso de la media, se recurre a la formula:

78
n

zi

2
c

( z i ^p mi )2

s=

i=1

n1

con

^p=

i=1
n

mi
i=1

En el caso de que no se conozca

1 mi
m=
n i=1

se estima con

el tamao promedio en la muestra

piloto.

Actividad 81: Resuelva el siguiente caso


Un investigador social quiere estimar cuanto tiempo promedio demora un estudiante en una universidad
local en llegar a clase a las 7 de la maana en un da normal de clases. Esta estimacin se desea con un
error de estimacin ( B ) no mayor de 5 minutos. Asuma 150 salones de clase y se hizo una muestra
piloto para lograr valores aproximados de algunos indicadores con los resultados siguientes:
Conglomera
do
( i

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Nmero de
estudiantes
25
35
38
26
28
30
32
32
35
34
21
12
15
20
26
30
32
15
10
35

Tiempo total
por
conglomerado
(

yi

625
1050
2280
650
840
1050
1280
1600
2100
1870
735
480
675
1120
1482
1800
2048
885
650
1820

Nmero de
estudiantes
que utilizan el
Mio (
12
20
25
10
5
15
20
20
24
25
8
2
7
10
15
12
20
5
5
25

zi

79

Estime el nmero de conglomerados (salones de clase) necesarios para hacer la estimacin con el error
establecido. Respuesta: 27 salones de clase.
Actividad 81: Resuelva el siguiente caso
Haciendo referencia a la actividad 80, suponga que el investigador desea estimar la proporcin de
estudiantes que utilizan el servicio de transporte masivo Mio. Determine el nmero de conglomerados
necesarios para estimar la proporcin

con un error no mayor del 5%. Respuesta: 32 salones de

clase.
Actividad 82: Construya una lista indicando las ventajas y desventajas de cada uno de los muestreos
probabilsticos presentados
8.16

Muestreo de aceptacin

En control de calidad es muy frecuente recurrir al muestreo para hacer diagnsticos de los artculos
producidos o recibidos (estos normalmente se denominan lotes). El procedimiento consiste en revisar parte
del lote y tomar una decisin sobre la calidad del mismo. Este procedimiento es llamado muestreo de
aceptacin.
El muestreo de aceptacin debe cumplir unos requerimientos o normas establecidas por las empresas o
departamentos de control de calidad constituyendo de esta manera en lo que se denomina Plan de
Muestreo.
Existen dos tipos de planes de muestreo de aceptacin: Por atributos o por variables. Los atributos son
caractersticas de calidad que se expresan en forma de pasa, no pasa. Las variables son caractersticas
de calidad que se miden en escala de razn.
Un plan de muestreo de aceptacin debe tener cierto tipo de plan o reglamento preparado para determinar
si un lote debe aceptarse o rechazarse. Por lo general, la regla se establece en trminos de: El nmero de
muestras a tomar de un lote dado, tamao de cada muestra, definicin de una variable de decisin y un
criterio de aceptacin. Un plan muestral de una sola etapa es un procedimiento en el que se toma una
muestra aleatoria de n unidades del lote para su apreciacin, y se determina el destino del lote con base
en la informacin contenida en la muestra. Por ejemplo, un plan de muestreo simple consistira en una
muestra de tamao n y un nmero de aceptacin c. El mtodo es el siguiente: Se seleccionan n artculos
del lote, si hay c o menos defectuosos en la muestra se acepta el lote, en caso contrario se rechaza el lote.

8.17

Taller

1. Determinar la clase de muestra (probabilstica o no probabilstica) y el mtodo (aleatorio simple,


estratificado, por conglomerados, sistemtico, por conveniencia, por cuotas)
a. Poblacin: Listado de nombres que aparecen en el directorio telefnico.
Tcnica de muestreo: Se genera un nmero aleatorio entre 1 y 50 y a partir de este nmero se
selecciona un nombre por cada cincuenta en la lista.
b. Poblacin: Estudiantes de pregrado matriculados en nuestra universidad, en el presente semestre.
Tcnica de muestreo: Ir a la cafetera de la universidad y seleccionar un estudiante cada tercera
mesa y entrevistarlo.

80

c. Poblacin: Hoja de registro de pasajeros en el vuelo de Avianca 1578 de Bogot-San Andrs


Tcnica de muestreo: Seleccionar todos los pasajeros que solo registraron equipaje de mano.
d. Poblacin: Los clientes de un hipermercado local durante el fin de semana pasado.
Tcnica de muestreo: El gerente del hipermercado selecciona 10 etiquetas de una urna que
estuvo dispuesta para que los clientes depositaran las etiquetas marcadas con su nombre en el
momento de hacer la compra.
e. Poblacin: Base de datos de la empresa que presta los servicios pblicos en la ciudad de Cali
Tcnica de muestreo: Se ordena la base de datos segn el estrato reportado por cada usuario y
se seleccionan mediante Excel usando la tcnica de nmeros aleatorios a 200 usuarios de cada
estrato.
2. Analice cada caso y resuelva las preguntas correspondientes:
a.

La oficina de recreacin y turismo adscrita a la alcalda de la ciudad de Cali quiere


determinar mediante una encuesta cuales son las actividades deportivas de mayor acogida por los
jvenes en edad escolar para las prximas vacaciones de estudio. Explique por qu un muestreo
por conglomerados de barrios es la mejor alternativa para seleccionar la muestra frente a un
muestreo por estratificacin socio-econmica o cualquier otro mtodo de muestreo.

b.

Una universidad local quiere determinar los costos que demanda cada estudiante para la
universidad, el uso la zona de parqueo para los estudiantes y el porcentaje de estudiantes con
internet en casa. Indique cul o cules seran los mtodos de muestreo apropiados para resolver
cada situacin. Justifique sus respuestas.

c.

La junta administrativa de riesgos profesionales, A.R.P, de una compaa de seguros ha


decidido hacer un estudio para determinar la causa de los accidentes relacionados con el trabajo en
las 5.000 empresas a su cargo. Para ello decidi hacer una muestra de 250 de los 2.500 accidentes
relacionados con el trabajo y reportados el ao anterior a la compaa. Los informes de accidentes
estn archivados por fecha en una base de datos. Indique cual sera el mtodo de muestreo ms
apropiado. Justifique su respuesta

d.

La divisin de Estadstica y Proyecciones econmicas de la CEPAL desea actualizar las


estadsticas de Pobreza, Mercado Laboral, Educacin, De condiciones de vida y salud en Amrica
Latina para lo cual ha diseado una encuesta a aplicar para las cabezas de familia en un muestreo
aleatorio en las cinco principales ciudades de cada pas.
Proponga un mtodo de muestreo a aplicar en las cinco principales ciudades de Colombia. El
muestreo debe tener en cuenta: Tamao de la ciudad y estratificacin socio-econmica.

e.

Una empresa de confitera local toma una muestra cada hora de su producto estrella y
sobre esta muestra realiza control de calidad. La produccin es continua y va sobre una banda
transportadora de la cual automticamente se abre una compuerta cada hora para seleccionar los
productos a muestrear. Explique por qu este mtodo de seleccin de la muestra es un mtodo
valido.

f.

El alcalde de la ciudad de Cali quiere estimar el nmero promedio de pasajeros por hora
pico que utilizaran el servicio de transporte masivo MIO. El tipo de muestreo ms apropiado para
hacer esta estimacin seria por conglomerados, donde los conglomerados son las comunas
existentes en la ciudad. Qu ventajas y desventajas tendra este tipo de muestreo?

81

g.

3.

Una compaa de productos de aseo ha lanzado un nuevo producto y quiere conocer la


aceptacin de dicho producto en Colombia. El estudio de mercado determino aleatoriamente una
muestra de ciudades y en cada ciudad seleccionada se analizaron las ventas obtenidas por todos
los centros comerciales donde se distribuye el producto. Indique el tipo de muestreo realizado.
discutas las ventajas de este tipo de muestreo con respecto a un muestreo aleatorio simple.
A una empresa de investigacin de mercados le han encargado un estudio sobre el grado de
satisfaccin de los servicios pblicos (agua, electricidad, gas, basuras) en la ciudad de Cali. Para el
diseo del muestreo se tiene: el mapa de la ciudad donde se ubican cada uno de los barrios con
sus correspondientes manzanas, de cada manzana seleccionada se eligen 5 viviendas y de cada
vivienda se hace la encuesta de satisfaccin al cabeza de hogar. Se pide:

a.
b.
c.
d.
e.
f.

Identificar la poblacin o poblaciones que presenta este estudio.


Identificar el marco (o marcos) que se deben elaborar.
Cules son las unidades muestrales?
Qu mtodo de muestreo debe aplicarse en cada caso?
Proporcione cuatro caractersticas a estudiar.
Defina cuatro parmetros a estimar.

4. Para cada uno de los siguientes casos proponga: Un Marco muestral, La unidad de muestreo y El Plan
de Muestreo ms conveniente.
a. Una industria est considerando la revisin de su poltica de jubilacin y quiere estimar la proporcin de
empleados que apoyan la nueva poltica. La industria consta de 87 plantas independientes localizadas
en toda Amrica Latina. Ya que los resultados deben ser obtenidos rpidamente y con poco tiempo, la
industria decide usar un muestreo de tamao de 15 plantas y de las cuales se obtienen las opiniones de
los empleados.
b. La seccin de control de calidad de una empresa usa el muestreo para estimar la cantidad promedio de
llenado en latas de 12 onzas que salen de una lnea de produccin. La muestra se obtiene
seleccionando una lata de cada cincuenta (50) de la lnea de produccin.
c. Un centro de investigacin agrcola desea estimar el peso total de una nueva variedad de tomate
sembrada en una plantacin de 100 lneas con 50 plantas por hilera. Se espera que cada planta
produzca 1.5% ms de peso que la variedad de tomate tradicional.
d. Una entidad aseguradora de riesgos desea estimar el nmero total de horas-hombre prdidas debido a
accidentes de trabajo de los empleados, en un mes determinado. Los obreros, los tcnicos y los
administrativos tienen diferentes tasas de accidentes lo cual se debe reflejar en el muestreo a realizar.
e. Se realiz un diseo experimental con tres variedades de caa de azcar en el piedemonte llenero de la
cordillera oriental en Colombia con el propsito de determinar las variedades de mejor respuesta
agronmica. El diseo se hizo con 50 parcelas sembradas de la variedad Cenicaa 8475, 30 parcelas
con variedad Republica Dominicana 7511 y 25 parcelas con la variedad San Paulo 701284. Se desea
estimar la altura promedio de cada variedad por parcela para lo cual se recurre a una muestra aleatoria.
f.

Una agencia de turismo desea estimar la acogida de un nuevo plan vacacional para lo cual se
selecciona un grupo inicial de asociados a una cooperativa y se les informa del plan obsequindoles
una semana adicional del plan si logran atraer a una nueva persona al plan.

5. Las directivas de la universidad Icesi desean hacer un estudio sobre el nivel de empleo (tiene empleo,
no tiene empleo) y salario devengado por los egresados de pregrado en las dos ltimas promociones.

82

Para hacer el estudio se solicit a la oficina de registro acadmico un listado en orden alfabtico de
todos los estudiantes de pregrado graduados en las dos ltimas promociones. A cada egresado se le
asign un nmero secuencial de 0001 a 1280. Resuelva:
a. Indique el marco muestral y La unidad de muestreo para este estudio
b. Disee un plan de muestreo teniendo en cuenta que la proporcin de egresados con empleo tiene un
margen de error del 10%, un nivel de confianza del 90% y un nivel de empleo del 90%.
c. Disee un plan de muestreo teniendo en cuenta que el ingreso promedio de un egresado es de $ 1,
500,000, un margen de error del 1% del salario promedio y un nivel de confianza del 90% (el nivel
salarial de los egresados presenta un coeficiente de variacin del 5%)
6. Un Profesor de Estadstica quiere investigar sobre el tiempo diario de estudio de 30 estudiantes de
una clase:
Estudiantes
de
Mercadeo
Miguel
Victoria
Mara
Fernanda
Julio
Rosa
Fabin
Ana
Laura
Enrique
Carmen
Marcelo
Patricia
Dalila
Juliana

Nmero de
horas
3.0
2.5
2.5
3.0
3.5
2.5
2.0
2.5
2.0
2.5
3.0
3.0
4.0
2.5
3.0

Estudiantes de
Administracin
Juan
Alicia
Pedro
Marcos
Alberto
Jorge
Jos
Carlos
Eval

Nmero de
horas
2.0
2.0
1.5
2.0
1.5
2.0
2.0
2.0
1.5

Estudiantes de
Contadura
Amparo
Astrid
Beatriz
Cindy
Rafael
Eduardo

Nmero de
horas
1.0
1.5
1.0
0.5
0.5
0.0

Resuelva indicando el procedimiento seguido para la seleccin de la muestra.


a. Elija e indique una Muestra no aleatoria de tamao 5 de esta poblacin y estime el nmero de horas
promedio de estudio. Comente sobre las desventajas de esta muestra.
b. Elija e indique una Muestra Aleatoria Simple de tamao 5 de esta poblacin y estime el nmero de
horas promedio de estudio. Comente sobre las desventajas de esta muestra.
c. Elija e indique una Muestra Aleatoria sistemtica de tamao 5 de esta poblacin y estime el nmero de
horas promedio de estudio. Comente sobre las desventajas de esta muestra.
d. Elija e indique una Muestra Aleatoria Estratificada de tamao 10 de esta poblacin usando asignacin
proporcional y estime el nmero de horas promedio de estudio.

83

e. Obtenga un intervalo de confianza del 92% para el nmero de horas promedio de estudio con los datos
de la muestra que considere mejor representa a la poblacin indicada.
7. La junta administrativa del condominio Las Vegas de Calima realiza una asamblea anual con sus 450
propietarios. En cada asamblea se realiza una encuesta a 30 propietarios para conocer el grado de
satisfaccin con las decisiones de la anterior asamblea. Explique cmo se tomara una muestra
aleatoria simple de

n=30 .

8. Una compaa hipotecaria de casas tiene N hipotecas numeradas consecutivamente en el orden en


que fueron otorgadas durante un periodo de 20 aos. Existe una tendencia de incremento en los saldos
sin pagar a causa del aumento en el costo de la vivienda a travs de los aos. La compaa desea
estimar la cantidad total de los saldos sin pagar. Empleara usted un muestreo aleatorio o un
muestreo sistemtico? Justifique su respuesta.
9. Un analista de investigacin de mercados quiere estimar la proporcin de personas que favorece el
producto de su compaa respecto a un producto similar de una compaa rival. El rea de prueba para
esta investigacin es la ciudad de Cali. El analista tambin est interesado en obtener estimaciones
separadas para la proporcin de personas con edades de 18 a 25 aos y para mayores de 25 aos.
Analice posibles diseos de muestreo para esta encuesta.
10. Se tiene la siguiente poblacin de datos correspondientes a los pesos de un tem fabricado con un
estndar promedio de 60 kilogramos y una desviacin estndar de 0.25. Cada tem es almacenado
segn el espacio disponible en la bodega y es rotulado con un nmero secuencial que indica el orden
de produccin, as por ejemplo, al primer peso de 59.5 se le rotul (001), al segundo de 54.0 se le
rotul (002) y as sucesivamente.
a. Como un procedimiento de control se debe estimar un intervalo de confianza basado en una
muestra aleatoria con un nivel de confianza del 90% y un error de precisin de 0.1 kilogramos, de
cunto debe ser el tamao de muestra requerido para estimar el intervalo de confianza?
b. Utilice una tcnica aleatoria para seleccionar la muestra querida para estimar el intervalo de
confianza en a). Indique el procedimiento utilizado y la muestra resultante.
c. Con los datos de la muestra estime el peso promedio de produccin. De su respuesta con un
intervalo de confianza del 90%. es correcto el estndar promedio de 60 kilogramos? Use el
intervalo estimado para responder a la pregunta.
59.5

54.0

61.4

69.9

50.8

62.3

56.4

64.3

50.1

54.3

58.6

61.7

52.6

63.5

57.9

68.7

59.3

53.6

56.0

53.6

54.3

56.8

51.1

66.6

64.5

68.6

57.9

69.5

54.4

56.0

64.9

59.0

58.6

51.8

53.9

59.3

65.8

55.0

61.5

50.2

57.8

67.6

50.4

66.0

54.8

69.7

68.4

50.6

52.5

61.2

63.6

64.9

62.5

53.6

53.3

52.3

59.6

60.0

55.7

56.1

69.4

65.3

61.3

57.7

58.5

67.4

53.4

68.1

61.7

68.4

84

54.8

60.1

68.3

69.0

69.2

55.8

60.6

64.1

55.8

56.6

68.8

51.8

64.5

69.0

53.8

56.5

50.4

54.2

63.0

55.1

55.7

55.0

69.9

69.8

56.3

67.6

62.8

54.5

62.8

52.6

54.6

58.9

52.4

50.5

56.6

58.3

60.7

59.4

50.3

51.4

51.3

58.0

59.7

56.1

52.0

51.2

57.5

63.2

53.9

63.0

67.6

60.5

63.8

53.6

58.9

65.6

66.5

64.1

50.9

60.5

65.7

67.0

66.4

65.9

61.0

66.3

53.4

68.3

50.9

63.2

69.6

59.3

56.8

54.1

52.4

57.6

60.0

54.8

68.0

54.8

65.7

57.7

62.0

55.4

66.6

57.4

65.1

52.1

59.2

50.5

57.6

65.6

66.1

64.0

64.5

51.9

58.1

60.3

65.0

65.1

66.7

51.7

69.9

58.6

64.9

52.4

69.6

53.3

62.8

61.5

65.8

55.4

58.7

65.1

50.1

52.7

51.1

50.1

62.5

51.5

52.2

58.2

53.6

63.1

68.9

54.2

62.2

62.6

51.5

53.6

11. Una entidad no gubernamental desea hacer un estudio sobre Caractersticas socio-econmicas de
personas vctimas de la delincuencia en la ciudad de Cali en el ltimo ao. El modo de toma de datos
es una encuesta que se aplicara a cada persona mayor de 15 aos seleccionada.
a. Identifique la poblacin objetivo.
b. Indique el tipo de muestreo ms apropiado.
CAPTULO 9
EVALUACIN FINAL

INSTRUCCIONES: Los ejercicios del 1 al 13 se resuelven segn el siguiente enunciado:


El decano de una facultad de una universidad local quiere investigar los factores que inciden el porcentaje
de prdida del curso de ESTADSITICA y PROBABILIDAD para lo cual tiene informacin de 15 cursos con
las siguientes variables: Nmero de estudiantes reprobados por curso, Y; Rendimiento global del curso
medido en trminos del promedio del curso,
curso,

x 2 ; Horario: 0; maana, 1: tarde,

x 1 ; Experiencia docente, en aos del profesor a cargo del


x 3 ; Nmero total de estudiantes que terminaron el curso,

x 4 ; Nota promedio del examen final del curso,

x 5 . Los datos son los siguientes ( =0.10 :

85

Curso

x1

x2

x3

x4

x5

3,9

30

20

4,1

3,8

25

35

3,3

3
4
5
6
7

3,3
3,5
2,9
3,3
2,8

6
10
3
5
1

0
0
0
0
0

20
35
30
25
35

3,5
3,2
3,4
3,1
3,2

15
12
16
15
18

3,5

35

3,1

10

3,8

25

20

3,7

10

3,1

35

2,9

13

11
12

3,0
2,9

3
4

0
0

36
36

3,4
3,3

15
13

13

4,2

22

20

3,5

14

3,3

12

36

2,5

12

15

3,1

15

35

3,4

14

1. Qu influencia tiene la variable Horario en el Nmero de estudiantes reprobados por curso ? Use un
modelo de regresin lineal simple con estas variables.
2. Determine la variable X que mayor correlacin tiene con la variable Y. Interprete esta correlacin en el
contexto de las variables del problema.
3. Construya un modelo de regresin lineal simple con las variables: Nota promedio del examen final del
curso y Nmero de estudiantes reprobados por curso. Indique el modelo, el coeficiente de determinacin
e interprete los coeficientes

b0

b1 .

4. Escriba el modelo (modelo 1) de regresin lineal mltiple que prediga el Nmero de estudiantes
reprobados por curso con base en todas las dems variables propuestas.
5. Interprete los coeficientes de las variables Experiencia docente y Nota promedio del examen final
del curso en el modelo 1.
6. Indique e interprete el coeficiente de determinacin mltiple para el modelo 1.
7. Evale los supuestos de Multicolinealidad del modelo 1. Use todos los indicadores y procedimiento
disponibles para ello.
8. Evale los supuestos de independencia del modelo 1. Use todos los indicadores y procedimiento
disponibles para ello.
9. Evale la linealidad general de modelo 1. Plantee y valide las hiptesis correspondientes.
10. Evale la significancia de cada variable incluida en el modelo 1.

86

11. Proponga un modelo (modelo 2) que prediga el Nmero de estudiantes reprobados por curso solo
con las variables explicativas significativas y sin problemas de multicolinealidad
12. Proponga un modelo (modelo 3) que prediga el Nmero de estudiantes reprobados por curso
usando las variables del modelo 2 y realizando las transformaciones matemticas bsicas.
13. De un conclusin general sobre la conveniencia o no de usar el modelo 3 para predecir el Nmero de
estudiantes reprobados por curso. Ayuda: valide todos los supuestos del modelo 3 y luego si
concluya.
Instrucciones: Las preguntas 14 al 20 son para responder falso o verdadero segn el enunciado, en
caso de ser falso justifique la razn de su falsedad
14. La ventaja de hacer censo en lugar de muestreo es que los resultados son ms cercanos a la realidad
( )
15. El tamao de muestra en la regresin est determinado por el teorema del lmite central ( )
16. El muestreo sistemtico tiene la ventaja que recorre a toda la poblacin en el proceso de extraccin de
la muestra ( )
17. La principal fuente de error en una investigacin que recurre al muestreo aleatorio es lo difcil que es
controlar a los encuestadores a la hora de la toma de datos ( )
18. El supuesto de varianza constante en un modelo de regresin implica que la varianza de la variable
dependiente (Y) tambin sea constante ( )
19. El anlisis de los residuos (grafica de residuales) en un modelo de regresin lineal se hace para
validar el supuesto de normalidad ( )
20. El tamao de muestra en el muestreo aleatorio simple est directamente relacionado con la precisin
establecida en el estudio ( )
Instrucciones: Resuelva los ejercicios 21 al 24 segn el enunciado respectivo (debe justificar cada
respuesta)
21. Un administrador de un negocio usa la siguiente tcnica para obtener una muestra:lanza un par de
dados, si la suma de los resultados es mayor de 9 selecciona al prximo cliente que entra a su
negocio, en caso contrario espera 10 minutos y vuelve a lanzar los dados La muestra generada por el
administrador es aleatoria ( )
22. En una Facultad con 1.000 estudiantes matriculados, se imparten tres carreras. 260 estudian la
carrera A, 340 la carrera B y 400 la carrera C. Se quiere seleccionar una muestra de 150 estudiantes.
Cuntos debern ser de cada carrera si la asignacin es fija? Y si es proporcional?
23. Una compaa de marketing saca una muestra aleatoria de la gua de telfonos tomando 10 personas
cuyos apellidos comiencen con letra A, 10 personas cuyos apellidos comiencen con la letra B, y as
sucesivamente con cada letra del alfabeto, para una muestra total de 260 personas.
a. Qu clase de diseo muestral deber ser aplicado?
__________________________________________________________________________

87

b.

Tienen todos los que estn en la gua de telfonos igual posibilidad de ser elegidos en la
muestra?
__________________________________________________________________________

c. No todos los residentes de la ciudad tiene telfono, Qu clase de sesgo va a provocar este
hecho?
__________________________________________________________________________
24. Se hizo un estudio de mercado para determinar la frecuencia de pedidos de 40 tiendas de centros
educativos en la ciudad de Cali (ver informacin de los centros educativos luego de las preguntas)
Responda:
a. Elija e indique una Muestra no aleatoria de tamao 5 de centros educativos y estime el nmero de
productos tipo A solicitados. Comente sobre las desventajas de esta muestra.
b. Elija e indique una Muestra Aleatoria Simple de tamao 5 de centros educativos y estime el
nmero de productos tipo A solicitados. Comente sobre las desventajas de esta muestra.
c. Elija e indique una Muestra Aleatoria sistemtica de tamao 5 y estime el nmero de productos tipo
A solicitados. Comente sobre las ventajas de esta muestra.
d. Con los datos de la muestra obtenida en c) obtenga un intervalo de confianza del 93% para El
numero promedio de productos tipo A solicitados.
e. Si la poblacin completa de centros educativos son 300, y quiere estimarse el promedio de pedidos
del producto A con una confianza del 93% y un error mximo de 3 productos, Cul debera ser el
tamao de muestra apropiado?. Puede utilizar la informacin de los 40 centros educativos como
muestra piloto.
f.

Repita c) y d) pero ahora para el tipo de producto B.

g. Repita c) y d) pero ahora para el tipo de producto C.

Centro educativo
Amricas Unidas
Andino
Benalcazar
Carlos Castro
Catlico
Comfenalco
Coomeva
Diana Oese
Divino Nio
Eustaquio Palacios
Fray Damin Gonzlez
Horacio Gmez

Cantidad
producto A
101
105
84
82
101
87
124
102
111
101
101
96

cantidad
producto B
214
209
214
194
202
197
207
180
196
214
185
175

cantidad
producto C
300
308
316
292
306
305
308
295
302
299
304
297

88

Horizontes del Futuro


Incoval
Juan Bautista Vico
Juan Pablo II
Juan Rulfo
Juanambu
Juvenilia
La milagrosa
Liceo anglo del Valle
Liceo Moderno
Liceo San Jos
Manuela Beltrn
Manuelita Senz
Mara auxiliadora
Mara Inmaculada
Mi fortaleza
Nuestra seora de la
Esperanza
Nuevo Horizonte
Pedaggico San Pablo
Pioln
Remanso de Comfandi
Repblica de Panam
Rey David
San Luis Gonzaga
Santa Isabel
Santa Anita
Santa Juana
Teresita de Avila

94
105
96
104
119
99
97
108
120
122
99
109
116
97
117
87

199
201
199
199
214
203
208
201
198
191
207
192
201
218
204
201

311
318
296
316
309
321
296
303
288
296
282
304
300
296
297
295

106
106
105
109
112
101
106
77
110
109
105
104

212
192
214
200
202
189
206
191
193
192
211
199

301
301
303
297
298
303
307
310
278
304
309
300

25. En cada una de las siguientes situaciones, determine el tamao de muestra requerido:
a. Una compaa se divide en varias secciones y cada una utiliza una computadora central. La
direccin est interesada en saber la cantidad de tiempo de uso de la computadora por los 500
operadores de la divisin A en un da promedio. Dado que la varianza de la poblacin de tiempos
es igual a 0.5 horas2, el error de precisin es de 0.1 horas y la confianza deseada es del 98 %,
cul es el tamao de muestra necesario para establecer el tiempo medio diario de computadora
usado por la divisin A?
b. Un producto nuevo se ha de lanzar al mercado y la direccin de mercadeo desea saber la
proporcin de personas que gustaran de dicho producto lo suficiente para comprarlo. de qu
tamao debe ser la muestra a entrevistar para asegurar un nivel de confianza del 98% y un error
tolerable de 0.05, si estudios anteriores muestran una intencin de compra del 60% para cualquier
producto nuevo de esta compaa?
Instrucciones: Las siguientes preguntas son de completar:

89

26. Explique cul es el propsito principal de hacer una anlisis de regresin


_________________________________________________________________________________________
27. Explique la diferencia que hay entre los conceptos de Regresin y Correlacin
___________________________________________________________________________________________
28. Describa brevemente el origen de la Regresin Lineal Simple
_________________________________________________________________________________________

29. Explique cul es la diferencia entre un modelo de regresin lineal simple y un modelo matemtico lineal
_________________________________________________________________________________________
30. Por qu razn la tabla ANOVA construida para una regresin lineal mltiple utiliza la distribucin f de Fisher?
_________________________________________________________________________________________

ANEXO 1:
Elementos metodolgicos para desarrollar una investigacin
1.

Introduccin

La investigacin en la Administracin y el Mercadeo no puede escapar al carcter riguroso de una


investigacin cientfica en el sentido de tener una metodologa que garantice resultados acordes con el
mundo real. Debe haber una rigurosidad enmarcada en una metodologa que garantice resultados veraces
y confiables. Ciertamente la investigacin en la matemtica, la fsica o cualquier rea de las ciencias
naturales siempre conllevan a unos resultados probados, en la Administracin y el Mercadeo los resultados
no siempre podrn probarse, pero de alguna manera, el investigador, con la metodologa seguida, brindara
confianza en los resultados obtenidos. Estas son las razones por las cuales se presenta un resumen de los
pasos a seguir en un proceso de investigacin en temas relacionados con la Administracin y el Mercadeo.
Al final del anexo se ha adaptado un caso desarrollado por un grupo de estudiantes a modo de
ejemplificacin de cada uno de los pasos en la metodologa.

90

2.

Conceptos Bsicos

Toda investigacin debe cumplir con unos principios bsicos para que tenga sentido, el primero de ellos es
que aportar algo a la sociedad en que se desenvuelva, es decir debe aportar alguna utilidad y no caer en el
campo de lo
banal e intil, consulte la pgina: http://www.taringa.net/posts/cienciaeducacion/10345511/LoS-10-estudios-mas-inutiles.html donde encontrara varios casos de investigaciones
famosas e intiles. En segundo lugar, la investigacin debe apartarse de cualquier prejuicio personal y ser
totalmente objetiva. Por ltimo, toda investigacin requiere de una secuenciacin de pasos que garanticen
un resultado final, es decir, debe haber una planeacin donde se planten los propsitos de la investigacin,
el clculo del tamao de muestra, la forma de recolectar la informacin y los elementos de anlisis y
verificacin de los resultados.
3.

Etapas en un proceso de investigacin


Concepcin de la idea

Quizs lo ms difcil cuando se desea iniciar un proceso investigativo es concebir la idea de lo que se
quiere investigar y no caer en situaciones ya desarrolladas y probadas. Pregntese Cmo le surgi la
idea a Newton para descubrir la ley de la gravedad? La historia lo cuenta muy jocosamente valindose de
un rbol de manzanas y la cabeza de Newton, mientras ste dorma plcidamente debajo del rbol le cay
una manzana. El mensaje de esta fbula es que las ideas pueden surgir de vivencias propias, de observar
y analizar lo que pasa alrededor del ser humano. Por otro lado, est el deseo del hombre por querer
explicar y controlar las condiciones medio-ambientales donde se desenvuelve lo que lo ha llevado a
muchos descubrimientos.
Despus de que la idea inicial este plateada, lo mas lgico es hacer una bibliogrfica para determinar
hasta qu punto es un problema no resuelto y poder medir los alcances de una nueva investigacin.

Descripcin del problema

Despus de concebir la idea de investigacin, sta se formalizara en una descripcin que implique una
pregunta a resolver, la generacin de variables y sus posibles relaciones y, lo principal, un contexto valido
para observar y probar los resultados obtenidos. Resumiendo, para plantear un problema adecuadamente
se requiere de tres elementos:
i. El problema debe ser expresado claramente como pregunta
ii. El problema debe implicar como mnimo dos variables
iii. Cualquier solucin propuesta al problema debe ser probada en un contexto real
Hay otros elementos mnimos que toda investigacin debe contener, a continuacin se describen los
principales:
a. Contextualizacin. Se refiere que debe haber un contexto espacio tiempo del problema a resolver, es
decir, el medio geogrfico y la poca donde se probaran los resultados.

91

b. Identificacin de factores causantes del problema. Esta identificacin debe conducir a la descripcin
de las variables del problema.
c. Objetivos. Siempre ser posible plantearse objetivos como meta para dar solucin al problema
propuesto.
Una vez que se tiene claro cul es el problema a resolver, se plantean los objetivos generales y especficos
los cuales determinaran los alcances de la investigacin.

Objetivos

Los objetivos indican los propsitos y lo que realmente se quiere desarrollar en la investigacin planteada.
Estos surgen del planteamiento del problema y deben condensar completamente la idea de investigacin.
Se deben formular para que sean la ruta a seguir en los procedimientos que le siguen a la metodologa de
la investigacin. Deben ser formulados de una manera clara y precisa sin ambigedades o generalidades
que conlleven a requerimientos fuera del contexto de la investigacin planteada.

Hay cierta rigurosidad en el planteamiento de los objetivos, se parte de un objetivo general que debe ser
desglosado en objetivos especficos de tal manera estos cubran todo el propsito planteado. Todo objetivo
debe formularse iniciando con un verbo, si es un objetivo especfico se deben evitar usar verbos como
estudiar, analizar, comprender, etc. que se prestan para cualquier interpretacin no deseada.

Justificacin de la investigacin

Toda investigacin debe partir de una situacin problema que la justifique, no inventar problemas donde no
lo hay. Adicionalmente se puede justificar una investigacin, no solo por resolver el problema planteado,
sino tambin, por los aportes que pueda generar en trminos de conocimientos nuevos, avances tericos,
revisiones bibliogrficas y/o elementos adicionales como sugerencias a nuevas investigaciones, nuevas
metodologas, etc.

Marco terico

El marco terico son las teoras, investigaciones y los antecedentes del tema implicado en la investigacin.
La construccin del marco terico depende de lo acertada de la revisin bibliogrfica realizada sobre el
tema de investigacin, no caer en omisiones tales como no consultar a los principales autores reconocidos
por la comunidad intelectual sobre el tema tratado. No sobre advertir sobre el cuidado de citar las fuentes
bibliogrficas consultadas

Diseo de la toma de informacin

En este apartado se deben definir todos los elementos que tienen que ver con la generacin de los datos,
se parte de una descripcin de la variables o factores a considerar en la investigacin, el clculo del
tamao de muestra, la forma de recolectar la informacin (indicar de muestreo a aplicar) y la forma de
registro de los datos.

92

En la descripcin de las variables se debe indicar el tipo de variable, es decir, si es cualitativa o


cuantitativa, la escala de medicin (nominal, ordinal, de intervalo o razn). Para el caso de aplicaciones del
tema de regresin recordar que la variable de respuesta, la variable dependiente, debe ser cuantitativa
medida en escala de intervalo o de razn para poder aplicar los modelos de regresin considerados en
este documento. En el caso de que una variable de respuesta sea cualitativa se pueden considerar dos
situaciones, si es dicotoma, es decir, solo dos valores, se debe recurrir a la regresin logstica (ver anexo
5), en el caso de variables con ms de dos categoras y en escala ordinal se debe modificar la variable de
tal forma que acepte una escala cuantitativa.

El tamao de la muestra

Cuntos elementos se deben tener en cuenta en el estudio, es decir, de qu tamao ser la muestra?
Esta es una pregunta muy compleja y que requiere del mximo esfuerzo para determinar su tamao
ptimo. Inicialmente debemos preguntarnos si realmente es necesaria la muestra, si as lo es, existe para
cada problema en particular unas condiciones que determinan el tamao de la misma. El punto de partida
es el tema a resolver, cada rea de la inferencia estadstica determina sus propios requerimientos, por
ejemplo, si el tema es estimar un promedio entonces se necesitar de una frmula deducida a partir del
Teorema del Limite Central y de la especificacin de un margen de error mximo tolerable y un nivel de
confianza. En el caso de la regresin lineal mltiple leer anexo 3 sobre la determinacin del tamao de
muestra.
El siguiente paso es determinar el tipo de muestreo a realizar. Las condiciones para esta decisin
dependen principalmente del tipo de estudio considerado, si es descriptivo se aceptaran muestreos
determinsticos y si es inferencial el tipo de muestreo deber ser probabilstico.

Recoleccin de los datos

Para la recoleccin de los datos se debe considerar tres elementos: el instrumento de recoleccin de la
informacin, la forma de aplicar el instrumento y, la sistematizacin o codificacin de los datos en un
instrumento electrnico.
Cuando se va a disear el instrumento de recoleccin de la informacin debe pensarse no solo en la forma
como se va a registrar la informacin (por observacin, mediante un mecanismo automtico, por encuesta
o por cualquier otro medio) sino tambin como sern incorporados a un medio electrnico para que pueden
ser procesados y se pueden aplicar las herramientas de anlisis apropiadas. El instrumento debe
someterse a pruebas previas antes de aplicarse en forma definitiva de tal manera que se detecten
preguntas mal elaboradas, omisin o redundancia de informacin, medicin de tiempos de registro de la
informacin y/o la deteccin de cualquier anomia que atente contra la confiabilidad y validez del
instrumento.
A la hora de registro de la informacin deben analizarse situaciones que hagan valida la toma de datos, es
decir, debe haber un control en la toma de datos para evitar la manipulacin de los mismos y la aplicacin
correcta del mtodo de muestreo propuesto.

Anlisis de los datos

El anlisis de datos depende del tipo de estudio a realizar. Los principales tipos de anlisis que pueden
efectuarse son:

93

Estadstica Descriptiva: De un conjunto de datos interesa determinar la tendencia central por medio de
indicadores como la moda, la mediana y la media; medidas de variabilidad: desviacin estndar,
varianza, rango (diferencia entre el valor mnimo y el mximo) y coeficiente de variacin; la forma ya sea
en trminos de simetra (o asimetra con sesgos izquierdo o derecho) y la curtosis (forma aplanada o
picuda de la grfica).

Estadstica Inferencial: Pretende generalizar los resultados obtenidos en una muestra a toda la
poblacin. La estadstica inferencial tiene sus propias herramientas que se clasifican en: estimacin de
parmetros, estimacin de intervalos de confianza, procedimientos de prueba de hiptesis sobre
parmetros, diseo de experimentos, anlisis de regresin y correlacin. La inferencia estadstica se
apoya en la teora del muestreo (toda muestra debe ser representativa y adecuada de la poblacin
objetivo) y en la probabilidad (para definir los mrgenes de error y precisin) para formalizar las
conclusiones o juicios sobre la poblacin objeto del problema en estudio.

Pruebas paramtricas: Pruebas de la estadstica inferencial para la estimacin de parmetros.


Mtodos: coeficiente de correlacin de Pearson y la regresin lineal, prueba "t"(Student), prueba de
contraste de la diferencia de proporciones, anlisis de varianza unidireccional (ANOVA Oneway),
anlisis de varianza factorial (ANOVA), anlisis de covarianza (ANCOVA).

Pruebas no paramtricas: Pruebas de la estadstica inferencial para la estimacin de parmetros.


Mtodos: la Ji cuadrada, los coeficientes de correlacin e independencia para tabulaciones cruzadas,
los coeficientes de correlacin por rangos ordenados de Spearman y Kendall.

Anlisis multivariado: Mtodos donde se utiliza la relacin entre varias variables independientes y al
menos una dependiente. Mtodos: regresin mltiple, anlisis lineal de patrones o "path" anlisis,
anlisis de factores, anlisis multivariado de varianza (MANOVA), correlacin cannica, anlisis
discriminante y otros.
Ejemplo: Anlisis de factores que intervienen en el tiempo de entrega de domicilios del Producto XXX 3
ubicado en la regin sur de la ciudad de Cali en el ao 20134.
Concepcin de la idea. Aqu la idea de investigacin surgi por sugerencia de un empleado de la
empresa XXX quien fue indagado sobre posibles problemas al interior de la compaa. La compaa y
mas precisamente el encargado de los despachos siempre ha manifestado la intencin de construir un
modelo de prediccin de los tiempos de entrega en horas pico y no dejar esta estimacin
completamente al azar.
Planteamiento del problema. La pregunta de investigacin aqu fue la siguiente: Causales son los
factores determinantes en los tiempos de entrega en los pedidos domiciliarios en la compaa XXX?
Este es un problema cuya ubicacin espacio tiempo corresponde a la zona sur de la ciudad de Cali,
zona que est siendo impactada por la construccin de varias obras de circulacin, lo cual implica
transito lento, desvos y calles cerradas y ocurre precisamente en el periodo julio-diciembre del 2013.

3 Se omite el nombre del producto y de la empresa por razones de confidencialidad


comercial.
4 Caso elaborado por los estudiantes: Meneses V., Gmez A., Franco M., Suarez D. y
Sandoval I. estudiantes de Mercadeo en la universidad Icesi, 2013.

94

El anlisis del problema llevo a la identificacin de factores relacionados con los tiempos de entrega,
como fueron: - la experiencia (en aos) del domiciliario, - magnitud del pedido (cantidad), - dificultades
en el trafico (clima, hora, da), - nmero de pedidos por recorrido y distancia (en kilmetros) a recorrer
en cada uno de los pedidos.
Identificados los factores, se visualizaron los objetivos a resolver. Estos se indican a continuacin:
Objetivo general:

Determinar el impacto sobre el Tiempo de Entrega a domicilio que tienen los factores: Cantidad del
pedido, Dificultades en el trfico, Distancia del recorrido de entrega y la Experiencia del domiciliario.

Objetivos especficos:

Determinar entre los factores Cantidad del pedido, Dificultades en el trfico, Distancia del recorrido
de entrega y la Experiencia del domiciliario cuales tienen una relacin significativa con los Tiempos
de Entrega a domicilio en la empresa XXX.

Construir un modelo de regresin lineal mltiple con los factores ms relevantes en la


determinacin de los Tiempos de Entrega a domicilio en la empresa XXX.

Justificacin de la investigacin.
La investigacin tiene una plena justificacin ya que resuelve un problema de toma de decisiones en
pedidos a domicilios con base en la prediccin de los tiempos de entrega. Los resultados de la
investigacin condensaran en un modelo el cual puede ser usado para determinar si se toma o no un
pedido y la prediccin del tiempo de entrega.
Metodologa para toma de la informacin.
Se hizo la siguiente descripcin de las variables consideradas en el proyecto:
Variables independientes:

X 1 : Nmero de pedidos por recorrido (en cantidad): es la cantidad de pedidos a entregar en el turno
correspondiente

X 2 : Dificultades en el trfico. Esta variable induce a tres consideraciones distintas que tienen que ver
con el clima, la hora del da y el da de la semana, por lo que se generaron las siguientes tres variables:

X2

: Clima, 1: normal, 0: lluvioso

X2

: Hora, 1: hora pico, 0: hora no pico

X2

: Da, 1: fin de semana, 0: no fin de semana

95

X 3 : Distancia (en kilmetros) entre el establecimiento y el lugar de llegada.


X 4 : Experiencia del domiciliario (en aos)
X 5 : Magnitud del pedido (en unidades). Esta variable indica la cantidad de productos que contiene
cada turno, no confundir con la variable
as por ejemplo, cuando

X 1=2

X 1 ya que esta se refiere a la cantidad de pedidos por turno,

puede ocurrir que uno de estos pedidos puede contener cinco

unidades a entregar en un punto de entrega y 3 unidades a otro punto, siendo

X 5=8 .

Variable dependiente:

Y : Tiempo tomado por pedido (en minutos). El tiempo se mide desde que se registra el pedido del
cliente hasta que se entrega por parte del domiciliario.
La informacin de cada pedido est registrada en una base de datos de la compaa la cual fue
habilitada para la obtencin de los datos que el proyecto necesitaba por lo cual solo fue necesario crear
un formato en el programa Excel para registrar la informacin requerida. A continuacin de muestra el
formato con una parte de los resultados:
Nmero de
pedidos por
recorrido

Distancia
recorrida
(km)

Experiencia del
domiciliario
(en aos)

Magnitud del
pedido
(en unidades)

Clima
(1: normal, 0:
lluvioso)

Horario
(1: hora pico,
0: hora no
pico)

Da
(1: fin de
semana, 0: no
fin de semana)

Tiempo por
pedido
(minutos)

1
2
3
3
3
5
2
.
.
.

5.2
7.2
2.6
3.6
2.3
0.3
1.5
.
.
.

4
16
16
4
4
16
18
.
.
.

1
3
3
1
1
2
2
.
.
.

1
0
1
0
0
0
0
.
.
.

1
9
1
0
0
0
1
.
.
.

0
0
1
0
0
0
0
.
.
.

10
13
7
9
6
2
5
.
.
.

Calculo del tamao de muestra.


La informacin disponible son cientos de registros ordenados en una base de datos por fecha (mes, da,
hora) por lo que lo ms apropiado fue realizar una muestra aleatoria sistemtica. Se estim el tamao
de muestra tiendo en cuanta siete variables independientes: Cantidad del pedido, Dificultades en el
trafico (desglosadas en tres variables: clima, horario y da), distancia entre el establecimiento y el lugar
de llegada, experiencia del domiciliario y magnitud del pedido; se consider una confianza del 90%, una

96

potencia estadstica del 71% y un efecto de tamao del 14%. Se us el software disponible en la pgina
web (http://www.danielsoper.com/statcalc/) para estimar el tamao de muestra, el cual resulto igual a 74
pedidos.

ANEXO 2:
Caso de estudio de Calimuebles5: Modelar el ausentismo laboral en la empresa Calimuebles.

5 Tomado y adoptado de: Anlisis Multivariado Aplicado, Uriel E., Alds J. Pgina 241.

97

La empresa Calimuebles se dedica a la fabricacin y venta de muebles de oficina, habiendo obtenido en


los ltimos aos unos resultados econmicos relativamente aceptables. Los directivos de la empresa
consideran que los resultados habran sido mucho mejores si el ausentismo laboral en la empresa no fuera
tan elevado. Este ausentismo tiene una incidencia negativa que se refleja en los costes de personal y en
desajustes en las operaciones de fabricacin y distribucin.
Por las razones apuntadas, la direccin de la empresa tiene gran inters en conocer cules pueden ser los
factores ms relevantes del ausentismo laboral que sufre la empresa.
El jefe de personal de la empresa facilita informacin acerca de los das que en el ltimo ao han faltado al
trabajo cada uno de los empleados de planilla (excluidos los directivos). Esta informacin aparece en la
segunda columna de la tabla adjunta con la denominacin Ausen.

Nmer
o
ID

Gner
o
Tipo de
1:
Ausen Empleado: 1: Mas,
(en das) Ope, 0: Adm 0: Fem

Edad
(Aos)

Antigeda
d
(en aos)

Salario
(en
millones)

Nmero
de Hijos

001

10

32

002

13

45

003

53

15

15

004

37

16

18

005

49

10

006

44

20

10

007

17

13

008

65

25

12

009

10

23

11

010

27

12

011

62

40

18

012

26

14

013

36

10

014

28

14

015

34

12

15

016

28

12

017

59

40

18

018

53

29

19

98

019

27

12

020

32

10

14

021

11

40

022

54

13

19

023

40

10

18

024

22

13

025

23

11

Continua en la siguiente pgina

viene de la pgina anterior.


Nmero Ausen
ID
(en das)

Tipo de
Gnero
Empleado: 1: 1: Mas,
Ope, 0: Adm 0: Fem

Edad
(Aos)

Antigeda
d
(en aos)

Salario
(en
millones)

Nmero
de Hijos

026

39

10

027

27

14

028

24

14

029

22

15

030

25

12

031

34

13

19

032

25

17

033

33

13

19

034

21

17

035

45

23

28

036

43

20

13

037

51

13

12

038

48

25

22

039

11

43

12

040

57

10

99

041

29

21

042

38

16

043

44

20

23

044

33

10

24

045

56

25

23

046

58

28

13

047

58

28

17

048

37

10

23

049

25

10

050

11

40

10

15

ANEXO 3:
Tamao de muestra en la regresin
En regresin lineal mltiple no hay conceso entre los principales investigadores para determinar el tamao
de muestra requerido para garantizar la validez del modelo, algunos investigadores (Hair, 2008) han
propuesto algunas reglas como la siguiente: el tamao de muestra en la regresin se establece de acuerdo
a la relacin al menos 10:1 (al menos diez registros por variable predictora) pero Maxwell (2000) presenta
varias discrepancias que tienen que ver con: i. la Potencia Estadstica, ii. El Nivel de Significancia y iii. el

100

Tamao del efecto6 (en ingls effect size) y en este sentido, Daniel S. Soper ha creado un sitio web donde
se determinan tamaos de muestra de acuerdo a estos conceptos. (http://www.danielsoper.com/statcalc/)
En la regresin lineal simple, cuando se tiene una variable predictora cuantitativa, Kleinbaum (2008)
propone la frmula:

Z 1 /2 + Z 1

donde

1
1+r
ln
2
1r

( )

+3

se establecen para detectar una correlacin de al menos

de prueba de hiptesis

H 0 : =0

versus

en el procedimiento

H1: 0 .

ANEXO 4:
Prueba de Kolmogorov

6 El tamao del efecto, concepto elaborado por J. Cohen (1988) es un indicador que mide la magnitud de
una medida o resultado estadstico, por ejemplo, en una regresin lineal simple mide la fuera de la relacin
entre las variables implicadas.

101

Antes de indicar el algoritmo para realizar la prueba presentamos los datos correspondientes a la Actividad
8, se quiere probar que los residuos siguen una distribucin normal. Estos son los datos:

2,8

3,6

4,0

2,3

4,8

3,8

4,5

3,0

4,0

1,5

Pronstic
o
Y
Residuos
2,7950
0,0050
3,4300
0,1700
4,0650
-0,0650
2,1600
0,1400
4,7000
0,1000
3,4300
0,3700
4,0650
0,4350
2,7950
0,2050
4,7000
-0,7000
2,1600
-0,6600

La prueba se fundamenta en comparar a travs de un procedimiento de prueba de hiptesis la distribucin


terica (distribucin normal) de los datos versus la distribucin encontrada o emprica.
Pasos:
1.

Plantee las hiptesis respectivas:

H 0 : Los i siguenuna distribucion Normal


H 1 : Los i no siguen una distribucion Normal
n residuos en orden ascendente

2.

Se ordenan los

3.

Se obtiene la distribucin emprica de la muestra: Fn (x )

Fn ( x )=

r
n

donde

r es la

frecuencia acumulada)
4.

Se obtiene la distribucin terica:


valor

F( x )

(se calcula el valor

y luego se calcula la probabilidad acumulada

|F n ( x i )F ( x i)|

5.

Se calculan

6.

Se calcula el estadstico

correspondiente a cada

F( Z ) )

|F n ( x i1 )F ( x i)|

Dn=max {|F n ( x i ) F( x i )| ,|F n ( xi 1 ) F(x i )|} .

Dn

es la

discrepancia mxima entre las distribuciones observada (emprica) y la terica (en este caso la
normal).

102

7.

Se obtiene el valor crtico


significancia

8.

D c ( )

de acuerdo al tamao de muestra

y el nivel de

en la tabla de Kolmogorov.

Se comparan

Dn y

Dc ( ) y se toma la decisin adecuada.

El algoritmo aplicado a los datos de la Actividad 8 muestran los resultados de la tabla indicada a
continuacin. El valor

Dn

es 0.2335 y el valor

Dc ( n=10 y =0.05 )=0.410

lo cual implica aceptar la

hiptesis nula, los datos siguen una distribucin normal.

Residuos (x)
-0,7000
-0,6600
-0,0650
0,0050
0,1000
0,1400
0,1700
0,2050
0,3700
0,4350

Fn ( x )

r
1
2
3
4
5
6
7
8
9
10

x =

s=

0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0,0000
0,3882

Z=

x x
s

-1,8031
-1,7000
-0,1674
0,0129
0,2576
0,3606
0,4379
0,5280
0,9530
1,1205
Dmax=

F( x )
0,0357
0,0446
0,4335
0,5051
0,6016
0,6408
0,6693
0,7013
0,8297
0,8687
0,2335

|F n ( x i )F ( x i)|

|F n ( x i1 )F ( x i)|

0,0643
0,1554
0,1335
0,1051
0,1016
0,0408
0,0307
0,0987
0,0703
0,1313

0,0357
0,0554
0,2335
0,2051
0,2016
0,1408
0,0693
0,0013
0,0297
0,0313

103

ANEXO 5:
Regresin Logstica
La regresin logstica aplica a casos donde la variable dependiente ( Y ) es dicotmica, es decir, solo
puede tomar dos valores. Ejemplos: - Un cliente est o no est satisfecho, - Un estudiante aprueba o no
aprueba un curso, - Un paciente se salva o no se salva despus de un tratamiento.
En todos estos casos a la variable

le asignamos el valor de 1 en el caso de ocurrencia del evento y 0

en el caso de no ocurrencia.
El propsito al hacer la regresin es poder predecir la probabilidad de ocurrencia de

con base a los

valores propuestos de las variables explicativas.


La regresin logstica tiene su fundamento matemtico en la funcin logstica o curva logstica que modela,
por ejemplo, el crecimiento de poblaciones, propagacin de enfermedades, etc. La funcin logstica se
define segn la ecuacin:

f ( y )=

1
1+e y

y su forma es:

f ( y)
1 ------------- -

1
2

104

En un modelo de regresin lineal mltiple, la funcin logstica describe el valor esperado de

Y =1 y se expresa:

E(Y ) ) en trminos de la probabilidad de que ocurra

P (Y =1 )=

1
( 0+ 1 x 1+ 2 x2 ++ k x k )

1+e

Y mediante transformaciones matemticas (aplicando logaritmos naturales) se obtiene la expresin:

ln

[ ]

P
= 0 + 1 x 1 + 2 x 2+ + k x k
1P

El lado izquierdo de esta ecuacin se denomina Razn de Probabilidades (en la literatura ODDS RATIO) y
se interpreta como la probabilidad de que ocurra

Y =0 . Por ejemplo, si
probabilidad de que el evento

Y =1

ODDS RATIO =

P (Y =1 )=0.25 , entonces
Y

versus la probabilidad de que no ocurra

0.25
1
=
10.25 3

significa que la

ocurra es 1/3 de la probabilidad de que no ocurra, o equivalentemente

existen tres posibilidades frente a una de que el evento

no ocurra.

La interpretacin de los coeficientes es distinta al modelo de regresin lineal mltiple ya que hay que tener
en cuenta el logaritmo natural. Se procede a eliminar dicho logaritmo aplicando la exponencial a ambos
lados de la ecuacin resultando:

p
=e e e e
1p
0

Por lo tanto, un coeficiente

indicar la incidencia de la variable

va significar por cuanto se debe multiplicar el

xi

ODDS RATIO

para

en la ocurrencia de Y. A continuacin se presenta un ejemplo de

aplicacin.
Ejemplo: En una universidad local se quiso evaluar el nivel de satisfaccin con el servicio de prstamo de
libros en la biblioteca por parte de los estudiantes. Las variables a considerar fueron: Nivel de satisfaccin
(satisfecho, no satisfecho), Disponibilidad (si, no), tiempo de espera (en minutos)

105

P( si=1)
ln
=0.808+7.519Disponibilidad3.351Tiempo espera
El modelo resultante fue:
P(no=0)

ANEXO 6: Tabla de nmeros aleatorios


Columna\Fil
a
1
2
3
4
5
6

1
6345
4369
8882
3766
4360
1650

2
7589
9130
1044
6981
1710
3258

3
1535
6047
1928
0501
5618
3548

4
2621
4477
8750
6446
0727
4882

5
4424
8538
2894
4476
9844
7822

6
1207
5708
5558
0109
4121
9720

7
9223
8706
0626
4406
6408
9185

8
0113
6334
4159
2354
8951
2695

9
1469
6146
8355
6787
6576
4853

106

7
7080
9447
5855
4970
8
4137
7687
8129
3973
9
4000
8952
5969
0915
10
5822
7565
1005
9339
11
6350
2174
2933
0909
12
4430
4305
2866
8700
13
6350
6190
8488
4224
14
4193
0896
7241
7376
15
0322
7870
4853
4043
16
8784
6093
0185
9881
17
5736
9129
3678
7174
18
0137
9946
2154
7676
19
1550
3476
2874
8934
20
8158
8562
5382
5470
21
4699
1715
3735
4243
22
2128
5279
2102
7649
23
1290
7397
4139
0357
24
7310
3841
1874
7862
25
4350
2001
3315
9856
26
0833
7901
4351
0543
27
0955
2393
5050
1534
28
8841
3077
6945
3399
29
9636
2746
2953
8243
30
9062
2494
6821
3644
Generada usando el programa Microsoft Excel.

9716
9115
2554
5219
7319
5764
8320
5150
1994
2878
9504
3870
1336
0157
3373
9183
2424
7014
1395
5272
0874
4109
6360
5354

2975
9377
5050
5976
8370
1525
1737
7039
7483
5392
6258
6787
8316
0161
3392
8446
4102
8551
7374
1586
7936
3354
2383
0340

8385
8839
5852
6899
5420
0047
0713
8354
5357
7794
7430
3083
6222
3434
8194
6683
7184
1849
9084
9517
3706
3046
9819
3783

8721
0199
6495
9192
8933
5041
7294
0289
9522
5703
2203
7186
5644
5739
0952
4590
1036
0255
8250
4242
2698
6995
4979
4048

2893
3210
9709
5232
2384
3393
5908
5248
8221
9489
2696
1542
0167
0794
7961
1161
1411
6772
5703
7339
0478
9492
9945
2442

BIBLIOGRAFA
ARROYO A. Estadstica con Aplicaciones a la Ingeniera y Administracin Aeronutica. Editorial Feriva,
2008.
HAIR J., ANDERSON r., TATHAM R. y BLACK W. Anlisis multivariante, quinta edicin, Pearson, 2008.
KLEINBAUM D., KUPPER L., NIZAM A., MULLER K. Applied Regression analysis and Other Multivariable
Methods. Cuarta edicin, Duxbury, 2008.

107

KLINGER A. Estadstica. Conceptos y Aplicaciones de los mtodos de muestreo. Programa Editorial


Universidad del Valle, 2006.
MAXWELL S. Sample size and Multiple Regression Analysis. Psychological Methods, Vol. 5, No. 4, 434458, 2000.
MARTINES B. Estadstica y Muestreo. Ecoe Ediciones, decima segunda edicin, 2005.
PEA D. Estadstica Modelos y Mtodos, vol. 2. Alianza Editorial, 1999.
SCHEAFFER r., MENDENHALL W., OTT L. Elementos de Muestreo. Tercera edicin, Grupo editorial
Iberoamrica, 1986
URIEL E., ALDS J. Anlisis Multivariado Aplicado. Editorial Thomson, Madrid, 2005

Potrebbero piacerti anche