Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
REGRESIN Y MUESTREO
ALONSO ARROYO
PROLOGO
En estas notas encontrara dos de los temas ms importantes de la Estadstica en general: los modelos de
regresin y el muestreo. Las razones de su importancia radican principalmente en la necesidad que tienen
todas las reas del conocimiento de generar modelos (matemticos, estadsticos, logsticos, econmicos,
etc.) para predecir comportamientos y/o resultados y, por otro lado, el muestreo suministra las
herramientas necesarias para que un estudio estadstico tenga la validez y confiabilidad requeridos.
El documento se ha dividido en captulos, el primero de ellos explica la metodologa a seguir por el lector
para lograr un ptimo aprendizaje de los temas tratados y es de obligatoriedad su lectura. Los captulos
iniciales tratan del tema de regresin lineal simple y mltiple. Muchos de los casos y ejercicios presentados
corresponden a proyectos de investigacin realizados por estudiantes en el curso de Regresin y muestreo
as como tambin a la consulta de bases de datos disponibles por El Dane y El Banco de la Republica. El
captulo 8 hace referencia a la teora del muestreo abordando temas como el error estadstico, los mtodos
de muestreo, el clculo del tamao de muestra y las tcnicas para tomar muestras aleatorias.
Los captulos 5 y 9 traen evaluaciones de los temas tratados con el propsito que el lector mida que tanto
ha cumplido con los objetivos de aprendizaje propuestos.
Se elabor un anexo con el tema del tamao de muestra en la regresin con el propsito que el lector lo
consulte sin necesidad de leer captulo de muestreo y lo puede aplicar ante una necesidad manifiesta.
Tambin se hizo un pequeo resumen de la Regresin Logstica ya que este tema puede necesitarse
cuando se tenga una variable dependiente dicotmica y no se pueda emplear la regresin lineal.
Finalmente el autor agradece a todos los estudiantes cuyas investigaciones de clase han servido para
elaborar ejemplos, casos y ejercicios incluidos en este documento.
TABLA DE CONTENIDO
CAPTULO 1. INTRODUCCIN.. 3
CAPTULO 2. REGRESIN LINEAL SIMPLE
2.1 Introduccin.
2.2 Condiciones para construir el modelo.
2.3 Estimacin del modelo..
2.4 Evaluacin del modelo (I): Anlisis de varianza (Anova)
2.5 Evaluacin del modelo (II): Prueba de linealidad.
2.6 Correlacin lineal
2.7 Supuestos en la regresin lineal simple
2.8 Prediccin
2.9 Intervalos de Confianza para
8
8
9
10
13
13
14
18
0 y 1 18
2.10
Programa SPSS..
2.11
.
Uso del
19
Taller
19
33
33
35
36
37
37
37
38
39
Pruebas
39
6.11
con variables Cualitativas (Variables Indicadoras)
6.12
..
Modelos
40
Taller
41
49
49
49
51
51
51
CAPTULO 8. MUESTREO
8.1 Introduccin..
8.2 Razones para hacer Muestreo..
8.3 Definiciones .....
8.4 Mtodos para la toma de Informacin.
8.5 Los mtodos de muestreo..
8.6 Muestreo no Probabilstico........
8.7 Representatividad de la Muestra
8.8 Tipos de Errores
8.9 Error de Muestreo..
8.10
de Muestreo Probabilsticos.
52
52
52
54
54
54
55
55
56
Mtodos
56
8.11
o Aleatorio simple (MAS)
Muestre
Muestre
62
62
64
CAPTULO 1
INTRODUCCIN
En la actualidad existe una variedad de tcnicas estadsticas dentro de la literatura disponibles para
analizar un problema dado. La clave para determinar cul de ellas usar depende de muchos factores, por
mencionar algunos esta, el tipo de datos que el problema genere, el software disponible para procesar la
informacin, el tipo de solucin buscada (aproximada u ptima), entre otros factores. Dnde ubicar la
Regresin dentro de este conjunto de tcnicas? En el anlisis estadstico de datos se identifican
fundamentalmente tres grandes grupos que se resumen en los siguientes:
i.
ii.
iii.
Tcnicas de dependencia. Se clasifican en: Regresin lineal simple, regresin lineal mltiple,
regresin no lineal, regresin logstica, anlisis de varianza y series de tiempo. Estas tcnicas
consisten en predecir con un cierto margen de error el valor de una variable en trminos de una o
ms variables a travs de una relacin no funcional.
No sobra aclarar que para un problema dado se puedan mezclar varias de estas tcnicas, por ejemplo, en
una situacin dada se pueden hacer anlisis factorial para reducir variables y con las variables resultantes
hacer regresin para predecir algunos valores.
En estas notas el inters se centra en las tcnicas de regresin debido a su amplio uso en problemas de
prediccin y relacin de variables en la administracin y el mercadeo.
La regresin se ubica en las tcnicas de dependencia. En un anlisis de regresin se tienen: una variable
dependiente, un conjunto de variables independientes y un modelo estadstico que las agrupa. El objetivo
principal de un anlisis de regresin es predecir los valores de la variable dependiente con base en las
variables independientes a travs del modelo estadstico.
Se aborda inicialmente el tema de la regresin lineal simple buscando profundizar en las habilidades
formalizar un modelo estadstico con todas las implicaciones terico-prcticas que exige adecuar
modelo estadstico a una situacin dada; se continua con dos captulos cortos sobre los temas
transformacin de variables y modelos polinmicos, se trata aqu de aproximar al estudiante al manejo
de
un
de
de
CAPTULO 2
REGRESIN LINEAL SIMPLE
2.1 Introduccin
El propsito de un anlisis de regresin es modelar la relacin entre variables estableciendo las
condiciones bajo las cuales dicho modelo es vlido. En el mbito empresarial o de negocios son muchas
las situaciones a las cuales se les pueden aplicar los conceptos de regresin y correlacin, por ejemplo,
analice la siguiente situacin: Un comerciante desea elevar las ventas de su producto para lo cual lanza
una campaa de publicidad en varios medios de comunicacin locales. Despus de cierto tiempo de
invertir en la campaa publicitaria el comerciante se hace las siguientes preguntas: i. Existe una relacin
significativa entre Ventas y Publicidad? ii. Qu tipo de relacin es, lineal, exponencial, parablica?, iii.
Durante cunto tiempo permanece esta relacin?, iv. Hay una relacin de causa a efecto en la relacin
encontrada? La capacidad para responder a estas preguntas es el objetivo del tema de regresin y
correlacin.
Actividad 2: Investigue el origen de los modelos de regresin. Indique los tipos de estudios que dieron
origen a esta tcnica, destaque fechas y autores importantes.
2.2 Condiciones para construir el modelo
Y X +
donde
es una perturbacin
Y = 0 + 1 X+
Ec. 2.1
1 Otras situaciones diferentes a estas escalas reciben un tratamiento distinto, tal es el caso del modelo de
regresin logstico donde la variable
anexo 5).
La Ec. 2.1 se denomina Modelo General de Regresin Lineal simple. Se debe suponer que la relacin
principal entre
como
X e Y , es decir, para ( x i , y i
y i=b 0+ b1 x i +e i
se tiene:
Ec. 2.2
Y = 0 + 1 X+
En primer trmino, si se quiere generalizar sus resultados a una poblacin especifica debe cumplir con los
requerimientos del muestreo aleatorio, es decir, debe haber una tamao de muestra adecuado y un
mtodo de muestreo representativo. En segunda instancia, la variable a predecir
debe presentar
unas condiciones de aleatoriedad que den garanta de una buena toma de datos, estas condiciones se
reflejan en las perturbaciones o errores
( )
E( i)=0
La varianza de los
X :
Var ( i ) = 2
Ejemplo de no cumplimiento de este supuesto: Suponga un modelo que prediga el Ahorro de las
familias caleas en funcin del Ingreso familiar. En estratos bajos el ahorro es bajo y tendr poca
variabilidad, y en estratos altos donde la capacidad de ahorro es alta es posible que la disponibilidad de
ahorro vare mucho de una familia a otra.
c.
Los
10
d.
Los
E ( i j )=0 para i j
Actividad 4: Investigar las condiciones bajo las cuales no se cumple el supuesto de independencia.
Actividad 5: Exprese cada uno de los anteriores supuestos en trminos de la variable
Y . Construya
Y = 0 + 1 X+
El modelo:
b0 y b1
estimado:
^y i=b 0+ b1 x i
i=1
i=1
i=1
Ec. 2.3
0 y 1
X :
E ( y|x ) .
definida como:
f ( b 0 ,b 1 )= e 2i = ( y i ^y i )2= ( y ib0 b1 xi )2
f ( b 0 ,b 1 ) .
n
( x i x ) ( y i y )
Respuestas:
b0 = y b 1 x
b1= i=1
( x ix )2
i=1
b0
b1
11
bo
b1 . Note que
bo
promedio de notas) con base en el Nmero de horas de estudio fuera de clase por da ( X ) para un
curso de Estadstica en una universidad local. Se tom la siguiente muestra aleatoria:
X :
Horas
de
Promedio
de
2.8
3.6
4.0
2.3
4.8
3.8
4.5
3.0
4.0
1.5
estudio
Y :
notas
versus
^
Promedio notas=1.53+ 0.64Horasestudio
c. Interprete cada uno de los coeficientes del modelo encontrado en b).
d. Prediga la nota promedio de un estudiante que realice tres horas de estudio por da.
Y^ =b 0 +b1 X
con el modelo
12
Y^ =b 0 +b1 X
con
Y^ = y
y i y = ( ^y i y ) +( y i^y i )
Y para los
i=1
i=1
i=1
( y i y )2= ( ^y i y )2 + ( y i^y i )2
De esta expresin se deduce que la variacin total con respecto a la media muestral es igual a la variacin
determinada por el modelo de regresin mas una variacin no explicada por el modelo de regresin, es
decir,
Variacin
Total
SST
Variacin
explicada
por la
Regresin
Variacin no
explicada
por la
regresin
En forma simplificada:
SSR
y .
SSE
13
A SSR se denomina Suma de cuadrados de la Regresin y se le asocia un grado de libertad por implicar
X .
n2
0 y
1 .
Con las sumas de cuadrados y los grados de libertad se construye la tabla de Anlisis de Varianza que se
presenta en la tabla 2.1.
Fuente de
Variacin
Grados de
Libertad
Regresin
Error
(residuos)
n2
Total
n1
Suma de
Cuadrados
Promedio
De los
Cuadrados
SSR
SSR 1
SSE
S=
f c=
Valor p
SSR 1
S2
P( f > f c )
SSE
n2
SST
Observe de la tabla 2.1 que al dividir la Suma de Cuadrados entre los grados de libertad se obtienen
frmulas de varianza (columna de los Promedios de los cuadrados), y al dividir estas varianzas entre s se
obtiene el estadstico de prueba
Actividad 9: Explique el origen de los valores de los grados de libertad en la tabla Anova.
Del Anlisis de Varianza se deducen varios indicadores que determinaran qu tan bueno es el modelo de
regresin encontrado con los datos, estos son: el Coeficiente de Determinacin:
R2
y el Error estndar
R2
14
n
R2=
( ^y i y )2
SSR i=1
= n
SST
100
( y i y )
Ec. 2.4
i=1
El coeficiente de determinacin
S=
SSE
n2
Ec. 2.5
S2
es un estimador de
o residuales.
El estimador
S2
sirve para comparar la calidad del ajuste del modelo con respecto a otros modelos
alternativos.
Actividad 11: Obtenga el error estndar de estimacin para el modelo encontrado en la actividad 8.
se
supuso que la relacin principal entre estas variables era de tipo lineal, es hora de probar dicha relacin a
travs de procedimientos de prueba de hiptesis y utilizando la tabla Anova.
Actividad 12: Ponga a prueba la linealidad del modelo de regresin
concepto de hiptesis estadstica, es decir, complete las hiptesis:
Y = 0 + 1 X+
mediante el
15
H 0 :
H 1 :
Actividad 13: De la tabla Anova proponga un procedimiento para probar las hiptesis planteadas en el
f c=
H 0 : 1=0 y
SSR 1
S2
H 1: 1 0
=0.05
X eY
(si es poblacional)
X yY
se calcula as:
( x x ) ( y y )
r=
Sx Sy
Si
X eY
son discretas
Ec. 2.6
f (x , y)
16
( xx )( y y ) f ( x , y ) dxdy
r=
Si
Sx S y
X eY
son continuas
Ec. 2.7
r= R2 .
X eY
la otra variable, de esta manera a medida que una variable cambia se sabr cmo cambia la otra.
Las ecuaciones 2.6 y 2.7 solo aplican para variables cuantitativas medidas en escala de intervalo o razn.
Para variables cualitativas (dicotmicas o en escala Likert) se debe recurrir a otro tipo de correlaciones
estimadas mediante el mtodo de mnimos cuadrados generalizados, estas correlaciones se denominan:
correlaciones biserial, policrica y poliserial.
Los valores que toma r segn la definicin estn entre -1 < r < +1. Valores cercanos a + 1 indican una
fuerte relacin lineal directa, valores cercanos a -1 sugieren una fuerte relacin lineal inversa. Valores
cercanos a 0 indican que no hay relacin lineal.
Actividad 15: Construya representaciones graficas de: 1. r cercanos a
cercanos a
+1 , 2. r cercanos a -1, 3. r
0 .
Actividad 16: Calcule e interprete el coeficiente de correlacin r para las variables implicadas en la
actividad 8.
Nota: Se debe tener precaucin con la interpretacin de la correlacin. El valor de r = 0.95 obtenido para
las variables implicadas en la actividad 8 indica una asociacin fuerte entre Nota promedio y Horas de
estudio, pero no necesariamente implica que las Horas de estudio sea la causa de notas altas o bajas,
aqu no se ha demostrado una relacin de causa a efecto.
Hasta dnde el coeficiente de correlacin muestral r es un valor representativo del coeficiente de
correlacin poblacional? Para responder a esta pregunta se plantean las hiptesis:
H 0 : =0
X eY
es cero)
H1: 0
X eY
es diferente de cero)
t=
r n2
1r 2
con
n2
grados de libertad.
Actividad 17: Pruebe que la correlacin poblacional es diferente de cero para las variables implicadas en
la actividad 8.
17
Y = 0 + 1 X+
X eY
ei
y i y los estimados
se estiman con
^y i ( e i= y i ^y i
o son provocadas por una manipulacin de los datos? Para responder a este
E( i)=0
X , si se toman varias mediciones
E ( i|x i )=0
implicando
E ( Y |X )= 0 + 1 X .
La violacin de este supuesto determina una mala especificacin del modelo (en este caso una falta de
linealidad) y se refleja en una situacin tal como se observa en la figura 2.2.
b. La varianza de los errores (
Var ( )= 2 .
La falta de homocedasticidad (heterocedasticidad) se indica en la figura 2.3.
ei
^y
18
ei
^y
Figura 2.3 Varianza no constante
El Test de White tiene el siguiente sustento terico:
Se tiene el modelo de regresin lineal general
del error ( Var ( )=
= 0 + 1 X +
Bajo el supuesto de que los errores ( ) tienen media cero, se tiene:
19
E ( 2 ) = 0+ 1 X
Lo que conlleva a detectar una heterocedasticidad entre la relacin de
2 y la variable explicativa
X .
H 0 :Var ( )=
H 1 :Var ( )
(Homocedasticidad)
(Heterocedasticidad)
y i=b 0+ b1 x i +e i )
e^ 2i =a0 + a1 x i +a2 x 2i
4. Calcular el estadstico de prueba:
regresin auxiliar y
5. El estadstico
nR
donde
es el coeficiente de determinacin de la
H 0 y se acepta
Los errores (
20
Actividad 20: Investigue posibles causas de falta de normalidad. Respuesta. Puede ser debido a
presencia de datos atpicos.
Actividad 21: Investigue cuales seran los posibles tratamientos para corregir la falta de normalidad.
Respuesta. Eliminar datos atpicos, transformar las variables o descartar el anlisis de regresin.
Actividad 22: Investigue la prueba de Kolmogorov para probar normalidad y aplquela a los datos de la
actividad 8 (Ayuda: leer anexo 4).
ei
y
Figura 2.4 Distribucin normal de los errores
d. Los errores (
para
yi
i j .
Existe una prueba estadstica para determinar la independencia de los errores, esta es denominada prueba
de hiptesis de Durbin-Watson. La prueba consiste en plantear inicialmente las siguientes hiptesis:
H 0 :los i sonindependientes
H 1 :los i son dependientes
21
n
( et e t 1 )
d= t=2
e2t
t =1
t =1
t =2
t=2
e 2t e2t e 2t1
Haciendo la aproximacin
la expresin:
d 2(1r )
Donde
debe aproximarse a 2.
d 2(1r )
Actividad 24: Investigue la regla de decisin para la prueba de hiptesis de Durbin-Watson y aplique la
prueba a los datos de la actividad 8. Respuesta.
d=2.618
Actividad 25: Utilice la prueba de hiptesis de Durbin-Watson para probar la independencia en los errores
(no autocorrelacin) en los datos adjuntos:
X 1
0
Y 1
5
1
2
1
7
8
1
3
1
7
2
3
1
0
1
6
1
5
2
1
1
0
1
4
1
4
2
0
1
9
2
4
1
0
1
7
11 1
3
1 1
6 8
1
6
2
3
1
0
1
5
1
2
1
6
2.8 Prediccin
El propsito de obtener un modelo de regresin es predecir valores. Esta prediccin solo es vlida dentro
del rango de valores obtenidos en la muestra, fuera de este rango se debe recurrir a modelos ms
elaborados.
Actividad 26: Obtenga una prediccin para Y (nota promedio) cuando las horas de estudio sean de 3.0
para el modelo propuesto en la actividad 8.
Toda prediccin debe darse con un intervalo de prediccin, este intervalo se obtiene mediante la frmula:
22
1 ( X X)
S x . y 1+ +
,n2
n (X X )2
2
Y^ t
Ec. 2.8
S x . y es el error estndar de estimacin del modelo (error tpico en los resultados de Excel)
Donde
Actividad 27: obtenga un intervalo de prediccin al 95% para el valor estimado en el actividad 26.
De igual forma se puede obtener un intervalo de confianza con la frmula:
Y^ t
2
,n2
Sx . y
2
1 ( X X)
+
n ( X X )2
Ec. 2.9
0 y 1 .
b0 t
2
b1t
2
, n2
,n2
[ ]
s2
[ ]
1 x 2
1 x 2
+
0 b 0 +t
s2 +
, n2
n S xx
n S xx
2
s
s
1 b 1+ t
,n
2
S xx
S xx
2
Ec. 2.10
Ec. 2.11
23
2.11
Taller
(en
17.5
45
19.0
42
20.5
40
22.0
35
24.0
32
26.0
30
28.0
29
30.5
28
33.5
26
37.0
20
a. Construya la grfica de dispersin entre El Precio y La Cantidad vendida y comente sobre el tipo de
relacin que hay entre las dos variables.
b. Obtenga un modelo de regresin lineal simple que permita explicar La Cantidad vendida en funcin de
los Precios de venta de los autos.
c. Interprete los coeficientes del modelo encontrado en b)
d. Obtenga el coeficiente de correlacin entre las variables Precio y Cantidad vendida e intrprete su
valor.
e. Pruebe que el coeficiente de correlacin es diferente de cero. Use
=0.03 .
f. Obtenga el coeficiente de determinacin las variables Precio y Cantidad vendida e intrprete su valor.
g. Si un modelo auto tiene un precio unitario de 23 millones, es posible determinar cuntos autos de este
modelo se vendern? Si su respuesta es afirmativa, cunto es este nmero? D los intervalos de
prediccin y confianza respectivos para un
=0.03 .
=0.03 .
24
k. Aplique las pruebas de normalidad, varianza constante e independencia a Los residuos del modelo
encontrado en b) y Comente los resultados.
l. Concluya sobre la conveniencia de usar el modelo encontrado en b) para predecir La Cantidad de
autos vendida con base en El Precio de venta para este distribuidor de automviles.
2. El gerente de una compaa de aviacin desea establecer la relacin entre Los costos de
10
10
460
720
2000
1500
1800
15000
12000
25000
40000
H 0 : 0 =0
versus
(tiempo de
=0.05
H 1 : 0 0
X =0
Cmo afectan los Precios a las Ventas? Se tienen los siguientes datos reportados por
Ecopetrol para el ao 2008 en la ciudad de Bogot sobre el Precio de la gasolina Extra y las Ventas de
gasolina Extra:
PERIODO
2008-01
2008-02
2008-03
2008-04
2008-05
2008-06
2008-07
2008-08
2008-09
2008-10
2008-11
2008-12
Fuente: Ecopetrol
PRECIO
(en $)
8,916.68
9,000.68
9,512.00
9,078.42
9,170.45
9,246.29
9,422.86
9,567.91
9,710.30
9,833.19
9,904.83
9,200.00
VENTAS
(en galones)
17,313.53
17,518.09
17,827.15
17,244.26
17,513.21
14,748.02
15,294.88
14,094.41
13,909.82
14,838.86
12,753.17
16,761.26
25
a. Obtenga el diagrama de dispersin para el Precio(X) y las Ventas (Y). Comente sobre el tipo de
relacin presente con estas variables.
b. Estime el modelo de regresin lineal simple
c. Interprete
b0
b1 .
d. Qu proporcin de la variacin observada en las Ventas se puede explicar por la variacin en los
Precios a travs del modelo de regresin?
e. Pruebe que hay una relacin lineal significativa entre el Precio y las Ventas (use
=0.05
=0.05
t=
4.
Use el estadstico
.Respuesta.
b1 t
2
,n2
b1 1
S
SS
xx
S
SS xx
5.
6.
Investigue por qu una regresin lineal no implica necesariamente una relacin de causaefecto entre las variables relacionadas. Presente ejemplos.
7.
Prediccin de los precios de las acciones. Analizar el comportamiento de los precios de las
Acciones de Ecopetrol segn la variacin del precio del barril de petrleo WTI producido en Colombia.
Se tienen los siguientes precios promedio por mes:
Mes
jul-2012
ago-2012
sep-2012
oct-2012
nov-2012
dic-2012
ene-2013
feb-2013
Precio de las
Acciones de
Ecopetrol (en
pesos)
5006,50
5303,50
5250,48
5533,64
5274,50
5325,79
5510,95
5403,00
26
mar1203
abr-2013
may2013
jun-2013
jul-2013
ago-2013
sep-2013
oct-2013
nov-2013
5070,00
4550,00
92,781
92,045
4148,10
4018,06
4169,79
4362,75
4432,62
4458,86
4116,00
94,888
95,882
104,956
106,637
106,119
100,317
93,826
a. Proponga un modelo de regresin lineal simple que permita predecir el valor de las Acciones de
Ecopetrol con base en el Precio del barril de petrleo en Colombia. Indique la ecuacin de regresin
y el valor del
b. Pruebe la significancia del modelo propuesto en a) plantee las hiptesis respectivas y use el
concepto de Valor _p para tomar la decisin sobre las hiptesis. Use = 0.05
c. Interprete los coeficientes del modelo propuesto en a)
Respuesta:
b0 = 9128.21: Si el precio del petrleo es $ 0.00 el precio de las acciones en promedio sern $
9128.21. Como el precio del petrleo nunca ser $ 0.00 se dice que el valor de
9128.21 es un valor de ajuste al modelo.
b1= -45.10: Por cada peso que aumente el precio del petrleo, el precio promedio de las
acciones disminuyen en $ 45.10.
d.
0 y 1 . Use = 0.05
e. Obtenga intervalos de prediccin para una observacin futura (por ejemplo: 80 dlares por barril).
f.
27
Se observa un patrn creciente en los residuos lo que es sintomtico de dependencia en los residuos, es
decir, el supuesto de independencia no se cumple. Este anlisis cualitativo se comprueba con la prueba de
independencia de Durbin-Watson.
Prueba de independencia:
H 0 :los i sonindependientes
H 1 :los i son dependientes
Durbin-Watson
,720
Como el estadstico d = 0.72 est muy lejos del valor de referencia d = 2.0 se rechaza
H0
y se acepta
28
17
Parmetros normales
a,b
Media
,0000000
Desviacin estndar
Mximas diferencias extremas
,96824584
Absoluta
,125
Positivo
,106
Negativo
-,125
Estadstico de prueba
,125
,200c,d
INFLACIO
N
32,37
26,82
25,13
22,61
22,59
19,47
21,60
17,68
16,70
9,23
SMLM
41.025,0
51.720,0
65.190,0
81.510,0
98.700,0
118.933,0
142.125,0
172.005,0
203.826,0
236.460,0
MINIMO LEGAL
29
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
8,75
7,65
6,99
6,49
5,50
4,85
4,48
5,69
7,67
2,00
3,17
3,73
2.44
1.94
260.100,0
286.000,0
309.000,0
332.000,0
358.000,0
381.500,0
408.000,0
433.700,0
461.500,0
496.900,0
515.000,0
535.600,0
566.700,0
616.000,0
Fuente: EL DANE
La idea es establecer un modelo de regresin que ayude a determinar el comportamiento de estas dos
variables tomando como variable dependiente SALARIO MINIMO LEGAL MENSUAL (SMLM) y como
variable independiente INFLACION obtenga un modelo de regresin lineal simple (modelo 1) y
resuelva:
a.
b.
c.
d.
e.
f.
g.
30
CAPTULO 3
TRANSFORMACIONES MATEMTICAS EN LA REGRESIN
3.1 Introduccin
No siempre la relacin entre dos variables es lineal, en la vida real se pueden presentar muchos
comportamientos no lineales, por ejemplo, en mercadeo es bien conocida la relacin entre Inversin en
publicidad y Cantidad demanda de un producto (resolver la actividad 30), pero mediante una
transformacin matemtica se pueden llevar las variables al plano lineal y aplicar los conceptos de la
regresin lineal simple. El propsito de una transformacin es, en lo posible, asociar una frmula
matemtica al comportamiento de los datos y mediante operaciones matemticas lograr un modelo de
regresin lineal.
Las transformaciones matemticas tambin se aplican a casos donde el modelo de regresin lineal no
cumple alguno de los supuestos, tal es el caso de la normalidad en los residuos, realizando la
transformacin apropiada se logra corregir esta situacin.
El procedimiento a seguir es: i. identificar ecuacin matemtica apropiada (ecuacin del modelo), ii.
Linealizar la ecuacin matemtica (modelo linealizado), iii. Adecuar las variables al modelo linealizado, y
iv. Con las variables transformadas se debe construir un nuevo modelo de regresin lineal simple
estimando sus coeficientes, se le realiza la prueba de linealidad (tabla anova) y se calcula el coeficiente de
determinacin R2
31
Actividad 30: Investigue las relaciones entre las variables planteadas para cada caso y construya las
grficas correspondientes:
i.
ii .
Peso y talla en
Y ' = ' + X .
Actividad 31: Complete la tabla 3.1 realizando las operaciones matemticas adecuadas.
Actividad 32: Una empresa comercial tiene registrados los gastos en publicidad (en millones de $) y los
beneficios (en millones de $) obtenidos durante los ltimos 10 aos:
Publicida
d
2.0
2.5
2.5
3.0
4.0
4.5
5.5
7.0
4.5
8.0
Beneficio
s
6,59
3
7,05
3
7,13
7
7,29
5
8,22
7
8,45
1
12,30
3
25,69
8
10,48
5
46,62
1
a. Haga un anlisis exploratorio de regresin lineal simple para estimar los beneficios de acuerdo a los
gastos en publicidad, Qu tan bueno es el modelo?
b. Aplique las transformaciones matemticas necesarias para lograr el mejor modelo de regresin
lineal simple. Ayuda: use la opcin de transformacin de variables del SPSS.
c. Pronostique los beneficios si se invierte en publicidad 6 millones de pesos.
Y = e
Transformacin
LnY =Ln + X
Modelo Linealizado
Y ' =Ln + X
donde
Logartmico
Y = + LnX
Y = + X
donde
Potencia
Reciproco x
Y ' =LnY
'
'
X =LnX
Y = X
Y = +
Y = + X '
32
Donde
Reciproco doble
= +
Y
X
Raz cuadrada
Y = + X
X'=
1
X
3.3 Taller
1. Considere los siguientes datos:
X
Y
76
72
80
70
92
68
67
86
69
89
70
85
75
70
86
68
87
70
102
70
98
68
67
80
Realice todas las transformaciones posibles hasta obtener el mejor modelo (R2=69% aproximadamente)
2.
A continuacin se indican los Costos promedio por parqueo en centros de negocio segn la cantidad
de poblacin urbana en 15 ciudades de los Estados Unidos (datos indicados por Wynn, 1969).
Ciudad
Poblacin
(en miles)
Costos (en
dlares)
1
190
2
310
3
270
4
320
5
460
6
340
7
380
8
520
9
310
10
400
11
470
12
840
13
1910
14
3290
15
3600
0.50
0.48
0.53
0.58
0.60
0.67
0.69
0.75
0.80
0.80
0.81
0.92
0.92
1.40
1.12
a. Construya un diagrama de dispersin y proponga el tipo de curva que mejor se ajusta a los datos
(lineal, exponencial, logartmica, polinmicas, etc.)
b. Realice una transformacin matemtica y ajuste un modelo de regresin lineal simple. Obtenga el
modelo y evale la linealidad.
3. Los empleados de muchas industrias experimentan lo que se llama curva de aprendizaje, es decir,
que al fabricar un nuevo producto el tiempo requerido para producir una unidad se reduce en alguna
proporcin fija al duplicarse el nmero total de unidades. Una industria de este tipo es la aviacin. El
tiempo de fabricacin por unidad en una nueva aeronave tiende a disminuir un 20% cada vez que se
duplica el nmero de nuevos aviones terminados. Los siguientes datos corresponden a la produccin
de aviones en la industria aeronutica USA:
Nmero de aviones
producidos (X)
Nmero de horas de
trabajo por avin (Y)
4
1,000
8
800
16
640
32
512
33
a. Construya un diagrama de dispersin y proponga el tipo de curva que mejor se ajusta a los datos
(lineal, exponencial, logartmica, polinmica, etc.)
b. Realice una transformacin matemtica y ajuste un modelo de regresin lineal simple. Obtenga el
modelo y evale la linealidad.
4. Considere los datos del ejercicio 7 del taller 2.11. Realice todas las transformaciones necesarias para
mejorar el modelo lineal propuesto en dicho ejercicio.
5. El gerente del Banco de la Repblica de Colombia quiere desarrollar un modelo de regresin para
determinar el impacto que tiene el sector de la construccin y la produccin industrial manufacturera
colombiana sobre el desempleo. Para desarrollar este modelo se tienen los datos correspondientes a
tres aos en lo referente a la Cantidad de Cemento Gris (en miles de toneladas) vendidos en
Colombia, el ndice de Produccin real de la industria manufacturera colombiana (IPIM) y el ndice de
desempleo para igual periodo de tiempo. Datos suministrados por el Banco de la Repblica. El gerente
quiere determinar un modelo de regresin lineal simple que prediga el ndice de desempleo (% de
desempleo) en funcin del ndice de produccin real de la industria manufacturera colombiana (IPIM):
Resuelva:
a.
b.
c.
d.
=0.05.
desempleo '
y el
Ao
Mes
CEMENTO
(en miles de
toneladas)
2006
Ene.
788,498
13.4
105.1
Feb
786,423
13.0
110.8
Mar
806,570
11.3
122.2
Abr
799,004
12.0
111.2
May
803,080
11.9
123.7
( desempleo )
IPIM
34
2007
2008
Jun
804,373
10.5
122.6
Jul
877,410
12.4
125.4
Ago
829,044
12.8
135.0
Sep
882,250
12.9
136.9
Oct
881,057
11.4
139.5
Nov
874,313
10.9
140.9
Dic
856,167
11.8
131.0
Ene.
786,328
13.9
120.9
Feb
756,627
12.8
127.4
Mar
894,374
11.9
140.1
Abr
853,612
10.9
127.5
May
929,634
11.5
138.4
Jun
912,472
11.2
138.0
Jul
900,510
11.2
138.1
Ago
917,732
10.7
145.4
Sep
886,807
10.8
144.8
Oct
969,913
10.1
150.4
Nov
903,366
9.4
151.5
Dic
1027,843
9.9
142.2
Ene.
835,772
13.1
128.6
Feb
900,435
12.0
138.6
Mar
871,069
11.2
127.5
Abr
905,590
11.1
139.7
May
866,633
10.8
133.1
Jun
852,482
11.2
129.7
Jul
878,123
12.1
139.3
Ago
845,128
11.2
131.3
Sep
819,470
11.0
140.0
35
Oct
840,088
10.1
139.9
Nov
790,539
10.8
131.4
Dic
800,698
10.6
129.4
CAPTULO 4
MODELO POLINOMICOS
4.1 Introduccin
En un modelo de regresin lineal simple se supone apropiada una relacin considerando solo a
su expresin bsica, pero existen relaciones de orden superior tales como
ajuste de los datos. Un modelo expresado en trminos de
orden
Xp
en
Y = 0 + 1 X+ 2 X + 3 X + + p X +
Ec. 4.1
En la prctica modelos de orden superior a tres ( p>3 ) son muy raros por lo que solo se consideraran
en este documento los modelos cuadraditos ( p=2 ) y cbicos ( p=3 )
4.2 El modelo cuadrtico
El modelo cuadrtico o parablico es expresado en la Ec. 4.2 y su correspondiente estimacin en la Ec.
4.3.
Y = 0 + 1 X+ 2 X 2 +
Y^ =b 0 +b1 X +b 2 X 2
Para calcular los coeficientes
b0 , b1 y b 2
Ec. 4.2
Ec. 4.3
de los mnimos cuadrados a travs del programa SPSS mediante la opcin Estimacin Curvilnea.
El anlisis para una situacin dada es igual al que se hace para la regresin lineal simple: i. Grfica de
dispersin, ii. Significancia general del modelo (tabla anova), iii. Prueba de la significancia del termino
cuadrtico y iv. Interpretacin de cada uno de los coeficientes del modelo.
36
X ,
79
79
79
79
79
9
9
99
99
99
99
119
119
119
119
119
Nmero de
paquetes
Vendidos
14
2
15
1
16
3
16
8
17
6
9
1
10
0
10
7
115
12
6
77
86
95
10
0
10
6
g. Calcule e interprete el
ajustado.
Actividad 34: Considere el siguiente caso y responda cada una de las preguntas a continuacin:
Los directivos de bsculas Reynolds, Inc. desean investigar la relacin entre la duracin de sus agentes de
ventas en su puesto y la cantidad de bsculas vendidas. La tabla adjunta muestra la cantidad de bsculas
vendidas por 15 agentes seleccionados aleatoriamente para el perodo ms reciente de ventas y la
antigedad, en meses, de cada agente en la empresa.
Antigedad,
41
10
76
10
22
12
85
111
40
51
12
56
19
37
meses
Bsculas
vendidas
37
5
29
6
31
7
37
6
16
2
15
0
36
7
30
8
18
9
23
5
8
3
112
6
7
32
5
18
9
g. Compare los residuales obtenidos para los modelos lineal y cuadrtico, Cul es su
comportamiento?
CAPTULO 5
EVALUACIN I
El siguiente caso tiene como propsito evaluar la mayora de los conceptos desarrollados hasta el
momento. Responda cada una de las preguntas en el orden dado y formalice un informe usando el
programa Word.
Una firma comercial tiene actualmente 180 puntos de venta, con deseo de ampliar su cobertura a 300
puntos en total. Para decidir, desarrolla una encuesta a 15 de los puntos de venta seleccionados al azar.
Entre las varias caractersticas investigadas, se encuentran: Ventas diarias (millones de $) y Costos en
servicios pblicos (miles de $), la informacin se presenta a continuacin:
Costos
Ventas
12
130
18
185
20
190
16
172
15
165
12
128
26
165
20
165
18
180
23
170
26
184
20
174
30
200
25
170
22
190
38
=0.05
b0 y b1 en el modelo encontrado en 1)
4. Prediga las Ventas para unos Costos de $ 18,000. De su respuesta con un intervalo de prediccin del
90%
5. Construya el grafico de residuales: Residuos versus Ventas. Comente sobre la validez de los
supuestos en la regresin lineal simple
6. Plantee las hiptesis correspondientes al supuesto de independencia en los residuos y prubelas. Use
=0.05
7. Plantee las hiptesis correspondientes al supuesto de normalidad en los residuos y prubelas. Use
=0.05
8. Escriba los modelos: Logartmico, Inverso X y cuadrtico, para cada uno de ellos indique su R2 y su
error estndar de estimacin.
9. Elija el mejor modelo y recalcule la prediccin realizada en 4)
10. Concluya sobre la conveniencia de usar el mejor modelo para predecir las Ventas
CAPTULO 6
REGRESIN LINEAL MLTIPLE
6.1 Introduccin
En la vida real una variable se relaciona no slo con una sino con muchas ms variables, por ejemplo, un
agente de bienes races est interesado en determinar el Valor Comercial de un inmueble con base en el
rea construida (en m2), el Nmero de habitaciones, el Valor comercial de las casas vecinas, el tipo de
inmueble (casa o apartamento) y la Antigedad de la construccin. En este tipo de relaciones se pueden
analizar situaciones como: i. La dependencia lineal del Valor comercial con dos o mas de estas variables, ii.
El Nmero de habitaciones es mejor predictor que el Valor comercial de las casas vecinas, entre otras
varias situaciones que se irn tratando a travs del texto.
Los procedimientos de regresin lineal mltiple son ampliamente usados en investigacin de tipo
transversal (observaciones referidas en un mismo instante de tiempo, por ejemplo: anlisis de una
encuesta realizada a un grupo de empresarios para determinar las implicaciones del tratado de libre
comercio con los Estados Unidos) y en datos de serie de tiempo. Por lo general, el investigador est
interesado en determinar Cual es el mejor predictor de.. Ejemplo: Un cientfico en Educacin estara
interesado en determinar cul es el mejor predictor del rendimiento acadmico en los estudiantes
universitarios.
39
El objetivo es buscar un modelo de regresin que explique a una variable dependiente (variable Y) a travs
de varias variables independientes (variables
expresin:
Y = 0 + 1 X 1+ 2 X 2 ++ k X k +
La validez de este modelo requiere del cumplimiento de varias hiptesis sobre los parmetros
0 , 1 , 2 , , k
y sobre el error
0 , 1 , 2 , , k
clculo diferencial que se puede consultar en cualquier libro de inferencia estadstica. Una forma de
hacerlo menos costosa es a travs de un software estadstico tal como SPSS, Minitab, Startgraphics o
incluso el mismo Excel.
X 1 , X 2 , , X k
, medidas en escalas
Y = 0 + 1 X 1+ 2 X 2 ++ k X k +
Donde cada coeficiente
Ec, 6.1
Xi
sobre Y dejando
X1 X2 .
El modelo de regresin lineal mltiple implica la consecucin de una muestra, de la cual se determina el
modelo de valores observados:
con
i=1,2, , n y n> k
Ec. 6.2
40
Donde
b0 , b1 , b2 , ,b k
son
los
valores
estimar
de
los
parmetros
0 , 1 , 2 , , k
respectivamente.
El modelo estimado ser:
Y^ =b 0 +b1 X 1 +b2 X 2 ++ bk X k
Los valores
b0 , b1 , b2 , ,b k
Ec. 6.3
0 , 1 , 2 , , k
observaciones
y= Xb+ e
Ec. 6.4
donde
[] [ ] [] []
y1
y2
y= .
.
.
yn
1 x 11 x 12 . .. x 1 k
1 x 21 x 22 . .. x 2 k
. .. .
X=
. .. .
. .. .
1 x n 1 x n 2 .. . x nk
b0
b1
b= .
.
.
bk
e1
e2
e= .
.
.
en
Aplicando el mtodo de mnimos cuadrados a la forma matricial se encuentran las estimaciones a los
^ ( X ' X )1 X ' y
b=
Ec. 6.5
con varianzas:
Var ( b^ j )= 2
El termino
es decir:
Rj
1
1R2j
Ec. 6.6
R2j =R2X |X
j
, X2 , . , X j1 , X j+1 , . , Xk
j=1,2, , k
Xj
41
Actividad 36: Ajuste un modelo de regresin lineal mltiple a los datos del Caso de estudio de
Calimuebles (ver anexo 2) con variable dependiente: Ausentismo (ausen) y variables explicativas: Edad (
^
Ausentismo=10.3210.051Edad0.149Antiguedad0.271Salario+1.054Nohijos
b. Interprete cada uno de los coeficientes del modelo.
i .
Actividad 37: Plantee las hiptesis nula y alternativa acerca de la linealidad general del modelo obtenido
para la empresa Calimuebles (Ayuda: use los
i de la Ec. 6.1).
Para probar las hiptesis planteadas en la actividad 36 se construye la tabla de anlisis de varianza
ANOVA. Ver tabla 6.1.
Fuente de
Variacin
Grados
Suma de
de
Cuadrados
Libertad
Regresin
SSR
Residuos
n - (k +
1)
SSE
Total
n-1
Total
Promedio de los
Cuadrados
MSR=
SSR
k
MSE=
SSE
n( k +1)
f c=
Valor P
MSR
MSE
42
n
( y i y )2= ( ^y i y )2+ ( y i ^y i )2
i=1
i=1
i=1
Donde:
n
F=
SSR/ k
SSE/( nk1)
H0
ser
f ; k ,nk1
Actividad 38: Obtenga la tabla de anlisis de varianza para el modelo ajustado en la actividad 36 y
determine si el modelo de regresin lineal mltiple obtenido para la empresa Calimuebles es significativo.
R2 .
43
R 2=
Rajus =R (1R )
R2 ajustado
k
nk1
i es significativa)
Para la prueba de estas hiptesis se recurre al anlisis de varianza dada las estadsticas de prueba o los
valores de probabilidad (Valores_p) respectivos a cada hiptesis.
Actividad 41: Evalu la contribucin al modelo de regresin del ausentismo laboral de cada una de las
variables
X1 , X2 , X3 y X4
44
Cuando una variable resulta no significativa, se debe eliminar del modelo de regresin y ajustar un nuevo
modelo con las variables restantes.
Actividad 42: Proponga un modelo de regresin lineal mltiple ajustado a las variables significativas para
el modelo de la empresa Calimuebles.
X1 :
X2 :
X3
X3 :
X1 y X2 ) o
cuando la correlacin entre dos variables independientes es alta (ejemplo: para predecir el ausentismo en
una empresa se tienen entre otras variables La Edad del empleado y La Antigedad en la organizacin, es
muy posible que estas variables se relacionen directamente y tengan un coeficiente de correlacin alto).
Diagnstico de la multicolinealidad:
1. En algunos casos se presenta que la significancia de la tabla ANOVA nos dice que hay relacin
lineal pero al evaluar la significancia de cada variable ninguna resulta significativa. Esto puede ser
evidencia de problemas de multicolinealidad.
2. Evaluando la correlacin entre variables independientes. Valores altos de correlacin significan que
hay dependencia entre las variables implicadas.
Actividad 43: Investigue el procedimiento para obtener las correlaciones en el programa SPSS.
La matriz de correlacin entre las variables X determina las posibles relaciones de dependencia.
T i =1R2i
R2i es el coeficiente de correlacin entre cada variable independiente con todas las
2
dems, es decir:
Ri =R X |X
i
, X 2 ,. , X i1 , X i+1 , . , X k
i=1,2, , k
45
Valores altos de
R2i , por ejemplo, 0.90 son indicios de fuerte dependencia en las variables
La expresin
1
1R2i
FIV i=
1
1R2i
(ver ecuacin 6.6) por lo que recibe el nombre de Factor de Influencia de la Varianza. Valores
prximos a 1 indican ausencia del problema de multicolinealidad ya que
es decir, debe haber ausencia de correlacin entre la variable
Por lo contrario, un valor de
FIV i >10
es indicio de
R2i
Xi
R2i
y el resto de variables
X. .
problemas de multicolinealidad.
5. Otra tcnica mucho ms completa y compleja es el NDICE DE CONDICIN. Este ndice se obtiene
utilizando el mtodo de componentes principales. Esta tcnica es matemticamente compleja y se
sale de los alcances del curso. Aqu aceptaremos que valores altos de ndice de condicin
(mayores a 30) son indicios de colinealidad de modera a fuerte.
Para obtener el
Corregir la multicolinealidad
1. Eliminar la variable causante de la multicolinealidad. Por ejemplo, si las variables
X1 y X2
presentan problemas de multicolinelidad se debe eliminar una de las dos variables. Cul eliminar?
Se debe eliminar la que tenga menor correlacin lineal con la variable dependiente Y.
2. Evitar el sesgo de especificacin. El sesgo de especificacin ocurre cuando se elimina una variable
de un modelo pero esta operacin va en contrava del modelo terico, por ejemplo, si se tiene un
modelo para explicar la Demanda de los consumidores y resulta que la variable Ingreso presenta
problemas de multicolinealidad, eliminarla va en contra de la teora econmica ya que la Demanda
depende de los Ingresos de los consumidores, si se elimina ocurre el sesgo de especificacin.
Par evitar el sesgo de especificacin se puede recurrir a una transformacin matemtica.
Actividad 44: Valide el supuesto de multicolinealidad para el caso de estudio de Calimuebles.
46
variable de respuesta
queremos predecir a
^y 0t
2
Donde:
se=
,nk1
100 (1 )
s e 1+ hi y 0 ^y 0 +t
2
( y ^y )2
nk1
x 01 , x02 , , x ok .
y 0 es:
,nk1
X s. Suponga que
s e 1+hi
se
se
R Cuadrado
R Cuadrado
Corregida
.992a
0.983
0.975
Error Tpico
de la
Estimacin
0.286
X X x0
hi=x '0
En el SPSS estos intervalos se obtienen con las opciones Save y Prediction Intervals.
Actividad 45: Obtenga un intervalo de prediccin del 90% para el Ausentismo cuando la Edad sea igual a
30 aos, la Antigedad de 8 aos, el Salario de ocho millones y el Nmero de hijos sean dos para el
modelo creado en la actividad 35.
donde
Cii
es el elemento de la diagonal de
X ' X 1
que corresponde a
bi . En el SPSS estos
47
6.10
H 0 : i = i 0
H 1: i i 0
t=
Use el estadstico de prueba
b1 1
sb
sb
, error tpico en el SPSS) para calcular el Valor_p con los grados de libertad asociados a la regresin lineal
mltiple ( g .l .=nk 1 )
6.11
Variables cualitativas tales como Gnero, Estado civil, Tipo de empleado, etc. Son tratadas con valores 0 y
1 para determinar su ausencia o presencia de influencia en el modelo de regresin lineal, por ejemplo, en
el caso del Ausentismo Laboral, el modelo ser el mismo para dos grupos diferentes como Hombres y
Mujeres?. Para resolver este interrogante se plantea el modelo general teniendo en cuenta la variable
cualitativa y su interaccin con cada una de las variables regresoras. Por ejemplo, para un modelo con
variables
X 1 y X 2 donde
X 2=0 y
Y = 0 + 1 X 1+ 2 X 2 + 3 X 1 X 2+
Para analizar el efecto de la cualitativa (
regresora principal (
Ec. 6.7
H 0 : 3=0 versus
X 2=1 entonces
3
1+ X
Y =( 0 + 2 ) +
Si
X 2=0 entonces
Ec. 6.8
H 1 : 3 0 . Si esta interaccin
48
Y = 0 + 1 X 1+
Ec. 6.9
Observe en la ecuacin 6.8 el efecto incremental en los coeficientes, situacin que no ocurre en la
ecuacin 6.9.
Si la interaccin resulta no significativa se plantea el modelo:
Y = 0 + 1 X 1+ 2 X 2 +
Si se rechaza
Si
H 0 : 2=0 y se acepta
H 1: 2 0
Ec. 6.10
se plantean los modelos:
X 2=1 entonces
Y = ( 0 + 2 ) + 1 X 1+
Si
Ec. 6.11
X 2=0 entonces
Y = 0 + 1 X 1+
Ec. 6.12
Actividad 47: Determine la influencia de las variables Tipo de empleado y Gnero en el modelo del
ausentismo para la empresa Calimuebles. Interprete los coeficientes resultantes para cada variable
incluida en el modelo. Ayuda: primero evale la significancia de cada variable solo planteando el modelo
con efectos principales sin interaccin, elimine las variables no significativas y construya el nuevo modelo
con las variables restantes.
6.12 Taller
1. Una empresa ha registrado las utilidades (Y) durante diez aos de operacin, tambin ha estimado la
participacin en el mercado (X1) y los descuentos concedidos(X2). Los siguientes son los datos
registrados:
Utilidad ( Y)
(en millones de $)
Participacin
En el mercado ( X1)
%
Descuento
Concedido ( X2)
%
270
250
280
260
310
330
350
320
360
330
5
9
12
8
16
18
19
20
18
27
20
18
16
10
14
16
16
17
17
20
49
a. Construya graficas de dispersin y determine grficamente si existe relacin lineal entre la utilidad
(Y) y las variables regresoras: Participacin en el mercado (X1) y Descuento concedido (X2).
b. Estime un modelo de regresin lineal mltiple entre Y y X1 y X2.
c. Interprete cada coeficiente del modelo encontrado en b.
d. Evale la significancia del modelo propuesto en b, es decir pruebe que el modelo es lineal. Use
=0.05 .
=0.05 .
X 2 : Promedio acumulado,
los siguientes:
Y
4.0
18
3.0
18
5.5
15
0
18
2
18
2
18
4
18
10
15
0
18
2
19
5
15
5
15
4
18
2
18
8
15
6
15
2
18
2
19
4
18
2
18
X2
4.2
4.0
3.5
4.6
4.3
4.0
3.5
3.4
4.5
4.4
3.9
3.8
3.4
3.5
3.5
3.6
4.5
4.0
3.7
3.9
X3
10
15
10
10
10
10
X1
a. Ajuste un modelo de regresin lineal mltiple para la variable dependiente Y: Tiempo, en horas, que
un estudiante realiza alguna actividad deportiva y las variables
X i indicadas.
Xi
en el modelo propuesto en a)
d. Ajuste un modelo de regresin lineal mltiple sin problemas de variables no significativas y
multicolinealidad. Use
=0.05 .
50
e. Prediga la cantidad de tiempo que un estudiante de esta universidad dedica a realizar alguna
prctica deportiva si ha matriculado 18 crditos, tiene un promedio acumulado de 3.8 y
semanalmente tiene 10 horas de ocio.
f.
=0.08 :
10
13
20
25
26
19
14
10
a. Proponga un modelo de regresin lineal mltiple (modelo 1) que permita estimar la cantidad de
minutos que tardar un obrero en producir un Kg. de material
b. Evale la significancia de cada una de las variables implicadas en el modelo 1.
c. Interprete el coeficiente de la variable Tipo de obrero en el modelo 1.
d. Interprete el coeficiente de la variable Horas de entrenamiento en el modelo 1.
e. Evale el supuesto de multicolinealidad en el modelo 1. Use todos los indicadores posibles.
f. Proponga el mejor modelo (modelo 2) que permita estimar la cantidad de minutos que tardar un
obrero en producir un Kg. de material.
g. Estimar la cantidad de minutos que tardar en producir un Kg. de material un obrero experimentado
que recibi 7 horas de entrenamiento. De su respuesta con intervalo de prediccin.
h. Valide todos los supuestos del modelo 2.
4. El Administrador de un reconocido negocio de comidas rpidas en la ciudad de Cali quiere desarrollar
un modelo de regresin que le permita estimar los Tiempos de entrega, en minutos ( Y ) de los
pedidos a domicilio para una cierta zona de la ciudad la cual es atendida por su negocio. Las variables
a considerar son las siguientes:
de ubicacin del cliente,
X2
5,2
80
X3 :
1
X 3 : Hora de
X4 :
15
25
51
8,5
7,6
3,6
4,3
3,4
9,5
0,3
4,2
1,1
2,3
7,3
4,7
5,6
1,8
0,6
4,2
2,6
3,7
1,1
80
36
36
16
36
80
16
36
16
16
80
36
80
16
16
36
36
36
16
1
1
0
0
1
1
1
0
0
0
1
1
1
0
0
1
0
1
0
25
20
20
20
15
25
25
15
15
20
25
20
25
25
25
25
25
25
20
37
34
27
28
35
49
30
25
20
28
42
40
35
30
30
35
32
36
25
Resuelva:
a. Estime un modelo de regresin lineal mltiple que le permita estimar los Tiempos de entrega de
los pedidos a domicilio Tomando TODAS las dems variables consideradas (modelo 1). Escriba el
modelo, plantee y valide las hiptesis correspondientes a la linealidad general del modelo e indique
el coeficiente de determinacin mltiple.
Respuesta: el modelo es:
^
Tiempo entrega=9.7+ 1.5 Distancia0.06 Experiencia+ 4.8 Hora entrega+ 0.7 Tiempo preparacion
H 0 : 1= 2= 3 = 4=0
H 1 : i 0, i=1,2,3,4
De acuerdo a la tabla ANOVA el Valor_p es 0.000, muy significativo por lo que se concluye que el modelo
es lineal en por lo menos una de las variables regresoras.
b. Haga un anlisis de la variable Hora de entrega, es decir, evale su significancia e interprete su
coeficiente en el modelo 1.
52
H 0 : Horaentrega =0
H 1 : Horaentrega 0
El valor p = 0.044 <
=0.05
H0
y se acepta
H 1 , es decir, la variable
Hora de entrega tiene relacin lineal con la variable Tiempo de entrega. A continuacin se procede a
interpretar su coeficiente.
4.8: En las horas pico
(x 3=1) los tiempos de entrega se demoran en promedio 4.8 minutos mas que
T experiencia=0.297
X2 )
d. Indique y analice la correlacin lineal entre las variables Distancia y Tiempo de preparacin. Qu
implicaciones tiene esta correlacin en el modelo 1?.
e. Construya un nuevo modelo de regresin (modelo 2) que no tenga problemas de variables no
significativas y problemas de multicolinealidad. Indique la ecuacin del modelo y su coeficiente de
determinacin.
f.
Prediga los Tiempos de entrega de los pedidos a domicilio para un cliente determinado que resida
a una distancia de 6.5 kilmetros, que el pedido sea llevado por un domiciliario de 36 meses de
antigedad, que el pedido sea en hora pico y cuyo tiempo de preparacin sea 25 minutos.
Respuesta:
^
Tiempo entrega ( distancia=6.5 km, tiempo preparacion=25 ) = 38,9 minutos con un intervalo (29,9;
47,8)
g. Evale cada uno de los supuestos del modelo de regresin mltiple (modelo 2). Debe mostrar los
indicadores correspondientes a cada prueba y analizar la grfica de residuales.
h. Escriba un informe sobre la importancia del modelo obtenido para predecir los Tiempos de entrega
de los pedidos a domicilio para un cliente de un negocio de comidas rpidas en la ciudad de Cali.
Indique el factor ms relevante y el menos relevante de los propuestos en la investigacin. Justifique
su respuesta.
53
X1
X2
X3
1
2
3
4
5
6
7
8
9
10
250
250
270
200
275
220
289
200
310
250
250
200
200
150
230
170
260
140
240
210
4500
6800
5210
5000
5300
5500
5230
4800
4990
6700
1
0
1
0
1
0
1
0
1
0
a. Ajuste a un modelo de regresin lineal mltiple que incluya las tres variables.
^
Ventas=1.300+0.074 Superficie+0.450 Ubicacion
b. Interprete el significado de las pendientes en este problema. Respuesta: Una tienda ubicada en
pasillo principal (ubicacin=1) incrementa sus ventas en 0.450 millones de pesos
54
c. Prediga las Ventas mensuales para una tienda con una superficie de 20 m 2 ubicada en pasillo
principal. De su respuesta con un intervalo de confianza del 98%. Respuesta: (2.8496; 3.61040)
d. Determine si existe una relacin significativa entre Ventas y las dos variables explicativas a un nivel
de significancia del 2%. Respuesta: Valor_p = 0.000 si hay relacin lineal
e. Establezca estimaciones de intervalos de confianza del 98% para la pendiente de poblacin, para la
relacin entre Ventas y Superficie, y entre Ventas y Ubicacin en pasillo. Respuesta: (0.043; 0.105)
y (0.082; 0.818)
f. Analice la influencia en las Ventas de la Ubicacin en pasillo.
g. Analice el efecto de interaccin entre superficie y Ubicacin en pasillo. Qu modelo debera
usarse? Ayuda: Cree la variable Interaccin = Superficie * Ubicacin y analice su significancia
h. Efecte un anlisis de residuos en los resultados obtenidos y determine la conveniencia del ajuste
del modelo.
Tienda
Superficie
m2
Ubicacin:
1: pasillo principal
0: pasillo marginal
Ventas
(millones de $)
1.6
2.2
1.4
10
1.9
10
2.4
10
2.6
15
2.3
15
2.7
15
2.8
10
20
2.6
11
20
2.9
12
20
3.1
7. Un profesor de Estadstica quiere encontrar un modelo estadstico que permita predecir el rendimiento
de sus estudiantes en funcin de las Notas promedio de los Parciales (Y) con base en las variables:
Horas de estudio diarias fuera de clase (X1), nmero de cursos matriculados por estudiante (X2),
Trabaja Si=1/No=0 (X3), Numero de faltas a clase (X4) y Promedio acumulado del estudiante (X5).
Los datos estn al final de las preguntas.
Use un nivel de significancia del 10% para todas las preguntas a continuacin.
a. Escriba el modelo (modelo 1) de regresin lineal mltiple que prediga las Notas promedio de los
Parciales (Y) en funcin de las dems variables propuestas.
55
Evale los supuestos de Multicolinealidad e independencia del modelo 1. Use todos los indicadores
y procedimiento disponibles para ello.
Proponga un modelo (modelo 2) que prediga Notas promedio de los Parciales (Y) solo con las
variables explicativas significativas y sin problemas de multicolinealidad.
j.
k. El valor del coeficiente de X5 en el pasado era de 2.5, con el nuevo modelo (modelo 2) sigue
siendo vlido? Justifique su respuesta con un procedimiento estadstico.
l.
X1
4
4
1
2
1
6
5
5
4
4
4
2
1
5
3
X2
5
5
5
6
6
5
5
5
6
7
4
6
6
5
4
X3
0
1
1
1
1
0
0
0
1
0
0
0
0
0
0
X4
0
1
5
4
2
1
0
0
1
0
1
6
4
1
0
X5
4.25
4.00
3.75
3.84
4.00
4.50
4.60
4.40
4.00
4.20
4.30
3.50
3.80
4.50
4.00
Y
4.0
3.5
2.5
2.8
3.0
4.8
4.5
4.5
3.8
3.8
4.0
1.5
2.0
4.5
3.8
8. El gerente del Banco de la Repblica de Colombia quiere desarrollar un modelo de regresin para
determinar el impacto que tienen algunas de las variables de produccin ms importantes en el pas
sobre el Producto Interno Bruto (PIB). Este modelo servira para que el estado tome acciones sobre el
56
sector que ms influencia tiene en el PIB. Las variables a considerar son: Produccin total de azcar,
Produccin de cemento gris, Produccin de lingotes de acero y Vehculos ensamblados. Los datos
correspondientes a estas variables y al PIB se encuentran al final de las preguntas.
a. Estime un modelo de regresin lineal mltiple que permita predecir el PIB con base al resto de
variables indicadas en la tabla.
b. Interprete cada uno de los coeficientes del modelo estimado en a).
c. Calcule el coeficiente de correlacin mltiple e interprtelo.
d. Calcule el coeficiente de determinacin e interprtelo.
e. Pruebe la linealidad general del modelo encontrado en a).. Use
f.
=0.10.
=0.10.
g. Elimine las variables no significativas y construya un nuevo modelo para predecir el PIB.
h. Evale el supuesto de multicolinealidad (si da lugar) en el modelo propuesto en g).
i. Construya los grficos de residuos con respecto a cada variable X y comente la validez de cada
uno de los supuestos en el modelo de regresin obtenido en g).
j. Plantee y pruebe las hiptesis correspondientes a la normalidad en los residuos.
k. Plantee y pruebe las hiptesis correspondientes a la independencia o no autocorrelacin de los
residuos.
l. Realice operaciones sobre cada una de las variables tenidas en cuenta en el modelo en g) y
construya un nuevo modelo. Ayuda: analice datos atpicos, realice transformaciones tipo Ln, 1/x,
etc.)
m. Comente sobre la posibilidad de usar el modelo encontrado en l) para predecir el PIB.
Azcar
Lingotes Produccin
Vehculos
de
de
ensamblados A precios
Perodo
acero
carbn
Unidades 1/ corrientes2/
Toneladas
2000
199271,5
595277,5
23871,7
1535,8
4213,7
2001
186796,8
564625,0
27632,3
1617,1
5424,3
2002
210944,3
552714,8
26238,4
1295,3
5719,7
2003
220525,5
597365,5
24320,6
1836,9
5058,0
2004
228398,0
637159,6
30025,3
1978,1
7471,3
2005
223604,8
820783,8
32048,3
2163,9
8906,4
2006
201144,8
832349,1
35501,5
2369,4
10748,3
2007
189799,5
894934,8
34372,9
2468,8
12891,1
2008
169633,3
850502,3
31329,9
2602,5
8460,0
2009
216439,6
760221,4
27247,1
2547,3
7365,1
2010
173202,4
789116,9
29277,9
2514,9
10292,8
2011
194980,3
898069,2
28955,3
2687,9
12474,1
2012
183235,9
913096,8
31328,4
2887,2
12052,6
1/ Incluye automviles y vehculos industriales.
2/ Miles de millones de pesos
Fuente: Banco de la Republica.
Cemento
Gris
57
CAPTULO 7
CONSTRUCCIN DE MODELOS DE REGRESIN
7.1 Introduccin
El propsito de encontrar el mejor modelo que permita hacer las predicciones mas cercanas a la realidad
requiere de un examen de varios factores cada uno de ellos no menos importante. A continuacin se
mencionaran los principales.
X 1 , X 2 , , X k )
El tamao de muestra:
ln ( X 1 ) ,
X2 y
1
, etc.
X
X3 .
X 1X 2 .
n .
Actividad 48: Analizar las implicaciones de tener en cuenta cada uno de los factores mencionados en el
tamao de muestra. Ayuda: recuerde que un modelo de regresin lineal mltiple no puede tener grados de
libertad negativos.
58
Variables introducidas/eliminadasb
Modelo
1
dim
ensi
on0
Variables
introducidas
Variables
eliminadas
nu_hijos, edad, .
genero, tipo,
salario, antiguea
Mtodo
Introducir
59
Variables introducidas/eliminadasa
Modelo
Variables
introducidas
Variables
eliminadas
Mtodo
antigue
salario
genero
nu_hijos
R2corregidos
R cuadrado
R cuadrado
corregida
Error tp. de la
estimacin
,715a
,512
,501
2,675
,822b
,676
,661
2,204
,867c
,751
,735
1,951
,894d
,799
,781
1,774
60
Cp
Rajus
R2
aumenta al introducir variables asi sean no relevantes para el
modelo.
R2ajus
Cp
de Mallows
Cp
de Mallows
CAPTULO 8
MUESTREO
8.1 Introduccin
61
8.3 Definiciones
Definicin 8.1: Poblacin o Universo
La poblacin es el conjunto de todos los individuos o elementos sobre los cuales se desea extender los
resultados de una investigacin.
En muchas ocasiones se hace referencia a Poblacin Objetivo para referirse solo a los elementos de la
poblacin que estarn disponibles.
Definicin 8.2: Marco Muestral
El marco muestral es un listado o medio fsico donde se ubican los elementos de la poblacin. Ejemplos:
Base de datos donde estn registrados todos los empleados de una fbrica, mapa de la ciudad de Cali
para investigar el empleo en sector de la construccin, lista del curso de Estadstica.
Para la muestra, se tienen dos definiciones, la primera para el caso de poblaciones discretas y la segunda
en el caso de poblaciones continuas.
Definicin 8.3: Muestra 1
62
Muestra es una parte de una poblacin que se espera provea los datos estadsticos necesarios para
estimar las caractersticas de la poblacin objeto de estudio.
63
Medicin directa
Observacin
Entrevista personal
Entrevista Telefnica
Actividad 56: Investigar cada uno de los mtodos para la toma de informacin especificando: i. cuando se
debe usar, ii. Ventajas y desventajas, iii presentar ejemplos.
64
c. Un investigador toma muestras del carbn extrado de una mina, tomando intencionalmente trozos de
carbn de la parte superior de cada carro.
d. La cooperativa Coomeva desea dar a conocer un nuevo plan vacacional para lo cual rifa un BMW
entre las personas que lleven cinco personas ms a una charla sobre el nuevo plan vacacional.
8.7 Representatividad de la muestra
Actividad 62: Considere los siguientes casos:
a. Una empresa productora de un comestible produce en un turno de ocho horas 10,000 unidades. Un
procedimiento de control de calidad consiste en revisar 10 unidades extradas aleatoriamente cada
hora y determinar el peso de cada unidad. Con esta revisin el ingeniero de control decide si el
proceso funciona bien o mal.
b. Doa Ramona produce un rico sancocho valluno. Este se considera que est llegando a su punto
de sabor cuando Doa Ramona lo prueba extrayendo una porcin en una cuchara pequea.
c. Para determinar la calidad de la produccin de azcar con base en caa verde, un ingenio
azucarero realiza el siguiente procedimiento en la planta: De un depsito de meladura se extraen
10 centmetros cbicos y se determinan los contenidos de potasio, calcio, magnesio y sodio.
Responda las siguientes preguntas:
1. Qu tan variables son cada una de las poblaciones indicadas?
2. Qu tienen en comn las tres muestras seleccionadas?
3. Comente sobre lo adecuado del procedimiento de muestreo en cada caso
4. Defina el significado de muestra representativa.
5. Cmo se logra una muestra representativa?
Error de cobertura
Datos faltantes
Error de muestreo
Otros errores: Recipientes contaminados o con deficiencias, el personal no cumple con las normas
de aplicacin, eleccin de unidades de difcil acceso
65
Actividad 63: Cules son las diferencias entre el Error de muestreo y los otros tipos de errores? Ayuda:
analice cuales de estos errores se pueden controlar y cules no.
Dada la importancia del error de muestreo se da su definicin a continuacin.
La primera se refiere al hecho de que por azar entran en la muestra elementos atpicos (elementos
demasiados grandes o demasiados pequeos), el segundo tiene que ver con los mtodos de muestreo, un
mal mtodo puede llevar a seleccionar ms elementos de una caracterstica que de otra.
8.10
Muestreo Sistemtico
Muestreo de aceptacin
66
Ubicar en una columna el nmero de registro de la poblacin (nmeros del 1 hasta N, donde el
nmero 1 es el primero de la lista, el 2 el segundo y as sucesivamente hasta el final de la lista).
Del men seleccionar la opcin Anlisis de datos y luego la opcin Muestra, indicar en el Rango
de entrada la columna donde esta numera las poblacin y finalmente, en Numero de muestras indicar
el tamao de muestra a extraer ( n ).
Tambin se puede usar la tabla de nmeros aleatorios (ver anexo 6) de la siguiente manera: se numera la
poblacin con los nmeros 01, 02, 03, , 99. Ubicndose en la primera columna y en la primera fila y solo
tomando en cuenta los dos primeros dgitos de los nmeros de la tabla se seleccionan los elementos 63,
43, 88 hasta completar la muestra.
Actividad 64: De un curso de Estadstica (ver listado adjunto) obtenga una muestra aleatoria de tamao 5
usando:
a) La opcin muestra del programa Excel
b) La tabla de nmeros aleatorios
67
^ es el estimador de
^ | e
|
68
( 1 )100 , con
La confiabilidad
^ | e ) =1
P (|
conocida. Asuma el
supuesto de normalidad en la poblacin objetivo y aplique los conceptos de precisin y confiabilidad para
Z=
Respuesta: n=
Z /2
e
x
/n
Actividad 66: El cobro de valorizacin de las 21 mega obras en la ciudad de Cali se hizo con base en la
capacidad de pago de las familias propietarias Cul es el ingreso promedio de las familias en los estratos
III y IV (la clase media) en la ciudad de Cali? Para resolver este interrogante se debe recurrir a una
muestra debido a que el nmero de familias en estos estratos es muy grande Cul debe ser el tamao de
la muestra apropiado si se quiere un nivel de confianza de 95% y un error en la estimacin no mayor a $
100,000? En un estudio similar se estim una desviacin estndar de los ingresos por familia de 500,000
pesos. Respuesta: 96
Actividad 67: Caso cuando la poblacin sea normal, varianza poblacin
muestra pequea. En la situacin que no se conozca la varianza poblacional (
2 ) se debe recurrir a
S2
t /2, v
x
S / n
2 se estima con
v =n1
grados
t
S
n= /2, v
.
e
desconocida y
depende del tamao de muestra por lo que se tiene que hacer un procedimiento de aproximacin
Ejemplo: Un estudio sobre colas, se quiere estimar el tiempo promedio de espera en una fila de una caja
registradora en un negocio de abarrotes. Para realizar esta estimacin se va a recurrir a una muestra
aleatoria con una precisin no mayor a 1.5 minutos/cliente y un nivel de confianza del 95%. Una muestra
piloto mostro los siguientes resultados en minutos/cliente: 10, 6, 14, 13, 5, 19, 10, 9, 9, 10. Estime el
tamao de muestra
n .
69
Solucin:
Se propone inicialmente un tamao de muestra tentativo, por ejemplo 41 y se obtiene
n=
2.0214.0 2
=29
1.5
t 0.025,40 =2.021 ,
2
t 0.025,28 =2.048 resultando: n= 2.0484.0 =30 . Como este valor no va a cambiar en lo sucesivo, se
1.5
acepta que es el tamao de muestra indicado para estimar el tiempo promedio de espera en una fila del
negocio de abarrotes considerado.
Actividad 68: Analice la relacin entre costos de la obtencin de la informacin muestral y tamao de
muestra.
Ayuda: defina una funcin de costos proporcional al tamao de muestra y la variabilidad de la poblacin a
investigar.
X
N donde
n 10 y n(1 ) 10
implica que
se pueda
Z=
P s
( 1) , donde
n
Ps
n=
Z / 2 (1 )
e
para
70
(1 )
obtener valores aproximados de estos parmetros (Ayudas: i. investigue el concepto de muestra piloto, ii.
Asigne valores a
Actividad 71: Una compaa grande quiere estimar la proporcin de empleados que estn a favor de un
cambio en la jornada laboral. Cul debe ser el tamao de la muestra apropiado si se quiere tener un 90
% de confianza y un error no mayor del 8% en la estimacin? Respuesta: 106
Actividad 72: Cmo se afecta el tamao de muestra si se vara el nivel de confianza?, Y si se vara el
error de precisin?, Y si la poblacin es muy variable?. Construya graficas ilustrativas de cada situacin.
Actividad 73: Cmo se afectan las frmulas de tamao de muestra si la poblacin es finita de tamao N?
Actividad 74: La empresa Gallup realiz una encuesta en abril del 2006 para medir la intencin de voto en
la primera vuelta en las elecciones presidenciales en Colombia. Las condiciones para realizar la encuesta
fueron: Marco muestral: Habitantes mayores de edad ubicados en los cascos urbanos de los diferentes
municipios del pas, Tipo de muestreo: Aleatorio sistemtico cuoteado por sexo, error mximo de
estimacin 4%, Nivel de confianza: 95%, Tamao de la poblacin: Aproximadamente 10 millones, obtenga
n0 y n
. Respuesta: 600
Actividad 75: El administrador de una tienda de ropa en un gran centro comercial ha recogido informacin
de las compras realizadas por sus clientes en la primera semana de temporada de fin de ao con el
propsito de evaluar la campaa publicitaria empleada para la poca. Las variables de mayor inters son:
Consumo en pesos por cliente y si es cliente nuevo o antiguo. Para una muestra aleatoria de 120 clientes
de los 5,000 registrados en la base de datos se encontraron los siguientes resultados:
Consumo promedio:
$ 195,630
$ 125,980
Estime intervalos de confianza del 90% para el consumo promedio y la desviacin estndar por
cliente para este negocio. Respuesta: 176,769
b.
214490
Estime un intervalo de confianza del 90% para la proporcin de clientes nuevos para la tienda.
Respuesta:
0.55 0.70
El Administrador de la tienda no contento con estos resultados opto por un nuevo estudio, esta vez
considerando por separado las estimaciones.
2 Fuente: www.elcolombiano.com/debuenafuente/Encuestas%202006/encuestaabril27.
71
c.
d.
e.
Si se tiene que elegir un solo tamao de muestra, Qu tamao de muestra se tomara segn los
resultados de c) y d)?
Actividad 76: Suponga que se tiene la lista de los 120 empleados de una empresa, de los cuales se
seleccionar una muestra aleatoria de
8.13
Se puede identificar una secuencia ordenada en la poblacin tal como una base de datos, una lista
o una ruta de tal manera que la muestrea se puede tomar a intervalos constantes
Si la poblacin es de tamao N y la muestra n, se define un nmero
k=
N
n
que determina un
elemento de la muestra.
Nota 1: si el ordenamiento identificado en la poblacin es aleatorio (es decir los elementos de la poblacin
estn ordenados al azar) el muestreo sistemtico se puede considerar equivalente al muestreo aleatorio
simple, y por lo tanto todas las formulas (inclusive las de tamao de muestra) del MAS son equivalentes
para el sistemtico.
72
Actividad 77: Las directivas de una institucin universitaria compuesta de 510 empleados quiere consultar
la opinin de sus empleados con respecto a las jornadas de salud implementadas en el ltimo ao, mas
concretamente se quiere determinar si estas jornadas cumplen con las expectativas de la mayora de los
empleados. Para conocer la opinin de los empleados se recurre a una encuesta la cual ser aplicada a
una muestra aleatoria de empleados. Indique el procedimiento para seleccionar una muestra aleatoria
sistemtica de 30 empleados. Realice una simulacin del proceso de seleccin de la muestra con el
programa Excel.
8.14
En la poblacin se identifican grupos denominados Estratos, cada grupo debe ser homogneo
internamente y claramente diferenciable de los otros grupos.
Los estratos pueden o no estar compuestos del mismo nmero de unidades, por tal razn la
fraccin de muestreo ( f =n/ N ) puede variar de un estrato a otro.
Se usar la siguiente notacin para el muestreo aleatorio estratificado haciendo referencia a la poblacin:
L: Nmero de estratos.
Ni: Nmero de unidades muestrales en el estrato i.
N: nmero de unidades muestrales en la poblacin.
N = N1 + N2 + . . .+ NL
Estrato h
1
2
3
Elementos
Y 11 , Y 12 , , Y 1 N
Nh
Wh
Y h
S 2h
N1
N2
W1
W2
Y 1
S 21
WL
73
Y 21 , Y 22 , , Y 2 N
4
5
.
.
.L
Y 2
S 22
.
.
.
.
.
.
.
.
.
NL
Y L 1 , Y L2 , ,Y ln
.
.
.
.
Y L
SL
La siguiente notacin ser utilizada para el muestreo aleatorio estratificado haciendo referencia a la
muestra:
L: Nmero de estratos
ni: Nmero de unidades muestrales en el estrato i
Estrato h
1
2
3
4
5
.
.
.L
Elementos
y 11 , y 12 , , y 1 N
y 21 , y 22 , , y 2 N
nh
wh
y h
sh
y
V ( h)
n1
n2
w1
w2
y 1
s 21
y 2
s2
y
V ( 1)
.
.
.
.
.
.
.
.
.
nL
y L 1 , y L2 , , y ln
wL
.
.
.
.
y
V ( 2)
y L
.
.
.
2
sL
.
.
.
.
.
y
V ( L)
Actividad 78: Una entidad de investigacin socioeconmica est interesada en establecer los ingresos
promedio en un determinado municipio, y decide realizar una encuesta por muestreo para estimar los
ingresos promedio por familia en los hogares del mismo. El municipio se compone de una cabecera
municipal (estrato 1), una zona rural (estrato 2) y una zona industrial (estrato 3). La cabecera municipal
obtiene ingresos principalmente del comercio, la zona rural es fundamentalmente cultivadora de caf y la
zona industrial corresponde a una gran fbrica productora de azcar y alcohol carburante. El estrato 1 est
compuesto de 155 hogares, el 2 de 62 y el 3 de 93. Analice los mritos de usar muestreo estratificado en
esta situacin.
74
^ | e ) =1
P (|
, asumiendo normalidad y una probabilidad igual a 0.95 se
e=2 V ( y )
y 2 V ( y )
(debido a
de la cual se obtiene:
e
V ( y )=
4
. Esta
Sea
1
y = N i y i entonces la varianza de
N i=1
V ( y )=
ser:
1
2
2
2
N V ( y 1 ) + N 2 V ( y 2) + + N L V ( y L ) ]
2[ 1
N
N n
1
N 21 1 1
2
N1
N
S21
N n
++ N 2L L L
n1
NL
)( )
L
N n
1
2 N 2i i i
Ni
N i=1
)( )]
)( )
Si
ni
S2L
nL
V ( y )
N 2i S2i
w
i=1
i
L
n=
e2 N 2
+ N i S2i
4
i=1
Formas de manejar
wi :
e igualando a
e2
4
75
w 1=w 2==w=
1
L
2. Asignacin proporcional. Los tamaos de muestra son proporcionales a los tamaos de los
ni=n
estratos:
( NN )
i
resultando la frmula:
N i S 2i
n=
i=1
e 1
N + N i S2i
4 N i=1
Actividad 79): Retomando la actividad 78, se tienen las desviaciones estndar de los ingresos de cada
uno de los como
N 2i pi qi /wi
n=
i=1
2 2
pi es la proporcin poblacional del estrato i que se puede estimar con la proporcin muestral del
Donde
estrato i
8.15
N e
+ N i pi qi
4
i=1
Los conglomerados son agrupaciones con caractersticas similares entre ellos pero con una variacin
importante dentro de cada grupo, se puede pensar que cada conglomerado representa las caractersticas
de la poblacin. Las agrupaciones (o los conglomerados) se forman frecuentemente por zonas
geogrficas. A modo de ejemplo, suponga que se quiere investigar la acogida de una nueva marca de
bebida gaseosa en la ciudad de Cali, una manera de hacerlo sera identificar agrupaciones naturalmente
formadas como son los grandes centros comerciales, cada centro sera un conglomerado, se
seleccionaran algunos de ellos y se hara la encuesta a los clientes que se encuentren all.
76
En la poblacin se identifican grupos que, a diferencia de los del muestreo estratificado, se espera
que internamente sean heterogneos en la variable de agrupacin
Generalmente los conglomerados los forman unidades cercanas geogrficamente
Se usa un muestreo por conglomerado principalmente para reducir costos y comodidad en la toma
de datos ms que por lograr mrgenes de error menores que otros mtodos de muestreo.
77
y la proporcin
es:
N 2c
n=
2 2
N B2 M
+ c
4
Donde:
: Error de estimacin de
M
M=
N )
s 2c
la varianza del
yi
2
c
s=
( y i y mi )2
i=1
n1
con
y = i=1
n
mi
i=1
78
n
zi
2
c
( z i ^p mi )2
s=
i=1
n1
con
^p=
i=1
n
mi
i=1
1 mi
m=
n i=1
se estima con
piloto.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Nmero de
estudiantes
25
35
38
26
28
30
32
32
35
34
21
12
15
20
26
30
32
15
10
35
Tiempo total
por
conglomerado
(
yi
625
1050
2280
650
840
1050
1280
1600
2100
1870
735
480
675
1120
1482
1800
2048
885
650
1820
Nmero de
estudiantes
que utilizan el
Mio (
12
20
25
10
5
15
20
20
24
25
8
2
7
10
15
12
20
5
5
25
zi
79
Estime el nmero de conglomerados (salones de clase) necesarios para hacer la estimacin con el error
establecido. Respuesta: 27 salones de clase.
Actividad 81: Resuelva el siguiente caso
Haciendo referencia a la actividad 80, suponga que el investigador desea estimar la proporcin de
estudiantes que utilizan el servicio de transporte masivo Mio. Determine el nmero de conglomerados
necesarios para estimar la proporcin
clase.
Actividad 82: Construya una lista indicando las ventajas y desventajas de cada uno de los muestreos
probabilsticos presentados
8.16
Muestreo de aceptacin
En control de calidad es muy frecuente recurrir al muestreo para hacer diagnsticos de los artculos
producidos o recibidos (estos normalmente se denominan lotes). El procedimiento consiste en revisar parte
del lote y tomar una decisin sobre la calidad del mismo. Este procedimiento es llamado muestreo de
aceptacin.
El muestreo de aceptacin debe cumplir unos requerimientos o normas establecidas por las empresas o
departamentos de control de calidad constituyendo de esta manera en lo que se denomina Plan de
Muestreo.
Existen dos tipos de planes de muestreo de aceptacin: Por atributos o por variables. Los atributos son
caractersticas de calidad que se expresan en forma de pasa, no pasa. Las variables son caractersticas
de calidad que se miden en escala de razn.
Un plan de muestreo de aceptacin debe tener cierto tipo de plan o reglamento preparado para determinar
si un lote debe aceptarse o rechazarse. Por lo general, la regla se establece en trminos de: El nmero de
muestras a tomar de un lote dado, tamao de cada muestra, definicin de una variable de decisin y un
criterio de aceptacin. Un plan muestral de una sola etapa es un procedimiento en el que se toma una
muestra aleatoria de n unidades del lote para su apreciacin, y se determina el destino del lote con base
en la informacin contenida en la muestra. Por ejemplo, un plan de muestreo simple consistira en una
muestra de tamao n y un nmero de aceptacin c. El mtodo es el siguiente: Se seleccionan n artculos
del lote, si hay c o menos defectuosos en la muestra se acepta el lote, en caso contrario se rechaza el lote.
8.17
Taller
80
b.
Una universidad local quiere determinar los costos que demanda cada estudiante para la
universidad, el uso la zona de parqueo para los estudiantes y el porcentaje de estudiantes con
internet en casa. Indique cul o cules seran los mtodos de muestreo apropiados para resolver
cada situacin. Justifique sus respuestas.
c.
d.
e.
Una empresa de confitera local toma una muestra cada hora de su producto estrella y
sobre esta muestra realiza control de calidad. La produccin es continua y va sobre una banda
transportadora de la cual automticamente se abre una compuerta cada hora para seleccionar los
productos a muestrear. Explique por qu este mtodo de seleccin de la muestra es un mtodo
valido.
f.
El alcalde de la ciudad de Cali quiere estimar el nmero promedio de pasajeros por hora
pico que utilizaran el servicio de transporte masivo MIO. El tipo de muestreo ms apropiado para
hacer esta estimacin seria por conglomerados, donde los conglomerados son las comunas
existentes en la ciudad. Qu ventajas y desventajas tendra este tipo de muestreo?
81
g.
3.
a.
b.
c.
d.
e.
f.
4. Para cada uno de los siguientes casos proponga: Un Marco muestral, La unidad de muestreo y El Plan
de Muestreo ms conveniente.
a. Una industria est considerando la revisin de su poltica de jubilacin y quiere estimar la proporcin de
empleados que apoyan la nueva poltica. La industria consta de 87 plantas independientes localizadas
en toda Amrica Latina. Ya que los resultados deben ser obtenidos rpidamente y con poco tiempo, la
industria decide usar un muestreo de tamao de 15 plantas y de las cuales se obtienen las opiniones de
los empleados.
b. La seccin de control de calidad de una empresa usa el muestreo para estimar la cantidad promedio de
llenado en latas de 12 onzas que salen de una lnea de produccin. La muestra se obtiene
seleccionando una lata de cada cincuenta (50) de la lnea de produccin.
c. Un centro de investigacin agrcola desea estimar el peso total de una nueva variedad de tomate
sembrada en una plantacin de 100 lneas con 50 plantas por hilera. Se espera que cada planta
produzca 1.5% ms de peso que la variedad de tomate tradicional.
d. Una entidad aseguradora de riesgos desea estimar el nmero total de horas-hombre prdidas debido a
accidentes de trabajo de los empleados, en un mes determinado. Los obreros, los tcnicos y los
administrativos tienen diferentes tasas de accidentes lo cual se debe reflejar en el muestreo a realizar.
e. Se realiz un diseo experimental con tres variedades de caa de azcar en el piedemonte llenero de la
cordillera oriental en Colombia con el propsito de determinar las variedades de mejor respuesta
agronmica. El diseo se hizo con 50 parcelas sembradas de la variedad Cenicaa 8475, 30 parcelas
con variedad Republica Dominicana 7511 y 25 parcelas con la variedad San Paulo 701284. Se desea
estimar la altura promedio de cada variedad por parcela para lo cual se recurre a una muestra aleatoria.
f.
Una agencia de turismo desea estimar la acogida de un nuevo plan vacacional para lo cual se
selecciona un grupo inicial de asociados a una cooperativa y se les informa del plan obsequindoles
una semana adicional del plan si logran atraer a una nueva persona al plan.
5. Las directivas de la universidad Icesi desean hacer un estudio sobre el nivel de empleo (tiene empleo,
no tiene empleo) y salario devengado por los egresados de pregrado en las dos ltimas promociones.
82
Para hacer el estudio se solicit a la oficina de registro acadmico un listado en orden alfabtico de
todos los estudiantes de pregrado graduados en las dos ltimas promociones. A cada egresado se le
asign un nmero secuencial de 0001 a 1280. Resuelva:
a. Indique el marco muestral y La unidad de muestreo para este estudio
b. Disee un plan de muestreo teniendo en cuenta que la proporcin de egresados con empleo tiene un
margen de error del 10%, un nivel de confianza del 90% y un nivel de empleo del 90%.
c. Disee un plan de muestreo teniendo en cuenta que el ingreso promedio de un egresado es de $ 1,
500,000, un margen de error del 1% del salario promedio y un nivel de confianza del 90% (el nivel
salarial de los egresados presenta un coeficiente de variacin del 5%)
6. Un Profesor de Estadstica quiere investigar sobre el tiempo diario de estudio de 30 estudiantes de
una clase:
Estudiantes
de
Mercadeo
Miguel
Victoria
Mara
Fernanda
Julio
Rosa
Fabin
Ana
Laura
Enrique
Carmen
Marcelo
Patricia
Dalila
Juliana
Nmero de
horas
3.0
2.5
2.5
3.0
3.5
2.5
2.0
2.5
2.0
2.5
3.0
3.0
4.0
2.5
3.0
Estudiantes de
Administracin
Juan
Alicia
Pedro
Marcos
Alberto
Jorge
Jos
Carlos
Eval
Nmero de
horas
2.0
2.0
1.5
2.0
1.5
2.0
2.0
2.0
1.5
Estudiantes de
Contadura
Amparo
Astrid
Beatriz
Cindy
Rafael
Eduardo
Nmero de
horas
1.0
1.5
1.0
0.5
0.5
0.0
83
e. Obtenga un intervalo de confianza del 92% para el nmero de horas promedio de estudio con los datos
de la muestra que considere mejor representa a la poblacin indicada.
7. La junta administrativa del condominio Las Vegas de Calima realiza una asamblea anual con sus 450
propietarios. En cada asamblea se realiza una encuesta a 30 propietarios para conocer el grado de
satisfaccin con las decisiones de la anterior asamblea. Explique cmo se tomara una muestra
aleatoria simple de
n=30 .
54.0
61.4
69.9
50.8
62.3
56.4
64.3
50.1
54.3
58.6
61.7
52.6
63.5
57.9
68.7
59.3
53.6
56.0
53.6
54.3
56.8
51.1
66.6
64.5
68.6
57.9
69.5
54.4
56.0
64.9
59.0
58.6
51.8
53.9
59.3
65.8
55.0
61.5
50.2
57.8
67.6
50.4
66.0
54.8
69.7
68.4
50.6
52.5
61.2
63.6
64.9
62.5
53.6
53.3
52.3
59.6
60.0
55.7
56.1
69.4
65.3
61.3
57.7
58.5
67.4
53.4
68.1
61.7
68.4
84
54.8
60.1
68.3
69.0
69.2
55.8
60.6
64.1
55.8
56.6
68.8
51.8
64.5
69.0
53.8
56.5
50.4
54.2
63.0
55.1
55.7
55.0
69.9
69.8
56.3
67.6
62.8
54.5
62.8
52.6
54.6
58.9
52.4
50.5
56.6
58.3
60.7
59.4
50.3
51.4
51.3
58.0
59.7
56.1
52.0
51.2
57.5
63.2
53.9
63.0
67.6
60.5
63.8
53.6
58.9
65.6
66.5
64.1
50.9
60.5
65.7
67.0
66.4
65.9
61.0
66.3
53.4
68.3
50.9
63.2
69.6
59.3
56.8
54.1
52.4
57.6
60.0
54.8
68.0
54.8
65.7
57.7
62.0
55.4
66.6
57.4
65.1
52.1
59.2
50.5
57.6
65.6
66.1
64.0
64.5
51.9
58.1
60.3
65.0
65.1
66.7
51.7
69.9
58.6
64.9
52.4
69.6
53.3
62.8
61.5
65.8
55.4
58.7
65.1
50.1
52.7
51.1
50.1
62.5
51.5
52.2
58.2
53.6
63.1
68.9
54.2
62.2
62.6
51.5
53.6
11. Una entidad no gubernamental desea hacer un estudio sobre Caractersticas socio-econmicas de
personas vctimas de la delincuencia en la ciudad de Cali en el ltimo ao. El modo de toma de datos
es una encuesta que se aplicara a cada persona mayor de 15 aos seleccionada.
a. Identifique la poblacin objetivo.
b. Indique el tipo de muestreo ms apropiado.
CAPTULO 9
EVALUACIN FINAL
85
Curso
x1
x2
x3
x4
x5
3,9
30
20
4,1
3,8
25
35
3,3
3
4
5
6
7
3,3
3,5
2,9
3,3
2,8
6
10
3
5
1
0
0
0
0
0
20
35
30
25
35
3,5
3,2
3,4
3,1
3,2
15
12
16
15
18
3,5
35
3,1
10
3,8
25
20
3,7
10
3,1
35
2,9
13
11
12
3,0
2,9
3
4
0
0
36
36
3,4
3,3
15
13
13
4,2
22
20
3,5
14
3,3
12
36
2,5
12
15
3,1
15
35
3,4
14
1. Qu influencia tiene la variable Horario en el Nmero de estudiantes reprobados por curso ? Use un
modelo de regresin lineal simple con estas variables.
2. Determine la variable X que mayor correlacin tiene con la variable Y. Interprete esta correlacin en el
contexto de las variables del problema.
3. Construya un modelo de regresin lineal simple con las variables: Nota promedio del examen final del
curso y Nmero de estudiantes reprobados por curso. Indique el modelo, el coeficiente de determinacin
e interprete los coeficientes
b0
b1 .
4. Escriba el modelo (modelo 1) de regresin lineal mltiple que prediga el Nmero de estudiantes
reprobados por curso con base en todas las dems variables propuestas.
5. Interprete los coeficientes de las variables Experiencia docente y Nota promedio del examen final
del curso en el modelo 1.
6. Indique e interprete el coeficiente de determinacin mltiple para el modelo 1.
7. Evale los supuestos de Multicolinealidad del modelo 1. Use todos los indicadores y procedimiento
disponibles para ello.
8. Evale los supuestos de independencia del modelo 1. Use todos los indicadores y procedimiento
disponibles para ello.
9. Evale la linealidad general de modelo 1. Plantee y valide las hiptesis correspondientes.
10. Evale la significancia de cada variable incluida en el modelo 1.
86
11. Proponga un modelo (modelo 2) que prediga el Nmero de estudiantes reprobados por curso solo
con las variables explicativas significativas y sin problemas de multicolinealidad
12. Proponga un modelo (modelo 3) que prediga el Nmero de estudiantes reprobados por curso
usando las variables del modelo 2 y realizando las transformaciones matemticas bsicas.
13. De un conclusin general sobre la conveniencia o no de usar el modelo 3 para predecir el Nmero de
estudiantes reprobados por curso. Ayuda: valide todos los supuestos del modelo 3 y luego si
concluya.
Instrucciones: Las preguntas 14 al 20 son para responder falso o verdadero segn el enunciado, en
caso de ser falso justifique la razn de su falsedad
14. La ventaja de hacer censo en lugar de muestreo es que los resultados son ms cercanos a la realidad
( )
15. El tamao de muestra en la regresin est determinado por el teorema del lmite central ( )
16. El muestreo sistemtico tiene la ventaja que recorre a toda la poblacin en el proceso de extraccin de
la muestra ( )
17. La principal fuente de error en una investigacin que recurre al muestreo aleatorio es lo difcil que es
controlar a los encuestadores a la hora de la toma de datos ( )
18. El supuesto de varianza constante en un modelo de regresin implica que la varianza de la variable
dependiente (Y) tambin sea constante ( )
19. El anlisis de los residuos (grafica de residuales) en un modelo de regresin lineal se hace para
validar el supuesto de normalidad ( )
20. El tamao de muestra en el muestreo aleatorio simple est directamente relacionado con la precisin
establecida en el estudio ( )
Instrucciones: Resuelva los ejercicios 21 al 24 segn el enunciado respectivo (debe justificar cada
respuesta)
21. Un administrador de un negocio usa la siguiente tcnica para obtener una muestra:lanza un par de
dados, si la suma de los resultados es mayor de 9 selecciona al prximo cliente que entra a su
negocio, en caso contrario espera 10 minutos y vuelve a lanzar los dados La muestra generada por el
administrador es aleatoria ( )
22. En una Facultad con 1.000 estudiantes matriculados, se imparten tres carreras. 260 estudian la
carrera A, 340 la carrera B y 400 la carrera C. Se quiere seleccionar una muestra de 150 estudiantes.
Cuntos debern ser de cada carrera si la asignacin es fija? Y si es proporcional?
23. Una compaa de marketing saca una muestra aleatoria de la gua de telfonos tomando 10 personas
cuyos apellidos comiencen con letra A, 10 personas cuyos apellidos comiencen con la letra B, y as
sucesivamente con cada letra del alfabeto, para una muestra total de 260 personas.
a. Qu clase de diseo muestral deber ser aplicado?
__________________________________________________________________________
87
b.
Tienen todos los que estn en la gua de telfonos igual posibilidad de ser elegidos en la
muestra?
__________________________________________________________________________
c. No todos los residentes de la ciudad tiene telfono, Qu clase de sesgo va a provocar este
hecho?
__________________________________________________________________________
24. Se hizo un estudio de mercado para determinar la frecuencia de pedidos de 40 tiendas de centros
educativos en la ciudad de Cali (ver informacin de los centros educativos luego de las preguntas)
Responda:
a. Elija e indique una Muestra no aleatoria de tamao 5 de centros educativos y estime el nmero de
productos tipo A solicitados. Comente sobre las desventajas de esta muestra.
b. Elija e indique una Muestra Aleatoria Simple de tamao 5 de centros educativos y estime el
nmero de productos tipo A solicitados. Comente sobre las desventajas de esta muestra.
c. Elija e indique una Muestra Aleatoria sistemtica de tamao 5 y estime el nmero de productos tipo
A solicitados. Comente sobre las ventajas de esta muestra.
d. Con los datos de la muestra obtenida en c) obtenga un intervalo de confianza del 93% para El
numero promedio de productos tipo A solicitados.
e. Si la poblacin completa de centros educativos son 300, y quiere estimarse el promedio de pedidos
del producto A con una confianza del 93% y un error mximo de 3 productos, Cul debera ser el
tamao de muestra apropiado?. Puede utilizar la informacin de los 40 centros educativos como
muestra piloto.
f.
Centro educativo
Amricas Unidas
Andino
Benalcazar
Carlos Castro
Catlico
Comfenalco
Coomeva
Diana Oese
Divino Nio
Eustaquio Palacios
Fray Damin Gonzlez
Horacio Gmez
Cantidad
producto A
101
105
84
82
101
87
124
102
111
101
101
96
cantidad
producto B
214
209
214
194
202
197
207
180
196
214
185
175
cantidad
producto C
300
308
316
292
306
305
308
295
302
299
304
297
88
94
105
96
104
119
99
97
108
120
122
99
109
116
97
117
87
199
201
199
199
214
203
208
201
198
191
207
192
201
218
204
201
311
318
296
316
309
321
296
303
288
296
282
304
300
296
297
295
106
106
105
109
112
101
106
77
110
109
105
104
212
192
214
200
202
189
206
191
193
192
211
199
301
301
303
297
298
303
307
310
278
304
309
300
25. En cada una de las siguientes situaciones, determine el tamao de muestra requerido:
a. Una compaa se divide en varias secciones y cada una utiliza una computadora central. La
direccin est interesada en saber la cantidad de tiempo de uso de la computadora por los 500
operadores de la divisin A en un da promedio. Dado que la varianza de la poblacin de tiempos
es igual a 0.5 horas2, el error de precisin es de 0.1 horas y la confianza deseada es del 98 %,
cul es el tamao de muestra necesario para establecer el tiempo medio diario de computadora
usado por la divisin A?
b. Un producto nuevo se ha de lanzar al mercado y la direccin de mercadeo desea saber la
proporcin de personas que gustaran de dicho producto lo suficiente para comprarlo. de qu
tamao debe ser la muestra a entrevistar para asegurar un nivel de confianza del 98% y un error
tolerable de 0.05, si estudios anteriores muestran una intencin de compra del 60% para cualquier
producto nuevo de esta compaa?
Instrucciones: Las siguientes preguntas son de completar:
89
29. Explique cul es la diferencia entre un modelo de regresin lineal simple y un modelo matemtico lineal
_________________________________________________________________________________________
30. Por qu razn la tabla ANOVA construida para una regresin lineal mltiple utiliza la distribucin f de Fisher?
_________________________________________________________________________________________
ANEXO 1:
Elementos metodolgicos para desarrollar una investigacin
1.
Introduccin
90
2.
Conceptos Bsicos
Toda investigacin debe cumplir con unos principios bsicos para que tenga sentido, el primero de ellos es
que aportar algo a la sociedad en que se desenvuelva, es decir debe aportar alguna utilidad y no caer en el
campo de lo
banal e intil, consulte la pgina: http://www.taringa.net/posts/cienciaeducacion/10345511/LoS-10-estudios-mas-inutiles.html donde encontrara varios casos de investigaciones
famosas e intiles. En segundo lugar, la investigacin debe apartarse de cualquier prejuicio personal y ser
totalmente objetiva. Por ltimo, toda investigacin requiere de una secuenciacin de pasos que garanticen
un resultado final, es decir, debe haber una planeacin donde se planten los propsitos de la investigacin,
el clculo del tamao de muestra, la forma de recolectar la informacin y los elementos de anlisis y
verificacin de los resultados.
3.
Quizs lo ms difcil cuando se desea iniciar un proceso investigativo es concebir la idea de lo que se
quiere investigar y no caer en situaciones ya desarrolladas y probadas. Pregntese Cmo le surgi la
idea a Newton para descubrir la ley de la gravedad? La historia lo cuenta muy jocosamente valindose de
un rbol de manzanas y la cabeza de Newton, mientras ste dorma plcidamente debajo del rbol le cay
una manzana. El mensaje de esta fbula es que las ideas pueden surgir de vivencias propias, de observar
y analizar lo que pasa alrededor del ser humano. Por otro lado, est el deseo del hombre por querer
explicar y controlar las condiciones medio-ambientales donde se desenvuelve lo que lo ha llevado a
muchos descubrimientos.
Despus de que la idea inicial este plateada, lo mas lgico es hacer una bibliogrfica para determinar
hasta qu punto es un problema no resuelto y poder medir los alcances de una nueva investigacin.
Despus de concebir la idea de investigacin, sta se formalizara en una descripcin que implique una
pregunta a resolver, la generacin de variables y sus posibles relaciones y, lo principal, un contexto valido
para observar y probar los resultados obtenidos. Resumiendo, para plantear un problema adecuadamente
se requiere de tres elementos:
i. El problema debe ser expresado claramente como pregunta
ii. El problema debe implicar como mnimo dos variables
iii. Cualquier solucin propuesta al problema debe ser probada en un contexto real
Hay otros elementos mnimos que toda investigacin debe contener, a continuacin se describen los
principales:
a. Contextualizacin. Se refiere que debe haber un contexto espacio tiempo del problema a resolver, es
decir, el medio geogrfico y la poca donde se probaran los resultados.
91
b. Identificacin de factores causantes del problema. Esta identificacin debe conducir a la descripcin
de las variables del problema.
c. Objetivos. Siempre ser posible plantearse objetivos como meta para dar solucin al problema
propuesto.
Una vez que se tiene claro cul es el problema a resolver, se plantean los objetivos generales y especficos
los cuales determinaran los alcances de la investigacin.
Objetivos
Los objetivos indican los propsitos y lo que realmente se quiere desarrollar en la investigacin planteada.
Estos surgen del planteamiento del problema y deben condensar completamente la idea de investigacin.
Se deben formular para que sean la ruta a seguir en los procedimientos que le siguen a la metodologa de
la investigacin. Deben ser formulados de una manera clara y precisa sin ambigedades o generalidades
que conlleven a requerimientos fuera del contexto de la investigacin planteada.
Hay cierta rigurosidad en el planteamiento de los objetivos, se parte de un objetivo general que debe ser
desglosado en objetivos especficos de tal manera estos cubran todo el propsito planteado. Todo objetivo
debe formularse iniciando con un verbo, si es un objetivo especfico se deben evitar usar verbos como
estudiar, analizar, comprender, etc. que se prestan para cualquier interpretacin no deseada.
Justificacin de la investigacin
Toda investigacin debe partir de una situacin problema que la justifique, no inventar problemas donde no
lo hay. Adicionalmente se puede justificar una investigacin, no solo por resolver el problema planteado,
sino tambin, por los aportes que pueda generar en trminos de conocimientos nuevos, avances tericos,
revisiones bibliogrficas y/o elementos adicionales como sugerencias a nuevas investigaciones, nuevas
metodologas, etc.
Marco terico
El marco terico son las teoras, investigaciones y los antecedentes del tema implicado en la investigacin.
La construccin del marco terico depende de lo acertada de la revisin bibliogrfica realizada sobre el
tema de investigacin, no caer en omisiones tales como no consultar a los principales autores reconocidos
por la comunidad intelectual sobre el tema tratado. No sobre advertir sobre el cuidado de citar las fuentes
bibliogrficas consultadas
En este apartado se deben definir todos los elementos que tienen que ver con la generacin de los datos,
se parte de una descripcin de la variables o factores a considerar en la investigacin, el clculo del
tamao de muestra, la forma de recolectar la informacin (indicar de muestreo a aplicar) y la forma de
registro de los datos.
92
El tamao de la muestra
Cuntos elementos se deben tener en cuenta en el estudio, es decir, de qu tamao ser la muestra?
Esta es una pregunta muy compleja y que requiere del mximo esfuerzo para determinar su tamao
ptimo. Inicialmente debemos preguntarnos si realmente es necesaria la muestra, si as lo es, existe para
cada problema en particular unas condiciones que determinan el tamao de la misma. El punto de partida
es el tema a resolver, cada rea de la inferencia estadstica determina sus propios requerimientos, por
ejemplo, si el tema es estimar un promedio entonces se necesitar de una frmula deducida a partir del
Teorema del Limite Central y de la especificacin de un margen de error mximo tolerable y un nivel de
confianza. En el caso de la regresin lineal mltiple leer anexo 3 sobre la determinacin del tamao de
muestra.
El siguiente paso es determinar el tipo de muestreo a realizar. Las condiciones para esta decisin
dependen principalmente del tipo de estudio considerado, si es descriptivo se aceptaran muestreos
determinsticos y si es inferencial el tipo de muestreo deber ser probabilstico.
Para la recoleccin de los datos se debe considerar tres elementos: el instrumento de recoleccin de la
informacin, la forma de aplicar el instrumento y, la sistematizacin o codificacin de los datos en un
instrumento electrnico.
Cuando se va a disear el instrumento de recoleccin de la informacin debe pensarse no solo en la forma
como se va a registrar la informacin (por observacin, mediante un mecanismo automtico, por encuesta
o por cualquier otro medio) sino tambin como sern incorporados a un medio electrnico para que pueden
ser procesados y se pueden aplicar las herramientas de anlisis apropiadas. El instrumento debe
someterse a pruebas previas antes de aplicarse en forma definitiva de tal manera que se detecten
preguntas mal elaboradas, omisin o redundancia de informacin, medicin de tiempos de registro de la
informacin y/o la deteccin de cualquier anomia que atente contra la confiabilidad y validez del
instrumento.
A la hora de registro de la informacin deben analizarse situaciones que hagan valida la toma de datos, es
decir, debe haber un control en la toma de datos para evitar la manipulacin de los mismos y la aplicacin
correcta del mtodo de muestreo propuesto.
El anlisis de datos depende del tipo de estudio a realizar. Los principales tipos de anlisis que pueden
efectuarse son:
93
Estadstica Descriptiva: De un conjunto de datos interesa determinar la tendencia central por medio de
indicadores como la moda, la mediana y la media; medidas de variabilidad: desviacin estndar,
varianza, rango (diferencia entre el valor mnimo y el mximo) y coeficiente de variacin; la forma ya sea
en trminos de simetra (o asimetra con sesgos izquierdo o derecho) y la curtosis (forma aplanada o
picuda de la grfica).
Estadstica Inferencial: Pretende generalizar los resultados obtenidos en una muestra a toda la
poblacin. La estadstica inferencial tiene sus propias herramientas que se clasifican en: estimacin de
parmetros, estimacin de intervalos de confianza, procedimientos de prueba de hiptesis sobre
parmetros, diseo de experimentos, anlisis de regresin y correlacin. La inferencia estadstica se
apoya en la teora del muestreo (toda muestra debe ser representativa y adecuada de la poblacin
objetivo) y en la probabilidad (para definir los mrgenes de error y precisin) para formalizar las
conclusiones o juicios sobre la poblacin objeto del problema en estudio.
Anlisis multivariado: Mtodos donde se utiliza la relacin entre varias variables independientes y al
menos una dependiente. Mtodos: regresin mltiple, anlisis lineal de patrones o "path" anlisis,
anlisis de factores, anlisis multivariado de varianza (MANOVA), correlacin cannica, anlisis
discriminante y otros.
Ejemplo: Anlisis de factores que intervienen en el tiempo de entrega de domicilios del Producto XXX 3
ubicado en la regin sur de la ciudad de Cali en el ao 20134.
Concepcin de la idea. Aqu la idea de investigacin surgi por sugerencia de un empleado de la
empresa XXX quien fue indagado sobre posibles problemas al interior de la compaa. La compaa y
mas precisamente el encargado de los despachos siempre ha manifestado la intencin de construir un
modelo de prediccin de los tiempos de entrega en horas pico y no dejar esta estimacin
completamente al azar.
Planteamiento del problema. La pregunta de investigacin aqu fue la siguiente: Causales son los
factores determinantes en los tiempos de entrega en los pedidos domiciliarios en la compaa XXX?
Este es un problema cuya ubicacin espacio tiempo corresponde a la zona sur de la ciudad de Cali,
zona que est siendo impactada por la construccin de varias obras de circulacin, lo cual implica
transito lento, desvos y calles cerradas y ocurre precisamente en el periodo julio-diciembre del 2013.
94
El anlisis del problema llevo a la identificacin de factores relacionados con los tiempos de entrega,
como fueron: - la experiencia (en aos) del domiciliario, - magnitud del pedido (cantidad), - dificultades
en el trafico (clima, hora, da), - nmero de pedidos por recorrido y distancia (en kilmetros) a recorrer
en cada uno de los pedidos.
Identificados los factores, se visualizaron los objetivos a resolver. Estos se indican a continuacin:
Objetivo general:
Determinar el impacto sobre el Tiempo de Entrega a domicilio que tienen los factores: Cantidad del
pedido, Dificultades en el trfico, Distancia del recorrido de entrega y la Experiencia del domiciliario.
Objetivos especficos:
Determinar entre los factores Cantidad del pedido, Dificultades en el trfico, Distancia del recorrido
de entrega y la Experiencia del domiciliario cuales tienen una relacin significativa con los Tiempos
de Entrega a domicilio en la empresa XXX.
Justificacin de la investigacin.
La investigacin tiene una plena justificacin ya que resuelve un problema de toma de decisiones en
pedidos a domicilios con base en la prediccin de los tiempos de entrega. Los resultados de la
investigacin condensaran en un modelo el cual puede ser usado para determinar si se toma o no un
pedido y la prediccin del tiempo de entrega.
Metodologa para toma de la informacin.
Se hizo la siguiente descripcin de las variables consideradas en el proyecto:
Variables independientes:
X 1 : Nmero de pedidos por recorrido (en cantidad): es la cantidad de pedidos a entregar en el turno
correspondiente
X 2 : Dificultades en el trfico. Esta variable induce a tres consideraciones distintas que tienen que ver
con el clima, la hora del da y el da de la semana, por lo que se generaron las siguientes tres variables:
X2
X2
X2
95
X 1=2
X 5=8 .
Variable dependiente:
Y : Tiempo tomado por pedido (en minutos). El tiempo se mide desde que se registra el pedido del
cliente hasta que se entrega por parte del domiciliario.
La informacin de cada pedido est registrada en una base de datos de la compaa la cual fue
habilitada para la obtencin de los datos que el proyecto necesitaba por lo cual solo fue necesario crear
un formato en el programa Excel para registrar la informacin requerida. A continuacin de muestra el
formato con una parte de los resultados:
Nmero de
pedidos por
recorrido
Distancia
recorrida
(km)
Experiencia del
domiciliario
(en aos)
Magnitud del
pedido
(en unidades)
Clima
(1: normal, 0:
lluvioso)
Horario
(1: hora pico,
0: hora no
pico)
Da
(1: fin de
semana, 0: no
fin de semana)
Tiempo por
pedido
(minutos)
1
2
3
3
3
5
2
.
.
.
5.2
7.2
2.6
3.6
2.3
0.3
1.5
.
.
.
4
16
16
4
4
16
18
.
.
.
1
3
3
1
1
2
2
.
.
.
1
0
1
0
0
0
0
.
.
.
1
9
1
0
0
0
1
.
.
.
0
0
1
0
0
0
0
.
.
.
10
13
7
9
6
2
5
.
.
.
96
potencia estadstica del 71% y un efecto de tamao del 14%. Se us el software disponible en la pgina
web (http://www.danielsoper.com/statcalc/) para estimar el tamao de muestra, el cual resulto igual a 74
pedidos.
ANEXO 2:
Caso de estudio de Calimuebles5: Modelar el ausentismo laboral en la empresa Calimuebles.
5 Tomado y adoptado de: Anlisis Multivariado Aplicado, Uriel E., Alds J. Pgina 241.
97
Nmer
o
ID
Gner
o
Tipo de
1:
Ausen Empleado: 1: Mas,
(en das) Ope, 0: Adm 0: Fem
Edad
(Aos)
Antigeda
d
(en aos)
Salario
(en
millones)
Nmero
de Hijos
001
10
32
002
13
45
003
53
15
15
004
37
16
18
005
49
10
006
44
20
10
007
17
13
008
65
25
12
009
10
23
11
010
27
12
011
62
40
18
012
26
14
013
36
10
014
28
14
015
34
12
15
016
28
12
017
59
40
18
018
53
29
19
98
019
27
12
020
32
10
14
021
11
40
022
54
13
19
023
40
10
18
024
22
13
025
23
11
Tipo de
Gnero
Empleado: 1: 1: Mas,
Ope, 0: Adm 0: Fem
Edad
(Aos)
Antigeda
d
(en aos)
Salario
(en
millones)
Nmero
de Hijos
026
39
10
027
27
14
028
24
14
029
22
15
030
25
12
031
34
13
19
032
25
17
033
33
13
19
034
21
17
035
45
23
28
036
43
20
13
037
51
13
12
038
48
25
22
039
11
43
12
040
57
10
99
041
29
21
042
38
16
043
44
20
23
044
33
10
24
045
56
25
23
046
58
28
13
047
58
28
17
048
37
10
23
049
25
10
050
11
40
10
15
ANEXO 3:
Tamao de muestra en la regresin
En regresin lineal mltiple no hay conceso entre los principales investigadores para determinar el tamao
de muestra requerido para garantizar la validez del modelo, algunos investigadores (Hair, 2008) han
propuesto algunas reglas como la siguiente: el tamao de muestra en la regresin se establece de acuerdo
a la relacin al menos 10:1 (al menos diez registros por variable predictora) pero Maxwell (2000) presenta
varias discrepancias que tienen que ver con: i. la Potencia Estadstica, ii. El Nivel de Significancia y iii. el
100
Tamao del efecto6 (en ingls effect size) y en este sentido, Daniel S. Soper ha creado un sitio web donde
se determinan tamaos de muestra de acuerdo a estos conceptos. (http://www.danielsoper.com/statcalc/)
En la regresin lineal simple, cuando se tiene una variable predictora cuantitativa, Kleinbaum (2008)
propone la frmula:
Z 1 /2 + Z 1
donde
1
1+r
ln
2
1r
( )
+3
de prueba de hiptesis
H 0 : =0
versus
en el procedimiento
H1: 0 .
ANEXO 4:
Prueba de Kolmogorov
6 El tamao del efecto, concepto elaborado por J. Cohen (1988) es un indicador que mide la magnitud de
una medida o resultado estadstico, por ejemplo, en una regresin lineal simple mide la fuera de la relacin
entre las variables implicadas.
101
Antes de indicar el algoritmo para realizar la prueba presentamos los datos correspondientes a la Actividad
8, se quiere probar que los residuos siguen una distribucin normal. Estos son los datos:
2,8
3,6
4,0
2,3
4,8
3,8
4,5
3,0
4,0
1,5
Pronstic
o
Y
Residuos
2,7950
0,0050
3,4300
0,1700
4,0650
-0,0650
2,1600
0,1400
4,7000
0,1000
3,4300
0,3700
4,0650
0,4350
2,7950
0,2050
4,7000
-0,7000
2,1600
-0,6600
2.
Se ordenan los
3.
Fn ( x )=
r
n
donde
r es la
frecuencia acumulada)
4.
F( x )
|F n ( x i )F ( x i)|
5.
Se calculan
6.
Se calcula el estadstico
correspondiente a cada
F( Z ) )
|F n ( x i1 )F ( x i)|
Dn
es la
discrepancia mxima entre las distribuciones observada (emprica) y la terica (en este caso la
normal).
102
7.
8.
D c ( )
y el nivel de
en la tabla de Kolmogorov.
Se comparan
Dn y
El algoritmo aplicado a los datos de la Actividad 8 muestran los resultados de la tabla indicada a
continuacin. El valor
Dn
es 0.2335 y el valor
Residuos (x)
-0,7000
-0,6600
-0,0650
0,0050
0,1000
0,1400
0,1700
0,2050
0,3700
0,4350
Fn ( x )
r
1
2
3
4
5
6
7
8
9
10
x =
s=
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0,0000
0,3882
Z=
x x
s
-1,8031
-1,7000
-0,1674
0,0129
0,2576
0,3606
0,4379
0,5280
0,9530
1,1205
Dmax=
F( x )
0,0357
0,0446
0,4335
0,5051
0,6016
0,6408
0,6693
0,7013
0,8297
0,8687
0,2335
|F n ( x i )F ( x i)|
|F n ( x i1 )F ( x i)|
0,0643
0,1554
0,1335
0,1051
0,1016
0,0408
0,0307
0,0987
0,0703
0,1313
0,0357
0,0554
0,2335
0,2051
0,2016
0,1408
0,0693
0,0013
0,0297
0,0313
103
ANEXO 5:
Regresin Logstica
La regresin logstica aplica a casos donde la variable dependiente ( Y ) es dicotmica, es decir, solo
puede tomar dos valores. Ejemplos: - Un cliente est o no est satisfecho, - Un estudiante aprueba o no
aprueba un curso, - Un paciente se salva o no se salva despus de un tratamiento.
En todos estos casos a la variable
en el caso de no ocurrencia.
El propsito al hacer la regresin es poder predecir la probabilidad de ocurrencia de
f ( y )=
1
1+e y
y su forma es:
f ( y)
1 ------------- -
1
2
104
Y =1 y se expresa:
P (Y =1 )=
1
( 0+ 1 x 1+ 2 x2 ++ k x k )
1+e
ln
[ ]
P
= 0 + 1 x 1 + 2 x 2+ + k x k
1P
El lado izquierdo de esta ecuacin se denomina Razn de Probabilidades (en la literatura ODDS RATIO) y
se interpreta como la probabilidad de que ocurra
Y =0 . Por ejemplo, si
probabilidad de que el evento
Y =1
ODDS RATIO =
P (Y =1 )=0.25 , entonces
Y
0.25
1
=
10.25 3
significa que la
no ocurra.
La interpretacin de los coeficientes es distinta al modelo de regresin lineal mltiple ya que hay que tener
en cuenta el logaritmo natural. Se procede a eliminar dicho logaritmo aplicando la exponencial a ambos
lados de la ecuacin resultando:
p
=e e e e
1p
0
xi
ODDS RATIO
para
aplicacin.
Ejemplo: En una universidad local se quiso evaluar el nivel de satisfaccin con el servicio de prstamo de
libros en la biblioteca por parte de los estudiantes. Las variables a considerar fueron: Nivel de satisfaccin
(satisfecho, no satisfecho), Disponibilidad (si, no), tiempo de espera (en minutos)
105
P( si=1)
ln
=0.808+7.519Disponibilidad3.351Tiempo espera
El modelo resultante fue:
P(no=0)
1
6345
4369
8882
3766
4360
1650
2
7589
9130
1044
6981
1710
3258
3
1535
6047
1928
0501
5618
3548
4
2621
4477
8750
6446
0727
4882
5
4424
8538
2894
4476
9844
7822
6
1207
5708
5558
0109
4121
9720
7
9223
8706
0626
4406
6408
9185
8
0113
6334
4159
2354
8951
2695
9
1469
6146
8355
6787
6576
4853
106
7
7080
9447
5855
4970
8
4137
7687
8129
3973
9
4000
8952
5969
0915
10
5822
7565
1005
9339
11
6350
2174
2933
0909
12
4430
4305
2866
8700
13
6350
6190
8488
4224
14
4193
0896
7241
7376
15
0322
7870
4853
4043
16
8784
6093
0185
9881
17
5736
9129
3678
7174
18
0137
9946
2154
7676
19
1550
3476
2874
8934
20
8158
8562
5382
5470
21
4699
1715
3735
4243
22
2128
5279
2102
7649
23
1290
7397
4139
0357
24
7310
3841
1874
7862
25
4350
2001
3315
9856
26
0833
7901
4351
0543
27
0955
2393
5050
1534
28
8841
3077
6945
3399
29
9636
2746
2953
8243
30
9062
2494
6821
3644
Generada usando el programa Microsoft Excel.
9716
9115
2554
5219
7319
5764
8320
5150
1994
2878
9504
3870
1336
0157
3373
9183
2424
7014
1395
5272
0874
4109
6360
5354
2975
9377
5050
5976
8370
1525
1737
7039
7483
5392
6258
6787
8316
0161
3392
8446
4102
8551
7374
1586
7936
3354
2383
0340
8385
8839
5852
6899
5420
0047
0713
8354
5357
7794
7430
3083
6222
3434
8194
6683
7184
1849
9084
9517
3706
3046
9819
3783
8721
0199
6495
9192
8933
5041
7294
0289
9522
5703
2203
7186
5644
5739
0952
4590
1036
0255
8250
4242
2698
6995
4979
4048
2893
3210
9709
5232
2384
3393
5908
5248
8221
9489
2696
1542
0167
0794
7961
1161
1411
6772
5703
7339
0478
9492
9945
2442
BIBLIOGRAFA
ARROYO A. Estadstica con Aplicaciones a la Ingeniera y Administracin Aeronutica. Editorial Feriva,
2008.
HAIR J., ANDERSON r., TATHAM R. y BLACK W. Anlisis multivariante, quinta edicin, Pearson, 2008.
KLEINBAUM D., KUPPER L., NIZAM A., MULLER K. Applied Regression analysis and Other Multivariable
Methods. Cuarta edicin, Duxbury, 2008.
107