Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
2 REGRESIN
HANS SIGRIST
UAC
8
infinitus
cbna 2011
Esta obra est publicada bajo una Atribucin 2.0 Chile de Creative Commons. Para ver una copia de esta licencia, visite
http://creativecommons.org/licenses/by/2.0/cl/. Este documento se distribuye con la esperanza de que sea til, pero sin ninguna
garanta; incluso sin la garanta implcita de comerciabilidad o aptitud para un propsito particular. Se distribuye gratuitamente a todos
los individuos, y su uso, descarga o copia, debe llevarse a cabo con el permiso del autor.
Cuidemos el planeta. Salva por pgina 200 ml de H2 O, 2 g de CO2 y 2 g de madera: Imprime slo si es necesario.
.
1
R EGRESIN LINEAL
The real voyage of discovery consists not in
cbna 2011
hans.sigrist@uac.cl
Objetivos de aprendizaje
Al finalizar este captulo, el alumno estar en condiciones de:
Utilizar el concepto de regresin en el anlisis de relaciones bivariadas.
Predecir eventos futuros mediante el anlisis de regresin simple.
Utilizar el procedimiento de los mnimos cuadrados.
ndice
1.1.
Introduccin
1.2.
1.3.
1.4.
Escenario
1.5.
Problemas
1.6.
Soluciones
10
1.1 Introduccin La regresin1 y la correlacin son las dos herramientas estadsticas ms poderosas y verstiles que se pueden utilizar para solucionar problemas comunes en los negocios. Muchos estudios se basan
en la creencia de que se puede identificar y cuantificar alguna relacin funcional entre dos o ms variables. Se
dice que una variable depende de la otra. Se puede decir que Y depende de X en donde Y y X son dos variables
cualquiera. Esto se puede escribir as
Y es funcin de X
Y f pX q
(1)
1 REGRESIN LINEAL
1.1 Introduccin
variables. Es lgico presumir que las notas dependen de la cantidad y calidad de tiempo que los estudiantes
pasan con sus libros. Por tanto, notas es la variable dependiente y tiempo es la variable independiente.
Definicin 1 (Variable dependiente). Es la variable que se desea explicar o predecir; tambin se le denomina
regresando o variable de respuesta.
La variable independiente X se utiliza para explicar Y .
Definicin 2 (Variable independiente). Es la variable independiente, tambin se le denomina variable explicativa o regresor.
Se dice que Y est regresando por X .
Se debe diferenciar entre la regresin simple y la regresin mltiple. En la regresin simple, se establece
que Y es una funcin de slo una variable independiente. Con frecuencia se le denomina regresin bivariada
regresin
porque slo hay dos variables, una dependiente y una independiente, y la regresin simple se representa con
bivariada
la Ec. (1). En un modelo de regresin mltiple, Y es una funcin de dos o ms variables independientes.
1,0
0,9
0,9
0,8
0,8
1,0
0,7
0,7
Esta lnea
ajusta bien
los datos
0,6
0,5
0,5
0
10
20
30
40
X
50
60
70
80
0,9
0,8
La curva es
mejor ajuste
que la recta.
0,7
0,6
0
no lineal
50
100
X
150
200
10
20
30
40
X
50
60
70
80
1,0
regresin
0,6
75
74
73
72
71
70
69
68
67
66
65
64
63
62
61
63 64 65 66 67 68 69 70 71 72 73 74
X
Tambin es necesario hacer una distincin entre la regresin lineal y la regresin curvilineal (no lineal) En
modelo de regresin lineal, la relacin entre X y Y puede representarse por medio de una lnea recta. Sostiene
que a medida que X cambia, Y cambia en una cantidad constante. La regresin no lineal utiliza una curva para
expresar la relacin entre X y Y . Sostiene que a medida que X cambia, Y cambia en una cantidad diferente cada
vez.
2
c 2011 HANS SIGRIST
Anlisis Estadstico,
2 Regresin
1 REGRESIN LINEAL
Algunas de estas relaciones aparecen en las grficas de Figura 1, Figura 2, Figura 3 y Figura 4 y muestran diagramas de dispersin que representan las observaciones por pares para X y Y . Es habitual colocar la variable
independiente en el eje horizontal. La Figura 1 sugiere una relacin positiva y lineal entre X y Y . Es positiva porque X e Y parecen moverse en la misma direccin. A medida que X aumenta (disminuye), Y aumenta
(disminuye). Es lineal porque la relacin puede identificarse mediante una lnea recta que se dibuja entre los
puntos. La Figura 2 muestra una relacin lineal y negativa entre X e Y , porque las dos variables parecen moverse en direcciones opuestas. La Figura 3 indica una relacin no lineal. El patrn de los puntos de dispersin
no se describe bien con la lnea recta, pero se define de manera ms exacta con la curva que proporciona un
mejor ajuste.
Finalmente, es difcil observar alguna relacin entre X e Y en la Figura 4. La ausencia de todo patrn detectable sugiere que no existe ninguna relacin entre X e Y .
Definicin 3 (Relaciones lineales y no lineales). Si X e Y se relacionan en forma lineal, entonces a medida que
X cambia, Y cambia en una cantidad constante. Si existe una relacin no lineal, Y cambiar en una cantidad
diferente a medida que X cambia.
1.2 Determinacin de un modelo de regresin lineal simple Segn el V Postulado de Euclides, slo son necesarios dos puntos para dibujar la lnea recta que representa esta relacin lineal. La ecuacin de una recta
puede expresarse como
Ecuacin de la recta
Y b0 ` b1 X
(2)
b 1 pendiente
variacin vertical
2
2
variacin horizontal 1
Y
14
12
b
b
10
cambio vertical
b
b
cambio horizontal
8
6
Y 2X ` 5
4
2
Ejemplo 2. Supongamos ahora que b 1 0, por ejemplo Y 10 3X . Esta funcin revela que existe una relacin
negativa entre X e Y que por cada incremento (reduccin) de una unidad en X , Y reducir (aumentar) en 3
unidades.
Anlisis Estadstico,
2 Regresin
3
c 2011 HANS SIGRIST
1 REGRESIN LINEAL
10
9
8
7
6
5
4
b
3
2
1
0.5
1.0
1.5
2.0
2.5
3.0
Y 3X ` 10
X
3.5
4.0
Ejemplo 3. Ahora bien, si hacemos b 1 0, por ejemplo Y 7 ` 0X , entonces un cambio de X no tiene relacin
con un cambio en Y . Por lo tanto, X no puede utilizarse como variable explicativa de Y .
Y 7 ` 0X
7
b
6
5
4
2
1
X
5
10
15
20
determinsticas
Las relaciones entre variables son o determinsticas o estocsticas (aleatorias). Una relacin determinstica
estocsticas
puede expresarse mediante la frmula que convierte la velocidad expresada en millas por hora (mp{h) a kilmetros por hora (kp{h). Ya que 1 milla es aproximadamente igual a 1. 6 kilmetros, este modelo es 1mp{h 1. 6kp{h.
Por tanto, una velocidad de 5mp{h 5 1. 6kp{h 8. 0kp{h. Este es un modelo determinstico porque la relacin es
exacta y no hay error (salvo la aproximacin).
Infortunadamente, muy pocas relaciones en el mundo de los negocios son as de exactas. Con frecuencia
se encuentra que al utilizar una variable para explicar otra, existe alguna variacin en la relacin. Por ejemplo,
se supone que la gerencia de Vita + Plus y Cia., distribuidores de productos para la salud, desea desarrollar un
modelo de regresin en el cual se utiliza la publicidad para explicar los ingresos por concepto de ventas. Probablemente encontrarn que cuando hacen publicidad y sta se fija en cierta cantidad X i , las ventas tendrn
algn valor Yi . Sin embargo, la prxima vez que se fije la publicidad en la misma cantidad, las ventas pueden
producir otro valor. La variable dependiente (ventas, en este caso) presenta algn grado de aleatoreidad. Por
tanto, habr algn error en el intento por explicar o predecir las ventas. Se dice que un modelo de esta naturaleza es estocstico, por la presencia de la variacin aleatoria y puede expresarse como
4
T C . A DMINISTRACIN B ANCARIA Y F INANCIERA UAC
c 2011 HANS SIGRIST
Anlisis Estadstico,
2 Regresin
1 REGRESIN LINEAL
Y 0 ` 1 X `
Un modelo lineal
(3)
La ec. (3) es la relacin poblacional (o verdadera) segn la cual se hace regresin de Y sobre X . Adems, 0 `
1 X es la porcin determinstica de la relacin, mientras que (la letra griega epsilon) representa el carcter
aleatorio que muestra la variable dependiente y por tanto denota el trmino del error en la expresin. Los
error
(4)
en donde los valores b 0 y b 1 son estimaciones de 0 y 1 , respectivamente, y es el trmino aleatorio. Habitualmente se le denomina residual cuando se utilizan datos muestrales, reconoce que no todas las observaciones
residual
caen exactamente en una lnea recta. Si se supiera el valor exacto de , se podra calcular de manera precisa Y .
Sin embargo, debido a que es aleatoria, Y slo puede estimarse. El modelo de regresin por ende toma la
forma de:
El modelo de regresin estimado
Y b 0 ` b 1 X
(5)
estimado
modelo de regresin.
1.3 Mnimos cuadrados ordinarios: la recta de mejor ajuste El propsito del anlisis de regresin es determinar una recta que se ajuste a los datos muestrales mejor que cualquier otra recta que pueda dibujarse. Para
ilustrarlo, se asume que Vita + Plus y Cia., recolecta datos sobre los gastos publicitarios y los ingresos por ventas
de 5 meses, como se muestra en el Cuadro 1.
Mes
Ventas (Y US$1000)
Publicidad (X US$100)
US$450
US$50
380
40
540
65
500
55
420
45
Aunque una muestra de slo 5 datos probablemente sera insuficiente, servir por el momento para los
propsitos de la seccin.
Estos cinco datos y la recta que mejor les ajusta aparecen en la Figura 8. Esta recta est deter-
550
Ventas
500
450
mar esos valores se denomina mnimos cuadrados ordinarios (MCO). MCO producir una rec-
mnimos
cuadrados
400
40
45
50
55
Publicidad
60
65
70
de dispersin son los valores de los datos observados reales para Y en el Cuadro 1. Los valores
Y se obtienen mediante la recta de regresin y
representan el estimado de las ventas. La dife-
5
c 2011 HANS SIGRIST
1 REGRESIN LINEAL
Error pYi Yi q
(6)
pYi Yi q 0
(7)
MCO tambin asegurar que se minimice la suma de estos errores al cuadrado. Es decir, si se toman cinco
diferencias, todas verticales, entre los valores reales de Y y la recta de regresin (Yi Yi ), se elevan al cuadrado
estas diferencias verticales y se suman, el nmero resultante ser menor que el que se obtendra con cualquier
otra recta. Es decir, MCO minimizar la suma de los errores al cuadrado. Es por esto que se denomina mnimos
cuadrados ordinarios; produce una recta tal que la suma de los errores al cuadrado es menor de lo que sera
con cualquier otra recta. Ver Ec. (8).
pYi Yi q2 mi n
(8)
SC x
p X i X q2
p X q2
2
(9)
SC y
pYi Y q2
p Y q2
2
(10)
SC x y
p X i X qpYi Y q
p X qp Y q
XY
(11)
Cabe destacar que las primeras porciones de cada una de estas ecuaciones:
aprender
SC x
SC y
SC x y
p X i X q2
pY i Y q2
p X i X qpYi Y q
ilustran cmo la recta MCO realmente se basa en las desviaciones de las observaciones a partir de su media.
Debido a lo tedioso del clculo de las ecuaciones anteriores, preferiremos stas ltimas, que nos ofrecen una
versin ms simplificada.
Dadas las sumas de cuadrados y los productos cruzados, es un asunto sencillo calcular la pendiente de la
coeficiente
de regresin
b1
SC x y
SC x
(12)
y
Intercepto de la recta de regresin
b0 Y b1 X
(13)
Anlisis Estadstico,
2 Regresin
1 REGRESIN LINEAL
1.4 Escenario
1.4 Escenario La gerencia de Sigrist Airlines, la aerolnea transportadora ms pequea del mundo, considera que existe una relacin directa entre los gastos publicitarios y el nmero de pasajeros que escogen viajar
por Sigrist Airlines. Para determinar si esta relacin existe, y si es as cul podra ser la naturaleza exacta, los
estadsticos empleados por Sigrist Airlines decidieron utilizar los procedimientos MCO para determinar el modelo de regresin.
Se recolectaron los valores mensuales por gastos de publicidad y nmero de pasajeros para los n 15 meses
ms recientes. Los datos aparecen en el Cuadro 2, junto con otros clculos necesarios para hallar el modelo de
regresin. Se observar que los pasajeros estn representados con la variable Y , ya que se asume que depende
de la publicidad.
Observacin
Publicidad
Pasajeros
(mes)
pX q
pY q
XY
X2
Y2
10
15
150
100
225
2
3
12
8
17
13
204
104
144
64
289
169
17
23
391
289
529
10
16
160
100
256
15
21
315
225
441
10
14
140
100
196
8
9
14
19
20
24
280
456
196
361
400
576
10
10
17
170
100
289
11
11
16
176
121
256
12
13
18
234
169
324
13
16
23
368
256
529
14
15
10
12
15
16
150
192
100
144
225
256
+187
+268
+3. 490
+2. 469
+4. 960
SC x
SC y
SC x y
Anlisis Estadstico,
2 Regresin
X2
X q2
n
1872
2. 469
15
137. 73
p Y q2
n
2682
4. 960
15
171. 73
XY
p X qp Y q
n
187 268
3. 490
15
148. 93
7
c 2011 HANS SIGRIST
1 REGRESIN LINEAL
1.5 Problemas
SC x y
SC x
148. 3
137. 3
1. 0813166 1. 08
Adems
Y
268
17. 86
n
15
X
187
12. 46
n
15
Finalmente, la Ec. (13) revela que el intercepto es:
X
b0
Y b1 X
17. 86 1. 08p12. 46q
4. 3865 4. 40
26
A medida que
la publicidad
aumenta de a
1 unidad, los
pasajeros
aumentan en
1.08 unidades.
24
Ventas
22
20
18
16
14
12
6
10
12
14
Publicidad
16
18
20
1.5 Problemas
Ejercicio 1. La bolsa de trabajo de un Universidad desea determinar si los promedios puntuales en notas de
los estudiantes puede explicar el nmero de ofertas laborales que ellos reciben despus de graduarse. Los datos
siguientes corresponden a los 10 recin graduados.
Estudiante
10
Promedio
3. 25
2. 35
1. 02
0. 36
3. 69
2. 65
2. 15
1. 25
3. 88
3. 37
Ofertas
8
c 2011 HANS SIGRIST
Anlisis Estadstico,
2 Regresin
1 REGRESIN LINEAL
1.5 Problemas
10
11
12
24. 3
16. 2
12. 5
8. 5
31. 2
15
28. 0
17
35. 1
24. 2
10. 5
11. 2
23. 2
15
10. 0
7. 1
8. 5
3. 5
15. 9
11. 5
14. 7
10. 7
15
9. 2
Inters
12. 3
10. 5
Casas
196
285
15. 6
9. 5
10. 5
125
225
248
10
9. 3
8. 7
14. 2
15. 2
12
303
265
102
105
114
12. 3
6. 2
8. 3
5. 3
6. 5
4. 1
4. 8
4. 4
14. 6
5. 2
14. 6
4. 8
14. 6
5. 9
6. 5
4. 2
12
16
Ausencias
9
c 2011 HANS SIGRIST
1 REGRESIN LINEAL
1.6 Soluciones
b) C 1. 777 ` 0. 558I
c) US$15346. 77
b) C 3. 72 ` 0. 1295U
c) US$4. 664
R EFERENCIAS
[1] G. R. Douglas Montgomery. Probabilidad y Estadstica Aplicadas a la Ingeniera. ISBN 970-101-017-5. McGraw-Hill Publications, 1996.
[2] F. J. Ayres. Matrices. ISBN 968-422-918-6. Serie Schaum, 1992.
[3] L. H. Edwards. Clculo. ISBN 970-105-710-4. McGraw-Hill Publications, 8th edition, 2005.
[4] J. O. Paul Urban. Mathematics For The International Student (IBO). Haese Harris Publications, 2004.
[5] T. M. Rod Hill. The economics anti-textbook. Fernwood Publishing, 1st edition, 2010.
[6] M. Rosser. Basic Mathematics for Economists. Routledge, second edition, 2003.
[7] J. Stewart. Calculus Concepts and Contexts. Brooks-Cole, second edition, 2002.
[8] K. Sydster. Essential Mathematics for Economic Analysis. FT Prentice Hall, 2008.
[9] M. J. Panik. Advanced Statistics from an Elementary Point of View. Elsevier Academic Press, 2005.
[10] D. Bowers. Medical Statistics from Scratch. John Wiley & Sons Ltd, 2008.
[11] P. I. Good. Introduction To Statistics Through Resampling Methods And Microsoft Office Excel. John Wiley & Sons, Inc., 2005.
[12] D. Dunn. Statistics and Data Analysis for Behavioral Sciences. McGraw-Hill Higher Education, 1st edition, 2001.
[13] S. M. Ross. Introduction To Probability And Statistics For Engineers And Scientists. Elsevier Academic Press, 2004.
[14] W. Navidi. Estadstica para Ingenieros y Cientficos. ISBN 970-10-5629-9. McGraw-Hill Publications, 2006.
[15] J. C. A. J. Susan Milton. Probabilidad y Estadstica con Aplicaciones para Ingeniera y Ciencias Computacionales. ISBN 970-10-4308-1.
McGraw-Hill Publications, 4th edition, 2004.
[16] A. L. Webster. Estadstica Aplicada a los Negocios y la Economa. ISBN 958-410-072-6. McGraw-Hill Publications, 3th edition, 2000.
10
c 2011 HANS SIGRIST
Anlisis Estadstico,
2 Regresin