Sei sulla pagina 1di 31

Regresin lineal

Marcelo Rodrguez
Ingeniero Estadstico - Magster en Estadstica
Universidad Catlica del Maule
Facultad de Ciencias Bsicas
Pedagoga en Matemtica
Estadstica I
01 de enero de 2012
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 1 / 31
Introduccin
Comnmente, cuando se realiza un estudio estadstico, se miden a una
misma unidad de anlisis, ms de una variable.
Denicin (Variable Dependiente)
Es la variable por predecir (o por modelar) y se denota con la letra Y .
Denicin (Variable Independiente)
Son las variables que se utilizan para predecir y se denota con la letra X.
Denicin (Relacin entre variables)
Se dice que dos variables estn relacionadas, si cambios producidos (causa)
en la variable independiente producen un efecto en la variable dependiente.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 2 / 31
Relacin entre las variables
Denicin (Covarianza)
La covarianza entre dos variables cuantitativas, nos indica si la posible
relacin entre dos variables es directa o inversa. La covarianza muestral se
calcula de la siguiente manera:
cov
xy
=
n

i=1
(x
i
x)(y
i
y)
n 1
=
S
xy
n 1
Si la covarianza es negativa, entonces la relacin es inversa.
Si la covarianza es positiva, entonces la relacin es directa.
Si la covarianza es cero, entonces la relacin es nula (no relacionados).
El signo de la covarianza nos dice si el aspecto de la nube de puntos es
creciente o no, pero no nos dice nada sobre el grado de relacin entre las
variables.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 3 / 31
Relacin entre las variables
Ejemplo
Considere un estudio donde se mide el ingreso mensual (X) y el gastos
mensual (Y ). Se considera una muestra de 10 individuos, los datos son:
Ingreso (x
i
) Gasto (y
i
) (x
i
x) (y
i
y) (x
i
x)(x
i
x)
15,6 17,4 2,05 0,75 1,5375
14,8 18,4 1,25 1,75 2,1875
15,5 16,5 1,95 -0,15 -0,2925
12,5 15,2 -1,05 -1,45 1,5225
14,2 19,9 0,65 3,25 2,1125
15,7 22,1 2,15 5,45 11,7175
12,3 14,8 -1,25 -1,85 2,3125
14,2 17,3 0,65 0,65 0,4225
8,8 10,3 -4,75 -6,35 30,1625
11,9 14,6 -1,65 -2,05 3,3825
Promedio 13,55 16,65 Suma 55,065
La covarianza sera cov
xy
=
55,065
9
= 6, 118. Lo que indica es que el Ingreso
y el Gasto estn relacionados, de forma directa (a medida que aumenta el
Ingreso aumenta el gasto).
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 4 / 31
Grado de relacin entre las variables
Coeciente de correlacin de Pearson
Denicin (Correlacin)
El coeciente de correlacin de Pearson, indica la fuerza y la direccin de
una relacin lineal entre dos variables aleatorias. Se considera que dos
variables cuantitativas estn correlacionadas cuando los valores de una de
ellas varan sistemticamente con respecto a los valores de la otra.
r =
n

i=1
(x
i
x)(y
i
y)

_
n

i=1
(x
i
x)
2

i=1
(y
i
y)
2
=
S
xy
_
S
xx
S
yy
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 5 / 31
Grado de relacin entre las variables
Coeciente de correlacin de Pearson
Indica si los puntos tienen una tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales). Es til para determinar si
hay relacin lineal ( y =

0
+

1
x) entre dos variables.
Tiene el mismo signo que Cov
xy
. La diferencia radica en que r est
acotado en [1, 1].
Si est cercana a -1, indica que las variables estn relacionadas en
forma inversa, si est cercana a +1, la relacin es directa y si est
cercana a 0, las variables no estn relacionadas.
Cuanto ms cerca est r de 1 o +1 mejor ser el grado de relacin
lineal. Siempre que no existan observaciones atpicas.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 6 / 31
Grado de relacin entre las variables
Coeciente de correlacin de Pearson
Ejemplo
Con los datos anteriores, calcule e interprete la correlacin.
Ingreso (x
i
) Gasto (y
i
) (x
i
x)
2
(y
i
y)
2
15,6 17,4 4,2025 0,5625
14,8 18,4 1,5625 3,0625
15,5 16,5 3,8025 0,0225
12,5 15,2 1,1025 2,1025
14,2 19,9 0,4225 10,5625
15,7 22,1 4,6225 29,7025
12,3 14,8 1,5625 3,4225
14,2 17,3 0,4225 0,4225
8,8 10,3 22,5625 40,3225
11,9 14,6 2,7225 4,2025
Promedio 13,55 16,65 Suma 42,985 94,385
La correlacin sera r =
55,065

42,98594,385
= 0, 865. Lo que indica es que el
Ingreso y Gasto estn relacionados, de forma directa casi perfecta (r
cercana a 1).
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 7 / 31
Grado de relacin entre las variables
Prueba de hiptesis para probar si la correlacin es signicativa en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 8 / 31
Grado de relacin entre las variables
Prueba de hiptesis para probar si la correlacin es signicativa en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 9 / 31
Grado de relacin entre las variables
Prueba de hiptesis para probar si la correlacin es signicativa en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 10 / 31
Regresin Lineal Simple
Introduccin
(Regresin Lineal Simple)
El trmino regresin fue introducido por Galton en su libro Natural
inheritance (1889) rerindose a la ley de la regresin universal.
Se supone que se tiene una muestra (x
1
, y
1
), (x
2
, y
2
), . . . , (x
n
, y
n
)
correspondiente a la observacin conjunta de las variables X e Y .
El objetivo ser encontrar una relacin entre ambas variables, esta
relacin podra estar dada por una recta (ecuacin de regresin:
y =

0
+

1
x).
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 11 / 31
Regresin Lineal Simple
Diagrama de dispersin
En un diagrama de dispersin, cada unidad de anlisis es un punto cuyas
coordenadas son los valores de las variables.
Ingreso
16,00 14,00 12,00 10,00 8,00
G
a
s
t
o
22,0
20,0
18,0
16,0
14,0
12,0
10,0
R
2
Lineal = 0,747
Pgina 1
El error aleatorio; son las desviaciones de los verdaderos valores de Y con
respecto a los valores estimados y (recta).
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 12 / 31
Regresin Lineal Simple
La ecuacin de regresin
La ecuacin de prediccin esperada est dada por
y =

0
+

1
x.
Donde, las estimaciones de los parmetros
1
y
0
son:

1
=
S
xy
S
xx
; y

0
= y

1
x
Intercepto (

0
): es la estimacin de y cuando x = 0.
Pendiente (

1
): es la estimacin de la pendiente de la recta (magnitud
del incremento (o decremento) de y por cada unidad de incremento en
x.)
Adems, se dene el coeciente de determinacin r
2
, como el porcentaje
de la variabilidad total que explica el modelo.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 13 / 31
Regresin Lineal Simple
La ecuacin de regresin
Ejemplo
Considerando los datos del problema anterior, encuentre la ecuacin de
regresin entre el Ingreso y el Gasto.
La ecuacin de prediccin esperada est dada por
y =

0
+

1
x,

Gasto =

0
+

1
Ingreso,
Donde, las estimaciones de los parmetros
1
y
0
son:

1
=
55, 065
42, 985
= 1, 281; y

0
= 16, 65 1, 281 13, 55 = 0, 708.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 14 / 31
Regresin Lineal Simple
La ecuacin de regresin
Ejemplo
Entonces, la ecuacin sera:

Gasto = 0, 708 + 1, 281 Ingreso,


Pendiente: Por cada unidad monetaria que se incrementa el Ingreso, el
gasto se incrementa en 1,281.
Intercepto: Un individuo con un ingreso muy pequeo (0), se estima
que su Gasto ser de -0,708. En este caso no tiene sentido.
Esta recta, puede servir para predecir, suponga que tiene un individuo con
un ingreso de 8, entonces se estima que su Gasto sera de

Gasto = 0, 708 + 1, 281 8 = 9, 54.


Adems el porcentaje de la variabilidad total que explica el modelo es de
74,7% (r
2
= 0, 865
2
= 0, 747).
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 15 / 31
Regresin Lineal Simple
Regresin Lineal Simple en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 16 / 31
Regresin Lineal Simple
Regresin Lineal Simple en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 17 / 31
Regresin Lineal Simple
Regresin Lineal Simple en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 18 / 31
Regresin
Estimacin curvilnea: Modelo Exponencial
Un modelo de regresin se dice que es exponencial si
y =

0
exp[

1
x]
Por ejemplo, considere el problema donde se mide el Ingreso=X y el
Impuesto=Y.
Ingreso=X Impuestos=Y
16,9 ,117
8,9 ,025
17,7 ,131
2,1 ,001
11,5 ,037
19,9 ,198
6,2 ,012
17,1 ,127
14,7 ,089
18,6 ,167
b1 Constante
Estimaciones de los parmetros
Exponencial ,266 ,001
Ecuacin Ecuacin
Resumen del modelo y estimaciones de los parmetros
La variable independiente esDAP.
Variable dependiente:Volumen
DAP
20,0 15,0 10,0 5,0 0,0
0,200
0,150
0,100
0,050
0,000
Volumen
Pgina 8
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 19 / 31
Regresin
Estimacin curvilnea: Modelo Exponencial
(Modelo exponencial)
El modelo exponencial, se puede solucionar mediante una regresin
lineal simple.
Aplicar el logaritmo natural a la ecuacin
y =

0
exp[

1
x]
.
Tendramos
w = ln[ y] = ln[

0
] +

1
x
.
Encuentre la ecuacin de regresin lineal simple entre X y W.
Luego se debe aplicar la exponencial a w para despejar y.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 20 / 31
Regresin
Estimacin curvilnea: Modelo Exponencial
Ejemplo
Para los datos de Ingreso= X y Impuestos= Y, encuentre la ecuacin de
regresin y =

0
exp[

1
x]. Considere lo siguiente:
Ingreso=X Impuesto=Y W = ln[Y ]
16,9 0,117 -2,1456
8,9 0,025 -3,6889
17,7 0,131 -2,0326
2,1 0,001 -6,9078
11,5 0,037 -3,2968
19,9 0,198 -1,6195
6,2 0,012 -4,4228
17,1 0,127 -2,0636
14,7 0,089 -2,4191
18,6 0,167 -1,7898
La ecuacin de regresin entre X y W es
w = 6, 588 + 0, 266x.
Adems el r
2
xw
= 0, 934.
Aplicando la exponencial y considerando
que w = ln[ y], tenemos
y = exp[6, 588] exp[0, 266x]
y = 0, 001 exp[0, 266x].
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 21 / 31
Regresin
Estimacin curvilnea: Modelo Exponencial
Ejemplo
Tambin podemos encontrar la ecuacin de regresin lineal simple
entre X e Y. La cual sera, y = 0, 055 + 0, 011x, con r
2
xy
= 0, 890.
El modelo exponencial es y = 0, 001 exp[0, 266x], con r
2
xw
= 0, 934.
En los datos existe un rbol con Ingreso= 14, 7 y Impuesto= 0, 089. Si
utilizamos estos dos modelos para predecir el impuesto de un
individuos con un ingreso de 14,7, tenemos
Con el modelo de regresin lineal simple:
y = 0, 055 + 0, 011 14, 7 = 0, 105.
Con el modelo exponencial:
y = 0, 001 exp[0, 266 14, 7] = 0, 068.
Ambas estimaciones del impuesto estn cercanas a 0, 089, pero la del
modelo exponencial (0,068), est ms cercana. Adems, el r
2
del
modelo exponencial est ms cercano al 100%.
En conclusin, entre estos dos modelos el mejor es el exponencial.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 22 / 31
Regresin
Estimacin curvilnea: Algunos modelos clsicos
Modelo Ecuacin Comentario
Lineal y =

0
+

1
x Este modelo ya se analiz con todo detalle.
Logartmico y =

0
+

1
ln[x] Calcule T = ln[X], encuentre la ecuacin de regresin lineal entre T e Y.
Luego, en la ecuacin y =

0
+

1
t, reemplace t por ln[x].
Inverso y =

0
+

1

1
x
Calcule T =
1
X
, encuentre la ecuacin de regresin lineal entre T e Y.
Luego, en la ecuacin y =

0
+

1
t, reemplace t por
1
x
.
Cuadrtico y =

0
+

1
x +

2
x
2
Calcule X
2
y realice una regresin mltiple.
Cbico y =

0
+

1
x +

2
x
2
+

3
x
3
Calcule X
2
, X
3
y realice una regresin mltiple.
Potencia Calcule T = ln[X], W = ln[Y ]. Encuentre la ecuacin de regresin entre
y =

0
x

1
T y W. En la ecuacin w = b + m t, reemplace t = ln[x] y w = ln[ y].
Luego despeje y. Entonces, los parmetros seran

0
= exp[b] y

1
= m.
Compuesto Calcule W = ln[Y ]. Encuentre la ecuacin de regresin entre X y W.
y =

1
x
En la ecuacin w = b + m x, reemplace w = ln[ y]. Luego despeje y.
Entonces, los parmetros seran

0
= exp[b] y

1
= exp[m].
G Calcule T =
1
X
, W = ln[Y ]. Encuentre la ecuacin de regresin entre
y = exp
_

0
+

1

1
x
_
T y W. En la ecuacin w = b + m t, reemplace t =
1
x
y w = ln[ y].
Luego despeje y. Entonces, los parmetros seran

0
= b y

1
= m.
Logstica y =
1
(
0
+
1

x
2
)
Solucin por sistemas no lineales. Ingresar n

mx. de iteraciones, usar 1000.


Crecimiento Calcule W = ln[Y ]. Encuentre la ecuacin de regresin entre X y W.
y = exp[

0
+

1
x] En la ecuacin w = b + m x, reemplace w = ln[y]. Luego despeje y.
Entonces, los parmetros seran

0
= b y

1
= m.
Exponencial y =

0
exp[

1
x] Este modelo ya se analiz con todo detalle.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 23 / 31
Regresin
Estimacin curvilnea: Modelo Exponencial en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 24 / 31
Regresin
Estimacin curvilnea: Modelo Exponencial en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 25 / 31
Regresin
Estimacin curvilnea: Modelo Exponencial en SPSS
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 26 / 31
Regresin
Estimacin curvilnea: Modelo Exponencial en SPSS
Sig. gl2 gl1 F R cuadrado b1 Constante
Estimaciones de los parmetros Resumen del modelo
Lineal
Exponencial ,266 ,001 ,000 8 1 112,799 ,934
,011 -,055 ,000 8 1 64,951 ,890
Ecuacin Ecuacin
Resumen del modelo y estimaciones de los parmetros
La variable independiente esIngreso.
Variable dependiente:Impuestos
Ingreso
20,0 15,0 10,0 5,0 ,0
,200
,150
,100
,050
,000
Impuestos
Exponencial
Lineal
Observado
Pgina 1
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 27 / 31
Regresin Lineal Mltiple
Introduccin
A
r
e
n
a
5
0
,0
4
5
,0
4
0
,0
3
5
,0
3
0
,0

n
d
i
c
e

d
e

s
i
t
i
o
28,0
26,0
24,0
22,0
20,0
18,0
D
e
n
s
id
a
d
1
,5
0
1,45
1,40
1,35
1,30
1,25
1,20
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT IS
/METHOD=ENTER Arena Densidad.
Regresin
Pgina 8
Tcnica de dependencia que puede
utilizarse para analizar la relacin entre
una nica variable dependiente (Y ) y
varias variables independientes x
1
, x
2
,
. . . , x
k
.
Cada variable independiente es
ponderada (
j
), de forma que las
ponderaciones indican su contribucin
relativa a la prediccin conjunta.
El objetivo es usar las variables
independientes cuyos valores son
conocidos para predecir la nica
variable dependiente seleccionada por
el investigador.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 28 / 31
Ejemplo de problema de Regresin Lineal Mltiple
En un estudio se desea saber cuales son los factores que inuyen en la
asistencia al Psiclogo, por problemas de aprendizaje. Para este objetivo se
mide el nmero de veces que asiste la familia en el ao (y), el tamao de la
familia (x
1
) y la renta familiar (x
2
). Se seleccionan 8 familias y los datos se
entregan a continuacin :
Familia Asistencia (y) Tamao (x
1
) Renta (x
2
)
1 4 2 14
2 5 2 16
3 6 4 14
4 7 4 17
5 8 5 18
6 7 5 21
7 8 6 17
8 10 6 25
El objetivo es encontrar una funcin que relacione:
Asistencia =
0
+
1
Tamao +
2
Renta + Error.
Bastara slo tener una estimacin de
0
,
1
, y
2
para tener denida por
completo la funcin anterior.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 29 / 31
Regresin Lineal Mltiple
El modelo lineal general
El modelo de regresin lineal sera
y
i
=
0
+
1
x
i1
+
2
x
i2
, . . . ,
k
x
ik
+
i
.
Donde
Y =
_
_
_
_
_
y
1
y
2
.
.
.
y
n
_
_
_
_
_
, X =
_
_
_
_
_
1 x
11
x
12
. . . x
1n
1 x
21
x
22
. . . x
2k
.
.
.
.
.
.
.
.
.
.
.
.
1 x
n1
x
n2
. . . x
nk
_
_
_
_
_
, =
_
_
_
_
_

1
.
.
.

k
_
_
_
_
_
, =
_
_
_
_
_

2
.
.
.

n
_
_
_
_
_
,

j
, son los parmetros desconocidos, j = 1, . . . , k. El n

total de
parmetros es p = k + 1.

i
es el isimo error aleatorio asociado con y
i
, i = 1, . . . , n.
El objetivo es estimar
j
, a esta estimacin la llamaremos

j
.
La estimacin se los parmetros sera

= (X
T
X)
1
X
T
Y. Entonces
el modelo estimado sera y
i
=

0
+

1
x
i1
+

2
x
i2
, . . . ,

k
x
ik
.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 30 / 31
Regresin Lineal Mltiple
Ejemplo de estimacin de los parmetros.
Identicando las matrices y vectores, tenemos
Y =
_
_
_
_
_
4
5
.
.
.
10
_
_
_
_
_
, X =
_
_
_
_
_
1 2 14
1 2 16
.
.
.
.
.
.
.
.
.
1 6 25
_
_
_
_
_
,

= (X
T
X)
1
X
T
Y =
_
_
0, 188
0, 814
0, 182
_
_
,
Entonces un modelo, estimado, para predecir el nmero de Asistencias
sera:

Asistencia = 0, 188 + 0, 814 Tamao + 0, 182 Renta


Equivalentemente,
y = 0, 188 + 0, 814 x
1
+ 0, 182 x
2
Si los parmetros

j
son muy cercanos a 0, las variables x
i
no estaran
inuenciando en el modelo en la prediccin de y.
mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 31 / 31