Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
de Regresion
OLS en RLS
Semana 1: Estimacion
Raul
Alberto Perez
Introduccion
es una tecnica
El analisis
de regresion
estadstica para investigar y modelar
entre variables.
la relacion
de productos en maquinas
tragamonedas.
80
40
50
30
*
*
*
20
10
Tiempo de Entrega Y
60
70
*
*
** *
*
5
* * * * *
*
**
*
*
10
15
20
25
30
El diagrama de dispersion
entre el tiempo y el volumen de entrega.
que los datos caen, en general, pero no exactaDe hecho, da la impresion,
mente, en una lnea recta.
80
de lnea recta.
La grafica
que sigue muestra la relacion
40
50
30
*
*
20
10
Tiempo de Entrega Y
60
70
*
*
** *
*
5
*
* * * * *
*
**
*
*
10
15
20
25
30
Y = 0 + 1X,
(1)
matematica
se
Al fenomeno
estudiado mediante la anterior relacion
tambien
el modelo.
utilizan la ecuacion
anterior, fijando el Modelo
Los Modelos de Regresion
lineal de unos parametros,
|{z}
Observado
=
+{z1X} +
| 0
Modelo
|{z}
Error Aleatorio
Es decir:
Y = 0 + 1X + .
(2)
Supongamos que el promedio y la varianza de son cero y 2 respectivamente, entonces la respuesta media en cualquier valor de la variable regre
sora sera:
E[Y |X = x] = y|x
= E[0 + 1X + ]
= 0 + 1X + E[]
= 0 + 1X.
dada
Se observa que la anterior respuesta media coincide con la relacion
(1) obtenida a partir del diagrama de dispersion
de los datos.
por la ecuacion
= V ar[]
= 2.
E[Y |X = x] = y|x = 0 + 1X
es una lnea recta de valores promedios, es decir, la altura de la lnea de
en cualquier valor de X no es mas
que el valor esperado de Y
regresion
para ese valor de X.
ve en la siguiente grafica.
Lineal Simple
Regresion
En muchas aplicaciones solo se tiene tanto una variable respuesta Y como una variable regresora o independiente X, en cuyo caso se habla de
lineal simple (RLS).
modelos de regresion
Una relacion
matematica.
Si X-denota la variable independiente y Y -denota la variable
funcional entre X y Y se puede expredependiente, entonces una relacion
sar de la forma:
Y = f (X).
f , indica el valor correspondiente de Y .
Dado un valor de X, la funcion
Ejemplo: Si Y -denota las ventas en dolares
de un producto que se vende
a un precio fijado y X-denota el numero
de unidades vendidas, entonces la
relacion
Y = 2X.
10
15
20
anterior es:
La grafica
de la funcion
10
80
40
50
30
*
*
20
10
Tiempo de Entrega Y
60
70
*
*
* *
*
5
*
* * * * *
*
**
*
*
10
15
20
25
30
entre el tiempo de entreLa grafica
sugiere claramente que hay una relacion
no es perfecta.
ga y el volumen de entrega, pero esta relacion
que sugiere que algo de la variacion
del tiempo de
Existe una dispersion,
entrega (Y ) no es explicado por el volumen de entrega (X).
Por ejemplo, tres tiendas tuvieron un volumen de productos entregados de
X = 10-cajas, pero estas tiendas tuvieron tiempos de entrega (Y ) algo
diferentes.
de los puntos alrededor de la lnea, representa una variacion
La dispersion
en los tiempos de entrega, que no esta asociada con el volumen de produc
tos entregados y esto
ultimo
se considera que es de Naturaleza Aleatoria.
funcional.
una relacion
del termino
Yi = 0 + 1Xi + i , para i = 1, 2, . . . , n
(3)
(iv) i: Es un error aleatorio, con media cero, es decir, E[i] = 0 y va los is son norianza constante, es decir, V ar[i] = 2, ademas
correlacionados, es decir que, Cov[i, j ] = 0, i, j, i 6= j, i =
1, 2, . . . , n.
(ii) Como E[i] = 0, entonces se tiene que, E[Yi] = 0 + 1Xi (ie, constante), por lo que, la respuesta Yi cuando el nivel de X es Xi, viene de
de probabilidad cuya media es: E[Yi] = 0 + 1Xi, y
una distribucion
de regresion
del modelo es:
por lo tanto la funcion
E[Y ] = 0 + 1X,
de regresion
relaciona la media de la distribucion
ya que la funcion
de probabilidad de Y para X dado a un nivel.
(iii) La respuesta Yi en el i-esimo
nivel de X, excede o cae cerca del valor
de regresion,
por una cantidad de tamano
el termino
de la funcion
de
error aleatorio i.
Resumen
El modelo de RLS implica que las respuestas Yis vienen de distribuciones
de probabilidades cuyas medias son:
[Yi] = 0 + 1Xi
y cuyas varianzas son
V ar[Yi] = 2
la misma para todos los niveles de X.
las respuestas Yis son no correlacionadas.
Ademas,
grafica
Representacion
del MRLS:
de los Parametros
Estimacion
del MRLS
Dado un conjunto de observaciones o datos (X1, Y1), (X2, Y2), . . . , (Xn, Yn),
se trata de hallar valores apropiados de 0 y 1, que se ajusten lo mejor posible a este conjunto de datos.
El metodo
de mnimos cuadrados ordinario (OLS), considera la desviacion
de Yi a su valor esperado, es decir,
Yi (0 + 1Xi).
Para hallar a 0 y 1, se considera la suma de las n-desviaciones al cuadrado, denotada por,
Q(0, 1) =
n
X
(Yi 0 1Xi)2.
i=1
Para hallar 0 y 1, se pueden usar procesos de busqueda
numerica,
hasta
matematicamente.
Yi = n0 + 1
i=1
n
X
i=1
XiYi = 0
n
X
Xi
i=1
n
X
i=1
Xi + 1
n
X
i=1
Xi2
(4)
y resolviendo simultaneamente
las ecuaciones anteriores, para 0 y 1, se
obtiene que:
Pn
1 =
0 =
i=1(Xi X)(Yi Y )
Pn
2
(X
X)
i
i=1
n
X
n
X
Sxy
=
Sxx
1
1X.
Yi 1
Xi = Y
n i=1
i=1
Estimadores de los Parametros
del MRLS
Los estimadores de mnimos cuadrados ordinario son:
1X
, con
0 = Y
(xi x
)(yi y)
P
(xi Px
)2 P
1 =
=
1 =
=1
con, Y
n
=1
yi y X
n
yi)
xiyi ( xi)(
P n 2
P 2
xi ( nxi)
Sxy
,
Sxx
xi .
y = 0 + 1X,
de la media de Y -para un valor especfico
el cual representa una estimacion
de X, es decir:
y = 0 + 1X
[
E[Y
|X] = 0 + 1X
A las cantidades,
Sxx =
2
X 2
(
x
)
i
2
=
xi n
x2,
xi
n
P
(xi x
)2 =
Sxy =
(xi x
)(yi y)
yi(xi x
)
P
P
X
( xi)( yi)
=
xiyi
n
X
=
xiyi n
xy
=
Residuales
Se llama residual a la diferencia entre el valor observado yi y su valor estimado, yi, es decir,
ei = yi yi = yi (0 + 1xi),
para , i = 1, 2, . . . , n.
importantes en la validacion
de los supuestos
NOTA: Los Residuales seran
de un modelo de regresion.
(xi x
)(yi y)
P
(xi x
)2
P
(xi x
)yi
= P
(xi x
)2
X
1 =
kiyi,
P
1 =
con ki
xi
x
(xi
x) 2
x
= xSi
, las cuales son constantes, pues la xis lo
xx
son, y
X
X 1
1X
yi x
kiyi =
x
ki yi.
0 = y 1x
=
n
n
!
los datos?
(i) Que tan bien ajusta esta ecuacion
el metodo
(ii) Es
de OLS bueno para usar el modelo como un predictor?
Propiedad
Bajo las condiciones del modelo de RLS, los estimadores obtenidos mediante OLS, 0 y 1 son insesgados y tienen mnima varianza, entre todos los
estimadores lineales insesgados.
primero:
E[0] = 0 y E[1] = 1,
x x
xi x
kiyi, con ki = P i
=
,
2
(xi x
)
Sxx
E[1] = E
hX
kiyi
kiE[yi]
ki(0 + 1xi)
E[1] = 0
ki + 1
k i xi
y que
ki = 0
E[1] = 1
1-es insesgado.
es decir que,
kixi = 1,
es insesgado.
Ahora pasemos a demostrar que 0 tambien
h
E[0] = E y 1X
#
"
1X
1
yi X
=E
n
1X
1]
E[yi] XE[
=
n
i
1 hX
1
=
(0 + 1xi) X
n
1
1X
1
xi X
= n0 + 1
n
n
1 X
= 0 + 1 X
E[0] = 0,
luego, 0 es insesgado.
Calculo de la varianza de 0 y 1
V ar[1] = V ar
=
=
n
X
i=1
n
X
kiyi
i=1
i=1
n
X
n
X
x
)2
(xi
2
S
xx
i=1
xi x
pues ki =
Sxx
n
1
1 X
2
2
(xi x
) = 2 Sxx
2
Sxx i=1
Sxx
2
.
V ar[1] =
Sxx
anterior, entre mas
disperso esten
las xis, ie. entre
Segun
la expresion
mayor sea Sxx, menor sera la V ar[1].
V ar[0] = V ar y 1x
= V ar(
y) + x
2 V ar(1) 2
x Cov(
y , 1)
2
x
2 2
=
+
2
x 0, pues Cov(
y , 1) = 0 (Tarea)
n
Sxx
2
2
2
2
1
x
x
2
V ar[0] =
+
=
+
.
n
Sxx
n
Sxx
anterior se utilizo la siguiente propiedad de varianza:
En la demostracion
ei =
(ii) La suma de valores observados yis es igual a la suma de valores ajustados yi, es decir;
X
yi =
yi, Tarea.
xiei = 0,
Tarea.
i
(v) La suma de residuales ponderada por los correspondientes valores ajustados de yis, es siempre cero, es decir,
X
yiei = 0,
Tarea.
de 2, es decir, estimacion
de la varianza de los
Estimacion
terminos
de error del modelo de RLS
Observacion
S2 =
(yi y)2
,
n1
finita
el cual es un estimador insesgado de 2 para el caso de una poblacion
n.
de tamano
( o media cuadratica
), ya que la suma de cuadrados se ha dividido por los
grados de libertad asociados.
SSE =
n
X
i=1
(yi yi)2
n
X
e2
i,
i=1
De lo anterior se obtiene que la media cuadratica
de errores apropiada es:
SSE
=
M SE =
n2
(yi yi)2
n2
P 2
e
n2
2 = M SE
y ademas
E[M SE] = 2.