Sei sulla pagina 1di 46

Analisis

de Regresion
OLS en RLS
Semana 1: Estimacion

Raul
Alberto Perez

Universidad Nacional de Colombia, Escuela de


Estadstica, 2016-I


Introduccion

es una tecnica

El analisis
de regresion
estadstica para investigar y modelar
entre variables.
la relacion

frecuente para analizar conjuntos de daEs una de las tecnicas


de uso mas
tos que involucran dos tipos de variables, la variable dependiente o variable
respuesta y un grupo de variables independientes (regresoras o predictoras).

Como ejemplo de un problema en el que puede ser de utilidad el analisis


supongamos que un ingeniero industrial, empleado por una
de regresion,
embotelladora de refrescos, analiza las operaciones de entrega y servicio

de productos en maquinas
tragamonedas.

El ingeniero cree que el tiempo utilizado por un repartidor, en cargar y dar

servicio a una maquina,


se relaciona con la cantidad de cajas de producto
entregadas.

El ingeniero visita 25 tiendas de menudeo, escogidas al azar, con maquinas


tragamonedas y anota el tiempo de entrega en la tienda (en minutos) y el
volumen del producto entregado (en cajas), para cada una de las tiendas.

80

Las 25 observaciones se grafican en la siguiente figura.

40

50

30

*
*
*
20

10

Tiempo de Entrega Y

60

70

*
*
** *
*
5

* * * * *
*
**
*
*

10

15

20

25

Volumn de Entrega (Nmero de cajas Entregadas) X

30

parece indicar con claridad que hay una relacion

El diagrama de dispersion
entre el tiempo y el volumen de entrega.
que los datos caen, en general, pero no exactaDe hecho, da la impresion,
mente, en una lnea recta.
80

de lnea recta.
La grafica
que sigue muestra la relacion

40

50

30

*
*

20

10

Tiempo de Entrega Y

60

70

*
*
** *
*
5

*
* * * * *
*
**
*
*

10

15

20

25

Volumn de Entrega (Nmero de cajas Entregadas) X

30

Si Y representa el tiempo de entrega y X representa el volumen entregado,


de una recta que relaciona estas dos variables es:
la ecuacion

Y = 0 + 1X,

(1)

en donde, 0: es la ordenada al origen y 1: es la pendiente.

matematica

se
Al fenomeno
estudiado mediante la anterior relacion
tambien

le conoce como un fenomeno


determinista.
de metodos

Sin embargo la aplicacion


cuantitativos a las Ciencias Experimentales ha mostrado la poca fiabilidad de las Relaciones Deterministas.

En las Ciencias Experimentales se tiene que: el azar, la aleatoriedad, la


variabilidad individual, las variables no controladas, los errores en las mediciones etc., hacen que los datos no caigan exactamente sobre una recta,
mas
general:
justificando as el planteamiento de la siguiente ecuacion

= Modelo + Error Aleatorio


Observacion
El experimentador puede, fijando las condiciones de su experimento, especificar la estructura del modelo, pero siempre debe tener en cuenta el error
entre lo que observa y lo que espera observar segun
aleatorio o desviacion

el modelo.

utilizan la ecuacion
anterior, fijando el Modelo
Los Modelos de Regresion
lineal de unos parametros,

como una funcion


y el objetivo consiste, casi
de valores de la variable respuesta mediante el
siempre, en la prediccion
modelo ajustado.
El error aleatorio se puede considerar como una variable aleatoria que explica el porque el modelo no ajusta exactamente los datos.
Para el caso de nuestro ejemplo, este error puede estar formado por los
efectos de otras variables sobre el tiempo de entrega Y , por errores de me etc.
dicion,

plausible para los datos del tiempo de entrega es:


Un modelo mas

|{z}

Observado

=
+{z1X} +
| 0
Modelo

|{z}

Error Aleatorio

Es decir:

Y = 0 + 1X + .

(2)

se le llama modelo de Regresion


Lineal Simple (RLS), lo
A esta ecuacion
variable independiente X.
de simple, por tener una solo
Por costumbre se dice que X-es la variable independiente y Y -la variable
dependiente.
se usa el nombre de variable regresora o predictora para X y vaTambien
riable respuesta para Y .

del modelo de RLS


Interpretacion
lineal simple, suponga que
Para comprender mejor el modelo de regresion
se puede fijar el valor de la variable regresora X para observar el valor correspondiente de la respuesta Y .
Si X esta fija, el componente aleatorio del lado derecho del modelo de
RLS, determina las posibilidades de valores para Y .

Supongamos que el promedio y la varianza de son cero y 2 respectivamente, entonces la respuesta media en cualquier valor de la variable regre
sora sera:

E[Y |X = x] = y|x
= E[0 + 1X + ]
= 0 + 1X + E[]
= 0 + 1X.
dada
Se observa que la anterior respuesta media coincide con la relacion
(1) obtenida a partir del diagrama de dispersion
de los datos.
por la ecuacion

Ahora la varianza de Y para cualquier valor de X es:


2 = V ar[ + X + ]
V ar[Y |X = x] = y|x
| 0 {z 1 }
Constante

= V ar[]
= 2.

De lo anterior se tiene que el verdadero modelo de regresion

E[Y |X = x] = y|x = 0 + 1X
es una lnea recta de valores promedios, es decir, la altura de la lnea de
en cualquier valor de X no es mas
que el valor esperado de Y
regresion
para ese valor de X.

La pendiente 1 es el cambio de la media de Y por una cambio unitario de


X.
la variabilidad de Y en cualquier valor particular de X queda deterAdemas
minada por la varianza del componente de error aleatorio del modelo , es
decir, por 2.
de valores de Y en cada valor de X y
Esto implica que hay una distribucion
es igual en cada valor de X, como se
que la varianza de dicha distribucion

ve en la siguiente grafica.

Lineal Simple
Regresion
En muchas aplicaciones solo se tiene tanto una variable respuesta Y como una variable regresora o independiente X, en cuyo caso se habla de
lineal simple (RLS).
modelos de regresion

funcional entre dos variables


Relacion
funcional entre dos variables se expresa mediante una formula

Una relacion

matematica.
Si X-denota la variable independiente y Y -denota la variable
funcional entre X y Y se puede expredependiente, entonces una relacion
sar de la forma:
Y = f (X).
f , indica el valor correspondiente de Y .
Dado un valor de X, la funcion


Ejemplo: Si Y -denota las ventas en dolares
de un producto que se vende
a un precio fijado y X-denota el numero
de unidades vendidas, entonces la

entre Y y X se denota por la ecuacion:

relacion
Y = 2X.

10

15

20

anterior es:
La grafica
de la funcion

10

Se nota que en la grafica


anterior, todas las observaciones de X y Y caen
Este ultimo
directamente sobre la lnea de dicha relacion.
hecho es una ca
racterstica de todas las relaciones funcionales.

estadstica entre dos variables


Relacion
estadstica, a diferencia de una relacion
funcional, NO ES PERUna relacion
estadstica no caen
FECTA. En general, las observaciones para una relacion

directamente sobre la curva de relacion.

80

Como se ve en la siguiente grafica:

40

50

30

*
*

20

10

Tiempo de Entrega Y

60

70

*
*
* *
*
5

*
* * * * *
*
**
*
*

10

15

20

25

Volumn de Entrega (Nmero de cajas Entregadas) X

30


entre el tiempo de entreLa grafica
sugiere claramente que hay una relacion
no es perfecta.
ga y el volumen de entrega, pero esta relacion
que sugiere que algo de la variacion
del tiempo de
Existe una dispersion,
entrega (Y ) no es explicado por el volumen de entrega (X).
Por ejemplo, tres tiendas tuvieron un volumen de productos entregados de
X = 10-cajas, pero estas tiendas tuvieron tiempos de entrega (Y ) algo
diferentes.
de los puntos alrededor de la lnea, representa una variacion

La dispersion
en los tiempos de entrega, que no esta asociada con el volumen de produc
tos entregados y esto
ultimo
se considera que es de Naturaleza Aleatoria.

Las relaciones estadsticas son muy utiles,


aunque no tienen la exactitud de

funcional.
una relacion

del termino

MRLS con distribucion


de error no especificado
En el caso de un modelo de RLS, se considera que existe solamente una
de regresion
es lineal, es decir, el modelo
variable predictora y que la funcion
es de la forma:

Yi = 0 + 1Xi + i , para i = 1, 2, . . . , n

(3)

(i) Yi: Es el valor de la variable respuesta en el i-esimo


nivel (o valor) de X.

(ii) 0, 1: Son los parametros


del modelo.
(iii) Xi: Es una constante conocida que representa el valor de la variable

predictora para el i-esimo


ensayo o prueba.

(iv) i: Es un error aleatorio, con media cero, es decir, E[i] = 0 y va los is son norianza constante, es decir, V ar[i] = 2, ademas
correlacionados, es decir que, Cov[i, j ] = 0, i, j, i 6= j, i =
1, 2, . . . , n.

se dice que es:


El anterior modelo de regresion

hay una variable predictora o inde(i) Simple: En el sentido de que solo


pendiente.

(ii) Lineal: En el sentido de que es lineal en los parametros.

(iii) De primer orden: En el sentido de que la variable predictora aparece


solamente en potencias de uno.

Algunas caractersticas del modelo de RLS anterior

(i) La respuesta Yi en el i-esimo


ensayo o prueba, es la suma de dos termi

nos, a saber: un termino


constante, 0 + 1Xi y un termino
aleatorio,
i, ie. Yi-es una v.a.

(ii) Como E[i] = 0, entonces se tiene que, E[Yi] = 0 + 1Xi (ie, constante), por lo que, la respuesta Yi cuando el nivel de X es Xi, viene de
de probabilidad cuya media es: E[Yi] = 0 + 1Xi, y
una distribucion
de regresion
del modelo es:
por lo tanto la funcion
E[Y ] = 0 + 1X,
de regresion
relaciona la media de la distribucion

ya que la funcion
de probabilidad de Y para X dado a un nivel.


(iii) La respuesta Yi en el i-esimo
nivel de X, excede o cae cerca del valor
de regresion,
por una cantidad de tamano
el termino

de la funcion
de
error aleatorio i.

(iv) Los terminos


de error aleatorios i, se asumen que tienen varianza
constante 2, por lo tanto, se sigue que la respuesta Yi tiene la misma varianza constante 2, es decir, V ar[Yi] = 2.
de probabilidad de
De donde el modelo (3), asume que la distribucion
la variable respuesta Y tiene la misma varianza constante 2, independientemente del valor de la variable predictora X.

(v) Los terminos


de error i, se asume que son no-correlacionados, es de
cir, la entrada en cualquier nivel de X, no tiene efecto sobre el termino
de error de cualquier otro nivel.
lo son Yi y Yj .
Como i y j son no-correlacionados, tambien

Resumen
El modelo de RLS implica que las respuestas Yis vienen de distribuciones
de probabilidades cuyas medias son:

[Yi] = 0 + 1Xi
y cuyas varianzas son

V ar[Yi] = 2
la misma para todos los niveles de X.
las respuestas Yis son no correlacionadas.
Ademas,

grafica

Representacion
del MRLS:

de los Parametros

Estimacion
del MRLS
Dado un conjunto de observaciones o datos (X1, Y1), (X2, Y2), . . . , (Xn, Yn),
se trata de hallar valores apropiados de 0 y 1, que se ajusten lo mejor posible a este conjunto de datos.

El metodo
de mnimos cuadrados ordinario (OLS), considera la desviacion
de Yi a su valor esperado, es decir,
Yi (0 + 1Xi).
Para hallar a 0 y 1, se considera la suma de las n-desviaciones al cuadrado, denotada por,
Q(0, 1) =

n
X

(Yi 0 1Xi)2.

i=1

Las estimaciones de 0 y 1, son aquellos valores 0 y 1, que minimizan la


cantidad Q para las observaciones muestrales (X1, Y1), (X2, Y2), . . . , (Xn, Yn).


Para hallar 0 y 1, se pueden usar procesos de busqueda
numerica,
hasta

hallar valores de 0 y 1 que minimicen a Q, o bien, mediante procesos


propuesto no es tan complejo
analticos, cuando el modelo de regresion

matematicamente.

Mediante un acercamiento analtico, se tiene que derivando parcialmente


la cantidad Q con respecto a 0 y 1 e igualando a cero, se obtienen las
llamadas Ecuaciones Normales :
siguientes ecuaciones, tambien
n
X

Yi = n0 + 1

i=1
n
X
i=1

XiYi = 0

n
X

Xi

i=1
n
X
i=1

Xi + 1

n
X
i=1

Xi2

(4)


y resolviendo simultaneamente
las ecuaciones anteriores, para 0 y 1, se
obtiene que:
Pn

1 =

0 =

i=1(Xi X)(Yi Y )
Pn
2

(X

X)
i
i=1

n
X

n
X

Sxy
=
Sxx

1
1X.

Yi 1
Xi = Y
n i=1
i=1


Estimadores de los Parametros
del MRLS
Los estimadores de mnimos cuadrados ordinario son:

1X
, con
0 = Y
(xi x
)(yi y)
P
(xi Px
)2 P

1 =

=
1 =
=1
con, Y
n

=1
yi y X
n

yi)
xiyi ( xi)(
P n 2
P 2
xi ( nxi)

Sxy
,
Sxx
xi .

El modelo de RLS ajustado es:

y = 0 + 1X,
de la media de Y -para un valor especfico
el cual representa una estimacion
de X, es decir:

y = 0 + 1X

[
E[Y
|X] = 0 + 1X

A las cantidades,

Sxx =

2
X 2
(
x
)
i
2
=
xi n
x2,
xi
n
P

(xi x
)2 =

Sxy =

(xi x
)(yi y)

yi(xi x
)
P
P
X
( xi)( yi)
=
xiyi
n
X
=
xiyi n
xy
=

se les llaman: suma corregida de cuadrados de x, Sxx y suma corregida


de productos cruzados de x e y, Sxy .

Residuales
Se llama residual a la diferencia entre el valor observado yi y su valor estimado, yi, es decir,

ei = yi yi = yi (0 + 1xi),
para , i = 1, 2, . . . , n.
importantes en la validacion
de los supuestos
NOTA: Los Residuales seran

de un modelo de regresion.

Propiedades de 0 y 1, obtenidos mediante OLS


Los estimadores de mnimos cuadrados para 0 y 1, son ambos combinaciones lineales (CL) de las observaciones yis, pues,

(xi x
)(yi y)
P
(xi x
)2
P
(xi x
)yi
= P
(xi x
)2
X
1 =
kiyi,
P

1 =

con ki

xi
x
(xi
x) 2

x
= xSi
, las cuales son constantes, pues la xis lo
xx

son, y
X
X 1
1X

yi x
kiyi =
x
ki yi.
0 = y 1x
=
n
n
!

de obtener el ajuste mediante OLS, surgen varias pregunNOTA: Despues

tas, entre las cuales estan:

los datos?
(i) Que tan bien ajusta esta ecuacion

el metodo

(ii) Es
de OLS bueno para usar el modelo como un predictor?

(iii) Son violadas algunas de las suposiciones basicas?


y si as lo es, que

tan serio es dicha violacion?

Propiedad
Bajo las condiciones del modelo de RLS, los estimadores obtenidos mediante OLS, 0 y 1 son insesgados y tienen mnima varianza, entre todos los
estimadores lineales insesgados.

La anterior propiedad quiere decir lo siguiente:

primero:

E[0] = 0 y E[1] = 1,

precisos (es decir, sus


segundo: Los estimadores 0 y 1 son los mas
distribuciones muestrales son menos variables) que cualquier otros estimadores que pertenezcan a la clase de estimadores insesgados que sean funciones lineales de las observaciones Y1, Y2, . . . , Yn.

quiere decir que, 0 y 1 tienen la variabilidad mas


peLo anterior tambien
sobre muestras repetidas en las cuales los niveles de X permanecen
quena
sin cambiar.
Ahora se demostrara que los estimadores obtenidos mediante OLS son insesgados, es decir, se demostrara la primera propiedad. Para lograr esto,
recordemos primero que:
1 =

x x

xi x

kiyi, con ki = P i
=
,
2
(xi x
)
Sxx

E[1] = E

hX

kiyi

kiE[yi]

ki(0 + 1xi)

E[1] = 0

ki + 1

k i xi

resta demostrar que:


Para terminar la demostracion,
X

y que

ki = 0

lo cual se deja como ejercicio de Tarea.

Con esto queda demostrado que:

E[1] = 1
1-es insesgado.
es decir que,

kixi = 1,

es insesgado.
Ahora pasemos a demostrar que 0 tambien
h

E[0] = E y 1X
#
"
1X
1
yi X
=E
n
1X
1]
E[yi] XE[
=
n
i
1 hX
1
=
(0 + 1xi) X
n
1
1X
1
xi X
= n0 + 1
n
n
1 X

= 0 + 1 X
E[0] = 0,
luego, 0 es insesgado.

Calculo de la varianza de 0 y 1

V ar[1] = V ar
=
=

n
X
i=1
n
X

kiyi

i=1

ki2V ar(yi), pues las yis son no-correlacionadas


ki2 2

i=1

n
X

n
X

x
)2

(xi
2
S
xx
i=1

xi x

pues ki =
Sxx

n
1
1 X
2
2
(xi x
) = 2 Sxx
2
Sxx i=1
Sxx

2
.
V ar[1] =
Sxx
anterior, entre mas
disperso esten
las xis, ie. entre
Segun
la expresion
mayor sea Sxx, menor sera la V ar[1].

Ahora se calculara la varianza de 0 como sigue:


h

V ar[0] = V ar y 1x

= V ar(
y) + x
2 V ar(1) 2
x Cov(
y , 1)
2
x
2 2
=
+
2
x 0, pues Cov(
y , 1) = 0 (Tarea)
n
Sxx

2
2
2
2
1

x

x

2

V ar[0] =
+
=
+
.
n
Sxx
n
Sxx
anterior se utilizo la siguiente propiedad de varianza:
En la demostracion

V ar(aX + bY ) = V ar(aX) + V ar(bY ) 2abCov(X, Y )


= a2V ar(X) + b2V ar(Y ) 2abCov(X, Y ).
Tarea: Demostrar que 0 y 1 son los mejores estimadores lineales insesgados, en el sentido de que tienen mnima varianza.

Otras propiedades de los estimadores OLS para el modelo


de RLS

(i) La suma de residuales es cero, es decir,


X

ei =

(yi yi) = 0, Tarea.

(ii) La suma de valores observados yis es igual a la suma de valores ajustados yi, es decir;
X

yi =

yi, Tarea.

de mnimos cuadrados, siempre pasa a traves


del
(iii) La lnea de regresion
de (
centroide de los datos, es decir, a traves
x, y), Tarea.

(iv) La suma de residuales ponderada por los correspondientes valores de


las xis, es siempre cero, es decir,
X

xiei = 0,

Tarea.

i
(v) La suma de residuales ponderada por los correspondientes valores ajustados de yis, es siempre cero, es decir,
X

yiei = 0,

Tarea.

de 2, es decir, estimacion
de la varianza de los
Estimacion

terminos
de error del modelo de RLS

La varianza de los terminos


de error is, es decir, V ar(i) = 2, en un
de la
modelo de RLS necesita ser estimada, para obtener una indicacion
variabilidad de las distribuciones de probabilidad de Y para los distintos valores de X.
es necesaria para hacer inferencias acerca de la funcion
de regreAdemas,
y para hacer predicciones acerca de los valores de la respuesta Y .
sion


Observacion

Recordemos que la varianza de los terminos


de error aleatorios is, es decir,
es estimada con la varianza muestral S 2, y para
2, para una sola poblacion
obtener dicha varianza muestral, se obtienen las desviaciones de las Yis a
, elevado al cuadrado y sumando se obtiene:
su media estimada Y
(yi y)2, llamada: suma de cuadrados,

luego, la suma de cuadrados se divide por los grados de libertad asociados


con dicha suma, en este caso, n 1, debido a que se pierde un grado de
libertad al estimar y con los datos, de donde se obtiene

S2 =

(yi y)2
,
n1

finita
el cual es un estimador insesgado de 2 para el caso de una poblacion
n.
de tamano

se le puede llamar una media de cuadrados


A la varianza muestral tambien

( o media cuadratica
), ya que la suma de cuadrados se ha dividido por los
grados de libertad asociados.

Ahora, para estimar a 2 en el caso del modelo de RLS, se procede de

manera similar al caso de una sola poblacion.


Se calcula la suma de cuadrados de las desviaciones de yi alrededor de
\], pues, ahora cada y proviene de una
su propia media estimada, yi = E[y
i
i
de probabilidad distinta con medias diferentes que dependen del
distribucion
nivel de X, es decir de Xi.
En este caso la suma de cuadrados apropiada es:

SSE =

n
X
i=1

(yi yi)2

n
X

e2
i,

i=1

llamada suma cuadratica


de errores (o residuales).
La SSE tiene asociada n 2-grados de libertad, pues se pierden 2-grados
de libertad al estimar a 0 y a 1, para obtener a yi.


De lo anterior se obtiene que la media cuadratica
de errores apropiada es:

SSE
=
M SE =
n2

(yi yi)2

n2

P 2
e

n2

Se puede demostrar que M SE, es un estimador insesgado de 2 para el


modelo de RLS, es decir que,

2 = M SE

y ademas

E[M SE] = 2.

Potrebbero piacerti anche