Semana 1 - 2016 I PDF

Analisis
de Regresion
OLS en RLS
Semana 1: Estimacion
Raul
Alberto Perez
Universidad Nacional de Colombia, Escuela de

Estadstica, 2016-I

Introduccion
es una tecnica
El analisis
de regresion
estadstica para investigar y modelar
entre variables.
la relacion
frecuente para analizar conjuntos de daEs una de las tecnicas

de uso mas
tos que involucran dos tipos de variables, la variable dependiente o variable
respuesta y un grupo de variables independientes (regresoras o predictoras).
Como ejemplo de un problema en el que puede ser de utilidad el analisis

supongamos que un ingeniero industrial, empleado por una
de regresion,
embotelladora de refrescos, analiza las operaciones de entrega y servicio
de productos en maquinas
tragamonedas.
El ingeniero cree que el tiempo utilizado por un repartidor, en cargar y dar
servicio a una maquina,

se relaciona con la cantidad de cajas de producto
entregadas.
El ingeniero visita 25 tiendas de menudeo, escogidas al azar, con maquinas

tragamonedas y anota el tiempo de entrega en la tienda (en minutos) y el
volumen del producto entregado (en cajas), para cada una de las tiendas.
80
Las 25 observaciones se grafican en la siguiente figura.
40
50
30
*
*
*
20
10
Tiempo de Entrega Y
60
70
*
*
** *
*
5
* * * * *
*
**
*
*
10
15
20
25
Volumn de Entrega (Nmero de cajas Entregadas) X
30
parece indicar con claridad que hay una relacion
El diagrama de dispersion
entre el tiempo y el volumen de entrega.
que los datos caen, en general, pero no exactaDe hecho, da la impresion,
mente, en una lnea recta.
80
de lnea recta.
La grafica
que sigue muestra la relacion
40
50
30
*
*
20
10
Tiempo de Entrega Y
60
70
*
*
** *
*
5
*
* * * * *
*
**
*
*
10
15
20
25
30
Si Y representa el tiempo de entrega y X representa el volumen entregado,

de una recta que relaciona estas dos variables es:
la ecuacion
Y = 0 + 1X,
(1)
en donde, 0: es la ordenada al origen y 1: es la pendiente.
matematica
se
Al fenomeno
estudiado mediante la anterior relacion
tambien
le conoce como un fenomeno

determinista.
de metodos
Sin embargo la aplicacion

cuantitativos a las Ciencias Experimentales ha mostrado la poca fiabilidad de las Relaciones Deterministas.
En las Ciencias Experimentales se tiene que: el azar, la aleatoriedad, la

variabilidad individual, las variables no controladas, los errores en las mediciones etc., hacen que los datos no caigan exactamente sobre una recta,
mas
general:
justificando as el planteamiento de la siguiente ecuacion
= Modelo + Error Aleatorio

Observacion
El experimentador puede, fijando las condiciones de su experimento, especificar la estructura del modelo, pero siempre debe tener en cuenta el error
entre lo que observa y lo que espera observar segun
aleatorio o desviacion
el modelo.
utilizan la ecuacion
anterior, fijando el Modelo
Los Modelos de Regresion
lineal de unos parametros,
como una funcion

y el objetivo consiste, casi
de valores de la variable respuesta mediante el
siempre, en la prediccion
modelo ajustado.
El error aleatorio se puede considerar como una variable aleatoria que explica el porque el modelo no ajusta exactamente los datos.
Para el caso de nuestro ejemplo, este error puede estar formado por los
efectos de otras variables sobre el tiempo de entrega Y , por errores de me etc.
dicion,
plausible para los datos del tiempo de entrega es:

Un modelo mas
|{z}
Observado
=
+{z1X} +
| 0
Modelo
|{z}
Error Aleatorio
Es decir:
Y = 0 + 1X + .
(2)
se le llama modelo de Regresion

Lineal Simple (RLS), lo
A esta ecuacion
variable independiente X.
de simple, por tener una solo
Por costumbre se dice que X-es la variable independiente y Y -la variable
dependiente.
se usa el nombre de variable regresora o predictora para X y vaTambien
riable respuesta para Y .
del modelo de RLS

Interpretacion
lineal simple, suponga que
Para comprender mejor el modelo de regresion
se puede fijar el valor de la variable regresora X para observar el valor correspondiente de la respuesta Y .
Si X esta fija, el componente aleatorio del lado derecho del modelo de
RLS, determina las posibilidades de valores para Y .
Supongamos que el promedio y la varianza de son cero y 2 respectivamente, entonces la respuesta media en cualquier valor de la variable regre
sora sera:
E[Y |X = x] = y|x
= E[0 + 1X + ]
= 0 + 1X + E[]
= 0 + 1X.
dada
Se observa que la anterior respuesta media coincide con la relacion
(1) obtenida a partir del diagrama de dispersion
de los datos.
por la ecuacion
Ahora la varianza de Y para cualquier valor de X es:

2 = V ar[ + X + ]
V ar[Y |X = x] = y|x
| 0 {z 1 }
Constante
= V ar[]
= 2.
De lo anterior se tiene que el verdadero modelo de regresion
E[Y |X = x] = y|x = 0 + 1X
es una lnea recta de valores promedios, es decir, la altura de la lnea de
en cualquier valor de X no es mas
que el valor esperado de Y
regresion
para ese valor de X.
La pendiente 1 es el cambio de la media de Y por una cambio unitario de

X.
la variabilidad de Y en cualquier valor particular de X queda deterAdemas
minada por la varianza del componente de error aleatorio del modelo , es
decir, por 2.
de valores de Y en cada valor de X y
Esto implica que hay una distribucion
es igual en cada valor de X, como se
que la varianza de dicha distribucion
ve en la siguiente grafica.
Lineal Simple
Regresion
En muchas aplicaciones solo se tiene tanto una variable respuesta Y como una variable regresora o independiente X, en cuyo caso se habla de
lineal simple (RLS).
modelos de regresion
funcional entre dos variables

Relacion
funcional entre dos variables se expresa mediante una formula
Una relacion
matematica.
Si X-denota la variable independiente y Y -denota la variable
funcional entre X y Y se puede expredependiente, entonces una relacion
sar de la forma:
Y = f (X).
f , indica el valor correspondiente de Y .
Dado un valor de X, la funcion

Ejemplo: Si Y -denota las ventas en dolares
de un producto que se vende
a un precio fijado y X-denota el numero
de unidades vendidas, entonces la
entre Y y X se denota por la ecuacion:
relacion
Y = 2X.
10
15
20
anterior es:
La grafica
de la funcion
10
Se nota que en la grafica

anterior, todas las observaciones de X y Y caen
Este ultimo
directamente sobre la lnea de dicha relacion.
hecho es una ca
racterstica de todas las relaciones funcionales.
estadstica entre dos variables

Relacion
estadstica, a diferencia de una relacion
funcional, NO ES PERUna relacion
estadstica no caen
FECTA. En general, las observaciones para una relacion
directamente sobre la curva de relacion.
80
Como se ve en la siguiente grafica:
40
50
30
*
*
20
10
Tiempo de Entrega Y
60
70
*
*
* *
*
5
*
* * * * *
*
**
*
*
10
15
20
25
30

entre el tiempo de entreLa grafica
sugiere claramente que hay una relacion
no es perfecta.
ga y el volumen de entrega, pero esta relacion
que sugiere que algo de la variacion
del tiempo de
Existe una dispersion,
entrega (Y ) no es explicado por el volumen de entrega (X).
Por ejemplo, tres tiendas tuvieron un volumen de productos entregados de
X = 10-cajas, pero estas tiendas tuvieron tiempos de entrega (Y ) algo
diferentes.
de los puntos alrededor de la lnea, representa una variacion
La dispersion
en los tiempos de entrega, que no esta asociada con el volumen de produc
tos entregados y esto
ultimo
se considera que es de Naturaleza Aleatoria.
Las relaciones estadsticas son muy utiles,

aunque no tienen la exactitud de
funcional.
una relacion
del termino
MRLS con distribucion

de error no especificado
En el caso de un modelo de RLS, se considera que existe solamente una
de regresion
es lineal, es decir, el modelo
variable predictora y que la funcion
es de la forma:
Yi = 0 + 1Xi + i , para i = 1, 2, . . . , n
(3)
(i) Yi: Es el valor de la variable respuesta en el i-esimo

nivel (o valor) de X.
(ii) 0, 1: Son los parametros

del modelo.
(iii) Xi: Es una constante conocida que representa el valor de la variable
predictora para el i-esimo

ensayo o prueba.
(iv) i: Es un error aleatorio, con media cero, es decir, E[i] = 0 y va los is son norianza constante, es decir, V ar[i] = 2, ademas
correlacionados, es decir que, Cov[i, j ] = 0, i, j, i 6= j, i =
1, 2, . . . , n.
se dice que es:

El anterior modelo de regresion
hay una variable predictora o inde(i) Simple: En el sentido de que solo

pendiente.
(ii) Lineal: En el sentido de que es lineal en los parametros.
(iii) De primer orden: En el sentido de que la variable predictora aparece

solamente en potencias de uno.
Algunas caractersticas del modelo de RLS anterior
(i) La respuesta Yi en el i-esimo

ensayo o prueba, es la suma de dos termi
nos, a saber: un termino

constante, 0 + 1Xi y un termino
aleatorio,
i, ie. Yi-es una v.a.
(ii) Como E[i] = 0, entonces se tiene que, E[Yi] = 0 + 1Xi (ie, constante), por lo que, la respuesta Yi cuando el nivel de X es Xi, viene de
de probabilidad cuya media es: E[Yi] = 0 + 1Xi, y
una distribucion
de regresion
del modelo es:
por lo tanto la funcion
E[Y ] = 0 + 1X,
de regresion
relaciona la media de la distribucion
ya que la funcion
de probabilidad de Y para X dado a un nivel.

(iii) La respuesta Yi en el i-esimo
nivel de X, excede o cae cerca del valor
de regresion,
por una cantidad de tamano
el termino
de la funcion
de
error aleatorio i.
(iv) Los terminos

de error aleatorios i, se asumen que tienen varianza
constante 2, por lo tanto, se sigue que la respuesta Yi tiene la misma varianza constante 2, es decir, V ar[Yi] = 2.
de probabilidad de
De donde el modelo (3), asume que la distribucion
la variable respuesta Y tiene la misma varianza constante 2, independientemente del valor de la variable predictora X.
(v) Los terminos

de error i, se asume que son no-correlacionados, es de
cir, la entrada en cualquier nivel de X, no tiene efecto sobre el termino
de error de cualquier otro nivel.
lo son Yi y Yj .
Como i y j son no-correlacionados, tambien
Resumen
El modelo de RLS implica que las respuestas Yis vienen de distribuciones
de probabilidades cuyas medias son:
[Yi] = 0 + 1Xi
y cuyas varianzas son
V ar[Yi] = 2
la misma para todos los niveles de X.
las respuestas Yis son no correlacionadas.
Ademas,
grafica
Representacion
del MRLS:
de los Parametros
Estimacion
del MRLS
Dado un conjunto de observaciones o datos (X1, Y1), (X2, Y2), . . . , (Xn, Yn),
se trata de hallar valores apropiados de 0 y 1, que se ajusten lo mejor posible a este conjunto de datos.
El metodo
de mnimos cuadrados ordinario (OLS), considera la desviacion
de Yi a su valor esperado, es decir,
Yi (0 + 1Xi).
Para hallar a 0 y 1, se considera la suma de las n-desviaciones al cuadrado, denotada por,
Q(0, 1) =
n
X
(Yi 0 1Xi)2.
i=1
Las estimaciones de 0 y 1, son aquellos valores 0 y 1, que minimizan la

cantidad Q para las observaciones muestrales (X1, Y1), (X2, Y2), . . . , (Xn, Yn).

Para hallar 0 y 1, se pueden usar procesos de busqueda
numerica,
hasta
hallar valores de 0 y 1 que minimicen a Q, o bien, mediante procesos

propuesto no es tan complejo
analticos, cuando el modelo de regresion
matematicamente.
Mediante un acercamiento analtico, se tiene que derivando parcialmente

la cantidad Q con respecto a 0 y 1 e igualando a cero, se obtienen las
llamadas Ecuaciones Normales :
siguientes ecuaciones, tambien
n
X
Yi = n0 + 1
i=1
n
X
i=1
XiYi = 0
n
X
Xi
i=1
n
X
i=1
Xi + 1
n
X
i=1
Xi2
(4)

y resolviendo simultaneamente
las ecuaciones anteriores, para 0 y 1, se
obtiene que:
Pn
1 =
0 =
i=1(Xi X)(Yi Y )
Pn
2
(X
X)
i
i=1
n
X
n
X
Sxy
=
Sxx
1
1X.
Yi 1
Xi = Y
n i=1
i=1

Estimadores de los Parametros
del MRLS
Los estimadores de mnimos cuadrados ordinario son:
1X
, con
0 = Y
(xi x
)(yi y)
P
(xi Px
)2 P
1 =
=
1 =
=1
con, Y
n
=1
yi y X
n
yi)
xiyi ( xi)(
P n 2
P 2
xi ( nxi)
Sxy
,
Sxx
xi .
El modelo de RLS ajustado es:
y = 0 + 1X,
de la media de Y -para un valor especfico
el cual representa una estimacion
de X, es decir:
y = 0 + 1X
[
E[Y
|X] = 0 + 1X
A las cantidades,
Sxx =
2
X 2
(
x
)
i
2
=
xi n
x2,
xi
n
P
(xi x
)2 =
Sxy =
(xi x
)(yi y)
yi(xi x
)
P
P
X
( xi)( yi)
=
xiyi
n
X
=
xiyi n
xy
=
se les llaman: suma corregida de cuadrados de x, Sxx y suma corregida

de productos cruzados de x e y, Sxy .
Residuales
Se llama residual a la diferencia entre el valor observado yi y su valor estimado, yi, es decir,
ei = yi yi = yi (0 + 1xi),
para , i = 1, 2, . . . , n.
importantes en la validacion
de los supuestos
NOTA: Los Residuales seran
de un modelo de regresion.
Propiedades de 0 y 1, obtenidos mediante OLS

Los estimadores de mnimos cuadrados para 0 y 1, son ambos combinaciones lineales (CL) de las observaciones yis, pues,
(xi x
)(yi y)
P
(xi x
)2
P
(xi x
)yi
= P
(xi x
)2
X
1 =
kiyi,
P
1 =
con ki
xi
x
(xi
x) 2
x
= xSi
, las cuales son constantes, pues la xis lo
xx
son, y
X
X 1
1X
yi x
kiyi =
x
ki yi.
0 = y 1x
=
n
n
!
de obtener el ajuste mediante OLS, surgen varias pregunNOTA: Despues
tas, entre las cuales estan:
los datos?
(i) Que tan bien ajusta esta ecuacion
el metodo
(ii) Es
de OLS bueno para usar el modelo como un predictor?
(iii) Son violadas algunas de las suposiciones basicas?

y si as lo es, que
tan serio es dicha violacion?
Propiedad
Bajo las condiciones del modelo de RLS, los estimadores obtenidos mediante OLS, 0 y 1 son insesgados y tienen mnima varianza, entre todos los
estimadores lineales insesgados.
La anterior propiedad quiere decir lo siguiente:
primero:
E[0] = 0 y E[1] = 1,
precisos (es decir, sus

segundo: Los estimadores 0 y 1 son los mas
distribuciones muestrales son menos variables) que cualquier otros estimadores que pertenezcan a la clase de estimadores insesgados que sean funciones lineales de las observaciones Y1, Y2, . . . , Yn.
quiere decir que, 0 y 1 tienen la variabilidad mas

peLo anterior tambien
sobre muestras repetidas en las cuales los niveles de X permanecen
quena
sin cambiar.
Ahora se demostrara que los estimadores obtenidos mediante OLS son insesgados, es decir, se demostrara la primera propiedad. Para lograr esto,
recordemos primero que:
1 =
x x
xi x
kiyi, con ki = P i
=
,
2
(xi x
)
Sxx
E[1] = E
hX
kiyi
kiE[yi]
ki(0 + 1xi)
E[1] = 0
ki + 1
k i xi
resta demostrar que:

Para terminar la demostracion,
X
y que
ki = 0
lo cual se deja como ejercicio de Tarea.
Con esto queda demostrado que:
E[1] = 1
1-es insesgado.
es decir que,
kixi = 1,
es insesgado.
Ahora pasemos a demostrar que 0 tambien
h
E[0] = E y 1X
#
"
1X
1
yi X
=E
n
1X
1]
E[yi] XE[
=
n
i
1 hX
1
=
(0 + 1xi) X
n
1
1X
1
xi X
= n0 + 1
n
n
1 X
= 0 + 1 X
E[0] = 0,
luego, 0 es insesgado.
Calculo de la varianza de 0 y 1
V ar[1] = V ar
=
=
n
X
i=1
n
X
kiyi
i=1
ki2V ar(yi), pues las yis son no-correlacionadas

ki2 2
i=1
n
X
n
X
x
)2
(xi
2
S
xx
i=1
xi x
pues ki =
Sxx
n
1
1 X
2
2
(xi x
) = 2 Sxx
2
Sxx i=1
Sxx
2
.
V ar[1] =
Sxx
anterior, entre mas
disperso esten
las xis, ie. entre
Segun
la expresion
mayor sea Sxx, menor sera la V ar[1].
Ahora se calculara la varianza de 0 como sigue:

h
V ar[0] = V ar y 1x
= V ar(
y) + x
2 V ar(1) 2
x Cov(
y , 1)
2
x
2 2
=
+
2
x 0, pues Cov(
y , 1) = 0 (Tarea)
n
Sxx
2
2
2
2
1
x

x

2
V ar[0] =
+
=
+
.
n
Sxx
n
Sxx
anterior se utilizo la siguiente propiedad de varianza:
En la demostracion
V ar(aX + bY ) = V ar(aX) + V ar(bY ) 2abCov(X, Y )

= a2V ar(X) + b2V ar(Y ) 2abCov(X, Y ).
Tarea: Demostrar que 0 y 1 son los mejores estimadores lineales insesgados, en el sentido de que tienen mnima varianza.
Otras propiedades de los estimadores OLS para el modelo

de RLS
(i) La suma de residuales es cero, es decir,

X
ei =
(yi yi) = 0, Tarea.
(ii) La suma de valores observados yis es igual a la suma de valores ajustados yi, es decir;
X
yi =
yi, Tarea.
de mnimos cuadrados, siempre pasa a traves

del
(iii) La lnea de regresion
de (
centroide de los datos, es decir, a traves
x, y), Tarea.
(iv) La suma de residuales ponderada por los correspondientes valores de

las xis, es siempre cero, es decir,
X
xiei = 0,
Tarea.
i
(v) La suma de residuales ponderada por los correspondientes valores ajustados de yis, es siempre cero, es decir,
X
yiei = 0,
Tarea.
de 2, es decir, estimacion
de la varianza de los
Estimacion
terminos
de error del modelo de RLS
La varianza de los terminos

de error is, es decir, V ar(i) = 2, en un
de la
modelo de RLS necesita ser estimada, para obtener una indicacion
variabilidad de las distribuciones de probabilidad de Y para los distintos valores de X.
es necesaria para hacer inferencias acerca de la funcion
de regreAdemas,
y para hacer predicciones acerca de los valores de la respuesta Y .
sion

Observacion
Recordemos que la varianza de los terminos

de error aleatorios is, es decir,
es estimada con la varianza muestral S 2, y para
2, para una sola poblacion
obtener dicha varianza muestral, se obtienen las desviaciones de las Yis a
, elevado al cuadrado y sumando se obtiene:
su media estimada Y
(yi y)2, llamada: suma de cuadrados,
luego, la suma de cuadrados se divide por los grados de libertad asociados

con dicha suma, en este caso, n 1, debido a que se pierde un grado de
libertad al estimar y con los datos, de donde se obtiene
S2 =
(yi y)2
,
n1
finita
el cual es un estimador insesgado de 2 para el caso de una poblacion
n.
de tamano
se le puede llamar una media de cuadrados

A la varianza muestral tambien
( o media cuadratica
), ya que la suma de cuadrados se ha dividido por los
grados de libertad asociados.
Ahora, para estimar a 2 en el caso del modelo de RLS, se procede de
manera similar al caso de una sola poblacion.

Se calcula la suma de cuadrados de las desviaciones de yi alrededor de
\], pues, ahora cada y proviene de una
su propia media estimada, yi = E[y
i
i
de probabilidad distinta con medias diferentes que dependen del
distribucion
nivel de X, es decir de Xi.
En este caso la suma de cuadrados apropiada es:
SSE =
n
X
i=1
(yi yi)2
n
X
e2
i,
i=1
llamada suma cuadratica

de errores (o residuales).
La SSE tiene asociada n 2-grados de libertad, pues se pierden 2-grados
de libertad al estimar a 0 y a 1, para obtener a yi.

De lo anterior se obtiene que la media cuadratica
de errores apropiada es:
SSE
=
M SE =
n2
(yi yi)2
n2
P 2
e
n2
Se puede demostrar que M SE, es un estimador insesgado de 2 para el

modelo de RLS, es decir que,
2 = M SE
y ademas
E[M SE] = 2.

Semana 1 - 2016 I PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Semana 1 - 2016 I PDF

Caricato da

Copyright:

Formati disponibili

Analisis

Universidad Nacional de Colombia, Escuela de

frecuente para analizar conjuntos de daEs una de las tecnicas

Como ejemplo de un problema en el que puede ser de utilidad el analisis

El ingeniero cree que el tiempo utilizado por un repartidor, en cargar y dar

servicio a una maquina,

El ingeniero visita 25 tiendas de menudeo, escogidas al azar, con maquinas

Las 25 observaciones se grafican en la siguiente figura.

Volumn de Entrega (Nmero de cajas Entregadas) X

parece indicar con claridad que hay una relacion

Volumn de Entrega (Nmero de cajas Entregadas) X

Si Y representa el tiempo de entrega y X representa el volumen entregado,

en donde, 0: es la ordenada al origen y 1: es la pendiente.

le conoce como un fenomeno

Sin embargo la aplicacion

En las Ciencias Experimentales se tiene que: el azar, la aleatoriedad, la

= Modelo + Error Aleatorio

como una funcion

plausible para los datos del tiempo de entrega es:

se le llama modelo de Regresion

del modelo de RLS

Ahora la varianza de Y para cualquier valor de X es:

De lo anterior se tiene que el verdadero modelo de regresion

La pendiente 1 es el cambio de la media de Y por una cambio unitario de

funcional entre dos variables

entre Y y X se denota por la ecuacion:

Se nota que en la grafica

estadstica entre dos variables

directamente sobre la curva de relacion.

Como se ve en la siguiente grafica:

Volumn de Entrega (Nmero de cajas Entregadas) X

Las relaciones estadsticas son muy utiles,

MRLS con distribucion

(i) Yi: Es el valor de la variable respuesta en el i-esimo

(ii) 0, 1: Son los parametros

predictora para el i-esimo

se dice que es:

hay una variable predictora o inde(i) Simple: En el sentido de que solo

(ii) Lineal: En el sentido de que es lineal en los parametros.

(iii) De primer orden: En el sentido de que la variable predictora aparece

Algunas caractersticas del modelo de RLS anterior

(i) La respuesta Yi en el i-esimo

nos, a saber: un termino

(iv) Los terminos

(v) Los terminos

Las estimaciones de 0 y 1, son aquellos valores 0 y 1, que minimizan la

hallar valores de 0 y 1 que minimicen a Q, o bien, mediante procesos

Mediante un acercamiento analtico, se tiene que derivando parcialmente

El modelo de RLS ajustado es:

se les llaman: suma corregida de cuadrados de x, Sxx y suma corregida

Propiedades de 0 y 1, obtenidos mediante OLS

de obtener el ajuste mediante OLS, surgen varias pregunNOTA: Despues

tas, entre las cuales estan:

(iii) Son violadas algunas de las suposiciones basicas?

tan serio es dicha violacion?

La anterior propiedad quiere decir lo siguiente:

precisos (es decir, sus

quiere decir que, 0 y 1 tienen la variabilidad mas

resta demostrar que:

lo cual se deja como ejercicio de Tarea.

Con esto queda demostrado que:

ki2V ar(yi), pues las yis son no-correlacionadas

Ahora se calculara la varianza de 0 como sigue: