Sei sulla pagina 1di 28

Regresin Lineal por Mnimos Cuadrados

Anlisis Numrico
Tema 4. Ajuste de curvas I: Regresin Lineal
M. P. Vassileva, J. G. Maim
Instituto Tecnolgico de Santo Domingo (INTEC),
Repblica Dominicana
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Contenido:
Objetivos
Introduccin
Repaso de la estadstica
Regresin lineal por mnimos cuadrados
Linealizacin de relaciones no lineales
Mnimos cuadrados lineales en general
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Introduccin
En caso de que se asocia un error sustancial con los datos, la mejor estrategia para
el ajuste de curva es derivar una funcin de aproximacin que se adapte a la forma
o la tendencia general de los datos sin que necesariamente coincida con todos los
puntos individuales. Una forma de hacer esto es inspeccionar visualmente y los datos
representados a continuacin para trazar la mejor lnea a travs de los puntos.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Introduccin
El ejemplo ms simple es el acondicionamiento de una lnea recta a un conjunto
de pares de observaciones: (x
1
, y
1
), (x
2
, y
2
), ..., (x
n
, y
n
). Estamos interesados en
determinar la recta que mejor se ajusta a los datos
y = mx + b (1)
donde m y b son coecientes que representan la pendiente y el origen, respectiva-
mente. Si los puntos (x
1
, y
1
), (x
2
, y
2
), ..., (x
n
, y
n
) estuvieran exactamente sobre la
recta tendramos:
y
i
= mx
i
+ b (2)
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Introduccin
Como algunos de estos puntos no estn necesariamente sobre la recta, tenemos
y
i
= mx
i
+ b + d
i
(3)
donde d
i
es la desviacin vertical del punto (x
i
, y
i
) a la recta deseada (error resi-
dual). La cantidad d
i
puede ser positiva, negativa o cero.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Introduccin
El error residual entre el modelo y las observaciones puede ser representado por la
reordenacin de la ecuacin (3) como
d
i
= y
i
mx
i
b (4)
Por lo tanto, el valor residual es la diferencia entre el valor real de y, y el valor
aproximado, mx + b, predicho por la ecuacin lineal.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Criterios para un ajuste "mejor"
Una de las estrategias para la obtencin de la mejor lnea a travs de los datos sera
minimizar la suma de los errores residuales para todos los datos disponibles, como
en
n

i=1
d
i
=
n

i=1
(y
i
mx
i
b) (5)
donde n = nmero total de puntos.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Criterios para un ajuste "mejor"
Sin embargo, este es un criterio inadecuado, como se ilustra en la gura (a), que
representa la forma de una lnea recta a dos puntos. Obviamente, la mejor opcin
es la lnea que une los puntos. Sin embargo, cualquier recta que pasa por el punto
medio de la lnea de conexin (a excepcin de una lnea perfectamente vertical) da
lugar a un valor mnimo de la ecuacin (5) igual a cero, ya que los errores positivos
y negativos se cancelan.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Criterios para un ajuste "mejor"
Una forma de eliminar el efecto de los signos podra ser reducir al mnimo la suma
de los valores absolutos de las divergencias, como en
n

i=1
|d
i
| =
n

i=1
|y
i
mx
i
b| (6)
La gura (b) demuestra por qu este criterio producir un ajuste no nico: cualquier
lnea recta que cae dentro de las lneas discontinuas reducir al mnimo la suma de
los valores absolutos de los residuos.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Criterios para un ajuste "mejor"
La tercer estrategia para obtencin de la mejor lnea es el criterio minimax. En esta
tcnica, se elige la lnea que minimiza la distancia mxima que un punto concreto
est de la lnea. Como se representa en la gura (c), esta estrategia es poco adecuado
para la regresin, ya que da la inuencia indebida a un valor atpico, es decir, un
solo punto con un gran error.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Criterios para un ajuste "mejor"
Una estrategia que supera las deciencias de los enfoques mencionados anterior-
mente es reducir al mnimo la suma de los cuadrados de los residuos:
S
r
=
n

i=1
d
2
i
=
n

i=1
(y
i
mx
i
b)
2
(7)
Este criterio, que se denomina mnimos cuadrados, tiene varias de ventajas, inclu-
yendo que produce una lnea nica para un conjunto dado de datos. Antes de hablar
de estas propiedades, vamos a presentar una tcnica para determinar los valores de
m y b que minimizan la ecuacin (7).
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Ajuste por mnimos cuadrados de una lnea recta
Para determinar los valores de los coecientes m y b, derivamos la ecuacin (7) con
respecto a cada coeciente:
S
r
b
= 2
n

i=1
(y
i
mx
i
b)
S
r
m
= 2
n

i=1
[(y
i
mx
i
b)x
i
]
Si igualamos estas derivadas a cero obtendremos el mnimo de S
r
. Si hacemos esto,
las ecuaciones pueden expresarse como
n

i=1
y
i

i=1
mx
i

i=1
b = 0
n

i=1
y
i
x
i

i=1
mx
2
i

n

i=1
bx
i
= 0
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Ajuste por mnimos cuadrados de una lnea recta
Ahora, al darse cuenta de que

b = nb, podemos expresar las ecuaciones como


un sistema de dos ecuaciones lineales simultneas con dos incgnitas (m y b):
n

i=1
y
i
=

i=1
x
i

m + nb
n

i=1
y
i
x
i
=

i=1
x
2
i

m +

i=1
x
i

b
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Ajuste por mnimos cuadrados de una lnea recta
Estos se llaman las ecuaciones normales. Ellos pueden resolverse simultneamente
para
m =
n

n
i=1
x
i
y
i

n
i=1
x
i

n
i=1
y
i
n

n
i=1
x
2
i

n
i=1
x
i

2
(8)
Utilizado este resultado obtenemos:
b = y m x (9)
donde x y y son los medios de x y y, respectivamente.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Ajuste por mnimos cuadrados de una lnea recta
Problema 1:
En la fabricacin del producto XXX, la cantidad de compuesto presente es
controlada por la cantidad del ingrediente utilizada en el proceso. Al fabricar un
galn de XXX, se registraron la cantidad de usada y la cantidad de presente,
obtenindose los siguientes datos:
3 4 5 6 7 8 9 10 11 12
4.5 5.4 5.7 6.6 7.0 7.7 8.5 8.7 9.5 9.7
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Ajuste por mnimos cuadrados de una lnea recta
Problema 1:
La gura muestra la grca de los puntos de la tabla
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Ajuste por mnimos cuadrados de una lnea recta
Problema 1:
i x
i
y
i
x
2
i
x
i
y
i
1 3 4.5 9 13.5
2 4 5.5 16 22
3 5 5.7 25 28.5
4 6 6.6 36 39.6
5 7 7.0 49 49
6 8 7.7 64 61.4
7 9 8.5 81 76.5
8 10 8.7 100 87
9 11 9.5 121 104.5
10 12 9.7 144 116.4

75 73.4 645 598.6


M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Ajuste por mnimos cuadrados de una lnea recta
Problema 1:
Las medias se pueden calcular como x = 75/10 = 7.5 y y = 73.4/10 = 7.34. La
pendiente m y la interseccin b se pueden calcular con las ecuaciones (8) y (9)
como
m =
n

n
i=1
x
i
y
i

n
i=1
x
i

n
i=1
y
i
n

n
i=1
x
2
i

n
i=1
x
i

2
=
10(598.6) 75(73.4)
10(645) 75
2
= 0.583
b = y m x = 7.34 0.583(7.5) = 2.967
La ecuacin de la lnea recta que mejor se ajusta a los datos es
y = mx + b = 0.583x + 2.967
Utilizando esta ecuacin podemos estimar el valor de presente en el producto
XXX. Por ejemplo, si la utilizada es 30 onzas/galn, entonces la presente en
el producto XXX ser 0.583(30) + 2.967 = 20.457 onzas/galn.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Ajuste por mnimos cuadrados de una lnea recta
Problema 1:
La gura muestra la grca de los puntos de la tabla y la mejor lnea obtenida
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Cuanticacin del error de regresin lineal
Recordemos que la suma de los cuadrados se dene segn la ecuacin (7) como
S
r
=
n

i=1
(y
i
mx
i
b)
2
(10)
Ntamos la similitud entre esta ecuacin y la ecuacin
S
t
=
n

i=1
(y
i
y)
2
(11)
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Cuanticacin del error de regresin lineal
En la ecuacin (8), el cuadrado de el residual representa el cuadrado de la diferencia
entre los datos y una estimacin de la medida de tendencia central - la media. En la
ecuacin (7), el cuadrado del residual representa el cuadrado de la distancia vertical
entre los datos y otra medida de la tendencia central de la lnea recta que esta
mostrado en la siguiente gura.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Cuanticacin del error de regresin lineal
La analoga se puede ampliar an ms los casos en que
a) la difusin de los puntos alrededor de la lnea es de magnitud similar a lo
largo de toda la gama de los datos y
b) la distribucin de estos puntos sobre la lnea es normal.
Se puede demostrar que si se cumplen estos criterios, de regresin de mnimos cua-
drados proporcionar la mejor estimacin de m y b. Esto se conoce como el principio
de mxima verosimilitud en las estadsticas. Adems, si se cumplen estos criterios,
la desviacin estndar de la lnea de regresin se puede determinar como
s
y/x
=

S
r
n 2
(12)
donde s
y/x
se denomina el error estndar de la estimacin.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Cuanticacin del error de regresin lineal
El subndice de la notacin de s
y/x
indica que el error es un valor predicho de y
correspondiente a un valor particular de x. Tambin, observamos que ahora dividi-
mos por n 2, ya que se utilizaron dos estimaciones de derivadas para calcular S
r
,
por lo que hemos perdido dos grados de libertad.
As como fue el caso con la desviacin estndar, el error estndar de la estimacin
cuantica la propagacin de los datos. Sin embargo, s
y/x
cuantica la extensin
alrededor de la lnea de regresin en contraste con la desviacin estndar s
y
que
cuantica la propagacin alrededor de la media.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Cuanticacin del error de regresin lineal
Estos conceptos se pueden utilizar para cuanticar la bondad de nuestro ajuste.
Esto es particularmente til para la comparacin de varias regresiones (vase la
gura).
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Cuanticacin del error de regresin lineal
Para ello, volvemos a los datos originales y determinamos la suma total de los
cuadrados alrededor de la media de la variable dependiente (en nuestro caso, ) S
t
que representa la magnitud del error residual asociado con la variable dependiente
antes del ajuste. Despus de realizar el ajuste, podemos calcular S
r
, la suma de
los cuadrados de los residuos alrededor de la lnea de regresin que caracteriza el
error residual que queda despus del ajuste. La diferencia entre las dos cantidades,
S
t
S
r
, cuantica la reduccin de error.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Cuanticacin del error de regresin lineal
Debido a que la magnitud de esta cantidad es dependiente de la escala, la diferencia
se normaliza respecto a S
t
para producir
r
2
=
S
t
S
r
S
t
(13)
donde r
2
se llama coeciente de determinacin y r es el coeciente de correlacin.
Para un ajuste perfecto, S
r
= 0 y r
2
= 1, lo que signica que todos los datos (100 %
se encuentran sobre la lnea. En caso de que S
t
= S
r
y r
2
= 0 signica que el ajuste
no representa ninguna mejora.
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Cuanticacin del error de regresin lineal
Continuacin del Problema 1:
Calcule la desviacin total estndar, el error estndar de la estimacin, y el
coeciente de correlacin para el ajuste.
i x
i
y
i
(y y)
2
(y
i
mx
i
b)
2
1 3 4.5 8.0656 0.046656
2 4 5.5 3.3856 0.040401
3 5 5.7 2.6896 0.033124
4 6 6.6 0.5476 0.018225
5 7 7.0 0.1156 0.002304
6 8 7.7 0.1296 0.004761
7 9 8.5 1.3456 0.081796
8 10 8.7 1.8496 0.09409
9 11 9.5 4.6656 0.01440
10 12 9.7 5.5696 0.069169

75 73.4 S
t
= 28.364 S
r
= 0.404926
M. P. Vassileva, J. G. Maim Anlisis Numrico
Regresin Lineal por Mnimos Cuadrados
Introduccin
Ajuste por mnimos cuadrados de una lnea recta
Problema
Cuanticacin del error de regresin lineal
Cuanticacin del error de regresin lineal
Continuacin del Problema 1:
Calculamos la desvisin estndar s
y
s
y
=

S
t
n 1
=

28.364
10
= 2.8364 (14)
y el error estndar de la estimacin
s
y/x
=

S
r
n 2
=

0.404926
10
= 0.0404926 (15)
Por lo tanto, debido s
y/x
< s
y
, el modelo de regresin lineal tiene mrito. La
medida de la mejora se cuantica por
r
2
=
28.364 0.404926
28.364
= 0.985723945 (16)
o r =

0.985723945 = 0.992836313. Estos resultados indican que 98.57 % de la


incertidumbre original ha sido explicada por el modelo lineal.
M. P. Vassileva, J. G. Maim Anlisis Numrico

Potrebbero piacerti anche