Sei sulla pagina 1di 10

V. Optimización.

Optimización es el proceso de hallar los máximos o mínimos de una función, generalmente


sin ayuda de gráficos.

Funciones objetivo de dos variables.

Para que una función como 𝑧 = 𝑓(𝑥, 𝑦) tenga un mínimo o un máximo relativo, se deben de
satisfacer tres condiciones:

1. Las derivadas de primer orden deben simultáneamente ser iguales a cero. Ello indica que
en un punto dado (𝑥0 , 𝑦0 ) llamado punto crítico, la función no está creciendo ni
decreciendo con respecto a los ejes principales sino a una superficie relativa.

𝑓𝑥 (𝑥0 , 𝑦0 ) = 0 y 𝑓𝑦 (𝑥0 , 𝑦0 ) = 0

2. Las derivadas de segundo orden deben de ser negativas cuando ellas son evaluadas en el
punto crítico (𝑥0 , 𝑦0 ) para un máximo relativo, y positivas para un mínimo relativo. Ello
asegura que la función es cóncava y moviéndose hacia abajo en relación a los ejes
principales en el caso de un máximo relativo y la función es convexa y moviéndose hacia
arriba en relación a los principales en el caso de un mínimo relativo.

3. El producto de las derivadas parciales de segundo orden en el punto crítico deben exceder
el producto de las derivadas cruzadas también evaluadas en dicho punto. Esta condición
es necesaria para evitar un punto de inflexión o punto silla.

Condición
Máximo Mínimo
Necesaria.
Primer orden 𝑓𝑥 = 𝑓𝑦 = 0 𝑓𝑥 = 𝑓𝑦 = 0
Segundo orden 𝑓𝑥𝑥 , 𝑓𝑦𝑦 < 0 y 𝑓𝑥𝑥 𝑓𝑦𝑦 > (𝑓𝑥𝑦 )2 𝑓𝑓𝑥𝑥 , 𝑓𝑦𝑦 > 0 y 𝑓𝑥𝑥 𝑓𝑦𝑦 < (𝑓𝑥𝑦 )2

6
En la situación que 𝑓𝑥𝑥 𝑓𝑦𝑦 < (𝑓𝑥𝑦 )2 , cuando 𝑓𝑥𝑥 y 𝑓𝑦𝑦 tienen el mismo signo, la función está
en un punto de inflexión. Caso contrario, la función estará en un punto silla. Si 𝑓𝑥𝑥 𝑓𝑦𝑦 = (𝑓𝑥𝑦 )2
entonces se requeriría mayor información.

Generalizando para el caso de más de dos variables, 𝑓(𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 ) cuyas primera


derivadas son 𝑓𝑥1 , 𝑓𝑥2 , ⋯ , 𝑓𝑥𝑛 y las derivadas parciales de segundo grado son:

𝜕𝑓
𝑓𝑥𝑗 𝑥𝑖 = , 𝑐𝑜𝑛 𝑖, 𝑗 = 1,2, ⋯ , 𝑛
𝜕𝑥𝑖 𝜕𝑥𝑗

Condición
Necesaria.
Máximo Mínimo
Primer orden 𝑓𝑥1 = 𝑓𝑥2 = ⋯ = 𝑓𝑥𝑛 = 0 𝑓𝑥1 = 𝑓𝑥2 = ⋯ = 𝑓𝑥𝑛 = 0
Segundo orden |𝐻1 | < 0, |𝐻2 | > 0, |𝐻3 | < 0 ⋯ , (−1)𝑛 |𝐻𝑛 | > 0 |𝐻1 |, |𝐻2 |, ⋯ , |𝐻𝑛 | > 0

Donde |𝐻𝑛 | es el determinante de la matriz Hessiana (simétrica).

Hessiana (simétrico)

El determinante de la matriz Hessiana está conformada por las derivadas de segundo grado.
Esta matriz es utilizada para probar máximos y mínimos en funciones con 𝑛 variables. En
general el hessiano será:

𝑓11 𝑓12 𝑓1𝑛



𝑓21 𝑓22 𝑓2𝑛
|𝐻𝑛 | = | |
⋮ ⋮ ⋮
𝑓𝑛1 𝑓𝑛2 ⋯ 𝑓𝑛𝑛

Donde lo menores serán:

𝑓11 𝑓12 𝑓11 𝑓12 𝑓13


|𝐻1 | = 𝑓11 , |𝐻2 | = | | , 3 = | 21 𝑓22 𝑓23 | , ⋯,
|𝐻 | 𝑓
𝑓21 𝑓22 𝑓 𝑓 𝑓
31 32 33

7
V.1. Mínimos cuadrados.

En muchas situaciones prácticas, por lo regular no disponemos de una fórmula matemática


que exprese la relación en cuestión; lo que tenemos son ciertos datos recabados de mediciones
realizadas en el pasado. Algunas veces éstos aparecen en el curso de las operaciones normales
de la empresa y en otras ocasiones surgen como resultado de experimentación deliberada. Por
ejemplo, con el objeto de probar la efectividad de la publicidad, una compañía podría realizar
pruebas comparativas en varias ciudades, cambiando el gasto en publicidad de una ciudad a
otra.

Los datos medidos pueden graficarse como una serie de puntos en una gráfica (gráfica de
dispersión). Para obtener una aproximación a la gráfica completa de la relación, se bosqueja
una curva suave que pase tan cerca como sea posible a estos datos puntuales. Por lo regular,
la curva que dibujamos no pasará por cada uno de estos datos puntuales, porque de hacerlo así
esto afectaría su suavidad. De hecho, a menudo aproximamos la relación dibujando la gráfica
como una línea recta que pase tan cerca como sea posible de los puntos graficados.

Mínimos Cuadrados

Como se menciona, en ocasiones tenemos unos datos (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), ⋯ , (𝑥𝑛 , 𝑦𝑛 ) que al
graficarlos parecen estar sobre una recta. También podemos tener motivos para pensar que
nuestros datos provienen de una relación lineal 𝑦 = 𝑎𝑥 + 𝑏 entre las variables pero que en el
momento de tomar los datos se ven perturbados por fenómenos aleatorios. El planteamiento
en todo caso es que dados los datos(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), ⋯ , (𝑥𝑛 , 𝑦𝑛 ) queremos conseguir la recta
𝑦 = 𝑎̂𝑥 + 𝑏̂ que mejor se ajuste a ellos. No vamos a conseguir la recta y 𝑦 = 𝑎𝑥 + 𝑏 sino
vamos a proponer una estimación de ella: 𝑦 = 𝑎̂𝑥 + 𝑏̂.

Es difícil precisar que quiere decir la que mejor se ajusta, pero un criterio para conseguir una
buena recta es la que minimiza la suma de las distancias verticales al cuadrado. Más
precisamente: la distancia vertical del 𝑖 − é𝑠𝑖𝑚𝑜 dato a la recta está dado por
|𝑦1 − (𝑎𝑥𝑖 + 𝑏)|.

8
Así que para conseguir la mejor recta, debemos calcular a y b que minimizan
𝑛 𝑛
2
𝑆(𝑎, 𝑏) = ∑(𝑦𝑖 − (𝑎𝑥𝑖 + 𝑏)) = ∑(𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏)2
𝑖=1 𝑖=1

Podemos conseguir una fórmula general para la pendiente y para la ordenada en el origen.
Pero preferimos dejar planteado el sistema para conseguir los puntos críticos:

𝛿𝑆(𝑎, 𝑏)
= 𝑆𝑎 (𝑎, 𝑏) = 0
𝛿𝑎
Para las dos derivadas vamos a tener una suma.
𝛿𝑆(𝑎, 𝑏)
(𝑎,
{ 𝛿𝑏 = 𝑆𝑏 𝑏) = 0
𝑛

∑ 2(𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏) (−𝑥𝑖 ) = 0


𝑖=1 Se puede sacar factor común -2 en la primera
ecuación y luego este factor pasa dividiendo. En la
𝑛 segunda ecuación se multiplica ambos miembro por
∑ 2(𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏) (−1) = 0 -1.
{ 𝑖=1
𝑛

∑(−𝑥𝑖 𝑦𝑖 + 𝑎𝑥𝑖 2 + 𝑏𝑥𝑖 ) = 0


𝑖=1
En la primera ecuación se distribuyó 𝑥𝑖 . En la
𝑛
segunda ecuación separamos la sumatoria.
∑(−𝑦𝑖 + 𝑎𝑥𝑖 + 𝑏) = 0
{ 𝑖=1
𝑛 𝑛 𝑛

∑ −𝑥𝑖 𝑦𝑖 + ∑ 𝑎𝑥𝑖 2 + ∑ 𝑏𝑥𝑖 = 0


𝑖=1 𝑖=1 𝑖=1
Se separó la sumatoria y se sacaron los factores
𝑛 𝑛 𝑛 constantes fuera de la sumatoria
∑ −𝑦𝑖 + ∑ 𝑎𝑥𝑖 + ∑ 𝑏 = 0
{ 𝑖=1 𝑖=1 𝑖=1

𝑛 𝑛 𝑛

𝑎 ∑ 𝑥𝑖 2 + 𝑏 ∑ 𝑥𝑖 = ∑ 𝑥𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 Si llamamos 𝑆𝑥𝑦 = ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 ; 𝑆𝑥 = ∑𝑛𝑖=1 𝑥𝑖 ; 𝑆𝑥𝑥 =
𝑛 𝑛 ∑𝑛𝑖=1 𝑥𝑖 2 y 𝑆𝑦 = ∑𝑛𝑖=1 𝑦𝑖 , el último sistema de
𝑎 ∑ 𝑥𝑖 + 𝑛𝑏 = ∑ 𝑦𝑖 ecuaciones queda planteado como:
{ 𝑖=1 𝑖=1

9
𝑎𝑆𝑥𝑥 + 𝑏𝑆𝑥 = 𝑆𝑥𝑦 Llamamos 𝑎̂ y 𝑏̂ las soluciones del sistema anterior,
ellas estiman la pendiente y la ordenada al origen de
{
la recta 𝑦 = 𝑎𝑥 + 𝑏.
𝑎𝑆𝑥 + 𝑛𝑏 = 𝑆𝑦
Esto último es conocido como una regresión de 𝒚
sobre 𝒙.

Linealización

Algunos problemas de regresión no lineal pueden linealizarse mediante una transformación


en la formulación del modelo. El problema de ajustar un modelo potencial, de la forma 𝑌 =
𝐴𝑋 𝑏 y uno exponencial 𝑌 = 𝐴𝐵 𝑥 se reduce al de la función lineal, con solo tomar logaritmos.

Modelo potencial (𝑌 = 𝐴𝑋 𝑏 ).

Si en la expresión de la función potencial se toman logaritmos, se obtiene:

ln 𝑌 = ln 𝐴 + b ln 𝑋

que es la ecuación de una recta 𝑦 = 𝑎 + 𝑏𝑥, donde ahora 𝑎 = ln 𝐴. El problema se reduce a


transformar Y en y = ln 𝑌 y 𝑥 en 𝑥 = ln 𝑋 y ajustar una recta a los valores transformados. El
parámetro 𝑏 del modelo potencial coincide con el coeficiente de regresión de la recta ajustada
a los datos transformados y 𝐴 se obtiene mediante anti logaritmo natural de 𝑎 (𝑒 𝑎 ).

Modelo exponencial (𝑌 = 𝐴𝐵 𝑥 ).

En determinados experimentos, en su mayoría biológicos, la dependencia entre las variables


𝑋 e 𝑌 es de forma exponencial, en cuyo caso interesa ajustar a la nube de puntos una función
del tipo: 𝑦 = 𝑎𝑥 + 𝑏. Mediante una transformación lineal, tomando logaritmos neperianos,

10
se convierte el problema en una cuestión de regresión lineal. Es decir, tomando logaritmos
neperianos:

ln 𝑌 = ln(𝐴𝐵 𝑋 ) = ln 𝐴 + 𝑋 ln 𝐵

Llamando 𝑦 = ln 𝑌, 𝑎 = ln 𝐴 y 𝑏 = ln 𝐵 se tiene una regresión lineal.

Poder explicativo del modelo.

La curva de regresión, tiene carácter de línea media que trata de resumir o sintetizar la
información suministrada por los datos. Si tiene carácter de línea media (de promedio, en
definitiva), deberá ir acompañada siempre de una medida que exprese su representatividad, es
decir, de lo buena que es la curva, ya que el haber obtenido la mejor de todas no da garantías
de que sea buena. Se necesita, por tanto, una medida de dispersión, que tenga en cuenta la
dispersión de cada observación con respecto a la curva, en otras palabras, lo alejado que se
encuentra cada punto de la curva. Por lo que, se deben evaluar esas distancias verticales a la
curva, es decir, los errores o residuales.

Si las dispersiones son pequeñas, la curva será un buen representante de la nube de puntos, o
lo que es lo mismo, la bondad de ajuste del modelo será alta. Si la dispersión es grande, la
bondad de ajuste será baja. Una forma de medir dicha bondad de ajuste es precisamente
evaluando la suma de los cuadrados de los errores. Por tanto, se llamará varianza residual a la
expresión:

V.2. Optimización con restricciones de igualdad.

Sean: 𝑓: ℝ𝑛 → ℝ y 𝑔𝑖 : ℝ𝑛 → ℝ 𝑖 = 1,2, ⋯ , 𝑚 funciones diferenciables. Se plantea un nuevo


problema el de optimizar una función sujeta a un conjunto de restricciones de igualdad:

𝑂𝑝𝑡𝑖𝑚𝑖𝑧𝑎𝑟 𝑓(𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 )
𝑠. 𝑎.
𝑔1 (𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 ) = 𝑏1

𝑔𝑚 (𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 ) = 𝑏𝑚

Algunas precisiones:

 Las restricciones de tipo igualdad no establecen fronteras al conjunto de las soluciones


factibles del programa, sino que reducen las dimensiones del espacio donde el
programa está definido.

 Los óptimos que obtendremos serán débiles en el sentido de que una pequeña variación
en las restricciones hará que dejen de ser óptimos. Por este motivo los llamaremos
óptimos condicionados o restringidos.

11
V.2.1. Métodos de Resolución.

Los métodos re resolución de un problema de optimización con restricciones de igualdad son:

 Resolución Gráfica.

 Eliminación o sustitución de variables.

 Multiplicadores de Lagrange

a) Resolución gráfica, por curvas de nivel.

En problemas de optimización con una restricción de igualdad el método de resolución


gráfica consiste en graficar las curvas de nivel, siempre que sea posible y cómodo dibujar
las curvas de nivel. Si se trata de un de problema es minimización (maximización), el
objetivo es determinar el punto de la restricción por el que pasa la curva de nivel más baja
(más alta).

Ejemplo:
min 𝑧 = 𝑥 2 + 𝑦 2
𝑠. 𝑎.
𝑥+𝑦 =3

b) Eliminación o sustitución de variables.

El método consiste en ir eliminando K variables independientes, buscando que el


problema se convierte en un problema sin restricciones, o que el problema se reduzca a
uno con dimensión de N a N-K. El problema que se obtiene se puede resolver con
cualquier algoritmo de optimización sin restricciones.

12
Ejemplo:
min 𝑧 = 𝑥 2 + 𝑦 2
𝑠. 𝑎. es equivalente a min 𝑧 = 𝑥 2 + (3 − 𝑥)2
𝑥+𝑦=3

La función objetivo es ahora una función de una variable menos, la cual podemos resolver
por alguno de los métodos usuales de optimización en una variable, así

 𝑓(𝑥) = 𝑥 2 + (3 − 𝑥)2
′ 3
 𝑓 ´ (𝑥) = 2𝑥 − 2(3 − 𝑥) = 0, por tanto: 𝑥 = 2 = 𝑦
 𝑓 ′′ (𝑥) = 4 > 0,

3 3
Entonces (2 , 2) es un mínimo restringido o condicionado.

Ejemplo:
min 𝑧 = 𝑥1 𝑥2 𝑥3 min 𝑧 = 𝑥1 𝑥2 (1 − 𝑥1 − 𝑥2 )
𝑠. 𝑎. Eliminando 𝑥3 , 𝑠. 𝑎.
𝑥1 +𝑥2 + 𝑥3 − 1 = 0 𝑥1 2 𝑥3 +𝑥2 𝑥3 2 + 𝑥2 −1 𝑥1 = 0

Pero de este último planteamiento NO es posible eliminar ninguna variable independiente,


por lo que es necesario encontrar un método que permita manipular las restricciones.

c) Multiplicadores de Lagrange.

Método de los multiplicadores de Lagrange: Transforma el problema original a uno


equivalente sin restricciones mediante los multiplicadores de Lagrange.

𝑂𝑝𝑡𝑖𝑚𝑖𝑧𝑎𝑟 𝑓(𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 )
𝑠. 𝑎.
𝑔1 (𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 ) = 𝑏1

𝑔𝑚 (𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 ) = 𝑏𝑚
Se transforma en:
𝑚

𝑂𝑝𝑡𝑖𝑚𝑖𝑧𝑎𝑟 𝐿(𝒙, 𝝀) = 𝑓(𝒙) − ∑ 𝜆𝑖 𝑔𝑖 (𝒙)


𝑖=𝑖

Solución: encontrar el mínimo de 𝐿(𝒙, 𝝀) en función de 𝝀 y ajustar 𝝀 para satisfacer las


restricciones, de donde se obtiene un sistema de (𝑛 + 𝑚) ecuaciones con (𝑛 + 𝑚)
variables cuya solución es el óptimo de la función original.

𝜕𝐿
= 0, 𝑖 = 1, … , 𝑛
𝜕𝑥𝑖

13
𝑔𝑖 (𝒙) = 0, 𝑚 = 1, … , 𝑚

Para saber si es máximo o mínimo se calcula la matriz Hessiana de 𝐿 con respecto a 𝒙:

 Si 𝐻𝐿 (𝒙, 𝝀) es definida positiva, entonces se alcanza un mínimo.


 Si 𝐻𝐿 (𝒙, 𝝀) es definida negativa, entonces se alcanza un máximo.
Extendiendo los multiplicadores de Lagrange a restricciones de desigualdad, tenemos las
condiciones de Kuhn-Tucker

El método de multiplicadores de Lagrange no indica directamente cuál de los puntos


críticos es un Máximo, Mínimo o Punto de Inflexión. En los problemas de aplicación, la
naturaleza de los mismos puede darnos una idea de cómo considerar un punto crítico.
Generalmente, se supone la existencia ya sea de un mínimo relativo o máximo relativo. Sin
embargo, se disponen de condiciones de segundo orden suficientes para los extremos
relativos.

Hessiano Orlado.

Ahora, para determinar si los valores críticos corresponden a un máximo o mínimo, es


necesario utilizar el criterio del Hessiano Orlado. Este tipo de Hessiano se aplica para el caso
de optimización de funciones con restricciones. En general, cuando la función objetivo toma
la forma de 𝑓 = 𝑓(𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 ) sujeta a 𝑔(𝑥1 , 𝑥2 , ⋯ , 𝑥𝑛 ) = 𝑘, el Hessiano Orlado será de la
forma siguiente:

Ejemplo:
min 𝑧 = 𝑥 2 + 𝑦 2
𝑠. 𝑎.
𝑥+𝑦 =3

𝐿(𝑥, 𝑦; 𝜆) = 𝑥 2 + 𝑦 2 − 𝜆(𝑥 + 𝑦 − 3)

14
Condición necesaria:
∇𝐱 𝐿(𝑥, 𝑦; 𝜆) = (2𝑥 − 𝜆, 2𝑦 − 𝜆) = (0,0)

𝜕𝐿
(𝑥, 𝑦; 𝜆) = −𝑥 − 𝑦 + 3 = 0
𝜕𝜆
𝜕𝐿
Observemos que la condición 𝜕𝜆 = 0 equivale a pedir que se satisfaga la restricción.

Resolvemos:
2𝑥 − 𝜆 = 0
{2𝑦 − 𝜆 = 0
𝑥+𝑦 =3
Obtenemos:
3 3
𝑥= , 𝑦= , 𝜆=3
2 2
Condición suficiente:
2 0
𝐻𝒙 𝐿(𝑥, 𝑦; 𝜆) = ( ) , la cual es definida positiva.
0 2

15

Potrebbero piacerti anche