Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1. Método de Newton
Recuérdese que el método de la pendiente máxima (steepest descent), tam-
bién conocido como método de Cauchy, utiliza sólo las primeras derivadas (gra-
dientes) para hacer la selección de la dirección de búsqueda. Esta estrategia no
siempre es la más eficiente en la práctica y si se utilizan derivadas superiores, el
algoritmo iterativo resultante puede funcionar mejor. El método de Newton (a
veces llamado Newton-Raphson) utiliza primeras y segundas derivadas (infor-
mación de primer y segundo orden) y de hecho funciona mejor que el método de
Cauchy si el punto inicial está cerca del vector mı́nimo. La idea detrás de este
método es la siguiente: dado un punto de partida, construimos una aproxima-
ción cuadrática de la función objetivo, haciendo coincidir la primera y segunda
derivada de ambas funciones valuadas en el punto. Luego minimizamos la fun-
ción aproximada (cuadrática) en vez de la función objetivo original, este paso
es simple dado que la función fue propuesta. Utilizamos el vector mı́nimo de
la función aproximada como punto de partida en el siguiente paso y repetimos
el procedimiento iterativamente. Si la función objetivo es cuadrática, entonces
la primera aproximación es exacta, y el método produce el vector mı́nimo ver-
dadero en un paso. Si, por otra parte, la función objetivo es no cuadrática,
entonces la aproximación proporcionará sólo una estimación de la posición del
minimizador verdadero. La figura 1 ilustra la idea anterior.
Dada una función objetivo
f : Rn −→ R
que admita hasta dos derivadas continuas, podemos obtener una aproximación
cuadrática usando la expansión de la serie de Taylor de f sobre el punto actual
xk , despreciando los términos de orden mayores que dos. Con esto obtenemos
1
f (x) ≈ f (xk ) + (x − xk )T g k + (x − xk )T F (xk )(x − xk )
2
donde por simplicidad, usaremos la notación
g k := ∇f (xk ) y F := ∇2 f (xk ).
Ası́ que definiremos la función cuadratica q(x) justamente como esta aproxima-
ción:
1
Opt. no lineal, notas de curso Método de Newton
1
q(x) = f (xk ) + (x − xk )T g k + (x − xk )T F (xk )(x − xk ).
2
Al derivar q obtenemos:
∇q(x) = g k + F (xk )(x − xk )
y aplicamos la condición de optimalidad de primer orden a q donde
∇q(x) = g k + F (xk )(x − xk ) = 0,
entonces
g k + F (xk )(x − xk ) = 0
implica
F (xk )−1 g k + (x − xk ) = 0
Si F (xk ) > 0, entonces q alcanza un mı́nimo en x∗ que corresponde a
F (xk )−1 g k + (x∗ − xk ) = 0.
Despejando a x∗ , tenemos que la siguiente iteración den método de Newton
deberı́a ser:
xk+1 = xk − F (xk )−1 g k
y es justo esta fórmula recursiva la representa a grandes rasgos el método de
Newton.
Ejemplo 1. Usando el método de Newton para minimizar la función de Po-
well’s:
f (x1 , x2 , x3 , x4 ) = (x1 + 10x2 )2 + 5(x3 − x4 )2 + (x2 − 2x3 )4 + 10(x1 − x4 )4
Usando el punto de partida x0 = [3, −1, 0, 1]T . Mostraremos solo tres iteracio-
nes.
Note que f (x0 ) = 215. Primero calculamos las expresiones generales para el
gradiente
2(x1 + 10x2 ) + 40(x1 − x4 )3
20(x1 + 10x2 ) + 40(x2 − 2x3 )3
∇f (x) = 10(x3 − x4 ) − 8(x2 − 2x3 )3
−10(x3 − x4 ) − 40(x1 − x4 )3
y la matriz Hessiana F(x) dada por
2 + 120(x1 − x4 )2 −120(x1 − x4 )2
20 0
2
20 200 + 12(x 2 − 2x3 ) −24(x2 − 2x3 )2 0
2
0 −24(x2 − 2x3 ) 10 + 48(x2 − 2x3 )2 −10
−120(x1 − x4 )2 0 −10 10 + 120(x1 − x4 ) 2
Por lo tanto
Por lo tanto,
Iteración 3
g 2 = [28.09, −0.3475, 0.7031, −28.08]T
96.80 20 0 −94.80
20 202.4 −4.744 0
F (x2 ) =
0 −4.744 19.49 −10
−94.30 0 −10 −104.80
x3 = [.7037, −0.0704, 0.1121, 0.1111]T
g(x) = 0
f (xk+1 ) ≥ f (xk ).
Esto podrı́a ocurrir, por ejemplo, si nuestro punto de partida x0 está muy lejos
de x∗ . Más adelante hablaremos de una posible solución a este problema.
A pesar de estas posibles desventajas, el método de Newton presenta pro-
piedades de convergencia superiores a cualquier otro método cuando el punto
de partida está cerca de la solución. Esto lo analizaremos a continuación.
El análisis de convergencia del método de Newton cuando f es una función
cuadrática es muy sencillo. De hecho, en estos casos, el método de Newton
g(x) = ∇f (x) = Qx − b
∇2 f (x) = Q.
x∗ = Q−1 b.
Por otra parte, dado cualquier punto inicial x0 , por el algoritmo de Newton
x1 = x0 − F (x0 )−1 g 0
= x0 − Q−1 [Qx0 − b]
= Q−1 b
= x∗
Demostración. Sea
φ(α) = f (xk + αdk )
entonces, usando regla de la cadena, tenemos
ya que
φ0 (0) = ∇f (xk )T dk = −(g k )T F (xk )−1 g k < 0
por que F (xk )−1 > 0 y g k 6= 0. Ası́, existen un ᾱ > 0 tal que para toda α ∈ (0, ᾱ)
donde
αk = argmin f (xk − αF (xk )−1 g k )
α≥0
siempre que g k 6= 0.
Un inconveniente del método de Newton es que la evaluación de F (xk ) para
n grandes puede ser computacionalmente caro. Además, tenemos que resolver
el conjunto de n lineal de las ecuaciones F (xk )dk = −g k .
Otra fuente de problemas potenciales en el método de Newton surge cuando
la matriz Hessiana no es definida positiva. A continuación, describimos una
modificación al método de Newton para superar este problema.
2. Modificación LEVENBERG-MARQUARDT
Si la matriz Hessiana no es definida positiva F (xk ), entonces la dirección
de busqueda dk = −F (xk )−1 g k puede no apuntar en una dirección de descenso.
Una técnica sencilla para asegurar que la dirección de búsqueda es una dirección
de descenso es introducir a veces llamada modificación de Levenberg-Marquardt
al algoritmo de Newton:
donde µk ≥ 0.
La idea subyacente a la modificación de Levenberg-Marquardt es la siguien-
te. Consideremos una matriz simétrica F , que puede no ser definida positiva.
Sean λ1 , . . . , λn los eigenvalores de F con respecto a los eigenvectores v1 , . . . , vn .
Los eigenvalores λ1 , . . . , λn son reales, pero quizá no todos positivos. Ahora con-
sideramos la matriz
G = F + µI, donde µ ≥ 0.
Note que los eigenvalores de G son λ1 + µ, . . . , λn + µ.
En efecto
Gvi = (F + µI)vi
= F vi + µIvi
= λi vi + µvi
= (λi + µ)vi
lo cual muestra que para todos i = 1, . . . , n, vi es un eigenvector de G con
eigenvalor λi + µ, si µ es suficientemente grande, entonces todos los eigenvalores
siempre apunta en una dirección de descenso (en el sentido del teorema 2).
En este caso, si introducimos adicionalmente un paso de tamaño αk como se
describió en la sección anterior,