Sei sulla pagina 1di 32

Programacin Dinmica

Manuel Maurette e Ignacio Ojea Junio de 2006

Agradecimientos:

Nuestro reconocimiento a la Dra. Susana Puddu, por su compromiso con la labor docente y con los alumnos y, especialmente, al Dr. Fabio Vicentini por su tesn en la difusin de la matemtica aplicada y la generosidad con que brinda sus conocimientos a los estudiantes.

ndice
1. Introduccin 1

1.1. Resumen del Trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Historia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


2. Programacin Dinmica Discreta

1 2
3

2.1. El Problema del Camino de Mnimo Costo . . . . . . . . . . . . . . . 2.1.1. Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2. El problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.3. El planteo con Programacin Dinmica . . . . . . . . . . . . . 2.1.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. El mtodo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1. Principio de optimalidad . . . . . . . . . . . . . . . . . . . . . 2.2.2. Ecuacin Funcional . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1. Asignacin de un Recurso . . . . . . . . . . . . . . . . . . . . 2.3.2. Multiplicacin de Matrices . . . . . . . . . . . . . . . . . . . . 2.3.3. El Problema de la Carga . . . . . . . . . . . . . . . . . . . . . 2.4. El Problema de la Dimensin. . . . . . . . . . . . . . . . . . . . . . . 2.5. Multiplicadores de Lagrange . . . . . . . . . . . . . . . . . . . . . . . 2.5.1. Los Multiplicadores de Lagrange en Programacin Dinmica .
3. Aplicacin al Clculo de Variaciones

3 3 3 4 6 7 8 9 9 10 12 13 15 16 17
19

3.1. El Planteo Formal con Programacin Dinmica . . . . . . . . . . . . 3.2. Resolucin Numrica de Problemas Variacionales . . . . . . . . . . .
4. Programacin Dinmica Estocstica

20 21
23

4.1. Procesos de Decisin Markoviana . . . . . . . . . . . . . . . . . . . . 4.2. Ejemplos de Retorno Incierto . . . . . . . . . . . . . . . . . . . . . . 4.2.1. Distribucin de un Producto . . . . . . . . . . . . . . . . . . . 4.2.2. Valuacin de una Opcin . . . . . . . . . . . . . . . . . . . . .

23 24 24 26

ii

1.

Introduccin

1.1.

Resumen del Trabajo

La Programacin Dinmica es un mtodo de optimizacin de extraordinaria versatilidad. Si bien fue desarrollada especialmente para la resolucin de problemas en Procesos de Decisin en Mltiples Pasos, diferentes investigaciones han mostrado que las mismas ideas pueden utilizarse en otro tipo de problemas de matemtica aplicada, e incluso pueden ser tiles en el planteo de algunas cuestiones tericas. Habiendo surgido en los inicios de la poca de las computadoras, la Programacin Dinmica fue, adems, concebida con un ojo puesto en esta potente herramienta. La Ecuacin Funcional que se obtiene, para cada problema, a travs del uso del Principio de Optimalidad de Bellman permite, con mayor o menor esfuerzo dependiendo del caso, establecer una recurrencia que es, en s misma, un algoritmo que resuelve el problema en cuestin. El objetivo de esta monografa es brindar un panorama relativamente amplio de las aplicaciones de la Programacin Dinmica, de manera que resulte accesible para cualquier estudiante de Licenciatura, incluso para aquellos que no estn familiarizados con las reas especcas de dichas aplicaciones. Persiguiendo este n, procuramos, en la medida en que el espacio lo permiti, exponer todos los pasos de cada razonamiento y los elementos tericos bsicos para su comprensin. Atendiendo a la utilidad principal de la Programacin Dinmica, esto es: la resolucin de problemas aplicados con el auxilio de las computadoras; nuestro trabajo se centra en la exposicin y resolucin de algunos ejemplos clsicos, a travs de los cuales intentamos mostrar las ideas que pone en juego la tcnica de la Programacin Dinmica, su versatilidad y, tambin, sus limitaciones. Teniendo en cuenta que temas como, por ejemplo, el Clculo de Variaciones o los Procesos Estocsticos, difcilmente sean abordados en las materias regulares de una carrera de Licenciatura, preferimos dar prioridad a los problemas discretos y determinsticos, que requieren menos conocimientos tericos previos para su comprensin, y dejar las aplicaciones de la Programacin Dinmica en estas reas para el nal. Dadas las limitaciones de extensin, debimos, a nuestro pesar, reducir los ltimos temas abordados a su mnima expresin.

1.2.

Historia

Durante la Segunda Guerra Mundial la investigacin matemtica se extendi hacia zonas que hasta entonces le haban sido ajenas. Si bien la participacin de la ciencia, y de la matemtica en particular, en los enfrentamientos blicos, puede remontarse a la organizacin, por parte de Arqumedes, de las defensas de Siracusa, lo cierto es que, hasta la Segunda Guerra, no haban existido polticas consecuentes de aplicacin especca de la matemtica a problemas de importancia en esta materia. En realidad, este fenmeno comenz en los aos previos al estallido de la guerra. Alemania, Inglaterra, Estados Unidos y la U.R.S.S. formaron equipos de investigacin, cuyos trabajos fueron la base de muchos de los inventos que aparecieron en funcionamiento durante la guerra (el radar, por ejemplo) y que abrieron las nuevas ramas de la matemtica que se desarrollaran enormemente despus de 1945. La primera gran disciplina que surgi a partir del abordaje matemtico de los problemas especcos de la guerra fue, seguramente, la Investigacin Operativa1 . El trmino Operations Research fue utilizado por primera vez en Inglaterra, en 1941. Las investigaciones realizadas en los centros de Investigacin Operativa de la Royal Air Force y otros organismos militares britnicos permitieron, entre otras cosas, incrementar la ecacia de la los patrullajes areos en busca de submarinos alemanes, y consecuentemente, la cantidad de submarinos daados o hundidos. Rpidamente se hizo evidente que las mismas tcnicas utilizadas en el mbito militar podan servir en otras reas de aplicacin. En los aos posteriores a la Guerra se abrieron nuevos temas de investigacin y se plantearon nuevos problemas, que fueron abordados desde una perspectiva matemtica. Entre estos nuevos temas se encontraba la teora de los Procesos de Decision en Mltiples Pasos, que Richard Bellman (1920 - 1984) abord alrededor de 1952, y para los cuales fue pensada originalmente la Programacin Dinmica. Despus de desarrollar el mtodo en el rea especca de los problemas de decisin discretos, Bellman y sus colaboradores se dedicaron a la ardua tarea de formular diferentes problemas en los trminos de la Programacin Dinmica. Como resultado de esta labor, encontraron que las ideas centrales del mtodo, en particular, el Principio de Optimalidad, podan ser aplicadas satisfactoriamente en muchos de los problemas abordados. Descubrieron tambin las limitaciones de esta tcnica y hallaron modos de sobreponerse a ellas, para algunos problemas puntuales. La Programacin Dinmica es, hoy en da, un recurso imprescindible de Matemtica Aplicada y, tambin, una importante herramienta terica.
1 En

rigor, una traduccin ms exacta sera Investigacin

en Operaciones.

2.

Programacin Dinmica Discreta

2.1.
2.1.1.

El Problema del Camino de Mnimo Costo


Grafos

Llamamos grafo a un par de conjuntos V y E , de los cuales el primero contiene los vrtices o nodos, mientras que el segundo es el conjunto de las ramas o arcos y est formado por pares de elementos de V que consideramos conectados entre s. La notacin usual para un grafo es G = (V, E). Nos interesa particularmente considerar el caso en que los elementos (u, v) E son pares ordenados. Cuando esto sucede, el grafo se dice dirigido y las ramas se notan: u v . A modo de ejemplo, La Fig. 1 representa un grafo en donde V = {1, 2, 3, 4} y E = {(1, 2); (4, 2); (3, 1)}. Figura 1: Ejemplo de Grafo

En un grafo dirigido un camino del vrtice u al vrtice v es una sucesin de ramas u u1 , u1 u2 , ..., uk1 v que conectan u con v . Por ltimo, un grafo se dice acclico si no forma ciclos, es decir, si no existe ningn camino que comience y termine en el mismo vrtice.
2.1.2. El problema

Sea G = (V, E) un grafo dirigido y acclico, donde cada arco u v tiene asociado un costo cuv R, y donde el costo de un camino se computa sumando los costos de las ramas que lo componen. El hecho de que sea acclico implica que todo camino naliza en un vrtice del que no sale ninguna echa, al que llamamos terminal. Dado un vrtice cualquiera, u V , el problema consiste en hallar un camino de costo mnimo que parta de u y nalice en un vrtice terminal. Un camino con estas caractersticas se llama camino ptimo que parte de u. Esta formulacin matemtica sirve de modelo para diversos problemas. El ejemplo ms sencillo es el de una red de carreteras que conectan una localidad de origen con otra de destino, pasando por varias localidades intermedias. En este caso, el costo de 3

un tramo de ruta podra ser su longitud. Es a partir de este ejemplo que el problema suele presentarse con el nombre de problema del camino ms corto. Debe tenerse en cuenta que tanto V como E pueden tener una enorme cantidad de elementos, por lo que la bsqueda de un camino de costo mnimo representa un autntico problema. Por otra parte y como veremos luego en un ejemplo, una poltica codiciosa a corto plazo, que tome en cada nodo la rama que resulte menos costosa, no conduce, generalmente, a la construccin de un camino de costo mnimo. Antes de encarar la resolucin del problema, observemos que, puesto que existen nitos caminos, debe existir al menos uno de costo mnimo. Es decir: nuestro problema tiene solucin.
2.1.3. El planteo con Programacin Dinmica

Sea V0 el conjunto de todos los vrtices terminales de G. Consideremos ahora el grafo G V0 que resulta de eliminar de G los vrtices de V0 y las ramas que inciden en ellos. Sea ahora V1 el conjunto de los vrtices terminales de G V0 . Anlogamente, denimos:
i1

Vi := conjunto de los vrtices terminales de G (


j=0

Vj )

Puesto que la cantidad de vrtices es nita, existe un n para el cual V = n Vi , y i=0 como Vi Vj = si i = j , concluimos que {Vj }n es una particin de V . Por otra j=1 parte:
i1

u Vi

uv

v
j=0

Vj

Ahora bien, si
u v v2 ... vk1 vk vk terminal

es un camino ptimo partiendo del vrtice u, entonces, necesariamente,


v v2 ... vk1 vk

es un camino ptimo partiendo del vrtice v . Es decir: las colas de un camino ptimo son, a su vez, ptimas. Esta brillante, y aparentemente sencilla, observacin recibe el nombre de Principio de Optimalidad y es la clave de la Programacin Dinmica. Veamos cmo, a partir de ella, se llega a la solucin del problema. 4

Sea f : V R la funcin que asigna a cada vrtice u V el costo de un camino ptimo que parte de dicho vrtice. El Principio de Optimalidad puede expresarse en trminos de esta funcin, que es una incgnita de nuestro problema. En efecto, si, como antes, v es el nodo que sigue a u en un camino ptimo:
f (u) = cuv + f (v)

Adems, para cualquier otro w tal que u w tendremos:


f (u) cuw + f (w)

Lo cual nos conduce a establecer la siguiente ecuacin funcional :


f (u) = m cuw + f (w) n
w:uw

Consideramos ahora la poltica ptima, esto es, la funcin p : V \ V0 V \ Vn que asigna a cada vrtice u el nodo v que le contina en un camino ptimo; es decir, p(u) es el argumento que realiza el mnimo en la ecuacin funcional. Est funcin podra no estar bien denida, si para algn u existiera ms de un camino ptimo. Sin embargo, si esto ocurriera, podramos elegir arbitrariamente alguno de los vrtices posibles, resolviendo el inconveniente. Cabe aclarar que para algunos problemas puede determinarse un criterio especco para esta eleccin. As planteado el problema, nuestro objetivo es hallar, para todo u V los valores f (u) y p(u). La funcin f nos da el costo del camino mnimo, mientras que p nos permite construirlo, de la siguiente manera:
u p(u) = u1 p(u1 ) = u2 ... p(uk1 ) = uk V0

adelante ; en primer lugar tenemos:

La ecuacin funcional nos permite encontrar f y p recursivamente y de atrs para


f (u) = 0 u V0

Luego, si u V1 y u w entonces w V0 . Por lo tanto:


f (u) = m c(u, w) + f (w) = m c(u, w) n n
w:uw w:uw

u V1 u V1

p(u) = arg m c(u, w) + f (w) = arg m c(u, w) n n


w:uw w:uw

Y as, habiendo calculado f (u) u


w:uw

i1 j=0

Vj se tiene que: u Vi

f (u) = m c(u, w) + f (w) n

y(u) = arg m c(u, w) + f (w) n


w:uw

El planteo recursivo no slo permite hallar una solucin del problema sino que constituye la base para el diseo de un algoritmo de implementacin bastante sencilla. Veamos como funciona el mtodo en un ejemplo:
2.1.4. Ejemplo

Consideremos el grafo de la Fig. 2. El problema es hallar el camino ptimo desde el vrtice inicial 1 hasta el terminal 7, donde los valores en las echas indican el costo c(u, v) de ir de un vrtice u a otro v . Sean f y p las funciones denidas anteriormente. Figura 2: Hallar el camino de mnimo costo.

En primer lugar, podemos denir los Vi fcilmente:


V0 = {7}, V1 = {5, 6}, V2 = {4}, V3 = {2, 3}, V4 = {1}

Entonces, procedamos a calcular las funciones recursivamente, comenzando por el vrtice terminal:
f (7) = 0 f (6) = c(6, 7) = 2 f (5) = c(5, 7) = 3 p(6) = 7 p(5) = 7 p(4) = 5 p(3) = 4 p(2) = 4 p(1) = 3

f (4) = m n{c(4, 5)+f (5), c(4, 6)+f (6), c(4, 7)+f (7)} = m n{1+3, 4+2, 6} = 4 f (3) = m n{c(3, 4) + f (4), c(3, 6) + f (6)} = m n{1 + 4, 5 + 2} = 5 f (2) = m n{c(2, 4) + f (4), c(2, 5) + f (5)} = m n{3 + 4, 5 + 3} = 7 f (1) = m n{c(1, 2) + f (2), c(1, 3) + f (3)} = m n{1 + 7, 2 + 5} = 7

Notar que f (1) = 7 nos proporciona el costo del camino ptimo. El camino, propiamente dicho se obtiene con la funcin p :
1 p(1) = 3 p(3) = 4 p(4) = 5 p(5) = 7

Comparemos este algoritmo a otro, por ejemplo, un algoritmo codicioso, es decir uno que comenzando desde el primer vrtice, elija el prximo siguiendo la rama de costo menor inmediato. En ese caso obtenemos:
12457

Cuyo costo es 8, o sea mayor al mnimo. Otra manera de resolver este problema sera usando fuerza bruta, es decir, numerar todos los posibles caminos que parten del 1 y elegir el menor. Veamos que esto requiere excesivos clculos. Para esto, deberamos enumerar todos los caminos, 1 2 5 7 , 1 3 4 6 7, etc. En total son 8, 4 de 3 ramas y 4 de 4. A cada uno de estos habra que calcular su costo, es decir, la suma de las ramas que lo componen. Para los caminos que tiene 3 ramas harn falta 3 sumas y 4 para los de 4. En total hacen 28 sumas. Luego de tener todos, hay que comparar los 8 nmeros y quedarse con el menor, usando el algoritmo merge sort se necesitaran, en el peor de los casos, 24 comparaciones (Con el bubble sort, que es el algoritmo bsico para la comparacin se necesitaran 28 comparaciones). Lo que hace un total de 52 operaciones bsicas. Con el algoritmo de programacin dinmica hicimos 9 sumas y 6 comparaciones. Es decir 15 operaciones bsicas, ms de un 70 % menos. A medida que crece la complejidad del problema ms se ve el poder de la programacin dinmica.
2.2. El mtodo general

El problema de hallar el camino de costo mnimo en un grafo dirigido es un caso particular de lo que se llama Problema de Decisin en Mltiples Pasos (Multistage Decision Process Problem ). La formulacin general de este problema es la siguiente: Un proceso es examinado peridicamente, a tiempos t = 0, 1, .... Como resultado de dicho examen se obtiene el valor de una variable (o, eventualmente, un vector de variables) x que sirve para juzgar la situacin del proceso. Al par u = (t, x(t)) lo llamamos un estado. Luego de cada observacin de x debe ejecutarse una accin correctiva, tomada de un conjunto de posibles decisiones D(u). La eleccin de una decisin particular d(u) genera una transformacin T que da como resultado un nuevo estado: v = (t + 1, x) = T (u, d), y que tiene asociado un costo c(u, d). Una funcin que indique para cada estado u una decisin especca a tomar recibe el nombre de poltica. Se quiere hallar una poltica de manera que la suma de los costos de las transformaciones engendradas por las sucesivas decisiones resulte mnima. A una poltica de estas caractersticas se la llama poltica ptima.

estados. A su vez, para cada u V , el conjunto D(u) de las posibles decisiones est formado por los vrtices v tales que (u, v) E , mientras que las transformaciones

En el problema del camino de mnimo costo, los nodos del grafo juegan el papel de

engendradas por una decisin son justamente las ramas (u, v) E , y el costo de la transformacin es el costo de la rama. Una poltica es, en este caso, una regla que nos dice a qu nodo pasar si nos encontramos en un vrtice dado cualquiera, siendo la poltica ptima aquella que nos da, para cada u V un camino de costo mnimo 7

que nalice en un vrtice terminal. Si nos centramos en el caso en que el proceso naliza en un tiempo N , la analoga entre el planteo general y el caso particular del problema del camino de mnimo costo en un grafo dirigido resulta inmediata, y nos permite pensar que las sucesivas transformaciones forman un camino, pasando de un estado a otro, en un tiempo posterior. Figura 3: Problema de Control

Siguiendo esta idea, tenemos que, si llamamos d a la poltica utilizada, comenzando en un estado u0 se forma un camino - como lo muestra la Figura 3- dado por:
u1 = T (u0 , d(u0 )) u2 = T (u1 , d(u1)) ... uk+1 = T (uk , d(uk ) ... uN = T (uN 1 , d(uN 1 )) uk = (k, x(k))

Continuando con la analoga, llamamos fd a la funcin que asigna a cada estado u = (t, x) el costo del camino hasta un estado terminal inducido por la poltica d. La observacin crucial sobre la que llamamos la atencin en el ejemplo es la siguiente:
2.2.1. Principio de optimalidad

Una poltica ptima tiene la propiedad de que cualquiera sean el estado y la decisin iniciales, las decisiones siguientes constituyen una poltica ptima con respecto al estado resultante de la primera decisin. Si llamamos f a la funcin de costo correspondiente a la poltica ptima, el principio de optimalidad puede expresarse de la siguiente manera:
f (ut ) = c(ut , d(ut )) + f (T (ut , d(ut )))

2.2.2.

Ecuacin Funcional

Al igual que en el ejemplo, el Principio de Optimalidad permite establecer la siguiente Ecuacin Funcional :
f (u) = m c(u, d(u)) + fd (T (u, d(u))) n
dD(u)

A partir de esta ecuacin, puede resolverse el problema de manera recursiva, de un modo anlogo al utilizado para el problema de camino de costo mnimo.
2.3. Ejemplos

Seguramente la mayor dicultad que se presenta al encarar la resolucin de un problema de Optimizacin es la de encontrar una formulacin matemtica apropiada. En el caso de la Programacin Dinmica, que se basa en el uso del Principio de Optimalidad para el planteo de la Ecuacin Funcional, el elemento principal de una buena formulacin es la nocin de estado, ntimamente ligada a la idea de secuencia, puesto que, en casa paso del proceso se pasa de un estado a otro posterior, desde el cual no es posible regresar. Esta concepcin temporal no siempre est implcita en el planteo verbal del problema. Encontrar la manera apropiada de expresarla puede representar un importante esfuerzo. Como se ver ms adelante, para decidir qu es lo que debe considerarse estado es necesario determinar cul es la informacin esencial con que se debe contar a cada paso para estar en condiciones de tomar una decisin. Esto hara pensar qu deben hallarse primero los sucesivos pasos y luego los estados. Sin embargo, el estrecho vnculo que une ambas nociones -la de estado y la de secuencia- obliga a pensar en ambas cosas a la vez, no siendo, generalmente, posible determinar la secuencia independientemente del estado, ni viceversa. Por otra parte, una vez establecidos ambos y explicitada la funcin ptima f que calcula el mnimo (o mximo) buscado, deben asignrsele a esta funcin los valores correspondientes a los estados terminales. En el caso del camino de mnimo costo esto resultaba muy sencillo, pues si u era un nodo terminal, se tena trivialmente que f (u) = 0. En la mayor parte de los problemas esto no es as y la determinacin de los valores de borde o extremos, representa tambin un importante escollo en el camino hacia la solucin. Para mostrar la naturaleza de estas dicultades y el modo en que pueden resolverse, exponemos a continuacin algunos ejemplos clsicos, enuncindolos primero verbalmente y mostrando luego cmo pueden ser planteados matemticamente.

2.3.1.

Asignacin de un Recurso

Supongamos que contamos con una cierta cantidad (limitada) de un determinado recurso, sea este dinero, mquinas, agua, combustible o materia prima de cualquier tipo. Este recurso puede ser utilizado para diferentes actividades, cada una de las cuales produce un determinado retorno, que depende tanto de la actividad como de la cantidad del recurso invertida en ella. Para jar ideas, supongamos que el recurso en cuestin es dinero. Supondremos, adems, que: (a) Los retornos de las diferentes actividades pueden ser medidos en una unidad comn, que podemos pensar que es la unidad pesos, lo que nos permite cambiar la palabra retorno por ganancia ; (b) La ganancia de una actividad es independiente de la cantidad del recurso que se haya invertido en las otras; (c) La ganancia total se calcula sumando las ganancias proporcionadas por todas la actividades. El problema consiste en hallar los montos que deben invertirse en cada actividad de manera que la ganancia total sea mxima.
El planteo matemtico

Sea P la cantidad de dinero con la que contamos. Numeremos 1, 2, ..., N a las diferentes actividades, cada una de las cuales tiene asignada una funcin de ganancia : g1 , g2 , ..., gN . Si xi es la cantidad de pesos que se asigna a la actividad i, gi (xi ) ser la ganancia proporcionada por esta actividad. Razonablemente, podemos suponer que las funciones gi son crecientes. Nuestro problema consiste, entonces, en minimizar la funcin de ganancia total:
G(x1 , x2 , ..., xN ) = g1 (x1 ) + g2 (x2 ) + ... + gN (xN )

Sujetos a las condiciones:


x1 + x2 + ... + xN = P xi 0 i = 1, 2, ..., N

La formulacin con Programacin Dinmica

En este caso, si bien el tiempo no gura entre los ingredientes del problema, resulta ms o menos sencillo encararlo de manera secuencial, pensando que primero se asigna una cierta cantidad x1 a la actividad 1, luego una cantidad x2 a la actividad 2, y as sucesivamente. Ahora bien, al comenzar la asignacin, es decir, en el momento de decidir el valor x1 , estamos limitados por las restricciones 0 x1 P . Una vez jado x1 el monto total con el que contamos habr disminuido a P x1 , por lo que las restricciones para la determinacin de x2 sern 0 x2 P x1 . Siguiendo este razonamiento, 10

cuando se hayan determinado los valores x1 , x2 , ..., xk , las restricciones de la asignacin correspondiente a la actividad k + 1 sern: 0 xk+1 P (x1 + x2 + ... + xk ). El Principio de Optimalidad nos dice que el valor xk+1 de una asignacin ptima para las N actividades con un monto inicial P corresponde, a su vez, a una asignacin ptima de las actividades k + 1, ..., N con un monto inicial z = P (x1 + ... + xk ). La informacin esencial con la que debemos contar a cada paso es, entonces, el nmero de la actividad sobre la cual estamos decidiendo y la cantidad de pesos que restan distribuir. Por lo tanto, un estado deber ser un par (k, z), con k el nmero de la actividad que debemos asignar y z el dinero disponible. Llamando f a la funcin ptima, la Ecuacin Funcional del problema es:
f (k, z) = mx gk (xk ) + f (k + 1, z xk ) a
0xk z

Observemos que los montos de dinero siempre pueden considerarse enteros, pues en el caso de que sea posible asignar una fraccin de peso a alguna actividad, puede cambiarse la unidad de medida de pesos a centavos. Esto hace que el nmero de estados posibles sea nito, pues: k = 1, 2, ..., N y z = 0, 1, 2, ..., P , siendo N y P nmeros enteros dados. Lo nico que resta, entonces, para establecer la recurrencia que resuelva el problema es determinar los valores de f para los estados terminales. Hecho esto, la Ecuacin Funcional nos permitir hallar f en todos los otros estados. En este caso, los estados terminales son los de la forma (N, z) con z = 1, 2, ..., P , es decir, aquellos que corresponden a la situacin que slo quedan z pesos para asignar a la actividad N . Puesto que las funciones gi son crecientes, resulta natural que la totalidad del dinero sea asignado a esta ltima actividad. Esto es:
f (N, z) = gN (z)

A partir de aqu, para k = N 1, N 2, ..., 1 y para z = 1, 2, ..., P utilizamos la Ecuacin Funcional y calculamos:
f (k, z) = m gk (xk ) + f (k + 1, z xk ) n
0xk z

p(k, z) = arg m gk (xk ) + f (k + 1, z xk ) n


0xk z

Donde p es la poltica ptima, que nos da las asignaciones que maximizan la ganancia:
x1 = p(1, P ) x2 = p(2, P x1 )

11

... xN = p(N, P (x1 + ... + xN 1 ))


Complejidad

Contemos el nmero de operaciones que hacen falta para completar la recursin. En primer lugar el clculo de f para los estados terminales requiere de P + 1 operaciones pues la nica variable es z que toma valores enteros entre 0 y P . Luego, para cada (k, z) jo se realizan z comparaciones, y este clculo debe hacerse para 0 z P , lo que da un total de P (P21) operaciones. Finalmente, k se mueve entre 1 y N 1, por lo que, la complejidad general del proceso ser de O(N P 2 ). Esto es lo que se llama un algoritmo pseudo-polinomial : el nmero de operaciones es un polinomio en la cantidad de variables (N ) y el valor de un de sus parmetros (P ).
2.3.2. Multiplicacin de Matrices

Se tienen N matrices A1 , A2 , ..., AN y N + 1 nmeros naturales r0 , ..., rN tales que Ai Rri1 ri . Se desea calcular el producto:
A1 A2 ... AN

Observamos que el nmero de operaciones necesarias para calcular (A1 A2 )A3 no es el mismo que el nmero de operacin que demanda A1 (A2 A3 ). El problema consiste, entonces, en decidir cmo deberan ubicarse los parntesis para el obtener el producto total en un mnimo nmero de operaciones.
El planteo con Programacin Dinmica

Lo que buscamos es, en primer lugar, un k tal que la asociacin


(A1 A2 ...Ak )(Ak+1 Ak+2 ...An )

resulte ptima. Y luego de esto, queremos encontrar un k y un k que optimicen


(A1 A2 ...Ak )(Ak +1 Ak +2 ...Ak )(Ak+1 Ak+2 ...Ak )(Ak
+1 Ak +2 ...An )

y as sucesivamente. Segn este planteo, a cada paso de nuestro problema nos concentramos en un subconjunto {Aj }k {Aj }n , teniendo como datos las dimensiones dadas por los j=i j=1 nmeros r0 , ..., rn N. Entonces, la informacin esencial que necesitamos para encarar cada uno de los subproblemas est dada por el nmero de la primera y de la ltima 12

matriz del subconjunto. Luego, un estado ser un par (i, k) y corresponder a la situacin en que debamos asociar el producto Ai Ai+1 ...Ak . En este caso, lo poltica ptima ser una funcin j = j(i, k), i j k , que al par (i, k) le asigna la ubicacin ptima del parntesis: (Ai Ai+1 ...Aj )(Aj+1 ...Ak ). As, si denimos:
f (i, k) = mnimo nmero de operaciones para obtener Ai Ai+1 Ak (1 i k n)

Por el Principio de Optimalidad tenemos que:


f (i, k) = f (i, j) + f (j + 1, k) + ri1 rj rk

En donde ri1 rj rk es el nmero de operaciones del producto (Ai Ai+1 ...Aj )(Aj+1 Aj+2 ...Ak ). De aqu obtenemos la Ecuacin Funcional:
f (i, k) = m f (i, j) + f (j + 1, k) + ri1 rj rk n
ijk

(1 i j j n)

Naturalmente, la funcin j(i, k) que asigna a cada par (i, k) el argumento j que minimiza la ecuacin, nos brinda la solucin del problema:
j11 = j(1, n) j21 = j(1, j11 ) j31 = j(1, j21) j32 = j(j21 , j11 ) j22 = j(j11 , n) j33 = j(j11 , j22 ) j34 = j(j22 , n)

Y as siguiendo. Dejamos el clculo de la complejidad en manos del lector.


2.3.3. El Problema de la Carga

Una fbrica que produce N artculos debe cargar un contenedor con algunos de sus productos, pudiendo poner en l diferentes cantidades de cada uno. Cada unidad del producto i tiene un peso pi Z y un valor vi Z. El peso total de la carga no puede superar el lmite P Z. El problema consiste en hallar las cantidades que deben cargarse de cada producto de manera que el valor total de la carga sea mximo, y su peso no supere el lmite. Para la resolucin supondremos que la cantidad disponible de cada artculo es ilimitada.
Planteo con Programacin Dinmica

Si la variable xi designa la cantidad de unidades del artculo i que se pondr en el contenedor, nuestro problema puede plantearse como uno de programacin lineal entera:
N

mx a
i=1

vi xi

13

Sujeto a las restricciones:

pi xi P
i=1

xi 0

xi Z

Para plantear este problema por programacin dinmica, supondremos que la carga se hace artculo por artculo. Anlogamente a lo que ocurra en el caso de la Asignacin de un Recurso, los estados son binomios (i, z) con (1 i N ) y 0 z P el peso restante a distribuir. Los cambios de estado estn dados por los arcos (i, z) (i + 1, z pi xi ) donde xi es la cantidad que se decide cargar del artculo i. Por el Principio de Optimalidad tenemos la Ecuacin Funcional:
f (i, z) =
0x

mxz vi x + f (i + 1, z pi x) a
pi

(1 i N )(0 z P )

Tambin de manera anloga al caso de la Asignacin de un Recurso denimos la funcin f en los estados terminales poniendo en el contenedor tanta cantidad del artculo N como sea posible:
f (N, z) = vN z pN

Con esto estamos en condiciones de establecer la recursin que resuelve el problema. Para i = N 1, N 2, ..., 1 y 0 z P calculamos:
f (i, z) =
0x

mxz vi x + f (i + 1, z pi x) a
pi

x(i, z) = arg mxz vi x + f (i + 1, z pi x) a


0x
pi

La funcin x es la poltica ptima que nos permite reconstruir la solucin:


x1 = x(1, P ) x2 = x(2, P x1 p1 ) ... xi = x(i, P (x1 p1 + ... + xi1 pi1 ))
Complejidad

El clculo de la complejidad para este problema es prcticamente idntico al caso de Asignacin de un Recurso, obtenindose el mismo resultado. El nmero de operaciones es de O(N P 2 ). Veremos que el hecho de que el algoritmo sea pseudo-polinomial compromete la resolucin numrica del problema en el caso en que se agreguen algunas complicaciones. 14

2.4.

El Problema de la Dimensin.

Si aadimos a la restriccin de peso una restriccin de volumen, es decir, si introducimos valores wi que representan el volumen de una unidad del artculo i, y un valor W para el volumen del contenedor, nuestro problema quedara formulado de este modo:
N

mx a
i=1

vi xi

Sujeto a:

pi xi P
i=1 N

wi xi W
i=1

xi 0

xi Z

Razonando como antes, un estado ser ahora una terna (i, z, w) con i el artculo considerado, z el peso que an es posible cargar y w el volumen restante. La Ecuacin Funcional queda, entonces:
f (i, z, y) =
0xm n{

mx az
pi

y wi

vi x + f (i + 1, z pi x, y wi x)

Los valores de f en un estado terminal sern:


f (N, z, w) = vN m n{ z w , } pN wN

Es posible, entonces, establecer la recursin para resolver el problema. Hay, sin embargo, un inconveniente. El valor W juega en este caso un papel idntico al de P . Resulta, por lo tanto, bastante sencillo comprobar que la complejidad de un algoritmo construido en base a la recursin dada por Programacin Dinmica es de O(N P 2 W 2 ). Esto hace que el tiempo de ejecucin aumente bastante si los valores de P y W son grandes. Pero no es slo este el problema. En el caso en que hay solamente una restriccin de peso, en cada paso del algoritmo se calculan los valores de f para los estados (i, z) con i jo y 0 z P . Esto hace un total de P +1 datos por paso. Una vez completado el proceso, la cantidad de estados en que hemos calculado f es N (P +1). Agregando la restriccin de volumen, cada paso del algoritmo calcula f en todos los estados (i, z, w) con i jo y 0 z P , 0 w W . As, al nalizar la recurrencia, debern guardarse en memoria N (P +1)(W +1) datos, 15

cosa que puede resultar imposible para valores no muy grandes de P y W , incluso con computadoras modernas. Esto muestra una de las limitaciones ms grandes de la Programacin Dinmica: el problema de la dimensin. Si el nmero de restricciones es grande, la complejidad y, sobre todo, el espacio en memoria, crecen demasiado. Sin embargo, puede adaptarse el mtodo para casos con este, en que la dimensin, si bien impide el uso directo de la Programacin Dinmica, no es demasiado grande.
2.5. Multiplicadores de Lagrange

El mtodo de los Multiplicadores de Lagrange2 es un recurso muy til para resolver problemas de minimizacin o maximizacin de funciones de varias variables sujetas a restricciones. Describiremos brevemente su uso en el Clculo antes de mostrar la manera de utilizarlos en Programacin Dinmica. Supongamos que queremos hallar los extremos de una funcin diferenciable de dos variables F (x, y) sobre todos los (x, y) en una curva descripta por la ecuacin G(x, y) = 0. De no existir esta restriccin procederamos a calcular las derivadas parciales de F respecto de x y de y , igualndolas a 0. Pero este procedimiento deja de ser til al imponer la restriccin, pues no es necesario que las derivadas parciales se anulen para que existan extremos sobre los puntos de la curva. Para resolver este problema, denimos una funcin H :
H(x, y) = F (x, y) + G(x, y)

Donde es un Multiplicador de Lagrange. Si ahora buscamos los extremos de H de la manera usual tendremos:
F G H = + =0 x x x H F G = + =0 y y y

A partir de estas ecuaciones podemos obtener x e y en trminos de y luego usar la restriccin G(x, y) = 0 para determinar el valor de . Por supuesto, no siempre es posible obtener una solucin a travs de este mtodo, puesto que los despejes de x = x(), y = y() y luego el clculo del valor de pueden resultar impracticables.
2 Expuesto

por Joseph Louis Lagrange (1736-1813) en su obra

Mcanique Analytique

16

2.5.1.

Los Multiplicadores de Lagrange en Programacin Dinmica

Tomemos un problema general de optimizacin denido del siguiente modo: sean g y h dos funciones denidas sobre un conjunto nito S y W un nmero natural. Queremos hallar:
m g(x) n

Sujetos a las restricciones:


h(x) W xS

Observemos que el Problema de la Carga con restricciones de peso y volumen puede expresarse de este modo, siendo:
x = (x1 , ..., xN )
N

g(x) =
i=1 n

vi xi

h(x) =
i=1 N

wi xi

S = {x :
i=1

pi xi P }

Para utilizar los multiplicadores de Lagrange pensaremos que la restriccin:


h(x) W

juega el papel que cumpla, en el caso de la minimizacin o maximizacin de una funcin diferenciable, la restriccin G(x, y)=0. Plantearemos entonces, el siguiente problema auxiliar:
m g(x) + h(x) n

Sujeto a:
xS

Hemos reducido el nmero de restricciones, de dos que tenamos originalmente, a una. Veamos que es posible hallar un tal que la solucin del segundo problema sea tambin solucin del primero: 17

Teorema 1

Si para todo > 0, la funcin g(x) + h(x) tiene un mnimo global en S que se alcanza en un elemento x S. Entonces: 1. x es solucin de:
m g(x) n h(x) h(x ) xS

2. h(x ) decrece cuando crece


Demostracin

1) Sea x S. Por hiptesis tenemos que:


g(x ) + h(x ) g(x) + h(x) g(x ) g(x) (h(x) h(x ))

Luego, como h(x) h(x ) vale (h(x) h(x )) 0. Entonces:


g(x ) g(x) 0 = g(x ) g(x)

2) Sea 0 < < por hiptesis vale que:


g(x ) + h(x ) g(x ) + h(x ) g(x ) + h(x ) g(x ) + h(x )

Sumando ambos trminos y reordenando queda


( )(h(x ) + h(x )) 0

Y como > , h(x ) h(x ). La primera parte de este teorema muestra que la resolucin del problema auxiliar brinda tambin la solucin de un tercer problema que tiene la misma estructura que el original, que deseamos resolver. La nica diferencia est en que, en lugar de la restriccin h(x) W , tenemos otra, h(x) h(x ). Buscamos, entonces, un valor de tal que h(x ) = W . Para esto, utilizamos la segunda parte del teorema, que nos dice que h(x ) es una funcin decreciente del multiplicador de Lagrange . Esto nos permite hallar el valor de a travs de un algoritmo de biseccin: 18

Tomamos un valor inicial 0 y calculamos h(0 ). Si h(0 ) < W tomamos 1 = 20 . Si, en cambio h(0 ) > W , denimos un 1 mayor que 0 , por ejemplo: 1 = 3 0 , y 2 reiteramos el procedimiento para 1 . Por supuesto, hemos resulto el inconveniente del espacio necesario para alojar la informacin en memoria, reduciendo el problema a uno con una sola restriccin. Sin embargo, es necesario correr el algoritmo varias veces, con diferentes valores de , para encontrar nalmente la solucin de problema original.

3.

Aplicacin al Clculo de Variaciones

Hasta aqu hemos trabajado con problemas en los que haba que minimizar o maximizar una funcin de varias variables, sujeta a ciertas restricciones. En el Clculo de Variaciones consideramos problemas similares, pero que involucran funciones de innitas variables, es decir, funciones de funciones, que reciben el nombre de funcionales. El problema ms antiguo del Clculo de Variaciones consista en hallar la gura de rea mxima entre todas las que tienen permetros iguales3 . Varios matemticos griegos de la antigedad trabajaron en este problema pero fue Jacob Bernoulli, el mayor, (1654-1705) quin dio la solucin (el crculo), demostrndo su validez. Uno de los hermanos de Jacob, Johannes Bernoulli (1667 - 1748) lanz, como desafo a los matemticos del mundo, uno de los problemas que ms importancia histrica tuvieron en el desarrollo de esta teora: el problema de la Braquistocrona. Dados dos puntos en el espacio, la braquistocrona es la curva que los une, a lo largo de la cul el descenso de una partcula por accin de la gravedad se realiza en menor tiempo. Este problema haba inquietado ya a Galileo, que no haba podido resolverlo, hecho este bastante natural pues haca falta contar con el Clculo como herramienta matemtica para encontrar la solucin. Aparentemente, el desafo de Johannes Bernoulli iba dirigido particularmente a Newton. Un ao despus de planteado el problema aparecieron varias soluciones, entre ellas una de Leibniz, una de Jacob Bernoulli, y una annima. Segn se cuenta, al ver la breve resolucin annima, Johannes habra exclamado algo as como Reconozco al len por su garra. En efecto, el autor de esta solucin haba sido Newton. Por lo dems, el resultado del problema es sorprendente: la braquistocrona es una cicloide4 . Los funcionales correspondientes a estos ejemplos se expresan en trminos de una
ermetros.

3 Este 4 La

tipo de restriccin es la que, en trminos modernos, corresponde a un problema de

isop-

curva que describe un punto jo en una rueda cuando esta se desplaza.

19

determinada integral que involucra a la funcin buscada. Abordaremos aqu un problema general, con un funcional de la forma:
b

J(f ) =
a

G(x, f (x), f (x))dx

Buscaremos una funcin f que haga mnimo este funcional, imponiendo como nica restriccin un valor inicial f (a) = c.
3.1. El Planteo Formal con Programacin Dinmica

Denamos:
b

J(a, c) = m J(f ) = m n n
f :f (a)=c f :f (a)=c a

G(x, f (x), f (x))dx

Por la aditividad de la integral tenemos que:


a+h b

J = m ( n
f :f (a)=c a

G(x, f, f )dx +
a+h

G(x, f, f )dx)

Y aplicando el Principio de Optimalidad:


a+h

J = m ( n
f a

G(x, f, f )dx + J(a + h, c(f ))

con c(f ) = f (a + h). Llegado el momento haremos tender h a cero, pero primero debemos escribir las cosas de manera apropiada. En primer lugar:
a+h

G(x, f, f )dx = G(a, c, f (a))h + o(h)


a

c(f ) = f (a + h) = c + f (a)h + o(h2 )

Por lo cual:

J(a, c) = m (G(a, c, v)h + J(a + h, c + vh)) + o(h) n


v

donde v juega el papel de f (a). Ahora, reescribiendo los trminos apropiadamente y tomado lmite con h tendiendo a 0, tenemos la llamada Ecuacin de Bellman :
J f = m (G(a, c, v) + v ) n v a c

Slo en algunos (raros) casos es posible encontrar una solucin explcita a un problema variacional. Normalmente no puede esperarse ms que una descripcin ms o 20

menos satisfactoria de la solucin a travs de una ecuacin en derivadas parciales. Euler, Lagrange, Weierstrass, Hamilton, Jacobi, Hilbert y otros importantes matemticos abordaron estos problemas y establecieron diversas condiciones necesarias y sucientes para diferentes tipos de problemas, todas ellas a travs de ecuaciones en derivadas parciales que involucran a la funcin incgnita. Por falta de espacio no abordaremos este tema en detalle. Sin embargo, llamaremos la atencin sobre un punto importante: muchas de estas condiciones clsicas, que fueron halladas, en su momento, como consecuencia de un arduo trabajo, pueden ser deducidas fcilmente a partir de la Ecuacin de Bellman.
3.2. Resolucin Numrica de Problemas Variacionales

Dada la enorme dicultad que implica hallar una solucin explcita de un problema variacional, luego de la aparicin de las computadoras se ha intentado encontrar mtodos que permitieran obtener aproximaciones numricas de las soluciones. En esto tambin ha hecho un importante aporte la Programacin Dinmica. Consideremos, a modo el ejemplo, el problema de la Braquistocrona, que comentamos anteriormente. Tomemos dos puntos en el plano, (0, 0) y (a, b), 0 < a 0 > b. Nuestra incgnita ser una funcin y = y(x), que para cada punto x dar la altura correspondiente, de manera que la curva dada por (x, y(x)) ser la que describa la trayectoria de la partcula. El funcional que debemos minimizar es el que expresa el tiempo de la cada dada la trayectoria y , es decir:
0

J(y) =
a

1+y2 1 ) 2 dx 2gy
1

Donde g es la gravedad y la expresin (1 + y 2 ) 2 dx es el diferencial de arco. Denimos:


f (x, y) = tiempo de cada desde (x, y) hasta (a, b) siguiendo una trayectoria ptima.

Entonces, aplicando el Principio de Optimalidad tenemos que:


x+

f (x, y) = m n
y x

1 + y (s)2 1 ) 2 ds + f (x + , y + y ) 2gy(s)

Lo cual puede aproximarse de la siguiente manera:


f (x, y) = m [( n
y

1+y2 1 ) 2 + f (x + , y + y )] 2gy

A diferencia de lo que suceda en el planteo formal (continuo), en este caso el valor del incremento en la variable x es un nmero pequeo jo. Para discretizar el 21

problema, tomamos un valor para el incremento en la variable y y construimos a partir de ellos una grilla como la que muestra la Fig.4. Nuestra solucin discreta ser una sucesin de puntos de la grilla, empezando por el (0, 0) y terminando en el (a, b) que, unidos, formarn una poligonal que aproxime a la solucin analtica. Dadas las caractersticas del problema resulta natural suponer que la trayectoria ptima estar dada por una funcin decreciente, y que no tomar puntos fuera del rectngulo de la grilla. Hechas estas suposiciones, el problema numrico se resuelve del siguiente modo: Sean xi = i , i = 0, 1, ..., n = a las coordenadas x de los puntos de la grilla. Del b mismo modo denimos yj = j, j = 0, 1, ..., m = . Lo que buscamos no es otra cosa que un camino de costo mnimo entre los vrtices (x0 , y0 ) = (0, 0), (xn , ym ) = (a, b) del grafo formado por los nodos de la grilla, donde las ramas unen cada punto (xi , yj ) con todos los puntos (xi+1 , yj ), j j . Figura 4: Grilla

La funcin f , que ya hemos denido, es la funcin ptima del planteo de Programacin Dinmica, que nos permitir establecer la recurrencia que resuelva el problema. Para ello, debemos denir el valor de f en el nodo terminal y determinar la manera de obtener la poltica ptima, que ser la trayectoria. Lo primero es sencillo, pues, naturalmente, f (a, b) = 0. Lo segundo requiere un pequeo esfuerzo. Dado un nodo (xi , yj ) en la grilla, y teniendo el valor f (xi , yj ) queremos obtener el nodo (xi+1 , yk ) que le sigue en una trayectoria ptima. En los ejemplos estudiados hasta aqu, esto vena dado por el argumento que minimizaba f . En este caso, dicho argumento ser un valor y , correspondiente a la derivada de la trayectoria y en el punto (xi , yj ). Basta tomar, entonces, la aproximacin de la derivada
y = yk yj = (k j) xi+1 xi

para poder conseguir el k que buscamos. As, la poltica ptima viene dada por:
k(i, j) = arg m f (xi , yj ) + j n y

22

4.

Programacin Dinmica Estocstica

En las dos secciones anteriores, se analizaron problemas en los cuales dado un estado y una poltica, tanto el payo (costo o ganancia segn el caso) y el estado siguiente eran conocidos. Se podra decir entonces que se trataba de programacin dinmica determinista. Si, en cambio, no se sabe con seguridad cuales sern estos, y en cambio tenemos alguna funcin de distribucin de probabilidad se habla de programacin dinmica estocstica. Las ideas bsicas de determinar los estados, las etapas, las polticas y las ecuaciones funiconales siguen valiendo, simplemente toman una forma distinta. La aleatoriedad que aparece introduce naturalmente a un Proceso Estocstico. Matemticamente, un proceso estocstico se dene como un conjunto de variables aleatorias Xt cuya distribucin vara de acuerdo a un parmetro, generalmente el tiempo. El proceso estocstico ms sencillo es el Proceso de Markov, aqu una pequea introduccin y los problemas de decisin asociados a estos procesos.
4.1. Procesos de Decisin Markoviana

Procesos de Markov

Consideremos un sistema que en cualquier tiempo determinado est en uno de un nmero nito de estados i = 1, 2, ..., N , y asumamos que en tiempos discretos t = 0, 1, ... el sistema cambia aleatoriamente de un estado a otro. Las transiciones de un estado a otro se rigen por una matriz de transicin P = (pij ) donde pij = es la probabilidad de que el sistema est en el estado j al tiempo t + 1 dado que estaba en el estado i en el tiempo t (i, j = 1, 2, ...N ) Consideramos aqu el caso en el que la matriz P no depende del tiempo, que es el caso ms interesante de estudiar. Sean las siguientes funciones:
xt (i) = la probabilidad de que el sistema est en el estado i en el tiempo t

Con i = 1, 2, ..., N y t = 0, 1, .... Un sencillo anlisis de probabilidades nos d:


N

xt+1 (j) =
i=1

pij xt (i)

x0 (i) = ci

j = 1, ..., N.

La teora de los procesos de Markov se dedica a estudiar el comportamiento asinttico de las funciones xt (i) cuando t . Si todas las pij son positivas, no es difcil probar que estas funciones convergen a unas xi que satisfacen la ecuacin:
N

x(j) =
i=1

pij x(i)

j = 1, ..., N.

23

Lo sorprendente es que los valores en el lmite son independientes a los valores iniciales x0 (i).
Problemas de Decisin

Extendamos ahora el concepto de un proceso a situaciones ms generales en las cuales se toman decisiones en cada etapa. Supongamos que en cada tiempo la matriz de transicin puede ser elegida entre un conjunto de tales matrices, y notemos a la matriz correspondiente a una poltica y como P (y) = (pij (y)). Supongamos tambin que no slo hay un cambio de estado en cada etapa, pero tambin un retorno, que es una funcin que depende del estado inicial, del nal y de la decisin. Sea R(y) = (rij (y)) la matriz de retornos. Un proceso de este tipo se llama un Proceso de Decisin Markoviana. El problema es elegir una secuencia de decisiones que maximicen el retorno esperado que se obtiene de un proceso de N etapas, dado el estado inicial.
Formulacin Matemtica

Usemos tcnicas de programacin dinmica para obtener una formulacin analtica para el problema de decisin markoviana. Para i = 1, 2, ...N y n = 0, 1, ... sea f (i, n) =retorno esperado de un proceso de n etapas, empezando en el estado i usando una poltica ptima. Notemos que n representa la longitud del proceso, a diferencia de t, que era usada antes para denotar el tiempo. El principio de optimalidad da como consecuencia la ecuacin funcional:
N

f (i, n) = mx a
y j=1

pij (rij (y) + f (j, n 1)) f (i, 0) = 0

(i = 1, 2, ..., N )

(n = 1, 2, ...)

(i = 1, 2, ..., N )

Una poltica ptima consiste de un vector (yn (1), yn (2), ..., yn (N )) Veamos algunos simples ejemplos en los cuales se introduce la aleatoridad y cmo se resuelven mediante la programacin dinmica.5
4.2.
4.2.1.

Ejemplos de Retorno Incierto


Distribucin de un Producto

Consideremos una cadena de supermercados que ha adquirido 6 litros de leche de un distribuidor local. La cadena debe distribuir los 6 litros entre sus 3 mercados. Si un mercado vende un litro de leche la cadena recibe una ganancia de $2. Por cada
5 Los

ejemplos estn basados en [7]

24

litro de leche sin vender la cadena slo gana $0.50. Desafortunadamente, la demanda de leche es incierta y est dada por la siguiente tabla: Mercado Cant. de Litros Probabilidad 1 0.6 2 0 1 3 0.4 1 0.5 2 0.1 2 3 0.4 1 0.4 2 0.3 3 3 0.3 El objetivo de la cadena es maximizar la ganancia (su esperanza) a partir de los 6 litros de leche. Notemos que es un problema similar a los que tenamos anteriormente, la diferencia es que no conocemos la ganancia con certeza. Podemos, sin embargo, determinar la ganancia esperada para cada entrega de leche en un mercado. Por ejemplo, la ganancia esperada de entregar 2 litros en el marcado 1 es 0.6(2.5)+0.4(4)=3.1 ya que la probabilidad de que demanden 1 litro es 0,6 y en este caso se ganarn $2 por ese litro vendido ms los $0.50 del que qued sin vender. La que demanden 2 litros es 0. Y la que demanden 3 es $0.4 y de este modo se ganan los $4. Podemos hacer esta misma cuenta para todas las posibilidades (omitimos la posibilidad de entregar ms de 3 litros en un mercado pues tiene probabilidad 0): Mercado Cant. de Litros Ganancia esperada 1 2 2 3.1 1 3 4.2 1 2 2 3.25 2 3 4.35 1 2 2 3.4 3 3 4.35
(i, k) que representa que al mercado i se le entregan k litros. Sea c(i, k)=ganancia esperada al entregar k litros al mercado i (con c(i, k) = c(i, 3) si 4 k 6). Si llamamos f (i, k) a la ganancia esperada mxima llegamos a la ecuacin funcional:

Ahora tenemos un problema determinstico. Un estado en este caso ser un par

25

f (3, k) = c(3, k)

(0 k 6)

f (i, k) = mx c(i, y) + f (i + 1, k y) a
0yk

(i = 1, 2)

(0 k 6)

Y llamamos y(i, k) al y que maximiza en cada caso. La poltica ptima ser:


y1 = y(1, 6); y2 = y(2, 6 y1 ); y3 = y(3, 6 y1 y2 )

Haciendo las cuentas, en este ejemplo, y de la misma manera que uno haca en el caso determinista, se llega a que la mxima ganancia esperada ser de 9,75, asignando 1 litro al primer mercado, 3 al segundo y 2 al tercero.
4.2.2. Valuacin de una Opcin

Opciones

Un problema comn en el mbito de las nanzas es el de la valuacin de una opcin. Una opcin call europea (la ms simple de todas) es un contrato entre dos partes que cumple las siguientes condiciones: En un tiempo T predeterminado en el futuro llamado tiempo de expiracin, el portador puede (de aqu la palabra opcin) comprar al escritor un predeterminado activo S (por ejemplo, una accin), llamado activo subyacente, o simplemente subyacente por una cantidad predeterminada K , llamado el precio de ejercicio. Otro tipo de opcin es la llamada opcin americana, que a diferencia de la europea, uno puede ejercer la opcin no solo en el tiempo de ejercicio, sin en cualquier tiempo entre el inicio del contrato y ste. En teora se piensa en el tiempo como un continuo, pero en la prctica se discretiza. Se llama el payo de la opcin, al retorno de la misma en T . En el caso de las call europea y americana es mx{0, S K}. Pues si S K > 0 entonces uno ejerce la opcin pagando a K y luego vende el activo a S lo que representa una ganancia de S K . En el caso que S K 0 no conviene ejercer la opcin, pues se perdera K S y la opcin no tiene valor.6
Ejemplo

Supongamos que tenemos la opcin de comprar una accin de una empresa a $150. Podemos ejercer la opcin en cualquier da en los prximos 10 das. Notemos que es una opcin call americana. El precio actual de la accin es de $140. Tenemos de antemano un modelo, muy precario por cierto, del movimiento de la accin que dice
6 Ver

[10] para ms informacin sobre valuacin de opciones

26

lo siguiente: Sube $2 con probabilidad 0.4 baja $2 con probabilidad 0.5 y se queda igual con probabilidad 0.1. El valor de la opcin, si la ejercemos con precio S ser S 150. Notemos que solamente ejerceremos la opcin si el precio de ejercicio supera los 150. Podemos formular este problema con programacin dinmica de la siguiente manera: Para cada da tendremos un estado i. El estado ser el precio de la accin ese da. Sea f (i, S) la mxima ganancia esperada ejerciendo la opcin en el da i dado que el valor de la accin es S . Entonces, usando herramientas de programacin dinmica, la decisin ptima est dada por:
f (i, S) = mx{S 150, 0,4f (i + 1, S + 2), 0,1f (i + 1, S), 0,5f (i + 1, (S 2)}, a (1 i T 1) f (10, S) = mx{0, S 150} a (140 2S10 S 140 + 2S10) (140 2S10 S 140 + 2S10)

27

Referencias

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]

Bell, E.T

; Los Grandes Matemticos.

Bellman, Richard y Dreyfus, Stuart

; Applied Dynamic Programming ; Princeton University Press, New Jersey, 1962.


Dreyfus, Stuart

; Dynamic Programming and the Calculos of Variations ; Academic Press, New York,1965.
Koo, Delia

; Elements of Optimization (With Applications in Economics and Business) ; Heildelberg Science Library, New York, 1977.
Neimhauser, George

York, 1988.

; Integer and Combinatorial Optimization ; Wiley, New ; Investigacin de Operaciones. Mto-

dos y Problemas ; AID, Mxico, 1967.


Trick, Michael

Sasieni, M., Yaspan, A., Friedman L.

; A Tutorial on Stochastic Dynamic Programming, http://mat.gsia.cmu.edu/


Ventsel,

; Investigacin de Operaciones. Problemas, principios, metodologa ; Editorial Mir, Mosc, 1983.


Elena

Vicentini, Fabio

, Notas de Optimizacin

Wilmott, P., Howiston S., Deweynne J.; The Mathematics of Finantial Derivatives. A Student Introduction ; Cambridge University Press, 1995

28

Potrebbero piacerti anche