Programacion Dinamica

4- PROGRAMACION DINAMICA
Introduccin
Una aplicacin de la Programacin Dinmica es en el campo de la ingeniera de los
recursos hidrulicos, y especficamente en el desarrollo de tcnicas de optimizacin para
el planeamiento, diseo y operacin de sistemas complejos de sistemas hidrulicos. El
anlisis de un sistema tal, puede incluir miles de restricciones y variables de decisin,
esto es conocido como un problema de dimensionalidad, y para superarlo se han
desarrollado varios esquemas de descomposicin. (4.1),(4.2),(4.3),(4.4),(4.5),(4.6). Con
la ayuda de computadoras de alta velocidad, es posible la obtencin de soluciones para
proveer opciones de decisin, las cuales son ptimas, en algn sentido definido y que
pueden ser utilizadas, por los administradores de los recursos, en la toma de decisiones.
Para el campo especfico de estudios de manejo de embalses, principalmente para
propsitos de planeamiento, se han aplicado con xito muchas aplicaciones de tcnicas
de optimizacin. Una revisin de la literatura sobre este tema, revela que no existe un
algoritmo de uso universal (3.7), (3.8). En general los mtodos pueden ser clasificados
entre otros como:
1- Programacin Lineal
2- Programacin Dinmica (PD), incluyendo P.D. Incremental, P.D.Estocstica,
P.D. Diferencial, P.D. Estados Binarios.
3- Programacin No Lineal
En la literatura se han reportado combinaciones de los mtodos anteriores y se han

hecho revisiones crticas de cada una de las tcnicas subrayando los mritos y
limitaciones de cada una (3.8). Un problema comn de optimizacin de operacin de
embalses involucra funciones objetivo no lineales, no linealidad de restricciones y la
alta dimensionalidad, esto ltimo ha llevado en el pasado al uso de tcnicas de
descomposicin.
La PD ha sido utilizada en la programacin de la generacin en los Sistemas de
Potencia y se han desarrollado tcnicas para:
- Despacho Econmico en sistemas trmicos

- Solucin Prctica del problema de seleccin de unidades generadoras ( Unit
Commitment )
- Solucin del problema del despacho hidrotrmico
La Programacin Dinmica fue desarrollada a finales de 1950 por el Dr. Richard

Bellman como un mtodo digital aplicable a una amplia variedad de problemas de
control y optimizacin dinmica. Esta tcnica reduce de forma considerable los
esfuerzos computacionales requeridos al hallar trayectorias ptimas o polticas de
control (3.9). En la bsqueda de rutas ptimas o polticas ptimas, la PD se fundamenta
en el Teorema de Optimalidad, el cual afirma que:
Una poltica ptima tiene que contener slo subpolticas ptimas
Este teorema denominado por Bellman y Dreyfus como el Principio de Optimalidad

enuncia:
Una poltica es ptima si, en cualquier etapa, cualquiera que haya sido la
decisin precedente, las decisiones a ser tomadas constituyen una poltica ptima
cuando se incluye el resultado de la decisin previa .
Dada una trayectoria ptima del punto A al punto C cualquier parte de la trayectoria a
partir de un punto intermedio B hasta C es la trayectoria ptima de B hasta C, como se
muestra en la figura
En la figura se tiene que, si la trayectoria I II es el camino ptimo desde A hasta C,,

por el principio de Optimalidad la trayectoria II es el camino ptimo desde B hasta C.
La prueba por contradiccin es inmediata en este caso: suponga que el camino II (con
lneas punteadas) sea el ptimo entre B y C. Entonces el trayecto I II tiene menor
costo que el I II, contradice el hecho de que I II es la trayectoria ptima desde A a C.
Luego II es el camino de menor costo entre B y C.
La programacin dinmica, es un algoritmo de optimizacin que transforma un

problema extenso en una serie de pequeos problemas. Este mtodo se utiliza para
resolver problemas recursivos, en los cuales las variables a optimizar no se pueden
representar a travs de una funcin lineal y que, adems, deban satisfacer restricciones.
As, se tiene que un problema extenso, se descompone en pequeos problemas
secuenciales denominados etapas, y las variables en cada etapa se discretizan en
estados. Cada uno de estos subproblemas se resuelven considerando todas las
opciones posibles.
El mtodo se fundamenta en que la funcin objetivo global est compuesta de una serie
de funciones objetivo individuales ( una para cada etapa ), las cuales son funciones, para
esa etapa en particular, de las variables de estado y de control. Se puede evaluar un
nmero finito de opciones para cada etapa y se valora la funcin objetivo acumulativa,
incluyendo el presente estado. Una vez que todos los estados han sido evaluados, se
obtiene la mejor solucin seleccionando, de la serie de decisiones posibles, las que
lleven al mejor valor de la funcin objetivo acumulativa.
PROGRAMACION DINAMICA
Una de las ventajas que nos presenta la Programacin Dinmica es que: si un problema
consiste de k etapas y las variables de estado estn discretizadas en M estados, el
nmero total de trayectorias a travs del espacio a estudiar es M K. Sin embargo, con la
programacin dinmica el nmero de trayectorias que se tiene que investigar es M2
entre una etapa y la otra, o (k-1)* M 2 trayectorias en total. Por ejemplo, el caso en que
M=10 y k=50, el nmero total de trayectorias es de 1*1050 mientras que con la
programacin dinmica se investigaran nicamente 49*102 = 4900 de estas
trayectorias; obteniendo los mismos resultados y una reduccin de tiempo que se debe
tomar muy en cuenta.
Al resolver un problema de optimizacin por PD se deben seguir los siguientes pasos:

a- Se definen las etapas secuenciales del problema como se muestra en la figura
4.1.
b- Se separan las variables del problema en dos grupos: las variables de control son
variables independientes que representan la decisin hecha en la etapa k, y se
designan por Uk. Las variables de estado son variables dependientes, ya que su
valor est fijado por la variable de control. Para propsitos de simplicidad y de
rapidez, las variables de estado en la etapa k pueden ser discretizados en M k
niveles factibles. La variable de estado es designada por Xk,j , en donde el
segundo subndice se refiere al estado discreto de la variable ( j=1,2,M k) La
etapa k est comprendida entre los puntos k y k+1, para k etapas hay
k+1 puntos en los cuales se define la variable de estado.
c- Se define una ecuacin de estado, en la cual se relacionan las variables de estado
del punto k+1, con las variables de control y de estado del punto k. La
ecuacin es el modelo del sistema. Esta ecuacin transforma el estado X k,j en el
estado Xk+1,q (donde q=1,2,.,Mk+1) que es funcin de la variable de control U k y
esto se designa como
xk+1,q = Gk(Xk,j , Uk)
Por lo regular, la ecuacin de transformacin de estado, expresa un balance de

masas del sistema en estudio.
u1
u2 uk uk
x1 x
x22 3
F1 F2 Fk
etapa
1
uk variable de control
xk variable de estado
Fk funcin objetivo (costo de produccin)
d. Se define una funcin objetivo independiente, es decir: para cada etapa, la

funcin objetivo global, FGk,j esta compuesta por funciones objetivos
individuales, Fk,j,q las que son funcin exclusiva de este estado en particular.
e. Todas las restricciones deben ser asociadas nicamente con una etapa.
Hay dos caminos para resolver los problemas con programacin dinmica, estos
son: empezando por la etapa 1 y avanzando hasta llegar a la ltima comenzar
por la ltima y retroceder hasta la primera.
En el algoritmo retrospectivo (hacia atrs) de la PD la solucin se inicia, como

se mencion anteriormente, en la k. El problema se define para esta etapa. El
valor de la variable de estado al final de la etapa k es nico y constituye un
valor en la frontera de la funcin. Para cada valor de x k,j, existe una trayectoria
para alcanzar cada uno de los estados xk+1,q ,de la etapa k+1. (donde q =1,2,
Mk+1)
La ecuacin de estado define el valor de la variable de control para cada una de
las trayectorias, por ejemplo:
Uk,j,q = Gk-1(xk,j , xk+1,q)
y la ecuacin de la funcin objetivo define el costo de la trayectoria, ( j a q)

Fk,j,q = Gk (xk,j , xk+1,q , uk,j,q )
Con las ecuaciones definidas se procede a la optimizacin del problema,
entendindose por optimizacin la minimizacin o maximizacin de la funcin
objetivo Fk,j,q y el estado discreto asociado x k+1,q para cada nivel discreto de x k,j
para j = 1,2,,Mk
Con esta informacin almacenada, se pasa a resolver la etapa anterior, k-1, la
cual determina el mejor valor (mnimo o mximo), para las dos ltimas etapas,
en funcin de los valores discretos de x k-1,j , para evaluar la mejor x k , para cada
xk-1,j. La funcin de costo acumulativo, FGk-1,j es usada como comparador. Debe
notarse que el subproblema de la etapa k, est contenido dentro de la etapa k-1
como se muestra en la figura.
Generalizando, la etapa i-sima se resuelve de manera tal que para cada valor de
xk,j , exista un valor almacenado de xk+1,q ,que conlleve un valor mnimo ( o
mximo) de la funcin acumulativa FGk,j. Esto se puede expresar por medio de la
ecuacin recursiva de la siguiente manera:
FGk,j (xk,j) = (min o max) Fk,j,q (xk,j ,xk+1,q , uk,j,q ) + FGk+1,q(xk+1,q)

j = 1,2,.,Mk
q = 1,2,.,Mk+1
sujeto a : uk,j,q = Gk-1(xk,j , xk+1,q)
donde FGk,j(xk,j) es la funcin objetivo acumulativa, costo de operacin para la
etapa k, la cual es funcin del valor discreto de xk,j.
Fk,j,q(xk,j , xk+1,q , uk,j,q), es la funcin objetivo para la etapa k, la cual es funcin de
xk,j , xk+1,q , uk,j,q (las cuales son las variables de estado en la etapa k y la etapa
k+1) y la variable de control para la etapa k, respectivamente.
En la etapa k=1 se tiene un conjunto de soluciones, uno para cada nivel

discretizado de kk,j, que proporciona la mejor trayectoria acumulada dentro del
espacio de soluciones. Entonces, dando el valor inicial de la variable de estado,
el algoritmo de PD proporciona la variable de control u 1,j que genera la
trayectoria que minimiza ( o maximiza ) la funcin objetivo, a travs de todas las
etapas (no solo la etapa 1)
En la etapa 2 el algoritmo suministra la decisin u 2, en la 3 la u3 y as
sucesivamente. Este mtodo construye una optimizacin global, a travs de
decisiones particulares para cada estado y es llamado procedimiento
retrospectivo.
Ejemplo de PD. El problema de un viaje

Se va a realizar un viaje desde la ciudad A hasta la ciudad J. No hay un camino
directo , pero existen varias opciones para llegar a J a partir de A, pasando por
otras ciudades. Esas opciones y los costos asociados a cada tramo del viaje don
dados en el diagrama.
El objetivo es realizar el viaje de A a J con el menor costo posible. Por ejemplo

la ruta ADFHI tiene un costo de 29. Analizar todas las trayectorias no es una
tcnica satisfactoria. Este problema tiene un total de 125 posibles rutas.
Este es un problema clsico de PD.

No sabemos a priori si la trayectoria ptima pasar por H o por I. Pero
sabemos que si pasa por H tendr su costo es incrementado en 7 para llegar hasta
J. As mismo, pasando por I su costo ser incrementado en 5.
No sabemos si la trayectoria ptima pasar por E, F o G. Pero sabemos que:

- Si pasa por E, podra ir va H y ese recorrido cuesta 6+7=13, o va I, lo que
cuesta 9+5=14. Est claro que si la trayectoria ptima pasa por E, el camino
ptimo de ah en adelante es EHJ, de costo 13. Marcamos esos costos en el
diagrama.
- Si la trayectoria ptima pasa por F, es indiferente seguir FHJ o FIJ, ya que
ambas opciones tienen un costo de 17
- Si la trayectoria ptima pasa por G, no hay otras opciones, el nico camino
posible es GIJ, con costo de 8
As, si la trayectoria ptima pasa por E, F, G los costos mnimos de cada uno de
esos puntos hasta J ya son conocidos.
De igual forma podemos calcular los costos si la trayectoria ptima pasa por B,
C,D.
A partir de B la mejor decisin es viajar a E con un costo de 21 hasta alcanzar J
A partir de C, la mejor opcin es viajar a G
A partir de D, la mejor es ir hacia G
Desde el punto de partida, que es un punto obligatorio de paso, podemos viajar a

B, C o D y para cada opcin el costo total ser:
Va B 4+21 = 25
Va C 5+15 = 20
Va D 3+19 = 22
As, como a cada paso ya habamos seleccionado la mejor opcin sabemos que
la trayectoria ptima pasa por ACGIJ y que su costo es de 20
Los elementos bsicos de la PD, son:

- Los instantes en que se inicia o termina un viaje son las etapas, en
nuestro problema tenemos 5 etapas. Formalmente, la etapa es una
variable discreta. Normalmente llamada k
- En cada etapa el viajero se encuentra en una ciudad, que representa el
estado del viajero. Formalmente, el estado es una variable ( X ) que
describe completamente el sistema en una etapa dada. X(k)
- Para ocupar un nuevo estado en la etapa siguiente, el viajero tiene que
tomar una decisin: viajar a la siguiente ciudad. La decisin es una
variable ( normalmente denominada por u(k) )
- Solo algunas ciudades pueden ser alcanzadas en una determinada etapa
k. Estas ciudades forman el conjunto de estados viables que X(k) puede
asumir en la etapa k. En el ejemplo, en la etapa k=2, los estados viables
son E, F,G.
- Dado un determinado estado del sistema x(k), existe un conjunto de
decisiones admisibles que pueden ser tomadas a partir de x(k). Por
ejemplo, a partir de x(1) = D, el conjunto de decisiones admisibles es ir
hacia F o hacia G. Aunque E sea un estado viable en k=2, no puede ser
alcanzado a partir de D. Por lo tanto la decisin ir para E no es
admisible.
La ecuacin recursiva del sistema, o ecuacin de transicin de estado describe la

relacin entre el estado en una etapa dada, la decisin entonces aplicada y el
nuevo estado resultante
f :(x(k), u(k),k) f ( x(k), u(k),k) = x(k+1)
El estado inicial del sistema es la condicin en que el sistema se encuentra en la
etapa inicial . Ese es un estado nico
x(0) = {x(0}
Una poltica admisible aplicada a partir de x(0) es una secuencia de decisiones:
[u(k)] {u(k ,u() k 1),. ,u(N1)}

N1
k0 0 0
de tal modo que, si definimos:
x(k+1) = f ( x(k),u(k), k) k = ko,,N-1
x(k) X(k) k= k0+1,,N
La funcin objetivo esta dada por:
N 1
J : ( x(k 0 ,[u (k )]kN01 , k 0 ) l ( x(k ), u (k ), k )
k k0
El estado Terminal es el conjunto x(N) . Al contrario del estado inicial que es

nico, l puede estar constituido por ms de un estado viable.
En general el problema de PD planteado es:

Encontrar, si existe, una poltica admisible que aplicada al estado inicial, lleva
el sistema a la etapa final optimizando ( maximizando o minimizando) la funcin
objetivo.
Se observa que, si existe alguna poltica admisible, entonces existe una poltica
ptima, ya que el nmero de polticas admisibles no puede ser infinito.
Habiendo definido los elementos resolvamos de nuevo el problema del viaje

utilizando un algoritmo que repite el mismo razonamiento de la solucin
anterior. Aunque pueda parecer innecesario para un problema simple, ese
algoritmo se adapta perfectamente a problemas mucho ms complejos. Por
convencin tenemos:
k etapa analizada
x estado viable en k
u decisin en la etapa k y en el estado x
x estado alcanzado por la aplicacin de la decisin u al estado x
l costo elemental de la decisin u aplicada al estado x en la etapa k
J costo adicional mnimo a partir de x
J costo adicional mnimo a partir de x
u* mejor decisin entre las posibles de aplicarse a x
x u x l J J=l+J J U*
k=3
H ir para J J 7 0 7 7 Ir para J
I* Ir para J J 5 0 5 5 Ir para J*
k=2
E ir para H H 6 7 13 13 ir para H
ir para I I 9 5 14
F ir para H H 10 7 17
ir para I I 12 5 17 17 ir para H
G* ir para I I 3 5 8 8 ir para I*
k=1
B ir para E E 8 13 21 21 ir para E
Ir para F F 6 17 23
C* ir para E E 4 13 17
ir para F F 8 17 25 15 ir para G*
ir para G G 7 8 15
D Ir para F F 9 17 26 19 Ir para G
Ir para G G 11 8 19
k=0
A* ir para B B 4 21 25
ir para C C 5 15 20 20 Ir para C*
ir para D D 3 19 22
La poltica ptima se obtiene al final del ltimo cuadro

El costo mnimo asociado a ella e el J encontrado en el ltimo cuadro
Cuando hay empate entre decisiones se elige arbitrariamente cualquiera de ellas
En PD no existe un algoritmo general que resuelva todos los problemas, como
ocurre con el mtodo simplex usado en programacin lineal. Cada problema
tiene sus caractersticas y requiere un programa especial para resolverlo.
Ejemplo de PD, Caso Determinstico

Solucin del problema de operacin ptima de un sistema de generacin mixto,
Hidro-Trmico
El problema de coordinacin de plantas hidro-trmicas, en la operacin de un

sistema elctrico, es ms complicado que la programacin de un sistema con
slo plantas trmica. Esto debido a tres razones fundamentales:
- La disponibilidad de generacin de energa de las plantas depende de los
aportes futuros, sobre las cuales se tiene un elevado grado de incertidumbre.
- Interrelacin entre las decisiones tomadas en un determinado instante y sus
consecuencias futuras.
- Todos los sistemas hidroelctricos son diferentes debido principalmente a:
condiciones naturales, tales como la cada neta o las diferentes restricciones
impuestas a la operacin, entre ellas, los usos del sistema para generacin,
fuentes de agua potable, riego, deportes, navegacin, turismo, etc.
La PD puede ser aplicada a la solucin del problema de operacin ptima de un

sistema de generacin mixto, hidro-trmico sencillo caracterizado por tener un
solo embalse de regulacin.
La ecuacin de estado que transforma la variable de estado x k,j en el estado kk+1,q

es funcin de la variable de control uk,j,q en el estado k. Sin embargo, a veces es
funcin de otras variables de entradas denominadas Yk (para cada estado k ). Si
esta variable de entrada es conocida, el problema es denominado determinstico.
Como se mencion anteriormente, el problema debe dividirse en etapas 1,2,3,

k ( para este caso las etapas son el tiempo en das o semanas, meses o aos,
segn sea el horizonte de estudio) en las cuales se tomarn decisiones u k ( que
representan la generacin hidrulica transformada en energa elctrica), y los
estados xk sern el volumen ( nivel ) del reservorio.
Para sistemas hidro-trmicos, el inters principal radica en el costo global de

operacin entre etapas k y k+1, que se debe a las plantas termoelctricas que
operan en el sistema.
La funcin objetivo de los modelos de operacin que consideran produccin de

energa, son usualmente no lineales. Por eso, desde sus primeras aplicaciones, la
PD ha sido reconocida como uno de los procedimientos ms poderosos para
analizar y optimizar la operacin de embalses. Sin embargo, con los
procedimientos convencionales de PD, no es posible considerar la solucin
simultanea de ms de 4 embalses [3.8], esto debido a lo que se conoce como el
problema de dimensionalidad o la Plaga de dimensionalidad (trmino
utilizado para definir las excesivas necesidades de memoria y tiempo de
computacin)
Para una sucesin de decisiones u1 , u2 , u3 , ,uk y una cronologa conocida de

aportes Y1 , Y2 ,, Yk , se denominar trayectoria a la sucesin de los
estados del reservorio al inicio de cada intervalo. Estos niveles (o volmenes)
estn dados en funcin de la variable de estado x para cada etapa. Estas variables
se relacionan a travs de la ecuacin de balance de masas (ecuacin de
continuidad)
xk+1 = xk uk +Yk Ek -Fk
donde:
xk : volumen del reservorio al inicio de la etapa k
Yk : es el aporte de los tributarios al reservorio y la precipitacin en el rea del
mismo, durante el perodo de las etapas k y k+1
Ek : evaporacin en el reservorio en el perodo entre k y k+1
Fk : volumen filtrados durante la etapa
uk : variable de control ( en este caso caudal turbinado)
La dimensin del espacio para el cual est definida la ecuacin es un espacio de
dos dimensiones, una de ellas es el tiempo (etapas) y la otra el nivel del embalse
(estados)
uk es el valor o caudal a turbinar que me permite llevar el embalse de un nivel
dado (o volumen), a otro nivel en la siguiente etapa.
uk = xk - xk+1+Yk Ek -Fk
dado que los aportes, evaporacin y filtrados son conocidos
Para poder determinar los valores de uk, se debe crear un modelo econmico del
sistema, de manera que proporcione un criterio de decisin y as poder
determinar, con la ayuda de la PD la trayectoria ptima.
Este modelo debe determinar el costo de la generacin (produccin) para un

valor de demanda y de generacin hidro dada. La ecuacin que describe el
modelo del sistema debe ser de la siguiente forma:
Fk = L(xk , xk+1 ,uk ,Dk)

donde Fk es el costo de operacin del sistema durante el perodo entre k y k+1(en
este caso determinado por el costo de produccin de unidades trmicas)
Dk es la demanda total del sistema durante la etapa

para un uk y utilizando el modelo de turbina generador, se obtiene una potencia
( o energa) hidro producida, mediante la ecuacin de balance de potencia (o
energa) generada y consumida se determina la potencia (energa) trmica
faltante, y mediante el modelo de las unidades trmicas se obtiene el costo de
operacin del sistema para esa etapa.
El objetivo es que la suma de los costos de operacin de cada etapa sea mnimo.
Se puede encontrar el valor mnimo de estos costos con la siguiente ecuacin
recurrente:
FGk,m = min ( Fq,m,k + FGq,k+1)

donde
FGk,m : es la funcin objetivo global o costo acumulativo del estado m, de la
etapa k
Fq,m,k es el costo de la transicin del estado q al estado m durante el perodo k
FGq,k+1 : es el costo acumulativo del estado q de la etapa k+1 es decir, que si para
cada etapa se busca una funcin FGk,m , que represente el valor mnimo de la
suma del costo de la etapa k con la funcin global en la etapa k+1, entonces la
trayectoria as acumulada ser ptima.
EL PROBLEMA DE LA DIMENSIONALIDAD
Segn se ha mencionado, la aplicacin de la PD convencional en la optimizacin
de sistemas hidro- trmicos, limita la solucin a problemas con hasta unos pocos
embalses, esto debido a lo que se ha denominado como plaga de
dimensionalidad (Excesivas necesidades de memoria de computadora y tiempo
de computacin)
La solucin de la ecuacin de recursiva requiere usualmente la discretizacin del

espacio de estados. Suponiendo que cada uno de los N volmenes de los N
embalses (N niveles ) y cada una de las N aportes en la etapa previa A t-1 sean
discretizados en M intervalos, habrn M2N estados en el espacio de estados.
El nmero de estados discretizados y, en consecuencia el esfuerzo
computacional aumenta exponencialmente con el nmero de variables de estado.
Esto implica que la solucin del problema es irrealizable an para sistemas con
pocos embalses. Para un estudio en etapas mensuales es normal analizar 5 aos,
o sea 5x12= 60, o para etapas semanales para 2 aos 2x52= 104, supongamos
M=20 etapas
1 embalse 202 = 400 estados

2 embalse 204 = 160000 estados
3 embalse 206 = 64 millones de estados
4 embalse 208 = 25000 millones de estados
5 embalse 2010 = 10 billones de estados
Por ello, se han utilizado algunas tcnicas fundamentadas en la PD tales como el

Mtodo de Aproximaciones Sucesivas [3.8], Programacin Dinmica Discreta
Diferencial [3.2], [3.3]. De acuerdo con Yakowitz (1982), las mayores
soluciones numricas de programacin dinmica estocstica en el contexto, o
fuera, de la literatura de recursos hidrulicos por nosotros conocida, son para
problemas que tienen como mximo dos o tres variables de estado. As mismo,
los autores que relatan sus resultados, a menudo destacan la ferocidad del
esfuerzo computacional.
Las ltimas dos tcnicas aplicadas a la operacin de embalses y reportadas como

las ms eficientes son: Programacin Dinmica Diferencial, y el Algoritmo de
Optimalidad Progresiva Sin embargo requieren que la funcin objetivo sea
diferenciable y de restricciones lineales.
La otra tcnica reportada es la PD de Estados Binarios, tcnica que propone, al

igual que la otras mencionadas, una nueva aproximacin comenzando con una
trayectoria de prueba, pero busca una mejora de la funcin objetivo con el menor
nmero de evaluaciones, meta que se logra gracias a que cada combinacin est
formada por slo dos valores por coordenada del espacio de estados. As, se
logra un reduccin significativa del tamao de memoria requerido para la
solucin del problema, lo mismo que la disminucin de los tiempos de
convergencia.
PROGRAMACION DINAMICA DE ESTADOS BINARIOS
El problema de operacin de mltiples embalses se formula con una funcin

objetivo dada por la suma de ganancias o costos sobre N perodos. La
ecuacin recursiva hacia delante se presenta a continuacin
f j ( j ) max[L j ( j , T j ) f j 1 ( j 1 )]
Tj Aj para j =1,..,N
donde:
Ej Es el vector de estados correspondientes a los niveles de n embalses al
inicio de cualquier perodo j
Tj es el vector de dimensin n que indica lo turbinado en el respectivo embalse
en el intervalo que va del perodo j al inicio del perodo j+1
Aj es el conjunto que indica los valores turbinables vlidos en el perodo j
Lj es la mxima ganancia ( o mnimo costo ) obtenible en los anteriores j, j-1,
.,1 perodos, comenzando con las variables de estado iniciales Ej
El algunos sistemas la dimensin del vector de control, o de caudales turbinados,

es igual a la dimensin del vector de estados. Es diferente cuando existen varias
plantas por cada embalse.
El sistema de ecuaciones de transicin que expresan la dinmica del sistema es:
Ej+1 = Ej + B Tj + Yj EVAj
donde
B matriz que representa la configuracin del sistema de n embalses
Yj es el vector de escurrimientos a los embalses (considerado deterministico)
EVA es el vector de evaporaciones como funcin de niveles hncales y finales en
el perodo, tambin se podran considerar las filtraciones u otros efectos
apreciables.
Para aclarar la formacin de la matriz B se escribe la ecuacin de continuidad

para la configuracin de 4 embalses siguiente:
La ecuacin matricial que describe la dinmica del sistema es:
E1, j 1 E1, j Y1, j 1 0 0 0 T1, j
E E Y
2 , j 1 2, j 2, j 0 1 0 0 T2, j

E3, j 1 E3, j Y3, j 0 1 1 0 T3, j

E4 , j 1 E4, j Y4, j 1 0 1 1 T4, j
Se obtiene el caudal turbinado como una funcin de los niveles iniciales y

finales de los embalses, esto es,
T j B 1[ E j 1 E j Y j EVA ]
La relacin recursiva en la cual las variables de estado son introducidas en el
espacio de estados, esto es:
F j ( E j ) max[ g j ( E j , E j 1 ) F j 1 ( E j 1 )]
Ej+1 Cj+1 j=1,..,N
donde
gj (Ej , Ej+1) = Lj [Ej, B-1 (Ej+1 Ej Yj + EVAj )]
adems Cj+1 es el conjunto admisible de los valores de las variables de estado.
El procedimiento convencional para resolver la relacin recursiva es el de

discretizar el espacio de estados. Si cada coordenada del espacio de estados n-
dimensional es subdividida en k valores discretos, el nmero total de
combinaciones, o puntos a ser analizados, es kn , el cual es un nmero que se
incrementa exponencialmente en trminos de n; as, excepto para soluciones con
un espacio de estado pobremente discretizado, la solucin con PD
convencional producir problemas de dimensionalidad.
La PD de estados binarios utiliza la relacin recursiva y un procedimiento
iterativo que ocupa slo un subconjunto de 2 puntos en lugar de k en cada
etapa, el procedimiento realiza una mejora en la funcin objetivo en cada
iteracin; para cada una de las cuales se analiza una trayectoria de los n
embalses a lo largo de las N etapas.
El subconjunto de estados Cij de la etapa j de cada iteracin i, se define

como la combinacin de dos puntos de cada coordenada del espacio de estados
Cj, uno de los cuales es la componente de la trayectoria de estados ptima en la
iteracin previa i-1.
As, el nmero de puntos en Cij es 2 n para un sistema de n embalses ( 2 puntos
de cada embalse ). Con esta definicin de un subconjunto limitado de estados en
cada etapa, la funcin objetivo del problema es continuamente mejorada en cada
iteracin, simultneamente se memoriza la direccin de la trayectoria de estados
para la evaluacin, del nuevo valor del vector de estados, en la prxima
iteracin.
El problema de la iteracin i es:
F j 1 ( E j 1 ) max[ g i ( E j , E j 1 ) F j ( E j )]
E j 1 C j 1, i
E j C j ,i j = 1,.,N
donde:
Cj,i = ( E1,j , E2,j , ., Ek,j,.,En,j )
y Ek,j puede tomar el valor de Ek,j o el de Ek,j
Esta ltima ecuacin representa una matriz de nxN (para la iteracin i)

organizada de la siguiente forma:
E1,1 E1, 2 E1, j

E Ek , 2 Ek , j

k ,1
C j ,1 para j=1 hasta J=N (etapas)

E N ,1 EN ,2 EN , j
E1
E
Ej 2

EN
vector de estados evaluado en el j-simo intervalo, niveles al inicio del perodo j
Ek,j es la k-sima componente del vector de estados (niveles) de la etapa j en
la iteracin anterior i-1. Al inicio del algoritmo (i=1), estos valores son dados
como una trayectoria inicial. El segundo valor Ek,j es definido de acuerdo a la
tendencia de la posible trayectoria ptima en la iteracin i-1
Si el movimiento es en la direccin creciente del eje de coordenadas k, del

espacio de estados Cj, esto se memoriza asignndolo un ndice relacionado a la
variable k,j = +1, y si es en la direccin decreciente, se le asigna k,j = -1, Si no
cambia el valor de la variable de estado, el valor de la variable , cambia de
signo para la prxima iteracin, esto es, se busca el ptimo en esa direccin en
esa etapa en la direccin contraria. Luego, el valor de E k,j es determinado en la
direccin i segn:
Ek , j " Ek , j k , j k , j k
donde k es el tamao del paso en la coordenada k del espacio de estados,
pudiendo ser diferente para cada embalse, y k,j es el coeficiente de aceleracin
el cual puede ser definido de acuerdo a ciertas reglas, esto dependiendo de la
persistencia del movimiento en una direccin especfica de la coordenada k en el
espacio de estados de la etapa j. Por ejemplo, si el movimiento ocurre en la
misma direccin de la coordenada k en las 3 ltimas iteraciones, k,j toma el
valor de 2, de lo contrario toma el valor de 1.
Despus de que se termina de construir los subespacios Cj,i para cada etapa de
la iteracin i, se procede con la solucin de la ecuacin recursiva. Como
resultado, se tendr una nueva trayectoria ptima y un subconjunto de
direcciones de desplazamiento los cuales ayudarn a definir los nuevos
subespacios para las prximas iteraciones.
Si se encuentra la misma trayectoria ptima de estados en dos iteraciones

sucesivas, cuando los coeficientes de aceleracin son iguales a uno, se reducen
los tamaos del incremento k a la mitad y se comienza de nuevo el algoritmo.
Las iteraciones continan hasta que los incrementos sean todos menores que un
determinado valor lmite.
La PD de estados binarios requiere de una trayectoria inicial que sea factible,

esto debido a que le criterio de convergencia utilizado se fundamenta en el
decremento sucesivo del costo. Si la trayectoria inicial no es factible, lleva
inevitablemente a un costo infinito que produce que el mtodo no determine
correctamente la direccin en que se encuentra el ptimo, pues se comparan los
costos infinitos de dos iteraciones sucesivas produciendo siempre la divergencia
del algoritmo.
El algoritmo localiza el ptimo muy eficientemente cuando las funciones de

retorno de etapas son bien condicionadas esto es, sin valles agudos. Si este no es
el caso, cuando la funcin objetivo no decrece en dos iteraciones sucesivas, es
conveniente utilizar una fase de reorientacin que busca alrededor de la
trayectoria nominal antes de dividir a la mitad el tamao del paso. De esta forma
los tamaos no son decrementados innecesariamente si la trayectoria ptima no
est cerca. En la fase de reorientacin, despus de que dos iteraciones sucesivas
produzcan la misma trayectoria ptima a travs del espacio de estados, la
trayectoria nominal se define medio paso debajo de la ltima trayectoria nominal
asignndole a Ek,j el valor de:
Ek,j = Ek,j k / 2 y para k,j = +1

k=1,2,,n
j=1,2,.,N
De esta forma, los subespacios de estados definidos representan centroides de
todas las reas formadas entre los coordenadas en el centro de las cuales est
localizado el ltimo valor del estado nominal. Si la solucin de la relacin
recursiva con este nuevo subconjunto de estados, decrece estrictamente la
funcin objetivo, se contina con el esquema del algoritmo principal, si no, se
desplaza la trayectoria nominal medio paso arriba de la ltima trayectoria
ptima, se decrementan los tamaos del paso a la mitad y se contina como se
requiere en el algoritmo principal.
Ejemplo. Sistema Hidro-Trmico
La ecuacin matricial que expresa la dinmica del sistema es:

E j E j 1 BT j 1 Y j 1 (1)
no se consideran evaporaciones, para esta configuracin
E1, j E1, j 1 Y1, j 1 1 0 T1, j 1

E E (2)
2, j 2, j 2 Y2 , j 1 1 1 T2, j 1
por tanto
T j 1 B 1[ E j E j 1 Y j 1 ] (3)
T1, j 1 1 0 E1, j E1, j 1 Y1, j 1 (4)

T
2, j 1 1 1 E 2 , j E 2, j 1 Y2, j 1
con esta se calcula el caudal turbinado requerido, para llegar a un nivel deseado
en la etapa j, a partir de un nivel en la etapa anterior (j-1)
Suponiendo aportes (escurrimientos) a lo embalse determinsticos

2000
Yj j=1,,N (5)
0
Se selecciona una configuracin de una planta hidro por cada embalse y de cada
neta fija. Los modelos respectivos a usar son:
1
Ph(n, j ) T (n, j ) 26 n=1,2
10
Ph (n,j) = 0 si T(n,j) = 0
donde Ph es la potencia hidroelctrica de la planta n en el instante j con las
restricciones:
0 Ph(n,j) 374 [MW]

260 T(n,j) 4000 [m3/s]
Los embalses con restricciones de nivel (volumen) mnimo y mximo

6000 E(1,j) 18000 [m3]
6000 E(2,j) 18000 [m3]
La demanda determinstica, PL(j) es:
Perodo j 1 2 3 4
Carga(MW) PL(j) 1100 1200 900 1100
La potencia trmica requerida en cada etapa j se calcula como:
2
Ps ( j ) PL ( j ) Ph (n, j ) j=1,,N
n 1
El modelo de la planta trmica se selecciona como:
F ( j ) 700 4.8Ps ( j ) Ps2 / 2000

con 200 Ps 1200 [MW]
donde F es el costo de produccin y Ps es la potencia de la trmica
El funcional planteado expresa un valor asociado nicamente al costo de

produccin de la energa trmica, esto es, el agua no tiene costo.
BIBLIOGRAFIA
[4.1] Incremental Dynamic Programming May Yiel Nonoptimal Solutions,
Water Resources Resarch, Vol.18, No6, Dec 1982.
[4.2] Constrained Differencial Dynamic Programming and its Aplication to
Multireservoir Control , Murray D. Yakowitz S., Water Resources Reserch, Vol
15, No 5, Oct. 1979
[4.3] Discrete Differential Dynamic Programming Approach to Water
Resources Systems Optimization, Heidari M., Kokotovic., Water Resources
Research, Vol.7, No 2, April 1971
[4.4] Computer time and Memory requirements for DP an DDDP in Water
Resources Systems analysis., T.Chow, Water Resources, 1975.
[4.5] Solution by Incremental Dynamic Programming, Part I B.Bernholtz,
L.J.Grajan., AIEE Trans. on Power Apparatus and Systems, Vol. 79, Dec 1960
[4.6] Stochastic Optimization of a Multireservoir Hydorelectric System: A
Descompositiona Approach, Pereira M, Pinto L., Water Resources Research,
Vol. 21, No6. June 1985
[4.7] Review of Optimization Methods for Power Systems Problems.,
D.H.Kelly, Departamente of Electrical Enginiering University o fAlberta,
Toronto, Canada, March 1978
[4.8] Reservoir Management and Operations models: A State of the Art
Review, Water Resources Research, W.Willian, G.Yeh.,Vol 21, No 12., Dec
1985
[4.9] The Dynamic Programming Approach to Water Resources
Development, Hall W, M.Buras, J.Geopphys. Res., 1961
[4.10] Optimal Short Term Hydro Scheduling form the Principle of Progressive
Optimality, A. Turgeon, water Resources.1981.
[4.11] Optimal Economic Operation of Electrical Power Systems, El-Hawary,

M.E. Christensen., Academic Press, New York, 1979

Programacion Dinamica

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Programacion Dinamica

Caricato da

Copyright:

Formati disponibili

4- PROGRAMACION DINAMICA

En la literatura se han reportado combinaciones de los mtodos anteriores y se han

- Despacho Econmico en sistemas trmicos

La Programacin Dinmica fue desarrollada a finales de 1950 por el Dr. Richard

Una poltica ptima tiene que contener slo subpolticas ptimas

Este teorema denominado por Bellman y Dreyfus como el Principio de Optimalidad

En la figura se tiene que, si la trayectoria I II es el camino ptimo desde A hasta C,,

La programacin dinmica, es un algoritmo de optimizacin que transforma un

Al resolver un problema de optimizacin por PD se deben seguir los siguientes pasos:

Por lo regular, la ecuacin de transformacin de estado, expresa un balance de

d. Se define una funcin objetivo independiente, es decir: para cada etapa, la

En el algoritmo retrospectivo (hacia atrs) de la PD la solucin se inicia, como

y la ecuacin de la funcin objetivo define el costo de la trayectoria, ( j a q)

FGk,j (xk,j) = (min o max) Fk,j,q (xk,j ,xk+1,q , uk,j,q ) + FGk+1,q(xk+1,q)

En la etapa k=1 se tiene un conjunto de soluciones, uno para cada nivel

Ejemplo de PD. El problema de un viaje

El objetivo es realizar el viaje de A a J con el menor costo posible. Por ejemplo

Este es un problema clsico de PD.

No sabemos si la trayectoria ptima pasar por E, F o G. Pero sabemos que:

Desde el punto de partida, que es un punto obligatorio de paso, podemos viajar a

Los elementos bsicos de la PD, son:

La ecuacin recursiva del sistema, o ecuacin de transicin de estado describe la

[u(k)] {u(k ,u() k 1),. ,u(N1)}

El estado Terminal es el conjunto x(N) . Al contrario del estado inicial que es

En general el problema de PD planteado es:

Habiendo definido los elementos resolvamos de nuevo el problema del viaje

La poltica ptima se obtiene al final del ltimo cuadro

Ejemplo de PD, Caso Determinstico

El problema de coordinacin de plantas hidro-trmicas, en la operacin de un

La PD puede ser aplicada a la solucin del problema de operacin ptima de un

La ecuacin de estado que transforma la variable de estado x k,j en el estado kk+1,q

Como se mencion anteriormente, el problema debe dividirse en etapas 1,2,3,

Para sistemas hidro-trmicos, el inters principal radica en el costo global de

La funcin objetivo de los modelos de operacin que consideran produccin de

Para una sucesin de decisiones u1 , u2 , u3 , ,uk y una cronologa conocida de

xk+1 = xk uk +Yk Ek -Fk

Este modelo debe determinar el costo de la generacin (produccin) para un

Fk = L(xk , xk+1 ,uk ,Dk)

Dk es la demanda total del sistema durante la etapa

FGk,m = min ( Fq,m,k + FGq,k+1)

La solucin de la ecuacin de recursiva requiere usualmente la discretizacin del

1 embalse 202 = 400 estados

Por ello, se han utilizado algunas tcnicas fundamentadas en la PD tales como el

Las ltimas dos tcnicas aplicadas a la operacin de embalses y reportadas como

La otra tcnica reportada es la PD de Estados Binarios, tcnica que propone, al

PROGRAMACION DINAMICA DE ESTADOS BINARIOS

El problema de operacin de mltiples embalses se formula con una funcin

El algunos sistemas la dimensin del vector de control, o de caudales turbinados,

El sistema de ecuaciones de transicin que expresan la dinmica del sistema es:

Para aclarar la formacin de la matriz B se escribe la ecuacin de continuidad

Se obtiene el caudal turbinado como una funcin de los niveles iniciales y

adems Cj+1 es el conjunto admisible de los valores de las variables de estado.

El procedimiento convencional para resolver la relacin recursiva es el de

El subconjunto de estados Cij de la etapa j de cada iteracin i, se define

El problema de la iteracin i es:

Esta ltima ecuacin representa una matriz de nxN (para la iteracin i)

E1,1 E1, 2 E1, j

Si el movimiento es en la direccin creciente del eje de coordenadas k, del

Si se encuentra la misma trayectoria ptima de estados en dos iteraciones

La PD de estados binarios requiere de una trayectoria inicial que sea factible,

El algoritmo localiza el ptimo muy eficientemente cuando las funciones de

Ek,j = Ek,j k / 2 y para k,j = +1

La ecuacin matricial que expresa la dinmica del sistema es: