Sei sulla pagina 1di 105

XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ

A PESQUISA OPERACIONAL E AS CIDADES


SBPO

Programao Dinmica
Determinstica e Estocstica

Ruy Eduardo Campello


FURNAS-Centrais Eltricas S.A.
e Instituto Metodista Bennett

XXXIV Simpsio Brasileiro de Pesquisa Operacional


XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Prefcio

Estas notas foram preparadas como material didtico do mini-curso, de 6


horas de durao, Programao Dinmica Determinstica e Estocstica,
apresentado durante o XXXIV Simpsio Brasileiro de Pesquisa Operacional
da SOBRAPO (8 a 11 de outubro, 2002), realizado no Instituto Militar de
Engenharia IME, no Rio de Janeiro. Foram resumidas e adaptadas do
curso completo, com 54 horas, de Modelagem Matemtica e Programao
Dinmica ministrado pelo autor no Programa de Cincia da Computao do
Instituto Metodista Bennett - IMB.

Rio de Janeiro, 8 de outubro de 2002

Ruy Eduardo Campello


e-mail: campello@iis.com.br
campello@furnas.com.br

1
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

ndice

1. Programao Dinmica 3
1.1. Introduo 3
1.2. Princpio da Otimalidade de Bellman 9
1.3. Caminho mais Curto Determinstico 10
1.4. Comentrio sobre Algoritmos Mopes 15
1.5. Sistema de Distribuio de gua 17
1.6. Carregamento de Caminho 24

2. Programao Dinmica Determinstica com Horizonte Limitado 30


2.1. Conceitos e Definies 30
2.2. Sistema, Estgios, Estados e Alvo 30
2.3. Decises Admissveis 31
2.4. Equao de Transio de Estado 32
2.5. Custos Elementares 32
2.6. Poltica Admissvel 33
2.7. Trajetrias 33
2.8. Funo Critrio 34
2.9. PPD e Princpio da Otimalidade de Bellman 35

3. Programao Dinmica Determinstica com Horizonte Ilimitado 39


3.1. Condio de Utilizao e Critrio 39
3.2. Conceito de Estacionaridade 40
3.3. Critrio do Valor Presente em Problemas Estacionrios 42
3.4. Mtodos de Soluo da Equao Recursiva de Otimalidade com Horizonte Ilimitado 45

4. Programao Dinmica Probabilstica com Horizonte Limitado 56


4.1. Conceito 56
4.2. Equao Recursiva de Otimalidade 56
4.3. Resoluo Explcita da Equao Recursiva de Otimalidade 59
4.4. Resoluo Recursiva da Equao de Otimalidade 63
4.5. Um Jogo de Cartas 75
4.6. Manufatura de Produto 84

5. Programao Dinmica Probabilstica com Horizonte Ilimitado 90


5.1. Conceito 90
5.2. Critrio do Valor Atual Esperado 92
5.3. Mtodo das Aproximaes no Espao dos Critrios 94
5.4. Mtodo das Aproximaes no Espao das Polticas 100

6. Referncias Bibliogrficas 103

2
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

1. Programao Dinmica

1.1. Introduo

A Programao Dinmica, conhecida tambm como otimizao recursiva,


um procedimento de otimizao para resolver problemas de deciso
seqencial ou de mltipos-estgios relacionados. Entretanto, esta abordagem
pode ser utilizada induzindo a propriedade seqencial por convenincia
computacional.

Sua essncia o Princpio da Otimalidade de Richard Bellman. Ao


contrrio de outros ramos da Programao Matemtica, no pode ser
definido um nico algoritmo capaz de resolver diretamente todos os
problemas de programao dinmica. A multiplicidade de situaes
modelveis pela tcnica requer teoria e arte utilizando diferentes funes na
formulao da equao de otimalidade, embora o princpio utilizado seja
sempre o de Bellman.

A tcnica da programao dinmica permite transformar um problema de


deciso seqencial (em mltiplos estgios) contendo diversas variveis
interdependentes em uma srie de subproblemas contendo poucas variveis.
A transformao invariante preservando o nmero de solues viveis o
valor da funo objetivo associado a cada uma delas e, portanto, a prpria
soluo tima. De uma forma geral um problema de otimizao com n
variveis de deciso transformado em n subproblemas cada um deles com
apenas uma varavel de deciso (no caso unidimensional). O esforo
computacional cresce exponencialmente com o nmero de variveis, porm,
apenas linearmente com o nmero de subproblemas. Assim, podem ser

3
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
obtidas redues significativas no esforo computacional quando comparado
a outras tcnicas de otimizao.

Em resumo, a Programao Dinmica uma tcnica que se aplica


situaes que exijam decises sequenciais. Resolve problemas pela sua
decomposio em sub-problemas resolvidos estgio por estgio oferecendo
algumas vantagens em relao a outras tcnicas de otimizao. Pode tratar
funes descontnuas, no diferenciveis, no convexas, determinsticas ou
estocsticas. A funo objetivo deve, entretanto, ser separvel e monotnica.

Como exemplo de um processo com mltiplos estgios por natureza


considere uma situao simplificada de planejamento da produo de um
nico item durante t perodos, tal que:

yj ... estoque no final do perodo j


uj ... deciso do nvel de produo no perodo j
wj ... demanda conhecida pelo item no perodo j

A posio do estoque no incio do primeiro perodo y0 conhecida.


Portanto, em qualquer perodo (estgio) j a posio inicial do estoque yj-1
mais o nvel de produo uj menos a demanda wj , considerada
determinstica neste caso, definem a posio do estoque (estado) no perodo
seguinte. Ou seja, a evoluo do processo pode ser representada por uma
transformao (funo de transio de estado) da forma:

yj = r(yj-1, uj, wj) = yj-1 + uj - wj , j = 1, 2, ..., t


_
y0 = y (condio de contorno)

4
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Considera ainda os seguintes custos:

cj

5
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Em relao a modelagem da programao dinmica cada estado deste
processo descrito completamente pelo nvel do estoque no incio de cada
perodo, ou seja, para que a deciso seja tomada em cada estgio, e todos os
subsequentes, necessrio conhecer apenas o nvel do estoque no incio do
perodo. Esta caracterstica torna o processo Markoviano sendo
indispensvel para que o Princpio da Otimalidade de Bellman possa ser
aplicado.

Um processo Markoviano quando o


futuro depender apenas da situao presente,
ou seja, o passado no tem nenhuma influncia
nas decises futuras.

Observe que sendo a demanda wj , j = 1, 2,..., t probabilstica, teramos um


problema de decises sequenciais estocstico em que o objetivo seria
minimizar o valor esperado do custo total do processo, ou seja:

t
( P ) : min imizar E{ g j ( y j 1 + u j w j ) }
j =1

sujeito a:
yj = yj-1 + uj - wj , j = 1, 2, ..., t
_
y0 = y
uj 0 , j = 1, 2, ... , t

O processo simplificado descrito anteriormente claramente Markoviano,


por outro lado, se estivssemos lidando, por exemplo, com itens perecveis
para a tomada de decises seria necessrio conhecer quando cada item em
estoque foi produzido. Logo, neste caso, o processo no seria mais

6
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Markoviano. Entretanto, modificando a definio da varivel de estado o
processo pode ser transformado em Markoviano. Para tanto, basta definir o
estado no como uma varivel nica representado o nvel atual do estoque,
mas uma matriz com duas colunas. A primeira coluna em cada linha
representaria o perodo de produo de cada item em estoque e a segunda o
nmero de itens produzidos neste perodo. Esta seria a maneira de
transportar toda a informao do passado para o estado atual, permitindo
ento uma deciso segundo um processo Markoviano.

Como ilustrao de um processo sequencial por induo considerar o


seguinte problema de programao inteira:

(P): maximizar x0 = 8x1 + 7x2


sujeito a:
2x1 + x2 8
5x1 + 2x2 15
x1 , x2 0 e inteiros

Neste caso, o processo sequencial no resulta evidente em razo da natureza


do problema de programao inteira, este porm, pode ser induzido. A
decomposio em problemas menores pode ser caracterizada interpretando
cada uma das variveis x1 e x2 como sendo uma atividade e, a cada estgio, o
nvel de cada uma deve ser decidido. O termo independente de cada uma das
restries pode ser entendido como recurso disponvel para realizar as
atividades. A cada estgio, portanto, uma deciso deve ser tomada quanto
ao nvel de uma das atividades bem como os recursos a serem utilizados. As
decises so limitadas pelo nvel dos recursos disponveis no incio de cada

7
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
estgio e, portanto, recursos remanescentes (no utilizados em cada estgio)
podem ser alocados ao estgio seguinte. Assim, est caracterizado um
processo sequencial Markoviano em que o conhecimento do nvel de
recursos disponveis no incio do estgio suficiente para decidir de forma
tima neste estgio e, em conseqncia, em todos os estados subsequentes
(neste caso apenas um).

Como existem duas restries o estado em cada estgio (t = 1, 2) fica


definido por duas variveis:

ut .... primeiro recurso disponvel (restrio 1) no estgio t = 1, 2


vt .... segundo recurso disponvel (restrio 2) no estgio t = 1, 2

u0 = 8 e v0 = 15 (condies de contorno)

Esquemtico do processo sequencial induzido:

x1 x2

u1= u0 2x1
u0 = 8 u2 = u1 2x2
Estado Estado
v0 =15 1 2 v2 = v1 5x2
v1= v0 5x1

8x1 7x2

8
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

1.2. Princpio da Otimalidade de Bellman

O princpio de otimizao devido a Richard Bellman (1957) bastante


intuitivo e ser apresentado de maneira mais formal em 2.9.

Uma trajetria tima tem a seguinte


propriedade: quaisquer que tenham sido os passos
anteriores, a trajetria remanescente dever ser uma
trajetria tima com respeito ao estado resultante dos passos
anteriores, ou seja, uma poltica tima formada
de subpolticas timas.

Informalmente, pode-se intuir o resultado pela argumentao a seguir.


Digamos que P(a,c) seja uma trajetria tima dos pontos a at c passando
por um ponto intermedirio qualquer b, como no esquema a seguir. Ento,
P(a,c) = P(a,b)P(b,c).

Entretanto, por absurdo, assuma que outra trajetria, digamos P(b,c), seja a
trajetria tima de b at c e no P(b,c). Se isto ocorre, a trajetria
P(a,b)P(b,c) deve ser melhor que P(a,c). Entretanto, isto contraria a
hiptese original de que P(a,c) seria a trajetria tima de a at c. Portanto,
P(b,c) no pode ser melhor do que P(b,c) que, consequentemente, a
trajetria tima de b at c.

9
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

1.3. Caminho mais Curto Determinstico

Determinar a(s) trajetria(s) tima(s) de A at J no grafo ponderado a seguir.

Sistema
Grafo G = (N,+) em camadas, ponderado e orientado.

Estgios
k = 0, 1, 2, 3, 4 correspondendo a cada uma das camadas do grafo.

Estados

Xk .... conjunto de vrtices no estgio k = 0, 1, 2, 3, 4

X0 = {A} e X4 = {J}, ou seja, no estgio inicial k = 0 s h o estado A


enquanto no final apenas J.

4
N = U X k .... conjunto de vrtices do grafo G
k =0

10
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Transio de Estado

+ (s ) .... conjunto de decises admissveis no estado sXj ou, neste caso,


de arcos incidentes para o exterior do estado\vrtice sXj

asy .... custo da transio do estado s Xj para o estado yXj+1

fj(s) .... custo/comprimento de um caminho mnimo de s Xj at o alvo J

Funo Critrio (Equao Recursiva de Otimalidade)

fj(s) = mnimo { asy + fj+1(y) }, s Xj , j = 0, 1, 2, 3


y + (s)

Condies de Contorno

f4(s) = 0 , s X4

11
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Diagrama Estado x Estgio

12
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

13
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Otimizao Recursiva

f3(s) = mnimo{asy + f4(y)}, sX3 = {H, I} e f4(s) = 0, + (s) = {J}, s X3


y + (s)

f2(s) = mnimo{asy + f3(y)}, sX2 = {E, F, G}, + (s) = {H, I}, s X2


y + (s)

f1(s) = mnimo{asy + f2(y)}, sX1 = {B, C, D}, + (s) = {E, F, G}, s X1


y + (s)

f0(A) = mnimo{aAy + f1(y)}, + (A) = {B, C, D}


y + (A)

Estgio k = 3
S asJ + f4(J) f3(s) Ir Para
y J
H 3 3 J
I 4 4 J

Estgio k = 2
S asy + f3(y) f2(s) Ir Para
y H I
E 4 8 4 H
F 9 7 7 I
G 6 7 6 H

14
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Estgio k = 1
S asy + f2(y) f1(s) Ir Para
y E F G
B 11 11 12 11 E ou F
C 7 9 10 7 E
D 8 8 11 8 E ou F

Estgio k = 0
S asy + f1(y) f0(s) Ir Para
y B C D
A 13 11 10 10 D

1.4. Comentrio sobre Algoritmos Mopes

A tcnica de construo de algoritmos heursticos baseados na obteno de


uma boa soluo, que eventualmente seja tima, considerando a cada
iterao a melhor deciso um passo frente, ou seja, utilizando um critrio
de otimizao meramente local, bastante popular. Estas heursticas so
conhecidas genricamente como Mopes ou Gulosas (Myopic/Greedy). Uma
questo importante discutir em que casos, ou para que classe de problemas,
uma heurstica do tipo mope garante a obteno da soluo tima para
qualquer instncia.

Um algoritmo mope pode ser aplicado a qualquer problema cuja estrutura


possa de alguma forma ser caracterizada como um sistema de
independncia, no havendo garantias de que a soluo tima ser obtida a
menos que este seja um matride (Edmonds, 1971).

15
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
O problema de caminhos examinado infelizmente no se enquadra na classe
de problemas para os quais a heurstica mope oferece garantia de soluo
tima. O exemplo trivial a seguir (caminho mais curto de 1 at 4) estabelece
o contra-exemplo.

Entretanto, para a instncia examinada anteriormente isto ocorre o que pode


causar certo desconforto. Considere ento a instncia a seguir. Neste caso a
aplicao da heurstica mope leva a uma trajetria de valor igual a 29
quando a trajetria tima tem valor 20, ou seja, um erro de 45% o que
muito significativo.

16
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

1.5. Sistema de Distribuio de gua (Edgard and Himmelblau, 1989)

No sistema de distribuio de gua, ilustrado a seguir, o valor mximo de s1


de 3.000 m3 (por unidade de tempo). O fluxo s1 deve ser distribuido nos
trs pontos mostrados na figura nas quantidades d1, d2 e d3.

Assuma que o fluxo de gua na sada de cada tubo depende apenas da


quantidade de fluxo de gua que chega a cada tubo. O retorno obtido pela
distribuio da gua em quantidades inteiras nos trs tubos informada a
seguir:
Retorno pela Entrega de gua
di f1(s1,d1) f2(s2,d2) f3(s3,d3)
(m3x10-3) ($x10-3) ($x10-3) ($x10-3)
1 4 1 2
2 5 4 5
3 6 7 6

Qual a alocao de gua nos tubos que maximiza o retorno do sistema.

Modelagem Matemtica

Variveis de Deciso

si fluxo de gua no ponto de distribuio i = 1, 2, 3

di ... fluxo de gua no ponto de distribuio i = 1, 2, 3

17
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Restries

Equaes de Balano de Material (gua)

si+1 = si - di , i = 1, 2

s3 = d 3

Observe que estas equaes implicam em que a restrio s1 = d1 + d2 +


d3 redundante, pois,

s2 = s 1 - d 1
s3 = s 2 - d 2
(+) - s3 = - d3
s2 = (s1 + s2) (d1 + d2 + d3)
s1 = d1 + d2 + d3

Fluxo Mximo de Material (gua)

0 d1 + d2 + d3 3.000 e di inteiro, i = 1, 2, 3

18
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Funo Objetivo

fi(si,di) ... retorno obtido com a distribuio de di m3 (por unidade


de tempo) de gua pelo ponto de distribuio i = 1, 2, 3

x0 ... retorno total obtido pela distribuio d1, d2 e d3

x0 = fi(si,di)
i =1

Critrio

maximizar x0 = fi(si,di)
i =1

Modelo de Programao Matemtica

maximizar x0 = fi(si,di)
i =1

sujeito a:
si+1 = si - di , i = 1, 2
s3 = d 3
0 d1 + d2 + d3 3.000
di , inteiro i = 1, 2, 3

Modelagem da Programao Dinmica

Sistema
Composto pelo sistema de distribuio de gua com trs pontos de
distribuio, o fluxo na entrada de gua e o esquema de retorno obtido
pela repartio do fluxo de gua entre os pontos.

19
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Estgios

k = i ... antes de alocar di m3 (por unidade de tempo) ao ponto de


distribuio i = 1, 2, 3;

k = 4 ... aps distribuir o fluxo de gua pelos trs tubos.

Estados

si ... fluxo de gua que chega ao ponto de distribuio i = 1, 2, 3

Equao de Transio de Estado


di

si si+1
Tubo i

fi(si,di)

si+1 = si - di , i = 1, 2

s3 = d3 (Condio de Contorno)

20
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Funo Critrio

Sejam:

fi(si,di) ... retorno obtido com a distribuio de di m3 (por unidade de


tempo) de gua pelo ponto de distribuio i = 1, 2, 3

di f1(s1,d1) f2(s2,d2) f3(s3,d3)


(m3x10-3) ($x10-3) ($x10-3) ($x10-3)
1 2 1 4
2 5 4 5
3 6 7 6

g i*+1 (si+1) = g i*+1 (si di) ... retorno timo obtido por uma trajetria
tima que passa pelo estado si no estgio
i = 1, 2, 3.

Condio de Contorno: g 4* (s4) = g 4* (s3 d3) = g 4* (0) = 0

g i* (si) = mximo { fi(si,di) + g i*+1 (si di) }, i = 1, 2, 3


di

com g 4* (s4) = g 4* (s3 d3) = g 4* (0) = 0

Estgio i = 3

g3* (s3) = mximo { f3(s3,d3) + g 4* (0) }


0 s3 3
0 d3 s3

21
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Estgio i = 2

g 2* (s2) = mximo { f2(s2,d2) + g3* (s2 d2) }


0 s2 3
0 d2 s2

Estgio i = 1

g1* (s1) = mximo { f1(s1,d1) + g 2* (s1 d1) }


0 s1 3
0 d1 s1

Aplicao do Algoritmo de Programao Dinmica

Estgio i = 4 s4 = 0, g 4* (0) = 0

f3(s3,d3) + g 4* (0)
d3
g3* (s3)
Estgio i = 3

s3 3 2 1 0
3 6 - - - 6
2 - 5 - - 5
1 - - 2 - 2
0 - - - 0 0

f2(s2,d2) + g3* (s2 d2)


d2
g 2* (s2)
Estgio i = 2

*
s2 3 2 1 0
3 7 6 6 6 7
* - 4 3 5
2 5
1 - - 1 2 2
0 - - - 0 0

22
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

f1(s1,d1) + g 2* (s1 d1)

Estgio i = 1
d1
g1* (s1)
*
s1 3 2 1 0
* 6 7 9 6
3 9

Soluo tima: d*1 = 1, d*2 = 0, d*3 = 2 e x0* = 9

23
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

1.6. Carregamento do Caminho (Problema da Mochila)

Um caminho tem 10 toneladas de capacidade de carga. Trs produtos A, B


e C esto disponveis para transporte. Seus pesos e respectivos retornos pelo
transporte esto na tabela a seguir.

Produtos Valor ($) Peso (t)/Unidade


A 20 1
B 50 2
C 60 2

Assumindo que, pelo menos um produto de cada tipo deve ser transportado,
qual a composio de carga de maior retorno.

Passaremos, inicialmente, a formulao do modelo matemtico definindo


seus elementos bsicos:

Modelo de Programao Matemtica

Variveis de Deciso
Restries
Funo Objetivo
Critrio
Modelo Matemtico

(a) Variveis de Deciso


xj ..... quantidade do produto j = 1, 2, 3 alocado ao caminho

(b) Restries
b.1. Pelo menos um produto de cada tipo deve ser transportado no
caminho
xj 1, j = 1, 2, 3

24
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
b.2. Capacidade mxima de carga do caminho

x1 + 2x2 + 2x3 10
b.3. Integralidade

xj inteiro, j = 1, 2, 3

(c) Funo Objetivo

Retorno pela
x0 = Composio = 20x1 + 50x2 + 60x3
da Carga

(d) Critrio
Maior retorno possvel com o transporte da carga, ou seja,

Maximizar x0

(e) Modelo Matemtico

(P): maximizar x0 = 20x1 + 50x2 + 60x3


sujeito a:
x1 + 2x2 + 2x3 10
xj 1 e inteiro, j = 1, 2, 3

A mudana de varivel a seguir, permite transformar (P) em outro problema


equivalente (P) de programao 0-1 o que facilitar a abordagem posterior.

25
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Mudana de Varivel:

xj 1 xj - 1 0 yj = xj - 1 0, j = 1, 2, 3

Faremos a seguinte transformao no problema (P): yj + 1 = xj , j = 1, 2, 3

Restrio

x1 + 2x2 + 2x3 10

(y1 + 1) + 2(y2 + 1) + 2(y3 + 1) 10


y1 + 2y2 + 2y3 5

Funo Objetivo

x0 = 20(y1 + 1) + 50(y2 + 1) + 60(y3 + 1)

= 20y1 + 50y2 + 60y3 + 130

Fazendo x0 = x0 - 130 temos o seguinte problema (P) transformado de (P):

(P): maximizar x0 = 20y1 + 50y2 + 60y3


sujeito a:
y1 + 2y2 + 2y3 5

yj 0 e inteiro j = 1, 2, 3

Os problemas (P) e (P) so equivalentes e podem ser resolvidos pela


tcnica da Programao Dinmica.

26
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Modelagem de (P) por Programao Dinmica

Sistema
Caminho, produtos, seus pesos e retorno no transporte

Estgios

k = 0, antes de qualquer deciso

k = j, aps decidir o valor da varivel yj , j = 1, 2, 3

Estados
Definidos a cada estgio pela capacidade de carga remanescente zj
no caminho.

Equao de Transio de Estado

zj = zj-1 - aj.yj , j =1, 2, 3

z0 = 5 (Condio de Contorno)

Esquemtico do processo sequencial induzido:

y1 y2 y3

z0 = 5 Estgio z1 = 5 y1 Estgio z2 = z1 2y2 Estgio z3 = z2 2y3


1 2 3

y1 2y2 2y3

27
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Zj ... conjunto dos estados viveis no estgio j = 0, 1, 2, 3

Z0 = { 5 }

Zj = { 0, 1, 2, 3, 4, 5 } j = 1, 2, 3

Funo Critrio

gj(zj) ... retorno mximo de um caminho do estado zj no estgio j at o


alvo (estgio final)

fj(yj) ... retorno obtido com yj unidades do produto j (lucro elementar)

j 1 2 3
fj(yj) 20y1 50y2 60y3

Equao Recursiva de Otimalidade

g*j-1(zj-1) = mximo{ fj(yj) + g*j(zj-1-aj.yj) }, j = 1, 2, 3


zjZj

g*3(z3) = 0, com z3 = z2 a3.x3

28
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Soluo tima de (P) Soluo tima de (P)


x0* = 140 x0* = 270
y1* = 1 x1* = 2
y2* = 0 x2* = 1
y3* = 2 x3* = 3

29
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

2. Programao Dinmica Determinstica com Horizonte Limitado

2.1. Conceitos e Definies

Sero apresentadas as definies e os conceitos a seguir, necessrios a


formalizao da programao dinmica determinstica com horizonte
limitado, embora muitos dos conceitos sejam os mesmos para os modelos
probabilsticos e com horizonte ilimitado.

Sistema
Estgios
Estados Viveis, Estado Inicial e Alvo
Decises Admissveis
Equao de Transio de Estado
Custo (Lucro) Elementar
Poltica Admissvel
Critrio
Trajetrias
Problema de Programao Dinmica
Princpio da Otimalidade de Bellman
Equao Recursiva de Otimalidade

2.2. Sistema, Estgios, Estados e Alvo

Sistema
Pode ser completamente descrito, a cada estgio, pela especificao do seu
estado.

Estgio
Varivel discreta k que determina a ordem em que ocorrem modificaes
no sistema.
k = 0, 1, 2, ... , t

Estgio Inicial Estgio Final

30
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Estado

Varivel y (k ) = ( y1k , y2k ,..., ynk ) n que descreve completamente as


caractersticas observveis do sistema em cada estgio. O mesmo estado
pode ocorrer em diferentes estgios.

Conjunto de Estados Viveis no Estgio k

Y (k ) n , estados que a varivel y (k ) pode assumir no estgio k .

O nmero de elementos de Y (k ) sempre finito.

Estado Inicial
Estado nico em que se encontra o sistema no estgio inicial k = 0 , ou seja,

Y (0) = { y (0)} com y (0) = ( y10 , y10 ,..., y n0 ) n

Alvo
Conjunto constitudo dos estados viveis y (t ) no estgio final t .

2.3. Decises Admissveis

Deciso
m
Varivel u(k ) = ( u1k , u2k ,..., umk ) que aplicada ao sistema quando
este se encontra no estado y (k ) influencia, de alguma forma, o estado em
que o sistema se encontrar no estgio seguinte (k + 1) .

Conjunto de Decises Admissveis no Estgio k

U (k ) m , decises que podem atuar sobre o sistema quando este se


encontra no estgio k e no estado y (k ) . O nmero de elementos de U (k )
sempre finito.

31
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

2.4. Equao de Transio de Estado

Relao entre o estado y (k ) em um dado estgio k , a deciso aplicada


u(k ) , e o estado resultante y (k + 1) .

r : n x m x n
( y (k ), u(k ), k ) a r ( y ( k ), u( k ), k ) = y (k + 1)

2.5. Custo Elementar

Custo (lucro) devido atuao da deciso u(k ) aplicada ao sistema no


estado y (k ) e no estgio k .

f : n x m x n
( y (k ), u(k ), k ) a f ( y (k ), u(k ), k )

u(k )

y (k ) Estado y (k + 1) = r ( y (k ), u(k ), k )

f ( y (k ), u(k ), k )

32
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

2.6. Poltica Admissvel

Poltica admissvel aplicada a y = y (k 0 ) Y (k0 ) , k0 {0, 1, 2, ... , t 1 }


uma seqncia de decises [u(k )] k = k = (u (k 0 ), u (k0 + 1),..., u (t 1)) tal
k = t 1
0

que se definirmos y (k + 1) = r ( y (k ), u(k ), k ) , k = k0 , k0 + 1,..., t 1


ento:
u(k ) U (k ) , k = k0 , k0 + 1,..., t 1 ;

y (k ) Y (k ) , k = k0 + 1, k 0 + 2,..., t .

O conjunto das polticas admissveis aplicadas a y receber a notao


( y , k 0 ) .

2.7. Trajetria

Trajetria gerada por uma poltica admissvel [u(k )] k = k 0 em y = y (k 0 )


k = t 1

o conjunto dos pontos (k , y (k )), k = k 0 , k 0 + 1,..., t e onde:

y (k + 1) = r ( y (k ), u(k ), k ), k = k 0 , k0 + 1,..., t 1

(k0+2,y(k0+2))
(t-2,y(t-2)) (t, y(t))
(k0+1,y(k0+1))

(k0,y(k0)) (t-1,y(t-1)) Y(t)

Alvo

33
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

2.8. Funo Critrio


Para que o Princpio da Otimalidade possa ser utilizado necessrio que a
funo critrio pertena a classe de funes decomponveis (Nemhauser,
1966 e Mitten, 1964) e, para tanto, dever ser separvel e monotnica
(montona no decrescente).

Ser utilizada a seguinte funo:


t 1
g : ( y (k0 ), [u(k )] k = t 1
k = k 0 , k0 ) a f ( y(k ), u(k ), k )
k = k0

onde [u(k )] k = k 0 ( y (k0 ), k0 ) e


k = t 1

y (k + 1) = r ( y ( k ), u(k ), k ), k = k0 , k0 + 1,..., t 1.

A funo g (.) separvel quando, para h : 2 e g : t 1 k 0

tem-se:

g ( y (k 0 ), [u (k )] kk == tk1 , k 0 ) = h( f ( y (k 0 ), u(k 0 ), k 0 ), g ( y (k 0 + 1),[u( k )]kk == tk1+1 , k 0 + 1))


0 0

Como foi definida, a funo critrio g (.) claramente separvel, pois,


t 1
g ( y (k0 ), [u( k )]kk == tk0 1 , k0 ) = f ( y(k ), u(k ), k ) =
k =k0
t 1
= f ( y (k0 ), u(k0 ), k0 ) + f ( y(k ), u(k ), k )
k = k 0 +1

Por outro lado, ser montona no decrescente quando um crescimento na


funo de retorno f (.) implica em crescimento em g (.) , ou seja, para

f ( y (k0 ), u (k0 ), k0 ) f ( y (k0 ), u(k0 ), k0 )

ento g ( y (k0 ), [u (k )]kk == tk1 , k0 ) g ( y (k0 ), [u(k )]kk == tk1 , k0 )


0 0

34
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

2.9. PPD e Princpio da Otimalidade de Bellman

Problema de Programao Dinmica

Encontrar, se existir, uma poltica admissvel [u (k )]


* k = t 1
k = 0 que, aplicada a

y (0) , leva o sistema a um estado y (t ) Y (t ) do estgio t e minimiza

(maximiza) o valor da funo critrio, isto :

[
g * ( y (0), u* (k ) ] k = t 1
k =0 ,0) = mnimo g ( y (0), [u(k )] k = 0 , 0)
k = t 1

[u(k )] kk == 0t 1 ( y(0),0)

Se existir uma poltica admissvel, ento existir uma poltica tima

[u (k )]
* k = t 1
k =0 , pois, o nmero de polticas admissveis finito.

Princpio de Otimalidade de Bellman

Se [u (k )] kk == tk1 ,
0
k0 = 0, 1, 2, ... , t-1 uma poltica tima considerando

y (k 0 ) como estado inicial ento [u (k )] kk == tk1+1


0
ser uma poltica tima

considerando y (k0 + 1) = r ( y (k0 ), u (k 0 ), k0 ) como estado inicial.

Demonstrao

35
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Seja k0 {0, 1, 2, ... , t-1} e uma poltica tima [u (k )] k


t 1
0
considerando

y = ( 0)

36
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Admitamos, por absurdo, que exista uma seqncia de decises
[u~(k )] kk == tk1+1 ( ~y , k0 + 1) aplicada a ~y = y (k0 + 1) = r ( y, u~(k0 ), k0 )
0

e tal que:

g * ( ~y , [u
~ (k )] k = t 1 , k + 1)
k = k +1 0
0
< g ( ~y , [u (k )] kk == kt 01+1 , k0 + 1) ------ (1)

Estaremos admitindo, portanto, a existncia de uma trajetria gerada por


uma poltica admissvel [u ~ (k )] k = t 1 cujo valor da funo critrio
k = k +1 0

correspondente menor que o considerado timo.

k = t 1
~
u ( k )

k = k 0 +1

(k0+1,y(k0+1)) (t, y(t))

(k0,y(k0))

k = t 1
_
u (k )

k = k 0 +1

Alvo

k0 k0+1 t

Definindo uma seqncia formada pela primeira deciso de [u (k )] k , ou


t 1
0

seja, u (k0 ) e toda a seqncia de decises [u


~ ( k )] k = t 1 . Obtem-se:
k = k 0 +1

[u (k )]kk == tk1 = (u (k0 ), u~(k0 + 1), u~(k0 + 2), ..., u~(t 1))
0

Esta seqncia , por definio, admissvel: [u (k )] kk == tk01 ( y, k0 ) .

37
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Alm disto, de (1), g( y , [u


~ (k )] k = t 1 , k + 1)
k = k +1 0 0
< g ( y, k0 ) o que

absurdo uma vez que contraria a definio de g ( y, k0 ) , isto , o fato de

que [u (k )] k
t 1
0
ser uma poltica tima aplicada a y = y (k0 ) .

Conclumos que:

g( y , [u
~ (k )] k = t 1 , k + 1)
k = k +1 00
y , [u(k )] kk == tk01+1, k0 + 1)
= mnimo g ( ~

[u(k )] tk1+1 ( ~
y , k0 + 1)
0

= g ( ~y , k 0 + 1)

Finalmente, obtemos como resultado a Equao Recursiva de Otimalidade:

g ( y, k0 ) = mnimo { f (y, u(k0 ), k0 ) + g ( f (y, u(k0 ), k0 ), k0 + 1) }

u( k 0 ) U ( y , k 0 )

f (y, u(k 0 ), k 0 ) Y (k 0 + 1)

38
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

3. Programao Dinmica Determinstica com Horizonte Ilimitado

3.1. Condio de Utilizao e Critrio

Quando o horizonte ilimitado a equao de otimalidade no pode mais ser


resolvida por recurso backwards a partir do estgio final, portanto,
condies devem ser estabelecidas para garantir a validade da equao.

Os valores da funo critrio devem ser finitos, ou seja, a imagem da funo


critrio g deve ser limitada inferiormente (superiormente) no caso de
minimizao (maximizao).

Critrio do Valor Presente

Considerar uma taxa de desconto 0 < < 1 que em muitas aplicaes ser
representada por = (1 + i / 100) 1 onde i % uma taxa de juros na unidade
de tempo.

39
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

A funo critrio a ser utilizada o valor atual (presente), no estgio k0 ,


dos custos (lucros) elementares, ou seja:

+
g ( y (k0 ), [u(k )] +
k 0 , k0 ) = k f ( y(k ), u(k ), k )
k = k0

Se todos os f ( y (k ), u (k ), k ) so uniformemente limitados por, digamos B ,


B k 0
e < 1 ento g ( y (k0 ), [u(k )] +
k 0 , k0 ) < , pois,
(1 )

+
B k 0 +
g ( y (k0 ), [u(k )] +
k 0 , k0 ) = f ( y (k ), u(k ), k ) < B =
k k

k = k0 k = k0 (1 )

Com esta funo possvel avaliar o mrito relativo de uma alternativa pela
converso de uma seqncia infinita de retornos em um nmero nico.

3.2. Conceito de Estacionaridade

Um Problema de Programao Dinmica Determinstico estacionrio


quando:

Sua equao de transio de estado no depende do estgio k , ou seja:

r ( y ( k ), u (k ), k ) = r ( y (k ), u (k )), k ;

40
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

A funo de custos (lucros) elementares no depende do estgio k , ou


seja:
f ( y (k ), u (k ), k ) = f ( y (k ), u (k )), k ;

O conjunto de decises que podem atuar sobre o sistema quando este se


encontra no estgio k funo apenas do estado y (k ) , ou seja:

U ( y (k ), k ) = U ( y (k )) ;

Se y ( k ) Y ( k ), u ( k ) U ( y ( k )) e r ( y ( k ), u ( k )) Y ( k + 1)
ento ( k ' , y ( k ' ) Y ( k ' ), y ( k ' ) = y ( k ), u ( k ' ) = u ( k )
r ( y ( k ' ), u ( k ' )) Y ( k '+ 1) );

O nmero total de estados viveis finito;

O nmero total de decises admissveis finito.


Estaremos assumindo, portanto, que todas as funes de retorno, decises e
fenmenos externos (como requisitos de demanda) so idnticos para todos
os perodos (estgios).

Em um Problema de Programao Dinmica Determinstico com Horizonte


Ilimitado e Estacionrio, uma poltica [u(k )] +
k =0 estacionria quando a

trajetria { y (0), y (1), y (2),....} associada a esta poltica tal que


y (k ) = y (k ' ) u (k ) = u (k ' ) .

Conclumos ento, que a aplicao de uma poltica estacionria requer


apenas o conhecimento do estado atual do sistema e no a seqncia

41
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
histrica de eventos que conduzem aquele estado, isto , a cada vez que o
sistema retorna aquele estado a mesma deciso ser tomada.

Alm disto, conclumos que o nmero de polticas estacionrias admissveis


finito e, portanto, se existir uma poltica estacionria existir um poltica
estacionria tima.

Como no existem mtodos gerais para resoluo de problemas de


programao dinmica determinsticos com horizonte ilimitado no
estacionrios nos ocuparemos apenas dos que satisfazem a hiptese de
estacionaridade.

3.3. Critrio do Valor Presente em Problemas Estacionrios

O objetivo ser determinar uma poltica estacionria que minimiza


n
k f ( y (k ), u (k )) .
k =0

Aplicando o Princpio da Otimalidade de Bellman com n + tem-se:

g * ( y (k0 ), k 0 ) = mnimo{ k f ( y (k 0 ), u (k 0 )) + g * (r ( y (k 0 ), u (k 0 )), k 0 + 1) }


0

u(k 0 ) U ( y (k 0 ))
r ( y (k 0 ), u(k 0 )) Y (k 0 + 1)

Observar que g * ( y (k 0 ), k 0 ) o valor atual mnimo, no estgio k = 0 , da

srie f ( y (k0 ), u (k 0 )), f ( y (k 0 + 1), u (k 0 + 1)),..... obtida pela aplicao de


poltica estacionria tima ao estado y (k0 ) no estgio k0 (Princpio da
Otimalidade).

42
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
O valor presente da mesma srie referenciada ao estgio k = k0 ser,
k0
portanto, dada por g * ( y (k 0 ), k 0 ) / . Logo, no caso geral, g * ( y (k0 ),0)
corresponder ao valor atual de uma srie que se inicia no estgio k = 0 e
pode ser representada por:

g * ( y (k 0 ), k 0 ) = k g * ( y (k 0 ),0)
0

e g * ( y (k 0 + 1), k 0 + 1) = k +1 g * (r ( y (k 0 ), u (k 0 )),0)
0

Substituindo na Equao Recursiva de Otimalidade com Horizonte Ilimitado


temos:

* k 0
k +1 * 0

g ( y (k0 ),0) = mnimo{ k f ( y ( k0 ), u (k 0 )) + k g (r ( y (k 0 ), u (k 0 )),0) }


0
0

u(k 0 ) U ( y (k 0 ))
r ( y (k 0 ), u(k 0 )) Y (k 0 + 1)

= mnimo{ f ( y (k 0 ), u (k 0 )) + g * ( r ( y ( k0 ), u (k 0 )),0) }
u(k 0 ) U ( y (k 0 ))
r ( y (k 0 ), u(k 0 )) Y (k 0 + 1)

interessante observar que, na deduo da Equao Recursiva de


Otimalidade com Horizonte Ilimitado foi utilizada implcitamente a hiptese
de que qualquer estado vivel pode ser considerado estado inicial. Embora,
necessriamente, isto no se verifique em todos os casos, sempre possvel
adotar, levando em conta que os estados se repetem a cada estgio, que a
srie infinita e desejamos determinar a deciso tima para cada estado (a
poltica estacionria tima no se preocupa com o estgio), uma mudana

43
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
de escala dos estgios fazendo com que qualquer estado possa ser
considerado como inicial.

Como a hiptese de estacionaridade implica em um nmero finito de


estados que se repetiro a cada estgio, podemos simplificar a notao
adotando i e j para representar os estados com i = 1, 2,..., n.

Sem perda de generalidade, assumiremos tambm que toda a deciso vivel


aplicada a um estado conduz a outro estado vivel, ou seja:

u U (i ) j = r (i, u ) .

A Equao Recursiva de Otimalidade com Horizonte Ilimitado pode ser


representada ento por:

g * (i ) = mnimo{ f (i, u ) + g * ( j ) }
u U (i )
j = r ( i , u)

Portanto, a poltica tima aquela que a cada estado vivel i, em cada


estgio k, determina a melhor deciso para passar ao prximo estgio.

O sistema formado pelas equaes de otimalidade no pode ser resolvido


diretamente, pois, a deciso tima para cada estado i s pode ser
determinada se os valores timos g * ( j ), j = 1,2,..., n forem conhecidos,
ou seja, seria necessrio conhecer a prpria estratgia tima para cada
estado.

44
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

3.4. Mtodos de Soluo da Equao Recursiva de Otimalidade com


Horizonte Ilimitado

So dois os processos iterativos utilizados para resolver o problema:

Mtodo das Aproximaes no Espao dos Critrios;


Mtodo das Aproximaes no Espao das Polticas.

A Aproximao no Espao dos Critrios consiste em escolher


arbitrriamente um conjunto inicial de critrios g * (i ), i = 1,2,..., n e
calcular novos valores utilizando a Equao Recursiva de Otimalidade com
Horizonte Ilimitado g * (i ) = mnimo{ f (i, u ) + g * ( j )}, i = 1,2,..., n.
u U (i )
j = r ( i , u)

O procedimento deve ser repetido at que no haja diferenas significativas


entre os valores de g * (i ) em duas iteraes consecutivas.

Exemplo

Determinar a poltica tima para o problema representado pelo grafo


orientado a seguir utilizando uma taxa de desconto = 0,8 .

45
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Soluo:

Temos ento o seguinte sistema de equaes funcionais:

g * (1) = mnimo{(0 + 0,8.g * (2)) , (2 + 0,8.g * (4))}


g * (2) = mnimo{(4 + 0,8.g * (1)) , (5 + 0,8.g * (3))}
g * (3) = mnimo{(6 + 0,8.g * (2)) , (1 + 0,8.g * (4))}
g * (4) = mnimo{(6 + 0,8.g * (1)) , (4 + 0,8.g * (3))}

Vamos adotar, arbitrriamente, g * (i ) = 10, i = 1, 2, 3, 4 .

As duas primeiras iteraes so desenvolvidas a seguir:

46
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
1a Iterao
g * (1) = mnimo{(0 + 0,8x10) , (2 + 0,8x10)} = 8 ..... u (1) = 2
g * (2) = mnimo{(4 + 0,8x10) , (5 + 0,8x10)} = 12 ..... u (2) = 1
g * (3) = mnimo{(6 + 0,8x10) , (1 + 0,8x10)} = 9 ..... u (3) = 4
g * (4) = mnimo{(6 + 0,8x10) , (4 + 0,8x10)} = 12 ..... u (4) = 3

2a Iterao
g * (1) = mnimo{(0 + 0,8x12) , (2 + 0,8x12)} = 8 ..... u (1) = 2
g * ( 2) = mnimo{( 4 + 0,8x8) , (5 + 0,8x9)} = 12 ..... u (2) = 1
g * (3) = mnimo{(6 + 0,8x12) , (1 + 0,8x12)} = 9 ..... u (3) = 4
g * ( 4) = mnimo{(6 + 0,8x8) , (4 + 0,8x9)} = 12 ..... u (4) = 3

Os resultados correspondentes a dezeseis (16) iteraes so apresentados nos


quadros da pgina a seguir onde a coluna representa a diferena em
mdulo entre os valores obtidos para os critrios em duas iteraes
sucessivas. Na dcima sexta iterao a diferena para todos os critrios de
0,07, portanto, para uma tolerncia de 0,10 poderamos encerrar o
procedimento com uma poltica tima:

u * (1) = 2, u * (2) = 1, u * (3) = 4 e u * (4) = 1.

47
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Estado 1a 2a 3a 4a
y
g * ( y) u g * ( y) u g * ( y) u g * ( y) u

1 8 2 2,00 9,6 2 1,6 8,32 2 1,28 9,34 2 1,02


2 12 1 2,00 10,4 1 1,6 11,68 1 1,28 10,66 1 1,02
3 9 4 2,00 10,6 4 1,6 9,96 4 0,64 10,98 4 1,02
4 12 3 2,00 11,2 3 0,8 12,48 3 1,28 11,97 3 0,51

Estado 5a 6a 7a 8a
y
g * ( y) u g * ( y) u g * ( y) u g * ( y) u

1 8,52 2 0,82 9,18 2 0,66 8,66 2 0,52 9,08 2 0,42


2 11,48 1 0,82 10,82 1 0,66 11,34 1 0,52 10,92 1 0,42
3 10,57 4 0,41 11,23 4 0,66 10,97 4 0,26 11,39 4 0,42
4 12,79 3 0,82 12,46 3 0,33 12,98 3 0,52 12,77 3 0,21

Estado 9a 10a 11a 12a


y
g * ( y) u g * ( y) u g * ( y) u g * ( y) u

1 8,74 2 0,34 9,01 2 0,27 8,79 2 0,21 8,97 2 0,17


2 11,26 1 0,34 10,99 1 0,27 11,21 1 0,21 11,03 1 0,17
3 11,22 4 0,17 11,49 4 0,27 11,38 4 0,11 11,55 4 0,17
4 13,11 3 0,34 12,98 3 0,13 13,19 3 0,21 13,03 1 0,16

Estado 13a 14a 15a 16a


y
g * ( y) u g * ( y) u g * ( y) u g * ( y) u

1 8,82 2 0,14 8,94 2 0,11 8,85 2 0,09 8,92 2 0,07


2 11,17 1 0,14 11,06 1 0,11 11,15 1 0,09 11,08 1 0,07
3 11,43 4 0,12 11,54 4 0,11 11,45 4 0,09 11,52 4 0,07
4 13,17 1 0,14 13,06 1 0,11 13,15 1 0,09 13,08 1 0,07

48
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
A convergncia do procedimento assinttica, ou seja, no ocorre
necessariamente, em nmero finito de iteraes (Wagner, 1969).
Adicionalmente, o fato de uma poltica admissvel permanecer a mesma por
diversas iteraes no implica, necessariamente, em que esta seja a poltica
estacionria tima. Este fato pode ser observado no exemplo onde at a 11a
iterao a poltica manteve-se como (2, 1, 4, 3). Na realidade a poltica
estacionria tima pode no ser nica.

Para o Procedimento de Aproximaes no Espao das Polticas vamos supor


que {u * (1), u * (2),..., u * (n)} seja uma poltica estacionria tima. Portanto:

g * (i ) = mnimo{ f (i, u (i )) + .g * ( j )} = f (i, u * (i )) + .g * ( j ), j = 1,2,..., n


u( i ) U ( i )
j = r (i , u(i ))

Observe que, neste caso, o argumento de u * o estado i , pois, trata-se de


poltica estacionria.
_ _ _
Escolhendo, arbitrriamente, uma poltica admissvel{u (1), u (2),..., u (n)} e,
_ _ _
resolvendo o sistema g (i ) = f (i, u (i )) + . g ( j ), i, j = 1,2,..., n obtemos os
_
valores de g (i ), i = 1,2,..., n.

Testamos, ento, estes valores nas equaes de otimalidade e, sempre que


ocorrer:

_ _ _
mnimo{ f (i, u (i )) + . g ( j )} = f (i, u ' (i )) + . g ( j ' ) < g (i )
u( i ) U ( i )
j = r (i , u(i ))

49
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
_ _
substituimos na poltica admissvel u (i ) por u ' (i ) . Com esta nova poltica
resolvemos o sistema novamente at que no haja nenhuma mudana na
poltica admissvel que ser ento uma poltica tima.

Consideremos o mesmo exemplo utilizado anteriormente escolhendo,


_ _ _ _
arbitrriamente, a poltica u 0 (1) = 2, u 0 (2) = 3, u 0 (3) = 4, u 0 (4) = 3 onde
_ _
u s (i ) e g s (i ) representam, respectivamente, a deciso admissvel no estado
i e o valor do critrio na iterao s .

1a Iterao
_ _
g 0 (1) = 0 + . g 0 (2)
_ _
g 0 (2) = 5 + . g 0 (3)
_ _

g 0 (3) = 1 + . g 0 (4)
_ _
g 0 (4) = 4 + . g 0 (3)

_ _
g 0 (1) 0,8x g 0 (2) = 0
_ _
g 0 (2) 0,8x g 0 (3) = 5
_ _
g 0 (3) 0,8x g 0 ( 4) =1
_ _
- 0,8x g 0 (3) + g 0 ( 4) = 4

50
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Resolvendo este sistema de quatro equaes lineares e quatro incgnitas,
obtemos:

_
g 0 (1) = 11,3
_
g 0 (2) = 14,3
_
g 0 (3) = 11,7
_
g 0 (4) = 13,3

Testando estes valores nas equaes de otimalidade:

_
mnimo{(0+0,8x14,3) , (2+0,8x13,3)} = 11,3 = g 0 (1)
_ _
mnimo{(4+0,8x11,3) , (5+0,8x11,7)} = 13,0 < g 0 (2) u1 (2) = 1
_
mnimo{(6+0,8x14,3) , (1+0,8x13,3)} = 11,7 = g 0 (3)
_
mnimo{(6+0,8x11,3) , (4+0,8x11,7)} = 13,3 = g 0 (4)

A nova poltica admissvel passa a ser ento:


_ _ _ _
u1 (1) = 2, u1 (2) = 1, u1 (3) = 4, u1 (4) = 3

51
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

2a Iterao
Com a nova poltica admissvel o sistema de equaes passa a ser o seguinte:

_ _
g 1 (1) = 0 + . g 1 (2)
_ _
g 1 (2) = 4 + . g 1 (1)
_ _

g 1 (3) = 1 + . g 1 (4)
_ _
g 1 (4) = 4 + . g 1 (3)

_ _
g 1 (1) 0,8x g 1 (2) = 0
_ _
g 1 (2) 0,8x g 1 (1) = 4
_ _
g 1 (3) 0,8x g 1 (4) =1
_ _
- 0,8x g 1 (3) + g 1 ( 4) = 4

Sua soluo dada por:

_
g 1 (1) = 8,9
_
g 1 ( 2) = 11,1
_
g 1 (3) = 11,7
_
g 1 ( 4) = 13,3

52
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Testando estes valores nas equaes de otimalidade:

_
mnimo{(8,9) , (2+0,8x13,3)} = 8,9 = g 1 (1)
_
mnimo{(11,1) , (5+0,8x11,7)} = 13,0 = g 1 ( 2)
_
mnimo{(6+0,8x14,3) , (11,7)} = 11,7 = g 1 (3)
_ _
mnimo{(6+0,8x11,3) , (13,3)} = 13,1 < g 1 ( 4) u 2 (4) = 1

A nova poltica admissvel passa a ser ento:


_ _ _ _
u 2 (1) = 2, u 2 (2) = 1, u 2 (3) = 4, u 2 (4) = 1

3a Iterao
Com a nova poltica admissvel o sistema de equaes na terceira iterao
passa a ser o seguinte:

_ _
g 2 (1) = 0 + . g 2 (2)
_ _
g 2 (2) = 4 + . g 2 (1)
_ _

g 2 (3) = 1 + . g 2 (4)
_ _
g 2 (4) = 6 + . g 2 (3)

53
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
_ _
g 2 (1) 0,8x g 2 (2) = 0
_ _
g 2 (2) 0,8x g 2 (1) = 4
_ _
g 2 (3) 0,8x g 2 (4) =1
_ _
- 0,8x g 2 (1) + g 2 (4) = 4

Sua soluo dada por:


_
g 2 (1) = 8,9
_
g 2 (2) = 11,1
_
g 2 (3) = 11,5
_
g 2 (4) = 13,1

Testando estes valores nas equaes de otimalidade:

_
mnimo{(8,9) , (2+0,8x13,1)} = 8,9 = g 2 (1)
_
mnimo{(11,1) , (5+0,8x11,5)} = 11,1 = g 2 (2)
_
mnimo{(6+0,8x11,1) , (11,5)} = 11,5 = g 2 (3)
_
mnimo{(13,1) , (4+0,8x11,5)} = 13,1 = g 2 (4)

Como no h alteraes na poltica admissvel o procedimento se encerra


com a seguinte soluo tima:

54
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

u * (1) = 2, u * (2) = 1, u * (3) = 4, u * (4) = 1


g * (1) = 8,9 , g * (2) = 11,1 , g * (3) = 11,5 , g * (4) = 13,1

Embora o mtodo seja convergente para uma poltica estacionria tima em


um nmero finito de iteraes requer maior esforo computacional a cada
etapa, pois, deve resolver um sistema de equaes lineares. Quanto melhor
for a estimativa inicial da poltica admissvel mais rpida ser a
convergncia.

55
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

4. Programao Dinmica Probabilstica com Horizonte Limitado

4.1. Conceito
Nos modelos determinsticos quando uma deciso atua sobre o sistema o
estado resultante completamente previsvel. Portanto, quando uma
seqncia de decises admissveis atua, a partir de um estado inicial, todas
as transies de estado e seus custos ou retornos correspondentes so
conhecidos com preciso.

Os princpios da Programao Dinmica podem ser estendidos para modelos


estocsticos permitindo transies de estado que envolvem incertezas. No
caso da Programao Dinmica Probabilstica com Horizonte Limitado
atuam sobre o sistema fatores aleatrios de tal forma que a deciso que atua
em um estado de determinado estgio no determina completamente o
estado que o sistema assumir no estgio seguinte. No h, como no caso
determinstico, uma trajetria tima e uma poltica tima. A soluo ser
representada por um conjunto de decises timas com cada uma delas
associada a um estado do estgio correspondente. Ao conjunto de todas as
decises timas denominamos estratgia tima.

4.2. Equao Recursiva de Otimalidade


Como um componente estocstico est presente, seja na forma de um
distrbio aleatrio ou rudo dependendo do contexto, a funo critrio
adotada ser o valor esperado da soma das contribuies em cada estgio.
Logo:
t 1
g ( y (k0 ), k0 ) = E
k = k

f ( y ( k ), u (k ), k )

0

56
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
que preserva as propriedades da aditividade e monotonicidade.

Portanto, a Equao Recursiva de Otimalidade, neste caso, representada


pelo valor esperado timo (maximio ou minimo) da soma das contribuies
de cada estgio, ou seja:

t 1
*
g ( y , k 0 ) = mnimo E
k = k

f ( y (k ), u (k ), k ) =

0

u (k 0 ) U ( y , k 0 )

t 1
= mnimo E f ( y , u (k 0 ), k 0 ) +
k = k +1

f ( y (k ), u (k ), k ) =

0

u (k 0 ) U ( y , k 0 )

t 1
= mnimo E [ f ( y , u (k0 ), k0 )] + mnimo{ E f ( y (k ), u (k ), k ) }
k = k 0 +1
u (k 0 ) U ( y , k 0 ) u (k 0 + 1) U ( y (k 0 + 1), k 0 + 1)

= mnimo { E [ f ( y , u (k 0 ), k 0 )] + g * (r ( y , u (k 0 ), k 0 ), k 0 + 1) }
_
u (k 0 ) U ( y , k 0 )

_ _
onde r ( y, u (k 0 ), k 0 ) e f ( y, u (k0 ), k 0 ) so variveis aleatrias com
distribuio de probabilidade conhecida. Como as distribuies de
probabilidades dos novos estados so conhecidas temos um problema de
deciso sob risco.

57
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
oportuno observar que, nos casos em que os custos (lucros/ganhos)
elementares f ( y , u (k 0 ), k 0 ) no dependem do estgio k0 os clculos ficam

simplificados, pois, os valores esperados E [ f ( y , u (k 0 ), k 0 )] devem ser


calculados apenas uma vez.

Sendo y1 , y2 ,..., yn os estados admissveis no estgio k 0 + 1 o problema


pode ser esquematizado como a seguir, onde cada mudana de estgio
ocorre em dois momentos: no primeiro a deciso u (k 0 ) aplicada ao estado
y no estgio k0 , em seguida atua a componente aleatria levando ento ao
estado resultante da deciso no estgio k 0 + 1 .

58
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Para uma distribuio de probabilidades dos estados y1 , y2 ,..., yn resultantes


da aplicao da deciso u (k 0 ) sobre y dada por
P{Y j = y j , u (k 0 )} = p j , j = 1,2,..., n e sendo c j a contribuio funo
objetivo (custo/lucro/ganho elementar) quando o estado resultante for y j
teremos:

E[ f ( y , u (k0 ), k0 ) + g * (r ( y , u (k 0 ), k 0 ), k0 + 1)] =

E[( f ( y, u(k ), k ) + g (r( y, u(k ), k ), k ]


n
*
= 0 0 0 0 0 + 1)) / Y j = y j , u (k 0 ) P{Y j = y j , u (k 0 )} =
j =1

= p j [c j + g * ( y j , k 0 + 1)]
n

j =1

Em alguns casos possvel resolver a equao recursiva de otimalidade


explicitamente, com considervel ganho computacional, e explorar as
propriedades estruturais do sistema relacionandas a estratgia tima. O
exemplo a seguir refora esta idia e os conceitos apresentados.

4.3. Resoluo Explcita da Equao Recursiva de Otimalidade

Considere um sistema, que se encontra inicialmente no estado i , com


k = 1,2,..., t estgios e para cada estgio existem j = 1,2,..., n estados
admissveis. Quando uma deciso u U (conjunto finito) aplicada ao
estado i h um retorno R (i, u ) , sendo que o prximo estado ser j com

probabilidades pij (u ) conhecidas, j = 1,2,..., n .

59
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Seja Vt (i ) o retorno mximo esperado no ltimo estgio para este sistema,


considerando i como estado inicial. Quando k = 1, isto , com o sistema
atuando em um nico estgio ento a deciso tima dada por:

V1 (i ) = mximo{ R(i, u ) } (1)


u U

Considerando agora o sistema inicialmente no estado i e atuando em k > 1


estgios, se o prximo estado for j ento repete-se o problema anterior,
isto , um sistema iniciando em j atuando em t 1 estgios. Portanto, o
melhor que se poder obter, em relao ao valor esperado do retorno quando
a deciso u U for tomada :

R(i, u ) + pij (u )Vt 1 ( j )


j

Como Vt (i ) o melhor que se pode obter sem restries para a ao inicial


u U temos a seguinte equao recursiva de otimalidade:

Vt (i ) = mximo R(i, u ) + pij (u )Vt 1 ( j ) (2)


j
u U

Observe que esta equao (2), como no poderia deixar de ser, equivalente
a obtida anteriormente, com critrio de minimizao, aplicadas
simplificaes de notao que o caso permite.

60
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

A equao (2) pode ser resolvida recursivamente para Vt (i ) obtendo


inicialmente V1 (i ) e, em seguida, utilizando o resultado com t = 2 na
equao recursiva de otimalidade (2) obtendo V2 (i ) e assim
sucessivamente.

Considere agora a aplicao deste modelo a um jogo simples no qual o


jogador, em cada uma das t rodadas, pode apostar qualquer quantia no-
negativa, limitada pela sua disponibilidade no momento da aposta, podendo
ganhar aquela quantia com probabilidade p ou perder a referida quantia
com probabilidade q = 1 p . O jogador deseja, naturalmente, encerradas as
t rodadas, maximizar seu lucro esperado. Nestas condies qual deve ser a
estratgia tima que maximiza o valor esperado do logaritmo de sua
disponibilidade inicial ?

Seja, como anteriormente, Vt (x) o retorno esperado mximo quando o


jogador tiver x para apostar e t rodadas para jogar. A deciso em cada
rodada o valor da aposta e ficar definido como uma frao 0 1 da
disponibilidade x no momento. Ento a equao recursiva de otimalidade :

Vt ( x) = mximo{ pVt 1 ( x + x) + (1 p)Vt 1 ( x x) }


0 1

com a condio de contorno V0 ( x) = log x .

Fazendo, na equao anterior, t = 1 e utilizando a condio de contorno:

61
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

V1 ( x) = mximo{ p log( x + x) + q log( x x) } =


0 1

= mximo{ p log(1 + ) x + q log(1 ) x } =


0 1

= mximo{ [ p log(1 + ) + q log(1 )] + log x } =


0 1

= mximo{ g( ) + log x } com g ( ) = p log(1 + ) + q log(1 )


0 1

O mximo da funo g ( ) obtido para = p q da seguinte forma:

dg ( ) p q pq
= =0 = = pq
d 1+ 1 p+q

d 2 g ( ) p q
= < 0
d 2 (1 + ) 2 (1 ) 2

Portanto, V1 ( x) = C + log x , x > 0 e C = log 2 + p log p + q log q

Utilizando a equao recursiva de otimalidade para t = 2 tem-se:

V2 ( x) = mximo{ [ p log( x + x) + q log( x x)] + C}


0 1

Resolvendo esta equao da mesma forma que a anterior:

V2 ( x) = 2C + log x

62
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Portanto, fcil deduzir que Vt ( x) = tC + log x e a estratgia tima do


jogador ser apostar uma frao = p q = 2 p 1 da quantidade de
recursos x em qualquer dos estgios/rodadas do jogo. interessante notar
que sendo = p q e 0 1 ento 1 / 2 < p 1. Caso p 1 / 2 ,
caracterizando uma condio desfavorvel de jogo, = 0 e a melhor
estratgia no jogar.

4.4. Resoluo Recursiva da Equao de Otimalidade

Considere o jogo a seguir onde uma pessoa compra uma ficha que lanada
ao acaso sobre uma mesa triangular como a do esquema abaixo.

So iguais as probabilidades da ficha cair nas regies I, II ou III. Se ao ser


laada a ficha cair na regio I, o jogador escolhe e aciona uma das roletas A
ou B. Se a roleta A for a escolhida a sua ficha ter probabilidade de
permanecer na regio I, ganhando 12, e uma probabilidade de de passar
para a regio II, ganhando 4. Se a roleta B for a escolhida algo semelhante
ocorre com probabilidades e ganhos descritos na figura a seguir.

63
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Se cair na regio II, pode escolher entre as roletas C e D, e caindo na regio


III, pode escolher entre as roletas E e F. As probabilidades e os ganhos
respectivos encontram-se indicados na figura anterior.

Aps a primeira jogada, o jogador tem direito a mais duas partindo da regio
resultante do lance anterior e mantendo-se todas as outras condies.

O problema do jogador determinar que roleta deve ser escolhida, a cada


jogada, de modo a maximizar seu ganho esperado.

Os estados sero caracterizados, a cada estgio, pela regio (I, II ou III) em


que cada jogador estiver, em funo das jogadas. Os estgios sero definidos
por:

64
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

k = 0, antes de realizar a primeira jogada

k = j, aps realizar a j-sima jogada ( j = 1, 2, 3)

Aplicando o Princpio da Otimalidade de Bellman, no penltimo estgio


( k = 2 ), quando falta realizar a ltima jogada, no possvel conhecer com
certeza em que regio (estado) estar o jogador. Observe que o mesmo
ocorre no problema determinstico com horizonte limitado, pois, a poltica
tima no conhecida a priori. No caso probabilstico, porm, no sabemos
exatamente qual ser o resultado de cada deciso em funo da atuao do
componente aleatrio. Entretanto, podemos afirmar que, estando o jogador
na regio I e escolhendo a roleta A o seu ganho esperado ser:

1 3
x 12 + x 4 = 6
4 4

Se escolher a roleta B, seu ganho esperado ser:


1 5
x0+ x6=5
6 6

65
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Ento o jogador, estando na regio I, no estgio k = 2 , deve optar pela

roleta A, o que lhe proporcionar o maior ganho esperado ( g * ( I ,2) = 6).

Procedendo de forma anloga para as regies II e III obteremos o diagrama


estado x estgio parcial correspondente aos estgios k = 2 e k = 3 . Caso o
jogador s tivesse direito a uma jogada essas seriam as suas decises timas

( g * ( II ,2) = 10 e g * ( III ,2) = 15).

66
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Suponhamos agora que faltam ainda duas jogadas para o encerramento da


partida. O mesmo raciocnio se repete aqui, ou seja, o fator aleatrio faz com
que no se possa determinar com certeza em que regio estar o jogador.

67
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Se o jogador tomar a deciso de escolher a roleta A, tem probabilidade de
continuar na regio I, com ganho de 12, e uma chance de 3/4 de ir para a
regio II, com ganho de 4. Se ficar em I, sua prxima deciso ser optar pela
roleta A novamente, com ganho esperado de 6. Se for para a regio II, sua
prxima deciso ser a roleta C, com ganho esperado de 10. Ento, tomando
a deciso A, o ganho adicional esperado mximo ser:

1 3
(12 + 6) + (4 + 10) = 4,5 + 10,5 = 15
4 4

Se tomar a deciso B, o seu ganho adicional esperado mximo ser:

1 5
(0 + 6) + (6 + 15) = 1,0 + 17,5 = 18,5
6 6

Portanto, se imediatamente antes da segunda jogada, a ficha estiver no

estado I, a melhor deciso ser a roleta B ( g * ( I ,1) = 18,5) . Procedendo da


mesma forma para as regies II e III obteremos o diagrama estado x estgio
parcial a seguir:

68
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Aplicando o mesmo raciocnio para o estgio k = 0 , ou seja, antes da


primeira jogada, teremos o diagrama estado estgio correspondente ao
problema.

69
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Estratgia tima:

g * ( I ,0) = 31,2 , g * ( II ,0) = 35,3 e g * ( III ,0) = 40,5

u * (0) = ( B, D, E ) , u * (1) = ( B, D, E ) e u * (2) = ( A, C , E )

70
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
A estratgia tima, ou conjunto de decises timas para cada estgio, ser
ento:

Estratgia tima
Estgio Estado Deciso
k =0 I Roleta B
II Roleta D
III Roleta E
k =1 I Roleta B
II Roleta D
III Roleta E
k=2 I Roleta A
II Roleta C
III Roleta E

O ganho esperado timo E [G ] , considerando que os estados no estgio


inicial, k0 = k = 0 , so igualmente provveis dado por:

g * ( I ,0) + g * ( II ,0) + g * ( III ,0) 1


E [G ] = = (31,2 + 35,3 + 40,5) = 35,7
3 3

71
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Estgio k = 2
y (2 + 1) ... varivel aleatria
y (2) u( 2) y p j c j g * ( y,2 + 1) E g * ( y (2),2) _
u( y (2),2)
I 12 0

A 6
II 4 0
I 6 A
I 1/6 0 0

B 5
III 5/6 6 0
I 10 0

C 10
II 10 0
II II 0 0 10 C

D 9
III 12 0
I 36 0

E 15
III 8 0
III II 10 0 15 E

F 13
III 16 0

72
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Estgio k = 1
y (1 + 1) ... varivel aleatria _
y (1) u(1) y p j c j g * ( y,1 + 1) g * ( y (1),1)
E u( y (1),1)
I 12 6

A 15
II 4 10
I 18,5 B
I 1/6 0 6

B 18,5
III 5/6 6 15

I 10 6

C 18
II 10 10
II 22,8 D
II 0 10

D 22,8
III 12 15

I 36 6

E 27,8
III 8 15
III 27,8 E
II 10 10

F 25,5
III 16 15

73
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Estgio k = 0
y (0 + 1) ... varivel aleatria _
y (0) u( 0) y p j c j g * ( y,0 + 1) E g * ( y (0),0)
u( y (0),0)
I 12 18,5

A 27,7
II 4 22,8
I
I 1/6 0 18,5 31,2 B

B 31,2
III 5/6 6 27,8

I 10 18,5

C 30,6
II 10 22,8
II 35,3 D
II 0 22,8

D 35,3
III 12 27,8

I 36 18,5

E 40,5
III 8 27,8
III 40,5 E
II 10 22,8

F 38,3
III 16 27,8

74
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

4.5. Um Jogo de Cartas

Considere um jogo que consiste em sortear uma carta do baralho, observar


seu valor, recolocar a carta de volta e embaralhar. Esta operao pode ser
repetida mais trs vezes se o jogador desejar. Em qualquer etapa o jogo pode
ser interrompido e o jogador ganhar um valor proporcional ao da ltima
carta mostrada.

O jogador ter um ganho de $10 (Valor da Carta k ), onde k = 1, 2, 3, 4


a etapa do jogo, sendo que o s = 1, Valete = 11, Dama = 12 e Rei = 13 e as
demais cartas tm o valor de face normal, independente do naipe.

As regras bsicas do jogo so, portanto, as seguintes:

75
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Os ganhos correspondem ao da ltima carta sorteada (carta de ordem


k ), no podendo o jogador em nenhuma hiptese, optar por uma carta
anterior de maior valor;
O jogador poder optar pelo encerramento do jogo antes da ltima
carta ( k = 4 ) ser sorteada;
A quarta carta sorteada ( k = 4 ) define o valor do jogo e,
necessariamente, o encerra.

Qual a estratgia que maximiza o ganho esperado do jogador ?

Soluo

Os estgios k = 0, 1, 2, 3, 4 do jogo sero definidos por:

0 ..... antes do jogo iniciar


k=
1, 2, 3, 4 ..... aps concluir a k sima jogada

Os estados i = 1, 2,..., 13 representam os valores possveis das cartas nos


estgios k = 1, 2, 3, 4 . No estgio k = 0 o jogo ainda no iniciou e,
portanto, somente o estado inicial i = 0 se aplica. Nos demais estgios k o
estado i = 0 se aplicar quando o jogo for encerrado no estgio anterior
k 1.

S h duas decises admissveis em cada estado:

u1 , continuar jogando
u (i ) =
u 2 , encerrar a partida

Note que para o estado i = 0 , nos estgios k = 1, 2, 3, 4 , no atuar


nenhuma deciso uma vez que o jogo j estar encerrado.

76
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
A tomada da deciso influenciada pelo estado i e pelo estgio k . Por
exemplo:

Se i = 1 (s) e k < 4 a melhor deciso dever ser prosseguir


jogando ( u (1) = u1 ), pois, o valor da prxima carta ser igual, na
pior das hipteses, no tendo o jogador nada a perder arriscando;

Se i 1 e k < 4 ento a deciso no evidente a no ser que


i = 13 (Rei) e, neste caso, o jogador para com o maior ganho
possvel ($130), caso contrrio, poder ou no arriscar buscando
um ganho maior.

Como, por hiptese, os eventos so equiprovveis, a probabilidade do


sistema alcanar o estado j quando a deciso u (i ) = u1 atuar dada por:

4 1
P{ j / u (i ) = u1} = p j = = , j = 1, 2,..., 13
52 13

Esta distribuio de probabilidades independe do estgio considerado.

Se no estado i , do terceiro estgio (k = 3), a deciso u (i ) = u1 for aplicada,


e o jogador receber a quarta carta, o valor esperado do ganho ser:

13 13 13
j 10 13
E[ j / u(i) = u1 ]P{ j / u (i) = u1} = 10 j p j = 10 13 = 13 j = 70 , i = 1,2,...,13
j =1 j =1 j =1 j =1

Entretanto, se a deciso for u (i ) = u 2 (parar), o ganho ser $10 i. Portanto,


o ganho esperado timo g*(i,3), em cada estado i do estgio k = 3 , dado
por:

77
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

g * (i,3) = mximo{ 10 i , 70 }, i = 1, 2,..., 13

$70 , se i 7
g * (i,3) = , i = 1, 2,..., 13
$10 i , se i 8

Segue-se que, concluido o estgio k = 3 e a terceira carta ter sido exibida, se


i 7 a deciso tima ser u*(i) = u1, continuar jogando at a ltima etapa,
pois, o maior ganho possvel $70, enquanto para i 8 a deciso tima
u*(i) = u2, parar.

Esquema do Estgio k =3

78
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Para um estado i do estgio k = 2 se for aplicada a deciso u (i ) = u1 de

continuar jogando, com probabilidade p j = 1/13, a transio poder levar

aos estados j = 8, 9, 10, 11, 12, 13 (oito, nove, dez, Valete, Dama e Rei) com
7
ganho de $10 j . Porm, com probabilidade p
j =1
j = 7/13, o estado

resultante poder ter valor menor ou igual a 7.

Considerando que, no estgio k = 3, a deciso tima para todo estado i 7


u*(i) = u1 com g*(i,3) = $ 70 enquanto para i 8 ser u*(i) = u2 com
g*(i,3) = $10 i, o ganho esperado timo g*(i,2) para os estados i = 1,
2, ..., 13 do estgio k = 2 dado por:

7 13
7 1
g (i,2) = mximo{
*
13 j =1
*
g ( j ,3) +
13 g ( j,3) , 10 i }, i = 1, 2,..., 13
j =8
*

$86,154 , se i 8
g * (i,2) =
$10 i , se i 9

Portanto, se no estgio k = 2 tivermos uma carta i 8 a deciso tima

u * (i ) = u1 , ou seja, continuar jogando. Caso contrrio, se i 9 ento

u * (i ) = u 2 , ou seja, encerrar o jogo.

79
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Esquema do Estgio k=2

No estgio k = 1 , estando o sistema no estado i , se for aplicada a deciso


u (i ) = u1 de continuar jogando, com probabilidade p j = 1/13 a transio
poder levar aos estados j = 9, 10, 11, 12, 13 (nove, dez, Valete, Dama e
Rei) com ganho correspondente $10 j . Entretanto, com probabilidade
8
p j = 8/13 poder ser uma carta de menor valor do que 9.
j =1

80
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

No estgio k = 2 , para todo o estado i 8 tem-se g * (i,2) = $86,154

enquanto para i 9 , g * (i,2) = $10 i , segue-se ento que:


8 13
8 1
g (i,1) = mximo{
*
13 j =1
*
g ( j,2) +
13 g ( j,2) , 10 i } =
j =9
*

= mximo{ 95,325 , 10 i }, i = 1, 2,..., 13

$95,325 , se i 9
g * (i,1) =
$10 i , se i 10

Esquema do Estgio k =1

81
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
No estgio k = 0 , antes de qualquer carta ter sido exibida, o nico estado
i = 0 , quando o jogo ainda no iniciou e nenhuma carta foi observada. A
nica deciso admissvel u (i ) = u1 , ou seja, jogar recebendo carta que,

com probabilidade p j = 1/13 poder ser j = 10, 11, 12, 13 (dez, Valete,
9
Dama e Rei) e com probabilidade p j = 9/13 carta de menor valor. Ento:
j =1

9 9 * 1 13 *
g * (0,0) = mximo{ g ( j ,1) + g ( j,1) , 10 0 }=
13 j =1 13 j =10

= mximo{ 101,379 , 0 }= $101,379

Esquema do Estgio k =0

82
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Ou seja, se as decises timas atuarem sobre o sistema o ganho esperado
timo do jogo ser de $101,379.

Estgio Estado Deciso


k i tima
*
u (i )
0 0 u1
1 i 9 u1
1
i 10 u2
1 i 8 u1
2
i9 u2
1 i 7 u1
3
i8 u2

A seguir apresenta-se o resultado do ganho mdio obtido em uma simulao


considerando 100 repeties do jogo utilizando a estratgia tima ($98,20)
ou uma estratgia gulosa ou mope ($82,40), ou seja, continuar jogando at
a ltima etapa na tentativa de maximizar o ganho.

Ganho Mdio do Jogo

105
100
95
Ganho ( $ )

90 tima
85 Gulosa
80
75
70
10 20 30 40 50 60 70 80 90 100
Nmero de Jogos

83
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

4.6. Manufatura de Produto

Uma fbrica aceitou encomenda para fornecer um nico item de determinado


produto. O cliente estabeleceu requisitos severos de qualidade de tal forma
que o fabricante pode ter que produzir mais de um item at obter um
considerado aceitvel pelo cliente.

O fabricante estima, em funo das caractersticas do produto e do processo


produtivo que pode ser executado em lotes, que a probabilidade de produzir
um item compatvel com os requisitos do cliente de 50% no havendo
possibilidade de reparar um item defeituoso que deve ento ser
imediatamente descartado.

Portanto, a varivel aleatria x que representa o nmero de items


defeituosos em um lote de tamanho u ter distribuio binomial com
parmetros (u, p) , ou seja:

u
P{ X = x} = p x (1 p) u x , x = 0, 1, 2,..., u
x
A probabilidade de produo de um lote com todos os items defeituosos
u
1 1
considerando p = dada por P{ X = u} = e com pelo menos um
2 2
u
1
item aceitvel P{ X < u} = 1 .
2

Os custos unitrios de produo so estimados em $100 por item (mesmo


quando defeituoso). Items produzidos em excesso no tem qualquer valor
para a fbrica. H ainda um custo fixo de $300 para preparao do processo
de produo em lotes independente do tamanho do lote. Se a inspeo
revelar que um lote inteiro foi recusado, ou seja, no houver um nico item

84
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
aceitvel, um custo adicional de $300 ser imputado. O fabricante tem
tempo disponvel para produo de apenas trs lotes na tentativa de obteno
de item aceitvel. Se um item aceitvel no for obtido ao final da terceira
tentativa de produo, os custos do fabricante devido a perda de receita e
penalidades contratuais sero de $1,600.

O objetivo determinar a poltica relativa ao tamanho do lote em cada uma


das trs tentativas de produo que minimize o custo total esperado do
fabricante.

Na formulao do modelo de programao dinmica os estgios sero as


corridas de produo. Portanto:

k =0 ... antes da primeira corrida

k= j ... aps a j-sima corrida, j = 1, 2, 3

Como s h necessidade de produzir um item aceitvel, o estado do sistema


pode ser representado por uma varivel bivalente y j tal que:

1, se nenhum item aceitvel foi produzido


yj =
0, caso contrrio

A varivel de deciso u j ser definida como o tamanho do lote na corrida

de ordem j = 1, 2, 3 . O nmero de items defeituosos r j em uma corrida

de tamanho u j , neste caso, uma varivel aleatria com distribuio

binomial com parmetros (u j , p) .

85
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

Probabilidade de nenhum item ser aceitvel:


u
uj uj 1 j
P{r j = 0} = p(1 p) =
0 2

Probabilidade de pelo menos um item aceitvel:


uj
1
P{r j 1} = 1 P{r j = 0} = 1
2

O esquema da transio de estado com o componente aleatrio pode ser


representado como a seguir:

A equao recursiva de otimalidade dada por:

[ ] [F + 100u ]
u uj
1 j 1
g (1, j ) = mnimo{ (1 ) F + 100u j + g * (0, j + 1) +
*
j + g * (1, j + 1) }
2 2
u j = 0,1,2,...

86
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

com g * (0, j ) = 0, g * (1,3) = 1,600 e

300 , u j > 0

F = j
0 , uj = 0

Assumindo que j foram realizadas duas corridas de produo sem que se


obtivesse nenhum item aceitvel, caso contrrio o processo estaria
encerrado, deve-se decidir o tamanho do lote de produo para a terceira
corrida u3 .

Caso no se obtenha nenhum item aceitvel haver uma penalidade de

$1,600, isto , g * (1,3) = 1,600 . A equao recursiva de otimalidade dada


por:

u3
* 1
g (1,2) = mnimo{ F + 100u3 + g * (1,3) }
2
u3 = 0,1,2,...

0, se u3 = 0
com g * (1,3) = 1,600 e F=
300, se u3 > 0

Os quadros e o diagrama estado estgio a seguir resumem o processo de


clculos.

87
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Estgio k = 2
u3 u
1 3
F + 100u3 + 1,600
y 2
0 1 2 3 4 5 6 g * (1,2) u3*
0 0 0 0
1 1,600 1,200 900 800 800 850 925 800 3 ou 4

Estgio k = 1
u2 u
1 2 *
y F + 100u2 + g (1,2)
2
0 1 2 3 4 5 6 g * (1,1) u*2
0 0 0 0
1 800 800 700 700 750 825 912 700 2 ou 3

Estgio k = 0
u1 u
1 1
y F + 100u1 + g * (1,1)
2
0 1 2 3 4 5 6 g * (1,0) u1*
0 0 0 0
1 700 750 675 687 744 822 911 675 2

88
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

A estratgia tima ser, portanto, u1* = 2, u2* = 2 ou 3 e u3* = 3 ou 4 , ou


seja, produzir dois items (2) na primeira corrida e, se nenhum aceitvel for
obtido, produzir dois (2) ou trs (3) items na segunda corrida, caso nenhum
aceitvel for obtido ento produzir trs (3) ou quatro (4) items na terceira e
ltima corrida de produo. O custo esperado total desta estratgia ser $
675.

89
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

5. Programao Dinmica Probabilstica com Horizonte Ilimitado

5.1. Conceito

Nos modelos determinsticos quando uma deciso atua sobre o sistema as


mudanas de estado ocorrem de maneira previsvel sem envolver nenhuma
incerteza. Por esta razo, no estando presentes fatores aleatrios, adotada
uma seqncia de decises a partir de um estado inicial (poltica), as
transies de estado bem como os custos (lucros) elementares
correspondentes so conhecidos de forma exata.

Os princpios da Programao Dinmica, como visto no caso da


Programao Dinmica Probabilstica com Horizonte Limitado, podem ser
estendidos para modelos estocsticos com horizonte ilimitado, permitindo
que as transies de estado envolvam componentes estocsticas. A estratgia
neste caso adotar como critrio a minimizao (maximizao) dos custos
(lucros) esperados em presena das incertezas envolvidas.

No caso da Programao Dinmica Probabilstica com Horizonte Ilimitado,


as distribuies de probabilidade variam de estgio a estgio. Estaremos,
portanto, lidando com sistemas dinmicos para os quais decises seqenciais
estaro vinculadas a diferentes processos aleatrios. Na modelagem destes
sistemas dinmicos ser adotada a caracterstica fundamental da evoluo
segundo Cadeias de Markov, isto , polticas estacionrias onde as
transies de estado s dependem do estado em que se encontra o sistema e
da deciso a ser aplicada, ou seja, uma transio de estado no depender do
passado.

90
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Sero tratados nesta abordagem apenas os problemas com as seguintes
caractersticas:

Nmero de estados viveis finito i = 1, 2, ..., m ;


Nmero de estratgias estacionrias finito U s , s = 1, 2, ..., q ;
Uma vez definida uma estratgia estacionria U s , se o sistema se
encontrar em um estado i , a probabilidade de que ele passe ao
estado j no depender dos estados anteriormente assumidos, e nem
do estgio em que esta transio estiver ocorrendo;
O custo elementar associado a cada transio de estado no depender
do estgio em que ela ocorre.

Estas hipteses caracterizam a evoluo estocstica do sistema, ou seja, os


estados assumidos no processo, como uma Cadeia de Markov Homognea.
Portanto, a cada estratgia estacionria U s haver uma matriz
de transio de estado (U ) da forma:
s

p11s s
p12 .... p1sm
s

s
p p22 .... p2s m
(U s ) = 21
M M M
s s
pm1 pms 2 .... pmm

Ser adotado o critrio da minimizao (maximizao) do valor esperado da


srie de custos (lucros) elementares para obteno das estratgias
estacionrias timas.

91
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

5.2. Critrio do Valor Atual Esperado

O problema consiste em resolver o sistema de equaes extremas:

g * (i ) = mnimo E [ f (i, u ) + .g * ( j ) ] , i = 1, 2, ..., m


u U (i )
j = r ( i , u)

onde 0 < 1 a taxa de descontos, f (i, u ) e j = r (i, u ) representam


respectivamente a varivel aleatria custo elementar esperado e a varivel
aleatria novo estado quando o sistema se encontrar no estado i e a deciso
u U (i ) for tomada.

Se p j (i, u ) e c j (i, u ) forem, respectivamente, a probabilidade do sistema

evoluir do estado i para o estado j e o custo elementar quando a deciso


u U (i ) for aplicada, as equaes de otimalidade podem ser escritas
como:

g * (i ) = mnimo{ c j (i, u ). p j (i, u ) + . g * ( j ). p j (i, u ) } , i = 1, 2,..., m


j j
u U (i )
j = r ( i , u)

p j (i, u ) = 1 , f (i, u ) = c j (i, u ). p j (i, u ) , u U (i) e i = 1, 2,..., m .


j j

92
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

O valor g * (i ) representa o valor presente (atual) esperado mnimo de iniciar


no estado i e utilizar uma estratgia tima sobre um horizonte ilimitado.
Note que a hiptese adotada de que o sistema evoluir segundo uma Cadeia
de Markov Homognea implica em que as probabilidades p j (i, u )
dependem apenas de i e u e no da histria do sistema em relao
decises e estados anteriores.

A justificativa para a validade desta equao funcional intuitiva, sendo que


a prova formal pode ser encontrada em Ross (1983). Se o sistema em exame
se encontrar inicialmente no estado i e a deciso a ser aplicada u U (i )
levando ao estado j , ento, de imediato, h um custo esperado associado a
esta deciso f (i, u ) . Como na evoluo dinmica do sistema h ainda um
nmero infinito de estgios a partir do estado j , segundo o Princpio da
Otimalidade de Bellman, deve ser acrescentado um custo descontado timo

g * ( j ) . Alm disto, como o estado j ser alcanado com probabilidade

p j (i, u ) e devemos multiplicar g * ( j ) pela taxa de descontos para obter


o valor presente esperado no estado i . Segue-se que

f (i, u ) + p j (i, u ).g * ( j )


j

ser o valor atual (presente) esperado mnimo quando o estado inicial for i
e a deciso que atua sobre o sistema for u U (i ) . Conseqentemente, com
probabilidade 1, a deciso tima no estado i aquela cujo valor atual
esperado mnimo, o que nos leva a equao de otimalidade.

93
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
O sistema de equaes de otimalidade, como no caso determinstico, pode
ser resolvido por dois mtodos:

Aproximaes no Espao dos Critrios


Aproximaes no Espao de Polticas

5.3. Mtodo das Aproximaes no Espao dos Critrios

As caractersticas deste mtodo foram abordadas no problema determinstico


e permitem passar diretamente para a resoluo de um exemplo.

Exemplo

94
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
O sistema, representado esquemticamente no diagrama anterior, pode se
encontrar a cada estgio, nos estados 1 e 2. Em cada estado, podem ser
tomadas uma dentre duas decises: A e B para o estado 1 e C e D para o
estado 2. No diagrama esto representados os custos elementares bem como
as probabilidades das respectivas transies de estado.

S h quatro (04) estratgias estacionrias: (A,C), (A,D), (B,C) e (B,D).


A cada uma das polticas corresponder uma matriz de transio de estado.
Por exemplo, para a poltica (A,C) temos:

(A,C) = 1 / 4 3 / 4
3 / 4 1 / 4

A taxa de descontos considerada para efeito de clculo do valor atual


esperado = 0,80.

Utilizaremos como estimativas, tanto para g * (1) quanto para g * (2) , o

valor 40 e para regra de parada t (i ) = g t* (i ) g t*1 (i ) < 10 2 , i = 1, 2 em

qualquer iterao t .

95
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
Soluo:

Observando o esquema do processo, representado acima, as equaes


recursivas de otimalidade correspondentes so:

1 3
g * (1) = mnimo{(10 + ( g * (1) + g * (2)) , (8 + g * (1))}
4 4

A B

3 1 1 1
g * (2) = mnimo{(7 + ( g * (1) + g * ( 2)) , (7 + ( g * (1) + g * (2))}
4 4 2 2

C D

96
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
1a Iterao
1 3 1 3
g1* (1) = mnimo{( 4 + 12 + 0,8( 40 + 40)) , (8 + 0,8 40)} =
4 4 4 4
= mnimo{(10 + 0,8 40) , (8 + 0,8 40)} = 40 ... Deciso B
3 1 3 1 1 1
g1* (2) = mnimo{( 8 + 4 + 0,8( 40 + 40)) , ( 2 + 12 +
4 4 4 4 2 2
1 1
0,8( 40 + 40))} =
2 2
= mnimo{(7 + 0,8 40) , (7 + 0,8 40)} = 39 ... Deciso C ou D

2a Iterao
1 3
g 2* (1) = mnimo{(10 + 0,8( 40 + 39)) , (8 + 0,8 40)} =
4 4
= mnimo{41,4 , 40} = 40 ... Deciso B

3 1 1 1
g 2* (2) = mnimo{(7 + 0,8( 40 + 39)) , (7 + 0,8( 40 + 39))} =
4 4 2 2
= mnimo{38,8 , 38,6} = 38,6 ... Deciso D

3a Iterao

1 3
g 3* (1) = mnimo{(10 + 0,8( 40 + 38,6)) , (8 + 0,8 40)} =
4 4
= mnimo{41,16 , 40} = 40 ... Deciso B

3 1 1 1
g 3* ( 2) = mnimo{(7 + 0,8( 40 + 38,6)) , (7 + 0,8( 40 + 38,6))} =
4 4 2 2
= mnimo{38,72 , 38,44} = 38,44 ... Deciso D

97
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
4a Iterao

1 3
g 4* (1) = mnimo{(10 + 0,8( 40 + 38,44)) , (8 + 0,8 40)} =
4 4
= mnimo{41,064 , 40} = 40 ... Deciso B

3 1 1 1
g 4* (2) = mnimo{(7 + 0,8( 40 + 38,44) , (7 + 0,8( 40 + 38,44))} =
4 4 2 2
= mnimo{38,688 , 38,376} = 38,376 ... Deciso D

5a Iterao
1 3
g 5* (1) = mnimo{(10 + 0,8( 40 + 38,376)) , (8 + 0,8 40)} =
4 4
= mnimo{41,0256 , 40} = 40 ... Deciso B

3 1 1 1
g 5* ( 2) = mnimo{(7 + 0,8( 40 + 38,376) , (7 + 0,8( 40 + 38,376))} =
4 4 2 2
= mnimo{38,6752 , 38,3504} = 38,3504 ... Deciso D

6a Iterao

1 3
g 6* (1) = mnimo{(10 + 0,8( 40 + 38,3504)) , (8 + 0,8 40)} =
4 4
= mnimo{41,0102 , 40} = 40 ... Deciso B

3 1 1 1
g 6* (2) = mnimo{(7 + 0,8( 40 + 38,3504) , (7 + 0,8( 40 + 38,3504))} =
4 4 2 2
= mnimo{38,6700 , 38,3402} = 38,3402 ... Deciso D

98
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
7a Iterao

1 3
g 7* (1) = mnimo{(10 + 0,8( 40 + 38,3402)) , (8 + 0,8 40)} =
4 4
= mnimo{41,0041 , 40} = 40 ... Deciso B

3 1 1 1
g 7* (2) = mnimo{(7 + 0,8( 40 + 38,3402) , (7 + 0,8( 40 + 38,3402))} =
4 4 2 2
= mnimo{38,6680 , 38,3402} = 38,3361 ... Deciso D

Como a regra de parada atuou, ou seja,

g 7* (i ) g 6* (i ) < 10 2 , i = 1, 2

a estratgia tima (B,D) com valores timos

g * (1) = 40 e g * (2) = 38,33 .

A evoluo das iteraes resumida no quadro a seguir:

Algoritmo da Aproximaes no Espao dos Critrios


Iterao t g*t(1) t(1) u*(1) g*t(2) t(2) u*(2)
1 40 0 B 39 1 C ou D
2 40 0 B 38,6 0,4 D
3 40 0 B 38,44 0,16 D
4 40 0 B 38,376 0,064 D
5 40 0 B 38,3504 0,0256 D
6 40 0 B 38,3402 0,0102 D
7 40 0 B 38,3361 0,0041 D

99
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

5.4. Mtodo das Aproximaes no Espao das Polticas

Como no mtodo anterior vamos passar diretamente ao exemplo adotando,


na soluo dos sistemas de equaes lineares, uma preciso de 10-1.

1a Iterao

Escolhemos, inicialmente, a estratgia (A,C), ou seja,

u 0 (1) = A e u 0 (2) = C

obtendo o seguinte sistema de equaes lineares:

1 3 1 3
g 1 (1) = ( 4 + 12) + 0,8( g 1 (1) + g 1 (2))
4 4 4 4
3 1 3 1
g 1 (2) = ( 8 + 4) + 0,8( g 1 (1) + g 1 ( 2))
4 4 4 4

cuja soluo g 1 (1) = 43,5 e g 1 (2) = 41,5 .

Testando estes valores nas equaes de otimalidade:

mnimo{ 43,5 , (8 + 0,8 43,5) } = 42,8 < g 1 (1) u 2 (1) = B


1 1 1 1
mnimo{ 41,5 , (( 2 + 12) + 0,8( 43,5 + 41,5)) } = 41,5 = g 1 (2)
2 2 2 2

A nova poltica admissvel passa a ser: u 2 (1) = B e u 2 (2) = C.

100
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
2a Iterao

Com a nova estratgia (poltica admissvel) o sistema de equaes passa a


ser o seguinte:

g 2 (1) = (1 8) + 0,8 g 2 (1)


3 1 3 1
g 2 (2) = ( 8 + 4) + 0,8( g 2 (1) + g 2 (2))
4 4 4 4

Resolvendo o sistema de equaes lineares temos:

g 2 (1) = 40 e g 2 (2) = 38,8

Testando estes valores nas equaes de otimalidade:

1 3 1 3
mnimo{ (( 4 + 12) + 0,8( 40 + 38,8)) , 40 } = 40 = g 2 (1)
4 4 4 4
1 1 1 1
mnimo{ 38,8 , (( 2 + 12) + 0,8( 40 + 38,8)) } = 38,5 < g 2 (2)
2 2 2 2
u 3 (2) = D

A nova estratgia passa a ser ( u 3 (1) = B , u 3 (2) = D ).

101
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
3a Iterao

Com a nova estratgia (poltica admissvel) o sistema de equaes passa a


ser:

g 3 (1) = (1 8) + 0,8 g 3 (1)


1 1 1 1
g 3 (2) = ( 2 + 12) + 0,8( g 3 (1) + g 3 (2))
2 2 2 2

Resolvendo o sistema de equaes lineares temos:

g 3 (1) = 40 e g 3 (2) = 38,35

Testando estes valores nas equaes de otimalidade:

1 3 1 3
mnimo{ (( 4 + 12) + 0,8( 40 + 38,5)) , 40 } = 40 = g 3 (1)
4 4 4 4
3 1 3 1
mnimo{ (( 8 + 4) + 0,8( 40 + 38,5) , 38,35) } = 38,35 = g 3 (2)
4 4 4 4

Com a preciso adotada na soluo das equaes lineares, neste caso (10-1),
o algoritmo termina obtendo em trs iteraes a estratgia tima efetiva

(u * (1) = B , u * (2)) = D e com os valores presentes esperados

g * (1) = 40 e g * (2) 38,33 .

102
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO

6. Referncias Bibliogrficas

ARDUINO, A., Programao Dinmica, PDD-1/72, Universidade Federal


do Rio de Janeiro, COPPE/UFRJ, junho 1972.
BATHER, J. A., Decision Theory: An Introduction to Dynamic
Programming and Sequential Decisions, John Wiley and Sons, 2000.
BERTSEKAS, D. P., Dynamic Programming: Deterministic and Stochastic
Models, Prentice-Hall Inc., Englewood Cliffs, NJ, 1987.
BERTSEKAS, D. P., Dynamic Programming and Optimal Control, 2nd
Edition, Vols. I and II, Athena Scientific, 2001.
BRONSON, R. and NAADIMUTHU, G., Operations Research, Second
Edition, Schaums Outline Series, McGraw-Hill, 1997.
CORMEN, T. H., LEISERSON, C. E. and RIVEST, R. L., Introduction to
Algorithms, Second Edition, McGraw-Hill Book Company, 2001.
DREYFUS, S. E. and LAW, A. M., The Art and Theory of Dynamic
Programming, Academic Press, 1977.
EDGAR, T. F. and HIMMELBLAU, D. M., Optimization of Chemical
Processes, McGraw-Hill Book Company, 1989.
EDMONDS, J., Matroids an the Greedy Algorithm, Mathematical
Programming, (1) 127-136, 1971.
GOLDBARG, M. C. e LUNA, H. P., Otimizao Combinatria e
Programao Linear Modelos e Algoritmos, Editora Campus, 2000.
HILLIER, F. S. and LIEBERMAN, G. J., Introduction to Operations
Research, Seventh Edition, McGraw-Hill, 2001.
MITTEN, L.G., Composition Principles for Synthesis of Optimal Multistage
Processes, Operations Research, 12, 610-619, 1964.
NEMHAUSER, G. L., Introduction to Dynamic Programming, John Wiley
and Sons, New York, 1966.
PUTERMAN, M. L., Markov Decision Processes: Discrete Stochastic
Programming, Wiley-Interscience, 1994.

103
XXXIV SIMPSIO BRASILEIRO DE PESQUISA OPERACIONAL 8 a 11 de novembro de 2002, Rio de Janeiro/RJ
A PESQUISA OPERACIONAL E AS CIDADES
SBPO
RAGSDALE, C. T., Spreadsheet Modeling and Decision Analysis, Third
Edition, South-Western College Publishing, 2001.
ROSS, S. M., Introduction to Stochastic Dynamic Programming, Academic
Press, New York, 1983.
ROSS, S. M., Introduction to Probability Models, 7th Edition, Academic
Press, 2000.
WAGNER, H. M., Principles of Operations Research with Applications to
Managerial Decisions, Prentice-Hall Inc., 1969.

104

Potrebbero piacerti anche