Sei sulla pagina 1di 55

04/09/2017

2.- Cadenas de Markov

Modelos de Investigacin de Operaciones II: II410


M.C. Marco A. Jimenez Perez, CPIM
Agosto - Diciembre 2017

Descripcin

A veces estamos interesados en los cambios que sufre


una variable aleatoria a travs del tiempo.

El estudio de como se comporta una variable aleatoria en


el tiempo incluye el estudio de los procesos estocsticos.

Una explicacin de los procesos estocsticos en


particular, un tipo de proceso estocstico conocido como
cadena de Markov se va a analizar.

Iniciamos mediante definir el concepto de un proceso


estocstico .

1
04/09/2017

2.1 Que es un proceso estocstico?

Suponga que observamos alguna caracterstica de un


sistema en puntos discretos en el tiempo.

Sea Xt el valor de la caracterstica del sistema en el tiempo


t. En la mayora de las situaciones, Xt no es conocida con
certeza entes del tiempo t y puede ser vista como una
variable aleatoria.

Un proceso estocstico de tiempo discreto es


simplemente una descripcin de la relacin entre las
variables aleatorias X0, X1, X2 ..

Proceso estocstico de tiempo discreto


Ejemplo 1 (caso del apostador):
En el tiempo 0 tenemos $2, en los tiempos 1, 2, juego en el
cual apostamos $1, con probabilidad p ganamos el juego y con
probabilidad de 1-p perdemos el juego.
La meta es incrementar el capital a $4 y cuando lo logremos el
juego se acaba. El juego tambin se acaba si el capital llega a
ser $0.
Si definimos Xt como la posicin de capital despus de haber
jugado en el tiempo t, entonces X0, X1, .. Xt pueden ser vistos
como un proceso estocstico de tiempo discreto.
Notemos que X0 = 2 es una constante conocida, pero X1, .. Xt
son aleatorias. Por ejemplo, con probabilidad p X1 seria = 3 y
con probabilidad 1 p X1 = 1.
Si Xt = 4 entonces las Xt +1 y las posteriores serian = 4. Igual si
Xt = 0 entonces Xt +1 y las posteriores serian = 0.
4

2
04/09/2017

Proceso estocstico de tiempo discreto


Ejemplo 2 (bolas en una urna):
Si tuviramos 2 bolas sin pintar en una urna, tomamos una bola
y lanzamos una moneda, si cae guila pintamos la bola de rojo,
si cae sello la bola seleccionada es pintada de negro. Si la bola
ya estaba pintada entonces dependiendo de la bola que salga
elegida cambiamos el color de la bola (de negro a rojo o de rojo
a negro) sin importar la cara de la moneda.
Si definimos t como el tiempo de arrojar la moneda por t-ava
vez, el estado en cualquier tiempo puede ser descrito por el
vector [s r n] donde s es el numero de bolas sin pintar, r las
pintadas de rojo y n las de negro. Iniciamos con X0 = [2 0 0],
despus de la 1era moneda el vector puede ser X1 = [1 1 0] o
bien X1 = [1 0 1].
Debe haber relacin entre las Xts. Por ejemplo si Xt = [0 2 0],
sabemos que el siguiente evento ser Xt+1 = [0 1 1].
5

Proceso estocstico de tiempo continuo


Un proceso estocstico de tiempo continuo es
simplemente el proceso estocstico en el cual el estado de
el sistema puede ser visto en cualquier tiempo, no solo en
instantes discretos en el tiempo (final de da, etc.)
Por ejemplo, al numero de personas en un supermercado t
minutos despus que la tienda abre para ventas puede ser
visto como un proceso estocstico de tiempo continuo.

3
04/09/2017

2.2 Que es una Cadena de Markov?


Una cadena de Markov es un tipo especial de proceso
estocstico de tiempo discreto.

Definicin: Un proceso estocstico de tiempo discreto es


una cadena de Markov si, para t = 0,1,2 y todos los
estados
P(Xt+1 = it+1|Xt = it, Xt-1=it-1,,X1=i1, X0=i0)
=P(Xt+1=it+1|Xt = it)

Esencialmente esto dice que la distribucin de


probabilidad del estado en el tiempo t+1 depende del
estado en el tiempo t(it) y no depende de los estados por
los que la cadena ha pasado en su camino hacia it en el
tiempo t.
7

Cadena de Markov..
En nuestro estudio de las cadenas de Markov, hacemos la
suposicin subsecuente que para todos los estados i y j y
todos los t, P(Xt+1 = j|Xt = i) es independiente de t.
Esta suposicin nos permite escribir P(Xt+1 = j|Xt = i) = pij
donde pij es la probabilidad de que dado que el sistema
esta en el estado i al tiempo t, estar en un estado j en el
tiempo t+1.
Si el sistema se mueve desde el estado i durante un
periodo al estado j durante el siguiente periodo, decimos
que ha ocurrido una transicin de i a j.

4
04/09/2017

Cadena de Markov..
Las pijs son referidas como las probabilidades de
transicin para la cadena de Markov.
Esta ecuacin implica que la ley de probabilidad que
relaciona el estado en el siguiente periodo con el estado
actual no cambia con el tiempo.
Con frecuencia se le llama suposicin de
Estacionariedad y cualquier cadena de Markov que
satisface esta suposicin es llamada cadena de Markov
estacionaria.
Tambin debemos definir qi como la probabilidad de que
la cadena este en el estado i al tiempo 0; en otras
palabras, P(X0=i) = qi.

Cadena de Markov..
Llamamos al vector q= [q1, q2,qs] la distribucin de
probabilidad inicial para la cadena de Markov.

En la mayora de las aplicaciones, las probabilidades de


transicin son mostradas como una matriz de
probabilidades de transicin P de s x s . La matriz de
probabilidades de transicin P puede escribirse como:

10

5
04/09/2017

Cadena de Markov..
Dado que el estado en el tiempo t es i, el proceso tiene
que estar en algn estado en el tiempo t +1. Esto significa
que para cada estado i:

Tambin sabemos que cada valor en la matriz P debe ser


no-negativo.
Por ende, todos los valores en la matriz de probabilidades
de transicin son no-negativos, y los valores en cada
rengln deben sumar 1.

11

Ejemplo del apostador


Dado que la cantidad de dinero despus de t+1 jugadas depende solo
de la historia pasada del juego a travs de la cantidad de dinero que
se tiene despus de t jugadas. Adems las reglas del juego no han
cambiado con el tiempo tenemos una cadena de Markov estacionaria.
Estado j

Estado i

Si tenemos $0 o si tenemos $4 se detiene el juego, p00 = p44 = 1.


Grficamente:

12

6
04/09/2017

Ejemplo bolas en una Urna


Dado que el estado de la urna despus del siguiente lanzamiento de la
moneda solo depende de la historia pasada del proceso a travs del
estado de la urna despus del lanzamiento de moneda actual
entonces tenemos una cadena de Markov estacionaria. La matriz de
transicin seria: Estado j

Estado i

Grficamente:

13

2.3 Probabilidades de Transicin de n Pasos


Una pregunta de inters cuando estudiamos una cadena
de Markov es:
Si una cadena de Markov esta en un estado i en el
tiempo m, cual es la probabilidad de que n periodos
despus de que la cadena de Markov estar en estado j?
Esta probabilidad ser independiente de m, de forma que
podemos escribir:

P(Xm+n =j|Xm = i) = P(Xn =j|X0 = i) = Pij(n)

donde Pij(n) es llamada probabilidad de n-pasos de una


transicin desde estado i a estado j.
Para n > 1, Pij(n) = ij-avo elemento de Pn

14

7
04/09/2017

Probabilidades de Transicin de n Pasos..


Claramente Pij(1) = pij. Para poder determinar Pij(2)
primero notemos que si el sistema esta ahora en estado i
entonces para que el sistema termine en estado j despus
de 2 periodos a partir de ahora, debemos primero ir desde
el estado i a algn estado k y entonces ir desde el estado k
al estado j:

Estado

Tiempo 0 Tiempo 1 Tiempo 2

15

Probabilidades de Transicin de n Pasos..


Este razonamiento nos permite escribir:

Con este razonamiento, podemos escribir para n > 1

Por supuesto, para n=0, Pij(0)= P(X0 = j| P(X0 = i), entonces:

16

8
04/09/2017

Ejemplo de Refresco de Cola


Suponga que la industria de refresco de cola solo produce
dos marcas de refresco.
Dado que la ultima compra de una persona fue cola 1, hay
una probabilidad de 90% de que su prxima compra ser
cola 1.
Dado que la ultima compra de una persona fue cola 2, hay
una probabilidad de 80% de que su prxima compra ser
cola 2.
1. Si una persona es actualmente un comprador de cola 2, cual es la
probabilidad de que va a comprar cola 1 dos compras despus de
ahora?
2. Si una persona es actualmente un comprador de cola 1, cual es la
probabilidad de que vuelva a comprar cola 1 tres compras despus?

17

Ejemplo de Refresco de Cola...Solucin:


Podemos ver la compra de cada persona como una
cadena de Markov con el estado en cualquier tiempo dado
como el tipo de cola que la persona compro la ultima vez.

Por tanto, la compra de cola de cada persona puede


representarse mediante una cadena de Markov, donde
Estado 1 = ultima compra de una persona fue cola 1
Estado 2 = ultima compra de una persona fue cola 2

Si definimos Xn como el tipo de cola comprada por una


persona en su n-ava compra futura de cola, entonces X0,
X1, pudiera ser descrita como la cadena de Markov con
la siguiente matriz de transicin:

18

9
04/09/2017

Ejemplo de Refresco de Cola...Solucin:

Ahora podemos contestar las preguntas 1 y 2.


1. Buscamos P(X2 = 1|X0 = 2) = P21(2) = elemento 21 de P2:

Entonces, P21(2) =.34. Esto significa que la probabilidad


es .34 de que a dos compras en el futuro un bebedor de
refresco de cola 2 va a comprar refresco de cola 1.
19

Ejemplo de Refresco de Cola...Solucin:


Mediante teora de probabilidad, pudiramos obtener esta
misma respuesta:

Tiempo 0 Tiempo 1 Tiempo 2

2. Ahora buscamos P11(3) = elemento 11 de P3:

Por lo tanto, P11(3) = .781


20

10
04/09/2017

Probabilidades de Transicin de n Pasos..


En muchas situaciones nosotros no conocemos el estado
de la cadena de Markov en el tiempo 0.
Como se defini antes, sea qi la probabilidad de que la
cadena este en estado i en el tiempo 0. Entonces
podemos determinar la probabilidad de que el sistema
este en estado i en el tiempo n usando el razonamiento:
Probabilidad de estar en estado j al tiempo n

Donde q=[q1, q2, qs]. 21

Probabilidades de Transicin de n Pasos..


Volviendo al ejemplo de los refrescos, supongamos que el
60% de la gente ahora bebe cola 1 y el 40% bebe cola 2.
En 3 compras a partir de ahora, que fraccin de todos los
compradores estar bebiendo cola 1?
Dado que q = [.6 .4] y qx(columna 1 de P3) = probabilidad de que
a 3 compras a partir de ahora una persona tomara cola 1:

Por esto, a 3 compras a partir de ahora, el 64% de los


compradores estarn comprando cola 1.
Para ilustrar el comportamiento de las probabilidades de
transicin de n-pasos para valores grandes de n, se han
calculado varias de las probabilidades de transicin de n-
pasos para el ejemplo del refresco de Cola.
22

11
04/09/2017

Probabilidades de Transicin de n Pasos..

Esto significa que para un valor grande de n, sin importar


cual es el estado inicial, hay una probabilidad de .67 de
que una persona ser un comprador de cola 1.
Tambin hay una probabilidad de 0.33 de que una persona
ser comprador de cola 2.
Podemos multiplicar matrices en Excel usando MMULT.
23

Ejemplo del Clima


En el pueblo de Rio Seco el clima cambia con rapidez, en
particular, la probabilidad de que maana este seco es de
80% si hoy esta seco, pero de 60% si hoy llueve. Estas
probabilidades no cambian si se considera la informacin
del clima en das anteriores.
El valor de la variable aleatoria Xt para t=0,1,2,

Desarrollar la matriz de probabilidad de transicin P


Calcular la probabilidades del clima para t=2, 3, 4 y 5

24

12
04/09/2017

Ejemplo del Clima

25

Ejemplo de Inventarios
La tienda de computadoras Just a Bit vende un modelo especial de
laptop que puede reabastecer cada semana. Sea D1, D2, , la demanda
semanal (incluye ventas perdidas) afectando el nivel de inventario al
final de la semana:
Dt = numero de laptops que se venderan en la semana t si el
inventario no se agota (incluye ventas perdidas cuando se agota
el inventario).
Las demandas Dt son vars. aleatorias independientes e idnticamente
distribuidas que siguen una fdp. de Poisson con media = 1.
Sea X0 el numero de laptops que se tienen en el tiempo 0, X1 el
numero de laptops al final de la semana 1, entonces la var. aleatoria:
Xt = numero de laptops disponibles al final de la semana t.
Por ejemplo, supongamos que X0 = 3 (semana 1 inicia con 3 laptops)
Entonces {Xt } = {X0, X1, X2, } es un proceso estocstico donde la var.
aleatoria Xt representa el estado del sistema en el tiempo t.

26

13
04/09/2017

Ejemplo de Inventarios..
El sbado en la noche se reordenan ms laptops al proveedor que
entrega el Lunes a la hora que abre la tienda. La tienda tiene la
siguiente poltica de ordenar:
Si Xt = 0, ordenar 3 laptops al proveedor
Si Xt 1, no se ordenan laptops al proveedor
Por lo tanto el inventario flucta entre 0 y 3 laptops, por lo que los
estados del sistema al final de cada semana son 0, 1, 2 y 3 laptops.
Como cada var. aleatoria Xt (t=0, 1,2,..) representa el estado del
sistema al final de la semana t, sus nicos valores son , 1, 2 y 3. Las
vars. aleatorias Xt son dependientes y se pueden evaluar en forma
iterativa por medio de la expresin:

Entonces Xt+1 depende solamente de Xt y del valor de Dt+1 , como Xt+1


es independiente de la historia de inventarios antes de t, entonces el
proceso tiene la propiedad Markoviana. 27

Ejemplo de Inventarios..
Entonces la matriz de transicin de 1 paso seria:

dado que Dt+1 tiene una fdp. Poisson con media = 1 entonces:

Para cada Dt+1 entonces:

28

14
04/09/2017

Ejemplo de Inventarios..
Entonces el primer rengln de la matriz de transicin P de 1 paso
cuando Xt = 0 a algn estado Xt+1 como 0, 1, 2, o 3:
P00 = implica que se repusieron las 3 laptops y la demanda fue de
3 o mas para volver a dejar el inventario en 0, es decir:

En el caso de los renglones Xt = 1 y Xt = 2 aplicamos la formula Xt 1,


en las primeras 2 columnas esto implica que Xt+1 Xt lo cual sin
reposicin no es posible, por ello P12 = P13 = P23 = 0.
En otros resultados:
P11 = P{Dt+1 = 0} = 0.368
P10 = P{Dt+1 1} = 1 - P{Dt+1 = 0} = 1 - .368 = .632
P22 = P{Dt+1 = 0} = 0.368 y P21 = P{Dt+1 = 1} = 0.368
P20 = P{Dt+1 2} = 1 - P{Dt+1 1} = 1 - .368 - .368 = 0.264 29

Ejemplo de Inventarios..
En el ultimo rengln de P la semana t+1 inicia con 3 laptops lo cual es
equivalente al primer rengln donde se ordenaron 3 laptops para
iniciar semana, por lo que la matriz P completa queda:

Grficamente:

30

15
04/09/2017

Ejemplo de Inventarios..
Podramos estar interesados en por ejemplo si tenemos solo 1 laptop
al final de la semana , la probabilidad de que no haya laptops en
inventario 2 semanas despus:

Esta es P10(2) = 0.283, Tambin si tuviramos 2 laptop el final de la


semana, la probabilidad de que haya 3 seria P23(2) = 0.097

31

Ejemplo de Inventarios..
Ahora bien, se puede obtener la matriz P(4) mediante:

Tambin para 8 pasos P(8):

32

16
04/09/2017

2.4 Clasificacin de los Estados en una Cadena de Markov

Para entender lo transicin de n pasos en mayor detalle,


necesitamos estudiar como se clasifican los estados de
una cadena de Markov.
La siguiente matriz de transicin y su grfica ilustra la
mayora de las siguientes definiciones.

33

Clasificacin de los Estados..


Definicin: Dados dos estados i y j, un camino desde i
hasta j es una secuencia de transiciones que inicia en i y
termina en j, de forma que cada transicin en la
secuencia tiene una probabilidad positiva de ocurrencia.
Definicin: Un estado j es accesible desde el estado i si
hay un camino que conduzca desde i hasta j, es decir si
pij(n) >0 para alguna n>0.
Definicin: Dos estados i y j se dice que se comunican
si j es accesible desde i, e i es accesible desde j.
Por ejemplo: el estado 5 es
accesible desde 3 pero no es
accesible desde el estado 1.
Los estados 1 y 2 se
comunican entre si.
34

17
04/09/2017

Clasificacin de los Estados..


Definicin: Un conjunto de estados S en una cadena de
Markov es un conjunto cerrado si ningn estado fuera de
S es accesible desde cualquier estado en S.

Por ejemplo: S1= {1, 2} y S2= {3,


4, 5} son conjuntos cerrados,
ninguna flecha va de S1 a S2 y
viceversa.

Definicin: Un estado i es un estado absorbente si pij=1.


Cuando se entra en un estado absorbente ya no se puede
abandonar. Un estado absorbente es un conjunto cerrado
de solo un estado.
En el ejemplo de la apuestas, los estados $0 y $4 son estados
absorbentes.
35

Clasificacin de los Estados..


Definicin: Un estado i es un estado transitorio si existe
un estado j que es accesible desde i, pero el estado i no es
accesible desde el estado j. El estado i ser visitado un
numero finito de veces, en n la prob. de estar en i es 0.
Es decir, un estado i es transitorio si hay una forma (probabilidad
positiva) de salir de i que nunca regresa al estado i.
En el ejemplo de la apuestas los estados $1, $2 y $3 son
transitorios. Se puede ir de $2 a $4 pero una vez en $4 no hay
forma de regresar a $2.

En el ejemplo de las bolas en una urna, cuando hay una o mas


bolas sin pintar [2 0 0], [1 1 0] y [1 0 1] son estados transitorios,
cuando ambas bolas estn pintadas ya no hay forma de regresar a
alguno de esos 3 estados. En [1 0 1] hay una probabilidad 1 que
con el tiempo la bola sin pintar ser pintada y no regrese a [1 0 1].
36

18
04/09/2017

Clasificacin de los Estados..


Definicin: Si un estado i no es transitorio es denominado
estado recurrente.
En el ejemplo de las apuestas, el estado $0 y $4 son recurrentes
(tambin son absorbentes).
En el ejemplo de las bolas en la urna, los estados con ambas bolas
pintadas [0 2 0], [0 1 1] y [0 0 2] son todos estados recurrentes.
En el ejemplo abajo todos los estados son recurrentes.

Si todos los estados se comunican, se dice que la cadena de Markov


es irreducible.
37

Clasificacin de los Estados..


Definicin: Un estado i es peridico con periodo k >1 si k
es el numero menor tal que todos los caminos que llevan
desde estado i de vuelta a estado i tienen una longitud que
es mltiplo de k. Si un estado no es peridico se dice que
es aperidico.
Por ejemplo en la siguiente matriz de transicin:

1 1
1
2
3
1

Si iniciamos en estado 1 la nica forma de regresar a 1 es a travs


de el camino 1-2-3-1, por lo que el estado 1 tiene un periodo k = 3,
desde el estado que sea estamos seguros de regresar 3 periodos
mas tarde.
38

19
04/09/2017

Clasificacin de los Estados..


Definicin: Si todos los estados en una cadena son
recurrentes, aperidicos y se comunican entre si, se dice
que la cadena es ergdica.
En el ejemplo de las apuestas no es ergdica porque por ejemplo
los estados 3 y 4 no se comunican.
El ejemplo de las bolas en la urna no es ergdico porque los
estados [2 0 0] y [0 1 1] no se comunican.
Ejemplo de las colas si es ergdico.
Mas ejemplos:

Ergdica
Ergdica No ergdica
39

2.5 Probabilidades de Estado Estable y Tiempos


de Primer Paso
Las probabilidades de estado estable son usadas para
describir el comportamiento a largo plazo de una cadena
de Markov.

Teorema 1: Sea P la matriz de transicin de una cadena


ergdica de s estados. Entonces, existe un vector
= [1 2 s] tal que:

40

20
04/09/2017

Probabilidades de Estado Estable

El teorema 1 nos dice que para cualquier estado inicial i :

Podemos observar que Pn para valores grandes de n, se


aproxima a una matriz con renglones idnticos, lo que
significa que despus de mucho tiempo la cadena de
Markov se estabiliza e (independientemente del estado
inicial i) hay una probabilidad j de estar en estado j.

El vector = [1 2 s] es frecuentemente
denominado distribucin de estado-estable, o
distribucin de equilibrio para la cadena de Markov.

41

Probabilidades de Estado Estable


Del teorema 1 podemos observar que para una n grande y
para toda i :
(1)
Dado que Pij(n+1) = (rengln i de Pn) x (columna j de P):
(2)

Si n es grande sustituyendo (1) en (2):


(3)

En forma matricial (3) puede escribirse como = P (3)


Desafortunadamente este sistema de ecuaciones tiene un
numero infinito de soluciones. Para resolverlo agregamos:
para n
42
(4) (5)

21
04/09/2017

Probabilidades de Estado Estable


Ejemplo de los refrescos de cola:

entonces si aplicamos 8 y 8 obtenemos:

reemplazando la segunda ecuacin por


la expresin obtendremos el sistema:

Resolviendo para 1 y 2 obtenemos 1 = 2/3 y 2 = 1/3 lo


cual coincide con las probabilidades encontradas
anteriormente a largo plazo de que una persona comprara
cola 1 y de comprar cola 2.
43

Probabilidades de Estado Estable


Ejemplo del clima:
El ejemplo se formul en la seccin anterior y tiene slo dos estados
(seco y lluvioso), por lo que las ecuaciones anteriores de estado
estable se convierten en:

Observe que una de las dos primeras ecuaciones es redundante puesto


que ambas ecuaciones se reducen a 0 = 3 1. Al combinar estos
resultados con la tercera ecuacin se producen de inmediato las
siguientes probabilidades de estado estable:

Son las mismas probabilidades de estado estable que se obtuvieron en 5


pasos.
44

22
04/09/2017

Probabilidades de Estado Estable


Ejemplo de inventarios: Tenemos la matriz de transicin P:

Por lo que podemos sustituir:

Resolviendo las ultimas 4 ecuaciones:

Que corresponden a los valores encontrados en 8 pasos.


45

Anlisis Transitorio e Interpretacin Intuitiva


No hay reglas generales acerca de que tan rpido una
cadena de Markov alcanza su estado estable, pero si tiene
pocos elementos y son cercanos a 0 o a 1 lo alcanzar
rpidamente.
El comportamiento de una cadena de Markov antes de
alcanzar el estado estable es denominado comportamiento
transitorio (o de corto plazo).
Recordemos de la seccin 2.3, la probabilidad de estar en
estado j al tiempo n

Se puede obtener una interpretacin intuitiva acerca de las


ecuaciones anteriores de probabilidad de estado estable (3):

46

23
04/09/2017

Anlisis Transitorio e Interpretacin Intuitiva..


Restando j pij a en ambos lados Podemos escribir:

(6)

Esta ecuacin establece que en el estado estable:


Prob. de que una transicin particular deje el estado j =
prob. de que una transicin particular entre al estado j
Para entender el lado izquierdo: Recordemos que en
estado estable la probabilidad de que el sistema est en
estado j es j, de esta observacin se deriva que:
Prob. de que una transicin particular deje el estado j =
(prob. de que el periodo actual se encuentre en j)
x (probabilidad de que la transicin actual salga de j)
47

Anlisis Transitorio e Interpretacin Intuitiva..


Para entender el lado derecho:
Prob. de que una transicin particular entre al estado j =
(prob. de que el periodo actual se encuentre en k j)
x (probabilidad de que la transicin actual entre a j)

Esta ecuacin puede ser vista como estableciendo que en


estado estable, el flujo de probabilidad hacia dentro de
cada estado debe igualar el flujo de probabilidad hacia
afuera de cada estado.

Si no existiera dicha igualdad se acumularan las


probabilidades los cual hara imposible el estado estable,
por ello se les llama probabilidades de equilibrio. 48

24
04/09/2017

Probabilidades de Estado Estable en Toma de Decisiones

Ejemplo de refresco de Cola:


En el ejemplo de refresco de Cola, supongamos que cada
cliente hace una compra de refresco de cola durante la
semana.
Suponga que hay 100 millones de clientes de cola.
La venta de 1 unidad de Cola le cuesta a la compaa $1
producirla y es vendida por $2.
Por una suma de $500 millones/anual, una firma de
publicidad garantiza el reducir de 10% a 5% la fraccin de
clientes de cola 1 que se cambian a cola 2 despus de una
compra.
Debera la compaa que fabrica cola 1 contratar a la
empresa de publicidad?
49

Estado Estable en Toma de Decisiones..

Actualmente, una fraccin 1 = de todas las compras son


compras de cola 1.
Por cada compra de cola 1 la compaa gana $1 de utilidad.
Podemos calcular la utilidad anual como 52 semanas x (100
M de clientes) = 5200 M de compras de cola anualmente,
por lo que la utilidad anual por cola 1:

2/3 ($5,200000,000) = $3,466,666,667.

La empresa de publicidad esta ofreciendo cambiar la matriz


P hacia:

50

25
04/09/2017

Estado Estable en Toma de Decisiones..

Para P1, las ecuaciones de estado estable son

Reemplazando la segunda ecuacin por 1 + 2 = 1 y


resolviendo el sistema, obtenemos 1=.8 y 2 = .2.
Ahora la utilidad anual de la compaa de cola 1 sera de

Si le quitamos el costo de la compaa de publicidad:

51

Tiempos Promedio de Primera Pasada


Para una cadena ergdica, sea mij = nmero esperado de
transiciones antes de que por primera vez alcancemos el
estado j, dado que actualmente estamos en el estado i; mij
es llamada tiempo promedio de primera pasada desde
el estado i al estado j.
En el ejemplo de los refrescos de Cola, asumimos que
actualmente estamos en estado i. Entonces con
probabilidad pij, nos tomara una transicin el ir desde el
estado i al estado j.
Para k j, nos desplazamos con probabilidad pik desde i al
estado k. En este caso, tomara un promedio de 1 + mkj
transiciones el ir de i hasta j.

52

26
04/09/2017

Tiempos Promedio de Primera Pasada..


Este razonamiento implica que

(7)

Mediante resolver las ecuaciones lineales mostradas


arriba, podemos encontrar todos los tiempos promedios de
primera pasada. Se puede demostrar que:

es llamado tiempo promedio de recurrencia, esto simplifica


los clculos del sistema de ecuaciones. 53

Tiempos Promedio de Primera Pasada..


Ejemplo de los refrescos de Cola:
Recordemos que 1 = 2/3 y 2 = 1/3, entonces como

m11 = 1 / (2/3) = 1.5 y m22 = 1 / (1/3) = 3

Usando (7) podemos escribir:

m12 = 1 + p11 m12 = 1 + 0.9 m12


m21 = 1 + p22 m21 = 1 + 0.8 m21

Resolviendo estas dos ecuaciones encontramos que m12 = 10 y adems


que m21 = 5. Esto significa que una persona que compr cola 1 por ltima
vez va a tomar en promedio 10 botellas antes de cambiar a cola 2.

54

27
04/09/2017

Tiempos Promedio de Primera Pasada..


En el ejemplo del inventario, estas ecuaciones de mij se pueden usar
para calcular el tiempo esperado hasta que ya no se tengan laptops en
el almacn, dado que el proceso se inicia cuando se tienen tres
laptops.
Este tiempo esperado es igual que el tiempo esperado de primera
pasada m30. Como todos los estados son recurrentes, el sistema de
ecuaciones conduce a las expresiones:
m30
m20
m10

m30
m20
m10

La solucin simultnea de este sistema es


55

Tiempos Promedio de Primera Pasada..


De manera que el tiempo esperado hasta que la tienda se quede sin
laptops es 3.50 semanas.
Despus de obtener las probabilidades de estado estable (0, 1, . . .,
M) como se describi en la seccin anterior, los tiempos esperados
de recurrencia se calculan
mii

Entonces, en el ejemplo de inventario, donde, 0 = 0.286, 1 = 0.285,


2 = 0.263 y p3 = 0.166, los tiempos de recurrencia esperados
correspondientes son:

56

28
04/09/2017

Tiempos Promedio de Primera Pasada..


Lo que tenemos es una multiplicacin de matrices: m = 1+[P][m] solo
donde k j, por lo que hasta ahora tenemos la matriz de m:
0 1 2 3

0
1
2
3
Si queremos por ejemplo completar la columna del estado 1 y 2
evitando el rengln y columna de P donde i = j:

57

2.6 Cadenas Absorbentes


Muchas aplicaciones interesantes de las cadenas de
Markov involucran cadenas en las cuales algunos de los
estados son absorbentes y el resto son estados
transitorios.
Este tipo de cadenas son denominadas cadenas
absorbentes.
Para cualquier cadena absorbente queremos saber:
Si la cadena inicia en un estado transitorio dado y antes de que
alcancemos un estado absorbente, Cul es el numero esperado
de veces que se va a entrar a cada estado?
Cuntos periodos esperamos estar en un estado transitorio dado
antes de que la absorcin tome lugar?
Si la cadena inicia en un estado transitorio dado, Cul es la
probabilidad de que terminemos en cada estado absorbente?

58

29
04/09/2017

Cadenas Absorbentes..
Para responder, necesitamos escribir la matriz de transicin con
los estados listados en el siguiente orden:
Primero estados transitorios
Despus estados absorbentes
Suponemos que tenemos s m estados transitorios (t1, t2, ts-m)
y m estados absorbentes (a1, a2, ..am). Entonces la matriz de
transicin es escrita en la forma de:
s-m m
columnas columnas

s-m renglones
P=
m renglones

P corresponde a los estados t1, t2, ts-m y a1, a2, ..am , I es la matriz
identidad de m x m que es absorbente, Q la matriz (s-m)x(s-m)
representa la transicin entre estados, R es una matriz de (s-m)x(m)
para la transicin de estados transitorios a absorbentes, 0 son ceros
59
representando que es imposibles ir de edos. absorbentes a transitorios.

Cadenas Absorbentes..
Ahora podemos responder a las preguntas anteriores:
Si la cadena inicia en un estado transitorio dado y antes de que
alcancemos un estado absorbente, Cul es el numero esperado
de veces que se va a entrar a cada estado?
Respuesta: Si estamos en el estado transitorio ti, el nmero
esperado de periodos que se estar en estado tj antes de la
absorcin es el ij-avo elemento de (I Q)-1 .
+++
Cuntos periodos esperamos estar en un estado transitorio dado
antes de que la absorcin tome lugar?
Respuesta: Si estamos en el estado transitorio ti, la
probabilidad de absorcin en estado absorbente aj es el ij-avo
elemento de la matriz (I Q)-1 R.

A la matriz (I Q)-1 se le llama matriz fundamental de la


cadena de Markov.
60

30
04/09/2017

Ejemplo de cuentas por cobrar


La situacin de cuentas por cobrar con frecuencia se modela
como una cadena de Markov.
Suponga que una empresa considera que una cuenta es
incobrable si la cuenta esta vencida por mas de 3 meses.
Entonces, al inicio de cada mes, cada cuenta puede ser
clasificada en alguno de los siguientes estados:
Estado 1 Cuenta nueva
Estado 2 El pago de la cuenta tiene un mes vencido
Estado 3 El pago de la cuenta tiene dos meses vencido
Estado 4 El pago de la cuenta tiene tres meses vencido
Estado 5 Cuenta ha sido pagada
Estado 6 Cuenta ha sido ajustada como incobrable
Para simplificar el ejemplo, una vez que la cuenta es pagada
(saldada) o ajustada como incobrable, la cuenta se cierra y no
ocurren mas transacciones.
Una nueva cuenta tpica ser absorbida como cobrada o incobrable.
61

Ejemplo de cuentas por cobrar


Despus de observar la historia se han llegado a las
siguientes probabilidades de los cambios de las cuentas
de un mes a otro (t1 = nueva, t2=1 mes, t3=2 meses, t4=3
meses, a1=pagada, a2=incobrable):
S = 6, m = 2 Edos. transitorios Edos. absorbentes
Q R
Nueva 1 mes 2 meses 3 meses Pagada Incobrable
Nueva
1 mes
2 meses
3 meses
Pagada
Incobrable

0 I 62

31
04/09/2017

Ejemplo de cuentas por cobrar


1. Cual es la probabilidad de que una cuenta nueva llegue
alguna vez a ser cobrada?
2. Cul es la probabilidad de que una cuenta vencida un
mes se llegue a convertir en incobrable?
3. Si las ventas promedio de la empresa son de $100,000
por mes, cuanto dinero por ao llegara a ser incobrable?

Recordar que:

Entonces:

63

Ejemplo de cuentas por cobrar


Mediante invertir la matriz usando eliminacin Gauss- Jordan:

Tambin requerimos de:

64

32
04/09/2017

Ejemplo de cuentas por cobrar


1. Cual es la probabilidad de que una cuenta nueva llegue
alguna vez a ser cobrada? T1 = nueva, a1 = pagada
R:

2. Cul es la probabilidad de que una cuenta vencida un mes se


llegue a convertir en incobrable? T2 = 1 mes y a2 = incobrable
R:

3. Si las ventas promedio de la empresa son de $100,000 por


mes, cuanto dinero por ao llegara a ser incobrable?
R:

65

Ejemplo de Planeacin de Fuerza de Trabajo


La firma de abogados Amparo Preciado y Asociados emplea 3 tipos de
abogados en el despacho:
Junior, Senior, Asociado, Retirado no/socio y Retirado socio
Un abogado Junior puede ser promovido a Senior y un Senior a asociado,
algunos optan por retirarse pero otros se retiran como socios. La firma
nunca degrada a un abogado. Una vez que se retira nunca regresa.
Los estados corresponden al grado del abogado y las probabilidades de
cambio son:
Junior Senior Asociado Retirado NS Retirado S

Junior
Senior
Asociado
Retirado no/socio
Retirado socio

El estado retirado como no socio o retirado como socio son absorbentes.


66

33
04/09/2017

Ejemplo de Planeacin de Fuerza de Trabajo

Despus de un anlisis de un ao a otro (t1 = Junior,


t2=Senior, t3=Asociado, a1=retirado NS, a2= retirado socio):
Junior Senior Asociado Retirado NS Retirado S

Junior
Senior
Asociado
Retirado no/socio
Retirado socio

Entonces s = 5 y m = 2

67

Ejemplo de Planeacin de Fuerza de Trabajo

Despus:

1.- Cul es el tiempo esperado que un nuevo abogado Junior permanezca


con la firma?
R: tiempo esperado que abogado Junior permanezca =
tiempo esperado que abogado Junior permanece como Junior +
tiempo esperado que abogado Junior permanece como Senior +
tiempo esperado que abogado Junior permanece como Socio 68

34
04/09/2017

Ejemplo de Planeacin de Fuerza de Trabajo

tiempo esperado como Junior =


tiempo esperado como Senior =
tiempo esperado como Socio =

por lo que la suma de los aos de los estados transitorios =

69

Ejemplo de Planeacin de Fuerza de Trabajo


2.- Cul es la probabilidad de que un abogado Junior llegue a Asociado?
R:

3.- Cul es el tiempo promedio que un asociado pasa en la firma (como


asociado)?
R:

70

35
04/09/2017

2.7 Modelos para Planeacin de Fuerza de Trabajo

Algunas organizaciones emplean varias categoras de


trabajadores.
Para propsitos de planeacin a largo plazo,
frecuentemente es til tener la posibilidad de predecir el
numero de empleados de cada tipo que estarn
disponibles en el estado estable.
Tales afirmaciones pueden hacerse va un anlisis similar
a las probabilidades de estado estable para cadenas de
Markov.
Considere una organizacin cuyos miembros son
clasificados en cualquier punto del tiempo como
perteneciente a alguno de s grupos.

71

Modelos para Planeacin de Fuerza de Trabajo..

Durante cada periodo de tiempo, una fraccin pij de


aquellos que inician un periodo de tiempo en el grupo i
inician el siguiente periodo de tiempo en el grupo j.
Adems durante cada periodo de tiempo, una fraccin
pi,s+1 de todos los miembros del grupo i abandonan la
organizacin.
Sea P la matriz de s x (s+1) cuyo ij-avo elemento es pij.
Al inicio de cada periodo de tiempo, la organizacin
contrata Hi miembros del grupo i.
Sea Ni(t) el numero de miembros del grupo i al inicio
del periodo t.

72

36
04/09/2017

Modelos para Planeacin de Fuerza de Trabajo..

Una pregunta de inters es cuando Ni(t) alcanza un limita


cuando t es grande (llamamos al limite, si este existe, Ni).
Si cada Ni(t) no se acerca a un limite, llamamos N = (N1,
N2,,Ns) el censo de estado estable de organizacin.
Si existe el censo de estado estable, podemos encontrarlo
mediante resolver un sistema de s ecuaciones que son
derivadas como sigue:
Para que exista el censo de estado estable, debe ser cierto que en
el estado estable para i = 1, 2,s,
Nmero de gente entrando al grupo i durante cada periodo =
nmero de gente abandonando el grupo i cada periodo
Si no se cumple para todos los grupos, entonces el numero de
personas en al menos alguno de los grupos se apilara con el paso
del tiempo.
73

Modelos para Planeacin de Fuerza de Trabajo..


Numero de gente que entra al estado i durante cada periodo

La gente saliendo del estado i durante cada periodo:

La ecuacin usada para calcular el censo de estado estable:


(8)

Notemos que la siguiente expresin puede ser usada para


simplificar la ecuacin anterior:

Si no existe un censo de estado estable, entonces la


ecuacin de censo no tendr solucin.
74

37
04/09/2017

Modelos para Planeacin de Fuerza de Trabajo..


Ejemplo:
Supongamos que en un pas podemos clasificar a la gente en uno de 3
grupos: nios, adultos que trabajan y gente retirada.
Por ejemplo en un ao, 0.959 de los nios permanece en esa etapa, 0.04
se convierte en adultos que trabajan y 0.001 fallece. Cada ao nacen
1000 nios. Los grupos seran:
Grupo 1 = nios
Grupo 2 = adultos que trabajan
Grupo 3 = gente retirada
Grupo 4 = fallecimientos
Las probabilidades: H1 = 1000 y H2 = H3 = 0
1) Determine el censo de estado estable
2) Cada ao una persona retirada recibe
$5000 que esta fondeada de adultos
que trabajan, Cunto debe contribuir
cada adulto anualmente al fondo de
pensiones? 75

Modelos para Planeacin de Fuerza de Trabajo..


Solucin:
Aplicando ecuacin (8) en este ejemplo

Nmero de gente entrando al grupo i durante cada periodo =


nmero de gente abandonando el grupo i cada periodo

Resolviendo el sistema de ecuaciones arroja:

38
04/09/2017

Modelos para Planeacin de Fuerza de Trabajo..


Ejemplo de la firma de abogados Amparo Preciado:
Supongamos que la firma de abogados tiene como meta a largo plazo
solo emplear 50 abogados junior, 30 senior y 10 asociados.
Para alcanzar el censo de estado estable, Cuntos abogados de cafa
tipo debera la firma contratar cada ao?

R: Construyendo la matriz de probabilidades simplificada:


Junior Senior Asociado Retirado

Junior
Senior
Asociado

Tambin tenemos que N1 = 50, N2 = 30 y N3 = 10.

77

Modelos para Planeacin de Fuerza de Trabajo..


Con estos datos podemos empezar a construir el sistema de
ecuaciones usando la ecuacin (8).

La solucin a este sistema de ecuaciones:

Esto significa que la firma debe despedir a 5.5 abogados asociados


cada ao para mantener la poltica, y es razonable porque cada ao
0.2 de 30 abogados = 6 se convierten en asociados, y despus (como
se haba visto anteriormente en el problema) se pasa ah 20 aos.
78

39
04/09/2017

2.8 Procesos de Decisin de Markov


Esta seccin se enfoca precisamente en la manera en que es
posible disear la operacin de una cadena de Markov de
tiempo discreto para optimizar su desempeo. Por lo tanto, en
lugar de aceptar en forma pasiva el diseo de la cadena de
Markov y su matriz de transicin fija correspondiente, ahora se
actuar.
Para cada estado posible de la cadena de Markov se tomar
una decisin sobre cul de las diferentes acciones alternativas
debe tomarse en ese estado. La accin elegida afecta las
probabilidades de transicin al igual que los costos (o
beneficios) inmediatos y los costos (o beneficios) subsecuentes
de operar el sistema.
Se desea elegir las acciones ptimas para los respectivos
estados al considerar tanto los costos inmediatos como los
subsecuentes. Este proceso de decisin se conoce como
proceso de decisin markoviano.
79

Procesos de Decisin de Markov..


Ejemplo prototipo:
Un fabricante opera una mquina clave en uno de sus procesos.
Debido a que se le da un uso pesado la mquina se deteriora con
rapidez, lo que afecta tanto la calidad como la cantidad de produccin
que ella genera. Por lo tanto, al final de cada semana se realiza una
inspeccin exhaustiva cuyo resultado es la clasificacin de las
condiciones de la mquina en uno de cuatro estados posibles:

Despus de recolectar datos histricos sobre los resultados de estas


inspecciones, se hace un anlisis estadstico de la evolucin del
estado de la mquina de un mes a otro.
80

40
04/09/2017

Procesos de Decisin de Markov..


La siguiente matriz muestra la frecuencia relativa (probabilidad) de cada
transicin posible del estado en el que se encuentra en un mes (un
rengln de la matriz) al estado en el que se encontrar el siguiente mes
(la columna de la matriz).

Adems, el anlisis estadstico ha demostrado que estas probabilidades


de transicin no son afectadas por considerar tambin en qu estados
se encontraba en meses anteriores. Esta propiedad de falta de
memoria es la propiedad markoviana ya descrita.

81

Procesos de Decisin de Markov..


Por lo tanto, en el caso de la variable aleatoria Xt, que es el estado de
la mquina al final del mes t, se ha concluido que el proceso
estocstico {Xt, t = 0, 1, 2, } es una cadena de Markov de tiempo
discreto cuya matriz de transicin (de un paso) es la matriz anterior.

Como lo indica el ltimo elemento de esta matriz de transicin, una


vez que la mquina deja de ser operable (entra en el estado 3),
permanece inoperable. En otras palabras, el estado 3 es un estado
absorbente. Dejar la mquina en este estado sera intolerable dado
que se detendra el proceso de produccin, por lo que la mquina
debe ser reemplazada. (La reparacin no es factible en este estado.)
En consecuencia, la nueva mquina comenzara en el estado 0.

El proceso de reemplazo toma 1 semana de manera que la produccin


se pierde durante este periodo. El costo de la produccin perdida
(ganancia perdida) es de 2 000 dlares, mientras que el costo de
reemplazar la mquina es de 4 000 dlares, de manera que el costo
total en el que se incurre siempre que la mquina actual entra al
estado 3 es de 6 000 dlares. 82

41
04/09/2017

Procesos de Decisin de Markov..


Aun antes de que la mquina llegue al estado 3, puede incurrirse en
costos por producir artculos defectuosos. Los costos esperados por
semana por este concepto son:

La poltica de mantenimiento: reemplazar la mquina cuando es


inoperable, pero no darle mantenimiento en otros casos. Con esta
poltica, la evolucin del estado del sistema todava es una cadena de
Markov, pero ahora con la matriz de transicin siguiente:

83

Procesos de Decisin de Markov..


Solucin:
Para evaluar esta poltica de mantenimiento, deben considerarse tanto
los costos inmediatos en que se incurre en la semana que sigue
(descritos antes), como los costos subsecuentes que resultan cuando
el sistema evoluciona de este modo.
Una medida de desempeo que se usa con amplitud para cadenas de
Markov es el costo promedio esperado por unidad de tiempo (a
largo plazo). Para calcular esta medida, primero se obtienen las
probabilidades de estado estable, 0, 1, 2 y 3 de esta cadena de
Markov con la solucin del siguiente sistema de ecuaciones:

Solucin del sistema:

84

42
04/09/2017

Procesos de Decisin de Markov..


El costo promedio esperado (a largo plazo) por semana de esta
poltica de mantenimiento es:

Sin embargo, existen otras polticas de mantenimiento que deben


considerarse y compararse con sta:
Por ejemplo, quiz la mquina debera reemplazarse antes de llegar al
estado 3.
Otra alternativa es realizar una reparacin general a un costo de 2 000
dlares. Esta opcin no es factible en el estado 3 y no mejora la
mquina si est en el estado 0 o en el 1, y slo es de inters en el
estado 2. En este estado, una reparacin general regresara a la
mquina al estado 1. Se requiere una semana para ello, por lo que
otra consecuencia sera un gasto de 2 000 dlares que representan
las ganancias perdidas al no producir.

85

Procesos de Decisin de Markov..


En resumen, las decisiones posibles despus de cada inspeccin son
las siguientes y resume tambin los costos relevantes de cada decisin
para cada estado en el que esa decisin puede ser de inters.:

Sin embargo subsiste la pregunta: Cul es la poltica de mantenimiento


ptima? Veremos un modelo de procesos de decisin de Markov.

86

43
04/09/2017

Modelo de Procesos de Decisin de Markov


1. Se observa el estado i de una cadena de Markov de tiempo discreto
despus de cada transicin (i = 0, 1, , M).
2. Despus de cada observacin, se selecciona una decisin (accin) k de
un conjunto de K decisiones posibles (k = 1, 2,, K). (Algunas de las K
decisiones pueden no ser relevantes para algunos estados.)
3. Si se elige la decisin di = k en el estado i, se incurre en un costo
inmediato que tiene un valor esperado Cik.
4. La decisin di = k en el estado i determina cules sern las
probabilidades de transicin de la siguiente transicin desde el estado i.
Denote estas probabilidades por pij(k), para j = 0, 1, , M.
5. Una especificacin de las decisiones para los estados respectivos (d0,
d1, , dM) prescribe una poltica para el proceso de decisin markoviano.
6. El objetivo es encontrar una poltica ptima de acuerdo con algn criterio
de costo que considere tanto los costos inmediatos como los
subsecuentes que resulten de la evolucin futura del proceso. Un criterio
comn es minimizar el costo promedio esperado por unidad de tiempo
(a largo plazo).
87

Procesos de Decisin de Markov..


Para relacionar esta descripcin general con el ejemplo
prototipo recordemos que la cadena de Markov que se observa
ah representa el estado (condicin) de una mquina en
particular. Despus de cada inspeccin de la mquina, se elige
entre tres decisiones posibles (no hacer nada, reparacin
general o reemplazo).
El costo esperado inmediato que resulta se muestra en la
columna de la derecha de la tabla para cada combinacin
relevante de estados y decisiones. Ya se analiz una poltica
especfica (d0, d1, d2, d3) = (1, 1, 1, 3), donde la decisin 1 (no
hacer nada) se toma en los estados 0, 1 y 2 y la decisin 3
(reemplazo) se toma en el estado 3.
Las probabilidades de transicin que resultan se muestran en la
ltima matriz de transicin.

88

44
04/09/2017

Procesos de Decisin de Markov..


El modelo general califica como un proceso de decisin de Markov
porque posee la propiedad markoviana que caracteriza a estos procesos.
Esta propiedad se cumple aqu ya que
1) se trata de una cadena de Markov;
2) las nuevas probabilidades de transicin dependen slo del estado
y la decisin actuales, y
3) el costo esperado inmediato tambin depende slo del estado y
la decisin actuales.
La descripcin de una poltica implica dos propiedades convenientes
(pero innecesarias) que se supondr existen.
La primera de ellas es que una poltica es estacionaria, es decir, siempre
que el sistema se encuentre en el estado i, la regla para tomar la decisin
siempre es la misma sin que importe el valor del tiempo actual t.
La segunda propiedad es que una poltica es determinstica, esto es,
siempre que el sistema se encuentre en el estado i, la regla para tomar la
decisin definitivamente selecciona una decisin especfica.

89

Procesos de Decisin de Markov..


En el ejemplo prototipo: se denotar por R la poltica especfica y por
di(R) la decisin correspondiente que debe tomarse en el estado i,
donde las decisiones 1, 2 y 3 se describen al final de la seccin
anterior. Debido a que una o ms de estas tres decisiones son las
nicas que se consideraran en cualquier estado, los nicos valores
posibles de di(R) son 1, 2 o 3 para cualquier estado i.

Las polticas relevantes son:

90

45
04/09/2017

Procesos de Decisin de Markov..


Cada poltica resulta en una matriz de transicin diferente:

91

Procesos de Decisin de Markov..


A partir de los costos de las polticas vistos antes los valores de Cik:

Se puede calcular el costo promedio esperado (a largo plazo) por


unidad de tiempo, E(C), a partir de la expresin

donde k = di(R) para cada i y (0, 1, , M) representa la distribucin


de estado estable de los estados del sistema segn la poltica R que
se evala.
92

46
04/09/2017

Procesos de Decisin de Markov..


Despus de obtener (0, 1, , M) segn cada una de las cuatro
polticas, por ejemplo en la poltica Ra se tiene que 0=2/13, 1 =7/13,
2=2/13 y 3=2/13 el clculo de E(C) junto con la tabla de costos
estado decisin anterior se resume en la siguiente tabla:

En consecuencia, la poltica ptima es Rb, es decir, reemplazar la


mquina cuando se encuentre en el estado 3 y hacer una reparacin
general cuando se encuentre en el estado 2. El costo esperado (a largo
plazo) por semana es de $1,667 dlares. 93

Procesos de Decisin de Markov..


Programacin lineal y polticas optimas.
Acabamos de describir el tipo principal de poltica (llamada poltica
determinstica, estacionaria) que se usa en los procesos de decisin
de Markov.
Cualquier poltica R se puede interpretar como una regla que prescribe
la decisin di(R) siempre que el sistema se encuentre en el estado i,
para cada i = 0, l, , M. Entonces R se caracteriza por los valores
{d0(R), d1(R), . . . , dM(R)}.
De manera equivalente, R se puede caracterizar por la asignacin de
valores Dik = 0 o 1 en la matriz

donde cada Dik (i = 0, 1, . . . , M y k =


1, 2, . . . , K) se define como:

94

47
04/09/2017

Procesos de Decisin de Markov..


Por ejemplo, la poltica ptima Rb del ejemplo prototipo se puede
caracterizar por la matriz

Polticas aleatorizadas
La introduccin de Dik proporciona una motivacin para formular un
modelo de programacin lineal. Se piensa que el costo esperado de
una poltica se puede expresar como una funcin lineal de la Dik o de
alguna variable relacionada, sujeta a restricciones lineales.
Desafortunadamente, los valores de Dik son enteros (0 o 1) y se
requieren variables continuas para la formulacin de programacin
lineal.
95

Procesos de Decisin de Markov..


Este requisito se puede manejar si se ampla la interpretacin de una
poltica. La nueva interpretacin de una poltica pedir la determinacin
de una distribucin de probabilidad para tomar la decisin cuando el
sistema se encuentre en el estado i. Entonces:
Dik = P{decisin = k | estado = i}
En otras palabras, dado que el sistema est en el estado i, la variable
Dik es la probabilidad de elegir la decisin k como la que debe tomarse.
Entonces (Di1, Di2, , DiK) es la distribucin de probabilidad de la
decisin que deber tomarse en el estado i.
Este tipo de poltica que usa distribuciones de probabilidad se llama
poltica aleatorizada, mientras que la poltica que dice que Dik = 0 o 1
recibe el nombre de poltica determinstica. Las polticas aleatorizadas:
donde cada rengln suma 1, y ahora
0 Dik 1. Al permitir la forma que
las Dik sean variables continuas se
hace posible formular un modelo de
programacin lineal para encontrar
una poltica ptima. 96

48
04/09/2017

Procesos de Decisin de Markov..


Formulacin de programacin lineal
Las variables de decisin (denotadas aqu por yik) para un modelo de
programacin lineal se definen como sigue. Para cada i = 0, l, , M y
k = l, 2, , K, sea yik la probabilidad incondicional de estado estable
de que el sistema se encuentre en el estado i y se toma la decisin k,
es decir, yik = P{estado = i y decisin = k}.
Cada yik tiene una relacin cercana con la Dik correspondiente:

donde i es la probabilidad de estado estable de que la cadena de


Markov se encuentre en el estado i. Tambin:

Para obtener Dik entonces:

97

Procesos de Decisin de Markov..


Hay 3 tipos de restricciones sobre las yik :

1. de manera que (todas las yik suman 1)

2. De los resultados de las probabilidades de estado estable:

de manera que para j = 0, 1, . , M.

3. Yik 0 para i = 0, 1, . . . , M y k = 1, 2, . . . , K.

El costo promedio esperado a largo plazo por unidad de tiempo es:

98

49
04/09/2017

Procesos de Decisin de Markov..


Entonces, el modelo de PL consiste en seleccionar las yik para:

Minimizar

Sujeto a: (1)

(2) para j = 0, 1, . , M

(3) yik 0 para i = 0, 1, . . . , M y k = 1, 2, . . . , K


Este modelo tiene M + 2 restricciones funcionales y K(M + 1) variables
de decisin. [En realidad, (2) proporciona una restriccin redundante,
por lo que cualquiera de estas (M +1) restricciones se puede eliminar.]
Se puede resolver por el mtodo smplex. Una vez que se obtienen las
yik, cada una de las Dik se encuentra a partir de:
Se puede demostrar que yik > 0 al menos para una k = 1,
2, , K, para cada i = 0, 1, , M. O sea yik > 0 para slo
una k por cada i = 0, 1, , M. En consecuencia, Dik = 0 99
o1

Procesos de Decisin de Markov..


El ejemplo prototipo de la poltica de mantenimiento.
Las primeras dos columnas de la tabla abajo proporcionan las
combinaciones relevantes de estados y decisiones. Recordemos que yik
= P{estado = i y decisin = k}. Entonces, las variables de decisin que
debe incluirse en el modelo son y01, y11, y13, y21, y22, y23 y y33, las otras 0.

La columna de la derecha provee los coeficientes de estas variables de la


funcin objetivo.
100

50
04/09/2017

Procesos de Decisin de Markov..


Las probabilidades de transicin pij(k) de cada combinacin relevante
del estado i y la decisin k se describieron antes tambin se muestran:

Decisin a Edo:
1 nada 1, 2, 3
2 reparac. 1
3 reemp. 0

El modelo de programacin lineal que resulta es:


Minimizar Z = 1,000y11 + 6,000y13 + 3,000y21 + 4,000y22 + 6,000y23 + 6,000y33
sujeto a Todas yik deben sumar 1
Edo 0 = se reemplazan

Edo 1 = dec. llevan a Edo 1

Edo 2 = dec. llevan a Edo 2

todas las yik 0. Edo 3 = dec. llevan a Edo 3


101

Procesos de Decisin de Markov..


Al aplicar el mtodo smplex se obtiene la solucin ptima:

De manera que:

Esta poltica indica que debe dejarse la mquina como est (decisin
1) cuando se encuentre en el estado 0 o 1, debe hacerse una
reparacin general (decisin 2) cuando est en el estado 2 y debe
reemplazrsela (decisin 3) si est en el estado 3. Costo $1,667.
sta es la misma poltica que se encontr mediante la enumeracin.

102

51
04/09/2017

Procesos de Decisin de Markov..


Ejemplo del agricultor
Cada ao al inicio de la temporada un agricultor hace pruebas de
suelo para verificar la condicin de la tierra. Dependiendo de los
resultados la productividad para la nueva temporada cae en una de los
siguientes estados:
1.- Buena
2.- Regular
3.- Pobre
A travs de los aos el agricultor ha observado que la condicin del
ao anterior impacta la productividad de este ao y se puede describir
por la siguiente cadena de Markov:

103

Procesos de Decisin de Markov..


Las probabilidades de transicin muestran que la condicin de la tierra
puede o deteriorarse o permanecer como est pero nunca mejorar.
El jardinero modifica las probabilidades de transicin P utilizando un
fertilizante orgnico. En este caso, la matriz de transicin se vuelve:

El uso de fertilizante puede conducir a mejorar las condiciones del


suelo. Las ganancias asociados con la poltica de usar o no fertilizante
(1000s):

R1= R2=

104

52
04/09/2017

Mtodo de enumeracin
exhaustiva:

Polticas disponibles:

Las matrices P y R desde3 hasta la 8 son


desarrolladas de las de polticas 1 y 2:

105

Procesos de Decisin de Markov..


Los costos de cada poltica Cik se desarrollan, por ejemplo para la poltica
1 (k=1) usando P y R correspondientes:

Lo que conduce a que si la condicin del suelo es buena usando la


poltica 1 es que arroja ganancias de 5.3, si el suelo esta regular sern de
3 y si el estado es malo arroja perdidas de -1. La tabla de todas las R:

106

53
04/09/2017

Procesos de Decisin de Markov..


Los clculos de las probabilidades estacionarias deben incluir:

adems de

Por ejemplo para la poltica 2:

Ignorando una de las primeras 3 ecuaciones:


En este caso el valor esperado:

107

Procesos de Decisin de Markov..


Los clculos de todas las polticas se resumen en la tabla de abajo:
R 1 2 3 E(C)

El set de poltica 2 es la mejor opcin a largo plazo, es decir, aplicar


fertilizante sin importar el estado del terreno.

Las polticas 1, 3, 4 y 6 contienen un estado absorbente: estado 3. Por


ello tienen s de 0, 0 y 1, por no fertilizar si el terreno esta en estado 3.
108

54
04/09/2017

Procesos de Decisin de Markov..


Formulacin por programacin lineal
Recordando que tenemos 2 decisiones: 1: no fertilizar, 2: fertilizar
La matriz de costos de los estados asociado a esas decisiones y las
probabilidades de transicin de las polticas:

109

Procesos de Decisin de Markov..


La solucin optima para este problema es:
y11 = y21 = y31 = 0
y12 = 0.1017
y22 = 0.5254
y32 = 0.3729

Esto se traduce a que D12 = D22 = D32 = 1 , lo que equivale a k = 2 para


todos los estados del terreno i = 1, 2 y 3. Esto es, decisin 2 en todos los
estados de la naturaleza.

El costo de la poltica optima: 4.7*(.1017) +3.1*(.5254)+.4*(.3729)=2.256

Los valores de yik son iguales a la s encontradas en la tcnica de


enumeracin exhaustiva, adems se llega a la misma conclusin de uso
de las decisiones por estado y los costos.
110

55

Potrebbero piacerti anche