Teoria de Los Juegos

XVI. Teora de los juegos XVI.
TEORA DE LOS JUEGOS 1
428
Fudenberg), December 2007; Wikipedia; The History of Economic Thought Website.

2
XVI. Teora de los juegos
429
Pero el monopolista debe preocuparse de sus competidores potenciales en un mercado disputable.
Hasta ahora, la economa ha sido reducida a un caso simple: los agentes son una pequea parte del mercado y toman al comportamiento de los restantes agentes como dados; tampoco tienen que preocuparse en cmo su propio comportamiento afectar al de los dems. Para ellos, el resto del mundo consiste de un conjunto de precios a los que produce y puede comprar si as lo desea. El monopolista que hemos analizado es lo suficientemente grande como para afectar a todo el mercado, pero se maneja con una multitud de consumidores individuales, cada uno de los cuales sabe que su conducta no va a afectar a la conducta del monopolista 2 . Por lo tanto, cada uno reacciona en forma pasiva a las decisiones del monopolio. Compra la cantidad que maximiza el bienestar propio al precio fijado por el monopolista. Desde el punto del monopolista, los compradores ni siquiera son personas; son una curva de demanda. El anlisis ha eliminado un aspecto importante de la interaccin humana y de los mercados: el comportamiento estratgico. Que se manifiesta a travs de negociaciones, amenazas, trampas. Por este motivo a muchos alumnos la teora de los precios les parece una abstraccin sin sangre. La economa es presentada en trminos de individuos solitarios, a lo sumo de pequeos grupos de productores, cada uno de los cuales maximiza contra un entorno esencialmente carente de rasgos humanos, un conjunto de oportunidades ms que una poblacin de seres humanos con deseos propios. Por supuesto que hay un motivo para proceder as. El anlisis del comportamiento estratgico es un problema extraordinariamente difcil. John Von Neumann, una de las mentes ms brillantes del siglo XX (Nicholas Kaldor escribira ms tarde, "He was unquestionably the nearest thing to a genius I have ever encountered."), tuvo que crear una nueva rama de las matemticas cuando fracas al intentar resolverlo. Y la obra de los que le siguieron tampoco lleg a agregar demasiado como para decir qu hara la gente en tal o cul situacin. Esto no significa que la teora de los precios sea intil o irreal. Desde cierto punto de vista, es ciertamente irreal. Pero constituye uno de los logros ms impresionantes para explicar el funcionamiento econmico de una sociedad, en forma relativamente simple, evitando las situaciones de conducta estratgica. Lo que inventaron Von Neumann, Nash y vamos analizar hoy, es la teora de los juegos. En esta primera seccin veremos una introduccin general, no tcnica, al problema. Luego entraremos en detalles ms tcnicos. 1. El Comportamiento Estratgico

1 Vase D. Friedman, Price Theory: An Intermediate Text, 1986, 1990; Roberto Serrano, The Nash Program, May 2005 (The New Palgrave Dictionary of Economics, 2nd edition, McMillan, London); Martin Shubik, Some Simple Games for Teaching and Research, 1 Cooperative Games; Nick Baigent, Game theory, Winter Semester 2006; Michael Intriligator, Optimizacin matemtica y teora econmica; R. Aumann, What is Game Theory trying to Accomplish?, in Frontiers of Economics, ed. K. Arrow and S. Honkapohja, Oxford, 1985; R. Aumann, Game Theory (The New Palgrave: A Dictionnary of Economics, Vol. 2, ed. J. Eatwell, M. Milgate, and P. Newman, London, 1987); Andreu Mas-Colell, Michael Whinston and Jerry Green, Microeconomic Theory, Oxford University Press, 1995; Eric Maskin, Evolution, Cooperation and Repeated Games (based on work with D.
430
El juego Tijeras, Papel y Piedra es jugado a veces por los nios. A la cuenta de tres, los dos jugadores ponen en forma simultnea sus manos en alguna de tres posiciones: un puo apretado como piedra, una mano abierta como papel dos dedos separados como tijeras. El ganador es determinado mediante la regla simple siguiente: tijeras cortan papel, papel cubre la piedra, la piedra rompe las tijeras.
431
Este juego (monopolio bilateral porque corresponde a un mercado con un comprador y un vendedor) se presta a otras alternativas. Yo tengo la nica manzana y usted es la nica persona del mundo que no es alrgica a las manzanas. Para m, la manzana no vale nada y un peso para usted. Si yo se la vendo por un peso, yo quedo mejor por un peso y usted, como ha pagado exactamente el valor de la manzana, queda tan bien como si no la hubiera comprado. Si yo se la doy a usted, yo no gano nada y usted gana un peso. Cualquier precio entre cero y uno representa alguna divisin de la ganancia monetaria entre nosotros. Si no nos podemos poner de acuerdo sobre un precio yo retengo la manzana y el beneficio potencial del comercio se pierde.
Vamos a representar el juego mediante una matriz de pagos de 3x3. Las filas son las estrategias del jugador 1, las columnas las estrategias del jugador 2. Cada celda es la interseccin de una fila y una columna, e indica lo que sucede si los jugadores eligen esas dos estrategias; el primer nmero de la celda es el resultado (el nombre tcnico es pago o recompensa) para el Jugador 1, el segundo para el Jugador 2, por lo que la matriz es llamada matriz de pagos. Conviene pensar en las recompensas como sumas de dinero, y que los jugadores tratarn de maximizar sus recompensas esperadas el monto esperado que ganarn. Jugador Dos Tijeras 0, 0 -1, +1 +1, -1 Papel +1, -1 0, 0 -1, +1 Piedras -1, +1 +1, -1 0, 0

Jugador Uno Tijeras Papel Piedras
Observen que cada jugador hace un solo movimiento y los movimientos se descubren simultneamente, lo que hace ms fcil representarlo mediante una matriz como la anterior, en la cual un jugador elige una fila, otro elige una columna, y el resultado queda determinado por su interseccin. Luego se ver que de esta forma puede ser representado todo juego bi-personal, an algunos complicados como el ajedrez.
Tambin obsrvese que, aunque se trata de un juego sencillo, no est del todo clara cul es la solucin. Ni siquiera qu significa hallar una solucin. En este juego, no existe estrategia ganadora para alguno de los jugadores, a diferencia de algunos juegos muy complicados. A pesar de que es difcil establecer cul es la estrategia correcta, se puede afirmar con alguna confianza que un jugador que elija siempre piedra cometer un error. Rpidamente descubrir que su piedra siempre queda cubierta. Una caracterstica de una estrategia exitosa es su carcter impredecible. Este punto de vista sugiere la posibilidad de armar estrategias deliberadamente impredecibles (randomizadas). Supngase que elijo mi estrategia tirando un dado, cuidando que mi oponente no espe. Si resulta 1 o 2, juego tijeras; 3 o 4, papel; 5 o 6, piedra. Cualquiera sea la estrategia que siga mi oponente (ms all de espiar el dado o leer mi mente) yo ganar en promedio una tercera parte de los juegos, perder una tercera parte de los juegos y empatar en los restantes. Cabe preguntarse: hay alguna estrategia mejor? La respuesta es no si se enfrenta a un oponente inteligente. El juego es simtrico; la estrategia randomizada est disponible tanto para l como para m. En consecuencia, lo que yo haga l, en promedio, lo empardar, y lo mismo har yo. Este es un juego con una importante caracterstica: es un juego de suma cero. Lo que gana un jugador es lo que pierde el otro. Monopolio bilateral, extincin nuclear y pualadas en el bar Veamos ahora el monopolio bilateral. Las reglas son simples: usted y yo tenemos un peso para dividirnos entre nosotros, siempre que lleguemos a un acuerdo sobre la divisin. Si no lo hacemos, el peso se esfuma.
El monopolio bilateral encapsula de forma simptica la combinacin de intereses comunes y conflicto de intereses, cooperacin y competencia, que es tpica de varias interacciones humanas. Los jugadores tienen inters comn en alcanzar un acuerdo, pero un conflicto sobre los trminos del acuerdo. Los Estados Unidos y la Unin Sovitica tenan un inters comn en preservar la paz pero un conflicto sobre cun favorables deban ser sus trminos para cada lado. Marido y mujer tienen un inters comn en preservar un matrimonio feliz y armonioso pero innumerables conflictos sobre cmo sus limitados recursos deben ser gastados en cosas que son valoradas por cada uno. Los miembros de un cartel tienen un inters comn en mantener la produccin reducida y los precios elevados pero surgen conflictos acerca de qu firma retira cunto del beneficio monoplico resultante. El monopolio bilateral no es un juego suma cero. Si alcanzamos un acuerdo, nuestras ganancias sumarn $1; si fracasamos en alcanzarlo, sumarn cero. Esta caracterstica lo hace fundamentalmente diferente al de Tijeras, Papel y Piedra, ya que permite amenazas, negociaciones y mentiras. Yo he decidido obtener 90 centavos de la ganancia monetaria. Le informo a usted que rechazar considerar trminos menos favorables; a Ud slo le queda elegir entre 10 centavos y nada. Si usted me cree ceder. Si usted resiste mi oferta e insiste que slo me entregar 40 centavos, yo, a mi turno, si le creo, tengo la opcin de 40 centavos o nada. Cada jugador trata de obtener un mejor acuerdo para s amenazando en forzar un resultado que es peor para ambos. Una manera de ganar tales juegos es encontrar algn modo de comprometerse, de que sea imposible echarse atrs. Un nio con buenos instintos estratgicos podra anunciar Juro que no tendrn ms que 20 centavos, bajo juramento de muerte. Si el segundo jugador cree que el juramento es vinculante que el primer jugador no retroceder porque ninguna porcin de un peso es equivalente a la vergenza de romper un juramento la estrategia funcionar. El segundo jugador vuelve a su casa con 20 centavos y resuelto a que la prxima vez realizar la promesa en primer trmino. La estrategia del compromiso no se limita a los nios. Hermann Kahn la puso en marcha en la pelcula Doctor Strangelove (Dr. Strangelove or: How I Learned to Stop Worrying and Love the Bomb), dirigida por Stanley Kubrick, en la que participaba el actor Peter Sellers. Alguno dijo que no hay suficientes palabras para describir la actuacin de Peter Sellers en los tres papeles de un oficial britnico, de presidente de los Estados Unidos y como Dr. Strangelove. Es muy divertido como oficial, con un acento especial, sombro y neurtico como presidente y sencillamente loco como el Dr. Strangelove. Supongan que los Estados Unidos deciden terminar con todas las preocupaciones sobre las agresiones soviticas de una vez y para siempre. Fabrica cientos de bombas de cobalto, las entierra en las Montaas Rocallosas (las Rocky Mountains), y les aade un contador geiger
432
433
extravagante. Si suenan las alarmas, las bombas de cobalto producen suficiente lluvia radioactiva como para eliminar toda vida humana sobre la faz de la tierra. El contador geiger es el disparador que hace explotar las bombas si se experimenta radiacin proveniente de un ataque sovitico.
sistema de represalias masivas para disuadir ataques, no estn libres de cambiar de opinin dentro de los diez minutos que pasan entre la deteccin de los misiles enemigos y el momento de disparar los suyos.
Ahora es posible desmantelar todas las dems defensas contra ataques nucleares; ya que los Estados Unidos tienen en su poder el elemento disuasivo final. En una versin mejorada denominada por Kahn la Mquina del Da-Final-Adelantado, el mecanismo disparador estara de alguna manera equipada para detectar un amplio rango de actividades y responder en forma apropiada; podra ser programada, por ejemplo, para hacer estallar el mundo si los soviticos invaden Berln Oeste, o Alemania del Oeste, o a cualquiera ahorrando a los Estados Unidos el costo de una defensa tanto convencional como nuclear. La Mquina del Da-Final-Adelantado no deja de tener problemas. En Doctor Strangelove fueron los rusos los que la construyeron. Deciden postergar el anuncio hasta el cumpleaos del Primer Ministro. Desafortunadamente, mientras esperan, un oficial luntico de la Fuerza Area Americana lanza una guerra nuclear contra la Unin Sovitica. Esta Mquina no es completamente imaginaria. Consideren la situacin inmediata despus de que los Estados Unidos detectan el comienzo de un ataque nuclear supremo por la Unin Sovitica. Supongan por caso que Estados Unidos carece de defensas, slo la posibilidad de emprender represalias. La amenaza de las represalias puede paralizar un ataque, pero si el ataque se produce de cualquier manera, las represalias no protegern a nadie. Inclusive, al incrementar la lluvia radioactiva, los efectos climatolgicos y otros similares, morirn algunos americanos as como millones de rusos y un nmero considerable de neutrales que tienen la desgracia de soportar la lluvia. Las represalias en tales situaciones son irracionales. Empero tal vez ocurriran. Entre el juro morir y la aniquilacin nuclear hay un amplio campo de situaciones donde las amenazas y el compromiso desempean un rol. An antes de que se inventaran los misiles nucleares, la guerra fue un juego de prdidas para ambas partes. A otra escala hay otros ejemplos dentro de la misma lgica. Una ria en un bar empieza con dos parroquianos discutiendo sobre ftbol que termina con un muerto y el otro con una cuchilla en la mano y una expresin de aturdimiento. Desde cierto punto de vista, ste es un ejemplo claro de conducta irracional y no econmica. El asesino inmediatamente se arrepiente de lo que hizo, y por lo tanto no puede haber actuado para maximizar su propio bienestar. Desde otro punto de vista, ha actuado dentro de un compromiso racional a la accin irracional equivalente, a esta escala, a la mquina del da final en funcionamiento. Supongan que soy fuerte, furioso y que tengo mal genio con gente que no quiero. Me beneficio de esa reputacin; la gente es cuidadosa de no hacer cosas que puedan ofenderme. En realidad golpear a alguien tiene sus costos, me pueden devolver el golpe y puedo terminar arrestado por agresin. Pero si tengo suficientemente mala reputacin, puede que no tenga que agredir a nadie. A fin de mantener mi reputacin, debo entrenarme como para ser de mal genio. Me digo a m mismo, y se lo digo a los dems, que soy tal cual, que ese tipo de gente no deja a otros que lo presionen, etc. Gradualmente extiendo mi definicin de no presionarme hasta que sea equivalente a no hagan lo que no quiero. Usualmente describimos a sta como una personalidad agresiva, pero podra pensarse tambin como una estrategia deliberada racionalmente adoptada. Una vez adoptada, ya no soy libre de elegir la respuesta ptima a cada situacin. He invertido demasiado en mi propia propia imagen como para echarme atrs. De la misma manera, los Estados Unidos, que han construido un
El Dilema del Prisionero Dos hombres son arrestados por atraco. De ser condenados, recibirn una sentencia de crcel de entre dos a cinco aos; la duracin depender de lo que recomiende el fiscal. Desgraciadamente el Fiscal del Distrito no tiene suficiente evidencia como para recomendar una condena.
El FD pone a los criminales en celdas separadas. Primero habla con Joe. Le dice que si confiesa y Mike no lo hace, el FD retirar la acusacin de robo dejndolo slo con un tirn de orejas tres meses por invadir propiedad privada. Si Mike tambin confiesa, el FD no puede retirar los cargos y pedir al juez indulgencia; Mike y Joe obtendrn una sentencia de dos aos cada uno. Si Joe se niega a confesar, el FD no ser tan amigable. Si Mike confiesa, Joe ser declarado culpable y el FD pedir la mxima sentencia posible. Si ninguno confiesa, el FD no puede declararlos culpables del robo, pero presionar para obtener una sentencia de invasin de propiedad privada, resistencia a la autoridad y vagancia. Despus de explicar todo esto a Joe, el FD va a la celda de Mike y mantiene la misma conversacin con nombres invertidos. La matriz de pagos que enfrentan Joe y Mike es la siguiente, y Joe razona de la siguiente manera: Mike C (Confesar) 2 aos, 2 aos 5 aos, 3 meses D (No confesar) 3 meses, 5 aos 6 meses, 6 meses
Joe
C (Confesar) D (No Confesar)
Si Mike confiesa y yo no, me darn cinco aos; si yo tambin confieso, me aplicarn dos aos. Si Mike va a confesar, lo mejor que puedo hacer es tambin confesar.
Si ninguno de los dos confiesa, me aplicarn una pena de 6 meses. Es una mejora considerable con respecto a la situacin en que Mike se delata, pero puedo conseguir algo mejor: si Mike no habla y yo confieso, a m me aplicarn solamente tres meses. Luego, si Mike se queda callado, voy a estar mejor confesando. En realidad, a m me conviene confesar independientemente de lo que haga Mike.
Ambos piden a la guardia que llamen al FD para dictar sus confesiones. El juego tiene dos propiedades interesantes. 1) Introduce un nuevo concepto de solucin. Cada uno de los criminales confiesa porque calcula, correctamente, que la confesin es mejor que el silencio sea lo que haga el otro criminal. Si una estrategia conduce a un mejor resultado sea lo que haga el otro jugador, decimos que es una estrategia dominante. Si los dos jugadores tienen estrategias dominantes, tenemos una solucin del juego. 2) Ambos jugadores actuaron en forma racional y ambos terminan, como resultado, peor. Parece extrao que la racionalidad, definida como tomar la decisin que maximiza los objetivos individuales, resulte en que ambos terminen peor. Para muchos, el resultado del Dilema de los Prisioneros parecer contrario a la intuicin. Pero la racionalidad es un supuesto sobre los individuos y no sobre grupos.
434
435
El Dilema del Prisionero Repetido (confesar = traicin) Muchas situaciones del mundo real implican juegos repetidos. Mike y Joe saldrn de la prisin, retomarn su profesin y sern apresados nuevamente. Cada uno sabe que si traiciona a su compaero esta vez, puede esperar que su compaero lo trate en forma similar la prxima vez, y luego deje de confesar.
La negociacin no ha terminado. Guillermo, que ahora est en el freezer, le sugiere a Carlos que le gustara renovar su anterior propuesta con un jugador diferente; Carlos obtendr $50, que es mejor que $40, y Guillermo tendr $50, que es mejor que nada.
Las negociaciones potenciales no tienen trmino. Cualquier divisin que se sugiera es dominada por alguna otra, y as sucesivamente. Veremos luego cmo se trata este problema en la teora de los juegos, y nuevos conceptos necesarios. 2. Teora de los Juegos no Cooperativos John Von Neumann y el economista Oskar Morgenstern se propusieron encontrar una solucin general a todos los juegos, fueran stos el ajedrez, el bridge, o el oligopolio. Esto no significaba aprender a jugarlos, sino a jugarlos en forma perfecta. Si se conoce cmo jugar un juego como un problema matemtico explcito, los detalles de la solucin de cada juego particular pueden ser dejados a otra persona.
El argumento es persuasivo pero no est claro que sea correcto. Dejemos a Joe y Mike y sean dos personas que juegan un juego como el de la matriz de la pgina 432 cien veces. Para hacerlo ms plausible, reemplacemos las sentencias de encierro de esta matriz por pagos positivos. Si ambos jugadores cooperan, obtienen $10 cada uno. Si cada uno traiciona al otro, no obtienen nada. Si uno traiciona y el otro coopera, el traidor gana $15 y el otro saca $5. Un jugador que traiciona a su compaero gana cinco pesos en el corto plazo, pero la ganancia probablemente no valga ese precio. La vctima responder traicionando en la prxima ronda, y tal vez varias veces ms. En balance, pareciera que ambos jugadores estarn mejor cooperando en cada jugada. Cooperar sera el equivalente a no confesar. Esta atractiva solucin tiene un problema. Consideremos la ltima jugada del juego. Cada jugador sabe que, haga lo que haga, el otro no tendr otra oportunidad para castigarlo. La ltima jugada, por lo tanto, es un dilema del prisionero comn y corriente. La traicin domina a la cooperacin para ambos jugadores, luego ambos se traicionan y obtienen cero. Cada uno razonar: el otro me traicionar en la jugada centsima. Sabiendo esto, s que no me importa un castigo por lo que yo haga en la jugada 99, porque haga lo que hiciere, el otro jugador me castigar en la prxima (y ltima) jugada. Luego yo lo traiciono en la jugada 99, y el otro, que hizo el mismo clculo, me traiciona. Como sabemos que ambos nos vamos a traicionar en la jugada 99, no hay castigo por traicionarnos en la jugada 98. Como sabemos que nos traicionaremos en la jugada 98, no hay castigo por traicionarnos en la 97. Se despliega una cadena completa de jugadas; si somos racionales nos traicionamos cada uno desde la primera jugada, terminando con nada. Si hubiramos sido irracionales y cooperado, habramos terminado con miles de pesos 3 . La cooperacin no es racional Nash acaba con los juegos de tipo cooperativos porque dice que no existen. Voto Mayoritario de Tres Personas Consideremos el simple juego de tres personas (Ana, Guillermo y Carlos) y $ 100. El dinero debe ser dividido por el voto mayoritario; cualquier asignacin que reciba dos votos es ganadora. Pensemos en el juego como un largo perodo de negociacin seguido por una votacin. En la negociacin, los jugadores sugieren divisiones y tratan de convencer a los otros. Cada jugador trata de maximizar su propio ingreso su participacin en los fondos. Guillermo comienza proponiendo a Ana que se dividan el dinero entre ambos, $50 para cada uno. A ella le parece una buena idea hasta que Carlos propone una divisin de $60 para Ana y $40 para l. Carlos hace la oferta porque $40 es mejor que nada, y $60 es mejor que $50, de tal modo que Ana est encantada en cambiar de lado.
3 El argumento depende del supuesto de que los jugadores conocen cuntas jugadas tendr el juego. Si lo jugamos por un nmero finito pero indefinido de movidas, la cooperacin puede ser estable.
Desde este punto de vista, el ajedrez es un juego trivial. Las reglas especifican que, si ningn pen es movido y ninguna pieza es tomada luego de cuarenta jugadas, el juego termina empatado. Lo que significa que el nmero total de jugadas, y por lo tanto el nmero total de posibles juegos de ajedrez, es limitado muy amplio pero finito. Para jugar ajedrez en forma perfecta, bastara hacer un listado de todas las partidas de ajedrez, anotar en cules se gana, y luego jugarlas a partir de la ltima jugada, suponiendo en cada etapa que si un jugador hace una jugada que lo conduce a ser un ganador eventual la har efectivamente. No es sta una solucin demasiado prctica. El nmero de jugadas posibles es mucho mayor que el nmero de atomos del universo (hallar suficiente papel para anotarlas sera difcil!). Pero los tericos de los juegos no estn interesados en este tipo de dificultades. Su objetivo es tener una idea de cmo sera resuelto un juego, y estn dispuestos a darse una extensin ilimitada de tiempo para resolverlo. 2.1 Juegos Bi-Personales Normalmente imaginamos un juego de ajedrez como una serie de decisiones separadas: yo practico el 1er movimiento, usted responde, yo vuelvo a responder, y as sucesivamente. La jugada consiste en la eleccin de una estrategia que describa lo que har cada jugador ante cada situacin. La estrategia sera una descripcin completa de cul sera mi respuesta a cualquier sucesin de jugadas de mi oponente (y, en algunos juegos, a cualquier sucesin de eventos aleatorios, como la tirada de un mazo de cartas).
Dado que una estrategia determina lo que har en cualquier situacin, jugar el juego cualquier juego consiste simplemente en que cada oponente elija una estrategia. Las decisiones son, efectivamente, simultneas: aunque el otro puede observar mis jugadas a medida que las hago, no puede meterse dentro de mi cabeza y observar cmo he decidido jugar el juego. Una vez que ambas estrategias han sido elegidas, todo queda determinado. Se puede imaginar a ambos jugadores escribiendo sus estrategias y luego sentndose para observar cmo una mquina las ejecuta. El jugador Blanco hace la primera jugada, Negro responde mediante su respuesta preescogida, y as hasta que un jugador es declarado vencedor o el juego termina en un empate. Visto en estos trminos, cualquier juego bi-personal puede ser representado mediante una matriz de pagos como la de la pg. 432, aunque puede requerir un enorme nmero de filas y de columnas. Si el juego contiene elementos aleatorios, la clula de la interseccin debe interpretarse
XVI. Teoria de los juegos 435 en terminos de valor esperado a lo largo de varias jugadas del juego. En teoria de los juegos, esta forma descriptiva es llamada forma reducida del juego.
436
sta no es una forma demasiado til cuando se juega un juego como el ajedrez, ya que no vale la pena invertir tiempo en enumerar por adelantado todas las cosas que el oponente podra hacer. Pero puede ser una forma til de imaginarse en qu sentido los juegos tienen soluciones y en cmo encontrarlas.
Qu es una solucin para un juego bi-personal? La respuesta de Von Neumann es que una solucin (para un juego bi-personal) es un par de estrategias y un valor del juego. La estrategia S1 le garantiza al jugador 1 que al menos ganar el valor V, la estrategia S2 le garantiza al jugador 2 que a lo sumo perder V. V puede ser positivo, negativo o cero; la definicin no hace supuestos acerca de cul de los jugadores est en una posicin ms fuerte. Dos cuestiones que surgen: es sta realmente una solucin; es lo que hara un jugador inteligente? Si aceptamos la definicin, tienen soluciones todo los juegos bi-personales? La solucin de Von Neumann no abarca todo lo que un buen jugador trata de hacer. Ignora explcitamente lo que los jugadores de bridge llaman stealing candy from babies (robarles caramelos a los bebs) seguir estrategias que funcionan mal contra buenos oponentes pero que explotan los errores de los malos (supone que todos los jugadores son racionales Que exista una solucin para un juego depende de la estructura de su forma reducida. Consideremos la siguiente forma reducida: Bill A B C Ana I -4, +4 0, 0 -1, +1 II +2, -2 +1, -1 +2, -2 III +1, -1 0, 0 +4, -4 La celda central es la solucin. Como Bill elige B, Ana hace lo correcto eligiendo II. Bill hace lo correcto eligiendo B, ya que cualquier otra eleccin le hace perder 2 en lugar de 1. El valor del juego es 0. Al elegir B, Bill se garantiza no perder ms que 1; al elegir la estrategia II, Ana se garantiza ganar al menos 1.
La estrategia es denominada minimax 4 , y la solucin un punto de ensilladura. Lamentablemente, no hay razn para esperar que todos los juegos tengan puntos de ensilladura. El juego Tijeras, Papel y Piedra es un ejemplo. Sin embargo, existe una solucin de Von Neumann, como hemos visto. El truco consiste en permitir a los jugadores elegir no slo estrategias puras tales como A, B, C Tijeras, Papel, Piedra, sino tambin estrategias mixtas. Una estrategia mixta es una mezcla de probabilidades de estrategias puras (p.e. 10% de A, 40% de B y 50% de C). La solucin de Tijeras, Papel, Piedra como fue descripta es una especie de estrategia mixta (con igual probabilidad de que se siga cualquiera de las tres estrategias puras). Un jugador que siga esa estrategia mixta perder, en promedio, cero, sea lo que haga su oponente. Un jugador cuyo oponente siga tal estrategia ganar, en promedio, cero. Luego la solucin de Von Neumann es que cada jugador adopte esta
Morgenstern y Von Neumann, en Sea Girt, New Jersey
Desde el punto de vista de Bill, est minimizando el mximo monto que puede perder; acta como si supusiera que haga lo que haga, Ana adoptar la estrategia correcta contra l. Si eligiera A, Ana podra elegir II y l perdera 2, etc. Un razonamiento similar es vlido para Ana.
437
438
estrategia. No solamente es una solucin sino la nica solucin; desvos de esta estrategia harn que su oponente gane ms frecuentemente que lo que que pierde.
Un juego de suma cero es un caso especial. Este es un caso interesante, porque los intereses de los jugadores estn directamente en conflicto. No slo contribuy en este campo. Tambin desarroll una estructura slida para la mecnica cuntica, estudi lo que hoy se conoce como lgebras de Von Neumann, y fue uno de los pioneros de la ciencia de la computacin. Fue miembro de la Comisin Nacional de Energa Atmica, y asiduo visitante del Proyecto de Misiles en el Centro de Los Alamos 5 . 2.2 Juegos n-Personales Retomemos el hilo conductor. Para juegos con ms de dos jugadores los resultados no son tan claros. Vamos a recordar algunos conceptos bsicos. Sea un juego n-personal jugado en forma repetida, por un largo plazo. Usted va observando lo que hacen los dems y altera sus jugadas de forma acorde. Acta presuponiendo que lo que ud hace no afecta lo que ellos hacen, tal vez porque el efecto de sus acciones en el juego completo es despreciable. Usted va alterando sus acciones hasta que... no hay ms cambios. Los dems jugadores hacen lo mismo. Se alcanza el equilibrio. Esta solucin se denomina equilibrio de Nash y es una generalizacin del matemtico Nash de una idea que invent Antoine Augustin Cournot en el siglo XIX (1801-1877). En 1830 Cournot 6 haba estudiado el resultado probable cuando dos empresas compiten en el mismo mercado. Muchos economistas haban tratado luego de analizar el resultado en otros contextos especficos de interaccin humana, pero con anterioridad a la teora de los juegos no haba ninguna caja de herramientas que permitiera a los estudiosos el acceso a mtodos generales y rigurosos de analizar diversas formas de interaccin estratgica. Hoy en da la situacin ha cambiado, y las revistas de economa abundan en anlisis de distintas formas de interaccin gracias a la teora de los juegos que condujo a John Nash al premio Nobel de economa en 1994. La teora de los juegos no cooperativos trata de situaciones en las que las partes no pueden suscribir acuerdos obligatorios para todos. Inclusive en juegos muy complicados, con muchos jugadores que tienen muchas estrategias, es posible describir el resultado por medio de la solucin de Nash. John Nash demostr que hay por lo menos un resultado estable, resultado que ningn jugador puede mejorar de por s eligiendo una estrategia diferente cuando todos los
El Centro para Estudios No Lineales fue creado por el entonces Director del Laboratorio Don Kerr (1980) en respuesta a la ciencia emergente no lineal de los solitons, sistemas dinmicos y teora del caos y al rol histrico importante desempeado por los cientficos de Los Alamos, en particular las simulaciones numricas de equirreparticin de la energa de Fermi-Pasta-Ulam realizadas en 1955. Otros adelantos notables se obtuvieron a fines de los 70 por Mitchell Feigenbaum en base a trabajos anteriores de Stan Ulam, John von Neumann, Mark Kac, Nick Metropolis, Paul Stein y Stephen Smale. 6 Se considera a Cournot como el matemtico que comenz la sistematizacin formal de la economa. Fue el primero en utilizar funciones matemticas para describir conceptos econmicos como la demanda, la oferta o el precio. Analiz los mercados monopolistas, estableciendo el punto de equilibrio del monopolio, llamado el punto de Cournot. Tambin estudi el duopolio y el oligopolio. Sus aportaciones tuvieron mucha influencia sobre Jevons, Walras y Marshall, de los que puede ser considerado un precursor. Contribuy notablemente a la ciencia estadstica. Entre sus obras cabe destacar "Investigaciones acerca de los principios matemticos de la teora de las riquezas" (1838), "Exposition de la thorie des chances et des probabilits" (1843), "Principios de la teora de las riquezas" (1863) y "Revue sommaire des doctrines conomiques" (1877).
5
jugadores tienen expectativas correctas sobre las estrategias que seguirn los dems. Aunque cada uno acte racionalmente, el equilibrio de Nash demuestra que la interaccin estratgica puede conducir a menudo a la irracionalidad global: guerras comerciales o una excesiva emisin de contaminantes que amenazan al contexto global, son ejemplos en la esfera internacional. El equilibrio de Nash tambin ha sido importante en ecologa evolutiva que describe a la seleccin natural como una interaccin estratgica dentro y entre especies.
Consideren el juego de manejar un auto, donde elegir una estrategia consiste en decidir de qu lado de la ruta voy a manejar. En Argentina estamos en un equilibrio de Nash. La situacin es estable, y llegara a ser estable aunque no hubiera polica de trfico para implementarla. En Inglaterra todos conducen por la izquierda. ste tambin es un equilibrio de Nash. Los turistas extranjeros que manejan en Inglaterra suelen pasarse automticamente al carril derecho y descubren su error cuando encuentran un conductor ingls enfrente y se produce el crash. Si todos los conductores ingleses se pasaran a conducir por la derecha todos podran estar mejor. Pero cualquier ingls que lo quisiera hacer por iniciativa propia podra terminar mucho peor. Un equilibrio de Nash es estable contra cualquier accin individual an cuando conduzca a un resultado indeseable. En muchos juegos los jugadores carecen de informacin completa sobre los objetivos de los dems. Si por ejemplo, el gobierno quiere desregular a una firma pero ignora su situacin de costos que s tiene la firma estamos en presencia de un juego con informacin incompleta. John Harsanyi otro de los ganadores del premio Nobel de economa 1994 demostr cmo poda ser superada esta dificultad que se haba vuelto intratable para los tericos de los juegos. De esta forma sent las bases analticas para tratar distintos problemas vinculados con la economa de la informacin. Estos problemas abarcan desde los contratos con los accionistas a la administracin de las empresas en pases en desarrollo.
Un problema con el concepto de equilibrio de Nash es que puede haber muchos equilibrios en los juegos no cooperativos. En tales John F. Nash, Jr. (1928- ) casos puede ser difcil tanto para los jugadores como para el analista predecir los resultados. Un tercer ganador del premio Nobel de 1994, Reinhard Selten sent las bases de un programa de investigacin que excluy a los equilibrios improbables o irrazonables, mediante su concepto de perfeccin. Se da el caso de que algunos equilibrios de Nash son tales que estn basados en amenazas o promesas pensadas a fin de que otros jugadores elijan ciertas estrategias. A veces son vacas, porque no resulta del inters del emisor llevarlas a cabo si se diera la situacin. Selten pudo excluir estas amenazas o promesas lo que permite hacer predicciones ms fuertes sobre el resultado (llamado equilibrio perfecto).
2.3 Juegos Bi-Personales de suma cero: el teorema Minimax
En 2.1 vimos que von Neumann demostr en 1928 la existencia general de soluciones minimax en estrategias randomizadas para juegos bipersonales finitos (es decir, donde cada jugador dispone de un nmero finito de estrategias) de suma cero, donde ij 1 ij 2 Aqu ij representa el pago = . que recibe el jugador fila si juega su estrategia i y el jugador columna su estrategia j. Tambin hemos visto que los juegos de suma constante son equivalentes a juegos de suma cero. Veremos
439
440
una demostracin de este teorema mediante el teorema de dualidad de la programacin lineal 7 , adelantndonos as a uno de los puntos del programa.
un borde o una cara del poliedro, o an a todo al poliedro (lo que sucedera si la funcin objetivo fuera constante). Para todo LP existe un problema, denominado su dual: Minimizar yb sujeto a yA c y0
Un problema de programacin lineal (LP) implica la optimizacin de una funcin objetivo lineal, sujeta a igualdades lineales y a restricciones de desigualdad. Ms formalmente, un problema de LP determina la forma de alcanzar el mejor resultado posible (como por ejemplo el mximo beneficio, o el costo ms bajo) sujeto a los requerimientos representados por ecuaciones o inecuaciones lineales. En otros trminos, dado un poltopo 8 (por ejemplo un polgono o un poliedro) y una funcin real afn: (la funcin objetivo), el fin es hallar el punto del poltopo en el que la funcin alcanza su menor (o mayor valor). Tal punto podra no existir, pero si existe puede ser encontrado buscando en los vrtices del poltopo. Los problemas de LP son problemas que pueden ser expresados en forma tpica: Maximizar cx sujeto a Ax b donde x0.
donde, como se observa, el vector y es usado en lugar del vector x. Obsrvese que ambos problemas, el primal y su dual, tienen estructuras simtricas: el primal es de maximizacin, el dual de minimizacin. Los signos de desigualdad de las restricciones estructurales del primal son de menor o igual, mientras que los del problema dual son de mayor o igual. La matriz estructural A se halla post-multiplicada por x en el primal. Si esta matriz tiene m filas y n columnas, al pre-multiplicarla por y en el dual ello har que el nmero de componentes de y tenga que ser igual a m. Finalmente, en ambos problemas, se mantienen las condiciones de no-negatividad de las variables 11 . El primer teorema fundamental de la programacin lineal establece que condicin necesaria y suficiente para la existencia de una solucin en un LP, es que los conjuntos de oportunidad -tanto del problema primal como de su dual- sean no vacos (Teorema de existencia). Un programa lineal tambin puede no estar acotado o carecer de factibilidad. La teora de la dualidad nos dice entonces que si el primal no est acotado el dual no ser factible, en virtud del teorema dbil de dualidad. Asimismo, si el dual no est acotado, el primal no tendr factibilidad. Pero tambin es posible que ambos problemas, el dual y el primal, carezcan de factibilidad. El segundo teorema fundamental es el teorema de dualidad: Condicin necesaria y suficiente para que un vector factible sea solucin de un LP, es que exista un vector factible para el problema dual en el cual los valores de las funciones objetivo de ambos problemas sean iguales. Hay dos ideas fundamentales en la teora de la dualidad. 1) El dual del dual de un problema de LP lo convierte en el problema original (o primal). 2) Adems, toda solucin factible de un LP proporciona una cota al valor de la funcin objetivo de su dual. La versin dbil del teorema de dualidad establece que el valor de la funcin objetivo del dual de cualquier solucin factible siempre es mayor o igual que el valor de la funcin objetivo del primal en cualquier solucin factible. La versin fuerte del teorema de dualidad afirma que si el primal tiene una solucin ptima x* entonces el dual tambin la tendr, y*, tal que cx*=y*Ax*=y*b. Esta versin a veces es denominada teorema de equilibrio de la LP. Llegamos ahora a una tercera proposicin importante, que establece que es posible obtener una solucin del dual si se conoce una solucin ptima del primal, utilizando el teorema de holgura complementaria: supngase que x=(x1,...,xn) es factible en el primal e y=(y1,...,ym) es factible en el dual. Sean (w1,...,wm) las 12 variables slack correspondientes al primal, y (z1,....,zn) las variables slack correspondientes al dual. Luego x e y son ptimas en sus problemas respectivos si y slo si xjzj=0 (j=1, ..., n), wiyi=0 (i=1, ...,m). Por lo tanto, si la i-sima variable slack del primal no es cero, la i-sima variable del dual es igual a cero. Tambin, si la j-sima variable slack del dual no es cero, entonces la j-sima variable del primal es igual a cero.
x representa a un vector de n variables, c y b son vectores de coeficientes (el primer vector tiene n componentes y el segundo m) y A es una matriz de coeficientes de m filas por n columnas. La funcin objetivo, en este caso, es cx y debe ser maximizada 9 . Las inecuaciones Ax b son las restricciones estructurales que definen el poltopo convexo sobre el cual debe ser maximizada la funcin objetivo. En adjunto podemos visualizar un poltopo bidimensional definido por tres inecuaciones (la feasible region). Geomtricamente, las restricciones lineales definen un poliedro convexo, denominado regin factible (o conjunto factible). Como la funcin objetivo tambin es lineal, y por lo tanto convexa, todos los ptimos locales son automticamente ptimos globales (por el teorema de KKT). El valor de la funcin objetivo es igual al mximo alcanzado por dicha funcin en un problema de mximo, e igual al mnimo alcanzado por dicha funcin en un problema de mnimo. La linealidad de la funcin objetivo tambin implica que el conjunto de soluciones ptimas es la cpsula convexa 10 de un conjunto finito de puntos, habitualmente de uno solo. Hay dos casos en que no se puede hallar una solucin ptima. Primero, si las restricciones se contradicen entre s (por ejemplo, x2 y x1). En este caso, el conjunto factible es vaco y se dice que el LP no es factible. Segundo, el poliedro puede no estar acotado en la direccin de la funcin objetivo (por ejemplo: maximizar x1+3x2 sujeto a x10, x2 0, x1+x210), en cuyo caso no hay solucin ptima dado que podran construirse soluciones con valores arbitrariamente elevados de la funcin objetivo. Pero exceptuando estas condiciones patolgicas, el ptimo ser siempre alcanzado en un vrtice del poliedro. Empero, el ptimo no ser necesariamente nico: es posible que se obtenga todo un conjunto de soluciones ptimas que cubran
Vase M. Intriligator, Optimizacin matemtica y teora econmica, Prentice-Hall Internacional, Captulo 5 y 6. 8 En geometra politopo significa, en primer lugar, la generalizacin a cualquier dimensin de un polgono bidimensional, y un poliedro tridimensional. 9 n La notacin c indica que estamos utilizando al vector traspuesto de c, luego cx= j=1 cjxj. 10 La cpsula convexa de un conjunto de puntos X en un espacio vectorial real V es el mnimo conjunto convexo de V que contiene a X.
Esto es todo lo que necesitamos por ahora. Volvamos al problema estratgico. Recordemos que habamos denotado como p1 (p2) al vector de probabilidades aplicado por el jugador 1 (2) sobre sus estrategias puras de fila (columna). El jugador 1 buscar el ms alto pago esperado
Hay una segunda forma de trabajar con un problema de LP, que es a travs de la forma cannica, en la cual todas las desigualdades son transformadas en igualdades. Dejaremos este punto para ms adelante. 12 Slack se traduce como holgura: las correspondientes restricciones se cumplen como igualdades si y slo si la variable slack pertinente es igual a 0.
11
441
garantizado, para lo cual elegir estas probabilidades a fin de maximizar el pago mnimo esperado. Este pago mnimo puede ser escrito por medio de desigualdades lineales:
442
1(p1*) = maxp1 1(p1)= V = minp2 2(p2) = 2(p2*) donde V es el valor del juego. Hemos arribado as a la conclusin de que el teorema de dualidad de la programacin lineal implica el teorema minimax de la teora de los juegos. Pero hay otra implicacin adicional. El teorema de holgura complementaria implica que: O bien se tiene i=1mp i1* ij= V
2*
p1ej= i=1mpi 1ij 1(p 1), j=1, ...,n 13
o lo que es lo mismo:
p1 1(p1)10 (1 es un vector fila de unos). Luego, el problema del jugador 1 puede expresarse como un problema de LP: maxp1 1(p1) bajo las restricciones: p1 1(p1)10 p11= 1 p10. Para el jugador 2, que minimiza el mximo, se tendr: minp2 2 (p2) p2 12 (p2)0 1p2=1 p20. Estos dos problemas son duales el uno del otro (v. cuadro siguiente). p11 p21 ....... pm1 1(p1) p12 11 21 ....... m1 1 0 p22 12 22 ....... m2 1 0 ...... ...... ...... ...... ...... ...... ...... p n2 1n 2n ....... mn 1 0 2(p2) 1 1 ........ 1 1
=1- (p )mn; 1 1 e.d. max (p )
1 1
o o
p 2*=0, j=1,2,...,n.
j 1*
O bien,
j=1n
ij pj = V
pi =0, i=1,2,..., m.
A estos resultados se los conoce habitualmente como teorema fuerte del minimax. Por ejemplo, si el pago esperado por 1 es mayor que el valor del juego para una determinada estrategia pura del jugador 2, entonces 1 juega esta estrategia con probabilidad cero.
En un juego estrictamente determinado, en el cual el juego presenta un punto de ensilladura (como se vio en pgina 83), las estrategias ptimas mixtas asignan probabilidad igual a uno a las estrategias puras en el punto de ensilladura, es decir que los vectores de estrategia mixta ptima son vectores unitarios. En realidad, el nmero de elementos no nulos en los vectores de estrategia mixta ptima no superar al mnimo de los nmeros de estrategias puras de que disponen los jugadores. Cuando los jugadores emplean sus estrategias ptimas no revelan a sus oponentes la estrategia real que van a emplear sea cual fuere la forma de jugar el juego. La estrategia es seleccionada mediante un mecanismo de probabilidades empleando las probabilidades ptimas (por ejemplo, mediante una moneda, arrojando dados, una tabla de nmeros aleatorios, etc.) lo que hace imposible al rival conocer la estrategia real que ser usada en la partida. Si pudiese hacerlo, podra explotar este conocimiento en beneficio propio. Sin embargo, el oponente nunca podr emplear informacin alguna partiendo de las probabilidad ptimas empleadas en un juego bien jugado. Hay una solucin mucho ms simple, que se puede obtener en forma grfica, cuando un jugador (por ejemplo el 1) dispone slo de dos estrategias. Tomemos como ejemplo el siguiente juego que no es estrictamente determinado: Jugador 1 Mx de columna 6 -4 6 Jugador 2 -2 5 5 3 4 4 Mnimo de fila -2 -4
0 0 ........ 0
=1- (p )mx; 2 2 e.d. mn (p )
2 2
Para que la suma de probabilidades sea la unidad, se define:
pm1= 1 i=1 m-1pi1 pn2= 1 j=1n-1 pj2 .
Dado que existen vectores factibles en ambos conjuntos de oportunidades, es decir, los vectores unitarios, segn el teorema de existencia de la programacin lineal existen soluciones p1*, p2* de ambos problemas. El mismo teorema de dualidad conduce a que:
13 Como antes, ej es el vector j de la matriz unidad (es decir, una matriz cuadrada cuyos elementos de la diagonal principal son unos y todos los dems ceros) escrito como fila, Por convencin hacemos e1=(1,0,....,0), etc.
En la figura siguiente, el eje horizontal mide p 21, probabilidad de que el jugador elija su segunda estrategia, a saber la segunda fila de la matriz. Como p1 1 1 p2 1 los puntos 0 y 1 corresponden a = , las dos estrategias puras de elegir la primera y la segunda fila, respectivamente. Verticalmente medimos el pago al jugador 1, y cada una de las lneas en color rojo se obtiene suponiendo que el oponente (2) seleccionar una de sus estrategias puras. As, si 2 elige la primera columna, el pago del jugador 1 es igual a 6 si elige la primera fila, (p2 1 =0) y 4 si elige la segunda fila (p2 1 =1), representados como 6 de la ordenada al origen del lado izquierdo del grfico y el 4 de la ordenada al origen del lado derecho. La recta que une ambos puntos representa lo que implican los pagos de todas las estrategias mixtas. Como el jugador 1 se pone en el peor de los mundos posibles, el nico lugar geomtrico que le queda a 1 es la lnea roja de trazo grueso con forma de V invertida. Los puntos de este lugar geomtrico representan el menor pago esperado de 1 a medida que cambia su probabilidad de elegir la fila 2. Maximizar el pago esperado requiere que
443
444
p21*=8/17. De esta manera su primera estrategia ser elegida con probabilidad 9/17. El Valor del juego ser V=-2(9/17)+5(8/17) = 6(9/17) 4(8/17) = 22/17.
Pago del jugador 1
La Batalla de los Sexos es un ejemplo muy simple de un tpico juego de suma no cero. En este caso el marido y su esposa desean salir por la noche, y han decidido ir ya sea a un ballet o a una partida de boxeo. Ambos prefieren estar juntos que ir por separado (son un matrimonio bien avenido). El marido preferira ir a la partida de boxeo, pero si tiene que ir solo prefiere acompaar a su esposa al ballet (lo que se dice un buen esposo!). A la esposa le gustara ir al ballet, pero, bueno, hara un sacrificio para acompaar a su marido a presenciar la partida de boxeo en lugar de ir sola al Teatro Coln. La matriz de pagos es la siguiente:
6 5 4 3 0
El jugador 1 elige su estrategia 1 El jugador 1 elige su estrategia 2
Esposa
Partida de Boxeo Ballet
Marido Partida de boxeo 2, 3 1, 1
Ballet 1, 1 3, 2
Los pagos de la esposa estn representados por el primer elemento de cada par ordenado de esta matriz de pagos, mientras que los del esposo estn representados por el segundo elemento.
p2 1*=8/17
1 p21
En esta matriz se observa que la situacin representada no corresponde a un conflicto estrictamente competitivo. Ambos tienen inters comn en estar juntos antes que ir a los espectculos en forma separada. Pero existe un inters opuesto, en la medida que la esposa prefiere ir al Teatro Coln en tanto que el esposo prefiere hacerlo al Luna Park. Ya hemos visto en Introduccin a la Optimizacin y a la teora de los juegos cmo Melvin Dresher y Merrill Flood realizaron en 1960 un experimento basado en el Dilema de los Prisioneros, que se ha convertido en un ejemplo cannico de la teora de los juegos de suma no cero no cooperativos. Hay muchsimas situaciones importantes en la esfera social, econmica y poltica en las cuales se presentan las paradojas de ese dilema. Un ejemplo econmico es la eleccin entre libre comercio y proteccionismo. Todos los pases salen ganando con el libre comercio; sin embargo, un nico pas, en la situacin de libre comercio, puede mejorar su propia situacin econmica mediante la imposicin de tarifas. Douglas Richard Hofstadter (nacido en 1945) es un cientfico, filsofo y acadmico estadounidense 15 . Es probablemente mejor conocido por su libro Gdel, Escher, Bach: un Eterno y Grcil Bucle (Gdel, Escher, Bach: an Eternal Golden
15
-2 - -4
Antecedentes La primera aplicacin conocida en Teora de los Juegos se debe a Zermelo 14 (1913) que demostr que el ajedrez es un juego estrictamente determinado. Lo interesante del caso es que no construy una prueba explcita de las estrategias correctas; en realidad, hasta el da de hoy ignoramos si el resultado correcto del ajedrez es que ganen las blancas, las negras, o un empate. La condicin sine qua non de la demostracin de Zermelo es que se trate de un juego bipersonal de suma cero con informacin perfecta. Posteriormente, en 1953, H. W. Kuhn reemplazara la nocin de jugadas correctas, racionales desde el punto de vista individual, por la de equilibrio. Demostrar que todo juego de n personas con informacin perfecta tiene equilibrio en estrategias puras. 2.4 Juegos Bi-Personales de suma no cero Cuando no es cierto que el pago a un jugador es el opuesto del pago al otro, existe la posibilidad de ganancias o prdidas mutuas. Al no hallarse en una situacin que involucre un conflicto total, existe una oportunidad para las amenazas, los engaos, la comunicacin de intenciones, junto con fenmenos de aprender y ensear. En un juego de suma cero es absurdo revelar la propia estrategia por adelantado, pero en un juego de suma no cero puede resultar a veces deseable hacerlo para lograr la coordinacin con el otro jugador o influir sobre l para lograr un resultado deseable.
Douglas Hofstadter (1945- )
14 Zermelo, E. 1913, ber eine Anwendung der Mengenlehre auf die theorie des Schachspiels, Proceedings of the Fifth International Congress of Mathematicians 2, 501-4. V. R. Aumann, Game Theory, The New Palgrave: A Dictionary of Economics, Vol. 2, edited by J. Eatwell, M. Milgate, and P. Newman, Macmillan, London, 1987.
Hofstadter es polglota; pas algunos aos en Suecia a mediados de los aos 1960 en donde aprendi sueco. Adems de ingls, su lengua materna, habla italiano, francs y alemn; su conocimiento de estos idiomas se puede atribuir en parte al haber pasado un ao de su juventud en Ginebra. Tambin habla un poco de ruso: tradujo partes de GEB al ruso, y public una traduccin en verso de Eugene Onegin de Alexander Pushkin. En Le Ton beau de Marot (escrito en memoria de su ltima esposa Carol) se autodescribe como un "pilinge" (entendido en 3,14159... idiomas) y "oligoglot" (hablante de pocos idiomas). Entre sus intereses estn la msica, los temas de la mente, la creatividad, la conciencia, la autorreferencia, la traduccin, y los juegos matemticos. En 1979 public GEB, un voluminoso libro que se convirti en un sorprendente xito de ventas donde se anudan la lgica matemtica, la biologa, la psicologa y la lingstica en torno al fenmeno de la autorreferencialidad. Public, en colaboracin con Daniel Dennett, The Mind I: Fantasies and Reflections on Self and Soul (1981) y Metamagical Themas en 1985. Ley de Hofstadter: "Hacer algo te va a llevar ms tiempo de lo que piensas, incluso si tienes en cuenta la ley de Hofstadter."
445
446
Braid, denotado como GEB) que fue publicado en 1979, y gan el Premio Pulitzer en 1980 por noficcin general. Este libro ha inspirado a miles de estudiantes a comenzar sus carreras en computacin e inteligencia artificial. Entre los trabajos publicados en la web les recomiendo su columna escrita en Scientific American, cuando asumi el puesto dejado vacante por Martin Gardner que escriba all su columna "Mathematical Games" pasando en 1981-1983 a escribir una columna titulada Metamagical Themas (un anagrama de "Mathematical Games"). Una de las ideas que all introdujo fue el concepto de Reseas de Este Libro, que no es otra cosa que un libro que slo tiene reseas cruzadas de s mismo e implementado on-line. Otra de las columnas de Hofstadter se refera a los efectos dainos causados por el lenguaje sexista.
Puntos de Equilibrio en juegos n-personales Por John F. Nash, Jr.* Princeton University, Comunicacin de S. Lefschetz, Noviembre 16, 1949 (traduccin propia).
Podemos definir el concepto de un juego de n-personas en el que cada jugador dispone de un conjunto finito de estrategias puras y en el cual un conjunto definido de pagos a los n jugadores corresponde a cada n-upla de estrategias puras, cada una de las cuales es adoptada por cada jugador. Para las estrategias mixtas, que constituyen distribuciones de probabilidad sobre las estrategias puras, las funciones de pago son las expectativas de los jugadores, que se transforman en formas multilineales en las probabilidades con las cuales los distintos jugadores juegan sus diferentes estrategias puras. Toda n-upla de estrategias, una por cada jugador, puede ser considerada como un punto del espacio producto obtenido multiplicando los n espacios estratgicos de los jugadores. Una n-upla de estrategias tal contrarresta a otra si la estrategia de cada jugador en la n-upla contrarrestante da lugar a la mayor expectativa del jugador en contra de las n-1 estrategias de los dems jugadores en la n-upla contrarrestada. Una n-upla que se contrarresta a s misma es denominada un punto de equilibrio. La correspondencia de cada n-upla con el conjunto de n-uplas contrarrestantes da lugar a un mapa de unoa-varios del espacio producto en s mismo. A partir de la definicin de contrarrestar vemos que el conjunto de puntos contrarrestantes de un punto es convexo. Por continuidad de las funciones de pago sabemos que el grafo del mapa es cerrado. Esto significa lo siguiente: Si P1, P2, ..., y Q1,Q2, ..., Qn, ... son sucesiones de puntos en el espacio producto, si QnQ, PnP y Qn contrarresta a Pn, entonces Q contrarresta a P. Como el grafo es cerrado y la imagen de cada punto dada por el mapa es convexa, inferimos por el teorema de 1 Kakutani que el mapa tiene un punto fijo (es decir, un punto contenido en su imagen). Luego existe un punto de equilibrio. En el caso de juegos bi-personales de suma cero el teorema principal y la existencia de un punto de equilibrio son equivalentes. En ese caso, dos puntos de equilibrio cualesquiera conducen a las mismas expectativas para los agentes, pero ste no es necesariamente el caso general. * El autor agradece al Dr. David Gale por su sugerencia de usar el teorema de Kakutani a efectos de simplificar la demostracin y a A.E.C. por su apoyo financiero.
1
A Hofstadter se debe una frase que tiene una conexin directa con este dilema: not devoting any time or energy to pressing global issues such as the arms race, famine, pollution, diminishing resources, and so on, saying Oh, of course Im very concernedbut theres nothing one person can do. (Metamagical Temas). Y el hecho es que los problemas ms acuciantes que se presentan a la humanidad se derivan de la falta de conciencia de los problemas que traen aparejados fenmenos como el cambio climtico, la pobreza y la contaminacin, en los cuales este tipo de conducta es muy frecuente: cuando se decide lo mejor por hacer en una situacin estratgica, normalmente es importante predecir lo que harn los dems. ste no es el caso presente. Para facilitar la lectura, escribiremos nuevamenta la matriz de pagos de un dilema del prisionero: C (cooperar) D (defeccionar) C (cooperar) 3, 3 4, 0 D (defeccionar) 0, 4 1, 1
Si se supiera que el otro prisionero no hablar, su mejor movida es la de traicionarlo en lugar de recibir una sentencia menor. Si usted sabe que el otro lo traicionar, su mejor movida es traicionarlo, porque recibe una sentencia inferior que si se mantiene en silencio. La traicin es la estrategia dominante. Como todos razonan de la misma manera, todos recibirn un menor pago que si se mantuvieran en silencio. La racionalidad juega un rol peor que si el otro se hubiera mantenido en silencio. En lenguaje tcnico, esto demuestra que en un juego que no es de suma cero un equilibrio de Nash no constituye necesariamente un ptimo de Pareto. La necesidad de comunicacin y coordinacin es evidente, puesto que en estos ejemplos el comportamiento individualmente racional puede conducir a resultados inferiores para todos los individuos.
Kakutani, S., Duke Math. J., 8, 457-459 (1941).
Ha existido una suerte de fascinacin universal con el dilema de los prisioneros, lo cual se debe a que representa en forma cruda y transparente el hecho amargo de que cuando los individuos persiguen su propio inters, el resultado puede ser un desastre para todos. El principio tiene docenas y docenas de aplicaciones, grandes y pequeas, en la vida cotidiana. La gente que no coopera y acta en pos de su propio beneficio mutuo no es necesariamente estpida o irracional; pueden estar actuando de modo perfectamente racional. Cuanto antes aceptemos esto, ms rpido llegaremos a disear un esquema de compromiso social para favorecer la cooperacin. Un paso en tal sentido que podra ser de amplia aplicacin, es disponer de un mecanismo para la aplicacin de acuerdos voluntarios. Recen por el bienestar de los gobiernos, sin cuya autoridad los hombres se tragaran a todos los hombres con vida (tica de los Padres, III:2, cit. por R. Aumann). Sera suficiente que el mecanismo estuviera disponible; una vez disponible, los jugadores estaran motivados naturalmente a utilizarlo. Si pueden lograr un acuerdo ejecutable para forzar la cooperacin (C,C), sera estpido terminar en (D,D). ste ha sido el motivo que motiv la definicin de un juego cooperativo. 2.5 El Teorema de Nash de 1950
sta es la famosa comunicacin de Nash, incluida en los Proceedings de la National Academy of Sciences USA (vol. 36, 1950). Este paper le valdra luego ganar el premio Nobel de Economa 1994. Para su demostracin, como hemos visto, apela al teorema de punto fijo de Kakutani, que es aplicable en el caso de mapas punto a conjunto. Suministra condiciones suficentes para que el mapa, definido sobre un subconjunto convexo y compacto del espacio eucldeo, tenga un punto fijo, es decir un punto mapeado a un conjunto que lo contiene. El teorema de punto fijo de Kakutani es una generalizacin del teorema de punto fijo de Brouwer. Este ltimo teorema de punto fijo es un resultado fundamental de la topologa que demuestra la existencia de puntos fijos de funciones continuas definidas sobre subconjuntos compactos y convexos del espacio eucldeo. El teorema de Kakutani extiende este resultado a mapas punto a conjunto. El teorema fue demostrado por Shizuo Kakutani en 1941 16 tal como es mencionado por John Nash, y aplicado por l mismo en el teorema de 1950. Luego tuvo extensas aplicaciones en teora de los juegos y en economa 17 .
16 Kakutani, Shizuo (1941). "A generalization of Brouwers fixed point theorem". Duke Mathematical Journal 8 (3): 457459. 17 V. Border, Kim C. (1989). Fixed Point Theorems with Applications to Economics and Game Theory. Cambridge University Press.
447
448
Los aos 50 fueron un perodo excitante en teora de los juegos. La disciplina haba salido del cascarn y empez a ser testeada. En Princeton, Nash asentaba los fundamentos de una teora general no cooperativa; como veremos luego, tambin lo hizo para los juegos cooperativos. Lloyd Shapley defini el valor de los juegos de coaliciones, dio inicio a la teora de los juegos estocsticos, invent en forma conjunta con D.B. Gillies el ncleo, y, con John Milnor, desarroll los primeros modelos de juegos con jugadores distribudos en forma continua; tambin hubo descubrimientos de Harold Kuhn y Al Tucker (que descubri el dilema del prisionero) 18 .
este caso S es el conjunto de n-uplas de precios de los bienes. (x) es elegida como una funcin cuyo resultado es diferente a su argumento en tanto que la precio-upla x no iguale a la oferta con la demanda en todos los mercados. Aqu el desafo consiste en construir de tal manera que tenga esta propiedad adems de satisfacer las restantes condiciones del teorema de Kakutani. Esto se puede lograr si tiene un punto fijo de acuerdo con el teorema. Por la forma en que ha sido construido, este punto fijo debe corresponder a una n-upla de precios que iguala a la oferta con la demanda en todos los mercados.
El teorema de Kakutani afirma lo siguiente: Sea S un subconjunto no vaco, compacto y convexo de algn espacio eucldeo Rn. Sea : S 2S (conjunto potencia de S) un mapa de S con un grafo cerrado y la propiedad de que (x) es no vaco y convexo para todo x S. Luego tiene un punto fijo. 19 Algunas definiciones bsicas: un mapa del conjunto X al conjunto Y es una regla que asocia a uno o ms puntos de Y con cada punto de X. Formalmente puede ser visto como una funcin desde X al conjunto de subconjuntos de Y, lo que se escribe como : X2Y. Grafo cerrado: una funcin de punto a conjunto mapa : X2Y tiene un grafo cerrado si el conjunto {(x,y)| y (x)} es un subconjunto cerrado XY en la topologa producto. Punto fijo: Sea : X2X una funcin de punto a conjunto. Luego a X es un punto fijo de si a (a). A estos mapas se los denomina con frecuencia correspondencias. Ejemplo Sea f(x) una funcin punto a conjunto definida en el intervalo cerrado [0, 1] que mapea un punto x en el intervalo cerrado [1x/2, 1x/4]. Luego como satisface todos los supuestos requeridos por el teorema debe tener puntos fijos. En el diagrama, todo punto en la bisectriz del plano que cruza al grafo de la funcin (grisado) es un punto fijo, luego de hecho en este caso particular hay una infinidad de puntos fijos. Por ejemplo, x = 0.72 es un punto fijo ya que 0.72 [10.72/2, 10.72/4]. Teora del equilibrio general En GE el teorema de Kakutani ha sido usado para demostrar la existencia de un conjunto de precios que en forma simultnea igualan a la oferta con la demanda en todos los mercados 20 . En
Hubo aplicaciones a comienzos de la dcada a problemas militares tcticos, como la defensa antimisilstica, el coronel Blotto, duelos, etc. Luego el nfasis se desplaz hacia la disuasin y a la guerra fra, con contribuciones como las de Kahn, Kissinger y Schelling. En 1954 Shapley y Shubik publicaron un documento fundamental sobre el valor de un juego de votacin como un ndice de poder. Y en 1959 tuvo lugar el redescubrimiento espectacular de Martin Shubik del ncleo de un mercado en los escritos de Edgeworth (1881). Desde entonces, la mayor aplicacin de la teora de los juegos ha sido a temas econmicos. Otras modelizaciones de juegos que han tenido notoriedad son los juegos estocsticos y dinmicos, repetidos, con o sin informacin completa, los juegos supervivencia (Milnor y Shapley, 1957; Luce y Raiffa, 1957; Shubik, 1959), los juegos de ruina (Rosenthal y Rubinstein, 1984), los recursivos (Everett, 1957) y otros modelos similares. Dos modelos han sido particularmente exitosos: 1) los juegos estocsticos que atienden a la cuestin de que las acciones actuales afectan las futuras oportunidades. Shapley (1953) demostr que los juegos estocsticos en un entorno estrictamente competitivo, con los pagos futuros descontados a una tasa fija, son determinados; es decir tienen estrategias ptimas estacionarias (dependen solamente del juego que es jugado, no de la historia ni tampoco de la fecha). 2) los juegos repetidos que modelizan el costado psicolgico o informativo de relaciones que continan a travs del tiempo. La teora permite predecir fenmenos como la cooperacin, el altruismo, la confianza, el castigo y la venganza. El Principio de Equivalencia Un aspecto interesante que conecta a la teora de los juegos con la economa es la relacin entre los precios de equilibrio de una economa competitiva de mercado, y todas las soluciones importantes del juego correspondiente. Por economa de mercado se entiende una economa de intercambio puro, o una economa de produccin con rendimientos constantes a escala. Decimos que una economa es competitiva si tiene muchos agentes, cada uno de los cuales tiene una incidencia demasiado pequea sobre la dotacin como para ser tenido en cuenta. Esto condujo a tres enfoques. En el enfoque asinttico, los agentes tienden a infinito, y se observa que el concepto de solucin aplicable ncleo 21 , valor, conjunto de negociacin 22 , equilibrio estratgico tiende hacia el conjunto de asignaciones competitivas. Pero estos son temas que abordaremos en el punto 3. 2.6 Juegos en forma estratgica
21
Para todo estos detalles, v. R. Aumann, ob.cit. A partir de un conjunto de 3 elementos, se pueden armar 23 conjuntos con esos tres elementos. En forma similar, vemos que hay 2n subconjuntos a partir de un conjunto de n elementos. Imaginemos por ejemplo que dos dados son arrojados en forma simultnea, o que un dado es arrojado dos veces. Cuntos resultados de dos componentes (por ejemplo, 3, 5) se podrn obtener? Pues 236. Si arrojamos un dado 3 veces, obtenemos un espacio muestral tridimensional y 63 puntos posibles. V. T. Tamane, Mathematics for Economists, Prentice-Hall, 1965. El conjunto potencia de S es el conjunto de todos los subconjuntos de S. Este conjunto potencia incluye a los subconjuntos formados por los miembros de S, a S mismo y al conjunto vaco. El conjunto potencia siempre es escrito como 2S. Por ejemplo, el conjunto potencia 2{1,2,3} de {1, 2, 3} es igual al conjunto {{1, 2, 3}, {1, 2}, {1, 3}, {2, 3}, {1}, {2}, {3}, }. El conjunto original tiene un cardinal igual a 3, y resulta que la cardinalidad del conjunto potencia es 23=8. Esta notacin ejemplifica una convencin general para denotar a los conjuntos basndose en su cardinalidad. 20 Starr, Ross M. (1997). General Equilibrium Theory, Cambridge University Press.
19
18
En el contexto de juegos coalicionales (juegos cooperativos) surge la idea del ncleo de una economa, una nocin fcil de entender en una economa simple en la que slo hay un conjunto de agentes individuales, cada uno de ellos dotado con una cantidad determinada de cada uno de los bienes existentes. En esta economa de intercambio puro, el ncleo es un concepto de solucin muy general. Una asignacin del total de los bienes existentes entre los jugadores estar "bloqueada" si hay una coalicin de individuos que, con sus propias dotaciones iniciales de bienes (que pueden repartrselas sin problemas debido a su capacidad de comprometerse firmemente), puede mejorar a todos sus componentes en relacin a la asignacin que estamos considerando. Pues bien, el ncleo de esa economa est formado por todas las asignaciones que no estn "bloqueadas" por ninguna coalicin, incluyendo la formada por todos ellos. 22 Un conjunto de negociacin est formado por las posibles propuestas que los agentes pueden realizar.
449
450
Vamos a desarrollar algo ms profundamente la teora de los juegos no-cooperativos que son jugados slo una vez, con un nmero finito de jugadores y en los cuales cada jugador dispone de un nmero finito de estrategias 23 . Trabajaremos sobre la forma estratgica (o normal) del juego. El paradigma que desarrollaremos es el de los juegos bi-personales con una matriz de pagos de movimientos simultneos, aunque este esquema puede ser generalizado con facilidad. La forma estratgica (o normal) de un juego es una descripcin natural y adecuada de un juego con movimientos simultneos. Tambin constituye una plataforma de anlisis de juegos ms complicados en sentido temporal o de informacin. Se define a la forma estratgica en trminos de sus partes constitutivas: jugadores, acciones y preferencias. Las estrategias mixtas son randomizaciones sobre las acciones. La primera etapa es la ms simple, consistente en el problema de ver qu decisin tomara un jugador dadas sus creencias sobre las decisiones de sus oponentes. No trataremos la parte ms difcil de las teora de los juegos: qu creencias racionales tendrn los jugadores sobre las decisiones de sus adversarios.
Cada jugador tiene preferencias sobre estos resultados. Supondremos que las preferencias de loteras sobre S pueden ser representadas por una funcin de utilidad de von NeumannMorgenstern ui: SR.
Loteras
Sea x un "resultado" y X un conjunto de resultados. Sea p una medida simple de probabilidad en X, luego p = (p(x1), p(x2), ..., p(xn)) donde p(xi) son las probabilidades de que ocurra el resultado xiX, i.e. p(xi) 0 para todos los i = 1, ..., n y i=1np(xi) = 1. Observen que en el caso de medidas simples de probabilidad, existen elementos finitos xX para los cuales p(x)>0 (p tiene "soporte finito).Definimos (X) como el conjunto de medidas de probabilidad simples en X. Una lotera particular es un punto en (X).
Estrategias individuales Disponemos de un conjunto finito no vaco de jugadores I de nN{1, 2, ...} jugadores (I={1,...,n}). El i-simo jugador (iI) tiene un especio no vaco de estrategias Si. Este espacio Si es finito. stas constituyen las estrategias puras que sern distinguidas de las mixtas, randomizaciones sobre las estrategias puras 24 . Perfiles estratgicos Supondremos que todos los jugadores aplican sus estrategias al mismo tiempo: el jugador 1 aplica s1S1, el jugador 2 s2S2, etc. Al conjunto de estrategias elegidas por los n jugadores (una nupla) lo denotamos como: s=(s1,,sn).
Una de las primeras cuestiones a responder es cmo evaluara un agente una lotera compuesta, es decir una lotera que da tickets para otra lotera, en lugar de proporcionar un premio? Podemos reducir las loteras compuestas a loteras simples combinando las probabilidades de las loteras de manera de obtener como resultado final una nica distribucin de probabilidad sobre los resultados. Para verlo, supngase una lotera r con dos resultados posibles: con 50% de probabilidad, da un ticket para participar en otra lotera p, mientras que el 50% restante da un ticket para participar en otra lotera diferente q. Por lo tanto, r = 0.5p + 0.5q. En la figura 1b se ilustra cmo se reduce r a una lotera compuesta. En la Figura 1a, la lotera simple p tiene pagos (x1,x2,x3)=(0,2,1) con probabilidades respectivas (p1,p2,p3)=(0.5,0.2,0.3). La lotera simple q tiene pagos (y1,y2)=(2,3) con probabilidades (q1,q2)=(0.6,0.4). Por lo tanto, combinando el conjunto de resultados de la derecha de la Fig. 1b la lotera compuesta r tendr pagos (z1,z2,z3,z4)=(0,1,2,3). Las probabilidades de estos resultados de r se obtienen tomando la combinacin lineal de las probabilidades de las loteras originales: si el resultado 2 tena probabilidad 0.2 en la lotera p y 0.6 en la lotera q, tendr probabilidad 0.5(0.2)+0.5(0.6)=0.4 en la lotera compuesta r. Tambin, si el resultado 1 tiene probabilidad 0.3 en p y 0 en q, tendr probabilidad 0.5(0.3)+0.5(0)=0.15 en la lotera r. En resumen, la lotera compuesta tendr resultados (z1,z2,z3,z4)=(0,1,2,3) con probabilidades respectivas (r1,r2,r3,r4)=(0.25,0.15,0.4,0.2). Fig. 1a Dos loteras simples Fig. 1b Lotera compuesta
Este vector de n dimensiones de estrategias individuales es denominado un perfil estratgico. Cada combinacin distinta de estrategias individuales da lugar a un perfil estratgico distinto. El conjunto de todos los perfiles estratgicos es llamado el espacio de perfiles S. ste es simplemente el producto cartesiano de los espacios estratgicos Si de cada jugador. El jugador i a veces est interesado en las estrategias que podran elegir los restantes n-1. Esta (n-1)-upla de estrategias, denominada perfil estratgico reducido, viene dada por s-i=(s1,s2,,si-1,si+1, sn). A cada jugador I le corresponde un espacio de todas las estrategias reducidas de la forma anterior S-i=S1X...XSi-1XSi+1XXSn =jI{i}Sj. Pagos Cuando todos los jugadores juegan en forma simultnea sus estrategias individuales, sus elecciones resultan en un perfil de estrategias sS, que es denominado el resultado del juego.
En general, una lotera compuesta es un conjunto de K loteras simples {pk} k=1K conectadas por probabilidades {k}k=1K con k=1K k=1 de tal manera que se tiene una lotera pk con probabilidad k. Por lo tanto, una lotera compuesta tiene la forma q =1p1+2p2... +KpK. La lotera compuesta puede ser reducida a una lotera simple dado que q(xi)= 1p1(xi)+ 2p2(xi) + ...+ KpK(xi) puede ser interpretada como la n probabilidad de que ocurra xiX. Esto se logra reconociendo que k=1K k=1 y i=1 pi(xi)=1. Definiendo q(xi) n =k k pk(xi) se tiene i=1 q(xi) =k k ( pk(xi)) =k k=1. Por lo tanto, q=(1p1, ..., kpk) es en s una lotera
Ustedes puede consultar como referencia Jim Ratliff, A Graduate Course in Game Theory. Una estrategia no es necesariamente una sola accin, simple y elemental; en un juego con estructura temporal puede ser una secuencia muy compleja de acciones que dependen de acciones simples individuales adoptadas por todos los dems jugadores. Esto se aprecia cuando se transforma una descripcin en forma extensiva de un juego en su forma estratgica. El trmino forma estratgica se deriva precisamente de que el formalismo presente ignora toda la complejidad potencial y considera a las estrategias como los trminos primitivos de la teora.
24 23
451
simple. Como resultado, el conjunto de loteras simples en X, (X), es un conjunto convexo: para toda p, q(X), p+(1-)q(X), para todo (0,1).
452
Observen que esta definicin es dbil, en el siguiente sentido: la mejor respuesta puede que no le d a i estrictamente ms que cualquier otra eleccin estratgica. Pero al menos le proporciona una respuesta ptima. En otras palabras, no siempre se tendr una funcin de mejor respuesta que indique la mejor respuesta nica de i a algn perfil estratgico reducido s--i S-i, pero tendremos una correspondencia de mejor respuesta de i.
En la hiptesis de von Neumann-Morgenstern, las probabilidades son objetivas o exgenamente dadas por la Naturaleza, no pudiendo ser influidas por el agente. Empero, el problema de una persona bajo incertidumbre es que debe elegir entre probabilidades, hallando la mejor lotera en (X). Una de las contribuciones ms importantes de von Neumann y Morgenstern a la economa fue demostrar que si un agente tiene preferencias definidas sobre loteras, existir una funcin de utilidad U: (X)R que asigna utilidad a cada lotera p(X) que representa esas preferencias (Cap. IX). Pero si las loteras son meras distribuciones no parece tener ningn sentido que una persona prefiera una distribucin particular a otra! Siguiendo la historia de la teora de la utilidad desde Bernoulli, parece claro que la gente deriva bienestar de las consecuencias, xX! Al fin de cuentas, no comemos probabilidades sino manzanas. Empero, von Neumann y Morgenstern sugieren precisamente lo contrario: la gente deriva su bienestar de loteras y no de manzanas! En otros trminos, las preferencias de la gente estn definidas sobre las loteras y a partir de las mismas, en combinacin con probabilidades objetivas, podemos deducir lo que tienen que ser las preferencias subyacentes. En la teora de von Neumann-Morgenstern, y a contrario sensu de la teora usual, las preferencias por las loteras anteceden lgicamente a las preferencias sobre los resultados. Pero el motivo es muy simple, si uno lo piensa un poco. Sea una situacin con dos resultados posibles, o bien $10 o $0. Obviamente, la gente prefiere $10 a $0. Ahora consideremos dos loteras: en A, ustedes reciben $10 con 90% de probabilidad y $0 con 10% de probabilidad; en B, ustedes reciben $10 con 40% de probabilidad y $0 con 60% de probabilidad, Obviamente, la primera lotera A es mejor que la B, y podemos afirmar sobre el rango de resultados X=($10,0), la distribucin p=(90%,10%) es preferida a la distribucin (40%,60%). Y si las loteras no se distribuyen exactamente sobre los mismos resultados? En ese caso podemos lograrlo asignando probabilidad 0 a los resultados no listados en esa lotera. Por ejemplo, en la Figura 1a, las loteras p y q tienen diferentes resultados. Haciendo que el conjunto de resultados completo sea (0,1,2,3), luego la distribucin implcita en la lotera p es (0.5,0.3,0.2,0) mientras que la distribucin implcita por la lotera q es (0,0,0.6,0.4). Por consiguiente, preferencias entre loteras con distintos resultados pueden ser replanteadas como preferencias entre distribuciones de probabilidad sobre el mismo conjunto de resultados reajustando de manera acorde el conjunto de resultados. El gran insight de von Neumann y Morgenstern fue evitar la definicin de preferencias sobre resultados, captando todo lo dems en trminos de preferencias sobre loteras.
Estrategias mixtas Hasta ahora nos hemos concentrado en las estrategias puras, que si son jugadas implican que los pagos a todos los actores son determinsticos. Si las elecciones son aleatorias debemos incluir elecciones randomizadas. Estipulamos que la randomizacin realizada por cada jugador es independiente de las de los dems. Cuando un jugador i I elige una estrategia randomizada, todo otro jugador j I{i} debe estar en la incertidumbre sobre qu estrategia pura si Si est eligiendo el jugador i-simo. Si abandonamos este concepto, ello nos conduce a la nocin de estrategias correlacionadas 25 .
Una estrategia mixta especifica un valor dentro del rango [0,1] para cada siSi. Cada jugador elige una y slo una estrategia pura siSi en cada jugada del juego. Luego cualquier estrategia mixta i(Si) debe ser tal que la suma de las probabilidades con que son jugadas las estrategias puras sea uno, es decir siSi i(Si)=1. Esta propiedad se satisface si i(Si) es una distribucin de probabilidad sobre Si. sta es la justificacin de utilizar una distribucin de probabilidad para representar a una estrategia mixta.
Siguiendo una idea equivalente a como se defini un perfil de estrategias puras se puede definir un perfil de estrategias mixtas ; el espacio de estrategias mixtas ; y al espacio soporte de la estrategia mixta sop(i) como el conjunto de estrategias puras a las que se asigna una probabilidad positiva. Puntos de equilibrio en estrategias mixtas En el cuadro siguiente, supngase que el jugador 1 selecciona la estrategia siS 1i y el jugador 2 selecciona la estrategia sjSj 2, y por consiguiente el rendimiento de 1 es uij 1 ij 1 y anlogamente el rendimiento de 2 es uij 2ij 2. Suponiendo que pi 1 es la probabilidad del jugador 1 de seleccionar 1 la estrategia pura si, siSi la estrategia mixta para el jugador 1 ser expresada como:
Concludo el juego, cada jugador iI recibe un pago ui(s)=ui(<si,s-i>). Los pagos individuales para los n jugadores y un perfil particular de estrategias s definen un vector de pagos correspondiente a dicho perfil estratgico u(s)=(u1(s), u2(s), ...,un(s)), es decir u: SRn. Nuestro juego puede ser descripto plenamente por un triple (I,S,u), es decir por un conjunto de jugadores I, un espacio de perfiles S, y un vector u de funciones de utilidad de von Neumann-Morgenstern definido sobre S.
La mejor respuesta a estrategias puras Asumimos habitualmente que todos los jugadores son racionales, lo que significa que cada jugador maximizar su utilidad esperada dadas sus creencias sobre las acciones que elegirn los dems. Nos concentraremos por ahora en lo que podramos llamar la parte fcil de la teora de los Juegos, que consiste en formarse una idea sobre lo que harn los dems dadas sus creencias. Nos preguntamos: si el jugador i sabe (lase cree con certidumbre) la estrategia que jugarn los dems, cul es la estrategia que ms le conviene? Obviamente, la mejor respuesta a la jugada de sus adversarios. Decimos que una estrategia s i*Si para el jugador i es una mejor respuesta al perfil estratgico reducido s-iS-i si y slo si (siSi) ui(si *, s-i)ui(si * -ii) o, en forma equivalente, ,s si*
p1=(p11,p21, ...,pm1)
con p 11=1, p 10.
En forma anloga, si p j2 es la probabilidad del jugador 2 de seleccionar la estrategia pura sj, sjS 2 j la estrategia mixta para el jugador 2 viene dada por
p2=(p12,p22, ...,pn2)
con p 21=1, p 20.
Un punto de equilibrio en estrategias mixtas es entonces el par de vectores p1* y p2* cada uno de los cuales es una estrategia ptima, en el sentido de maximizar el rendimiento esperado, suponiendo que el otro jugador emplea su estrategia mixta (ptima). Se tiene por lo tanto:
25
arg max siSi ui(
si*,s-i
i).
Aumann, Robert J. [1987] Econometrica 55 1 (January).
Correlated
Equilibrium as an
Expression of
Bayesian
Rationality,
453
454
p11p2*p1*1p2* para toda p1 p1*2p2p1*2p2* para toda p2 para toda p2.
Para todo juego finito bi-personal existe un par de vectores de estrategias mixtas como las anteriores, que definen un equilibrio, pero este par no tiene por qu ser nico, ni tampoco tiene por qu dar pagos nicos (esperados). En trminos generales, existe un equilibrio de estrategias mixtas para todo juego de n personas con un nmero finito de estrategias. El equilibrio es un conjunto de estrategias mixtas para los jugadores tal que ninguno de los jugadores puede mejorar su situacin mediante un cambio unilateral de sus estrategias mixtas.
personas a proponer estrategias para el dilema repetido; cada estrategia deba tener la forma de un programa de cmputo. Carg todas las estrategias en una computadora y corri el torneo, en el cual cada programa jug 200 veces contra cada otro programa. Cuando el torneo termin sum las ganancias del programa e inform el score resultante. Diecisis programas fueron propuestos, algunos muy complejos. Entre los 14 participantes, Anatol Rapoport present un programa que consista en 4 lneas en BASIC, y al que llam Tit for Tat (ojo por ojo). Slo tena dos reglas:
Comenzar colaborando Hacer lo que tu oponente hizo la ronda anterior Era la ms sencilla de todas las estrategias presentadas, y fue la que obtuvo la puntuacin ms alta. Despus de la publicacin de los resultados, se organiz un segundo torneo, en el que el nmero de rondas a jugar por partida sera aleatorio (para no crear una ronda especial, la final, en la que se favorece la desercin). A esta competicin se presentaron 62 participantes, entre ellos el mismo Tit for Tat. De nuevo, obtuvo la mayor puntuacin. Robert Axelrod relacion el xito de esta estrategia en el dilema del prisionero con sus caractersticas de "amabilidad", "provocabilidad" y "capacidad de perdn". Una estrategia "amable" es aquella en la que nunca se es el primero en desertar. Una estrategia "provocable" es aquella en la que se responde inmediatamente a la desercin de un oponente. Una estrategia con "capacidad de perdn" vuelve rpidamente a la cooperacin si su oponente lo hace. Estas caractersticas hacen que el funcionamiento de esta estrategia sea fcil de comprender por el oponente, y se pueda as encontrar una forma de trabajar con l. Entre las variantes propuestas, cabe mencionar: Tit for Two Tats Es similar a Tit for Tat, pero slo se venga si el oponente ha desertado las dos veces anteriores. Esta generosidad hace que est en desventaja frente a Tit for Tat, ya que se puede ganar si slo se deserta contra l en turnos alternos. Tit for Tat desconfiado Similar a Tit for Tat, pero el primer turno deserta. Sonda ingenua Comienza cooperando y siempre se venga de una desercin, pero de vez en cuando deserta espontneamente (por lo tanto, no es tan altruista como Tit for Tat). Est en desventaja con otras estrategias recprocas como Tit for Tat misma, porque puede iniciar una cadena de recriminaciones. Sonda con remordimientos Similar a sonda ingenua, pero nunca se venga de la venganza de una de sus deserciones. As, elimina las recriminaciones mutuas. Explorador Deserta en la primera jugada, y si su oponente responde vengndose (con lo que es una estrategia recproca), juega Tit for Tat en adelante. Si su oponente no responde, alterna desercin con cooperacin. Vengativo Comienza colaborando, pero una vez que su oponente deserta, deserta siempre. Si bien estos ensayos no son una demostracin matemtica de la superioridad de esa estrategia, constituyen una evidencia del xito del ojo-por-ojo. A esta altura uno se percata de que el trmino teora de los juegos es un poco engaoso, porque sus aplicaciones son vastas: economa ciencia poltica, relaciones internacionales, relaciones
Jugador 1 sigue la estrategia
S11 S2 1 Si
1
Jugador 2 sigue la estrategia S12 S22 Sj2 ( 111, 112) ( 121, 122) ... (211,212) (221,222) ... ... ... ... (ij 1,ij 2)

... ... ...
Sn 2 ( 1n1, 1n2)
Sm1
(m11,m12) (m21,m22)
(mn1,mn2)
2.7 Racionalidad limitada Hasta aqu siempre hemos supuesto que los jugadores disponen de una ilimitada capacidad para jugar el juego an hasta el punto de que consideran cada juego de ajedrez posible antes de hacer su primer movimiento. El motivo de este supuesto no es que sea un supuesto realista. La razn es que resulta relativamente simple describir un desarrollo perfecto del juego cualquiera sea el juego, la estrategia perfecta es la que produce el mejor resultado.
Es mucho ms difcil desarrollar una teora sobre cun imperfectas son las decisiones de un jugador ms realista, con capacidades limitadas. Ha habido numerosos intentos de economistas y tericos de los juegos de sortear este problema, incorporando de alguna manera la idea de que los jugadores tienen un monto limitado de memoria, inteligencia y tiempo para resolver el juego. Uno de los intentos ms interesantes implic combinar la teora de los juegos con otro conjunto de ideas elaboradas tambin por John Von Neumann la teora de las computadoras. No podemos definir claramente qu tipo de error puede cometer un ser humano, pero podemos establecer claramente qu tipos de estrategias puede seguir una computadora. Si reemplazamos al ser humano por la computadora, podemos asignar un significado preciso a la idea de racionalidad limitada. Al hacerlo as, podemos resolver esas dificultades de la teora de los juegos creadas por el supuesto simplificador de racionalidad ilimitada. 2.8 Teora Experimental de los Juegos Hasta ahora, hemos discutido teora. Los juegos tambin pueden ser analizados mediante el experimento de observar a la gente jugando y ver lo que pasa. Este tipo de estudios es comn entre los economistas y los psiclogos. Recientemente apareci una tcnica experimental nueva diferente. Hace unos pocos aos, el cientfico poltico Robert Axelrod llev a cabo un torneo del dilema del prisionero. Invit a todas las
455
456
sentido de Pareto 28 a los pagos de desacuerdo. Una solucin asigna un par de pagos factibles a cada problema de negociacin.
interpersonales, sociologa, etc. Slo en economa hay una enorme cantidad de aplicaciones que van creciendo con el tiempo.
3. Juegos Cooperativos: Preliminares 26 El enfoque no cooperativo de la teora de los juegos facilita un lenguaje rico y desarrolla tiles instrumentos para analizar muchas situaciones estratgicas. Una ventaja del enfoque es que puede tratar hasta en sus mnimos detalles a una situacin para analizar el impacto final. Empero, tiene la limitacin de que sus predicciones pueden ser altamente sensibles a estos detalles. Por tal motivo, conviene analizar aproximaciones ms abstractas que permitan obtener conclusiones independientes de esos detalles. El enfoque de los juegos cooperativos es una de esas aproximaciones. Los aspectos bsicos de la teora de los juegos cooperativos son los siguientes. Sea N={1, ..., n} un conjunto finito de jugadores. Para cada SN (que denominaremos la coalicin S) especificamos un conjunto V(S) que contiene a S, que son los vectores de pago dimensionales factibles para la coalicin S. As, se adopta una forma reducida porque no tenemos necesidad de explicar qu elecciones estratgicas estn por detrs de los vectores de pago en V(S). Esta formulacin, denominada de funcin caracterstica, implcitamente supone que las acciones tomadas por la coalicin complementaria (los jugadores que no estn en S) son incapaces de impedir los vectores de pago contenidos en V(S). Dada la coleccin de conjuntos V(S), la teora formula sus predicciones sobre la base de conceptos de solucin. Una solucin es un mapa que asigna un conjunto de pagos en V(N) a cada funcin caracterstica (V(S))SN. Luego, una solucin prescribe un conjunto, aunque puede asignar un nico punto (cuando asigna un nico vector de pagos como funcin de los aspectos fundamentales del problema). El concepto de solucin cooperativa cuyo valor es un conjunto que tiene el rol destacado es el ncleo (core), en tanto que los conceptos ms utilizados a valor nico son las soluciones cooperativas de Nash y el valor de Shapley. Una distribucin de los pagos logrados por agentes que cooperan entre s es denominada una imputacin. Intuitivamente, el ncleo es el conjunto de imputaciones contra las cuales ninguna coalicin puede proponer una alternativa que preferiran y que podran obtener an actuando solos. Hay varios criterios para establecer cundo es razonable una solucin cooperativa. Uno es defendindola mediante la definicin. Con el ncleo esto es relevante: en un contexto en el que los jugadores pueden formar grupos libremente, la prediccin debera ser vectores de pago que no pueden ser mejorados por ninguna coalicin. Pero las coaliciones son formadas por jugadores individuales. Por ello, la solucin cooperativa debe entenderse como el resultado de una serie de problemas estratgicos enfrentados por los jugadores individuales. Segundo, nuevas conexiones y diferencias entre las soluciones pueden ser descubiertas a partir de los distintos procesos de negociacin que conducen a cada una de ellas. Luego, el resultado del programa de Nash, referido como fundamentacin no-cooperativa o implementacin nocooperativa de una solucin cooperativa realza su significado al ser vista desde una nueva perspectiva. De esta manera podramos abrir la caja negra de cmo lleg a formarse una coalicin. 3.1 La solucin de negociacin de Nash Un caso particular de una funcin caracterstica es un problema de negociacin de dos jugadores. N={1,2} es el conjunto de jugadores. El conjunto V({1,2}) es un conjunto compacto y convexo de R2 y constituye el conjunto de pagos factibles si ambos jugadores llegan a un acuerdo. La compacidad es consecuencia de una torta de tamao dado que las partes se dividen entre s, y la convexidad es consecuencia de la utilidad esperada y del uso potencial de loteras. Los conjuntos (V{i})iN son subconjuntos de R, y sea du=max V({i}) el pago de desacuerdo del jugador i 27 . Se supone que V({1,2}) contiene vectores de pago que dominan en
ste es el esquema que introdujo Nash en 1950 cuando propuso cuatro axiomas que debera tener una solucin. 1) La utilidad esperada implica que, si las funciones de pago estn sujetas a una transformacin afn 29 , lo mismo debe suceder con la solucin (invariancia con respecto a la escala). 2) La solucin debe ser eficiente en sentido de Pareto. 3) Si el conjunto V({1,2}) es simtrico con respecto a la bisectriz de 45 y d1=d2, la solucin debe yacer en la bisectriz (simetra). 4 y ltimo) La solucin debe ser independiente de alternativas irrelevantes, es decir debe seleccionar el mismo punto si sigue siendo factible una vez que se han eliminado otros puntos del conjunto factible. Por el supuesto 1), no perdemos generalidad en normalizar el punto de pagos de desacuerdo en 0. Al problema resultante lo llamamos problema normalizado. Nash demostr que existe una nica solucin que satisface los cuatro axiomas, y es la que asigna a cada problema normalizado el punto (u1,u2) que maximiza el producto v1v2 sobre todos los (v1,v2) V({1,2}). sta es la que hoy llamamos la solucin de Nash. Esta solucin abunda en aplicaciones, y es considerada, en vista de los axiomas, como una solucin normativa condicional. Luego (en 1953 30 ) Nash facilit un enfoque no cooperativo de la solucin a que haba llegado normativamente. Lo hizo mediante un ejemplo simple de demanda. A los dos jugadores se les requiere que demanden en forma simultnea un pago: el jugador 1 demanda v1 y el jugador 2 demanda v2. Si el pago es factible, es decir (v1,v2) V({1,2}), tiene lugar el acuerdo correspondiente y la divisin de la torta a fin de implementar estos pagos. Si no, hay desacuerdo y los pagos son 0. Para ejemplificar, pensemos que existe una torta fsica de tamao 1 que se crea si el acuerdo es alcanzado, en tanto que no se crea nada si no. Luego, la demanda vi del jugador i corresponde a una participacin xi en la torta, 0xi1, tal que la utilidad o pago de i de recibir xi es ui. El modelo de juego de demanda de Nash admite un continuo de equilibrios de Nash. En efecto, todo punto de la frontera de Pareto de V({1,2}) es un resultado de equilibrio de Nash, como tambin lo es el punto de pagos de desacuerdo si cada jugador demanda un pago que corresponde a toda la torta. Empero, Nash introduce incertidumbre con respecto al tamao de la torta. Entonces los jugadores, al formular sus demandas, deben tener en cuenta que con cierta probabilidad el par de demandas puede conducir al desacuerdo, aunque sumen menos que 1. Entonces se puede mostrar que la eleccin ptima de demandas en un equilibrio de Nash del juego de demanda con una torta incierta converge a la solucin de pagos de Nash a medida que la incertidumbre se reduce. Luego, la solucin de Nash surge como una regla que iguala la ganancia marginal (via aumento de la participacin de uno en la demanda) con la prdida marginal (via aumento de la probabilidad de desacuerdo) para cada jugador cuando el problema es sometido a cierto ruido y las demandas son comprometidas en forma simultnea. Rubinstein (en 1982 31 ) propuso un procedimiento no cooperativo distinto, en el cual la preferencia temporalimpaciencia y credibilidad de las amenazas son las fuerzas principales que arrastran el equilibrio. El juego es una sucesin de ofertas alternativas potencialmente infinitas. En el perodo 0, el jugador 1 comienza haciendo una primera propuesta. Si el jugador 2 la acepta, el juego termina; si no, pasa otro perodo y el que rechaz la propuesta har una contrapropuesta en ese perodo, y as sucesivamente. Si [0,1] es el factor de descuento comn por perodo, con vi(.) la utilidad del jugador i sobre porciones de la torta, cncava
26 Existe una tendencia a dar prioridad a los juegos no cooperativos en desmedro de los cooperativos (v. p.ej. Mas-Colell, Whinston & Green, ob. cit.). La teora de los juegos cooperativos ha jugado un rol importante en la teora del equilibrio general, por cuyo motivo es conveniente hacer aqu una breve visita. 27 Esto es, el pago que recibir i si las partes fracasan en alcanzar un acuerdo.
Es decir, se trata del concepto de eficiencia de Pareto (tambin llamado ptimo de Pareto, Paretooptimalidad u ptimo paretiano) es aquella situacin en la cual se cumple que no es posible beneficiar a ms elementos de un sistema sin perjudicar a otros. Se basa en criterios de utilidad: si algo genera o produce provecho, comodidad, fruto o inters sin perjudicar a otro, provocar un proceso natural de optimizacin hasta alcanzar el punto ptimo. 29 Una transformacin afn mantiene la colinealidad (es decir, todos los puntos iniciales de una recta an estn ubicados en una recta luego de la transformacin) y la relacin de distancia (es decir, el punto medio inicial de una recta sigue siendo el punto medio luego de la transformacin). En tal sentido, la afinidad se refiere a una clase especial de transformaciones proyectivas que no trasladan ningn objeto desde el espacio afn al plano en el infinito o recprocamente. 30 Nash, John F. (1953), Two person cooperative games, Econometrica 21. 31 Rubinstein, A. (1982), Perfect equilibrium in a bargaining model, Econometrica 50.
28
457
458
y estrictamente montona, el jugador i recibe una participacin xi en el acuerdo alcanzado en el perodo t, con un pago igual a t-1vi(xi). El desacuerdo perpetuo conduce a un pago de 0.
puede alcanzar en una economa de intercambio mediante la redistribucin de sus tenencias cuando la utilidad es cuasi-lineal). Sin prdida de generalidad, podemos describir a un juego TU como una coleccin de nmeros reales (v(S))S N. Luego, una solucin es un mapa que asigna a cada juego TU un conjunto de pagos en el conjunto V(N), es decir, vectores (1,...n) tales que iN iv(N). En estas dos secciones requerimos que la solucin proporcione un nico valor. Shapley (en 1953 34 ) se interes en resolver de manera equitativa el problema de distribucin de un excedente entre jugadores, teniendo en cuenta el valor de cada coalicin. Impuso los siguientes axiomas: 1) Los pagos deben sumar v(N) (eficiencia). 2) Si dos jugadores son sustitutos porque contribuyen con el mismo grado a cada coalicin, la solucin debe tratarlos de modo igualitario (simetra). 3) La solucin de la suma de dos juegos TU debe ser igual a la suma de lo que corresponde a cada uno de los juegos (aditividad). 4) Si un jugador no contribuye nada a ninguna coalicin, en la solucin no se le debe pagar nada (dummy). Shapley obtuvo que bajo estos axiomas existe una nica solucin de los juegos TU, que hoy es llamada la solucin de Shapley, y que asigna a cada jugador i el rendimiento i= SN n(S)[v(S{i})-v(S)] donde n(S) es un factor de ponderacin: n(S)=[s! (n-s-1)!] / n! y s es el nmero de jugadores de S. Este factor de ponderacin se basa en los siguientes hechos: la coalicin de n jugadores puede formarse de n! maneras diferentes; los s jugadores de la coalicin S antes de que se incorpore el jugador i pueden disponerse de S! maneras diferentes; y los n-s-1 jugadores que no estn en la coalicin ampliada pueden asimismo disponerse de (n-s-1)! maneras diferentes. De este modo, n(S) es simplemente la probabilidad de que un jugador se una a la coalicin S, suponiendo que las n maneras de formar una coalicin de n jugadores son todas igualmente probables. En la figura siguiente tenemos el ejemplo de un juego de tres personas en forma de funcin caracterstica:
Rubinstein demuestra que existe una nica prediccin de este juego, usando el concepto de equilibrio perfecto del subjuego como concepto de solucin que es la herramienta habitual para descartar amenazas no crebles en juegos dinmicos de informacin completa 32 . Especficamente, el nico equilibrio perfecto del subjuego recomienda un acuerdo inmediato sobre la divisin (x,1-x) ofrecida por el jugador 1, e (y,1-y) ofrecida por el jugador 2, con arreglo a: v1(y)=v1(x) v2(1-x)=v2(1-y). Posteriormente, Binmore, Rubinstein y Wolinsky (en 1986) demostraron que independientemente de quin haga la primera propuesta, los nicos pagos de equilibrio del juego de Rubinstein convergen a los pagos de la solucin de Nash a medida que 1 (xy). Por lo tanto, las amenazas crebles en negociaciones con jugadores igualmente (y completamente pacientes) tambin conducen a la solucin de Nash. 3.2 El valor de Shapley Ahora veamos un juego de n jugadores con coaliciones con pagos transferibles entre los mismos 33 . Esto significa que V(S), el conjunto factible de la coalicin S, es el conjunto de pagos (i)iS que satisfacen iS iv(S) para algn nmero real v(S). Debe hacerse una distincin importante en los juegos cooperativos, que es la que existe entre aquellos con pagos laterales, en los cuales los rendimientos son transferibles, y aquellos sin pagos laterales, en los cuales los rendimientos no lo son. A los primeros los llamaremos de utilidad transferible o juegos TU en su forma de funcin caracterstica. El nmero v(S) es denominado el valor de S, y expresa la posicin inicial de S (es decir, la utilidad total mxima que el grupo de agentes
32
Un equilibrio perfecto del subjuego es un refinamiento del equilibrio de Nash utilizado en juegos dinmicos. Un perfil estratgico es un equilibrio perfecto del subjuego si representa un equilibrio de Nash de cualquier subjuego del juego original. De modo ms informal, esto significa que (1) los jugadores juegan slo una parte del juego ms amplio y (2) su conducta es un equilibrio de Nash de ese juego ms pequeo. Se dice entonces que su conducta es un equilibrio perfecto del juego ms amplio. Una forma habitual de determinar los equilibrios perfectos de subjuegos es mediante induccin hacia atrs. En primer trmino consideramos las ltimas acciones del juego y determinamos qu acciones debera adoptar el ltimo actor a fin de maximizar su utilidad. Suponemos que las adopta, y a continuacin consideramos las acciones anteriores a las ltimas, eligiendo nuevamente aquellas que maximizan su utilidad. El proceso contina hasta que se llega a la primera movida del juego. Las estrategias subsistentes constituyen los equilibrios perfectos del subjuego. No siempre podemos aplicar la induccin hacia atrs, por ejemplo en juegos de informacin imperfecta o incompleta, ni tampoco en juegos de duracin infinita.
v({})=0 v({1})=0 v({1,2})=0,1
v({2})=0 v({1,3})=0,2 v({1,2,3})=v(n)=1
v({3})=0 v({2,3})=0,2
Para el jugador 1, los casos son:
Un subconjunto importante de los juegos secuenciales es el conjunto de los juegos de informacin perfecta. Un juego es de informacin perfecta si todos los jugadores conocen los movimientos que han efectuado previamente todos los otros jugadores; as que slo los juegos secuenciales pueden ser juegos de informacin perfecta, pues en los juegos simultneos no todos los jugadores (a menudo ninguno) conocen las acciones de los restantes. La informacin perfecta se confunde a menudo con la informacin completa, que es un concepto similar. La informacin completa requiere que cada jugador conozca las estrategias y recompensas del resto pero no necesariamente las acciones. Fue Reinhard Selten quien demostr que todos los juegos que pueden ser descompuestos en sub-juegos que contienen al conjunto de todas las elecciones disponibles en el juego principal tendrn estrategias de Equilibrio de Nash perfectas en el subjuego. El procedimiento de induccin hacia atrs elimina ramas del juego que requeriran que el jugador practicase movimientos no crebles a partir de ese nodo (porque no son ptimas). Lo interesante de la palabra creble es que, tomadas en su conjunto, existen estrategias superiores a las estrategias perfectas del subjuego, pero que no resultan crebles en el sentido de que si amenazamos con tomarlas nos hacemos dao con esas estrategias e impedimos alcanzar esa combinacin de estrategias. Aqu pueden encontrar un ejemplo de un Equilibrio de Nash perfecto del subjuego. 33 Esto puede justificarse porque la utilidad de los jugadores est representada por dinero.
2 1 1 2 y las ponderaciones aplicadas son / 6, / 6, / 6 y / 6 respectivamente. Luego, el pago del jugador 1 ser: v({1})- v()=0 v({1,2})v({2})=0,1 v({1,3})v({3})=0,2 v({1,2,3})v({2,3})=0,8
1= (2/6) 0 + (1/6) (0,1) + (1/6) (0,2) + (2/6) (0,8) = 19/60.
Anlogamente, el pago de 2 ser 19/60 y el del jugador 3 es 22/60. Luego, la imputacin del valor de Shapley es (19/60,19/60,22/60). ste tiende a dar una idea sobre el poder de cada uno de los jugadores segn se ve reflejado en el pago adicional resultante de la incorporacin de este jugador a las coaliciones que no lo incluan. As, en este juego el tercer jugador tiene ms poder que los otros jugadores y debera obtener ms que ellos, dado que las dos coaliciones de dos jugadores con el jugador 3 obtienen 0,2, mientras que
34
Shapley, L. S. (1953), A value for n-person games. In Contributions to the Theory of Games II, A.W. Tucker and R.D. Luce (eds.), Princeton University Press.
459
aquella en la que no participa obtiene 0,1. La frmula supone que cada jugador recibe el promedio de su contribucin a todas las coaliciones de las cuales es un miembro potencial.
XVI. Teora de los juegos 1 >2 para todo iS.

i i
460
3.3 El ncleo El primero que introdujo en la teora econmica la idea de acuerdos inmunes a desvos de las coaliciones fue Edgeworth en 1881, que defini al conjunto de asignaciones estables desde el punto de vista de las coaliciones formadas como acuerdos finales. Consider que este concepto era una alternativa al equilibrio walrasiano y tambin fue el primero en investigar las conexiones entre ambos conceptos. El concepto de Edgeworth fue redescubierto por Gillies 35 y rebautizado como ncleo.
A guisa de ejemplo, en la tabla anterior la imputacin 1 = (0,1;0,8;0,1) domina a 2 = (0,05;0,9;0,05) dado que la coalicin {1,3} es efectiva para 1 donde ambos jugadores 1 y 3 reciben ms en 1 que en 2. Al amenazar con la accin independiente, la coalicin {1,3} puede asegurarse que la imputacin (0,05;0,9;0,05) jams llegar a realizarse. Decimos que un conjunto de imputaciones es una solucin de von Neumann-Morgenstern si una imputacin del conjunto no domina a ninguna otra imputacin del conjunto, y ninguna imputacin no perteneciente al conjunto es dominada por alguna imputacin del conjunto. Este concepto de dominancia dbil no permite en general obtener una imputacin nica, aunque permite reducir la eleccin de imputaciones. El ncleo es un criterio de dominancia entre las imputaciones, que es un subconjunto de cada solucin de von Neumann-Morgenstern, si es que existe dicha solucin. El nmero de imputaciones que debe considerarse queda reducido en el ncleo al exigir que cada coalicin ejerza el mismo grado de racionalidad que un jugador individual, de modo que la imputacin distribuye a cada coalicin al menos tanto como sta obtendra mediante la accin independiente. El ncleo es entonces el conjunto de imputaciones que satisfacen la racionalidad de la coalicin, incluyendo la racionalidad individual cuando los subconjuntos consten de jugadores individuales; la racionalidad del grupo, caso en que el subconjunto sea la gran coalicin de todos los jugadores; y la racionalidad de todas las coaliciones de tamao intermedio. Por ejemplo, el ncleo del juego de tres personas descripto ms arriba exige en primer trmino identificar la frontera del simplex de R3 que es el conjunto de imputaciones (1,2,3) tales que son no negativas y su suma es la unidad, como se representa en la figura adjunta.
Continuamos suponiendo un juego TU. En este contexto, el ncleo es el conjunto de vectores de pago =(1,...,n) factibles, es decir que satisfacen iS iv(N), tales que no existe ninguna coalicin SN para la cual se verifique iS i< v(S). Si existiera tal coalicin S, diremos que bloquea a , y es reputado como inestable. Usualmente, el ncleo describe un conjunto de pagos, en lugar de uno solo, y tambin pueden existir juegos con ncleo vaco. Una imputacin es un vector en un espacio eucldeo de dimensin n que representa los pagos que obtiene cada uno de los jugadores en el juego: = (1,2, ..., n), donde i es el pago del jugador i, i=1, ..., n. Tomando como ejemplo la tabla anterior, una imputacin posible sera (0,3;0,2;0,5) donde el jugador 1 recibe 0,3, el jugador 2 recibe 0,2 y el jugador 3 recibe 0,5. Suponiendo que se tiene en cuenta a todos los jugadores y pagos, los pagos totales que reciben todos los jugadores son iguales al pago que recibe la coalicin de todos los jugadores: v(N)=iN = i=1
i n i
supuesto denominado como racionalidad del grupo. Tambin es razonable suponer que ningn jugador va a entrar a una coalicin si no recibe al menos lo que recibira actuando en forma independiente:
v({i}),
para todo i N.
Este supuesto es el de racionalidad individual. Estos dos supuestos limitan el nmero de imputaciones posibles, pero an as las imputaciones restantes forman un conjunto extremadamente grande, de modo que el paso siguiente es sugerir algn criterio de dominancia entre imputaciones que permita limitar el nmero de imputaciones consideradas. Un criterio dbil de dominancia entre imputaciones fue propuesto por von Neumann y Morgenstern. Dice que un conjunto de jugadores es efectivo para una imputacin si pueden, formando una coalicin, obtener por s mismos al menos lo que recibiran conjuntamente en la imputacin. Decimos que la coalicin S es efectiva para la imputacin = (1,2, ..., n), si: v(S) iS .
i
Los vrtices del simplex son las imputaciones del simplex para las Vrtices (1,0,0);(0,1,0);(0,0,1) cuales un jugador se lleva todo. El ncleo es obtenido agregando sobre la faceta del simplex las restricciones de racionalidad individual, de racionalidad del grupo y la racionalidad de todas las coaliciones intermedias, lo que conduce a recortar partes de esta faceta 36 . Si existe el ncleo, luego la imputacin elegida debera pertenecer al ncleo, dado que en tal caso se toman en cuenta todas las coaliciones. Empero, el ncleo es vaco en muchos juegos: ninguna imputacin satisface las condiciones de racionalidad de la coalicin para todas las coaliciones. Por ejemplo, si en el juego anterior de 3 personas todas las coaliciones de dos jugadores reciben 0,8 entonces el ncleo ser vaco. 3.4 Principio de equivalencia
Simplex bidimensional en 3 dimensiones
Por ejemplo, en el caso de un juego de tres personas en forma de funcin caracterstica como el anterior, el conjunto de jugadores {2,3} es efectivo para la imputacin (0,95, 0, 0,05) dado que si ellos formasen su propia coalicin, recibiran conjuntamente 0,2, que es ms de lo que recibiran en la imputacin. Decimos 1 2 n 1 2 n que la imputacin 1= ( 1, 1, ..., 1) domina a la imputacin 2= ( 2, 2, ..., 2), si existe una coalicin de jugadores efectiva para 1 tal que cada jugador de la coalicin recibe ms en 1 que en 2; es decir, si existe una coalicin de jugadores S que es efectiva para 1: v(S) iS 1
i
Una de las aplicaciones ms famosas del ncleo es el llamado principio de equivalencia del ncleo, que establece que el ncleo coincide con el conjunto de resultados competitivos (walrasianos) en mercados competitivos con muchos comerciantes, cada uno de los cuales tiene una participacin insignificante. Debe mencionarse que en cualquier mercado an en aquellos con un pequeo nmero de participantes todo resultado competitivo est en el ncleo. Es la proposicin recproca la que requiere de un amplio nmero de participantes, cada uno no significativo. Conclusin sobre el ncleo La mayora de las aplicaciones del ncleo han sido realizadas en contextos econmicos, especficamente a mercados de uno u otro tipo. La aplicacin ms importante es el principio de equivalencia, que vincula al ncleo de un mercado perfectamente competitivo con sus equilibrios competitivos. El ncleo expresa la idea de competencia desenfrenada; su carcter no vaco expresa la idea de que la competencia puede conducir a la estabilidad, de que existe un resultado consistente con la estabilidad. En la prctica esto sucede en contextos econmicos como los descriptos hasta ahora. Los
36
y cada miembro de la cual recibe ms en 1 que en 2, a saber:
35
Gillies, D.B. (1959), Solutions to General non-zero-sum games, in A. W. Tucker and R. D. Luce (eds.), Contributions to the Theory of Games IV, Princeton University Press.
Ver grfico en M. Intriligator, ob.cit., Cap. 6.4.
461
462
contextos polticos son inherentemente menos estables, y a menudo tienen ncleos vacos. Constituye un punto de partida para otros conceptos ms sofisticados como el conjunto estable de N-M, el nucleolo, y otros. Por ello, el ncleo ocupa una posicin central en la teora de los juegos cooperativos.
4. Juegos repetidos La teora de los juegos repetidos ha pasado a ser un instrumento importante de anlisis de las ciencias del comportamiento (como la economa) y las biolgicas. De hecho, facilita un modelo central explicativo de cmo agentes egoistas pueden actuar cooperativa y eficientemente en una relacin de largo plazo. Ofrece una respuesta muy simple a la pregunta de por qu deberan cooperar agentes egoistas: lo deben hacer para asegurarse la cooperacin continuada en el futuro. Para ilustrar este punto repasemos la tensin entre inters propio y cooperacin del Dilema del Prisionero, alterando un poco los valores de la matriz de pg. 432:
comportamiento cooperativo. Esta idea ha sido planteada con mucha fuerza por Axelrod 37 . Idea central: supngase que comenzamos con una poblacin en la cual todos los jugadores juegan la estrategia AD. Ahora, aparece un pequeo grupo de mutantes que usan la estrategia CC. Observen que CC gana lo mismo (o sea, cero) que AD contra ellos mismos. Y CC gana un pago de 2 contra ellos mismos, mientras que AD gana solamente 0 en promedio contra CC. Por lo tanto, en trminos esperados (suponiendo que pares de estrategias son tomadas al azar de toda la poblacin), CC se comporta mejor estrictamente que AD. Luego, con arreglo a la dinmica evolutiva estndar, CC se reproducir ms rpidamente que AD y eventualmente se apoderar de toda la poblacin. Es decir que el comportamiento no cooperativo de AD ser raleado.
Cooperar (C) Desertar (D)
Cooperar (C) 2, 2 3, -1
Desertar (D) -1, 3 0, 0
Ya sabemos que si el juego es jugado una sola vez, sea lo que haga el otro jugador, una estrategia dominante de cada jugador es jugar la desercin. El resultado predicho es que al jugar D, ambos obtienen un peor resultado que si hubieran jugado C.
Mas entre las estrategias no cooperativas, AD es poco representativa y fcil de ser expulsada. En su lugar, consideren ALT, una estrategia que alterna entre C y D hasta que alguien rompe el patrn alternante, a partir de cuyo punto juega siempre D. A diferencia de AD, una poblacin de ALTs no puede ser invadida por una estrategia mutante. Para apreciarlo, noten que un mutante tendra que conformarse al patrn alternante, si no terminara actuando peor (con un pago medio de 0) que ALT que lo que hara ALT contra s mismo (con un pago promedio de 1), y por lo tanto no podra crecer con respecto a ALT. Pero un mutante que actuara conforme al patrn alternante tambin fracasara en trminos esperados con respecto a ALT. Luego, ALT es evolutivamente estable (EE) pese a ser bastante ineficiente y no cooperativo 38 , 39 . Pero en cierto sentido ALT es demasiado inflexible. Despus de todo, descansa en la alternacin perfecta: cualquier desvo del patrn C, D, C, D, C... es castigado por una sucesin infinita de Ds. Ello sugiere que podra no irle demasiado bien en un contexto donde hay estrategias que no siempre son exactamente ejecutadas, es decir cuando hay alguna probabilidad de que estas estrategias cometan algn error. En tal entorno, ALT deja de ser EE. Consideremos especficamente una estrategia mutante s idntica a ALT excepto cuando se ha roto el patrn alternante. En la iteracin previa a la ruptura, s juega C (a diferencia de ALT que siempre juega D) por un perodo para dar una seal de su disposicin a cooperar. Si el otro jugador tambin juega C en esa iteracin, entonces s juega C a partir de all. Pero si el otro jugador juega D, s (como tambin ALT) jugar D a partir de entonces. Lema Si s est construida de esa manera, terminar invadiendo exitosamente a una poblacin de ALTs si las estrategias estn sujetas a una pequea probabilidad de ejecucin errnea (o sea que se rompe, con probabilidad positiva, el patrn alternante). Dem.) Observen que (i) s es idntica a ALT antes de la ruptura del patrn alternante; (ii) s y ALT reciben un pago de 0 por perodo contra ALT una vez roto el patrn; (iii) s recibe un pago de casi 2 pero ALT recibe slo 0 contra s luego de la ruptura del patrn. Luego, en trminos de expectativa, s se comporta mejor que ALT y realizar una invasin exitosa.
Ahora imaginemos que el juego es repetido muchas veces formalmente, infinitas veces y que a cada jugador le interesan sus pagos en el largo plazo ms que en una jugada particular. A diferencia de antes, ahora jugar en forma cooperativa puede ser de inters de cada jugador. De hecho, la estrategia consistente en que cada jugador juega (i) C en la primera iteracin, (ii) contina jugando C siempre que los dems jugadores hayan actuado cooperativamente en el pasado, y (iii) juega D en cualquier otro caso (llamemos a esta estrategia CC cooperacin condicional) da lugar a un equilibrio en el siguiente sentido: si ambos agentes la adoptan, ninguno tendr incentivos a desviarse en forma unilateral. Para apreciar este resultado, observen que cuando ambos jugadores siguen CC, sigue una corriente infinita de resultados cooperativos, que otorga a cada jugador un pago promedio de 2 por perodo. Sin embargo, si un jugador se desva en forma unilateral hacia la otra estrategia, entonces sucede que: (a) en algn momento jugar D y en tal caso su adversario jugar D a partir de entonces, y por consiguiente el desertor obtuvo a lo sumo un pago igual a cero, o tambin (b) a pesar del desvo, contina jugando C en cada iteracin y en tal caso, todava obtiene un pago promedio de 2, y no gana nada con su desvo. Luego, la repeticin hace que la cooperacin sea un resultado ms plausible. Lamentablemente, cooperar no es el nico resultado plausible. Por ejemplo, la estrategia de jugar siempre desertar (AD) tambin genera un equilibrio si ambos la adoptan. Y estos dos extremos CC, que conduce a cooperar en cada iteracin, y AD, que no conduce a cooperacin alguna no son las nicas posibilidades! Un teorema popular de teora de los juegos afirma que toda posibilidad intermedia entre la cooperacin plena y la completa desercin tambin puede ocurrir en equilibrio. As, la teora no logra realizar predicciones claras sobre el comportamiento de ninguna naturaleza. Prcticamente no da lugar a hiptesis no falsables. Es de esperar que la evolucin (biolgica o cultural) ayude a despejar esta lobreguez predictiva. Las fuerzas evolutivas fomentan a menudo la eficiencia, de manera que podra esperarse que la conducta no cooperativa sea desterrada y en su lugar la presin selectiva promueva el
Axelrod, R. (1984), The Evolution of Cooperation, Basic Books. Dicho en forma aproximada, una estrategia s es EE si no existe una estrategia mutante s que tenga un mejor rendimiento que s en trminos esperados contra una poblacin consistente mayormente de s pero con una pequea proporcin de s. 39 De hecho la situacin es an peor. Sea una estrategia que sigue en forma repetida el patrn C seguido por dos Ds hasta que se rompe el patrn, en cuyo momento juega a partir de entonces D. Por el mismo motivo que ALT, esta estrategia ms elaborada es EE, aunque alcanza un rendimiento medio de . Si seguimos agregando Ds al patrn repetido, podemos obtener una estrategia EE arbitrariamente prxima en trminos de pago a la estrategia plenamente no cooperativa AD.
38 37
463
464
Han sido caracterizados los pagos correspondientes a estrategias EE en juegos repetidos de dos jugadores simtricos 40 cuando (i) existe una probabilidad positiva p en cada iteracin de cometer un error, y (ii) los jugadores descuentan los pagos futuros con una tasa de inters positiva r, de tal manera que los jugadores, en lugar de maximizar los pagos promedio en el largo plazo, maximizan el pago promedio descontado (r/1+r) t=1 (1/1+r) t-1 t , donde t es su pago en la iteracin t. Definamos a un par de pagos (vF, vC) donde vF (vC) es el pago al jugador fila (columna) en un juego simtrico g como fuertemente eficiente si (a) (vF, vC) son pagos factibles de g y (b) (vF+vC) maximizan la suma de pagos de los jugadores entre todos los pagos factibles de g. En el Dilema del Prisionero de ms arriba, los nicos pagos fuertemente eficientes son (2, 2). Pero en la Batalla de los Sexos siguiente: Boxeo Ballet
jugar C en la primera movida, y a partir de all jugar C si ambos jugadores jugaron C en la movida previa o si ninguno lo hizo. Esta estrategia es EE para los pagos dados por el Dilema del Prisionero.
A fin de apreciar cmo estrategias EE pueden dar lugar a pagos que no llegan a la cooperacin plena en juegos como el de la Batalla de los Sexos, vean el siguiente juego: a b c d a 0, 0 1, 4 0, 0 0, 0 b 4, 1 0, 0 0, 0 0, 0 c 0, 0 0, 0 0, 0 0, 0 d 0, 0 0, 0 0, 0 2, 2
Ballet 0, 0 2, 1
Boxeo 1, 2 0, 0
cualquier combinacin convexa de (1, 2) y (2, 1) es fuertemente eficiente (suponiendo que los jugadores puedan jugar estrategias mixtas). Si llamamos vm al pago mnimo consistente con la eficiencia fuerte, o sea:
vm=min{vF (vF, vC) es fuertemente eficiente} tenemos que vm=2 en el Dilema del Prisionero, y vm=1 en la Batalla de los Sexos. Teorema 1 Dado >0, si p>0 y r>0 son suficientemente pequeas, los pagos generados cuando ambos jugadores utilizan una estrategia s EE no pueden ser menores que vm-. Este teorema afirma que si la probabilidad de error y la tasa de descuento son pequeas (pero positivas) los pagos resultantes de una estrategia EE no pueden ser demasiado inferiores a vm.
Sea una estrategia s donde (i) se juega d siempre que en cada jugada pasada ya sea ambos jugadores jugaron d, o ninguno lo hizo; (ii) se juega a para siempre si el otro jugador fue el primero en desviarse de d; y (iii) se juega b para siempre si uno mismo fue el primero en desviarse de d. Puede mostrarse que s es EE para r y p suficientemente pequeas. Empero, la combinacin (d,d) genera pagos que no son fuertemente eficientes (en este ejemplo los pagos fuertemente eficientes suman 5). Hay un motivo debido al cual a pesar de esta ineficiencia, s es invulnerable a la invasin de mutantes: el castigo por desviarse de d es por s mismo fuertemente eficiente es decir, el juego genera pagos hasta (1, 4) o (4, 1) y por tanto no hay forma de que un mutante pueda obtener un punto de apoyo contra s. 5. Algunos juegos simples 42 El juego del ultimatum El juego del Ultimatum es un juego experimental de economa en el cual dos partes interactan de manera annima y slo una vez, por lo que la reciprocidad no es un problema. El primer jugador propone cmo dividir una determinada suma de dinero con el segundo. Si ste ltimo rechaza la oferta, nadie obtiene nada. En cambio, si la acepta, el primer jugador obtiene lo que propuso y, el segundo, el resto.
Teorema 2 Sean (v, v) los pagos factibles y vvm. Para todo >0, existen r y p suficientemente pequeas tales que existe una estrategia EE s para la cual, si ambos jugadores la utilizan, los pagos correspondientes estn en un entorno de (v, v).
Para el Dilema del Prisionero, este Teorema 2 afirma que existe alguna estrategia EE que logra (aproximadamente) la cooperacin plena. Qu forma tendra esta estrategia? Como sucede con ALT, CC es demasiado inflexible cuando p es positiva: un error lleva a D para siempre. La estrategia Tit-for-tat o de represalias equivalentes (jugar C en la primera iteracin y a partir de entonces jugar lo que jug el otro jugador en la iteracin previa), enfatizada por Axelrod y Hamilton 41 tambin puede estar sujeta a desencaminarse como consecuencia de errores. Por ejemplo, si el jugador fila (por error) juega D en la primera iteracin, Tit-for-tat tendr un jugador columna que lo seguir con D en la segunda iteracin, lo que inducir al jugador fila a jugar nuevamente D en la tercera iteracin, etc. Es decir, se producir una seguidilla de Ds que se interrumpir slo cuando alguien cometa otro error. Una estrategia ms robusta es la siguiente:
40 Fudenberg, D. and E. Maskin (1990), Evolution and Cooperation in Noisy Repeated Games, American Economic Review, 80. Un juego bi-personal es simtrico si ambos jugadores disponen del mismo conjunto de acciones y si intercambiando a los jugadores los pagos correspondientes resultan intercambiados. 41 Axelrod, Robert and Hamilton, William D. (1981). "The Evolution of Cooperation." Science, 211.
La complejidad de la experiencia radica en el mejor resultado a obtener, es decir, ninguno de los dos jugadores preferira irse con las manos vacas, pero el jugador 1 sabe que si no propone una reparticin que beneficie a ambos de igual manera las posibilidades de que el jugador 2 acepte son menores. En contrapartida, el jugador 2 sabe que si acepta el beneficio ser para ambos, (en mayor, igual o menor medida dependiendo de la primera eleccin) por lo que debe elegir si obtiene beneficio o no; a veces es mejor obtener 1 peso antes que nada, aunque el otro jugador obtenga 99 pesos. Por lo antedicho, el Juego del Ultimatum muestra cmo a veces, an a costo de una prdida existe la cooperacin, aunque siempre en pos del mayor beneficio propio. Ambos jugadores deben suponer y manejar las probables respuestas del otro, lo que es complejo. Juego del dictador El juego del dictador es un juego muy simple de economa experimental, similar al juego del ultimatum. El primer jugador, el que propone, determina la asignacin entre los dos jugadores de alguna dotacin (como un premio en metlico). El que responde en este caso simplemente recibe
42
Estos juegos estn extrados de Wikipedia.
465
466
la cantidad de la dotacin que no se ha asignado a s mismo el que propone. El papel del que responde es totalmente pasivo (no toma decisiones en el juego).
El juego se ha usado para probar el modelo de conducta individual del homo conomicus: si los individuos se preocuparan slo de su propia economa, los que proponen se quedaran con todos los bienes y no daran nada al que responde. Sin embargo, Heinrich et al 43 descubrieron en un amplio estudio cultural que los que proponen asignan una parte no nula de la dotacin al que responde. (Este estudio de 2004 es una extensin de desarrollos anteriores en el juego del dictador y en el de la impunidad). Este resultado demuestra que los que proponen fallan al maximizar su propia utlidad esperada, o bien que la funcin de utilidad de los que proponen incluye los beneficios reducidos para otros 44 . Sin embargo, se han propuesto otras explicaciones, como la hiptesis del anonimato que dice que el experimento no est correctamente diseado para probar la conducta "altruista", ya que la presencia del experimentador impulsa al que propone a evitar la aparicin de la "codicia". Juego del gallina El juego del gallina (game of chicken) es aquel en el que cada uno de los dos jugadores conduce un vehculo en direccin al del contrario y el primero que se desva de la trayectoria de choque pierde y es humillado por comportarse como un gallina. En la prctica, slo algunos adolescentes o jvenes excesivamente impulsivos juegan al juego del gallina. El juego se basa en la idea de crear presin hasta que uno de los participantes se eche atrs.
estrategia inestable se puede enunciar de modo formal diciendo que existe ms de un equilibrio de Nash para este juego, si llamamos equilibrio al par de estrategias en la que ninguno de los jugadores gana cambiando su estrategia mientras que la del otro sigue siendo la misma. (En este caso, los equilibrios son las dos situaciones en las que un jugador gira y el otro no.)
Una tctica para este juego es anunciar las propias intenciones de modo convincente antes de que el juego comience. Por ejemplo, si uno de los bandos bloquea de modo ostentoso el volante de su vehculo antes del comienzo del duelo, ser ms probable que el otro gire. Esto ilustra cmo, en algunas circunstancias, reducir las propias opciones puede ser una buena estrategia. Un ejemplo de esto en el mundo real sera el manifestante que se encadena a un objeto para que ninguna amenaza lo obligue a moverse, ya que no puede. Otro ejemplo similar lo hemos visto cuando un nio con buenos instintos estratgicos fuerza un resultado favorable bajo la amenaza de suicidio. La matriz de pagos para el juego del gallina es la que se ve a continuacin, en la que cooperacin es girar y no cooperacin seguir conduciendo: Cooperar No Cooperar Cooperar 0, 0 +1, -1 No Cooperar -1, +1 -20, -20
La expresin "juego del gallina" se aplica como metfora a una situacin en la que dos bandos se enzarzan en una escalada en la que no tienen nada que ganar y en la que slo el orgullo evita que se echen atrs. Bertrand Russell compar la carrera armamentstica y la escalada nuclear al juego del gallina. Uno de los primeros ejemplos de juego del gallina se da en la pelcula Rebelde sin causa, aunque en aquella versin los jugadores conducen sus autos hacia un precipicio, y el primero en saltar es el gallina. La versin en que los conductores kamikazes se dirigen hacia el contrario se considera la normal. Es ms frecuente que el juego aparezca en el argumento del cine o la literatura antes que en la vida real. La versin moderna del juego ha sido objeto de investigacin en la teora de juegos, en la que est asociado a los juegos que no son de suma cero. El principio subyacente es un importante mtodo de negociacin. Se puede decir que es una estrategia en la que cada una de las partes retrasa hacer concesiones hasta que el final del perodo de negociacin es inminente. La presin psicolgica puede obligar a un negociador a ceder para evitar un resultado negativo. Puede tratarse de una tctica muy peligrosa, ya que si ninguna de las partes cede se producir una colisin. Como la "prdida" que supone girar es trivial en comparacin a la colisin que se producir si ninguno gira, la estrategia ms razonable sera girar antes de que el choque pueda producirse. An as, si uno cree que su oponente es razonable, uno puede tambin decidir no girar, en la creencia de que el rival ser razonable y decidir girar, convirtiendo al otro en ganador. Esta
43
Este modelo da por supuesto que uno escoge una estrategia antes de empezar a jugar y se mantiene en la misma lo cual no es realista, ya que si un jugador ve que el otro gira pronto, puede seguir en lnea recta, sin importar cules fueran sus planes iniciales.
En este modelo, en contraste con el dilema del prisionero, en el que una accin es siempre la mejor, uno siempre debe hacer lo contrario de lo que el otro jugador vaya a hacer. Caza del ciervo La caza del ciervo es un juego que describe un conflicto entre Jean-Jacques Rousseau (1712-1778) seguridad y cooperacin social. Otros nombres para este juego o sus variantes son "juego de la seguridad", "juego de coordinacin" y "dilema de la credibilidad". Jean-Jacques Rousseau describi una situacin en la que dos individuos van a cazar. Cada uno elige cazar un ciervo o una liebre. Cada jugador debe elegir una accin sin conocer la del otro. Si un individuo caza un ciervo, debe cooperar con su compaero para tener xito. Un jugador individual puede cazar una liebre por s mismo, pero una liebre vale menos que un ciervo. Esta situacin se considera una analoga importante con la cooperacin social.
Un ejemplo de la matriz de pagos para la caza del ciervo sera el siguiente:
Henrich, Joseph, Robert Boyd, Samuel Bowles, Colin Camerer, Ernst Fehr, y Herbert Gintis (2004) Foundations of Human Sociality: Economic Experiments and Ethnographic Evidence from Fifteen SmallScale Societies. Oxford University Press. 44 Por ejemplo, el modelo de "Aversin equitativa" propuesto por Ernst Fehr del estudio de arriba de Henrich et al.
Ciervo Liebre
Ciervo 4, 4 3, 0
Liebre 0, 3 3, 3
467
468
Aunque muchos autores destacan el Dilema del prisionero como el juego que mejor representa el problema de la cooperacin social, algunos creen que la caza del ciervo representa un contexto tan (o ms) interesante en el que cabe estudiar la cooperacin y sus problemas 45 .
La complicacin consiste en que anteriormente, el orculo ha vaticinado lo que va a escoger el jugador. Si vaticina que el jugador se llevar slo la caja cerrada, pondr $1.000.000 dentro de esa caja. Si vaticina que el jugador se llevar las dos cajas, dejar vaca la caja cerrada. El jugador conoce el mecanismo del juego, pero no la prediccin, que ya ha sido realizada.
Hay una relacin sustancial entre la caza del ciervo y el dilema del prisionero. En biologa muchas circunstancias que se han asociado con el dilema del prisionero tambin se pueden interpretar como caza del ciervo, dependiendo de la manera como sea premiada la adaptacin al medio. Es tambin el caso de algunas interacciones humanas que parecen ser dilemas del prisionero pero podran ser de hecho cazas del ciervo. Por ejemplo, supngase que hay planteado un dilema del prisionero como el mostrado a continuacin: Cooperar Traicionar Cooperar 4, 4 5, 0 Traicionar 0, 5 3, 3
Debera el jugador llevarse ambas cajas o slo la cerrada? La matriz de pagos del juego es la siguiente: El orculo vaticina que el jugador escoger la caja cerrada $1.000.000 $1.001.000 El orculo vaticina que el jugador escoger ambas cajas $0 $1.000
El jugador escoge la caja cerrada El jugador escoge ambas cajas
Pero en ocasiones los jugadores que traicionan a los que cooperan son castigados por su traicin. Por ejemplo, suponga que el castigo esperado es -2, entonces la imposicin de este castigo convierte el dilema del prisionero en una caza del ciervo. Adems del ejemplo sugerido por Rousseau, David Hume proporciona un conjunto de ejemplos que son cazas del ciervo. Uno de ellos consiste en dos individuos que deben remar en un bote. Si los dos eligen remar entonces pueden mover el bote. Sin embargo, si uno de ellos no rema, el otro gasta sus energas. En el segundo ejemplo de Hume dos vecinos quieren drenar un prado. Si los dos trabajan en el drenaje tienen xito, pero si uno no hace su parte el prado no se drena.
Si el orculo acierta el 100% de las veces, si el jugador se lleva slo la caja cerrada, obtendr $1.000.000. Si el jugador se lleva ambas cajas, la caja cerrada estar vaca, por lo que slo se llevar $1.000. Segn este razonamiento, el jugador deber escoger siempre la caja cerrada.
Hay muchas conductas animales que representan cazas del ciervo. Por ejemplo, la coordinacin del moho del cieno. En momentos de tensin, estas bacterias se agregarn para formar un cuerpo mayor. Si todas actan juntas se podrn reproducir, sin embargo, el xito depende de la cooperacin de muchas bacterias. Adems, las prcticas de caza de la orca son un ejemplo de caza del ciervo. Las orcas cooperan acorralando grandes bancos de peces hasta la superficie y les aturden golpendoles con sus colas. Dado que esta estrategia requiere que los peces no tengan forma de escapar, hace falta la cooperacin de muchas orcas. La paradoja de Newcomb La paradoja de Newcomb es el estudio de un juego entre dos jugadores, uno de los cuales puede predecir el futuro. La paradoja de Newcomb se considera una paradoja porque lleva a una autocontradiccin. La causalidad inversa est definida en el problema, por lo que no puede haber libre albedro. Al mismo tiempo, el libre albedro est definido en el problema, de otro modo, el jugador no estara realizando una verdadera eleccin. Esta paradoja fue formulada por William Newcomb, del laboratorio "Lawrence Livermore" en la Universidad de California. Robert Nozick la dio a conocer a la comunidad filosfica en 1969, y apareci en la columna de Martin Gardner en Scientific American en 1974. En este juego hay dos participantes: un orculo capaz de predecir el futuro y un jugador normal. Al jugador se le presentan dos cajas: una abierta que contiene $1000 y una cerrada que contiene, o $1.000.000 o $0. El jugador debe decidir si quiere recibir el contenido de ambas cajas o slo el de la caja cerrada.
45
Pero en el momento en el que el jugador se acerca a las cajas para hacer su eleccin, su contenido ya est definido. La caja cerrada o tiene algo o no lo tiene, pero es demasiado tarde para cambiar su contenido. El jugador debe llevarse el contenido de ambas cajas, ya que tenga lo que tenga la caja cerrada obtendr $1000 ms, porque de todos modos se llevar la cerrada. Segn este razonamiento, el jugador debe escoger siempre llevarse las dos cajas. En su artculo de 1969, Nozick comenta que "Casi todo el mundo tiene claro lo que debe hacer. El problema consiste en que la gente se divide casi a la mitad sobre cul es la solucin al problema, con un gran porcentaje que cree que la otra mitad est equivocada." 46 Los filsofos han propuesto muchas soluciones a esta paradoja. Algunos han sugerido que una persona racional escoger ambas cajas, y una irracional slo la cerrada, de modo que las personas irracionales tienen ventaja en el juego. Otros han afirmado que una persona racional escoger ambas cajas, mientras que una irracional slo la cerrada, de modo que las personas racionales tienen ventaja en el juego (ya que un orculo perfecto no puede existir). Y otros dicen que en un mundo con orculos perfectos (o mquinas del tiempo, ya que una mquina del tiempo puede usarse como mecanismo para hacer los vaticinios) la causalidad puede invertirse. Si una persona conoce realmente el futuro, y este conocimiento afecta a sus acciones, entonces los eventos en el futuro causarn efectos en el pasado. La eleccin del jugador habr causado la accin del orculo. Algunos han concluido que si las mquinas del tiempo o los orculos perfectos existiesen, entonces no puede haber libre albedro y el jugador escoger lo que est destinado a escoger. Otros afirman que la paradoja muestra que es imposible conocer el futuro. Algunos filsofos encuentran equivalente esta paradoja a la paradoja del viaje en el tiempo. En ella, una persona viaja atrs en el tiempo, lo que produce una cadena de eventos que evitan que eso suceda. Un anlisis desde la perspectiva de la mecnica cuntica elude la incompatibilidad del libre albedro y la causalidad inversa poniendo a la caja cerrada, como al gato de Schrdinger,
Skyrms, Brian. (2007) La caza del ciervo y la evolucin de la estructura social. Editorial Melusina.
46 Nozick, Robert (1969), "Newcomb's Problem and Two principles of Choice," in Essays in Honor of Carl G. Hempl, ed. Nicholas Rescher, Synthese Library (Dordrecht, Holland: D. Reidel).
469
470
en un estado de superposicin hasta el momento en el cual se realiza la eleccin. La caja est al mismo tiempo llena y vaca.
Un cosmlogo que cree en mltiples mundos, concluira que la accin del orculo da como resultado dos flujos temporales paralelos: uno en el que ha puesto algo en la caja y otro donde la ha dejado vaca. La teora de los mundos paralelos lleva generalmente a la conclusin de que tanto el libre albedro como la causalidad son ilusiones creadas por la correspondencia entre la consciencia y una memoria especfica del flujo temporal. La urna de cristal Hay una extensin de la paradoja de Newcomb, en la cual se pregunta cmo cambiara el resultado si la caja cerrada fuese una urna de cristal. Qu debera escoger el jugador? Si ve $1.000.000 en la urna, entonces debera tomar ambas cajas, y llevarse tanto los $1.000.000 como los $1.000. Si ve la urna vaca, puede enfadarse cuando se ve privado de una posibilidad de llevarse el premio gordo, y escoger slo la urna para demostrar que el juego es un fraude. En ambos casos, sus acciones pueden ser opuestas a lo que haba sido vaticinado, lo que contradice la premisa de que la prediccin es siempre correcta. Algunos filsofos dicen que la versin con la urna de cristal de la paradoja de Newcomb es prueba de que: Es imposible conocer el futuro El conocimiento del futuro slo es posible en casos en los que dicho conocimento no impida que ese futuro tenga lugar El universo conspirar para prevenir los bucles causales autocontradictorios (a travs de, por ejemplo, el principio de autoconsistencia de Novikov 47 ). El jugador puede, accidentalmente, hacer la eleccin equivocada, o puede malinterpretar las reglas, o la mquina del tiempo/vaticinio puede fallar. Supngase que el orculo no tiene un conocimiento especial del futuro, y el jugador lo sabe. Se puede aplicar entonces un anlisis mediante teora de juegos para el caso de mltiples rondas con memoria. Si el jugador quiere maximizar su beneficio y el orculo quiere maximizar el acierto de sus vaticinios, el jugador debe escoger siempre la caja cerrada. Sin embargo, si el jugador deserta de esa estrategia y escoge ambas cajas, se beneficiar esa ronda, pero el orculo se equivocar y probablemente se vengar. El equilibrio de Nash (donde cada desercin de las estrategias escogidas no da beneficios) surge cuando el jugador escoge siempre llevarse las dos cajas y el orculo predice siempre que escoger las dos cajas (esto da un beneficio de $1000 y una prediccin perfecta cada vez) o cuando ambos escogen siempre la caja cerrada (lo que da un beneficio de $1.000.000 y una prediccin perfecta siempre). Un jugador inteligente tratar de moverse del primer equilibrio al segundo.
Ahora consideremos un caso distinto: el orculo no tiene un conocimiento especial del futuro, pero el jugador cree que lo tiene. Los lectores de un artculo en Scientific American respondieron, en una proporcin de 5 a 2, a favor de escoger slo la caja cerrada. Un orculo que trabaje con esos datos (y suponiendo que el jugador sea un lector de Scientific American) puede decidir que puede alcanzar una tasa de aciertos del 71% vaticinando que el jugador escoger la caja cerrada.
En este caso, el problema se convierte rpidamente en un anlisis de preferencias estadsticas en trminos de tolerancia hacia el riesgo. Esto puede verse ms fcilmente si se cambia el valor de los premios. Por ejemplo, si el contenido de la caja abierta se reduce a $1, casi todos los jugadores escogeran la caja cerrada (el valor reducido, aunque seguro, del dlar no justifica el riesgo). Casi todos los jugadores escogeran ambas cajas si el contenido de la caja abierta fuese de $900.000 48 .
47
El Principio de consistencia de Novikov, tambin conocido como la Conjetura de consistencia de Novikov, es un principio desarrollado por el Doctor Igor Novikov a mediados de los 80 para resolver los problemas de las paradojas en los viajes a travs del tiempo. Simplemente, el principio de consistencia de Novikov afirma que si un evento existe y provoca una paradoja, o cualquier cambio al pasado que la provoque, entonces la probabilidad de ese evento es cero.
48
V.Gardner, Martin (1974), "Mathematical Games," Scientific American, March 1974, p. 102; reimpreso con addendum y bibliografa anotada en su libro The Colossal Book of Mathematics.

Teoria de Los Juegos

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Teoria de Los Juegos

Caricato da

Copyright:

Formati disponibili

XVI. Teora de los juegos XVI.

TEORA DE LOS JUEGOS 1

Fudenberg), December 2007; Wikipedia; The History of Economic Thought Website.

XVI. Teora de los juegos

Pero el monopolista debe preocuparse de sus competidores potenciales en un mercado disputable.

XVI. Teora de los juegos

XVI. Teora de los juegos

XVI. Teora de los juegos

XVI. Teora de los juegos

C (Confesar) D (No Confesar)

XVI. Teora de los juegos

XVI. Teora de los juegos

XVI. Teora de los juegos

Morgenstern y Von Neumann, en Sea Girt, New Jersey

XVI. Teora de los juegos

XVI. Teora de los juegos

2.3 Juegos Bi-Personales de suma cero: el teorema Minimax

XVI. Teora de los juegos

XVI. Teora de los juegos

XVI. Teora de los juegos

XVI. Teora de los juegos

p1ej= i=1mpi 1ij 1(p 1), j=1, ...,n 13

Para que la suma de probabilidades sea la unidad, se define:

pm1= 1 i=1 m-1pi1 pn2= 1 j=1n-1 pj2 .

XVI. Teora de los juegos

XVI. Teora de los juegos

Pago del jugador 1

Partida de Boxeo Ballet

Marido Partida de boxeo 2, 3 1, 1

Douglas Hofstadter (1945- )

XVI. Teora de los juegos

XVI. Teora de los juegos

Kakutani, S., Duke Math. J., 8, 457-459 (1941).

XVI. Teora de los juegos

XVI. Teora de los juegos

XVI. Teora de los juegos

XVI. Teora de los juegos

XVI. Teora de los juegos

XVI. Teora de los juegos

con p 11=1, p 10.

con p 21=1, p 20.

arg max siSi ui(

Aumann, Robert J. [1987] Econometrica 55 1 (January).

XVI. Teora de los juegos

XVI. Teora de los juegos

p11p2*p1*1p2* para toda p1 p1*2p2p1*2p2* para toda p2 para toda p2.

Jugador 1 sigue la estrategia

... ... ...

XVI. Teora de los juegos

XVI. Teora de los juegos

XVI. Teora de los juegos

XVI. Teora de los juegos

v({})=0 v({1})=0 v({1,2})=0,1

v({2})=0 v({1,3})=0,2 v({1,2,3})=v(n)=1

Para el jugador 1, los casos son:

1= (2/6) 0 + (1/6) (0,1) + (1/6) (0,2) + (2/6) (0,8) = 19/60.

XVI. Teora de los juegos

XVI. Teora de los juegos 1 >2 para todo iS.

Simplex bidimensional en 3 dimensiones

y cada miembro de la cual recibe ms en 1 que en 2, a saber:

Ver grfico en M. Intriligator, ob.cit., Cap. 6.4.

XVI. Teora de los juegos

XVI. Teora de los juegos

Cooperar (C) Desertar (D)

p11p2p11p2* para toda p1 p12p2p12p2* para toda p2 para toda p2.