Una máquina derrota a profesionales de póquer Texas hold'em sin límite

Michael Bowling, en el centro, rodeado de los coautores de DeepStack
JOHN ULAN
Actualizado: viernes, 3 marzo 2017 18:10

   MADRID, 3 Mar. (EUROPA PRESS) -

   Un nuevo sistema de Inteligencia Artificial llamado DeepStack ha conseguido derrotar a jugadores profesionales de póquer en su versión Texas hold'em sin límite, la utilizada en las Series Mundiales.

   DeepStack supera la brecha entre los enfoques utilizados para juegos de información perfecta - como los utilizados en damas, ajedrez, y Go - con los utilizados para juegos de información imperfecta, razonando mientras juega usando la "intuición" perfeccionada a través del aprendizaje profundo para reevaluar su estrategia con cada decisión.

   Según el estudio publicado ahora en Science, DeepStack jugó contra un grupo de jugadores profesionales de póquer en diciembre pasado, reclutado por la Federación Internacional de Poker. Treinta y tres jugadores de 17 países fueron reclutados, cada uno pidió jugar un partido de 3.000 manos durante un período de cuatro semanas. DeepStack venció a cada uno de los 11 jugadores que terminaron su partido, con sólo uno fuera del margen de significación estadística, por lo que es el primer programa de computadora en vencer a los jugadores profesionales en Texas Hold'em Poker sin límite.

   "El póquer ha sido un viejo problema en la inteligencia artificial", dice en un comunicado Michael Bowling, profesor de la Facultad de Ciencias de la Universidad de Alberta y investigador principal del estudio. "Es el juego por excelencia de información imperfecta en el sentido de que los jugadores no tienen la misma información o comparten la misma perspectiva mientras juegan".

   Los juegos de 'información imperfecta' responden a un modelo matemático general que describe cómo interactúan los tomadores de decisiones. La investigación de Inteligencia Artificial tiene larga experiencia en juegos de salón para estudiar estos modelos, pero la atención se ha centrado principalmente en juegos de información perfectos.

   "Necesitamos nuevas técnicas de Inteligencia Artificial que puedan manejar casos donde los tomadores de decisiones tienen diferentes perspectivas", dice Bowling, explicando que desarrollar técnicas para resolver juegos de información imperfectos tendrá aplicaciones muy por encima de la mesa de póker.

   "Piensa en cualquier problema del mundo real, todos tenemos una perspectiva un poco diferente de lo que está pasando, al igual que cada jugador sólo conoce sus propias cartas en un juego de póquer". Las aplicaciones inmediatas incluyen hacer recomendaciones confiables de tratamiento médicos, planeamiento estratégico de la defensa, y negociación.

   Este último descubrimiento se basa en un cuerpo de hallazgos de investigación sobre Inteligencia Artificial y juegos de información imperfectos que se remonta a la creación del Computer Poker Research Group en la Universidad de Alberta en 1996. Bowling, que se convirtió en investigador principal del grupo en 2006, ha llevado el grupo a varios hitos.

   DeepStack extiende la capacidad de pensar en cada situación durante el juego - que ha sido célebremente exitoso en juegos como damas, ajedrez, y Go - a los juegos de información imperfectos que usan una técnica llamada resolución continua. Esto permite a DeepStack determinar la estrategia correcta para una situación particular de póquer sin pensar en todo el juego usando su "intuición" para evaluar cómo podría jugar el juego en un futuro próximo.

   "Conformamos nuestro sistema para aprender el valor de las situaciones", dice Bowling. "Cada situación en sí es un minijuego de póquer. En lugar de resolver un gran juego de póquer, se resuelven millones de estos pequeños juegos de póquer, cada uno ayudando al sistema para perfeccionar su intuición de cómo funciona el juego de póquer. Esta intuición es el combustible detrás de cómo DeepStack juega el juego completo".

   A pesar de la complejidad del juego, DeepStack toma acción a la velocidad humana - con un promedio de sólo tres segundos de tiempo de "pensamiento" - y se ejecuta en un sencillo portátil de juego con una unidad de procesamiento de gráficos Nvidia.