Facebook crea una IA capaz de ganar por primera vez a jugadores profesionales humanos en una partida de póquer

Actualizado 12/07/2019 16:42:49 CET
Póker, imagen de recurso
Póker, imagen de recursoPIXABAY

   MADRID, 12 Jul. (Portaltic/EP) -

   Facebook ha desarrollado una Inteligencia Artificial (IA) habilitada para jugar partidas de póquer de hasta seis participantes, y en varias pruebas ha logrado salir victorioso de forma consistente, por primera vez en un mecanismo del género, contra jugadores humanos profesionales.

   Facebook ha anunciado que en colaboración con Carnegui Mellon han logrado crear el primer bot de inteligencia artificial capaz de jugar póquer en partidas de seis jugadores en la variedad Texas Hold'em, sin límites de apuesta. El bot se llama Pluribus y ha logrado ganar contra jugadores humanos de la talla de dos ganadores del World Series of Poker. Los descubrimientos de ambos creadores fueron publicados en la revista Science este jueves.

Se trata de uno de los primeros ejemplos de una IA desarrollada para jugar al póquer, un juego considerado como "un gran desafío" para la IA según sus creadores durante décadas debido a que implica información desconocida y estrategias distintas a las de otros juegos como el ajedrez o el go, como el uso de faroles.

   Pluribus incorpora un nuevo algoritmo de búsqueda en línea que puede evaluar sus opciones de manera eficiente al buscar solo algunos movimientos hacia adelante en vez de hacia el objetivo final del juego. Pluribus también utiliza nuevos algoritmos de autojuego más rápidos para juegos con información oculta.

   Estas innovaciones tienen implicaciones importantes más allá del póquer, porque las interacciones de suma cero de dos jugadores (en las que un jugador gana y otro pierde) son comunes en los juegos recreativos, pero son muy poco frecuentes en la vida real. Los escenarios del mundo real, como tomar medidas sobre contenido dañino y lidiar con los desafíos de la ciberseguridad, así como administrar una subasta en línea o navegar por el tráfico, generalmente involucran a múltiples actores y/o información oculta.

   Los resultados del estudio "muestran que un algoritmo de IA cuidadosamente construido puede alcanzar un rendimiento mayor que el humano fuera de los juegos de suma cero para dos jugadores", según el investigador de la división de IA de Facebook Noam Brown.

De hecho, es la primera vez que un robot consigue vencer a jugadores profesionales en cualquier juego que tenga más de dos jugadores o de dos equipos. Los resultados se han producido tanto en dos modalidades: la primera, con cinco bots contra un humano, y la segunda, una IA contra cinco jugadores humanos.

   La cantidad de información oculta a la hora de jugar póquer dificulta el desarrollo de inteligencia artificial en este terreno ya que entran en juego los faroles y el engaño donde el jugador deben hacer balance de cuando y como mentir o hacer un 'bluff'. Debido a esto, utilizando las técnicas ya existentes en los juegos de dos personas, habría sido necesaria una potencia de computación 10.000 veces superior para adaptarlo al póquer, de seis.

CÓMO SE ENTRENÓ PLURIBUS

Pluribus tiene una estrategia y un algoritmo elaborada basada en el autojuego, es decir, jugar sin factores humanos y mediante el cual ha calculado la probabilidad de la efectividad de sus jugadas teniendo en cuenta los movimientos que pueda seguir.

La IA juega inicialmente contra copias de sí misma, jugando de manera aleatoria, y con el tiempo acaba aprendiendo y determinando qué estrategias son las más efectivas en función de los movimientos anteriores de la partida.

En cada repetición de estas pruebas, el sistema elige a un jugador como el 'atravesador', actualizando su estrategia en cada partida. Las probabilidad de éxito de cada jugada se dilucidan preguntando al sistema qué está programado que hagan el resto de los jugadores robots en los próximos movimientos.

En siete horas de aprendizaje, Pluribus es capaz de mejorar el rendimiento del jugador humano medio, y después de 20 horas puede llegar a superar a jugadores humanos profesionales de póquer, sin necesidad de adaptar sus estrategias para cada tipo de jugador.

Para entrena estar herramienta, los investigadores de Facebook utilizaron durante ocho días un servidor de 64 núcleos que requirió un total de menos de 512 GB de RAM, sin emplearse unidades de procesamiento gráfico (GPU) en el proceso.

PRUEBAS CONTRAS JUGADORES HUMANOS PROFESIONALES

   Se llevaron a cabo dos experimentos para comprobar el rendimiento del bot: uno que consistía de un bot de IA contra cinco jugadores humanos y otro de un jugador humano contra cinco bots.

   En la primera variante del experimento 13 jugadores, que habían ganado más de un millón de dólares cada uno profesionalmente, jugaron en contra de Pluribus en distintos grupos. El bot jugó contra cinco jugadores humanos a la vez durante 12 días y jugó 10.000 manos, con un premio de 50.000 dólares.

El resultado fueron cinco ciegas ('big blinds') por cada cien manos a favor de Pluribus. Esto equivale a que el bot ganó mil dólares por hora jugando contra cinco humanos, si cada ficha hubiese valido un dólar, más de lo que suelen ganar los jugadores profesionales contra amateurs y otros profesionales.

   En la segunda prueba, con cinco IAs contra un humano, participaron Darren Elias y Chris "Jesus" Ferguson, dos campeones de póquer a nivel mundial, en competiciones como el Tour Mundial o la Serie Mundial de Poker, respectivamente.

   A ambos jugadores se les ofreció 2.000 dólares para participar en el juego de Texas Hold'em. Además los jugadores podrían optar por un premio 2.000 dólares adicionales si rendían mejor contra el bot en comparación con el otro jugador humano. En este caso Pluribus venció a los jugadores con un promedio de 2,3 ciegas por cada cien manos.

   Según uno de los jugadores que participaron en el experimento, Michael Gagliano, jugador de póker profesional, "hubo varias jugadas que los humanos simplemente no hacen en absoluto, especialmente en relación con su tamaño de apuesta".

Contador