Maluuba de Microsfot con su IA es la primera en ganar Ms. Pac-Man



Para dominar el juego de la Ms. Pac-Man, los investigadores de Maluuba asignaron a un número de agentes de AI diferentes tareas, y crearon un sistema que les permitió trabajar en colaboración.
Para dominar el juego de la Ms. Pac-Man, los investigadores de Maluuba asignaron a un número de agentes de AI diferentes tareas, y crearon un sistema que les permitió trabajar en colaboración.

Game Over. Lo siento humanos, Maluuba la inteligencia artifical de Microsoft es la primera en alcanzar una puntuación perfecta en Ms. Pac-Man …

Por fin, la puntuación perfecta para el clásico arcade Ms. Pac-Man se ha logrado, aunque no por un humano. Maluuba – un equipo de aprendizaje profundo adquirido por Microsoft en enero – ha creado un sistema IA que ha aprendido a alcanzar el valor máximo del juego de 999.900 puntos, utilizando una combinación única de aprendizaje de refuerzo con un método de dividir y conquistar.

Los investigadores de IA tienen una inclinación documentada para usar videojuegos para probar el aprendizaje automático; Es mejor imitar el caos del mundo real en un entorno controlado frente a juegos más estáticos como el ajedrez. En 2015, DeepMind AI de Google fue capaz de aprender a dominar 49 juegos Atari usando el aprendizaje de refuerzo, que proporciona retroalimentación positiva o negativa cada vez que la IA intenta resolver un problema.

Aunque IA ha conquistado una gran cantidad de juegos retro, Ms. Pac-Man se ha mantenido evasiva durante años, debido a la falta intencional de previsibilidad del juego. Resulta que es un pendiente para los seres humanos también. Muchos han tratado de alcanzar la puntuación más alta de la Ms. Pac-Man, llegando tan cerca como 921.360. Sin embargo, el escurridizo número de 999.900 ha sido alcanzado hasta ahora por mortales a través de trucos.

Maluuba fue capaz de utilizar AI para superar el juego mediante la asignación de responsabilidades, partiéndolas en pequeños trabajos asignados a más de 150 agentes. El equipo entonces enseñó a la IA usando lo que ellos llaman Arquitectura de Recompensa Híbrida – una combinación de aprendizaje de refuerzo con un método de dividir y conquistar. A los agentes individuales se les asignaban tareas poco sistemáticas -como encontrar una pastilla específica- trabajando en tándem con otros agentes para lograr mayores objetivos. Maluuba entonces designó a un agente de alto nivel (Microsoft lo compara con un gerente senior de una empresa) que tomó sugerencias de todos los agentes con el fin de informar las decisiones sobre dónde mover a Ms. Pac-Man.

Los mejores resultados llegaron cuando los agentes individuales “actuaron de manera muy egosta” y el agente principal se centró en lo que era mejor para el equipo en general, teniendo en cuenta no sólo cuántos agentes querían ir en una dirección particular, sino la importancia de esa dirección. (Ejemplo: menos agentes esperando evitar un fantasma tienen prioridad sobre una mayor cantidad de agentes que quieren perseguir un pellet.) “Esta es una buena interacción”, dice Harm Van Seijen, un investigador con Maluuba, “entre qué es lo que tienen que hacer, por un lado, cooperan basándose en las preferencias de todos los agentes, pero al mismo tiempo cada uno se preocupa sólo de un problema particular. Beneficia al conjunto”.

Maluuba dice que esta versión de Hybrid Reward Architecture del aprendizaje de AI tiene aplicaciones expansivas y prácticas, como ayudar a predecir los prospectos de ventas de una empresa o hacer avances en el procesamiento del lenguaje natural.


Sea el primero en comentar

Deje una respuesta

Su dirección de E-mail no será publicada.


*