Google Deepmind usa Gemini para entrenar agentes en mundos virtuales

INTELIGENCIA ARTIFICIAL. Tiempo de lectura: 6 minutos.-

Google DeepMind ha desarrollado un nuevo agente para videojuegos llamado SIMA 2, capaz de desplazarse y resolver problemas en una amplia variedad de mundos virtuales en 3D. La compañía asegura que se trata de un gran avance hacia agentes de propósito general y robots más eficientes en entornos reales.

DeepMind presentó por primera vez SIMA (acrónimo de scalable instructable multiworld agent) el año pasado. Sin embargo, SIMA 2 se ha construido sobre Gemini, el modelo de lenguaje de gran tamaño insignia de la firma, lo que le otorga un notable impulso en sus capacidades. 

Los investigadores sostienen que SIMA 2 puede ejecutar tareas más complejas dentro de mundos virtuales, encontrar por sí mismo soluciones a determinados retos y mantener conversaciones con los usuarios. Además, es capaz de mejorar su rendimiento enfrentándose repetidamente a desafíos más difíciles y aprendiendo mediante prueba y error. 

“Los videojuegos han sido durante mucho tiempo una fuerza impulsora en la investigación sobre agentes”, afirmó Joe Marino, científico de investigación en Google DeepMind, durante una rueda de prensa esta semana. Señaló que incluso una acción aparentemente sencilla en un juego, como encender una linterna, puede implicar varios pasos: “Es un conjunto de tareas realmente complejo que hay que resolver para avanzar”. 

El objetivo final es desarrollar agentes de nueva generación capaces de seguir instrucciones y ejecutar tareas abiertas en entornos más complejos que un simple navegador web. A largo plazo, Google DeepMind quiere emplear estos agentes para impulsar robots en el mundo real. Marino sostiene que las habilidades que ha adquirido SIMA 2, como desplazarse por un entorno, utilizar herramientas y colaborar con humanos para resolver problemas, son piezas fundamentales para los futuros compañeros robóticos. 

A diferencia de trabajos anteriores con agentes diseñados para jugar, como AlphaZero, que derrotó a un gran maestro de Go en 2016, o AlphaStar, que superó al 99,8% de los jugadores humanos clasificados en el videojuego StarCraft 2 en 2019, la idea detrás de SIMA es entrenar a un agente para jugar en un entorno abierto sin objetivos predefinidos. En su lugar, el agente aprende a ejecutar las instrucciones que le dan las personas. 

Los humanos controlan SIMA 2 mediante chat de texto, hablándole en voz alta o dibujando sobre la pantalla del juego. El agente analiza los píxeles del videojuego fotograma a fotograma y determina qué acciones debe realizar para cumplir sus tareas. 

Al igual que su predecesor, SIMA 2 se entrenó con grabaciones de humanos jugando a ocho videojuegos comerciales (entre ellos No Man’s Sky y Goat Simulator 3), además de tres mundos virtuales creados por la compañía. El agente aprendió a asociar las entradas de teclado y ratón con acciones concretas. 

Conectado a Gemini, aseguran los investigadores, SIMA 2 es mucho mejor siguiendo instrucciones, planteando preguntas y ofreciendo actualizaciones sobre su progreso, y descubriendo por sí mismo cómo ejecutar tareas más complejas. 

Google DeepMind probó el agente en entornos que nunca había visto. En uno de los experimentos, los investigadores pidieron a Genie 3, la última versión del modelo de mundos de la firma, que generara escenarios desde cero y colocaron a SIMA 2 en ellos. Comprobaron que el agente era capaz de orientarse y cumplir las instrucciones en esos entornos. 

Los investigadores también utilizaron Gemini para crear nuevas tareas para SIMA 2. Si el agente fallaba, Gemini generaba consejos que SIMA 2 aplicaba en el siguiente intento. Repetir una tarea varias veces de este modo permitía a SIMA 2 mejorar mediante prueba y error hasta lograr el objetivo, explicó Marino. 

Git gud.

SIMA 2 sigue siendo un experimento. El agente tiene dificultades con tareas complejas que requieren varios pasos y más tiempo para completarse. Además, solo recuerda sus interacciones más recientes ya que el equipo redujo su memoria a largo plazo para hacerlo más ágil. Tampoco se acerca al nivel humano en el uso del teclado y el ratón para interactuar con un mundo virtual. 

Julian Togelius, investigador en inteligencia artificial en la Universidad de Nueva York especializado en creatividad y videojuegos, considera que el resultado es interesante. “Los intentos anteriores de entrenar un único sistema para jugar a varios títulos no han salido demasiado bien”, señala. La razón, explica, es que entrenar modelos para controlar distintos juegos únicamente observando la pantalla no es sencillo: “Jugar en tiempo real solo a partir de la entrada visual es hard mode”, afirma. 

En particular, Togelius menciona GATO, un sistema previo de Google DeepMind que, pese a la expectación que generó en su momento, no logró transferir habilidades entre un número significativo de entornos virtuales. 

Aun así, se muestra abierto a la posibilidad de que SIMA 2 conduzca a robots más avanzados. “El mundo real es a la vez más difícil y más fácil que los videojuegos”, dice. Es más difícil porque no basta con pulsar la tecla A para abrir una puerta. Pero también es más fácil porque un robot sabe en todo momento qué puede y qué no puede hacer con su cuerpo. Eso no ocurre en los videojuegos, donde las reglas cambian según el mundo virtual. 

Otros son más escépticos. Matthew Guzdial, investigador en IA en la Universidad de Alberta, no se sorprende de que SIMA 2 pueda jugar a muchos títulos diferentes. Señala que la mayoría comparten controles similares de teclado y ratón: “Aprendes uno y los aprendes todos”. Y añade: “Si le pones delante un juego con una entrada extraña, no creo que pueda rendir bien”.

Guzdial también cuestiona cuánto de lo aprendido por SIMA 2 se trasladaría realmente a los robots. “Es mucho más difícil interpretar imágenes de cámaras en el mundo real que en los videojuegos, que están diseñados con gráficos fácilmente legibles para los jugadores humanos”, afirma. 

A pesar de todo, Marino y su equipo confían en seguir trabajando con Genie 3 para que el agente mejore en una especie de dojo virtual infinito, donde Genie genera mundos en los que SIMA aprende mediante prueba y error, guiado por la retroalimentación de Gemini. “Apenas hemos arañado la superficie de lo que es posible”, dijo en la rueda de prensa. 

Por: Will Douglas Heaven.

Sitio Fuente: MIT Technology Review