Ponemos a prueba Manus, la nueva competencia de DeepSeek

INTELIGENCIA ARTIFICIAL. Tiempo de lectura: 11 minutos.-

Todos en AI están hablando de Manus. Lo pusimos a prueba.

El nuevo agente de IA general de China sufrió algunos fallos en el sistema y una sobrecarga del servidor, pero es muy intuitivo y prometedor para el futuro de los asistentes de inteligencia artificial.

Desde su lanzamiento la semana pasada, el agente general de inteligencia artificial Manus se ha propagado por internet a gran velocidad. No solo en China, su país de origen, donde fue desarrollado por la startup Butterfly Effect con sede en Wuhan, sino que ha logrado posicionarse en las conversaciones globales gracias a voces influyentes del mundo de la tecnología, como Jack Dorsey, cofundador de Twitter, y Victor Mustar, jefe de producto de Hugging Face. Tanto ellos como otros referentes han elogiado su rendimiento. Algunos incluso lo han bautizado como «el segundo DeepSeek «, en comparación con el anterior modelo de IA que sorprendió al sector, tanto por sus inesperadas capacidades como por su origen.

Manus afirma ser el primer agente de IA general del mundo que utiliza múltiples modelos de IA (como el Sonnet Claude 3.5 de Anthropic y versiones perfeccionadas del Qwen de código abierto de Alibaba) y varios agentes que operan de forma independiente para actuar de manera autónoma en una amplia variedad de tareas. Esto lo diferencia de los chatbots de IA, incluido DeepSeek, que se basan en una única gran familia de modelos lingüísticos y están diseñados principalmente para interacciones conversacionales.

A pesar de todo el hype, muy poca gente ha tenido la oportunidad de utilizarlo. Actualmente, menos del 1% de los usuarios en lista de espera han recibido un código de invitación. No está claro cuánta gente hay en esta lista, pero para hacerse una idea de cuánto interés hay, el canal de Discord de Manus tiene más de 186.000 miembros.

MIT Technology Review tuvo acceso a Manus. Cuando lo probé me di cuenta de que era como colaborar con un becario muy inteligente y eficiente: aunque a veces no entiende lo que se le pide; hace suposiciones incorrectas o toma atajos para agilizar las tareas, explica su razonamiento con claridad, es notablemente adaptable y puede mejorar si se le dan instrucciones detalladas o comentarios. En definitiva, es prometedor, pero no perfecto.

Por otra parte, al igual que el anterior producto de su empresa matriz, Monica, un asistente de inteligencia artificial lanzado en 2023, Manus está pensado para un público global. El idioma por defecto es el inglés, y su diseño es limpio y minimalista.

Para ingresar, el usuario debe introducir un código de invitación válido. Luego, el sistema dirige a los usuarios a una página de inicio muy parecida a las de ChatGPT o DeepSeek, con sesiones anteriores en una columna a la izquierda y un cuadro de entrada de chat en el centro. La landing page también presenta ejemplos de tareas seleccionadas y sugeridas por la empresa, que van desde el desarrollo de estrategias empresariales hasta el aprendizaje interactivo y las sesiones personalizadas de meditación en audio.

Al igual que otras herramientas de agentes IA basadas en el razonamiento, como ChatGPT DeepResearch, Manus es capaz de dividir las tareas en pasos y navegar de forma autónoma por la web para obtener la información que necesita para completarlas. Lo que lo distingue es la ventana «Ordenador de Manus», que permite a los usuarios no sólo observar lo que hace el agente, sino también intervenir en cualquier momento.

Para ponerlo a prueba, encomendé a Manus tres tareas: (1) recopilar una lista de periodistas destacados que cubren la tecnología en China, (2) buscar viviendas de dos dormitorios en Nueva York y (3) proponer candidatos potenciales para Innovadores menores de 35 , una lista que el MIT Technology Review elabora cada año.

-

Manus resolvió las tareas de la siguiente manera:

Tarea 1: la primera lista de periodistas que me dio Manus contenía sólo cinco nombres, con cinco «menciones honoríficas» debajo. Me di cuenta de que enumeraba el trabajo notable de algunos periodistas, pero no lo hacía con otros. Pregunté a Manus por qué. La razón que me dio fue realmente graciosa: le dio pereza. Fue «en parte por falta de tiempo al intentar acelerar el proceso de investigación», me dijo. Cuando insistí sobre la coherencia y la minuciosidad, Manus respondió con una lista exhaustiva de 30 periodistas, en la que señalaba su actual medio de comunicación y enumeraba trabajos notables (me alegró ver que había quedado seleccionado, junto con muchos de mis queridos colegas)

Me impresionó que pudiera hacer sugerencias de cambios al más alto nivel, como se haría con un becario o asistente en la vida real, y que respondiera adecuadamente. Y aunque al principio pasó por alto cambios en la situación laboral de algunos periodistas, cuando le pedí que revisara algunos resultados, los corrigió rápidamente. Otra característica interesante: el resultado podía descargarse como archivo de Word o Excel, lo que facilitaba su edición o la posibilidad de compartirlo con otros.

Sin embargo, Manus se topó con un obstáculo al acceder a los artículos de los periodistas tras los muros de pago: a menudo se bloqueaban los captcha. Como pude seguir el proceso paso a paso, me resultó fácil completarlos, aunque muchos sitios web de medios de comunicación bloquearon la herramienta alegando actividades sospechosas. Veo potencial de mejoras importantes aquí, y sería útil si una versión futura de Manus pudiera pedir ayuda de forma proactiva cuando se encuentre con este tipo de restricciones.

Tarea 2: Para la búsqueda de apartamento, le di a Manus un complejo conjunto de criterios, incluido un presupuesto y varios parámetros: una cocina espaciosa, espacio al aire libre, acceso al centro de Manhattan y una estación de tren importante a menos de siete minutos a pie. Al principio, Manus interpretó de forma muy literal requisitos vagos como «algún tipo de espacio al aire libre», excluyendo por completo las propiedades sin terraza privada o acceso al balcón. Sin embargo, tras recibir más orientaciones y aclaraciones, pudo elaborar una lista más amplia y útil con recomendaciones ordenadas por niveles y viñetas.

El resultado final parecía sacado directamente de Wirecutter, con subtítulos como «mejor en general», «mejor relación calidad-precio» y «opción de lujo». Esta tarea (incluidas las idas y venidas) llevó menos de media hora, mucho menos tiempo que la recopilación de la lista de periodistas (que llevó algo más de una hora), probablemente porque los listados de propiedades están más disponibles y bien estructurados en Internet.

Tarea 3: esta fue la de mayor envergadura: pedí a Manus que nominara a 50 personas para la lista de Innovadores menores de 35. Elaborar esta lista es una tarea enorme, y normalmente recibimos cientos de nominaciones cada año. Así que tenía curiosidad por ver qué tal lo hacía Manus. Dividió la tarea en pasos, incluida la revisión de listas anteriores para comprender los criterios de selección, la creación de una estrategia de búsqueda para identificar a los candidatos, la recopilación de nombres y la garantía de una selección diversa de candidatos de todo el mundo.

Desarrollar una estrategia de búsqueda fue la parte que más tiempo le llevó a Manus. Aunque no describía explícitamente su enfoque, la ventana del ordenador de Manus mostraba al agente desplazándose rápidamente por sitios web de prestigiosas universidades de investigación, anuncios de premios tecnológicos y artículos de noticias. Sin embargo, volvió a tropezar con obstáculos al intentar acceder a artículos académicos y contenidos multimedia de pago.

Tras tres horas de búsqueda en Internet -durante las cuales Manus (comprensiblemente) me preguntó varias veces si podía restringir la búsqueda-, sólo fue capaz de proporcionarme tres candidatos con perfiles completos. Cuando volví a insistirle para que me diera una lista completa de 50 nombres, logró generar una, pero algunas instituciones académicas y campos estaban muy sobrerrepresentados, lo que reflejaba un proceso de investigación incompleto. Cuando le señalé el problema y le pedí que buscara cinco candidatos de China, consiguió elaborar una lista sólida de cinco nombres, aunque los resultados se inclinaban hacia los favoritos de los medios de comunicación chinos. Finalmente tuve que desistir, después de que el sistema me advirtiera de que el rendimiento de Manus podría disminuir si seguía introduciendo demasiado texto.

Mi valoración: en general, Manus me pareció una herramienta muy intuitiva, apta para usuarios con o sin conocimientos de programación. En dos de las tres tareas proporcionó mejores resultados que ChatGPT DeepResearch, aunque tardó bastante más en completarlas. Manus parece más adecuado para tareas analíticas que requieren una investigación exhaustiva en Internet, pero tienen un alcance limitado. En otras palabras, es mejor que se limite al tipo de cosas que un becario experto podría hacer durante un día de trabajo.​

Pero no todo va sobre ruedas. Manus puede sufrir caídas frecuentes e inestabilidad del sistema, y puede tener problemas cuando se le pide que procese grandes cantidades de texto. El mensaje «Debido a la alta carga actual del servicio, no se pueden crear tareas. Por favor, inténtelo de nuevo en unos minutos» parpadeó en mi pantalla unas cuantas veces cuando intenté iniciar nuevas peticiones, y ocasionalmente el ordenador de Manus se quedó congelado en una página determinada durante un largo periodo de tiempo.

Su tasa de fallos es mayor que la de DeepResearch de ChatGPT, un problema que el equipo está abordando, según informa el científico jefe de Manus, Peak Ji. Dicho esto, el medio de comunicación chino 36Kr informa que el coste por tarea de Manus es de unos 2 dólares, apenas una décima parte del coste de DeepResearch. Si el equipo de Manus refuerza su infraestructura de servidores, creo que la herramienta se convertirá en la opción preferida de los usuarios particulares, sobre todo de los profesionales de oficina, los desarrolladores independientes y los equipos pequeños.

Por último, creo que es muy valioso que el proceso de trabajo de Manus sea relativamente transparente y colaborativo. Hace preguntas de forma activa a lo largo del proceso y retiene instrucciones clave como «conocimiento» en su memoria para su uso futuro, lo que permite una experiencia de agente fácilmente personalizable. También permite que cada sesión pueda repetirse y compartirse, lo que es muy destacable.

Supongo que seguiré utilizando Manus para todo tipo de tareas, tanto en mi vida personal como profesional. Aunque no estoy seguro de que las comparaciones con DeepSeek sean del todo acertadas, sirve como prueba adicional de que las empresas chinas de IA no se limitan a seguir los pasos de las empresas occidentales. En lugar de limitarse a innovar sobre modelos de base, están dando forma de manera activa a la adopción de agentes autónomos de IA a su manera.

Por: Caiwei Chen.

Sitio Fuente: MIT Technology Review