Una empresa china lanza un test que cambia constantemente para medir la IA

INTELIGENCIA ARTIFICIAL. Tiempo de lectura: 5 minutos.-

Cuando se prueba un modelo de inteligencia artificial, es difícil saber si está razonando o simplemente regurgitando las respuestas de sus datos de entrenamiento.

Xbench, un nuevo test desarrollado por la empresa china de capital riesgo HSG (HongShan Capital Group), podría ayudar a evitar este problema. Esto se debe a que evalúa los modelos no sólo en función de su capacidad para superar pruebas arbitrarias, como la mayoría de las pruebas comparativas, sino también en función de su capacidad para ejecutar tareas reales, algo más inusual. Se actualizará periódicamente para tratar de mantenerlo siempre al día.

Esta semana, la empresa ha decidido que parte de su conjunto de preguntas sea de código abierto y que cualquiera pueda utilizarlas gratuitamente. El equipo también ha publicado una tabla clasificatoria en la que se comparan los resultados de los principales modelos de inteligencia artificial en Xbench. (ChatGPT o3 ocupa el primer puesto en todas las categorías, aunque Doubao, Gemini 2.5 Pro y Grok, de ByteDance, también obtienen buenos resultados, al igual que Claude Sonnet).

HongShan comenzó a desarrollar el test en 2022, tras el gran éxito de ChatGPT, como herramienta interna para evaluar en qué modelos merecía la pena invertir. Desde entonces, bajo la dirección del socio Gong Yuan, el equipo no ha dejado de ampliar el sistema, incorporando a investigadores y profesionales externos para ayudar a perfeccionarlo. A medida que el proyecto se hacía más sofisticado, decidieron hacerlo público.

Xbench abordó el problema con dos sistemas diferentes. Uno es similar a la evaluación comparativa tradicional: una prueba académica que calibra la aptitud de un modelo en diversas materias. El otro es más parecido a una entrevista técnica para un puesto de trabajo, en la que se evalúa el valor económico real que puede aportar un modelo.

Los métodos de Xbench para evaluar la inteligencia bruta incluyen actualmente dos componentes: Xbench-ScienceQA y Xbench-DeepResearch. ScienceQA no supone un cambio radical con respecto a las pruebas de nivel de posgrado existentes en STEM, como GPQA y SuperGPQA . Incluye preguntas que abarcan campos que van desde la bioquímica a la mecánica orbital, redactadas por estudiantes de posgrado y revisadas por profesores. La puntuación recompensa no sólo la respuesta correcta, sino también la cadena de razonamiento que conduce a ella.

DeepResearch, en cambio, se centra en la capacidad del modelo para navegar por la web en chino. Diez expertos en la materia crearon 100 preguntas sobre música, historia, finanzas y literatura, preguntas que no se pueden buscar simplemente en Google, sino que requieren una investigación importante para responderlas. La puntuación favorece la amplitud de las fuentes, la coherencia de los hechos y la disposición del modelo a admitir cuando no hay datos suficientes. Una pregunta de la publicitada colección es «¿Cuántas ciudades chinas de las tres provincias noroccidentales limitan con un país extranjero?». (Son 12, y sólo el 33% de los modelos examinados lo acertaron)

En el sitio web de la empresa, los investigadores dicen que quieren añadir más dimensiones a la prueba, por ejemplo, aspectos como lo creativo que es un modelo en su resolución de problemas, lo colaborativo que es cuando trabaja con otros modelos y lo fiable que es.

El equipo se ha comprometido a actualizar las preguntas del test una vez al trimestre y a mantener un conjunto de datos mitad públicos, mitad privados.

Para evaluar la preparación de los modelos en el mundo real, el equipo trabajó con expertos para desarrollar tareas basadas en flujos de trabajo reales, inicialmente en contratación y marketing. Por ejemplo, una de las tareas pide a un modelo que busque cinco candidatos cualificados a ingeniero de baterías y justifique cada elección. Otra le pide que empareje a los anunciantes con los creadores de vídeos cortos adecuados a partir de un grupo de más de 800 personas influyentes.

En el sitio web también se anuncian las próximas categorías, como finanzas, derecho, contabilidad y diseño. Las preguntas de estas categorías aún no se han publicado.

ChatGPT o3 vuelve a ocupar el primer puesto en las dos categorías profesionales actuales. En contratación, Perplexity Search y Claude 3.5 Sonnet ocupan el segundo y tercer puesto, respectivamente. En marketing, Claude, Grok y Gemini obtienen buenos resultados.

«Es muy difícil que los puntos de referencia incluyan cosas tan difíciles de cuantificar», afirma Zihan Zheng, investigador principal de un nuevo punto de referencia llamado LiveCodeBench Pro y estudiante de la Universidad de Nueva York. «Pero Xbench representa un comienzo prometedor».

Por: Caiwei Chen.

Sitio Fuente: MIT Technology Review