El nuevo LLM de OpenAI revela los secretos del funcionamiento real de la IA

INTELIGENCIA ARTIFICIAL. Tiempo de lectura: 5 minutos.-

OpenAI, creadora de ChatGPT, ha desarrollado un modelo experimental de lenguaje que resulta mucho más fácil de interpretar que los sistemas habituales

El avance es relevante porque los actuales LLM son auténticas cajas negras: nadie entiende del todo cómo hacen lo que hacen. Lograr un modelo más transparente permite arrojar luz sobre el funcionamiento general de estas tecnologías y ayudar a los investigadores a descubrir por qué alucinan, por qué se desvían y hasta qué punto podemos confiar en ellas para tareas críticas. 

“A medida que estos sistemas de IA se vuelvan más potentes, se integrarán cada vez más en ámbitos muy importantes”, explicó Leo Gao, científico de investigación en OpenAI, en una entrevista exclusiva con MIT Technology Review. “Es fundamental asegurarse de que sean seguros”. 

Por ahora se trata de una investigación preliminar. El nuevo modelo, denominado weight-sparse transformer, es mucho más pequeño y menos capaz que los productos estrella del mercado, como GPT-5, Claude (de Anthropic) o Gemini (de Google DeepMind). Según Gao, su rendimiento apenas se equipara al de GPT-1, creado por OpenAI en 2018, aunque no se ha hecho una comparación directa. El objetivo no es competir con los mejores (al menos por ahora), sino entender los mecanismos ocultos que operan en versiones más grandes y sofisticadas. 

“Es una investigación interesante”, opina Elisenda Grigsby, matemática en Boston College especializada en el funcionamiento de los LLM y ajena al proyecto. “Estoy segura de que los métodos que introduce tendrán un impacto significativo”. Lee Sharkey, científico en la startup Goodfire, coincide: “Este trabajo apunta al objetivo correcto y parece bien ejecutado”. 

¿Por qué son tan difíciles de entender los modelos

El trabajo de OpenAI se enmarca en un campo emergente conocido como mechanistic interpretability, que busca mapear los mecanismos internos que emplean los modelos para realizar distintas tareas. 

No es sencillo. Los LLM se construyen con redes neuronales formadas por nodos, llamados neuronas, organizados en capas. En la mayoría de redes, cada neurona se conecta con todas las de las capas adyacentes, formando lo que se conoce como red densa. Estas redes son eficientes para entrenar y ejecutar, pero distribuyen lo aprendido en una maraña de conexiones. Así, conceptos simples pueden fragmentarse entre neuronas situadas en distintas partes del modelo, mientras que neuronas concretas pueden representar varias características a la vez, un fenómeno llamado superposition (término tomado de la física cuántica). El resultado: no se puede vincular una parte específica del modelo con un concepto concreto. 

“Las redes neuronales son grandes, complejas, enmarañadas y muy difíciles de entender”, afirma Dan Mossing, líder del equipo de interpretabilidad mecanística en OpenAI. “Nos hemos preguntado: ‘¿Y si intentamos que eso no ocurra?’”. 

En lugar de construir una red densa, OpenAI optó por un tipo de arquitectura conocida como weight-sparse transformer, donde cada neurona se conecta solo con unas pocas. Esto obliga al modelo a representar las características en grupos localizados en vez de dispersarlas.

El modelo es mucho más lento que cualquier LLM comercial, pero permite relacionar neuronas o grupos de neuronas con conceptos y funciones concretas. “La diferencia en interpretabilidad es realmente drástica”, asegura Gao. 

Gao y su equipo han probado el modelo con tareas muy simples. Por ejemplo, le pidieron completar un bloque de texto que comenzaba con comillas añadiendo las comillas de cierre. Es una petición trivial para un LLM, pero entender cómo lo hace implica desentrañar una maraña de neuronas y conexiones, explica Gao. Con el nuevo modelo, pudieron seguir paso a paso el proceso. 

“Encontramos un circuito que reproduce exactamente el algoritmo que uno implementaría manualmente, pero aprendido por el modelo”, afirma Gao. “Creo que esto es muy interesante y emocionante”. 

¿Qué viene después? Grigsby duda de que la técnica escale a modelos más grandes capaces de manejar tareas complejas. Gao y Mossing reconocen que esta es una limitación importante y admiten que el enfoque nunca alcanzará el rendimiento de productos punteros como GPT-5. Aun así, OpenAI confía en perfeccionar la técnica hasta construir un modelo transparente comparable a GPT-3, el LLM que marcó un hito en 2021. 

“Quizá en unos años tengamos un GPT-3 completamente interpretable, donde puedas examinar cada parte y entender cómo hace cada cosa”, dice Gao. “Si tuviéramos un sistema así, aprenderíamos muchísimo”.

Por: Will Douglas Heaven.

Sitio Fuente: Technology Review