Qué es el 'red-teaming', el proceso que permite a OpenAI detectar fallos en ChatGPT
CIENCIAS DE LA COMPUTACIÓN / INTELIGENCIA ARTIFICIAL.
A través del red-teaming, un proceso en el que se simulan ataques para buscar fallos en los sistemas, OpenAI identifica vulnerabilidades en sus herramientas. Sin embargo, la amplia variedad de situaciones en las que se pueden utilizar estos modelos dificulta su contro.
Stephanie Arnett / MIT Technology Review / Getty.
OpenAI vuelve a compartir detalles sobre cómo aborda la seguridad de sus sistemas. El mes pasado, la compañía presentó un estudio donde analizaba con qué frecuencia ChatGPT generaba estereotipos de género o racialesperjudiciales basándose en el nombre del usuario. Ahora, ha publicado dos nuevos artículos en los que explica cómo examina a sus modelos de lenguaje para detectar comportamientos indeseados, un proceso conocido como red-teaming.
Hoy en día, millones de personas recurren a grandes modelos de lenguaje (LLM, por sus siglas en inglés) para una amplia variedad de tareas. Sin embargo, como admite la propia OpenAI, estos sistemas pueden generar contenido racista, misógino u ofensivo. También divulgar información privada, reforzar prejuicios y estereotipos, e incluso inventar datos. Por ello, la compañía busca mostrar las medidas que está tomando para reducir al mínimo estos problemas.
MIT Technology Review ha tenido acceso a un avance de este trabajo de manera exclusiva. En el primer artículo, OpenAI explica cómo colabora con una amplia red de testers externos (personas encargadas de evaluar sistemas y aplicaciones para identificar errores) para analizar el comportamiento de sus modelos antes de lanzarlos al mercado. En el segundo, presenta una idea innovadora: usar un modelo lingüístico avanzado, como GPT-4, para probar sus propias defensas y descubrir formas de eludir sus barreras de seguridad.
El objetivo es combinar ambos enfoques: que los comportamientos no deseados detectados por los evaluadores sean analizados en profundidad por una IA, y viceversa. El red-teaming automatizado puede identificar una amplia variedad de conductas, mientras que los testers aportan perspectivas más diversas. "Todavía estamos explorando cómo se complementan", afirma Lama Ahmad, investigador de OpenAI.
El red-teaming no es nuevo. Este enfoque, que originalmente se usaba en ciberseguridad para detectar fallos en sistemas informáticos, también ha sido adoptado por empresas de inteligencia artificial. OpenAI lo empleó por primera vez en 2022, mientras desarrollaba DALL-E 2. "Era la primera vez que lanzábamos un producto tan accesible para el público", explica Lama Ahmad, investigadora de la empresa. "Pensábamos que era crucial entender cómo las personas interactuarían con el sistema y qué riesgos podrían aparecer en el camino", añade.
Desde entonces, esta técnica se ha consolidado como un pilar fundamental de la industria. El año pasado, la Orden Ejecutiva sobre Inteligencia Artificial del presidente de Estados Unidos, Joe Biden, pidió al Instituto Nacional de Estándares y Tecnología (NIST) definir cuál era el mejor método de utilizar el red-teaming. Para definir estas normas, es probable que el NIST recurra a la experiencia de los principales laboratorios de IA.
Engañar a ChatGPT.
Para reclutar testers, OpenAI busca perfiles variados que van desde artistas y científicos hasta expertos en derecho, medicina o política. La empresa les invita a poner a prueba sus modelos para detectar fallos, identificar comportamientos no deseados y descubrir cómo eludir sus restricciones, como engañar a ChatGPT para que diga comentarios racistas o hacer que DALL-E genere imágenes violentas.
Incorporar nuevas funciones a un modelo puede desencadenar una serie de comportamientos inesperados que deben analizarse. Por ejemplo, cuando OpenAI añadió capacidades de voz a GPT-4 y permitió a los usuarios mantener conversaciones con ChatGPT, el red-teaming detectó que, en ocasiones, el modelo imitaba la voz del interlocutor. Este comportamiento, además de inesperado y molesto, planteaba riesgos potenciales de fraude.
Asimismo, en 2022, las pruebas de modelos como DALL-E 2 revelaron lo complicado que era interpretar diferentes matices culturales y lingüísticos. Un ejemplo curioso surgió con la palabra "berenjena", que no solo se refiere a una verdura morada, sino que también tiene connotaciones sexuales al usarse como emoticono. OpenAI explica cómo tuvo que trazar un límite entre solicitudes aceptables, como "una persona come una berenjena para cenar", y aquellas inapropiadas, como "una persona se introduce una berenjena entera en la boca".
Los testers también debían anticipar cómo los usuarios podrían eludir las medidas de seguridad. Por ejemplo, DALL-E no permite crear imágenes violentas. Si alguien pide un caballo muerto en un charco de sangre, la solicitud se rechaza. Pero ¿qué pasa si piden un caballo "dormido" en un charco de kétchup?
En 2023, cuando OpenAI desarrolló DALL-E 3, implementó un sistema automatizado para anticipar mayor variedad de solicitudes problemáticas. Usó GPT-4 para generar solicitudes indeseadas, como imágenes diseñadas para desinformar o que incluyeran contenido sexual, violento o relacionado con autolesiones. A partir de estos casos, OpenAI ajustó DALL-E 3 para que rechazara dichas solicitudes o las reformulara. Ahora, si intentas pedir un caballo en salsa de tomate, DALL-E responde lo siguiente: "Parece que hay problemas para generar la imagen. ¿Quiere probar con otra solicitud o explorar una idea diferente?".
Los sistemas de red-teaming pueden cubrir un rango más amplio de variables, pero las técnicas anteriores presentaban dos problemas importantes. Por un lado, se enfocaban en un número reducido de conductas de alto riesgo. Por otro, generaban una amplia variedad de conductas de bajo riesgo. Esto ocurre porque el aprendizaje por refuerzo, la tecnología detrás de estos procesos, necesita una recompensa para funcionar de manera eficaz. Una vez que el sistema detecta un comportamiento de alto riesgo y es "recompensado", se enfoca en buscar patrones similares. Sin embargo, cuando no hay un objetivo claro, los resultados pueden ser irregulares.
Alex Beutel, otro investigador de OpenAI, señala que los sistemas a menudo caen en encontrar patrones repetidos o ejemplos muy obvios. "La verdadera pregunta es, ¿cómo logramos obtener ejemplos que sean tanto diversos como efectivos?", reflexiona el experto.
Las dos partes del problema.
La otra solución de OpenAI consiste en dividir el proceso de detección en dos etapas. Beutel y su equipo primero utilizan un modelo lingüístico de gran tamaño (LLM) para generar ideas sobre posibles comportamientos no deseados. Después, emplean el aprendizaje por refuerzo para explorar cómo se desencadenan esas conductas. Este enfoque les permite cubrir un espectro más amplio de posibles riesgos.
Esta metodología permite detectar ataques como las inyecciones de prompts, donde un programa introduce instrucciones ocultas en un modelo para que realice acciones no solicitadas por el usuario. OpenAI afirma que es la primera vez que se emplea el red-teaming automatizado para identificar este tipo de ataques. "No son comportamientos maliciosos que se puedan detectar a simple vista", explica Beutel.
¿Son suficientes estos mecanismos de protección? Ahmad espera que, al compartir cómo lo hace OpenAI, otros puedan comprender mejor el proceso de red-teaming y sigan el mismo camino. "OpenAI no debería ser la única en utilizar el red-teaming", afirma. También considera que quienes usen los modelos de OpenAI o ChatGPT deberían hacer sus propias pruebas. "Existen tantos usos que no podemos cubrirlos todos", reconoce el especialista.
Para algunos, ese es precisamente el problema. Dado que no se sabe con certeza qué pueden hacer los grandes modelos lingüísticos, ninguna prueba puede garantizar por completo que no se produzcan comportamientos no deseados o dañinos. Además, ningún equipo de testers podrá igualar la diversidad de usos que los cientos de millones de usuarios reales puedan inventar.
La dificultad incrementa en determinadas casuísticas, como cuando los modelos se utilizan en nuevos entornos y se conectan a fuentes de datos distintas. Esto puede alterar de manera significativa su comportamiento, tal y como señala Nazneen Rajani, fundadora y CEO de Collinear AI, una start-up que asesora a las empresas sobre cómo implementar modelos de terceros de manera segura. Al igual que Ahmad, considera importante que los usuarios tengan herramientas para probar grandes modelos lingüísticos por sí mismos.
Rajani también pone en duda el uso de GPT-4 para hacer red-teaming. Señala que los modelos tienden a sobrevalorar su propio rendimiento: GPT-4 se califica mejor a sí mismo que a otros competidores, como Claude de Anthropic o Llama de Meta. Esto podría provocar que el modelo sea más indulgente consigo mismo. "Es probable que el red-teaming automatizado con GPT-4 no detecte ataques tan dañinos como los que podrían generar otros modelos", señala la empresaria.
Rezagados.
Para Andrew Strait, investigador del Instituto Ada Lovelace en el Reino Unido, el problema es mucho más complejo. Los grandes modelos lingüísticos se desarrollan y comercializan a un ritmo mucho más rápido de lo que se pueden testear. "Son sistemas con una amplia variedad de aplicaciones, que van desde la educación y la sanidad hasta el ejército y las fuerzas de seguridad. Esto abre un abanico tan amplio situaciones que realizar cualquier tipo de evaluación supone una tarea gigantesca", explica Strait. "En este sentido, estamos bastante rezagados", añade.
Strait aplaude el esfuerzo de los investigadores de OpenAI y de otros laboratorios (él mismo trabajó en seguridad en Google DeepMind), pero advierte que aún no es suficiente: "En estas organizaciones hay personas comprometidas con la seguridad, pero se ven limitadas por el hecho de que la ciencia para la evaluación de sistemas aún está lejos de proporcionar información significativa sobre su seguridad".
Además, el investigador afirma que la industria debe replantearse por completo su discurso sobre estos modelos. En lugar de comercializarlos como máquinas capaces de hacer cualquier cosa, señala que deberían enfocarse en adaptarlos a propósitos determinados.
“No se puede saber si un modelo de uso general será eficaz para una tarea específica”, afirma Strait. Según el investigador, solo probando el modelo en aplicaciones concretas será posible evaluar su desempeño en entornos concretos, con usuarios y situaciones reales. "Es como decir que un motor es seguro y, por lo tanto, todos los coches que lo usan son seguro. Eso es ridículo", subraya el especialista.
Por: Will Douglas Heaven.
Sitio Fuente: MIT Technology Review