La IA generativa aprende a espiar para el ejército de EE UU

INTELIGENCIA ARTIFICIAL. Tiempo de lectura: 11 minutos.-

En una prueba, una unidad de Marines en el Pacífico usó IA generativa no solo para recopilar información, sino también para interpretarla. El trabajo rutinario de inteligencia es apenas el comienzo.

Durante gran parte del año pasado, unos 2.500 militares estadounidenses de la 15ª Unidad Expedicionaria de Marines navegaron a bordo de tres buques por el Pacífico, realizando ejercicios de entrenamiento en aguas de Corea del Sur, Filipinas, India e Indonesia. Al mismo tiempo se desarrollaba un experimento en uno de los buques: los marines de la unidad encargados de clasificar la inteligencia extranjera y de informar a sus superiores de posibles amenazas locales utilizaban por primera vez IA generativa para hacerlo, probando una herramienta de IA puntera que el Pentágono ha estado financiando.

Dos oficiales nos cuentan que utilizaron el nuevo sistema para examinar miles de datos de inteligencia de fuentes abiertas -artículos no clasificados, informes, imágenes, vídeos- recopilados en los distintos países en los que operaban, y que lo hicieron mucho más rápido que utilizando el antiguo método, que implicaba revisarlos de forma manual. La capitana Kristin Enzenauer, por ejemplo, dice que utilizó grandes modelos lingüísticos para traducir y resumir fuentes de noticias extranjeras, mientras que el capitán Will Lowdon utilizó la IA para ayudar a redactar los informes de inteligencia diarios y semanales que proporcionaba a sus mandos.  

“Todavía tenemos que validar las fuentes”, dice Lowdon. Pero según cuenta, los comandantes de la unidad alentaron el uso de modelos de lenguaje porque “ayudan mucho a ganar eficiencia en situaciones dinámicas”.

Las herramientas de IA generativa que utilizaron fueron creadas por la empresa de tecnología de defensa Vannevar Labs, que en noviembre recibió un contrato de producción por un valor de 99 millones de dólares (casi unos 90 millones de euros) por parte de la Unidad de Innovación de Defensa del Pentágono, orientada a las start-up, con el objetivo de llevar su tecnología de inteligencia a más unidades militares.  

La empresa, fundada en 2019 por veteranos de la CIA y de la comunidad de inteligencia estadounidense, se une a empresas como Palantir, Anduril y Scale AI como una de las principales beneficiarias de la adopción de la inteligencia artificial por parte del ejército estadounidense, no solo para tecnologías físicas como drones y vehículos autónomos, sino también para software que está revolucionando la forma en que el Pentágono recopila, gestiona e interpreta datos para asuntos de guerra y vigilancia.  

Aunque el ejército estadounidense lleva desarrollando modelos de visión por ordenador y herramientas de IA similares, como las utilizadas en el Proyecto Maven, desde 2017, el uso de IA generativa -herramientas que pueden entablar conversaciones similares a las humanas, como las construidas por Vannevar Labs- representa una frontera más reciente.

La empresa utiliza modelos de lenguaje ya existentes —como los de OpenAI y Microsoft— y también propios, para analizar enormes cantidades de información de código abierto que recopila desde 2021. El volumen de datos que procesa es difícil de imaginar: cada día recolectan terabytes de datos en 80 idiomas y desde 180 países.  

Según explican, pueden analizar perfiles en redes sociales y sortear barreras digitales en países como China para acceder a información difícil de obtener. También trabajan con datos no clasificados que no están disponibles en línea —recogidos por personas en el terreno— y con reportes de sensores físicos que detectan ondas de radio para identificar actividades ilegales de transporte marítimo.

Vannevar desarrolla modelos de inteligencia artificial capaces de traducir información, detectar amenazas y analizar el clima político. Todo esto se entrega a través de una interfaz tipo chatbot, similar a ChatGPT. El objetivo es brindar a sus clientes datos clave sobre temas muy diversos, como las redes internacionales de tráfico de fentanilo o los intentos de China por asegurarse minerales estratégicos en Filipinas.

“El verdadero foco de nuestra empresa”, dice Scott Philips, director de tecnología de Vannevar Labs, “es recolectar datos, darles sentido y ayudar a que Estados Unidos tome buenas decisiones”.

Este enfoque resulta especialmente interesante para el aparato de inteligencia estadounidense porque, desde hace años, el mundo está inundado de más datos de los que los analistas humanos pueden interpretar, un problema que contribuyó a la fundación en 2003 de Palantir, una empresa con un valor de mercado de más de 200.000 millones de dólares (176 millones de euros) y conocida por sus potentes y controvertidas herramientas, entre ellas una base de datos que ayuda al Servicio de Inmigración y Control de Aduanas a buscar y rastrear información sobre inmigrantes indocumentados .  

En 2019, Vannevar vio una oportunidad de utilizar grandes modelos lingüísticos, que entonces eran nuevos en escena, como una solución novedosa al enigma de los datos. La tecnología podría permitir a la IA no solo recopilar datos, sino también analizarlos con alguien de forma interactiva.

Las herramientas de Vannevar demostraron ser útiles durante el despliegue en el Pacífico. Enzenauer y Lowdon cuentan que, aunque tenían la indicación de revisar siempre el trabajo de la IA, no encontraron errores importantes. Enzenauer usaba regularmente la herramienta para seguir noticias extranjeras que mencionaran a la unidad y hacer análisis de sentimiento, es decir, detectar las emociones y opiniones expresadas en esos textos. Evaluar si una noticia extranjera tenía un tono amistoso o amenazante hacia la unidad era algo que, en despliegues anteriores, debía hacerse de forma manual.

«La mayor parte del trabajo consistió en investigar, traducir, codificar y analizar los datos a mano«, explica. «Sin duda, me llevó mucho más tiempo que cuando utilicé la IA».  

Aun así, Enzenauer y Lowdon afirman que hubo problemas, algunos de los cuales afectarían a la mayoría de las herramientas digitales: las conexiones a internet de los barcos eran irregulares la mayor parte del tiempo, lo que limitaba la rapidez con la que el modelo de inteligencia artificial podía sintetizar información ajena, sobre todo si se trataba de fotos o vídeos.  

Una vez completada esta primera prueba, el oficial al mando de la unidad, el coronel Sean Dynan dijo en febrero, durante en una llamada con periodistas, que se avecinaba un mayor uso de la IA generativa; este experimento era «la punta del iceberg».  

De hecho, esta es la dirección hacia la que el ejército estadounidense se dirige a toda velocidad. En diciembre, el Pentágono declaró que destinará 100 millones de dólares (casi 90 millones de euros) en los próximos dos años a proyectos piloto específicos para aplicaciones de IA generativa. Además de Vannevar, también está recurriendo a Microsoft y Palantir, que están trabajando juntos en modelos de IA que harían uso de datos clasificados. Por supuesto, EE UU no está solo en este enfoque; también Israel ha estado utilizando la IA para clasificar información e incluso generar listas de objetivos en su guerra contra Gaza, una práctica que ha sido ampliamente criticada.  

Como era de esperar, muchas personas ajenas al Pentágono advierten de los riesgos potenciales de este plan, entre ellas Heidy Khlaaf, jefa científica de IA en el AI Now Institute, una organización de investigación con experiencia en auditorías de seguridad de sistemas basados en IA. Según ella, esta prisa por incorporar la IA generativa a la toma de decisiones militares ignora otros defectos fundamentales de la tecnología: «Ya sabemos que los LLM son muy imprecisos, especialmente en el contexto de aplicaciones críticas para la seguridad que requieren precisión».  

Khlaaf agrega que, aunque los humanos «verifiquen» el trabajo de la IA, no hay muchas razones para creer que puedan detectar todos los errores. «El ‘humano en el proceso’ no siempre es una solución efectiva», dice. Cuando un modelo de IA se basa en miles de puntos de datos para llegar a sus conclusiones, «realmente no sería posible que un humano revise toda esa información para saber si la conclusión ofrecida por la IA es errónea».

Un caso de uso concreto que le preocupa es el análisis de sentimientos, que, según ella, es «una métrica muy subjetiva que incluso a los humanos les costaría evaluar adecuadamente basándose sólo en los medios de comunicación».  

Si la IA percibe hostilidad hacia las fuerzas estadounidenses cuando un analista humano no la percibiría -o si el sistema pasa por alto una hostilidad que realmente existe-, los militares podrían tomar una decisión equivocada o agravar una situación innecesariamente.

El análisis del sentimiento es, en efecto, una tarea que la IA no ha perfeccionado. Philips, director de tecnología de Vannevar, afirma que la empresa ha creado modelos específicos para juzgar si un artículo es favorable para Estados Unidos o no, pero MIT Technology Review no ha podido evaluarlos.  

Chris Mouton, un ingeniero senior de RAND, recientemente probó qué tan adecuado es el uso de la IA generativa para esta tarea. Evaluó los modelos más avanzados, incluidos el GPT-4 de OpenAI y una versión anterior de GPT ajustada para este tipo de trabajo de inteligencia, comparando su precisión al identificar contenido extranjero como propaganda frente a los expertos humanos. «Es difícil», dice, señalando que la IA tuvo problemas para identificar tipos de propaganda más sutiles. Sin embargo, agrega que los modelos aún pueden ser útiles en muchas otras tareas de análisis.

Otra limitación del enfoque de Vannevar, según Khlaaf, es que no está tan claro cuán útil puede ser realmente la inteligencia de fuentes abiertas. Mouton dice que los datos abiertos pueden ser “bastante impresionantes”, pero Khlaaf señala que, a diferencia de la información clasificada que se obtiene por reconocimiento o escuchas, estos datos están disponibles en internet, lo que los hace mucho más vulnerables a campañas de desinformación, redes de bots y manipulaciones intencionales, como ya advirtió el Ejército de EE UU.

Para Mouton, la cuestión más importante ahora es si estas tecnologías de IA generativa serán simplemente una herramienta de investigación entre las muchas que utilizan los analistas, o si producirán el análisis subjetivo en el que se basan y en el que se confía para la toma de decisiones. «Este es el debate central», afirma.  

En lo que todo el mundo está de acuerdo es en que los modelos de IA son accesibles: basta con hacerles una pregunta sobre piezas complejas de inteligencia y responderán en un lenguaje sencillo. Pero aún está en discusión qué imperfecciones serán aceptables en nombre de la eficiencia.  

Actualización: este artículo se ha actualizado para incluir información adicional de Heidy Khlaaf.

Por: James O'donnell.

Sitio Fuente: MIT Technology Review