El surgimiento de la capa de infraestructura de datos web para la IA

INTELIGENCIA ARTIFICIAL. Tiempo de lectura: 7 minutos.

A medida que la IA sigue avanzando, la infraestructura debe evolucionar para permitir el acceso y la entrega de información en tiempo real a escala.

La IA está en auge. Cada día surgen nuevos casos de uso. Para aprovechar el potencial de esta tecnología, las empresas requieren datos a gran escala. No obstante, en muchos casos, la información relevante está bloqueada o desestructurada, lo que limita su uso por parte de los modelos de IA.

Para comprender este reto, considere los cimientos de la propia web. La web no fue diseñada para el descubrimiento y la recuperación automatizados que exigen las nuevas aplicaciones de IA. Superar esta limitación de diseño inherente requiere infraestructura.

La próxima frontera de la IA podría depender de una nueva capa de infraestructura de datos web que permita a los modelos descubrir y mapear este ámbito digital en constante expansión. Esta capa debe ser capaz de navegar por cientos de millones de dominios web existentes y miles de millones de nuevas URL creadas cada semana, proporcionando información en tiempo real y superando barreras técnicas.

«Los datos sugieren que hay muchos más datos ahí fuera», afirma Or Lenchner, CEO de Bright Data, una plataforma de recopilación de datos web. «Piensa en el universo: está ahí, pero no sabes lo que no sabes».

Facilitar el acceso a datos frescos, relevantes y fiables.

Mientras que los primeros avances de la IA fueron impulsados por la escalada de los datos de entrenamiento y el tamaño del modelo, las organizaciones se enfrentan ahora a un cuello de botella fundamental: necesitan mantenerse al día con la naturaleza dinámica, no estructurada y en constante evolución de los datos web para basar sus resultados en información actual y verificable. El rendimiento de la IA depende cada vez más no solo de la arquitectura del modelo, sino de las capacidades de computación, red, recuperación e ingeniería de datos de un sistema, es decir, de la capacidad del sistema para recuperar datos de forma rápida y fiable que sean actuales, relevantes y fiables.

El entrenamiento tradicional de modelos se basa en instantáneas de información recopiladas en un momento dado. Entrenar la IA con datos tan estáticos ya no es suficiente. Para rastrear fluctuaciones como los precios de la competencia, el sentimiento del consumidor y las tendencias del mercado, las empresas necesitan un flujo constante de nueva información, obteniendo datos en tiempo real junto con el contexto relevante. Su infraestructura debe ser capaz, por lo tanto, de manejar millones de interacciones simultáneas en sitios web que varían por geografía, idioma, formato y reglas de acceso.

“Si no puede recuperar información en tiempo real, carece de contexto”, afirma Lenchner. “En un ento o empresarial, eso ya no es aceptable. Las respuestas desactualizadas conducen a malas decisiones y a consumidores decepcionados”.

La velocidad no es meramente una cuestión de comodidad; es una cuestión de necesidad. Las organizaciones actuales operan en ento os donde los precios, el inventario, los mercados, las amenazas de seguridad y el comportamiento del cliente cambian continuamente. La recuperación de datos retrasada puede reducir la utilidad de un modelo, por lo demás, sofisticado.

El uso de datos web en tiempo real y de alta calidad también puede reducir las alucinaciones de la IA porque el modelo dispone de una base de conocimiento más relevante. Esto genera confianza en el usuario. De hecho, una encuesta reveló que el 56% de los profesionales de la IA afirmaron que las empresas necesitan acceso a datos web en tiempo real para mejorar la confianza en los resultados de la IA. Para garantizar que el modelo funcione de manera eficiente y efectiva, la información también debe reducirse a lo esencial adecuado.

A pesar de la introducción de la generación aumentada por recuperación (RAG), donde los modelos extraen datos exte os en el momento de una consulta, muchos sistemas de IA aún tienen dificultades para ofrecer resultados que sean actuales, contextualmente relevantes y fiables en ento os operativos. Según Gartner, el 60% de los proyectos de IA que no estén respaldados por datos preparados para IA —precisos, estructurados, organizados y contextualizados— serán abandonados para finales de año.

Esto se debe a que la recuperación a gran escala por sí sola no resuelve el problema. Como Lenchner señala, «Se necesita recuperar datos a escala, pero también en tiempo real. La latencia se convierte en un problema debido al usuario final que espera el resultado».

Acceder a datos recientes y listos para IA a escala introduce desafíos técnicos y estructurales. En la práctica, muchos sistemas empresariales combinan la recuperación de la web pública con APIs, conjuntos de datos licenciados y datos inte os propietarios en sus aplicaciones de IA. Integrar estas fuentes fragmentadas en una capa de conocimiento oportuna y utilizable requiere capacidades especializadas. Algunas investigaciones han revelado que el 97% de las organizaciones de IA dependen de la infraestructura de datos web en tiempo real, pero el 90% se sienten limitadas por diversas restricciones. Las empresas están desarrollando cada vez más enfoques técnicos para sortear estas limitaciones.

Lenchner utiliza esta metáfora: «Imagina el modelo entrenado como la inteligencia y los datos relevantes como el conocimiento. Una potente capa de inteligencia que se asienta sobre una capa de conocimiento hueca es como un genio que no sabe nada, inútil en la práctica. La inteligencia y el conocimiento tienen que ir de la mano».

La promesa de una nueva infraestructura.

Una nueva capa de infraestructura de datos web puede satisfacer esta necesidad creciente de entradas de IA más potentes al facilitar el descubrimiento de datos, el acceso en tiempo real y su adaptación a un contexto específico. Tal como lo describe Lechner: «Se trata de recopilar datos a escala, con latencia ultrabaja, sin bloqueos».

En lugar de depender de una mayor potencia de cálculo, este tipo de plataforma emula el comportamiento de navegación humano para acceder al contenido disponible y transformar el código sin procesar en flujos de datos estructurados. Puede funcionar con sitios web que quizás no interactúen con herramientas de scraping tradicionales, como aquellos con mucho JavaScript, o con software antibot agresivo.

Como explica Lenchner, "Básicamente es disponer de una infraestructura capaz de imitar a un usuario web con información identificativa —dirección IP, ubicación y 1.000 parámetros más. Y a gran escala. Imaginemos hacer eso 80.000 millones de veces al día para millones de sitios web. Y cada vez, presentándose exactamente como el sitio web espera."

Por supuesto, la recuperación continua introduce nuevos desafíos de gobe anza de datos. Para abordarlos, las plataformas pueden aplicar estrictos protocolos de cumplimiento alineados con marcos globales de privacidad, como el Reglamento General de Protección de Datos (RGPD) de la UE y la Ley de Privacidad del Consumidor de Califo ia (CCPA). También pueden limitarse a información pública y de acceso abierto, evitando los muros de pago (paywalls) o los inicios de sesión privados. Cualquier red utilizada puede ser verificada y basada en el consentimiento, y se pueden ofrecer incentivos a los propietarios de direcciones IP. De este modo, los sistemas pueden diseñarse para cumplir con una regulación cada vez más estricta.

Tales capacidades complejas no son fáciles de lograr. “Cuando esto es infraestructura crítica para una empresa,” dice Lenchner, “hacerlo inte amente se convierte en un problema de ingeniería a tiempo completo que compite con el trabajo real de IA.” Abordar esta complejidad requiere que las organizaciones dediquen recursos significativos, llevando a muchos a buscar plataformas especializadas diseñadas específicamente para la recuperación de datos, la orquestación y la observabilidad.

Infraestructura para el mundo real.

La recuperación de datos en tiempo real está cambiando lo que los sistemas de IA pueden hacer dentro de las organizaciones. Por ejemplo, una empresa minorista puede utilizar información pública para habilitar un motor de precios dinámico, y las marcas globales pueden rastrear infracciones de marcas registradas.

A medida que el ecosistema madure, las organizaciones que inviertan en esta emergente capa de infraestructura de datos estarán mejor posicionadas para construir sistemas de IA que sean más receptivos, fiables y estén alineados con las condiciones del mundo real —sistemas de IA que puedan adaptarse continuamente utilizando datos web actuales. Con el tiempo, la distinción entre los modelos de IA y la infraestructura que los alimenta incluso podría empezar a desaparecer.

Como dice Lenchner, "El mundo está cambiando. Y todo lo que está sucediendo en el mundo está siendo subido a la web pública. La cantidad de nuevos datos que se están generando está creciendo y acelerándose".

Para saber más de Bright Data, consulta el informe Data for AI 2026.

Este contenido ha sido producido por Insights, la división de contenido a medida de MIT Technology Review. No ha sido escrito por el equipo editorial de MIT Technology Review. Ha sido investigado, diseñado y redactado por escritores, editores, analistas e ilustradores humanos. Esto incluye la redacción de encuestas y la recopilación de datos para las mismas. Las herramientas de IA que se hayan podido utilizar se limitaron a procesos de producción secundarios que pasaron por una exhaustiva revisión humana.

Por: MIT Technology Review Insights.

Sitio Fuente: MIT Technology Review

24 Junio 2026