Google presenta Gemini 3, un modelo agéntico capaz de crear interfaces propias

INTELIGENCIA ARTIFICIAL. Tiempo de lectura: 4 minutos.

Google presentó hoy Gemini 3, una actualización importante de su modelo multimodal insignia. La compañía asegura que el nuevo sistema mejora el razonamiento, ofrece capacidades multimodales más fluidas (es decir, puede trabajar con voz, texto e imágenes) y funcionará como un agente.

El modelo anterior, Gemini 2.5, ya admitía entradas multimodales: los usuarios podían enviar imágenes, escritura manual o voz. Sin embargo, solía requerir instrucciones explícitas sobre el formato de salida y, por defecto, respondía en texto plano.

Con Gemini 3 llega lo que Google denomina generative interfaces, que permiten al modelo decidir qué tipo de salida se ajusta mejor a la petición, creando por sí mismo diseños visuales y vistas dinámicas en lugar de devolver un bloque de texto.

Por ejemplo, si se le piden recomendaciones de viaje, puede generar dentro de la aplicación una interfaz similar a una página web, con módulos, imágenes y preguntas adicionales como “¿Cuántos días viajas?” o “¿Qué tipo de actividades te gustan?”. También ofrece opciones clicables según lo que el usuario podría necesitar a continuación. Si se le solicita explicar un concepto, Gemini 3 puede dibujar un esquema o crear una animación sencilla si considera que un recurso visual es más eficaz. “El diseño visual genera una experiencia inmersiva, con un estilo similar al de una revista, completa con fotos y módulos”, afirma Josh Woodward, vicepresidente de Google Labs, Gemini y AI Studio. “Estos elementos no solo son atractivos, sino que invitan a la interacción para personalizar los resultados”.

Con esta versión, Google también introduce Gemini Agent, una función experimental pensada para gestionar tareas de varios pasos directamente en la aplicación. El agente puede conectarse a servicios como Google Calendar, Gmail y Recordatorios. Una vez autorizado, puede ejecutar acciones como organizar la bandeja de entrada o gestionar agendas.

Al igual que otros agentes, divide las tareas en pasos concretos, muestra el progreso en tiempo real y se detiene para pedir aprobación antes de continuar. Google describe esta función como un avance hacia “un agente verdaderamente generalista”. Estará disponible en la web para suscriptores de Google AI Ultra en EE UU a partir del 18 de noviembre.

El enfoque general recuerda al llamado vibe coding, donde el usuario describe el objetivo final en lenguaje natural y deja que el modelo construya la interfaz o el código necesario para alcanzarlo.

La actualización también integra Gemini más profundamente en los productos de Google. En Search, un grupo limitado de suscriptores de Google AI Pro y Ultra podrá cambiar a Gemini 3 Pro, la variante orientada al razonamiento, para recibir resúmenes más completos basados en la capacidad de análisis del modelo, en lugar del modo actual de IA.

En compras, Gemini recurrirá al Shopping Graph de Google (que, según la compañía, contiene más de 50.000 millones de referencias de productos) para generar sus propias guías de recomendación. El usuario solo tiene que formular una pregunta o búsqueda relacionada con compras, y el modelo creará una pieza interactiva al estilo Wirecutter, con precios y detalles, sin redirigir a sitios externos.

Para desarrolladores, Google impulsa la generación de software con una sola instrucción. La compañía presentó Google Antigravity, una plataforma que actúa como espacio integral donde se pueden crear y gestionar código, herramientas y flujos de trabajo desde un único prompt.

Derek Nee, CEO de Flowith, una aplicación de IA agentic, declaró a MIT Technology Review que Gemini 3 Pro resuelve varias carencias de modelos anteriores. Entre las mejoras, citó una comprensión visual más sólida, mejor generación de código y mayor rendimiento en tareas largas, características que considera esenciales para quienes desarrollan aplicaciones y agentes basados en IA.

Por: Caiwei Chen.

Sitio Fuente: MIT Technology Review

20 Noviembre 2025