OpenAI integra un nuevo generador de imágenes en ChatGPT con resultados realistas y capacidad de edición

INTELIGENCIA ARTIFICIAL. Tiempo de lectura: 6 minutos.-

El nuevo generador de imágenes de Openai tiene como objetivo ser lo suficientemente práctico para diseñadores y anunciantes.

El modelo puede crear imágenes con texto legible y es más práctico que los modelos de imágenes surrealistas anteriores. Pero ¿quién lo utilizará?

OpenAI ha lanzado un nuevo generador de imágenes diseñado no tanto para el típico arte surrealista de la IA sino para la creación altamente controlable y práctica de visuales. Una señal de que OpenAI cree que sus herramientas están listas para su uso en campos como la publicidad y el diseño gráfico.  

El generador de imágenes, que ahora forma parte del modelo GPT-4o de la empresa, había sido una promesa de OpenAI para el pasado mes de mayo pero no llegó a publicarse. Mientras tanto, las solicitudes de imágenes generadas en ChatGPT han sido atendidas por un generador de imágenes más antiguo llamado DALL-E. OpenAI ha estado retocando el nuevo modelo desde entonces y lo lanzará en las próximas semanas a todos los niveles de usuarios, en reemplazo al anterior.  

Este nuevo modelo resuelve problemas técnicos que han afectado a los generadores de imágenes de IA durante años. Mientras que la mayoría han sido excelentes en la creación de imágenes fantásticas o deepfakes realistas, han sido terribles en algo llamado vinculación, que se refiere a la capacidad de identificar ciertos objetos correctamente y ponerlos en su lugar apropiado (como un cartel que dice «hot dogs» colocado correctamente por encima de un carrito de comida, no en otro lugar de la imagen).

Fue solo hace unos años que los modelos empezaron a tener éxito en representar de forma correcta indicaciones como «Pon el cubo rojo encima del cubo azul», una función que es esencial para cualquier uso profesional creativo de la IA. Estos modelos también tienen problemas con la generación de texto, ya que suelen crear mezclas distorsionadas de formas de letras que se parecen más a un captcha que a un texto legible.

-

Las imágenes de ejemplo de OpenAI muestran avances en esta área. El modelo puede generar 12 gráficos distintos dentro de una misma imagen—como un emoji de gato o un rayo—y organizarlos correctamente. En otra imagen, se ven cuatro cócteles junto a tarjetas de recetas con texto preciso y legible. También se han generado cómics con globos de diálogo, anuncios simulados y diagramas instructivos. Además, el modelo permite subir imágenes para modificarlas y estará disponible tanto en el generador de video Sora como en GPT-4o.

-

Es «una nueva herramienta de comunicación«, afirma Gabe Goh, diseñador jefe del generador en OpenAI. En cambio, Kenji Hata, investigador de OpenAI que también trabajó en la herramienta, opina diferente: «Creo que el punto es que nos estamos alejando del arte bello». Puede seguir haciéndolo, aclara, pero también hará cosas más útiles. «Puedes hacer que las imágenes trabajen para ti y no solo mirarlas», dice.

Es una señal clara de que OpenAI está orientando esta herramienta hacia los profesionales creativos, como diseñadores gráficos, agencias de publicidad, gestores de redes sociales e ilustradores. Pero al adentrarse en este campo, OpenAI enfrenta dos caminos, ambos desafiantes.

El primero puede ser dirigirse a los profesionales cualificados que utilizan desde hace tiempo programas como Adobe Photoshop, que también está invirtiendo mucho en inteligencia artificial para generar imágenes automáticamente.

«Adobe domina este mercado y avanza tan rápido que no sé hasta qué punto es convincente para la gente cambiar», afirma David Raskino, cofundador y director técnico de Irreverent Labs, que trabaja en la generación de vídeo por IA.  

La segunda opción es dirigirse a los diseñadores ocasionales que han acudido en masa al uso de herramientas como Canva, otra empresa que también ha estado invirtiendo en IA. Se trata de un público que quizá nunca haya necesitado programas técnicamente exigentes como Photoshop, pero que utilizaría herramientas de diseño más informales para crear imágenes. Para tener éxito en este segmento, OpenAI tendría que atraer a la gente lejos de las plataformas construidas para el diseño con la esperanza de que la velocidad y la calidad de su propio generador de imágenes haga que el cambio valga la pena (al menos para una parte del proceso de diseño).  

También es posible que la herramienta se utilice simplemente como lo hacen ahora muchos generadores de imágenes: para crear imágenes rápidas que sean «lo suficientemente buenas» para acompañar publicaciones en las redes sociales. Aunque, con OpenAI planeando inversiones masivas, incluida la participación en el proyecto Stargate de 500.000 millones de dólares (aproximadamente 460.000 millones de euros) para construir nuevos centros de datos a una escala sin precedentes, es difícil imaginar que el generador de imágenes no desempeñe algún papel ambicioso para ganar dinero.  

En cualquier caso, el hecho de que el nuevo generador de imágenes de OpenAI haya superado notables obstáculos técnicos ha subido la vara para otras empresas de IA. Según Raskino, para superar esos obstáculos se han necesitado muchos datos específicos, como millones de imágenes en las que el texto se muestra correctamente en muchos ángulos y orientaciones diferentes. Ahora, los generadores de imágenes de la competencia tendrán que igualar esos logros para mantenerse a la altura.

«El ritmo de la innovación debería aumentar aquí», afirma Raskino.

Por: James O'donnell.

Sitio Fuente: MIT Technology Review