La "voz avanzada" de OpenAI llega a más usuarios con el objetivo de ser un asistente natural

MIT / INTELIGENCIA ARTIFICIAL.

La compañía dice que la versión actualizada responde a tus emociones y tono de voz y te permite interrumpirla a mitad de una oración.

OpenAI está ampliando el acceso a su “modo de voz avanzado”, una función de ChatGPT que permite hablar de forma más natural con el modelo de IA. Te permite interrumpir sus respuestas en medio de la frase, y puede sentir e interpretar tus emociones a partir de tu tono de voz y ajustar sus respuestas en consecuencia.

Estas funciones se anunciaron en mayo, cuando OpenAI presentó GPT-4o, pero no estuvieron operativas hasta julio y sólo para un grupo de invitados. (Al parecer y, al menos al principio, hubo algunos problemas de seguridad con el modelo; OpenAI dio acceso al modo de voz a varios reporteros de Wired en mayo, pero la revista informó de que la empresa "lo retiró a la mañana siguiente, alegando problemas de seguridad").

Los usuarios que han podido probarlo han descrito el modelo como un asistente de voz impresionantemente rápido, dinámico y realista, lo que ha hecho que su limitada disponibilidad resulte especialmente frustrante para otros usuarios de OpenAI.

Pero, por primera vez, OpenAI ha empezado a comprometerse a llevar su nuevo modo de voz a un amplio abanico de usuarios. Esto es lo que necesitas saber:

¿Qué puede hacer?

Aunque ChatGPT ofrece actualmente un modo de voz estándar a los usuarios de pago, sus interacciones pueden resultar torpes. En la aplicación móvil, por ejemplo, no puedes interrumpir con tu voz las respuestas, a menudo prolijas; sino que es necesario tocar la pantalla. La nueva versión soluciona este problema y promete modificar sus respuestas en función de la emoción que perciba en tu voz. Como en otras versiones de ChatGPT, los usuarios pueden personalizar el modo de voz pidiendo al modelo que recuerde datos sobre ellos mismos. El nuevo modo también ha mejorado la pronunciación de palabras en idiomas distintos del inglés.

La inversora en IA Allie Miller publicó una demostración de la herramienta en agosto, en la que se destacaban muchos de los puntos fuertes de los vídeos de presentación de OpenAI: el modelo es rápido y capaz de cambiar su acento, tono y contenido para adaptarse a las necesidades del usuario.

La actualización también añade nuevas voces. Poco después del lanzamiento de GPT-4o, OpenAI fue criticada por el parecido entre la voz femenina de sus vídeos de demostración, llamada Sky, y la de Scarlett Johansson, que interpretaba a una IA enamorada en la película Her. OpenAI retiró entonces la voz.

Ahora ha lanzado cinco nuevas voces, llamadas Arbor, Maple, Sol, Spruce y Vale, que estarán disponibles tanto en el modo de voz estándar como en el avanzado. MIT Technology Review aún no las ha escuchado, pero OpenAI afirma que se han realizado con actores de voz profesionales de todo el mundo. "Entrevistamos a docenas de actores para encontrar voces con las que la gente disfrutara hablando durante horas: cálidas, accesibles, inquisitivas, con una textura y un tono ricos", afirma un portavoz de la empresa.

¿Quién puede acceder y cuándo?

Por ahora, OpenAI está dando acceso al modo de voz avanzado a los usuarios Plus, que pagan 20 dólares al mes por una versión premium, y a los usuarios Team, que pagan 30 dólares al mes y tienen límites de mensajes más altos. El siguiente grupo en recibir acceso será el de los niveles Enterprise (para empresas) y Edu (para centros educativos). El calendario exacto, sin embargo, es vago; un portavoz de OpenAI dice que la compañía "extenderá gradualmente el acceso a todos los usuarios Plus y Team y lo extenderá a los niveles Enterprise y Edu a partir de la próxima semana". La empresa no se ha comprometido a fijar una fecha límite para que todos los usuarios de estas categorías tengan acceso. Un mensaje en la aplicación ChatGPT indica que todos los usuarios Plus tendrán acceso "a finales de otoño".

Existen limitaciones geográficas. La nueva función aún no está disponible en la UE. Tampoco en Reino Unido, Suiza, Islandia, Noruega o Liechtenstein.

No hay planes inmediatos para poner el modo de voz avanzado a disposición de los usuarios gratuitos. (El modo estándar seguirá estando disponible para todos los usuarios de pago).

¿Qué medidas se han tomado para garantizar su seguridad?

Como señaló la empresa en su lanzamiento inicial en julio y ha vuelto a subrayar esta semana, el modo de voz avanzado ha sido sometido a pruebas de seguridad por expertos externos "que hablan colectivamente un total de 45 idiomas distintos y representan 29 geografías diferentes". GPT-4o System Card (un informe interno de seguridad) detalla cómo el modelo subyacente previene problemas como la generación de discursos violentos o eróticos, la imitación de voces sin su consentimiento o la generación de contenidos protegidos por derechos de autor.

Aun así, los modelos de OpenAI no son de código abierto. En comparación con otros modelos, que son más transparentes en cuanto a sus datos de entrenamiento y las "ponderaciones del modelo" que rigen la forma en que la IA produce respuestas, los modelos de código cerrado de OpenAI son más difíciles de evaluar por investigadores independientes desde el punto de vista de la seguridad, la parcialidad y el daño.

Por: James O'Donnell.

Sitio Fuente: MIT Technology Review

26 Septiembre 2024