Pronto podremos hablar con ChatGPT: OpenAI lanza su chat con voz

CIENCIAS DE LA COMPUTACIÓN / INTELIGENCIA ARTIFICIAL.

El 'chatbot' con voz está ya disponible para un pequeño grupo de personas hoy, y para todos los usuarios de ChatGPT Plus en otoño.

OpenAI ha lanzado un chatbot de inteligencia artificial avanzada con el que se puede hablar. Ya está disponible, al menos para unos pocos.

El nuevo chatbot representa la orientación de OpenAI hacia una nueva generación de asistentes de voz con IA en la línea de Siri y Alexa, pero con mucha más capacidad para conversar de forma natural y fluida. Es un paso más en la marcha hacia agentes de IA más capaces. El nuevo bot de voz ChatGPT es capaz de distinguir los distintos tonos de voz, responder a interrupciones y responder a consultas en tiempo real. También ha sido entrenado para sonar más natural y utilizar las voces para transmitir una amplia gama de emociones diferentes.

El modo de voz se basa en el nuevo modelo GPT-4o de OpenAI, que combina funciones de voz, texto y visión. Para recabar opiniones, la empresa está lanzando inicialmente el chatbot a un "pequeño grupo de usuarios" que pagan por ChatGPT Plus, pero dice que pondrá el bot a disposición de todos los suscriptores de ChatGPT Plus este otoño. La suscripción a ChatGPT Plus cuesta 20 dólares al mes. OpenAI dice que notificará a los clientes que formen parte de la primera oleada de lanzamiento en la aplicación ChatGPT y les proporcionará instrucciones sobre cómo utilizar el nuevo modelo.

La nueva función de voz, que se anunció en mayo, se lanza un mes más tarde de lo previsto inicialmente porque la empresa dijo que necesitaba más tiempo para mejorar las funciones de seguridad, como la capacidad del modelo para detectar y rechazar contenidos no deseados. La empresa también dijo que estaba preparando su infraestructura para ofrecer respuestas en tiempo real a millones de usuarios.

OpenAI afirma que ha probado las capacidades de voz del modelo con un equipo externo de cien personas a los que se encargó sondear el modelo en busca de fallos, lo que se conoce como un "equipo rojo", en el ámbito de la seguridad de las organizaciones. Según OpenAI, estos probadores hablaban un total de 45 idiomas y representaban a 29 países.

La empresa afirma haber puesto en marcha varios mecanismos de seguridad. Por ejemplo, para evitar que el modelo se utilice para crear falsificaciones de audio, ha creado cuatro voces preestablecidas en colaboración con actores de doblaje. GPT-4o no suplanta ni genera voces ajenas.

Cuando OpenAI presentó por primera vez GPT-4o, la empresa se enfrentó a una reacción virulenta por el uso de una voz llamada Sky, que sonaba muy parecida a la de la actriz Scarlett Johansson. Johansson hizo público un comunicado en el que afirmaba que la empresa se había puesto en contacto con ella para pedirle permiso para utilizar su voz en el modelo, a lo que ella se negó. Dijo que le sorprendió oír una voz "inquietantemente parecida" a la suya en la demo de la modelo. OpenAI ha negado que la voz sea la de Johansson, pero ha suspendido el uso de Sky.

La empresa también está inmersa en varias demandas por supuesta infracción de derechos de autor. OpenAI afirma que ha adoptado filtros que reconocen y bloquean las solicitudes para generar música u otro audio protegido por derechos de autor. OpenAI también afirma que ha aplicado a GPT-4o los mismos mecanismos de seguridad que utiliza en su modelo basado en texto para evitar que infrinja las leyes y genere contenidos nocivos.

Más adelante, OpenAI planea incluir funciones más avanzadas, como vídeo y pantalla compartida, que podrían hacer más útil el asistente. En su demostración de mayo, los empleados apuntaron las cámaras de sus teléfonos a un trozo de papel y pidieron al modelo de IA que les ayudara a resolver ecuaciones matemáticas. También compartieron las pantallas de sus ordenadores y pidieron al modelo que les ayudara a resolver problemas de código informático. OpenAI explica que estas funciones no estarán disponibles ahora, sino en una fecha posterior no especificada.

Por: Melissa Heikkilä.

Sitio Fuente: MIT Technology Review

31 Julio 2024