Los audios falsos de la inteligencia artificial engañan a los humanos

COMPUTACIÓN / INTELIGENCIA ARTIFICIAL.

Un programa ha aprendido a generar sonidos para acompañar a vídeos cortos que resultan tan realistas que los humanos los confunden con los reales el 70% de las veces. Le ofrecemos un ejemplo para que se ponga prueba.

El aprendizaje automático está cambiando nuestra forma de relacionarnos con las imágenes y también los procesos para crearlas. Los investigadores han entrenado máquinas capaces de generar caras, dibujar caricaturas e incluso transferir el estilo de las pinturas a fotografías (ver ¿Qué pinta tendrá su cara dentro de 30 años? La inteligencia artificial lo sabe). A un paso de estas técnicas está la de crear videos de la misma manera, algo que ya se está empezando a conseguir.

Estos avances nos dirigen hacia un punto en el que una máquina pueda crear entornos virtuales de forma totalmente autónoma (ver La inteligencia artificial diseña videojuegos que superan la imaginación humana). Eso abre todo tipo de posibilidades para el futuro de la experiencia humana).

Pero hay un problema. El vídeo no es solo una experiencia visual, también es auditiva, por lo que generar audio realista es igual de importante. Entonces, una pregunta interesante es si las máquinas pueden generar convincentemente el componente de audio de un vídeo.

Hoy recibimos una respuesta gracias al trabajo del investigador de la Universidad de Carolina del Norte en Chapel Hill (EEUU) y Adobe Research Yipin Zhou y sus compañeros. El equipo ha entrenado un algoritmo de aprendizaje automático para generar pistas de audio realistas para vídeos cortos.

De hecho, estos sonidos parecen tan reales que engañan a la mayoría de los humanos, haciéndoles creer que son de verdad. Póngase a sí mismo a prueba con este vídeo y compruebe si es capaz de notar la diferencia.

Para ello, el equipo a utilizado el enfoque estándar del aprendizaje automático. Los algoritmos solo son tan buenos como los datos utilizados para entrenarlos, por lo que el primer paso consiste en crear un gran conjunto de datos etiquetados de alta calidad.

El equipo creó este conjunto de datos con un subconjunto de cortes de vídeo de una colección de Google llamada Audioset, que consta de más de dos millones de clips de 10 segundos de YouTube que incluyen pistas de audio. Estos videos están divididos en categorías etiquetadas por humanos que se centran en cosas como perros, motosierras, helicópteros y más.

Para entrenar la máquina, el equipo debe disponer de vídeos en los que la fuente de sonido es claramente visible. Por lo tanto, cualquier vídeo que contenga audio de eventos que transcurren fuera de pantalla no es adecuado. El equipo los filtró mediante crowdsourcing del servicio Mechanical Turk de Amazon para encontrar aquellos en los que la fuente de audio es claramente visible y domina la pista de audio.

Eso produjo un nuevo conjunto de datos con más de 28.000 vídeos, cada uno de aproximadamente siete segundos de duración, de 10 categorías diferentes.

A continuación, el equipo los utilizó para entrenar una máquina para reconocer las formas de onda asociadas a cada categoría y para reproducirlas desde cero utilizando una red neuronal llamada SampleRNN.

Finalmente, probaron los resultados al pedir a evaluadores humanos que calificaran la calidad del sonido que acompaña un vídeo y determinasen si había sido generado de manera real o artificial.

Los resultados sugieren que las máquinas pueden rendir bastante bien en esta tarea. La investigación detalla: "Nuestros experimentos demuestran que los sonidos generados son bastante realistas y tienen una buena sincronización temporal con las entradas visuales".

Y los evaluadores humanos parecen estar de acuerdo. "Las evaluaciones demuestran que más del 70% del sonido generado por nuestros modelos puede engañar a los humanos haciéndoles creer que son reales", afirman los investigadores.

Es un trabajo interesante que allana el camino para la edición automatizada de sonidos. Un problema común con los videos es que el ruido superfluo de una fuente fuera de pantalla puede arruinar un clip. Por lo tanto, será útil tener una forma de reemplazar automáticamente el sonido con una alternativa realista generada por máquina. Y con la participación de Adobe en esta investigación, puede que no pase mucho tiempo antes de que veamos este tipo de capacidad en el software comercial de edición de vídeos.

Por Emerging Technology From The Arxiv | traducido por Teresa Woods.

Sitio Fuente: Technology Review

26 Diciembre 2017

GataNegra
LatinoAmeriHermanos
ULSA
UDG

GEDISA