Algoritmos sincronizan en vídeo realista discursos en audio de Obama

Barack Obama
Barack Obama - UNIVERSIDAD DE WASHINGTON
Europa Press Ciencia
Actualizado: jueves, 13 julio 2017 17:02

   MADRID, 13 Jul. (EUROPA PRESS) -

   El desafío en el campo de la visión por ordenador de convertir cortes de audio en video realista y sincronizado con los labios de la persona que las dice, ha recibido solución en forma de algoritmos.

   Un equipo de la Universidad de Washington generó con éxito un video altamente realista del ex presidente Barack Obama hablando de terrorismo, paternidad, creación de empleo y otros temas utilizando clips de audio de sus discursos, aprovechando vídeos que originalmente estaban dedicados tema diferente.

   "Estos tipos de resultados nunca han sido mostrados antes", dijo en un comunicado Ira Kemelmacher-Shlizerman, profesor asistente en la Escuela Paul W. Allen de Computación e Ingeniería de UW. "La conversión realista de audio a video tiene aplicaciones prácticas como mejorar la videoconferencia para reuniones, así como las futuristas, como ser capaz de mantener una conversación con una figura histórica en la realidad virtual mediante la creación de imágenes a partir de audio. Este es el tipo de avance que ayudará a habilitar los próximos pasos".

   En una forma visual de sincronización de labios, el sistema convierte los archivos de audio del habla de un individuo en formas realistas de la boca, que luego se injertan y mezclan con la cabeza de esa persona a partir de otro vídeo existente.

   El equipo eligió a Obama porque la técnica de aprendizaje de la máquina necesita el video disponible de la persona con la que aprender, y hay horas de videos presidenciales en el dominio público. "En el futuro video, las herramientas de chat como Skype o Messenger permitirán a cualquier persona recopilar videos que puedan ser utilizados para entrenar modelos informáticos", dijo Kemelmacher-Shlizerman.

   Debido a que el streaming de audio a través de Internet ocupa mucho menos ancho de banda que el vídeo, el nuevo sistema tiene el potencial de finalizar los chats de video que están constantemente agotando las conexiones.

   "Cuando ves Skype o Hangouts de Google, a menudo la conexión es tétrica y de baja resolución y muy desagradable, pero a menudo el audio es bastante bueno", dijo Steve Seitz, coautor y profesor de Allen School. "Así que si pudieras usar el audio para producir video de mucha mayor calidad, eso sería fantástico".

   Al invertir el proceso de alimentación de vídeo en la red en lugar de sólo audio - el equipo también podría desarrollar algoritmos que podrían detectar si un video es real o fabricado.

   La nueva herramienta de 'machine learning' hace un progreso significativo en la superación de lo que se conoce como el problema del "valle inquietante", que ha perseguido los esfuerzos para crear vídeo realista a partir de audio. Cuando las semejanzas humanas sintetizadas parecen ser casi reales - pero todavía logran de alguna manera perder la marca - la gente las encuentra espeluznantes o desagradables.

   "La gente es particularmente sensible a cualquier área de su boca que no parece realista", dijo la autora principal Supashan Suwajanakorn, doctrado en la Escuela Allen. "Si no se usan los dientes bien o la barbilla se mueve en el momento equivocado, la gente puede detectarlo de inmediato y va a parecer falso. Así que tienes que hacer la región de la boca perfectamente para ir más allá del valle inquietante".

Últimas noticias sobre estos temas

Contenido patrocinado