Los modelos de IA permiten a personas con discapacidad del habla comunicarse de forma fluida

Dos personas en una conversación
Dos personas en una conversación - PIXABAY/CC/RAWPIXEL
Publicado: viernes, 19 julio 2019 11:37

   MADRID, 19 Jul. (Portaltic/EP) -

   Google ha presentado su proyecto Parrotron, una red neuronal de extremo a extremo que transforma patrones de habla atípicos en un lenguaje sintetizado y fluido, y que esta dirigido a personas con discapacidades del habla.

   El proyecto Parrotron está centrado en el habla, y logra este proceso sin la necesidad de producir texto y omitiendo el paso de reconocimiento de señales del lenguaje (como el movimiento de los labios). El objetivo es que esta tecnología se pueda emplear entre humanos y con motores de reconocimiento de lenguaje automático (ASR, por sus siglas en inglés).

   Como explica Google en un comunicado publicado en su blog de Inteligencia Artificial, Parrotron es un modelo de secuencia a secuencia y basado en la atención, entrenado en dos fases utilizando dos recopilaciones paralelas de pares de voz de entrada/salida.

Para ello, los investigadores construyeron un modelo de conversión de voz a voz para el habla fluida estándar. Posteriormente personalizaron el modelo, adaptándolo a los patrones de voz atípicos del hablante objetivo. Recurrieron a datos paralelos derivados automáticamente con un sistema de síntesis de voz a texto (TTS).

   Google desarrolló varias pruebas del sistema Parrotron, entre ellas, una con un investigador y matemático de Google, Dimitri Kanevsky, de origen ruso y profundamente sordo de padres con audición normal, y con Aubrie Lee, una defensora de la inclusión de discapacitados que tiene una distrofia muscular.

   En el caso de Dimitri, se grabaron 15 horas de discurso, que se utilizaron para adaptar el modelo base a los matices específicos de su discurso. El sistema Parrotron le ayudó a ser comprendido tanto por los investigadores como por el sistema ASR de Google por igual. El funcionamiento del motor ASR de Google en la salida de Parrotron redujo significativamente la tasa de error de palabra del 89% al 32%.

   Aubrie aportó 1,5 horas de grabaciones de voz que ha sido clave para ejemplificar el exito esta tecnología de voz, y se pueden escuchar fragmentos de las grabaciones aquí.

Leer más acerca de: