Google desgrana la tecnología de aprendizaje automático de su app grabadora que transcribe audio a texto

Aplicación grabadora de Google en un Pixel 4.

- GOOGLE

Publicado: jueves, 19 diciembre 2019 13:45

MADRID, 19 Dic. (Portaltic/EP) -

Google ha explicado los detalles del funcionamiento de la tecnología de aprendizaje automático que emplea su aplicación grabadora Recorder, presente en los teléfonos Pixel de Google, que permite transcribir automáticamente a texto una conversación grabada en audio.

Recorder no requiere de conexión a Internet y emplea el aprendizaje automático para varias funciones, que además de la transcripción a texto incluyen la capacidad de identificar el tipo de audio (música, habla o sonidos como aplausos, risas o silbidos) e indexar la información para que los usuarios puedan buscar segmentos concretos.

Para su herramienta de transcripción, la grabadora de Google utiliza un modelo automático de reconocimiento de habla capaz de convertir a texto audios de varias horas de duración, indexando el texto junto con marcas de tiempo. De esta manera, el usuario puede hacer clic en una palabra y volver a la parte del archivo de sonido correspondiente, como ha explicado Google en un comunicado.

Asimismo, Recorder muestra las ondas de sonido en colores diferentes en función del tipo de sonido, de manera que el contenido sea visualmente más sencillo de encontrar: azul para habla, naranja para música y gris para silbidos, entre otros. Cuando dos sonidos suenan al mismo tiempo, Google elige el color del más dominante.

Para identificar el tipo de sonidos, la compañía estadounidense ha utilizado un tipo de redes neuronales conocidas como convolucionales ('Convolutional Neural Networks', o CNNs) que clasifican determinados sonidos, combinándolas posteriormente con base de datos para la detección de eventos de audio.

Además, con el objetivo de clasificar el texto, la aplicación de Google sugiere tres palabras como título justo al finalizarse la grabación, seleccionando las partes que considera más importantes del discurso. Esto lo determina por la cantidad de veces que se haya repetido una palabra y por su género gramatical, priorizando los sustantivos.

Autonomías

Portales temáticos

Google desgrana la tecnología de aprendizaje automático de su app grabadora que transcribe audio a texto

Últimas noticias sobre estos temas

Contenido patrocinado

Más leídasofrecido por