28 de enero de 2020
  • Lunes, 27 de Enero
 

Google desgrana la tecnología de aprendizaje automático de su app grabadora que transcribe audio a texto

Aplicación grabadora de Google en un Pixel 4.
Aplicación grabadora de Google en un Pixel 4. - GOOGLE
Publicado 19/12/2019 13:45:11CET

   MADRID, 19 Dic. (Portaltic/EP) -

   Google ha explicado los detalles del funcionamiento de la tecnología de aprendizaje automático que emplea su aplicación grabadora Recorder, presente en los teléfonos Pixel de Google, que permite transcribir automáticamente a texto una conversación grabada en audio.

   Recorder no requiere de conexión a Internet y emplea el aprendizaje automático para varias funciones, que además de la transcripción a texto incluyen la capacidad de identificar el tipo de audio (música, habla o sonidos como aplausos, risas o silbidos) e indexar la información para que los usuarios puedan buscar segmentos concretos.

   Para su herramienta de transcripción, la grabadora de Google utiliza un modelo automático de reconocimiento de habla capaz de convertir a texto audios de varias horas de duración, indexando el texto junto con marcas de tiempo. De esta manera, el usuario puede hacer clic en una palabra y volver a la parte del archivo de sonido correspondiente, como ha explicado Google en un comunicado.

   Asimismo, Recorder muestra las ondas de sonido en colores diferentes en función del tipo de sonido, de manera que el contenido sea visualmente más sencillo de encontrar: azul para habla, naranja para música y gris para silbidos, entre otros. Cuando dos sonidos suenan al mismo tiempo, Google elige el color del más dominante.

   Para identificar el tipo de sonidos, la compañía estadounidense ha utilizado un tipo de redes neuronales conocidas como convolucionales ('Convolutional Neural Networks', o CNNs) que clasifican determinados sonidos, combinándolas posteriormente con base de datos para la detección de eventos de audio.

   Además, con el objetivo de clasificar el texto, la aplicación de Google sugiere tres palabras como título justo al finalizarse la grabación, seleccionando las partes que considera más importantes del discurso. Esto lo determina por la cantidad de veces que se haya repetido una palabra y por su género gramatical, priorizando los sustantivos.

Para leer más

  • Lunes, 27 de Enero
  • Viernes, 24 de Enero
 

Más leídasofrecido por

Logotipo de Cellnex
  1. 1

    Día de la Protección de Datos: tres consejos para luchar contra el fraude telefónico

  2. 2

    Avast recoge datos sensibles de navegación de los usuarios que vende a grandes empresas, según una investigación

  3. 3

    Microsoft se ve obligado a actualizar Windows 7 días después de dejar de dar soporte al sistema operativo

  4. 4

    Google comienza a cobrar al gobierno de EEUU por el acceso a datos de usuarios

  5. 5

    India supera a EEUU y se convierte en el segundo mercado de móviles más grande del mundo

La actualidad más visitada en EuropaPress logo: La actualidad más vista